Quando un video è compresso la maggior parte dei frame non contiene le informazioni complete dell'immagine, ma soltanto informazioni aggiuntive rispetto al frame precedente/successivo, sfruttando il fatto che frame vicini sono molto simili (ovviamente cambi di scena esclusi).
Sarebbe complesso spiegarne il reale funzionamento, specialmente per l'H264, mi limito a fare un'esempio estremamente semplificato,
frame 1: immagine completa
frame 2: variazioni rispetto a frame 1
frame 3: variazioni rispetto a frame 1
frame 4: variazioni rispetto a frame 1
frame 5: immagine completa
frame 6: variazioni rispetto a frame 5
ecc, così facendo i frame 1 e 5 peseranno parecchio mentre gli altri peseranno molto meno.
In questo modo se parte dell'immagine è fissa, per quella parte sarà necessaria poca banda (nessun cambiamento tra un frame e l'altro) che potrà in questo modo essere dirottata sulle parti d'immagine in movimento. Se poi oltre a essere fissa è anche monocolore (come nel nostro caso le bande nere), c'è un risparmio ulteriore.
Per chi volesse approfondire:
http://en.wikipedia.org/wiki/Inter_frame (in inglese)