Sous-échantillonnage chroma - Chroma subsampling

Chroma sous - échantillonnage est la pratique de codage des images en mettant en œuvre une résolution moindre pour chroma informations que pour Luma informations, en profitant de l'acuité inférieure du système visuel humain des différences de couleurs que pour la luminance.

Il est utilisé dans de nombreux schémas de codage vidéo - analogiques et numériques - ainsi que dans le codage JPEG .

Raisonnement

En taille réelle , cette image montre la différence entre quatre schémas de sous-échantillonnage. Notez à quel point les images en couleur sont similaires. La rangée inférieure montre la résolution des informations de couleur.

Les signaux numériques sont souvent compressés pour réduire la taille du fichier et gagner du temps de transmission. Étant donné que le système visuel humain est beaucoup plus sensible aux variations de luminosité que de couleur, un système vidéo peut être optimisé en consacrant plus de bande passante à la composante luma (généralement notée Y'), qu'aux composantes de différence de couleur Cb et Cr. Dans les images compressées, par exemple, le schéma Y'CbCr 4:2:2 nécessite les deux tiers de la bande passante du R'G'B' "4:4:4" non sous-échantillonné . Cette réduction n'entraîne pratiquement aucune différence visuelle telle que perçue par le spectateur.

Comment fonctionne le sous-échantillonnage

Aux distances d'observation normales, il n'y a pas de perte perceptible en cas d' échantillonnage des détails de couleur à un taux inférieur, c'est-à-dire avec une résolution inférieure. Dans les systèmes vidéo, cela est réalisé grâce à l'utilisation de composants de différence de couleur. Le signal est divisé en une composante luma (Y') et deux composantes de différence de couleur ( chroma ). Diverses méthodes de filtrage peuvent être utilisées pour obtenir les valeurs de chrominance à résolution réduite.

La luminance (Y') se différencie de la luminance (Y) par la présence d' une correction gamma dans son calcul, d'où le symbole premier ajouté ici. Un signal corrigé gamma a l'avantage d'émuler la sensibilité logarithmique de la vision humaine, avec plus de niveaux dédiés aux niveaux les plus sombres que les plus clairs. De ce fait, il est omniprésent dans le signal source tristimulus , l'entrée R'G'B'. Des exemples de tels espaces colorimétriques incluent sRGB , le TV Rec. 601 , Rec. 709 et Rec. 2020 ; le concept est également généralisé aux fonctions de transfert optique dans la Rec. 2020 .

Systèmes et ratios d'échantillonnage

Le schéma de sous-échantillonnage est généralement exprimé sous la forme d'un rapport en trois parties J : a : b (par exemple 4:2:2) ou quatre parties, si le canal alpha est présent (par exemple 4:2:2:4), qui décrivent le nombre de échantillons de luminance et de chrominance dans une région conceptuelle de J pixels de large et 2 pixels de haut. Les pièces sont (dans leur ordre respectif) :

  • J : référence d'échantillonnage horizontal (largeur de la région conceptuelle). En général, 4.
  • a : nombre d'échantillons de chrominance (Cr, Cb) dans la première rangée de J pixels.
  • b : nombre de changements d'échantillons de chrominance (Cr, Cb) entre la première et la deuxième rangée de J pixels. Notez que b doit être nul ou égal à a (sauf dans de rares cas irréguliers comme 4:4:1 et 4:2:1, qui ne suivent pas cette convention).
  • Alpha : facteur horizontal (par rapport au premier chiffre). Peut être omis si le composant alpha n'est pas présent, et est égal à J lorsqu'il est présent.

Cette notation n'est pas valable pour toutes les combinaisons et a des exceptions, par exemple 4:1:0 (où la hauteur de la région n'est pas de 2 pixels, mais de 4 pixels, donc si 8 bits par composant sont utilisés, le média serait de 9 bits par pixels) et 4:2:1.


4:1:1 4:2:0 4:2:2 4:4:4 4:4:0
Y'CrCb  
 
= = = = =
Vous  
 
+ + + + +
1 2 3 4  J = 4 1 2 3 4  J = 4 1 2 3 4  J = 4 1 2 3 4  J = 4 1 2 3 4  J = 4
(Cr, Cb) 1 a = 1 1 2 a = 2 1 2 a = 2 1 2 3 4 a = 4 1 2 3 4 a = 4
1 b = 1 b = 0 1 2 b = 2 1 2 3 4 b = 4 b = 0
¼ résolution horizontale,
pleine résolution verticale
½ résolution horizontale,
½ résolution verticale
½ résolution horizontale,
pleine résolution verticale
pleine résolution horizontale,
pleine résolution verticale
pleine résolution horizontale,
½ résolution verticale

Les exemples de cartographie donnés ne sont que théoriques et à titre illustratif. Notez également que le diagramme n'indique aucun filtrage de chrominance, qui doit être appliqué pour éviter l' aliasing .

Pour calculer le facteur de bande passante requis par rapport à 4:4:4 (ou 4:4:4:4), il faut additionner tous les facteurs et diviser le résultat par 12 (ou 16, si alpha est présent).

Types d'échantillonnage et de sous-échantillonnage

4:4:4

Chacune des trois composantes Y'CbCr a la même fréquence d'échantillonnage, il n'y a donc pas de sous-échantillonnage de chrominance. Ce schéma est parfois utilisé dans les scanners de films haut de gamme et la post-production cinématographique.

Notez que "4:4:4" peut plutôt faire référence à tort à l' espace colorimétrique R'G'B' , qui implicitement n'a pas non plus de sous-échantillonnage de chrominance (sauf en JPEG, R'G'B' peut être sous-échantillonné). Les formats tels que HDCAM SR peuvent enregistrer 4:4:4 R'G'B' sur HD-SDI dual-link .

4:2:2

Les deux composantes de chrominance sont échantillonnées à la moitié de la fréquence d'échantillonnage horizontale de la luminance : la résolution de chrominance horizontale est réduite de moitié. Cela réduit d'un tiers la bande passante d'un signal vidéo non compressé.

De nombreux formats et interfaces vidéo numériques haut de gamme utilisent ce schéma :

4:2:1

Ce mode d'échantillonnage n'est pas exprimable en notation J:a:b. "4:2:1" est un terme obsolète d'un schéma de notation précédent, et très peu de codecs logiciels ou matériels l'utilisent. La résolution horizontale de Cb est la moitié de celle de Cr (et un quart de la résolution horizontale de Y ).

4:1:1

Dans le sous-échantillonnage de chrominance 4:1:1, la résolution de couleur horizontale est divisée en quatre et la bande passante est divisée par deux par rapport à l'absence de sous-échantillonnage de chrominance. Initialement, le sous-échantillonnage de chrominance 4:1:1 du format DV n'était pas considéré comme une qualité de diffusion et n'était acceptable que pour les applications bas de gamme et grand public. Cependant, les formats basés sur le DV (dont certains utilisent un sous-échantillonnage de chrominance 4::1:1) ont été utilisés professionnellement dans la collecte d'informations électroniques et dans les serveurs de diffusion. La DV a également été utilisée sporadiquement dans les longs métrages et dans la cinématographie numérique .

Dans le système NTSC, si la luminance est échantillonnée à 13,5 MHz, cela signifie que les signaux Cr et Cb seront chacun échantillonnés à 3,375 MHz, ce qui correspond à une bande passante Nyquist maximale de 1,6875 MHz, alors que le traditionnel « analogique de diffusion haut de gamme Encodeur NTSC" aurait une bande passante Nyquist de 1,5 MHz et 0,5 MHz pour les canaux I/Q. Cependant, dans la plupart des équipements, en particulier les téléviseurs bon marché et les magnétoscopes VHS/Betamax, les canaux de chrominance n'ont que la bande passante de 0,5 MHz pour Cr et Cb (ou de manière équivalente pour I/Q). Ainsi, le système DV fournit en fait une bande passante de couleur supérieure par rapport aux meilleures spécifications analogiques composites pour NTSC, bien qu'il n'ait que 1/4 de la bande passante de chrominance d'un signal numérique "complet".

Les formats qui utilisent le sous-échantillonnage de chrominance 4:1:1 incluent :

4:2:0

En 4:2:0, l'échantillonnage horizontal est doublé par rapport à 4:1:1, mais comme les canaux Cb et Cr ne sont échantillonnés que sur chaque ligne alternative dans ce schéma, la résolution verticale est réduite de moitié. Le débit de données est donc le même. Cela correspond assez bien au système de codage couleur PAL , car il n'a que la moitié de la résolution de chrominance verticale du NTSC . Il s'intégrerait également extrêmement bien avec le système de codage couleur SECAM , car comme ce format, 4:2:0 ne stocke et ne transmet qu'un canal de couleur par ligne (l'autre canal étant récupéré de la ligne précédente). Cependant, peu d'équipements ont été réellement produits pour produire un signal vidéo analogique SECAM. En général, les territoires SECAM doivent utiliser un affichage compatible PAL ou un transcodeur pour convertir le signal PAL en SECAM pour l'affichage.

Différentes variantes de configurations de chrominance 4:2:0 se trouvent dans :

Cb et Cr sont chacun sous-échantillonnés à un facteur 2 à la fois horizontalement et verticalement.

Il existe trois variantes de schémas 4:2:0, avec des emplacements horizontaux et verticaux différents.

  • En MPEG-2, MPEG-4 et AVC Cb et Cr sont placés horizontalement. Cb et Cr sont situés entre les pixels dans la direction verticale (situés de manière interstitielle).
  • En JPEG/JFIF, H.261 et MPEG-1, Cb et Cr sont situés de manière interstitielle, à mi-chemin entre les échantillons de luminance alternés.
  • En 4:2:0 DV, Cb et Cr sont co-situés dans la direction horizontale. Dans le sens vertical, ils sont co-situés sur des lignes alternées. C'est aussi ce qui est utilisé dans HEVC dans les contenus BT.2020 et BT.2100 (notamment sur les Blu-ray). Aussi appelé en haut à gauche.

La plupart des formats vidéo numériques correspondant au PAL utilisent un sous-échantillonnage de chrominance 4:2:0, à l'exception de DVCPRO25, qui utilise un sous-échantillonnage de chrominance 4:1:1. Les schémas 4:1:1 et 4:2:0 réduisent de moitié la bande passante par rapport à l'absence de sous-échantillonnage de chrominance.

Avec du matériel entrelacé , le sous-échantillonnage de chrominance 4:2:0 peut entraîner des artefacts de mouvement s'il est mis en œuvre de la même manière que pour le matériel progressif. Les échantillons de luminance sont dérivés d'intervalles de temps séparés, tandis que les échantillons de chrominance seraient dérivés des deux intervalles de temps. C'est cette différence qui peut entraîner des artefacts de mouvement. La norme MPEG-2 permet un schéma d'échantillonnage entrelacé alternatif, où 4:2:0 est appliqué à chaque champ (pas aux deux champs à la fois). Cela résout le problème des artefacts de mouvement, réduit de moitié la résolution de chrominance verticale et peut introduire des artefacts de type peigne dans l'image.

444-original-single-field.png
Original. Cette image montre un seul champ. Le texte en mouvement a un flou de mouvement qui lui est appliqué.

420-progressive-single-field.png
Échantillonnage progressif 4:2:0 appliqué au matériel entrelacé en mouvement . Notez que la chrominance mène et suit le texte en mouvement. Cette image montre un seul champ.

420-interlaced-single-field.png
Échantillonnage entrelacé 4:2:0 appliqué au matériel entrelacé en mouvement . Cette image montre un seul champ.

Dans le schéma entrelacé 4:2:0, cependant, la résolution verticale de la chrominance est approximativement réduite de moitié, car les échantillons de chrominance décrivent effectivement une zone de 2 échantillons de large sur 4 échantillons de haut au lieu de 2×2. De plus, le déplacement spatial entre les deux champs peut entraîner l'apparition d'artefacts de chrominance en forme de peigne.

420-original444.png
Image fixe originale.

420-progressif-encore.png
Échantillonnage progressif 4:2:0 appliqué à une image fixe. Les deux champs sont affichés.

420-interlaced-still.png
Échantillonnage entrelacé 4:2:0 appliqué à une image fixe. Les deux champs sont affichés.

Si le matériau entrelacé doit être désentrelacé, les artefacts de chrominance en forme de peigne (de l'échantillonnage entrelacé 4:2:0) peuvent être supprimés en brouillant la chrominance verticalement.

4:1:0

Ce ratio est possible, et certains codecs le prennent en charge, mais il n'est pas largement utilisé. Ce rapport utilise la moitié des résolutions de couleurs verticales et un quart des résolutions de couleurs horizontales, avec seulement un huitième de la bande passante des résolutions de couleurs maximales utilisées. La vidéo non compressée dans ce format avec quantification 8 bits utilise 10 octets pour chaque macropixel (soit 4 × 2 pixels). Il a la bande passante de chrominance équivalente d'un signal PAL I décodé avec un décodeur de ligne à retard, et toujours très supérieur au NTSC.

  • Certains codecs vidéo peuvent fonctionner en 4:1:0,5 ou 4:1:0,25 en option, afin de permettre une qualité similaire à la VHS.

3:1:1

Utilisé par Sony dans ses enregistreurs HDCAM Haute Définition (pas HDCAM SR). Dans la dimension horizontale, la luminance est échantillonnée horizontalement aux trois quarts de la fréquence d'échantillonnage Full HD – 1440 échantillons par ligne au lieu de 1920. La chrominance est échantillonnée à 480 échantillons par ligne, un tiers de la fréquence d'échantillonnage luma.

Dans la dimension verticale, la luminance et la chrominance sont échantillonnées à la fréquence d'échantillonnage Full HD (1080 échantillons verticalement).

Artefacts

Image originale sans sous-échantillonnage de couleur. Zoom à 200%.
Image après sous-échantillonnage des couleurs (codec Sony Vegas DV, filtrage par boîte.)
Notez le saignement en légèreté près des bordures.

Le sous-échantillonnage de la chrominance souffre de deux principaux types d'artefacts, provoquant une dégradation plus notable que prévu lorsque les couleurs changent brusquement.

Erreur gamma

Les signaux à correction gamma comme Y'CbCr ont un problème où les erreurs de chrominance « saignent » dans la luminance. Dans ces signaux, une faible saturation fait apparaître une couleur moins brillante qu'une couleur avec une luminance équivalente. En conséquence, lorsqu'une couleur saturée se mélange avec une couleur non saturée ou complémentaire, une perte de luminance se produit à la frontière. Cela peut être vu dans l'exemple entre le magenta et le vert. Pour arriver à un ensemble de valeurs sous-échantillonnées qui ressemble davantage à l'original, il est nécessaire d'annuler la correction gamma, d'effectuer le calcul, puis de revenir dans l'espace corrigé gamma. Des approximations plus efficaces sont également possibles, comme avec une moyenne pondérée par luma ou de manière itérative avec des tables de recherche dans WebP et la fonction "Sharp YUV" de sjpeg.

Couleurs hors gamme

Un autre artefact qui peut se produire avec le sous-échantillonnage de la chrominance est que des couleurs hors gamme peuvent se produire lors de la reconstruction de la chrominance. Supposons que l'image consiste en une alternance de lignes rouges et noires de 1 pixel et que le sous-échantillonnage omette la chrominance pour les pixels noirs. La chrominance des pixels rouges sera reconstruite sur les pixels noirs, ce qui fait que les nouveaux pixels ont des valeurs rouges positives et des valeurs vertes et bleues négatives . Comme les écrans ne peuvent pas émettre de lumière négative (la lumière négative n'existe pas), ces valeurs négatives seront effectivement écrêtées et la valeur de luminance résultante sera trop élevée. Des artefacts similaires apparaissent dans l'exemple moins artificiel de gradation près d'une limite rouge/noir assez nette.

D'autres types de filtrage pendant le sous-échantillonnage peuvent également faire sortir les couleurs de la gamme.

Terminologie

Le terme Y'UV fait référence à un schéma de codage TV analogique (ITU-R Rec. BT.470) tandis que Y'CbCr fait référence à un schéma de codage numérique. Une différence entre les deux est que les facteurs d'échelle sur les composants de chrominance (U, V, Cb et Cr) sont différents. Cependant, le terme YUV est souvent utilisé à tort pour désigner le codage Y'CbCr. Par conséquent, des expressions telles que "4:2:2 YUV" font toujours référence à 4:2:2 Y'CbCr, car il n'y a tout simplement pas de 4:x:x dans le codage analogique (comme YUV). Les formats de pixels utilisés dans Y'CbCr peuvent également être appelés YUV, par exemple yuv420p, yuvj420p et bien d'autres.

Dans le même ordre d'idées, le terme luminance et le symbole Y sont souvent utilisés à tort pour désigner la luminance, qui est désignée par le symbole Y'. Notez que le luma (Y ') dévie ingénierie vidéo de la luminance (Y) de la science des couleurs (tel que défini par la CIE ). Luma est formé comme la somme pondérée des composants RVB corrigés gamma (tristimulus). La luminance est formée comme une somme pondérée de composants RVB linéaires (tristimulus).

En pratique, le symbole CIE Y est souvent utilisé à tort pour désigner luma. En 1993, SMPTE a adopté la directive d'ingénierie EG 28, clarifiant les deux termes. Notez que le symbole premier ' est utilisé pour indiquer la correction gamma.

De même, la chrominance de l'ingénierie vidéo diffère de la chrominance de la science des couleurs. La chrominance de l'ingénierie vidéo est formée de composants tristimulus pondérés (correction gamma, OETF), et non de composants linéaires. Dans la pratique de l'ingénierie vidéo, les termes chrominance , chrominance et saturation sont souvent utilisés de manière interchangeable pour désigner la chrominance, mais ce n'est pas une bonne pratique, comme le dit la Rec. UIT-T H.273.

Histoire

Le sous-échantillonnage chroma a été développé dans les années 1950 par Alda Bedford pour le développement de la télévision couleur par RCA , qui est devenue la norme NTSC ; La séparation luma-chroma a été développée plus tôt, en 1938 par Georges Valensi . Grâce à des études, il a montré que l'œil humain n'a une haute résolution que pour le noir et le blanc, un peu moins pour les couleurs "moyennes" comme les jaunes et les verts, et beaucoup moins pour les couleurs de fin de spectre, les rouges et les bleus. L'utilisation de ces connaissances a permis à RCA de développer un système dans lequel ils ont rejeté la plupart du signal bleu après qu'il vienne de la caméra, gardant la plupart du vert et seulement une partie du rouge ; il s'agit d'un sous-échantillonnage de chrominance dans l' espace colorimétrique YIQ et est à peu près analogue au sous-échantillonnage 4:2:1, en ce qu'il a une résolution décroissante pour la luminance, le jaune/vert et le rouge/bleu.

Voir également

Les références

Liens externes