T.51/ISO/CEI 6937 - T.51/ISO/IEC 6937

T.51
Jeux de caractères codés latins pour les services télématiques
Statut En force
Année commencée 1984
Dernière version (09/92)
septembre 1992
Organisation UIT-T
Comité Commission d'études VIII
Normes associées T.61 , ETS 300 706 , ISO/CEI 10367 , ISO/CEI 2022
Domaine codage
Licence Disponible gratuitement
Site Internet https://www.itu.int/rec/T-REC-T.51

T.51 / ISO/CEI 6937:2001 , Technologies de l'information — Jeu de caractères graphiques codés pour la communication de texte — Alphabet latin , est une extension multi-octets de l' ASCII , ou plutôt de l' ISO/CEI 646 -IRV. Il a été développé en commun avec l' UIT-T (alors CCITT ) pour les services télématiques sous le nom de T.51 , et est devenu une première norme ISO en 1983. Certains codes d'octet sont utilisés comme octets de tête pour les lettres avec des signes diacritiques ( accents ). La valeur de l'octet de tête indique souvent le signe diacritique de la lettre, et l'octet de suivi a alors la valeur ASCII de la lettre sur laquelle se trouve le signe diacritique.

Les architectes d'ISO/IEC 6937 étaient Hugh McGregor Ross , Peter Fenwick, Bernard Marti et Loek Zeckendorf .

ISO6937/2 définit 327 caractères trouvés dans les langues européennes modernes utilisant l' alphabet latin . Les caractères européens non latins, tels que le cyrillique et le grec , ne sont pas inclus dans la norme. De plus, certains signes diacritiques utilisés avec l'alphabet latin comme la virgule roumaine ne sont pas inclus, utilisant plutôt la cédille car aucune distinction entre la cédille et la virgule ci-dessous n'a été faite à l'époque.

L'IANA a enregistré les noms de jeu de caractères ISO_6937-2-25 et ISO_6937-2-add pour deux (anciennes) versions de cette norme (plus les codes de contrôle). Mais en pratique, ce codage de caractères n'est pas utilisé sur Internet.

Caractères à un octet

L'ensemble principal (première moitié) suivait à l'origine ISO 646-IRV avant la révision ISO/IEC 646:1991 , c'est-à-dire suivant principalement ASCII mais avec le caractère 0x24 toujours désigné comme un " signe de devise internationale " (¤) au lieu du signe dollar ($). L'édition 1992 de l'UIT T.51 permet aux services existants du CCITT de continuer à interpréter 0x24 comme le signe monétaire international, mais stipule que les nouvelles applications de télécommunication devraient l'utiliser pour le signe dollar (c'est-à-dire en suivant l'actuel ISO 646-IRV), et à la place représenter le signe de la devise internationale à l'aide du jeu supplémentaire.

Le jeu supplémentaire (deuxième moitié) contient une sélection de caractères graphiques espacés et non espacés, des symboles supplémentaires et quelques emplacements réservés pour une future normalisation.

Les deux sont des jeux de caractères graphiques ISO/IEC 2022 , le jeu principal étant un jeu de 94 codes et le jeu secondaire étant un jeu de 96 codes. Dans les contextes où les techniques d'extension de code ISO 2022 ne sont pas utilisées, l'ensemble principal est désigné comme l'ensemble G0 et invoqué sur GL ( 0x 2..0x7F), tandis que l'ensemble supplémentaire est désigné comme l'ensemble G2 et invoqué sur GR (0xA0 ..0xFF) dans un environnement 8 bits, ou en utilisant le code de contrôle 0x19 comme une seule équipe dans un environnement 7 bits. Cet encodage du code Single Shift Two correspond à son emplacement dans ISO-IR -106.

La séquence d'échappement ISO/IEC 2022 pour désigner l'ensemble supplémentaire d'ISO/IEC 6937 comme l'ensemble G2 est ESC . R(hex 1B 2E 52). L'ensemble supplémentaire ISO 6937/2:1983 plus ancien est enregistré en tant qu'ensemble de code 94 et désigné par G2 avec ESC * l(hex 1B 2A 6C).

Caractères à deux octets

Les lettres accentuées qui ne sont pas affectées de codes uniques dans l'ensemble primaire ou supplémentaire sont codées à l'aide de deux octets. Le premier octet, le "marque diacritique sans espacement", est suivi d'une lettre de l'ensemble de base, par exemple :

small e with acute accent (é) = [Acute]+e

La norme ITU T.51 attribue la colonne 4 du jeu supplémentaire (c'est -à- dire 0x C0–CF lorsqu'il est utilisé au format 8 bits) aux caractères diacritiques sans espacement. Cependant, ISO/IEC 6937 définit un répertoire de caractères entièrement spécifié, mappant une liste de séquences de composition aux noms de caractères ISO/IEC 10646 . Les octets isolés sans espacement ne sont pas inclus dans ce répertoire, bien que des variantes d'espacement des signes diacritiques non présents autrement en ASCII soient incluses, l'espace ASCII étant l'octet de piste. Par conséquent, seules certaines combinaisons d'octet de tête et d'octet de suivi sont conformes à la norme ISO/IEC.

Ce répertoire est également apposé sur la version ITU de la spécification en tant qu'Annexe A, bien que la version ITU ne le mentionne pas dans le texte principal. Il est décrit comme un « surensemble unifié » des répertoires de caractères latins. Il correspond au répertoire de l' ISO/CEI 10367 lorsque les ensembles ASCII, Latin-1 (ou Latin-5 ), Latin-2 et latins supplémentaires sont utilisés.

Ce système diffère également du système de caractères combinatoires Unicode en ce que le code diacritique précède la lettre (par opposition à la suivre), ce qui le rend plus similaire à ANSEL .

Une petite anomalie est que la lettre minuscule latine G avec cédille est codée comme si elle était avec un accent aigu, c'est-à-dire avec un octet de plomb 0xC2, car en raison de son descendant interférant avec une cédille, la lettre minuscule est généralement avec une virgule tournée au-dessus : Ģ ģ .

Au total, 13 signes diacritiques peuvent être suivis des caractères sélectionnés de l'ensemble principal :

Accent Code Deuxième personnage Résultat
La tombe 0xC1 AEIOUaeiou ÀÈÌÒÙàèìòù
Aigu 0xC2 ACEILNORSUYZacegilnorsuyz ÉÍĹŃÓŔŚÚÝŹáćéģíĺńóŕśúýź
Circonflexe 0xC3 ACEGHIJOSUWYaceghijosuwy ÂĈÊĜĤÎĴÔŜÛŴŶâĉêĝĥîĵôŝûŵŷ
Tilde 0xC4 AINOUAinou ĨÑÕŨãĩñõũ
Macron 0xC5 AEIOUaeiou āēīōū
Brève 0xC6 AGUAgu ??
Point 0xC7 CEGIZcegz ??
Umlaut ou diæresis 0xC8 AEIOUYaeiouy äëïöüÿ
Anneau 0xCA AUau ??
Cédille 0xCB CGKLNRSTcklnrst ÇĢĶĻŅŖŞŢçķļņŗşţ
Aiguë double 0xCD OUou ??
Ogonek 0xCE AEIUaeiu ??
Caron 0xCF CDELNRSTZcdelnrstz čďěľňřšťž

Mise en page de la page de codes

La référence à la combinaison de caractères dans la plage U+0300—U+036F pour les codes dans la plage 0xC1—0xCF ci-dessous est soumise aux mises en garde mentionnées ci-dessus ; ils ne peuvent pas simplement être mappés sur les points de code répertoriés. De plus, Unicode distingue 0xE2 en D avec un trait et une majuscule Eth , qui ont généralement un aspect différent pour les lettres minuscules (0xF2 et 0xF3).

L'ancienne édition 1988 de l' UIT T.51 a défini deux versions du jeu supplémentaire, avec la première version manque l' espace insécable , trait d' union , signe pas ( ¬ ) et d'un bar cassé ( | ) présente dans la deuxième version. La première version a été définie comme une extension de l' ensemble supplémentaire T.61 , et la deuxième version comme une extension de la première version. L'édition actuelle (1992) n'inclut que la deuxième version, désapprouve certains caractères et met à jour l'ensemble principal vers l'actuel ISO-646-IRV ( ASCII ), bien que les services télématiques existants soient autorisés à conserver l'ancien comportement.

ISO/IEC 6937 ou ITU T.51 (latin)
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _UNE _B _C _RÉ _E _F
0_
1_
2_ SP
0020
!
0021
"
0022
#
0023
$ / ¤
0024 / 00A4
%
0025
&
0026
'
0027
(
0028
)
0029
*
002A
+
002B
,
002C
-
002D
.
002E
/
002F
3_ 0
0030
1
0031
2
0032
3
0033
4
0034
5
0035
6
0036
7
0037
8
0038
9
0039
:
003A
;
003B
<
003C
=
003D
>
003E
?
003F
4_ @
0040
Un
0041
B
0042
C
0043
D
0044
E
0045
F
0046
G
0047
H
0048
Je
0049
J
004A
K
004B
L
004C
M
004D
N
004E
O
004F
5_ P
0050
Q
0051
R
0052
S
0053
T
0054
U
0055
V
0056
W
0057
X
0058
Y
0059
Z
005A
[
005B
\
005C
]
005D
^
005E
_
005F
6_ `
0060
un
0061
b
0062
c
0063
d
0064
e
0065
f
0066
g
0067
h
0068
je
0069
j
006A
k
006B
l
006C
m
006D
n
006E
o
006F
7_ p
0070
q
0071
r
0072
s
0073
t
0074
u
0075
v
0076
avec
0077
x
0078
et
0079
z
007A
{
007B
|
007C
}
007D
~
007E
8_
9_
UNE_ NBSP
00A0
¡
00A1
¢
00A2
£
00A3
0024 $
¥
00A5
#
0023
§
00A7
¤
00A4
'
2018
"
201C
«
00AB

2190

2191

2192

2193
B_ °
00B0
±
00B1
²
00B2
³
00B3
×
00D7
μ
00B5

00B6
·
00B7
÷
00F7
'
2019

201D
»
00BB
¼
00BC
½
00BJ
¾
00BE
¿
00BF
C_ 0300
0301
0302
0303
̄
0304
̆
0306
̇
0307
̈
0308
̊
030A
̧
0327
0332
̋
030B
̨
0328
̌
030C
RÉ_ -
2015
¹
00B9
®
00AE
©
00A9

2122

266A
¬
00AC
|
00A6

215B

215C

215D

215E
E_ Ω
2126
Æ
00C6
Đ / Ð
0110 / 00D0
ª
00AA
Ħ
0126
IJ
0132
Ŀ
013F
Ł
0141
Ø
00D8
Œ
0152
º
00BA
Þ
00DE
Ŧ
0166
Ŋ
014A
ʼn
0149
F_ ĸ
0138
æ
00E6
Đ
0111
ð
00F0
ħ
0127
ı
0131
ij
0133
Ŀ
0140
ł
0142
ø
00F8
œ
0153
ß
00DF
þ
00FE
Ŧ
0167
ŋ
014B
TIMIDE
00AD

  Lettre  Nombre  Ponctuation  symbole  Autre  Indéfini  Différences avec T.61

Version vidéotex

Les versions du jeu supplémentaire utilisé par la norme ITU T.101 pour vidéotex sont basées sur le premier ensemble supplémentaire de l'édition 1988 de la T.51.

L'ensemble par défaut G2 pour la syntaxe des données 2 ajoute un à 0xC0, pour la combinaison avec les codes d'un grec ensemble primaire.

L'ensemble supplémentaire de données Syntaxe 3 ajoute des marques non-espacement pour le surlignage et solidus et plusieurs caractères semi - graphiques .

Version ETS 300 706

La norme ETS 300 706 pour le télétexte du système mondial fonde son ensemble G2 sur l'ISO 6937. Il s'agit d'un surensemble de l'ensemble supplémentaire de T.61 et d'un surensemble du premier ensemble supplémentaire de l'édition 1988 de T.51, mais se heurte à l'édition actuelle de T.51 dans certaines positions. Les codes diacritiques dans la version ETS sont spécifiés comme étant "pour association avec" des caractères du jeu G0 en cours d'utilisation , tels que US-ASCII ou BS_viewdata . Cette version est présentée dans le tableau ci-dessous.

Télétexte du système mondial, ensemble Latin G2 (ETS 300 706:1997)
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _UNE _B _C _RÉ _E _F
2_/A_ SP
00A0
¡
00A1
¢
00A2
£
00A3
0024 $
¥
00A5
#
0023
§
00A7
¤
00A4
'
2018
"
201C
«
00AB

2190

2191

2192

2193
3_/B_ °
00B0
±
00B1
²
00B2
³
00B3
×
00D7
μ
00B5

00B6
·
00B7
÷
00F7
'
2019

201D
»
00BB
¼
00BC
½
00BJ
¾
00BE
¿
00BF
4_/C_ 0300
0301
0302
0303
̄
0304
̆
0306
̇
0307
̈
0308
̣̣
0323
̊
030A
̧
0327
0332
̋
030B
̨
0328
̌
030C
5_/D_ -
2015
¹
00B9
®
00AE
©
00A9

2122

266A

20A0

2030
α
03B1

215B

215C

215D

215E
6_/E_ Ω
2126
Æ
00C6
Đ / Ð
0110 / 00D0
ª
00AA
Ħ
0126
IJ
0132
Ŀ
013F
Ł
0141
Ø
00D8
Œ
0152
º
00BA
Þ
00DE
Ŧ
0166
Ŋ
014A
ʼn
0149
7_/F_ ĸ
0138
æ
00E6
Đ
0111
ð
00F0
ħ
0127
ı
0131
ij
0133
Ŀ
0140
ł
0142
ø
00F8
œ
0153
ß
00DF
þ
00FE
Ŧ
0167
ŋ
014B

25A0

  Lettre  Nombre  Ponctuation  symbole  Autre  Indéfini  Différences avec T.51

Voir également

Notes de bas de page

Les références

Liens externes