T.51/ISO/CEI 6937 - T.51/ISO/IEC 6937
Jeux de caractères codés latins pour les services télématiques | |
Statut | En force |
---|---|
Année commencée | 1984 |
Dernière version | (09/92) septembre 1992 |
Organisation | UIT-T |
Comité | Commission d'études VIII |
Normes associées | T.61 , ETS 300 706 , ISO/CEI 10367 , ISO/CEI 2022 |
Domaine | codage |
Licence | Disponible gratuitement |
Site Internet | https://www.itu.int/rec/T-REC-T.51 |
T.51 / ISO/CEI 6937:2001 , Technologies de l'information — Jeu de caractères graphiques codés pour la communication de texte — Alphabet latin , est une extension multi-octets de l' ASCII , ou plutôt de l' ISO/CEI 646 -IRV. Il a été développé en commun avec l' UIT-T (alors CCITT ) pour les services télématiques sous le nom de T.51 , et est devenu une première norme ISO en 1983. Certains codes d'octet sont utilisés comme octets de tête pour les lettres avec des signes diacritiques ( accents ). La valeur de l'octet de tête indique souvent le signe diacritique de la lettre, et l'octet de suivi a alors la valeur ASCII de la lettre sur laquelle se trouve le signe diacritique.
Les architectes d'ISO/IEC 6937 étaient Hugh McGregor Ross , Peter Fenwick, Bernard Marti et Loek Zeckendorf .
ISO6937/2 définit 327 caractères trouvés dans les langues européennes modernes utilisant l' alphabet latin . Les caractères européens non latins, tels que le cyrillique et le grec , ne sont pas inclus dans la norme. De plus, certains signes diacritiques utilisés avec l'alphabet latin comme la virgule roumaine ne sont pas inclus, utilisant plutôt la cédille car aucune distinction entre la cédille et la virgule ci-dessous n'a été faite à l'époque.
L'IANA a enregistré les noms de jeu de caractères ISO_6937-2-25 et ISO_6937-2-add pour deux (anciennes) versions de cette norme (plus les codes de contrôle). Mais en pratique, ce codage de caractères n'est pas utilisé sur Internet.
Caractères à un octet
L'ensemble principal (première moitié) suivait à l'origine ISO 646-IRV avant la révision ISO/IEC 646:1991 , c'est-à-dire suivant principalement ASCII mais avec le caractère 0x24 toujours désigné comme un " signe de devise internationale " (¤) au lieu du signe dollar ($). L'édition 1992 de l'UIT T.51 permet aux services existants du CCITT de continuer à interpréter 0x24 comme le signe monétaire international, mais stipule que les nouvelles applications de télécommunication devraient l'utiliser pour le signe dollar (c'est-à-dire en suivant l'actuel ISO 646-IRV), et à la place représenter le signe de la devise internationale à l'aide du jeu supplémentaire.
Le jeu supplémentaire (deuxième moitié) contient une sélection de caractères graphiques espacés et non espacés, des symboles supplémentaires et quelques emplacements réservés pour une future normalisation.
Les deux sont des jeux de caractères graphiques ISO/IEC 2022 , le jeu principal étant un jeu de 94 codes et le jeu secondaire étant un jeu de 96 codes. Dans les contextes où les techniques d'extension de code ISO 2022 ne sont pas utilisées, l'ensemble principal est désigné comme l'ensemble G0 et invoqué sur GL ( 0x 2..0x7F), tandis que l'ensemble supplémentaire est désigné comme l'ensemble G2 et invoqué sur GR (0xA0 ..0xFF) dans un environnement 8 bits, ou en utilisant le code de contrôle 0x19 comme une seule équipe dans un environnement 7 bits. Cet encodage du code Single Shift Two correspond à son emplacement dans ISO-IR -106.
La séquence d'échappement ISO/IEC 2022 pour désigner l'ensemble supplémentaire d'ISO/IEC 6937 comme l'ensemble G2 est ESC . R
(hex 1B 2E 52
). L'ensemble supplémentaire ISO 6937/2:1983 plus ancien est enregistré en tant qu'ensemble de code 94 et désigné par G2 avec ESC * l
(hex 1B 2A 6C
).
Caractères à deux octets
Les lettres accentuées qui ne sont pas affectées de codes uniques dans l'ensemble primaire ou supplémentaire sont codées à l'aide de deux octets. Le premier octet, le "marque diacritique sans espacement", est suivi d'une lettre de l'ensemble de base, par exemple :
small e with acute accent (é) = [Acute]+e
La norme ITU T.51 attribue la colonne 4 du jeu supplémentaire (c'est -à- dire 0x C0–CF lorsqu'il est utilisé au format 8 bits) aux caractères diacritiques sans espacement. Cependant, ISO/IEC 6937 définit un répertoire de caractères entièrement spécifié, mappant une liste de séquences de composition aux noms de caractères ISO/IEC 10646 . Les octets isolés sans espacement ne sont pas inclus dans ce répertoire, bien que des variantes d'espacement des signes diacritiques non présents autrement en ASCII soient incluses, l'espace ASCII étant l'octet de piste. Par conséquent, seules certaines combinaisons d'octet de tête et d'octet de suivi sont conformes à la norme ISO/IEC.
Ce répertoire est également apposé sur la version ITU de la spécification en tant qu'Annexe A, bien que la version ITU ne le mentionne pas dans le texte principal. Il est décrit comme un « surensemble unifié » des répertoires de caractères latins. Il correspond au répertoire de l' ISO/CEI 10367 lorsque les ensembles ASCII, Latin-1 (ou Latin-5 ), Latin-2 et latins supplémentaires sont utilisés.
Ce système diffère également du système de caractères combinatoires Unicode en ce que le code diacritique précède la lettre (par opposition à la suivre), ce qui le rend plus similaire à ANSEL .
Une petite anomalie est que la lettre minuscule latine G avec cédille est codée comme si elle était avec un accent aigu, c'est-à-dire avec un octet de plomb 0xC2, car en raison de son descendant interférant avec une cédille, la lettre minuscule est généralement avec une virgule tournée au-dessus : Ģ ģ .
Au total, 13 signes diacritiques peuvent être suivis des caractères sélectionnés de l'ensemble principal :
Accent | Code | Deuxième personnage | Résultat |
---|---|---|---|
La tombe | 0xC1 | AEIOUaeiou | ÀÈÌÒÙàèìòù |
Aigu | 0xC2 | ACEILNORSUYZacegilnorsuyz | ÉÍĹŃÓŔŚÚÝŹáćéģíĺńóŕśúýź |
Circonflexe | 0xC3 | ACEGHIJOSUWYaceghijosuwy | ÂĈÊĜĤÎĴÔŜÛŴŶâĉêĝĥîĵôŝûŵŷ |
Tilde | 0xC4 | AINOUAinou | ĨÑÕŨãĩñõũ |
Macron | 0xC5 | AEIOUaeiou | āēīōū |
Brève | 0xC6 | AGUAgu | ?? |
Point | 0xC7 | CEGIZcegz | ?? |
Umlaut ou diæresis | 0xC8 | AEIOUYaeiouy | äëïöüÿ |
Anneau | 0xCA | AUau | ?? |
Cédille | 0xCB | CGKLNRSTcklnrst | ÇĢĶĻŅŖŞŢçķļņŗşţ |
Aiguë double | 0xCD | OUou | ?? |
Ogonek | 0xCE | AEIUaeiu | ?? |
Caron | 0xCF | CDELNRSTZcdelnrstz | čďěľňřšťž |
Mise en page de la page de codes
La référence à la combinaison de caractères dans la plage U+0300—U+036F pour les codes dans la plage 0xC1—0xCF ci-dessous est soumise aux mises en garde mentionnées ci-dessus ; ils ne peuvent pas simplement être mappés sur les points de code répertoriés. De plus, Unicode distingue 0xE2 en D avec un trait et une majuscule Eth , qui ont généralement un aspect différent pour les lettres minuscules (0xF2 et 0xF3).
L'ancienne édition 1988 de l' UIT T.51 a défini deux versions du jeu supplémentaire, avec la première version manque l' espace insécable , trait d' union , signe pas ( ¬ ) et d'un bar cassé ( | ) présente dans la deuxième version. La première version a été définie comme une extension de l' ensemble supplémentaire T.61 , et la deuxième version comme une extension de la première version. L'édition actuelle (1992) n'inclut que la deuxième version, désapprouve certains caractères et met à jour l'ensemble principal vers l'actuel ISO-646-IRV ( ASCII ), bien que les services télématiques existants soient autorisés à conserver l'ancien comportement.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _UNE | _B | _C | _RÉ | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0_ | ||||||||||||||||
1_ | ||||||||||||||||
2_ |
SP 0020 |
! 0021 |
" 0022 |
# 0023 |
$ / ¤ 0024 / 00A4 |
% 0025 |
& 0026 |
' 0027 |
( 0028 |
) 0029 |
* 002A |
+ 002B |
, 002C |
- 002D |
. 002E |
/ 002F |
3_ |
0 0030 |
1 0031 |
2 0032 |
3 0033 |
4 0034 |
5 0035 |
6 0036 |
7 0037 |
8 0038 |
9 0039 |
: 003A |
; 003B |
< 003C |
= 003D |
> 003E |
? 003F |
4_ |
@ 0040 |
Un 0041 |
B 0042 |
C 0043 |
D 0044 |
E 0045 |
F 0046 |
G 0047 |
H 0048 |
Je 0049 |
J 004A |
K 004B |
L 004C |
M 004D |
N 004E |
O 004F |
5_ |
P 0050 |
Q 0051 |
R 0052 |
S 0053 |
T 0054 |
U 0055 |
V 0056 |
W 0057 |
X 0058 |
Y 0059 |
Z 005A |
[ 005B |
\ 005C |
] 005D |
^ 005E |
_ 005F |
6_ |
` 0060 |
un 0061 |
b 0062 |
c 0063 |
d 0064 |
e 0065 |
f 0066 |
g 0067 |
h 0068 |
je 0069 |
j 006A |
k 006B |
l 006C |
m 006D |
n 006E |
o 006F |
7_ |
p 0070 |
q 0071 |
r 0072 |
s 0073 |
t 0074 |
u 0075 |
v 0076 |
avec 0077 |
x 0078 |
et 0079 |
z 007A |
{ 007B |
| 007C |
} 007D |
~ 007E |
|
8_ | ||||||||||||||||
9_ | ||||||||||||||||
UNE_ |
NBSP 00A0 |
¡ 00A1 |
¢ 00A2 |
£ 00A3 |
0024 $ |
¥ 00A5 |
# 0023 |
§ 00A7 |
¤ 00A4 |
' 2018 |
" 201C |
« 00AB |
← 2190 |
↑ 2191 |
→ 2192 |
↓ 2193 |
B_ |
° 00B0 |
± 00B1 |
² 00B2 |
³ 00B3 |
× 00D7 |
μ 00B5 |
¶ 00B6 |
· 00B7 |
÷ 00F7 |
' 2019 |
” 201D |
» 00BB |
¼ 00BC |
½ 00BJ |
¾ 00BE |
¿ 00BF |
C_ |
0300 |
0301 |
0302 |
0303 |
̄ 0304 |
̆ 0306 |
̇ 0307 |
̈ 0308 |
̊ 030A |
̧ 0327 |
0332 |
̋ 030B |
̨ 0328 |
̌ 030C |
||
RÉ_ |
- 2015 |
¹ 00B9 |
® 00AE |
© 00A9 |
™ 2122 |
♪ 266A |
¬ 00AC |
| 00A6 |
⅛ 215B |
⅜ 215C |
⅝ 215D |
⅞ 215E |
||||
E_ |
Ω 2126 |
Æ 00C6 |
Đ / Ð 0110 / 00D0 |
ª 00AA |
Ħ 0126 |
IJ 0132 |
Ŀ 013F |
Ł 0141 |
Ø 00D8 |
Œ 0152 |
º 00BA |
Þ 00DE |
Ŧ 0166 |
Ŋ 014A |
ʼn 0149 |
|
F_ |
ĸ 0138 |
æ 00E6 |
Đ 0111 |
ð 00F0 |
ħ 0127 |
ı 0131 |
ij 0133 |
Ŀ 0140 |
ł 0142 |
ø 00F8 |
œ 0153 |
ß 00DF |
þ 00FE |
Ŧ 0167 |
ŋ 014B |
TIMIDE 00AD |
Lettre Nombre Ponctuation symbole Autre Indéfini Différences avec T.61
Version vidéotex
Les versions du jeu supplémentaire utilisé par la norme ITU T.101 pour vidéotex sont basées sur le premier ensemble supplémentaire de l'édition 1988 de la T.51.
L'ensemble par défaut G2 pour la syntaxe des données 2 ajoute un à 0xC0, pour la combinaison avec les codes d'un grec ensemble primaire.
L'ensemble supplémentaire de données Syntaxe 3 ajoute des marques non-espacement pour le surlignage et solidus et plusieurs caractères semi - graphiques .
Version ETS 300 706
La norme ETS 300 706 pour le télétexte du système mondial fonde son ensemble G2 sur l'ISO 6937. Il s'agit d'un surensemble de l'ensemble supplémentaire de T.61 et d'un surensemble du premier ensemble supplémentaire de l'édition 1988 de T.51, mais se heurte à l'édition actuelle de T.51 dans certaines positions. Les codes diacritiques dans la version ETS sont spécifiés comme étant "pour association avec" des caractères du jeu G0 en cours d'utilisation , tels que US-ASCII ou BS_viewdata . Cette version est présentée dans le tableau ci-dessous.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _UNE | _B | _C | _RÉ | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_/A_ |
SP 00A0 |
¡ 00A1 |
¢ 00A2 |
£ 00A3 |
0024 $ |
¥ 00A5 |
# 0023 |
§ 00A7 |
¤ 00A4 |
' 2018 |
" 201C |
« 00AB |
← 2190 |
↑ 2191 |
→ 2192 |
↓ 2193 |
3_/B_ |
° 00B0 |
± 00B1 |
² 00B2 |
³ 00B3 |
× 00D7 |
μ 00B5 |
¶ 00B6 |
· 00B7 |
÷ 00F7 |
' 2019 |
” 201D |
» 00BB |
¼ 00BC |
½ 00BJ |
¾ 00BE |
¿ 00BF |
4_/C_ |
0300 |
0301 |
0302 |
0303 |
̄ 0304 |
̆ 0306 |
̇ 0307 |
̈ 0308 |
̣̣ 0323 |
̊ 030A |
̧ 0327 |
0332 |
̋ 030B |
̨ 0328 |
̌ 030C |
|
5_/D_ |
- 2015 |
¹ 00B9 |
® 00AE |
© 00A9 |
™ 2122 |
♪ 266A |
₠ 20A0 |
‰ 2030 |
α 03B1 |
⅛ 215B |
⅜ 215C |
⅝ 215D |
⅞ 215E |
|||
6_/E_ |
Ω 2126 |
Æ 00C6 |
Đ / Ð 0110 / 00D0 |
ª 00AA |
Ħ 0126 |
IJ 0132 |
Ŀ 013F |
Ł 0141 |
Ø 00D8 |
Œ 0152 |
º 00BA |
Þ 00DE |
Ŧ 0166 |
Ŋ 014A |
ʼn 0149 |
|
7_/F_ |
ĸ 0138 |
æ 00E6 |
Đ 0111 |
ð 00F0 |
ħ 0127 |
ı 0131 |
ij 0133 |
Ŀ 0140 |
ł 0142 |
ø 00F8 |
œ 0153 |
ß 00DF |
þ 00FE |
Ŧ 0167 |
ŋ 014B |
■ 25A0 |
Lettre Nombre Ponctuation symbole Autre Indéfini Différences avec T.51
Voir également
Notes de bas de page
Les références
Liens externes
- Recommandation UIT T.51
- Pages ISO : ISO 6937-1:1983 , ISO 6937-2:1983 , ISO 6937-2:1983/Ajouter 1:1989 , ISO/IEC 6937:1994 , ISO/IEC 6937:2001
- WD 6937, Jeu de caractères graphiques codés pour la communication de texte - Alphabet latin (Révision de l'ISO/IEC 6937:1994) (projet ISO/IEC 6937:1994)
- ISO-IR-156 ( enregistrement ISO-IR de la partie droite)