T.51/ISO/CEI 6937 - T.51/ISO/IEC 6937

T.51
Jeux de caractères codés latins pour les services télématiques
Statut	En force
Année commencée	1984
Dernière version	(09/92) ; septembre 1992
Organisation	UIT-T
Comité	Commission d'études VIII
Normes associées	T.61 , ETS 300 706 , ISO/CEI 10367 , ISO/CEI 2022
Domaine	codage
Licence	Disponible gratuitement
Site Internet	https://www.itu.int/rec/T-REC-T.51

T.51 / ISO/CEI 6937:2001 , Technologies de l'information — Jeu de caractères graphiques codés pour la communication de texte — Alphabet latin , est une extension multi-octets de l' ASCII , ou plutôt de l' ISO/CEI 646 -IRV. Il a été développé en commun avec l' UIT-T (alors CCITT ) pour les services télématiques sous le nom de T.51 , et est devenu une première norme ISO en 1983. Certains codes d'octet sont utilisés comme octets de tête pour les lettres avec des signes diacritiques ( accents ). La valeur de l'octet de tête indique souvent le signe diacritique de la lettre, et l'octet de suivi a alors la valeur ASCII de la lettre sur laquelle se trouve le signe diacritique.

Les architectes d'ISO/IEC 6937 étaient Hugh McGregor Ross , Peter Fenwick, Bernard Marti et Loek Zeckendorf .

ISO6937/2 définit 327 caractères trouvés dans les langues européennes modernes utilisant l' alphabet latin . Les caractères européens non latins, tels que le cyrillique et le grec , ne sont pas inclus dans la norme. De plus, certains signes diacritiques utilisés avec l'alphabet latin comme la virgule roumaine ne sont pas inclus, utilisant plutôt la cédille car aucune distinction entre la cédille et la virgule ci-dessous n'a été faite à l'époque.

L'IANA a enregistré les noms de jeu de caractères ISO_6937-2-25 et ISO_6937-2-add pour deux (anciennes) versions de cette norme (plus les codes de contrôle). Mais en pratique, ce codage de caractères n'est pas utilisé sur Internet.

Caractères à un octet

L'ensemble principal (première moitié) suivait à l'origine ISO 646-IRV avant la révision ISO/IEC 646:1991 , c'est-à-dire suivant principalement ASCII mais avec le caractère 0x24 toujours désigné comme un " signe de devise internationale " (¤) au lieu du signe dollar ($). L'édition 1992 de l'UIT T.51 permet aux services existants du CCITT de continuer à interpréter 0x24 comme le signe monétaire international, mais stipule que les nouvelles applications de télécommunication devraient l'utiliser pour le signe dollar (c'est-à-dire en suivant l'actuel ISO 646-IRV), et à la place représenter le signe de la devise internationale à l'aide du jeu supplémentaire.

Le jeu supplémentaire (deuxième moitié) contient une sélection de caractères graphiques espacés et non espacés, des symboles supplémentaires et quelques emplacements réservés pour une future normalisation.

Les deux sont des jeux de caractères graphiques ISO/IEC 2022 , le jeu principal étant un jeu de 94 codes et le jeu secondaire étant un jeu de 96 codes. Dans les contextes où les techniques d'extension de code ISO 2022 ne sont pas utilisées, l'ensemble principal est désigné comme l'ensemble G0 et invoqué sur GL ( 0x 2..0x7F), tandis que l'ensemble supplémentaire est désigné comme l'ensemble G2 et invoqué sur GR (0xA0 ..0xFF) dans un environnement 8 bits, ou en utilisant le code de contrôle 0x19 comme une seule équipe dans un environnement 7 bits. Cet encodage du code Single Shift Two correspond à son emplacement dans ISO-IR -106.

La séquence d'échappement ISO/IEC 2022 pour désigner l'ensemble supplémentaire d'ISO/IEC 6937 comme l'ensemble G2 est ESC . R(hex 1B 2E 52). L'ensemble supplémentaire ISO 6937/2:1983 plus ancien est enregistré en tant qu'ensemble de code 94 et désigné par G2 avec ESC * l(hex 1B 2A 6C).

Caractères à deux octets

Les lettres accentuées qui ne sont pas affectées de codes uniques dans l'ensemble primaire ou supplémentaire sont codées à l'aide de deux octets. Le premier octet, le "marque diacritique sans espacement", est suivi d'une lettre de l'ensemble de base, par exemple :

small e with acute accent (é) = [Acute]+e

La norme ITU T.51 attribue la colonne 4 du jeu supplémentaire (c'est -à- dire 0x C0–CF lorsqu'il est utilisé au format 8 bits) aux caractères diacritiques sans espacement. Cependant, ISO/IEC 6937 définit un répertoire de caractères entièrement spécifié, mappant une liste de séquences de composition aux noms de caractères ISO/IEC 10646 . Les octets isolés sans espacement ne sont pas inclus dans ce répertoire, bien que des variantes d'espacement des signes diacritiques non présents autrement en ASCII soient incluses, l'espace ASCII étant l'octet de piste. Par conséquent, seules certaines combinaisons d'octet de tête et d'octet de suivi sont conformes à la norme ISO/IEC.

Ce répertoire est également apposé sur la version ITU de la spécification en tant qu'Annexe A, bien que la version ITU ne le mentionne pas dans le texte principal. Il est décrit comme un « surensemble unifié » des répertoires de caractères latins. Il correspond au répertoire de l' ISO/CEI 10367 lorsque les ensembles ASCII, Latin-1 (ou Latin-5 ), Latin-2 et latins supplémentaires sont utilisés.

Ce système diffère également du système de caractères combinatoires Unicode en ce que le code diacritique précède la lettre (par opposition à la suivre), ce qui le rend plus similaire à ANSEL .

Une petite anomalie est que la lettre minuscule latine G avec cédille est codée comme si elle était avec un accent aigu, c'est-à-dire avec un octet de plomb 0xC2, car en raison de son descendant interférant avec une cédille, la lettre minuscule est généralement avec une virgule tournée au-dessus : Ģ ģ .

Au total, 13 signes diacritiques peuvent être suivis des caractères sélectionnés de l'ensemble principal :

Accent	Code	Deuxième personnage	Résultat
La tombe	0xC1	AEIOUaeiou	ÀÈÌÒÙàèìòù
Aigu	0xC2	ACEILNORSUYZacegilnorsuyz	ÉÍĹŃÓŔŚÚÝŹáćéģíĺńóŕśúýź
Circonflexe	0xC3	ACEGHIJOSUWYaceghijosuwy	ÂĈÊĜĤÎĴÔŜÛŴŶâĉêĝĥîĵôŝûŵŷ
Tilde	0xC4	AINOUAinou	ĨÑÕŨãĩñõũ
Macron	0xC5	AEIOUaeiou	āēīōū
Brève	0xC6	AGUAgu	??
Point	0xC7	CEGIZcegz	??
Umlaut ou diæresis	0xC8	AEIOUYaeiouy	äëïöüÿ

Anneau	0xCA	AUau	??
Cédille	0xCB	CGKLNRSTcklnrst	ÇĢĶĻŅŖŞŢçķļņŗşţ

Aiguë double	0xCD	OUou	??
Ogonek	0xCE	AEIUaeiu	??
Caron	0xCF	CDELNRSTZcdelnrstz	čďěľňřšťž

Mise en page de la page de codes

La référence à la combinaison de caractères dans la plage U+0300—U+036F pour les codes dans la plage 0xC1—0xCF ci-dessous est soumise aux mises en garde mentionnées ci-dessus ; ils ne peuvent pas simplement être mappés sur les points de code répertoriés. De plus, Unicode distingue 0xE2 en D avec un trait et une majuscule Eth , qui ont généralement un aspect différent pour les lettres minuscules (0xF2 et 0xF3).

L'ancienne édition 1988 de l' UIT T.51 a défini deux versions du jeu supplémentaire, avec la première version manque l' espace insécable , trait d' union , signe pas ( ¬ ) et d'un bar cassé ( | ) présente dans la deuxième version. La première version a été définie comme une extension de l' ensemble supplémentaire T.61 , et la deuxième version comme une extension de la première version. L'édition actuelle (1992) n'inclut que la deuxième version, désapprouve certains caractères et met à jour l'ensemble principal vers l'actuel ISO-646-IRV ( ASCII ), bien que les services télématiques existants soient autorisés à conserver l'ancien comportement.

ISO/IEC 6937 ou ITU T.51 (latin)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_UNE	_B	_C	_RÉ	_E	_F
0_
1_
2_	SP 0020	! 0021	" 0022	# 0023	$ / ¤ 0024 / 00A4	% 0025	& 0026	' 0027	( 0028	) 0029	* 002A	+ 002B	, 002C	- 002D	. 002E	/ 002F
3_	0 0030	1 0031	2 0032	3 0033	4 0034	5 0035	6 0036	7 0037	8 0038	9 0039	: 003A	; 003B	< 003C	= 003D	> 003E	? 003F
4_	@ 0040	Un 0041	B 0042	C 0043	D 0044	E 0045	F 0046	G 0047	H 0048	Je 0049	J 004A	K 004B	L 004C	M 004D	N 004E	O 004F
5_	P 0050	Q 0051	R 0052	S 0053	T 0054	U 0055	V 0056	W 0057	X 0058	Y 0059	Z 005A	[ 005B	\ 005C	] 005D	^ 005E	_ 005F
6_	` 0060	un 0061	b 0062	c 0063	d 0064	e 0065	f 0066	g 0067	h 0068	je 0069	j 006A	k 006B	l 006C	m 006D	n 006E	o 006F
7_	p 0070	q 0071	r 0072	s 0073	t 0074	u 0075	v 0076	avec 0077	x 0078	et 0079	z 007A	{ 007B	\| 007C	} 007D	~ 007E
8_
9_
UNE_	NBSP 00A0	¡ 00A1	¢ 00A2	£ 00A3	0024 $	¥ 00A5	# 0023	§ 00A7	¤ 00A4	' 2018	" 201C	« 00AB	← 2190	↑ 2191	→ 2192	↓ 2193
B_	° 00B0	± 00B1	² 00B2	³ 00B3	× 00D7	μ 00B5	¶ 00B6	· 00B7	÷ 00F7	' 2019	” 201D	» 00BB	¼ 00BC	½ 00BJ	¾ 00BE	¿ 00BF
C_		0300	0301	0302	0303	̄ 0304	̆ 0306	̇ 0307	̈ 0308		̊ 030A	̧ 0327	0332	̋ 030B	̨ 0328	̌ 030C
RÉ_	- 2015	¹ 00B9	® 00AE	© 00A9	™ 2122	♪ 266A	¬ 00AC	\| 00A6					⅛ 215B	⅜ 215C	⅝ 215D	⅞ 215E
E_	Ω 2126	Æ 00C6	Đ / Ð 0110 / 00D0	ª 00AA	Ħ 0126		Ĳ 0132	Ŀ 013F	Ł 0141	Ø 00D8	Œ 0152	º 00BA	Þ 00DE	Ŧ 0166	Ŋ 014A	ŉ 0149
F_	ĸ 0138	æ 00E6	Đ 0111	ð 00F0	ħ 0127	ı 0131	ĳ 0133	Ŀ 0140	ł 0142	ø 00F8	œ 0153	ß 00DF	þ 00FE	Ŧ 0167	ŋ 014B	TIMIDE 00AD

Lettre Nombre Ponctuation symbole Autre Indéfini Différences avec T.61

Version vidéotex

Les versions du jeu supplémentaire utilisé par la norme ITU T.101 pour vidéotex sont basées sur le premier ensemble supplémentaire de l'édition 1988 de la T.51.

L'ensemble par défaut G2 pour la syntaxe des données 2 ajoute un à 0xC0, pour la combinaison avec les codes d'un grec ensemble primaire.

L'ensemble supplémentaire de données Syntaxe 3 ajoute des marques non-espacement pour le surlignage et solidus et plusieurs caractères semi - graphiques .

Version ETS 300 706

La norme ETS 300 706 pour le télétexte du système mondial fonde son ensemble G2 sur l'ISO 6937. Il s'agit d'un surensemble de l'ensemble supplémentaire de T.61 et d'un surensemble du premier ensemble supplémentaire de l'édition 1988 de T.51, mais se heurte à l'édition actuelle de T.51 dans certaines positions. Les codes diacritiques dans la version ETS sont spécifiés comme étant "pour association avec" des caractères du jeu G0 en cours d'utilisation , tels que US-ASCII ou BS_viewdata . Cette version est présentée dans le tableau ci-dessous.

Télétexte du système mondial, ensemble Latin G2 (ETS 300 706:1997)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_UNE	_B	_C	_RÉ	_E	_F
2_/A_	SP 00A0	¡ 00A1	¢ 00A2	£ 00A3	0024 $	¥ 00A5	# 0023	§ 00A7	¤ 00A4	' 2018	" 201C	« 00AB	← 2190	↑ 2191	→ 2192	↓ 2193
3_/B_	° 00B0	± 00B1	² 00B2	³ 00B3	× 00D7	μ 00B5	¶ 00B6	· 00B7	÷ 00F7	' 2019	” 201D	» 00BB	¼ 00BC	½ 00BJ	¾ 00BE	¿ 00BF
4_/C_		0300	0301	0302	0303	̄ 0304	̆ 0306	̇ 0307	̈ 0308	̣̣ 0323	̊ 030A	̧ 0327	0332	̋ 030B	̨ 0328	̌ 030C
5_/D_	- 2015	¹ 00B9	® 00AE	© 00A9	™ 2122	♪ 266A	₠ 20A0	‰ 2030	α 03B1				⅛ 215B	⅜ 215C	⅝ 215D	⅞ 215E
6_/E_	Ω 2126	Æ 00C6	Đ / Ð 0110 / 00D0	ª 00AA	Ħ 0126		Ĳ 0132	Ŀ 013F	Ł 0141	Ø 00D8	Œ 0152	º 00BA	Þ 00DE	Ŧ 0166	Ŋ 014A	ŉ 0149
7_/F_	ĸ 0138	æ 00E6	Đ 0111	ð 00F0	ħ 0127	ı 0131	ĳ 0133	Ŀ 0140	ł 0142	ø 00F8	œ 0153	ß 00DF	þ 00FE	Ŧ 0167	ŋ 014B	■ 25A0

Lettre Nombre Ponctuation symbole Autre Indéfini Différences avec T.51

Voir également

UIT T.50
ITU T.61 , un codage de caractères étroitement lié pour une utilisation télétex

Notes de bas de page

Les références

Liens externes

Recommandation UIT T.51
Pages ISO : ISO 6937-1:1983 , ISO 6937-2:1983 , ISO 6937-2:1983/Ajouter 1:1989 , ISO/IEC 6937:1994 , ISO/IEC 6937:2001
WD 6937, Jeu de caractères graphiques codés pour la communication de texte - Alphabet latin (Révision de l'ISO/IEC 6937:1994) (projet ISO/IEC 6937:1994)
ISO-IR-156 ( enregistrement ISO-IR de la partie droite)

Languages

In other projects