GSM 03.38 - GSM 03.38

Dans la téléphonie mobile, GSM 03.38 ou 3GPP 23.038 est un codage de caractères utilisé dans les réseaux GSM pour les SMS (Short Message Service), CB ( Cell Broadcast ) et USSD (Unstructured Supplementary Service Data). La norme 3GPP TS 23.038 (à l'origine la recommandation GSM 03.38) définit l' alphabet par défaut GSM 7 bits qui est obligatoire pour les combinés GSM et les éléments de réseau, mais le jeu de caractères ne convient que pour l' anglais et un certain nombre de langues d'Europe occidentale. Les langues telles que le chinois, le coréen ou le japonais doivent être transférées à l'aide du codage de caractères UCS-2 16 bits . Un nombre limité de langues, comme le portugais , l' espagnol , le turc et un certain nombre de langues utilisées en Inde écrites avec des scripts brahmiques peuvent utiliser un codage 7 bits avec une table de décalage de langue nationale définie dans 3GPP 23.038. Pour les messages binaires , un codage 8 bits est utilisé.

Alphabet par défaut GSM 7 bits et table d'extension de 3GPP TS 23.038 / GSM 03.38

Le codage standard pour les messages GSM est l'alphabet par défaut de 7 bits tel que défini dans la recommandation 23.038.

Les caractères de sept bits doivent être codés en octets selon l'un des trois modes de conditionnement:

CBS: en utilisant ce codage, il est possible d'envoyer jusqu'à 93 caractères (emballés dans jusqu'à 82 octets) dans un message SMS dans un service de diffusion cellulaire.
SMS: en utilisant cet encodage, il est possible d'envoyer jusqu'à 160 caractères (emballés jusqu'à 140 octets) dans un message SMS dans le réseau GSM.
USSD: en utilisant ce codage, il est possible d'envoyer jusqu'à 182 caractères (emballés dans jusqu'à 160 octets) dans un message SMS de données de service supplémentaires non structurées.

Jeu de caractères de base
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	@	Δ	SP	0	¡	P	¿	p
0x01	£	_	!	1	UNE	Q	une	q
0x02	$	Φ	"	2	B	R	b	r
0x03	¥	Γ	#	3	C	S	c	s
0x04	è	Λ	¤	4	ré	T	ré	t
0x05	é	Ω	%	5	E	U	e	u
0x06	ù	Π	&	6	F	V	F	v
0x07	je	Ψ	'	7	g	W	g	w
0x08	ò	Σ	(	8	H	X	h	X
0x09	Ç	Θ	)	9	je	Oui	je	y
0x0A	LF	Ξ	*	:	J	Z	j	z
0x0B	Ø	ESC	+	;	K	UNE	k	une
0x0C	ø	Æ	,	<	L	Ö	l	ö
0x0D	CR	æ	-	=	M	Ñ	m	ñ
0x0E	UNE	ß	.	>	N	Ü	n	ü
0x0F	une	É	/	?	O	§	o	une

LF est une commande de saut de ligne.
CR est un contrôle de retour chariot, ou remplisseur.
ESC est un Escape to extension table (correspond à NBSP).
SP est un personnage de l'espace.

Extension du jeu de caractères de base
	0x00	0x10	0x20	0x30	0x40	0x60
0x00					\|
0x01
0x02
0x03
0x04		^
0x05						€
0x06
0x07
0x08			{
0x09			}
0x0A	FF
0x0B		SS2
0x0C				[
0x0D	CR2			~
0x0E				]
0x0F			\

FF est un contrôle de saut de page. S'il n'est pas reconnu, il doit être traité comme LF .
CR2 est un caractère de contrôle. Aucun caractère spécifique à la langue ne doit être codé à cette position.
SS2 est un deuxième contrôle Single Shift Escape réservé aux futures extensions.

Il est important (en particulier lorsqu'un message doit être segmenté à l'aide du mécanisme SMS concaténé ) que les caractères de la table de jeu de caractères de base prennent un septet, les caractères de la table d'extension de jeu de caractères de base prennent deux septets.

Notez que la deuxième partie du tableau n'est accessible que si l'appareil GSM prend en charge le mécanisme d'extension 7 bits, en utilisant le préfixe de caractère ESC. Sinon, le code ESC lui-même est interprété comme un espace et le caractère suivant sera traité comme s'il n'y avait pas de code ESC de début.

La majeure partie de la partie haute du tableau n'est pas utilisée dans le jeu de caractères par défaut, mais la norme GSM définit certains indicateurs de code de langue qui permettent au système d'identifier les variantes nationales de cette partie, pour prendre en charge plus de caractères que ceux affichés dans le tableau ci-dessus.

Dans un message texte GSM standard, tous les caractères sont codés à l'aide d'unités de code à 7 bits, regroupées pour remplir tous les bits d'octets. Ainsi, par exemple, l'enveloppe de 140 octets d'un SMS , sans autre indicateur de langue mais uniquement avec le préfixe de classe standard, peut transporter jusqu'à (140 * 8) / 7 = 160, soit 160 caractères GSM 7 bits (mais notez que le code ESC compte pour l'un d'entre eux, si les caractères de la partie haute du tableau sont utilisés).

Des messages plus longs peuvent être envoyés, mais nécessiteront un préfixe de continuation et un numéro de séquence sur les messages SMS suivants (ces octets de préfixe et ce numéro de séquence sont comptés dans la longueur maximale de la charge utile de 140 octets du format enveloppe).

Lorsqu'il y a 1 à 6 bits de réserve dans le dernier octet d'un message, ces bits sont mis à zéro (ces bits ne comptent pas comme un caractère mais uniquement comme un remplissage). Lorsqu'il y a 7 bits de réserve dans le dernier octet d'un message, ces bits sont mis au code 7 bits du contrôle CR (également utilisé comme remplissage de remplissage) au lieu d'être mis à zéro (où ils seraient confondus avec le Code 7 bits d'un caractère '@').

Ce codage 7 bits permet le transport de textes codés dans le sous-ensemble Latin de base de l'ASCII, ainsi que de certains caractères du jeu de caractères ISO Latin 1. Il permet également l'encodage de textes écrits en caractères grecs, mais uniquement en majuscules; pour une telle utilisation en grec, les lettres majuscules latines qui ressemblent aux lettres grecques sont réutilisées avec le même code, de sorte que le jeu de caractères ci-dessus n'est complet que pour le grec monotone moderne limité aux lettres majuscules. Une prise en charge complète de l'alphabet grec (y compris les minuscules) nécessite une version nationale du tableau décalé de 7 bits (en utilisant le code ESC pour chaque caractère national codé dans ce tableau décalé), ou un codage propriétaire non spécifié de 8 bits, ou le utilisation du codage UCS-2 (voir ci-dessous).

Notez que le code spécial marqué SS2 dans le tableau ci-dessus a également été attribué (et codé comme 0x1B, 0x1B) pour permettre l'utilisation d'une autre table de décalage de 7 bits. Mais ce mécanisme n'a jamais été utilisé et le codage UCS-2 a été préféré.

Notez que le caractère 0x09 ( Ç , C majuscule avec cédille) devrait plutôt être remplacé par ç (petit c avec cédille) dans l'implémentation moderne, comme recommandé par Unicode, car la version majuscule est de peu d'utilité.

Codage de données GSM 8 bits

Le mode de codage de données 8 bits traite les informations comme des données brutes. Selon la norme, l'alphabet de ce codage est spécifique à l'utilisateur.

Encodage UCS-2

Cet encodage permet d'utiliser une plus grande gamme de caractères et de langues. UCS-2 peut représenter les caractères latins et orientaux les plus couramment utilisés au prix d'une plus grande dépense d'espace. Strictement parlant, UCS-2 est limité aux caractères dans le plan multilingue de base . Cependant, comme les environnements de programmation modernes ne fournissent pas d'encodeurs ou de décodeurs pour UCS-2, certains téléphones portables (par exemple les iPhones ) utilisent UTF-16 au lieu de UCS-2. Cela fonctionne, car pour les caractères du plan multilingue de base (y compris les alphabets complets de la plupart des langues humaines modernes), les encodages UCS-2 et UTF-16 sont identiques. Pour encoder des caractères en dehors du BMP (inaccessible en UCS-2 simple), tels que Emoji , UTF-16 utilise des paires de substitution , qui, une fois décodées avec UCS-2, apparaîtraient comme deux points de code valides mais non mappés .

Un seul message SMS GSM utilisant ce codage peut comporter au maximum 70 caractères (140 octets).

Notez que sur de nombreux téléphones portables GSM, il n'y a pas de présélection spécifique du codage UCS-2. La valeur par défaut est d'utiliser le codage 7 bits décrit ci-dessus, jusqu'à ce que l'on entre un caractère qui n'est pas présent dans la table GSM 7 bits (par exemple la minuscule «a» avec aigu: «á»). Dans ce cas, le message entier est réencodé à l'aide du codage UCS-2, et la longueur maximale du message envoyé dans un seul SMS est immédiatement réduite à 70 caractères au lieu de 160. D'autres varient en fonction du choix et de la configuration de l'application SMS et la longueur du message.

Pour éviter des coûts inattendus pour les expéditeurs qui ont un abonnement pour un pack limité de SMS envoyés, les applications doivent afficher le nombre de caractères utilisés et le nombre maximum de caractères dans le SMS composé. Lorsqu'un message dépasse ce maximum, le message sera envoyé sous la forme de plusieurs SMS successifs contenant des parties du message (chacun contenant un numéro de séquence, qui utilise également quelques caractères de tête dans chaque partie); ces pièces sont destinées à être remontées ultérieurement par le destinataire.

Certaines applications alertent l'utilisateur lorsqu'un message doit être fractionné, ou même envoyer un message plus long sous forme de message multimédia (MMS).

Tables de changement de langue nationale

Depuis la version 8 de la norme 3GPP 23.038 de mars 2008, des jeux de caractères supplémentaires sont accessibles via l'utilisation de tables de changement de langue nationale.

Ces tableaux permettent d'utiliser différents jeux de caractères en fonction de la langue dans laquelle le texte va être écrit. Le choix de la table pour un message donné est sélectionné dans la section En - tête des données utilisateur d'un message SMS et peut être spécifié pour tout le texte (une table de décalage de verrouillage remplaçant la table d'alphabet standard GSM 7 bits par défaut) ou un seul caractère ( décalage unique table remplaçant la table d'extension de l'alphabet par défaut 7 bits GSM). Le verrouillage et les tables d' équipes uniques dans le même message sont possibles, si la table alphabétique standard par défaut et la table d'extension alphabétique par défaut doivent être remplacées.

En utilisant une table de décalage, un message peut toujours utiliser un codage 7 bits pour les caractères, mais un ensemble différent peut être choisi pour afficher correctement les caractères accentués et spécifiques à la langue. Cela permet jusqu'à 155 caractères, codés en 136 octets (140 octets, moins les 4 octets d'en- tête de données utilisateur requis pour indiquer l'utilisation d'une table de décalage et le code de langue). Avec les tables de verrouillage et de décalage simple , jusqu'à 152 caractères sont autorisés, codés en 133 octets (140 octets, moins 7 octets d'en-tête de données utilisateur ).

Les caractères de n'importe quelle table de décalage de verrouillage prennent un septet, les caractères de la table de décalage unique (ou de la table d'extension de jeu de caractères de base) prennent deux septets.

Au départ, des tables de quart uniquement pour le turc ont été spécifiées; L'espagnol et le portugais ont été ajoutés dans les révisions ultérieures de la version 8. La version 9 a introduit 10 langues utilisées en Inde écrites avec une écriture brahmique (bengali, gujarati, hindi, kannada, malayalam, oriya, punjabi, tamoul, télougou) et ourdou .

Il n'y a toujours pas de table de décalage de langue nationale définie pour le français, le grec, le russe, le bulgare, l'arabe, l'hébreu et la plupart des langues d'Europe centrale qui nécessitent une meilleure couverture que le jeu de caractères standard 7 bits par défaut et son jeu de caractères d'extension 7 bits par défaut: si jamais un caractère est composé qui ne peut pas être représenté dans ces ensembles GSM 7 bits par défaut, le message sera automatiquement réencodé en utilisant UCS-2, avec pour effet de diviser par plus de deux la longueur maximale en caractères des messages pouvant être envoyés au prix d'un seul SMS (lorsqu'un message est divisé en plusieurs parties, quelques autres octets sont nécessaires dans l'en- tête des données utilisateur pour indiquer le numéro de séquence de chaque partie).

Bien qu'une révision du GSM 03.38 (dès la version 4.0.1 de septembre 1994) ait défini les valeurs du schéma de codage des données pour le système de diffusion cellulaire (CBS) pour l'allemand, l'anglais, l'italien, le français, l'espagnol, le néerlandais, le suédois, le danois, le finnois , Norvégien, grec et turc; avec l'ajout du hongrois, du polonais, du tchèque, de l'hébreu, de l'arabe, du russe et de l'islandais dans les révisions ultérieures, aucun tableau de codage n'a été défini pour ces langues. Le but de ce champ était purement d'identifier la langue du message.

Il n'y a pas non plus de table de changement de langue pour le japonais écrit en kanas de base, ou pour le coréen écrit en jamos Hangul, ou pour le chinois écrit en script Han. Ce n'est souvent pas un problème au Japon, car il utilise d'autres normes que le GSM et le WAP pour la messagerie. Les deux autres langues ont également trop de caractères distincts pour tenir dans une table de décalage 7 bits.

Langue espagnole (écriture latine)

Il n'y a pas de jeu de caractères de décalage de verrouillage spécifique pour la langue espagnole. Utilise le jeu de caractères de base par défaut.

Jeu de caractères de base
par défaut
(aucune table de décalage verrouillable définie pour l'espagnol)
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	@	Δ	SP	0	¡	P	¿	p
0x01	£	_	!	1	UNE	Q	une	q
0x02	$	Φ	"	2	B	R	b	r
0x03	¥	Γ	#	3	C	S	c	s
0x04	è	Λ	¤	4	ré	T	ré	t
0x05	é	Ω	%	5	E	U	e	u
0x06	ù	Π	&	6	F	V	F	v
0x07	je	Ψ	'	7	g	W	g	w
0x08	ò	Σ	(	8	H	X	h	X
0x09	Ç	Θ	)	9	je	Oui	je	y
0x0A	LF	Ξ	*	:	J	Z	j	z
0x0B	Ø	ESC	+	;	K	UNE	k	une
0x0C	ø	Æ	,	<	L	Ö	l	ö
0x0D	CR	æ	-	=	M	Ñ	m	ñ
0x0E	UNE	ß	.	>	N	Ü	n	ü
0x0F	une	É	/	?	O	§	o	une

LF est une commande de saut de ligne.
CR est un contrôle de retour chariot, ou remplisseur.
ESC est un contrôle Escape.
SP est un personnage de l'espace.

Maj simple Jeu de caractères
pour la langue espagnole
UDH contient 0x24 0x01 0x02
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00					\|
0x01					UNE		une
0x02
0x03
0x04		^
0x05						Ú	€	ú
0x06
0x07
0x08			{
0x09	ç		}		JE		je
0x0A	FF
0x0B		SS2
0x0C				[
0x0D	CR2			~
0x0E				]
0x0F			\		Ó		ó

FF est un contrôle de saut de page. S'il n'est pas reconnu, il doit être traité comme LF .
CR2 est un caractère de contrôle. Aucun caractère spécifique à la langue ne doit être codé à cette position.
SS2 est un deuxième contrôle Single Shift Escape réservé aux futures extensions.

Langue portugaise (écriture latine)

Verrouillage Maj Jeu de caractères
pour la langue portugaise
UDH contient 0x25 0x01 0x03
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	@	Δ	SP	0	JE	P	~	p
0x01	£	_	!	1	UNE	Q	une	q
0x02	$	ª	"	2	B	R	b	r
0x03	¥	Ç	#	3	C	S	c	s
0x04	ê	UNE	º	4	ré	T	ré	t
0x05	é	∞	%	5	E	U	e	u
0x06	ú	^	&	6	F	V	F	v
0x07	je	\	'	7	g	W	g	w
0x08	ó	€	(	8	H	X	h	X
0x09	ç	Ó	)	9	je	Oui	je	y
0x0A	LF	\|	*	:	J	Z	j	z
0x0B	Ô	ESC	+	;	K	UNE	k	une
0x0C	ô	UNE	,	<	L	Õ	l	õ
0x0D	CR	une	-	=	M	Ú	m	''
0x0E	UNE	Ê	.	>	N	Ü	n	ü
0x0F	une	É	/	?	O	§	o	une

LF est une commande de saut de ligne.
CR est un contrôle de retour chariot, ou remplisseur.
ESC est un contrôle Escape.
SP est un personnage de l'espace.

Maj simple Jeu de caractères
pour la langue portugaise
UDH contient 0x24 0x01 0x03
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00					\|
0x01					UNE		UNE
0x02		Φ
0x03		Γ
0x04		^
0x05	ê	Ω				Ú	€	ú
0x06		Π
0x07		Ψ
0x08		Σ	{
0x09	ç	Θ	}		JE		je
0x0A	FF
0x0B	Ô	SS2				UNE		une
0x0C	ô			[		Õ		õ
0x0D	CR2			~
0x0E	UNE			]
0x0F	une	Ê	\		Ó		ó	une

FF est un contrôle de saut de page. S'il n'est pas reconnu, il doit être traité comme LF .
CR2 est un caractère de contrôle. Aucun caractère spécifique à la langue ne doit être codé à cette position.
SS2 est un deuxième contrôle Single Shift Escape réservé aux futures extensions.

Langue turque (écriture latine)

Verrouillage Maj Jeu de caractères
pour la langue turque
UDH contient 0x25 0x01 0x01
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	@	Δ	SP	0	JE	P	ç	p
0x01	£	_	!	1	UNE	Q	une	q
0x02	$	Φ	"	2	B	R	b	r
0x03	¥	Γ	#	3	C	S	c	s
0x04	€	Λ	¤	4	ré	T	ré	t
0x05	é	Ω	%	5	E	U	e	u
0x06	ù	Π	&	6	F	V	F	v
0x07	je	Ψ	'	7	g	W	g	w
0x08	ò	Σ	(	8	H	X	h	X
0x09	Ç	Θ	)	9	je	Oui	je	y
0x0A	LF	Ξ	*	:	J	Z	j	z
0x0B	G	ESC	+	;	K	UNE	k	une
0x0C	g	Ş	,	<	L	Ö	l	ö
0x0D	CR	ş	-	=	M	Ñ	m	ñ
0x0E	UNE	ß	.	>	N	Ü	n	ü
0x0F	une	É	/	?	O	§	o	une

LF est une commande de saut de ligne.
CR est un contrôle de retour chariot, ou remplisseur.
ESC est un contrôle Escape.
SP est un personnage de l'espace.

Maj simple Jeu de caractères
pour la langue turque
UDH contient 0x24 0x01 0x01
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00					\|
0x01
0x02
0x03						Ş	ç	ş
0x04		^
0x05							€
0x06
0x07					G		g
0x08			{
0x09			}		JE		je
0x0A	FF
0x0B		SS2
0x0C				[
0x0D	CR2			~
0x0E				]
0x0F			\

FF est un contrôle de saut de page. S'il n'est pas reconnu, il doit être traité comme LF .
CR2 est un caractère de contrôle. Aucun caractère spécifique à la langue ne doit être codé à cette position.
SS2 est un deuxième contrôle Single Shift Escape réservé aux futures extensions.

Langue ourdou (arabe et scripts latins de base)

Il peut également être utilisé pour la langue Sindhi également écrite en écriture arabe.

Parfois, il peut également être utilisé pour la langue arabe , mais les chiffres orientaux (codés ici dans leur variante persan-hindoue) ne seront pas utilisés dans ce cas, car l'arabe standard préfère ses chiffres arabes traditionnels de l'Est et seront fréquemment remplacés par occidentaux. Chiffres arabes (codés dans le jeu de caractères de décalage de verrouillage dans la colonne 0x30) qui sont également fréquemment utilisés maintenant en ourdou. Cependant, en Inde, les téléphones reconnaissant l'indication de la langue arabe peuvent remplacer les variantes persan-hindoues des chiffres de l'arabe oriental par les chiffres traditionnels de l'arabe oriental.

Verrouillage Maj Jeu de caractères
pour ourdou
UDH contient 0x25 0x01 0x0D
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	ا	ث	SP	0	ص	ں	◌ٔ	p
0x01	آ	ج	!	1	ض	ڻ	une	q
0x02	ب	ځ	ڏ	2	Ø	ڼ	b	r
0x03	ٻ	ڄ	ڍ	3	ظ	و	c	s
0x04	ڀ	ڃ	ذ	4	ع	ۄ	ré	t
0x05	پ	څ	ر	5	ف	ە	e	u
0x06	ڦ	چ	ڑ	6	ق	ہ	F	v
0x07	Ê	ڇ	ړ	7	ک	ھ	g	w
0x08	ۂ	Í	)	8	ڪ	ء	h	X
0x09	ٿ	Î	(	9	ګ	ی	je	y
0x0A	LF	د	ڙ	:	گ	ې	j	z
0x0B	ٹ	ESC	ز	;	ڳ	ے	k	◌ٕ
0x0C	ٽ	ڌ	,	ښ	ڱ	◌ٍ	l	◌ّ
0x0D	CR	ڈ	ږ	س	ل	◌ِ	m	◌ٓ
0x0E	ٺ	ډ	.	ش	م	◌ُ	n	◌ٖ
0x0F	ټ	ڊ	ژ	?	ن	◌ٗ	o	◌ٰ

LF est une commande de saut de ligne.
CR est un contrôle de retour chariot, ou remplisseur.
ESC est un contrôle Escape.
SP est un personnage de l'espace.

Maj simple Jeu de caractères
pour ourdou
UDH contient 0x24 0x01 0x0D
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	۴	◌ؓ	\|	P
0x01	£	=	۵	◌ؔ	UNE	Q
0x02	$	>	۶	؛	B	R
0x03	¥	¡	۷	؟	C	S
0x04	¿	^	۸	ـ	ré	T
0x05	"	¡	۹	◌ْ	E	U	€
0x06	¤	_	،	◌٘	F	V
0x07	%	#	؍	٫	g	W
0x08	&	*	{	٬	H	X
0x09	'	؀	}	ٲ	je	Oui
0x0A	FF	؁	؎	ٳ	J	Z
0x0B	*	SS2	؏	ۍ	K
0x0C	+	۰	◌ؐ	[	L
0x0D	CR2	۱	◌ؑ	~	M
0x0E	-	۲	◌ؒ	]	N
0x0F	/	۳	\	۔	O

FF est un contrôle de saut de page. S'il n'est pas reconnu, il doit être traité comme LF .
CR2 est un caractère de contrôle. Aucun caractère spécifique à la langue ne doit être codé à cette position.
SS2 est un deuxième contrôle Single Shift Escape réservé aux futures extensions.

Langue hindi (devanagari et scripts latins de base)

Verrouillage Maj Jeu de caractères
pour la langue hindi
UDH contient 0x25 0x01 0x06
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	◌ँ	ऐ	SP	0	ब	◌ा	ॐ	p
0x01	◌ं	ऑ	!	1	भ	◌ि	une	q
0x02	◌ः	ऒ	ट	2	म	◌ी	b	r
0x03	अ	ओ	ठ	3	य	◌ु	c	s
0x04	आ	औ	ड	4	र	◌ू	ré	t
0x05	इ	क	ढ	5	ऱ	◌ृ	e	u
0x06	ई	ख	ण	6	ल	◌ॄ	F	v
0x07	उ	ग	त	7	ळ	◌ॅ	g	w
0x08	ऊ	घ	)	8	ऴ	◌ॆ	h	X
0x09	ऋ	ङ	(	9	व	◌े	je	y
0x0A	LF	च	थ	:	श	◌ै	j	z
0x0B	ऌ	ESC	द	;	ष	◌ॉ	k	ॲ
0x0C	ऍ	छ	,	ऩ	स	◌ॊ	l	ॻ
0x0D	CR	ज	ध	प	ह	◌ो	m	ॼ
0x0E	ऎ	झ	.	फ	◌़	◌ौ	n	ॾ
0x0F	ए	ञ	न	?	ऽ	◌्	o	ॿ

LF est une commande de saut de ligne.
CR est un contrôle de retour chariot, ou remplisseur.
ESC est un contrôle Escape.
SP est un personnage de l'espace.

Maj simple Jeu de caractères
pour la langue hindi
UDH contient 0x24 0x01 0x06
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	४	ज़	\|	P
0x01	£	=	५	ड़	UNE	Q
0x02	$	>	६	ढ़	B	R
0x03	¥	¡	७	फ़	C	S
0x04	¿	^	८	य़	ré	T
0x05	"	¡	९	ॠ	E	U	€
0x06	¤	_	◌॑	ॡ	F	V
0x07	%	#	◌॒	◌ॢ	g	W
0x08	&	*	{	◌ॣ	H	X
0x09	'	।	}	॰	je	Oui
0x0A	FF	॥	◌॓	ॱ	J	Z
0x0B	*	SS2	◌॔		K
0x0C	+	०	क़	[	L
0x0D	CR2	१	ख़	~	M
0x0E	-	२	ग़	]	N
0x0F	/	३	\		O

FF est un contrôle de saut de page. S'il n'est pas reconnu, il doit être traité comme LF .
CR2 est un caractère de contrôle. Aucun caractère spécifique à la langue ne doit être codé à cette position.
SS2 est un deuxième contrôle Single Shift Escape réservé aux futures extensions.

Langues bengali et assamais (caractères bengali et latin de base)

Verrouillage Maj Jeu de caractères
pour les langues bengali et assamais
UDH contient 0x25 0x01 0x04
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	◌ঁ	ঐ	SP	0	◌ব	া	ৎ	p
0x01	◌ং		!	1	ভ	◌ি	une	q
0x02	◌ঃ		ট	2	ম	◌ী	b	r
0x03	অ	ও	ঠ	3	য	◌ু	c	s
0x04	আ	ঔ	ড	4	র	◌ূ	ré	t
0x05	ই	ক	ঢ	5		◌ৃ	e	u
0x06	ঈ	খ	ণ	6	ল	◌ৄ	F	v
0x07	উ	গ	ত	7			g	w
0x08	ঊ	ঘ	)	8			h	X
0x09	ঋ	ঙ	(	9		◌ে	je	y
0x0A	LF	চ	থ	:	শ	◌ৈ	j	z
0x0B	ঌ	ESC	দ	;	ষ		k	◌ৗ
0x0C		ছ	,		স		l	ড়
0x0D	CR	জ	ধ	প	হ	◌ো	m	ঢ়
0x0E		ঝ	.	ফ	◌়	◌ৌ	n	ৰ
0x0F	এ	ঞ	ন	?	ঽ	◌্	o	ৱ

LF est une commande de saut de ligne.
CR est un contrôle de retour chariot, ou remplisseur.
ESC est un contrôle Escape.
SP est un personnage de l'espace.

Maj simple Jeu de caractères
pour le bengali et les langues Assamais
UDH contient 0x24 0x01 0x04
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	৬	৶	\|	P
0x01	£	=	৭	৷	UNE	Q
0x02	$	>	৮	৸	B	R
0x03	¥	¡	৯	৹	C	S
0x04	¿	^	য়	৺	ré	T
0x05	"	¡	ৠ		E	U	€
0x06	¤	_	ৡ		F	V
0x07	%	#	◌ৢ		g	W
0x08	&	*	{		H	X
0x09	'	০	}		je	Oui
0x0A	FF	১	◌ৣ		J	Z
0x0B	*	SS2	৲		K
0x0C	+	২	৳	[	L
0x0D	CR2	৩	৴	~	M
0x0E	-	৪	৵	]	N
0x0F	/	৫	\		O

FF est un contrôle de saut de page. S'il n'est pas reconnu, il doit être traité comme LF .
CR2 est un caractère de contrôle. Aucun caractère spécifique à la langue ne doit être codé à cette position.
SS2 est un deuxième contrôle Single Shift Escape réservé aux futures extensions.

Langue punjabi (Gurmukhī et scripts latins de base)

Verrouillage Maj Jeu de caractères
pour la langue punjabi
UDH contient 0x25 0x01 0x0A
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	◌ਁ	ਐ	SP	0	ਬ	◌ਾ	◌ੑ	p
0x01	◌ਂ		!	1	ਭ	◌ਿ	une	q
0x02	◌ਃ		ਟ	2	ਮ	◌ੀ	b	r
0x03	ਅ	ਓ	ਠ	3	ਯ	◌ੁ	c	s
0x04	ਆ	ਔ	ਡ	4	ਰ	◌ੂ	ré	t
0x05	ਇ	ਕ	ਢ	5			e	u
0x06	ਈ	ਖ	ਣ	6	ਲ		F	v
0x07	ਉ	ਗ	ਤ	7	ਲ਼		g	w
0x08	ਊ	ਘ	)	8			h	X
0x09		ਙ	(	9	ਵ	◌ੇ	je	y
0x0A	LF	ਚ	ਥ	:	ਸ਼	◌ੈ	j	z
0x0B		ESC	ਦ	;			k	◌ੰ
0x0C		ਛ	,		ਸ		l	◌ੱ
0x0D	CR	ਜ	ਧ	ਪ	ਹ	◌ੋ	m	ੲ
0x0E		ਝ	.	ਫ	◌਼	◌ੌ	n	ੳ
0x0F	ਏ	ਞ	ਨ	?		◌੍	o	ੴ

LF est une commande de saut de ligne.
CR est un contrôle de retour chariot, ou remplisseur.
ESC est un contrôle Escape.
SP est un personnage de l'espace.

Maj simple Jeu de caractères
pour la langue punjabi
UDH contient 0x24 0x01 0x0A
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	੪		\|	P
0x01	£	=	੫		UNE	Q
0x02	$	>	੬		B	R
0x03	¥	¡	੭		C	S
0x04	¿	^	੮		ré	T
0x05	"	¡	੯		E	U	€
0x06	¤	_	ਖ਼		F	V
0x07	%	#	ਗ਼		g	W
0x08	&	*	{		H	X
0x09	'	।	}		je	Oui
0x0A	FF	॥	ਜ਼		J	Z
0x0B	*	SS2	ੜ		K
0x0C	+	੦	ਫ਼	[	L
0x0D	CR2	੧	◌ੵ	~	M
0x0E	-	੨		]	N
0x0F	/	੩	\		O

FF est un contrôle de saut de page. S'il n'est pas reconnu, il doit être traité comme LF .
CR2 est un caractère de contrôle. Aucun caractère spécifique à la langue ne doit être codé à cette position.
SS2 est un deuxième contrôle Single Shift Escape réservé aux futures extensions.

Langue gujarati (Gujarati et scripts latins de base)

Verrouillage Maj Jeu de caractères
pour la langue gujarati
UDH contient 0x25 0x01 0x05
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	◌ઁ	ઐ	SP	0	બ	◌ા	ૐ	p
0x01	◌ં	ઑ	!	1	ભ	◌િ	une	q
0x02	◌ઃ		ટ	2	મ	◌ી	b	r
0x03	અ	ઓ	ઠ	3	ય	◌ુ	c	s
0x04	આ	ઔ	ડ	4	ર	◌ૂ	ré	t
0x05	ઇ	ક	ઢ	5		◌ૃ	e	u
0x06	ઈ	ખ	ણ	6	લ	◌ૄ	F	v
0x07	ઉ	ગ	ત	7	ળ	◌ૅ	g	w
0x08	ઊ	ઘ	)	8			h	X
0x09	ઋ	ઙ	(	9	વ	◌ે	je	y
0x0A	LF	ચ	થ	:	શ	◌ૈ	j	z
0x0B	ઌ	ESC	દ	;	ષ	◌ૉ	k	ૠ
0x0C	ઍ	છ	,		સ		l	ૡ
0x0D	CR	જ	ધ	પ	હ	◌ો	m	◌ૢ
0x0E		ઝ	.	ફ	◌઼	◌ૌ	n	◌ૣ
0x0F	એ	ઞ	ન	?	ઽ	◌્	o	૱

LF est une commande de saut de ligne.
CR est un contrôle de retour chariot, ou remplisseur.
ESC est un contrôle Escape.
SP est un personnage de l'espace.

Maj simple Jeu de caractères
pour la langue gujarati
UDH contient 0x24 0x01 0x05
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	૪		\|	P
0x01	£	=	૫		UNE	Q
0x02	$	>	૬		B	R
0x03	¥	¡	૭		C	S
0x04	¿	^	૮		ré	T
0x05	"	¡	૯		E	U	€
0x06	¤	_			F	V
0x07	%	#			g	W
0x08	&	*	{		H	X
0x09	'	।	}		je	Oui
0x0A	FF	॥			J	Z
0x0B	*	SS2			K
0x0C	+	૦		[	L
0x0D	CR2	૧		~	M
0x0E	-	૨		]	N
0x0F	/	૩	\		O

FF est un contrôle de saut de page. S'il n'est pas reconnu, il doit être traité comme LF .
CR2 est un caractère de contrôle. Aucun caractère spécifique à la langue ne doit être codé à cette position.
SS2 est un deuxième contrôle Single Shift Escape réservé aux futures extensions.

Langue Oriya (Oriya et scripts latins de base)

Verrouillage Maj Jeu de caractères
pour oriya
UDH contient 0x25 0x01 0x09
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	◌ଁ	ଐ	SP	0	ବ	◌ା	◌ୖ	p
0x01	◌ଂ		!	1	ଭ	◌ି	une	q
0x02	◌ଃ		ଟ	2	ମ	◌ୀ	b	r
0x03	ଅ	ଓ	ଠ	3	ଯ	◌ୁ	c	s
0x04	ଆ	ଔ	ଡ	4	ର	◌ୂ	ré	t
0x05	ଇ	କ	ଢ	5		◌ୃ	e	u
0x06	ଈ	ଖ	ଣ	6	ଲ	ୄ	F	v
0x07	ଉ	ଗ	ତ	7	ଳ		g	w
0x08	ଊ	ଘ	)	8			h	X
0x09	ଋ	ଙ	(	9	ଵ	◌େ	je	y
0x0A	LF	ଚ	ଥ	:	ଶ	◌ୈ	j	z
0x0B	ଌ	ESC	ଦ	;	ଷ		k	◌ୗ
0x0C		ଛ	,		ସ		l	ୠ
0x0D	CR	ଜ	ଧ	ପ	ହ	◌ୋ	m	ୡ
0x0E		ଝ	.	ଫ	◌଼	◌ୌ	n	◌ୢ
0x0F	ଏ	ଞ	ନ	?	ଽ	◌୍	o	◌ୣ

LF est une commande de saut de ligne.
CR est un contrôle de retour chariot, ou remplisseur.
ESC est un contrôle Escape.
SP est un personnage de l'espace.

Maj simple Jeu de caractères
pour oriya
UDH contient 0x24 0x01 0x09
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	୪		\|	P
0x01	£	=	୫		UNE	Q
0x02	$	>	୬		B	R
0x03	¥	¡	୭		C	S
0x04	¿	^	୮		ré	T
0x05	"	¡	୯		E	U	€
0x06	¤	_	ଡ଼		F	V
0x07	%	#	ଢ଼		g	W
0x08	&	*	{		H	X
0x09	'	।	}		je	Oui
0x0A	FF	॥	ୟ		J	Z
0x0B	*	SS2	୰		K
0x0C	+	୦	ୱ	[	L
0x0D	CR2	୧		~	M
0x0E	-	୨		]	N
0x0F	/	୩	\		O

FF est un contrôle de saut de page. S'il n'est pas reconnu, il doit être traité comme LF .
CR2 est un caractère de contrôle. Aucun caractère spécifique à la langue ne doit être codé à cette position.
SS2 est un deuxième contrôle Single Shift Escape réservé aux futures extensions.

Langue tamoule (scripts tamouls et latin de base)

Verrouillage Maj Jeu de caractères
pour la langue tamoule
UDH contient 0x25 0x01 0x0B
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00		ஐ	SP	0		◌ா	ௐ	p
0x01	◌ஂ		!	1		◌ி	une	q
0x02	◌ஃ	ஒ	ட	2	ம	◌ீ	b	r
0x03	அ	ஓ		3	ய	◌ு	c	s
0x04	ஆ	ஔ		4	ர	◌ூ	ré	t
0x05	இ	க		5	ற		e	u
0x06	ஈ		ண	6	ல		F	v
0x07	உ		த	7	ள		g	w
0x08	ஊ		)	8	ழ	◌ெ	h	X
0x09		ங	(	9	வ	◌ே	je	y
0x0A	LF	ச		:	ஶ	◌ை	j	z
0x0B		ESC		;	ஷ		k	◌ௗ
0x0C			,	ன	ஸ	◌ொ	l	௰
0x0D	CR	ஜ		ப	ஹ	◌ோ	m	௱
0x0E	எ		.			◌ௌ	n	௲
0x0F	ஏ	ஞ	ந	?		◌்	o	௹

LF est une commande de saut de ligne.
CR est un contrôle de retour chariot, ou remplisseur.
ESC est un contrôle Escape.
SP est un personnage de l'espace.

Maj simple Jeu de caractères
pour la langue tamoule
UDH contient 0x24 0x01 0x0B
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	௪		\|	P
0x01	£	=	௫		UNE	Q
0x02	$	>	௬		B	R
0x03	¥	¡	௭		C	S
0x04	¿	^	௮		ré	T
0x05	"	¡	௯		E	U	€
0x06	¤	_	௳		F	V
0x07	%	#	௴		g	W
0x08	&	*	{		H	X
0x09	'	।	}		je	Oui
0x0A	FF	॥	௵		J	Z
0x0B	*	SS2	௶		K
0x0C	+	௦	௷	[	L
0x0D	CR2	௧	௸	~	M
0x0E	-	௨	௺	]	N
0x0F	/	௩	\		O

FF est un contrôle de saut de page. S'il n'est pas reconnu, il doit être traité comme LF .
CR2 est un caractère de contrôle. Aucun caractère spécifique à la langue ne doit être codé à cette position.
SS2 est un deuxième contrôle Single Shift Escape réservé aux futures extensions.

Langue Telugu (telugu et scripts latins de base)

Verrouillage Maj Jeu de caractères
pour la langue Telugu
UDH contient 0x25 0x01 0x0C
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	◌ఁ	ఐ	SP	0	బ	◌ా	◌ౕ	p
0x01	◌ం		!	1	భ	◌ి	une	q
0x02	◌ః	ఒ	ట	2	మ	◌ీ	b	r
0x03	అ	ఓ	ఠ	3	య	◌ు	c	s
0x04	ఆ	ఔ	డ	4	ర	◌ూ	ré	t
0x05	ఇ	క	ఢ	5	ఱ	◌ృ	e	u
0x06	ఈ	ఖ	ణ	6	ల	◌ౄ	F	v
0x07	ఉ	గ	త	7	ళ		g	w
0x08	ఊ	ఘ	)	8		◌ె	h	X
0x09	ఋ	ఙ	(	9	వ	◌ే	je	y
0x0A	LF	చ	థ	:	శ	◌ై	j	z
0x0B	ఌ	ESC	ద	;	ష		k	◌ౖ
0x0C		ఛ	,		స	◌ొ	l	ౠ
0x0D	CR	జ	ధ	ప	హ	◌ో	m	ౡ
0x0E	ఎ	ఝ	.	ఫ		◌ౌ	n	◌ౢ
0x0F	ఏ	ఞ	న	?	ఽ	◌్	o	◌ౣ

LF est une commande de saut de ligne.
CR est un contrôle de retour chariot, ou remplisseur.
ESC est un contrôle Escape.
SP est un personnage de l'espace.

Maj simple Jeu de caractères
pour la langue Telugu
UDH contient 0x24 0x01 0x0C
	0x00	0x10	0x20	0x30	0x40	0x50
0x00	@	<	౪	౽	\|	P
0x01	£	=	౫	౾	UNE	Q
0x02	$	>	౬	౿	B	R
0x03	¥	¡	౭		C	S
0x04	¿	^	౮		ré	T
0x05	"	¡	౯		E	U
0x06	¤	_	ౘ		F	V
0x07	%	#	ౙ		g	W
0x08	&	*	{		H	X
0x09	'		}		je	Oui
0x0A	FF		౸		J	Z
0x0B	*	SS2	౹		K
0x0C	+	౦	౺	[	L
0x0D	CR2	౧	౻	~	M
0x0E	-	౨	౼	]	N
0x0F	/	౩	\		O

FF est un contrôle de saut de page. S'il n'est pas reconnu, il doit être traité comme LF .
CR2 est un caractère de contrôle. Aucun caractère spécifique à la langue ne doit être codé à cette position.
SS2 est un deuxième contrôle Single Shift Escape réservé aux futures extensions.

Langue Kannada (Kannada et scripts latins de base)

Verrouillage Maj Jeu de caractères
pour la langue kannada
UDH contient 0x25 0x01 0x07
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70!
0x00		ಐ	SP	0	ಬ	ಾ	ೕ	p
0x01	ಂ		!	1	ಭ	ಿ	une	q
0x02	ಃ	ಒ	ಟ	2	ಮ	ೀ	b	r
0x03	ಅ	ಓ	ಠ	3	ಯ	ು	c	s
0x04	ಆ	ಔ	ಪ	4	ರ	ೂ	ré	t
0x05	ಇ	ಕ	ಢ	5	ಱ	ೃ	e	u
0x06	ಈ	ಖ	ಣ	6	ಲ	ೄ	F	v
0x07	ಉ	ಗ	ತ	7	ಳ		g	w
0x08	ಊ	ಘ	)	8		ೆ	h	X
0x09	ಋ	ಙ	(	9	ವ	ೇ	je	y
0x0A	LF	ಚ	ಥ	:	ಶ	ೈ	j	z
0x0B	ಌ	ESC	ದ	;	ಷ		k	ೖ
0x0C		ಛ	,		ಸ	ೊ	l	ೠ
0x0D	CR	ಜ	ಧ	ಪ	ಹ	ೋ	m	ೡ
0x0E	ಎ	ಝ	.	ಫ	಼	ೌ	n	ೢ
0x0F	ಏ	ಞ	ನ	?	ಽ	್	o	ೣ

LF est une commande de saut de ligne.
CR est un contrôle de retour chariot, ou remplisseur.
ESC est un contrôle Escape.
SP est un personnage de l'espace.

Maj simple Jeu de caractères
pour la langue kannada
UDH contient 0x24 0x01 0x07
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	೪		\|	P
0x01	£	=	೫		UNE	Q
0x02	$	>	೬		B	R
0x03	¥	¡	೭		C	S
0x04	¿	^	೮		ré	T
0x05	"	¡	೯		E	U	€
0x06	¤	_	ೞ		F	V
0x07	%	#	ೱ		g	W
0x08	&	*	{		H	X
0x09	'	।	}		je	Oui
0x0A	FF	॥	ೲ		J	Z
0x0B	*	SS2			K
0x0C	+	೦		]	L
0x0D	CR2	೧		~	M
0x0E	-	೨		]	N
0x0F	/	೩	\		O

FF est un contrôle de saut de page. S'il n'est pas reconnu, il doit être traité comme LF .
CR2 est un caractère de contrôle. Aucun caractère spécifique à la langue ne doit être codé à cette position.
SS2 est un deuxième contrôle Single Shift Escape réservé aux futures extensions.

Langue malayalam (malayalam et scripts latins de base)

Verrouillage Maj Jeu de caractères
pour la langue malayalam
UDH contient 0x25 0x01 0x08
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70!
0x00		ഐ	SP	0	ബ	ാ	ൗ	p
0x01	ം		!	1	ഭ	ി	une	q
0x02	ഃ	ഒ	ട	2	മ	ീ	b	r
0x03	അ	ഓ	ഠ	3	യ	ു	c	s
0x04	ആ	ഔ	ഡ	4	ര	ൂ	ré	t
0x05	ഇ	ക	ഢ	5	റ	ൃ	e	u
0x06	ഈ	ഖ	ണ	6	ല	ൄ	F	v
0x07	ഉ	ഗ	ത	7	ള		g	w
0x08	ഊ	ഘ	)	8	ഴ	െ	h	X
0x09	ഋ	ങ	(	9	വ	േ	je	y
0x0A	LF	ച	ഥ	:	ശ	ൈ	j	z
0x0B	ഌ	ESC	ദ	;	ഷ		k	ൠ
0x0C		ഛ	,		സ	ൊ	l	ൡ
0x0D	CR	ജ	ധ	പ	ഹ	ോ	m	ൢ
0x0E	എ	ഝ	.	ഫ		ൌ	n	ൣ
0x0F	ഏ	ഞ	ന	?	ഽ	്	o	൹

LF est une commande de saut de ligne.
CR est un contrôle de retour chariot, ou remplisseur.
ESC est un contrôle Escape.
SP est un personnage de l'espace.

Maj simple Jeu de caractères
pour la langue malayalam
UDH contient 0x25 0x01 0x08
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	൪	ൻ	-	P
0x01	£	=	൫	ർ	UNE	Q
0x02	$	>	൬	ൽ	B	R
0x03	¥	¡	൭	ൾ	C	S
0x04	¿	^	൮	ൿ	ré	T
0x05	"	¡	൯		E	U	€
0x06	¤	_	൰		F	V
0x07	%	#	൱		g	W
0x08	&	*	{		H	X
0x09	'	।	}		je	Oui
0x0A	FF	॥	൲		J	Z
0x0B	*	SS2	൳		K
0x0C	+	൦	൴	[	L
0x0D	CR2	൧	൵	~	M
0x0E	-	൨	ൺ	]	N
0x0F	/	൩	\		O

FF est un contrôle de saut de page. S'il n'est pas reconnu, il doit être traité comme LF .
CR2 est un caractère de contrôle. Aucun caractère spécifique à la langue ne doit être codé à cette position.
SS2 est un deuxième contrôle Single Shift Escape réservé aux futures extensions.

Voir également

Références

Liens externes

GSM 03.38 vers Unicode - le fichier de données de mappage GSM 03.38 vers Unicode de unicode.org.
Texte vers GSM 03.38 en C # - Mappage texte vers GSM 03.38 dans le langage de programmation C # .
JCharset - Le package Java Charset inclut le support GSM 03.38 - JCharset - Le package Java Charset inclut le support GSM 03.38.
Expression régulière Java pour GSM 03.38 - Expression régulière Java pour GSM 03.38 avec des commentaires de code expliquant l'expression régulière.
Calculatrice de longueur de SMS - Calculatrice de longueur de SMS en ligne avec surligneur d'encodage de caractères.
Composants internationaux pour Unicode (ICU), fichier de mappage gsm-03.38-2009.ucm

Languages

In other projects