Entrée Unicode - Unicode input

L' outil de mappage de caractères KCharSelect affiché affichant un sous-ensemble des opérateurs mathématiques Unicode

Le logo Unicode

L'entrée Unicode est l'insertion d'un caractère Unicode spécifique sur un ordinateur par un utilisateur ; c'est une manière courante de saisir des caractères qui ne sont pas directement pris en charge par un clavier physique . Les caractères Unicode peuvent être produits soit en les sélectionnant sur un écran, soit en tapant une certaine séquence de touches sur un clavier physique. De plus, un caractère produit par l'une de ces méthodes dans une page Web ou un document peut être copié dans un autre. Contrairement à ASCII élément de 96 jeu de caractères (qu'il contient), des centaines de Unicode de milliers de graphèmes (personnages) de presque toutes les langues écrites du monde et beaucoup d' autres signes et symboles en plus.

Un système d'entrée Unicode doit fournir un large répertoire de caractères, idéalement tous les points de code Unicode valides. Ceci est différent d'une disposition de clavier qui définit les touches et leurs combinaisons uniquement pour un nombre limité de caractères appropriés pour un certain paramètre régional .

Numéros Unicode

Les caractères Unicode se distinguent par des points de code , qui sont classiquement représentés par "U+" suivi de quatre, cinq ou six chiffres hexadécimaux , par exemple U+00AE ou U+1D310. Les caractères du plan multilingue de base (BMP), contenant des écritures modernes - y compris de nombreux caractères chinois et japonais - et de nombreux symboles, ont un code à 4 chiffres. Les scripts historiques, mais aussi de nombreux symboles et pictogrammes modernes (tels que les émoticônes , les emojis , les cartes à jouer et de nombreux caractères CJK ) ont des codes à 5 chiffres.

Disponibilité

Une application ne peut afficher un caractère que si elle peut accéder à une police contenant un glyphe pour le caractère. Très peu de polices ont une couverture Unicode complète ; la plupart ne contiennent que les glyphes nécessaires pour prendre en charge quelques systèmes d'écriture . Cependant, la plupart des navigateurs modernes et autres applications de traitement de texte sont capables d'afficher du contenu multilingue car ils effectuent une substitution de police , passant automatiquement à une police de secours lorsque cela est nécessaire pour afficher des caractères qui ne sont pas pris en charge dans la police actuelle. Les polices utilisées pour le repli et l'exhaustivité de la couverture Unicode varient selon le logiciel et le système d'exploitation ; certains logiciels rechercheront un glyphe approprié dans toutes les polices installées, d'autres rechercheront uniquement dans certaines polices.

Si une application n'a pas accès à un glyphe, le caractère sera généralement affiché comme le glyphe ".notdef" de la police ⟨􏿮⟩ qui apparaît souvent comme une case vide (surnommée "tofu" en fonction de la forme), une case avec un X ou une case avec un point d'interrogation. Les implémentations modernes utilisent .notdef pour les caractères non pris en charge et le caractère de remplacement ⟨ ⟩ uniquement pour les erreurs d'encodage.

Sélection à partir d'un écran

Carte des personnages de GNOME

De nombreux systèmes offrent un moyen de sélectionner visuellement les caractères Unicode. ISO/IEC 14755 fait référence à cette méthode de saisie par sélection d'écran .

Microsoft Windows a fourni une version Unicode du programme de table de caractères , apparaissant dans l'édition grand public depuis XP. Ceci est limité aux caractères du plan multilingue de base (BMP). Les caractères sont consultables par nom de caractère Unicode et le tableau peut être limité à un bloc de code particulier. Des outils tiers plus avancés du même type sont également disponibles (un exemple de logiciel gratuit notable est BabelMap , qui prend en charge tous les caractères Unicode). Sur la plupart des environnements de bureau Linux , des outils équivalents – tels que gucharmap (GNOME) ou kcharselect (KDE) – sont disponibles.

Généralement, ces outils permettent à l'utilisateur de "copier" les caractères sélectionnés dans le presse-papiers, puis de les coller dans le document, plutôt que de prétendre les taper directement.

Il est souvent pratique de simplement trouver le caractère souhaité sur le Web ou dans un autre document, et de le copier-coller à partir de là.

Saisie décimale

Certains programmes fonctionnant sous Microsoft Windows , y compris les versions récentes de Word et Wordpad , peuvent produire des caractères à partir de leurs points de code Unicode exprimés en décimal et saisis sur le pavé numérique en Altmaintenant la touche enfoncée. Par exemple, le signe Euro € a 20AC comme point de code hexadécimal, qui est 8364 en décimal, donc Alt+ 8364produira le symbole. De même, Alt+ 120132produit le AJOURÉ caractère 𝕄 .

Les points de code décimaux compris entre 160 et 255 doivent être saisis avec un zéro non significatif (afin que la page de codes Windows soit choisie) et en outre, la page de codes Windows doit être définie pour correspondre à Unicode ( CP1252 doit être utilisé). Par exemple, Alt+ 0247donne un ÷ , ce qui correspond à son point de code, mais le caractère produit par Alt+ 247dépend de la page de code OEM , tels que la page de code 437 , et peut donner une ≈ .

Dans les programmes dans lesquels les codes Alt supérieurs à 255 ne fonctionnent pas, le caractère récupéré correspond généralement au reste lorsque le nombre est divisé par 256.

L'éditeur de texte Vim permet aux caractères d'être spécifiés par des mnémoniques à deux caractères (appelés confusément "digraphes" par les développeurs Vim). L'ensemble installé peut être augmenté par des mnémoniques personnalisés définis pour des points de code arbitraires, spécifiés en décimal. Par exemple, comme décimal 9881 est égal à hexadécimal 2699, dig Gr 9881associés « Gr » avec U + 2699 ⚙ VITESSE .

Voir ci - dessous pour l'utilisation des points de code décimaux en HTML.

Saisie hexadécimale

L'article 5.1 de l' ISO/CEI 14755 décrit une méthode de base dans laquelle une séquence de début est suivie de la représentation en nombre hexadécimal du point de code et de la séquence de fin . La plupart des systèmes modernes ont une méthode pour émuler cela, parfois limitée à quatre chiffres (donc uniquement le plan multilingue de base ).

Dans Microsoft Windows

L'entrée Unicode hexadécimale peut être activée en ajoutant une valeur de type chaîne (REG_SZ) appelée EnableHexNumpadà la clé de registreHKEY_CURRENT_USER\Control Panel\Input Method et en lui attribuant les données de valeur 1. Les utilisateurs devront se déconnecter et se reconnecter après avoir modifié le registre pour que cette méthode de saisie commence à fonctionner. (Dans les versions antérieures à Vista, les utilisateurs devaient redémarrer pour que cela commence à fonctionner.)

Les caractères Unicode peuvent ensuite être saisis en maintenant enfoncé Altet en tapant +sur le pavé numérique, suivi du code hexadécimal - en utilisant le pavé numérique pour les chiffres de 0 à 9 et les touches alphabétiques pour A à F - puis en relâchant Alt. Cela peut ne pas fonctionner pour les codes hexadécimaux à 5 chiffres comme U+1F937.

Fenêtre de saisie Unicode

Si l'on préfère ne pas éditer le registre ou si, comme sur de nombreux ordinateurs portables, le pavé numérique n'est pas disponible, des logiciels tiers tels que UnicodeInput peuvent être utilisés.

Les scripts AutoHotkey prennent en charge la substitution des caractères Unicode pour les frappes. Par exemple, la commande Send {U+2014}insère un tiret cadratin dans un champ de texte de la fenêtre active.

Dans certaines applications (programmes Word , WordPad et LibreOffice ) une méthode plus simple est supportée : on entre d'abord le point de code du caractère (entre deux et six chiffres hexadécimaux), puis on tape Alt+ Xqui remplacera les chiffres par le caractère Unicode. Par exemple, entrer f1et appuyer sur la combinaison produira le caractère 'ñ'.

À moins qu'il ne comporte six chiffres hexadécimaux, le code ne doit être précédé d'aucun chiffre ni de lettres a à f car ils peuvent être traités comme faisant partie du code à convertir. Par exemple, la saisie af1suivie de Alt+ Xproduira « ૱ » (U+0AF1), mais la saisie a0000f1suivie de Alt+ Xproduira « añ » (« a » suivi du caractère U+00F1).

On peut générer un caractère souhaité par cette technique dans Word (par exemple) puis le copier-coller dans une application qui ne supporte pas directement cette méthode.

Sous MacOS

L'entrée hexadécimale d'Unicode doit être activée. Sous Mac OS 8.5 et versions ultérieures, vous pouvez choisir la disposition du clavier Unicode Hex Input ; dans OS X (10.10) Yosemite , cela peut être ajouté dans Keyboard → Input Sources.

En maintenant enfoncée ⌥ Option, on tape le point de code Unicode hexadécimal à quatre chiffres et le caractère équivalent apparaît ; on peut alors relâcher la ⌥ Optionclé. Les caractères en dehors du BMP (le plan multilingue de base) dépassent la limite de quatre chiffres du mécanisme de saisie hexadécimale Unicode mais peuvent être saisis à l'aide de paires de substitution : maintenez la ⌥ Optiontouche enfoncée tout en entrant le premier substitut, le +, le deuxième substitut, puis relâchez la touche Option.

Sous X11 (Linux et autres variantes Unix dont Chrome OS)

Dans de nombreuses applications, une ou les deux méthodes suivantes fonctionnent pour saisir directement des caractères Unicode :

Tenir Ctrl+ ⇧ Shiftet taper usuivi des chiffres hexadécimaux, puis relâcher Ctrl+ ⇧ Shift.
En entrant Ctrl+ ⇧ Shift+ u, en relâchant, puis en tapant les chiffres hexadécimaux et en appuyant sur ↵ Enter(ou Spaceou même, sur certains systèmes, en appuyant et en relâchant ⇧ Shiftou Ctrl).

Ceci est pris en charge par les applications GTK et Qt, et éventuellement d'autres. Dans Chrome OS, il s'agit d'une fonction du système d'exploitation.

Dans les applications indépendantes de la plate-forme

Dans Emacs , Ctrl+ x8↵ Enterou Meta+ xinsert-char.
À partir de LibreOffice 5.1, la méthode Alt+ Xdécrite ci-dessus pour Windows fonctionne.
Dans les versions d' Opera qui utilisent le moteur de mise en page Presto—c'est-à-dire jusqu'à et y compris la version 12.xx—, entrez le nombre hexadécimal du symbole ou du caractère souhaité puis appuyez sur Ctrl+ ⇧ Shift+ x(autre raccourci Meta+ ⇧ Shift+ + xsur macOS ).
Dans l' éditeur Vim , en mode insertion, l'utilisateur tape d'abord Ctrl+ V u(pour les points de code jusqu'à 4 chiffres hexadécimaux ; en utilisant Ctrl+ V ⇧ Shift+ U pour plus longtemps), puis tape le nombre hexadécimal du symbole ou du caractère souhaité, et il sera converti en le symbole. (Sous Microsoft Windows, Ctrl+ Qpeut être requis au lieu de Ctrl+ V.)
Dans AutoCAD \U2300 ou trois raccourcis %%c, %%d, %%p.

HTML

En HTML et XML , les codes de caractères à restituer sous forme de caractères sont précédés d'une esperluette et d'un signe dièse (&#) et sont suivis d'un point-virgule (;). Le point de code peut être soit en décimal, soit en hexadécimal ; dans ce dernier cas, il est précédé d'un "x". Les zéros non significatifs peuvent être omis. Un certain nombre de caractères peuvent être représentés par une entité nommée .

Cela fonctionne dans de nombreux logiciels qui acceptent le balisage HTML, tels que l'édition Thunderbird et Wikipedia.

Languages

In other projects