Classement - Collation

Collation est l'assemblée d'information écrite dans un ordre standard. De nombreux systèmes de classement sont basés sur l'ordre numérique ou l'ordre alphabétique , ou des extensions et combinaisons de ceux-ci. L'assemblage est un élément fondamental de la plupart des systèmes de classement de bureau , des catalogues de bibliothèque et des livres de référence .

Le classement diffère de la classification en ce que les classes elles-mêmes ne sont pas nécessairement ordonnées. Cependant, même si l'ordre des classes n'a pas d'importance, les identifiants des classes peuvent être membres d'un ensemble ordonné, permettant à un algorithme de tri de classer les éléments par classe.

Formellement parlant, une méthode de collation définit typiquement un ordre total sur un ensemble d'identifiants possibles, appelés clés de tri, qui produit par conséquent un pré-ordre total sur l'ensemble des informations (les éléments ayant le même identifiant ne sont placés dans aucun ordre défini).

Un algorithme de classement tel que l' algorithme de classement Unicode définit un ordre à travers le processus de comparaison de deux chaînes de caractères données et de décision qui doit venir avant l'autre. Lorsqu'un ordre a été défini de cette manière, un algorithme de tri peut être utilisé pour mettre une liste d'un nombre quelconque d'articles dans cet ordre.

Le principal avantage du classement est qu'il permet à un utilisateur de trouver rapidement et facilement un élément dans la liste, ou de confirmer qu'il est absent de la liste. Dans les systèmes automatiques, cela peut être fait en utilisant un algorithme de recherche binaire ou une recherche par interpolation ; la recherche manuelle peut être effectuée en utilisant une procédure à peu près similaire, bien que cela soit souvent fait inconsciemment. D'autres avantages sont que l'on peut facilement trouver le premier ou le dernier élément de la liste (le plus susceptible d'être utile dans le cas de données triées numériquement), ou des éléments dans une plage donnée (à nouveau utile dans le cas de données numériques, et aussi avec données classées par ordre alphabétique lorsqu'on n'est sûr que des premières lettres du ou des articles recherchés).

Commande

Numérique et chronologique

Les chaînes représentant des nombres peuvent être triées en fonction des valeurs des nombres qu'elles représentent. Par exemple, "-4", "2,5", "10", "89", "30 000". Notez que l'application pure de cette méthode peut ne fournir qu'un ordre partiel sur les chaînes, car différentes chaînes peuvent représenter le même nombre (comme avec "2" et "2.0" ou, lorsque la notation scientifique est utilisée, "2e3" et "2000" ).

Une approche similaire peut être adoptée avec des chaînes représentant des dates ou d'autres éléments qui peuvent être classés par ordre chronologique ou d'une autre manière naturelle.

Alphabétique

L' ordre alphabétique est à la base de nombreux systèmes de collation où les éléments d' information sont identifiés par des chaînes constituées principalement de lettres d' un alphabet . L'ordre des chaînes repose sur l'existence d'un ordre standard pour les lettres de l'alphabet en question. (Le système n'est pas limité aux alphabets au sens technique strict ; les langues qui utilisent un syllabaire ou un abugida , par exemple Cherokee , peuvent utiliser le même principe d'ordre à condition qu'il y ait un ordre défini pour les symboles utilisés.)

Pour décider laquelle des deux chaînes vient en premier dans l'ordre alphabétique, leurs premières lettres sont initialement comparées. La chaîne dont la première lettre apparaît plus tôt dans l'alphabet vient en premier dans l'ordre alphabétique. Si les premières lettres sont les mêmes, alors les deuxièmes lettres sont comparées, et ainsi de suite, jusqu'à ce que l'ordre soit décidé. (Si une chaîne n'a plus de lettres à comparer, alors elle est réputée venir en premier ; par exemple, "cart" vient avant "carthorse".) Le résultat de l'organisation d'un ensemble de chaînes par ordre alphabétique est que les mots avec le même premier lettre sont regroupés, et au sein d'un tel groupe les mots avec les mêmes deux premières lettres sont regroupés, et ainsi de suite.

Les lettres majuscules sont généralement traitées comme équivalentes à leurs lettres minuscules correspondantes. (Pour les traitements alternatifs dans les systèmes informatisés, voir Classement automatisé ci-dessous.)

Certaines limitations, complications et conventions spéciales peuvent s'appliquer lorsque l'ordre alphabétique est utilisé :

  • Lorsque les chaînes contiennent des espaces ou d'autres séparateurs de mots, la décision doit être prise d'ignorer ces séparateurs ou de les traiter comme des symboles précédant toutes les autres lettres de l'alphabet. Par exemple, si la première approche est prise alors « parking » viendra après « carbone » et « carpe » (comme s'il était écrit « parking »), alors que dans la seconde approche « parking » viendra avant ceux deux mots. La première règle est utilisée dans de nombreux dictionnaires (mais pas tous) , la seconde dans les annuaires téléphoniques (afin que Wilson, Jim K apparaisse avec d'autres personnes nommées Wilson, Jim et non après Wilson, Jimbo).
  • Les abréviations peuvent être traitées comme si elles étaient écrites en toutes lettres. Par exemple, les noms contenant "St." (abréviation du mot anglais Saint ) sont souvent ordonnés comme s'ils étaient écrits comme "Saint". Il existe également une convention traditionnelle en anglais selon laquelle les noms de famille commençant par Mc et M' sont répertoriés comme si ces préfixes étaient écrits Mac .
  • Les chaînes qui représentent des noms personnels seront souvent répertoriées par ordre alphabétique du nom de famille, même si le prénom vient en premier. Par exemple, Juan Hernandes et Brian O'Leary doivent être triés comme "Hernandes, Juan" et "O'Leary, Brian" même s'ils ne sont pas écrits de cette façon.
  • Les mots initiaux très courants, tels que The en anglais, sont souvent ignorés à des fins de tri. Ainsi, The Shining serait trié comme simplement "Shining" ou "Shining, The".
  • Lorsque certaines chaînes contiennent des chiffres (ou d'autres caractères autres que des lettres), diverses approches sont possibles. Parfois, ces caractères sont traités comme s'ils venaient avant ou après toutes les lettres de l'alphabet. Une autre méthode consiste à trier les nombres par ordre alphabétique tels qu'ils seraient orthographiés : par exemple, 1776 serait trié comme s'il était écrit « seventeen soixante-seize », et 24 heures du Mans comme s'il était orthographié « vingt-quatre... » (français pour "vingt-quatre"). Lorsque des chiffres ou d'autres symboles sont utilisés comme formes graphiques spéciales de lettres, comme en 1337 pour leet ou Se7en pour le titre de film Seven , ils peuvent être triés comme s'il s'agissait de ces lettres.
  • Les langues ont des conventions différentes pour traiter les lettres modifiées et certaines combinaisons de lettres. Par exemple, en espagnol, la lettre ñ est traitée comme une lettre de base après n , et les digrammes ch et ll étaient auparavant (jusqu'en 1994) traités comme des lettres de base après c et l , bien qu'ils soient maintenant classés par ordre alphabétique comme combinaisons de deux lettres. Une liste de ces conventions pour différentes langues est disponible dans Ordre alphabétique § Conventions spécifiques à la langue .

Dans plusieurs langues, les règles ont changé au fil du temps et les dictionnaires plus anciens peuvent donc utiliser un ordre différent de celui des dictionnaires modernes. De plus, le classement peut dépendre de l'utilisation. Par exemple, les dictionnaires allemands et les annuaires téléphoniques utilisent des approches différentes.

Tri des radicaux et des accidents vasculaires cérébraux

Voir aussi Indexation des caractères chinois

Une autre forme de collation est le tri par radicaux et traits , utilisé pour les systèmes d'écriture non alphabétiques tels que le hanzi du chinois et le kanji du japonais , dont les milliers de symboles défient l'ordre par convention. Dans ce système, les composants communs des personnages sont identifiés ; ceux-ci sont appelés radicaux en chinois et systèmes logographiques dérivés du chinois. Les caractères sont ensuite regroupés par leur radical principal, puis classés par nombre de traits de stylo à l'intérieur des radicaux. Lorsqu'il n'y a pas de radical évident ou plus d'un radical, la convention détermine lequel est utilisé pour la collation. Par exemple, le caractère chinois 妈 (qui signifie "mère") est trié comme un caractère à six traits sous le radical primaire à trois traits 女.

Le système des radicaux et des traits est encombrant par rapport à un système alphabétique dans lequel il y a quelques caractères, tous sans ambiguïté. Le choix des composants d'un logographe comprenant des radicaux séparés et du radical primaire n'est pas clair. En conséquence, les langages logographiques complètent souvent l'ordre des radicaux et des traits par un tri alphabétique d'une conversion phonétique des logographes. Par exemple, le mot kanji Tōkyō (東京) peut être trié comme s'il était épelé dans les caractères japonais du syllabaire hiragana comme « to-u-ki- yo -u » (とうきょう), en utilisant l'ordre de tri conventionnel pour ces personnages.

De plus, dans la Grande Chine, l' ordre des traits de nom de famille est une convention dans certains documents officiels où les noms des personnes sont répertoriés sans hiérarchie.

Le système des radicaux et des traits, ou une méthode similaire de correspondance de motifs et de comptage de traits, était traditionnellement la seule méthode pratique pour construire des dictionnaires que quelqu'un pouvait utiliser pour rechercher un logographe dont la prononciation était inconnue. Avec l'avènement des ordinateurs, des programmes de dictionnaire sont maintenant disponibles qui permettent d'écrire un caractère à la main à l'aide d'une souris ou d'un stylet.

Automatisation

Lorsque les informations sont stockées dans des systèmes numériques, la collation peut devenir un processus automatisé. Il est alors nécessaire de mettre en œuvre un algorithme de collation approprié qui permet de trier les informations de manière satisfaisante pour l'application en question. Souvent, le but sera d'obtenir un ordre alphabétique ou numérique qui suive les critères standard décrits dans les sections précédentes. Cependant, tous ces critères ne sont pas faciles à automatiser.

Le type de classement automatisé le plus simple est basé sur les codes numériques des symboles dans un jeu de caractères , tel que le codage ASCII (ou l'un de ses sur-ensembles tels que Unicode ), les symboles étant ordonnés dans l'ordre numérique croissant de leurs codes, et cela l'ordre étant étendu aux chaînes conformément aux principes de base de l'ordre alphabétique (mathématiquement parlant, ordre lexicographique ). Ainsi, un programme informatique pourrait traiter les caractères a , b , C , d , et $ comme étant ordonnés $ , C , a , b , d (les codes ASCII correspondants sont $ = 36, a = 97, b = 98, C = 67, et d = 100). Par conséquent, les chaînes commençant par C , M ou Z seraient triées avant les chaînes avec une minuscule a , b , etc. Ceci est parfois appelé ordre ASCIIbétique . Cela s'écarte de l'ordre alphabétique standard, notamment en raison de l'ordre des majuscules avant toutes les minuscules (et éventuellement du traitement des espaces et autres caractères non alphabétiques). Il est donc souvent appliqué avec certaines modifications, la plus évidente étant la conversion de casse (souvent en majuscule, pour des raisons historiques) avant la comparaison des valeurs ASCII.

Dans de nombreux algorithmes de collation, la comparaison n'est pas basée sur les codes numériques des caractères, mais en référence à la séquence de collation - une séquence dans laquelle les caractères sont supposés venir à des fins de collation - ainsi que d'autres règles de classement appropriées pour l'application donnée. Cela peut servir à appliquer les conventions correctes utilisées pour en ordre alphabétique dans la langue en question, traiter correctement les lettres tubé différemment, modifiées lettres , digraphs , abréviations particulières, et ainsi de suite, comme mentionné ci - dessus dans l' ordre alphabétique , et en détail dans l' ordre alphabétique commander l' article. De tels algorithmes sont potentiellement assez complexes, nécessitant éventuellement plusieurs passages dans le texte.

Les problèmes restent néanmoins fréquents lorsque l'algorithme doit englober plus d'une langue. Par exemple, en allemand dictionnaires le mot ökonomisch vient entre offenbar et olfaktorisch , alors que turcs dictionnaires traitent o et ö comme des lettres différentes, à la mise oyun avant Öbür .

Un algorithme standard pour collationner n'importe quelle collection de chaînes composées de symboles Unicode standard est l' algorithme de collation Unicode . Cela peut être adapté pour utiliser la séquence de classement appropriée pour une langue donnée en adaptant sa table de classement par défaut. Plusieurs de ces personnalisations sont collectées dans Common Locale Data Repository .

Trier les clés

Dans certaines applications, les chaînes par lesquelles les éléments sont rassemblés peuvent différer des identificateurs affichés. Par exemple, The Shining peut être trié comme Shining, The (voir Ordre alphabétique ci-dessus), mais il peut toujours être souhaité de l'afficher comme The Shining . Dans ce cas, deux ensembles de chaînes peuvent être stockés, un à des fins d'affichage et un autre à des fins de classement. Les chaînes utilisées pour le classement de cette manière sont appelées clés de tri .

Problèmes avec les nombres

Parfois, il est souhaitable de commander du texte avec des numéros intégrés en utilisant l'ordre numérique approprié. Par exemple, "Figure 7b" précède "Figure 11a", même si "7" vient après "1" en Unicode . Cela peut être étendu aux chiffres romains . Ce comportement n'est pas particulièrement difficile à produire tant que seuls des entiers doivent être triés, bien qu'il puisse ralentir considérablement le tri. Par exemple, Microsoft Windows effectue cette opération lors du tri des noms de fichiers .

Trier correctement les décimales est un peu plus difficile, car différents paramètres régionaux utilisent des symboles différents pour un point décimal , et parfois le même caractère utilisé comme point décimal est également utilisé comme séparateur, par exemple "Section 3.2.5". Il n'y a pas de réponse universelle sur la façon de trier de telles chaînes ; toutes les règles dépendent de l'application.

L'ordre croissant des nombres diffère de l'ordre alphabétique, par exemple 11 vient par ordre alphabétique avant 2. Ceci peut être corrigé avec des zéros non significatifs : 02 vient par ordre alphabétique avant 11. Voir par exemple ISO 8601 .

De plus, -13 vient par ordre alphabétique après -12 bien que ce soit moins. Avec les nombres négatifs, pour que l'ordre croissant corresponde au tri alphabétique, des mesures plus drastiques sont nécessaires, telles que l'ajout d'une constante à tous les nombres pour les rendre tous positifs.

Étiquetage des articles commandés

Dans certains contextes, les chiffres et les lettres ne sont pas tant utilisés comme base pour établir une commande, mais comme moyen d'étiqueter des articles déjà commandés. Par exemple, des pages, des sections, des chapitres, etc., ainsi que des éléments de listes, sont fréquemment "numérotés" de cette manière. Les séries d'étiquetage qui peuvent être utilisées comprennent les chiffres arabes ordinaires (1, 2, 3, ...), les chiffres romains (I, II, III, ... ou i, ii, iii, ...), ou les lettres (A , B, C, ... ou a, b, c, ...). (Une autre méthode pour indiquer les éléments de la liste, sans les numéroter, consiste à utiliser une liste à puces .)

Lorsque des lettres d'un alphabet sont utilisées à cette fin d' énumération , il existe certaines conventions spécifiques à la langue quant aux lettres utilisées. Par exemple, les lettres russes Ъ et Ь (qui, par écrit, ne sont utilisées que pour modifier la consonne précédente ), et généralement aussi Ы , Й et Ё , sont omises. De plus, dans de nombreuses langues qui utilisent l'écriture latine étendue , les lettres modifiées ne sont souvent pas utilisées dans l'énumération.

Voir également

Remarques

Les références

Liens externes