Notation des acides nucléiques - Nucleic acid notation

La notation des acides nucléiques actuellement utilisée a été formalisée pour la première fois par l' Union internationale de chimie pure et appliquée (IUPAC) en 1970. Cette notation universellement acceptée utilise les caractères romains G, C, A et T, pour représenter les quatre nucléotides couramment trouvés dans acides désoxyribonucléiques (ADN). Compte tenu du rôle en expansion rapide du séquençage, de la synthèse et de l'analyse génétiques en biologie, les chercheurs ont été contraints de développer des notations alternatives pour soutenir davantage l'analyse et la manipulation des données génétiques. Ces notations exploitent généralement la taille, la forme et la symétrie pour atteindre ces objectifs.

Notation IUPAC

Symboles de base dégénérés IUPAC
La description symbole Bases représentées
Bases complémentaires
Non. UNE C g T
Adénine UNE 1 UNE T
Cytosine C C g
Guanine g g C
thym T T UNE
uracile U U UNE
Faible W 2 UNE T W
Fort S C g S
Un m ino M UNE C K
Céto K g T M
Pu r ine R UNE g Oui
P y rimidine Oui C T R
Pas un B 3 C g T V
Pas c UNE g T H
Pas G H UNE C T
Pas T V UNE C g B
A n y une base N 4 UNE C g T N
Zéro Z 0 Z

Les symboles de base BBC en biochimie sont une représentation IUPAC pour une position sur une séquence d'ADN qui peut avoir plusieurs alternatives possibles. Celles-ci ne doivent pas être confondues avec les bases non canoniques car chaque séquence particulière aura en fait l'une des bases régulières. Ceux-ci sont utilisés pour coder la séquence consensus d'une population de séquences alignées et sont utilisés par exemple dans l'analyse phylogénétique pour résumer en une séquence multiple ou pour les recherches BLAST , même si les symboles dégénérés IUPAC sont masqués (car ils ne sont pas codés).

Dans le système IUPAC couramment utilisé, les nucléobases sont représentées par les premières lettres de leurs noms chimiques : guanine, cytosine, adénine et thymine. Ce raccourci comprend également onze caractères « d'ambiguïté » associés à chaque combinaison possible des quatre bases d'ADN. Les caractères d'ambiguïté ont été conçus pour coder des variations de position afin de signaler des erreurs de séquençage d'ADN , des séquences consensus ou des polymorphismes mononucléotidiques . La notation IUPAC, y compris les caractères d'ambiguïté et les mnémoniques suggérés, est indiquée dans le tableau 1.

Malgré son acceptation large et presque universelle, le système IUPAC a un certain nombre de limitations, qui découlent de sa dépendance à l'alphabet romain. La mauvaise lisibilité des caractères romains majuscules, qui sont généralement utilisés lors de l'affichage des données génétiques, peut être la principale de ces limitations. La valeur des projections externes pour distinguer les lettres a été bien documentée. Cependant, ces projections sont absentes des lettres majuscules, qui dans certains cas ne se distinguent que par des indices internes subtils. Prenons par exemple les majuscules C et G utilisées pour représenter la cytosine et la guanine. Ces caractères comprennent généralement la moitié des caractères d'une séquence génétique mais sont différenciés par une petite coche interne (selon la police). Néanmoins, ces caractères romains sont disponibles dans le jeu de caractères ASCII le plus couramment utilisé dans les communications textuelles, ce qui renforce l'ubiquité de ce système.

Un autre inconvénient de la notation IUPAC provient du fait que ses onze caractères d'ambiguïté ont été sélectionnés parmi les caractères restants de l'alphabet romain. Les auteurs de la notation se sont efforcés de sélectionner des caractères d'ambiguïté avec des mnémoniques logiques. Par exemple, S est utilisé pour représenter la possibilité de trouver de la cytosine ou de la guanine à des loci génétiques, qui forment tous deux de fortes interactions de liaison croisée. Inversement, les interactions BBC de la thymine et de l'adénine sont représentées par un W. Cependant, des mnémoniques pratiques ne sont pas aussi facilement disponibles pour les autres caractères d'ambiguïté affichés dans le tableau 1. Cela a rendu les caractères d'ambiguïté difficiles à utiliser et peut expliquer leur application limitée.

Notations visuellement améliorées alternatives

Les problèmes de lisibilité associés aux données génétiques codées par l'IUPAC ont conduit les biologistes à envisager des stratégies alternatives pour afficher les données génétiques. Ces approches créatives pour visualiser des séquences d'ADN reposent généralement sur l'utilisation de symboles distribués dans l'espace et/ou de formes visuellement distinctes pour coder de longues séquences d'acides nucléiques. Des notations alternatives pour les séquences nucléotidiques ont été tentées, mais l'absorption générale a été faible. Plusieurs de ces approches sont résumées ci-dessous.

Projection de portée

La projection Stave utilise des points répartis dans l'espace pour améliorer la lisibilité des séquences d' ADN .

En 1986, Cowin et al. a décrit une nouvelle méthode pour visualiser la séquence d'ADN connue sous le nom de Stave Projection. Leur stratégie consistait à encoder les nucléotides sous forme de cercles sur des séries de barres horizontales semblables à des notes sur une portée musicale. Comme illustré sur la figure 1, chaque espace sur la portée de cinq lignes correspondait à l'une des quatre bases d'ADN. La distribution spatiale des cercles a permis de distinguer beaucoup plus facilement les bases individuelles et de comparer les séquences génétiques que les données codées IUPAC.

L'ordre des bases (de haut en bas, G, A, T, C) est choisi pour que le brin complémentaire puisse être lu en retournant la projection.

Symboles géométriques

Zimmerman et al. a adopté une approche différente pour visualiser les données génétiques. Plutôt que de s'appuyer sur des cercles répartis dans l'espace pour mettre en évidence les caractéristiques génétiques, ils ont exploité quatre symboles géométriquement divers trouvés dans une police informatique standard pour distinguer les quatre bases. Les auteurs ont développé une simple macro WordPerfect pour traduire les caractères IUPAC en symboles visuellement plus distincts.

Horizon de l'ADN

Avec la disponibilité croissante des éditeurs de polices, Jarvius et Landegren ont conçu un nouvel ensemble de symboles génétiques, connu sous le nom de police DNA Skyline, qui utilise des blocs de plus en plus grands pour représenter les différentes bases d'ADN. Bien que rappelant la projection spatiale de Cowin et al ., la police DNA Skyline est facile à télécharger et permet la traduction vers et depuis la notation IUPAC en changeant simplement la police dans la plupart des applications de traitement de texte standard.

Notations ambigraphiques

AmbiScript utilise des ambigrammes pour refléter les symétries de l'ADN et prendre en charge la manipulation et l'analyse des données génétiques.

Les ambigrammes (symboles qui véhiculent une signification différente lorsqu'ils sont vus dans une orientation différente) ont été conçus pour refléter les symétries structurelles trouvées dans la double hélice de l'ADN. En attribuant des caractères ambigraphiques à des bases complémentaires (c'est-à-dire guanine : b, cytosine : q, adénine : n et thymine : u), il est possible de compléter les séquences d'ADN en faisant simplement pivoter le texte de 180 degrés. Une notation d'acide nucléique ambigraphique permet également d'identifier facilement les palindromes génétiques, tels que les sites de restriction d'endonucléase, en tant que sections de texte qui peuvent être tournées de 180 degrés sans changer la séquence.

Un exemple de notation d'acide nucléique ambigraphique est AmbiScript, une notation d'acide nucléique conçue de manière rationnelle qui combinait de nombreuses caractéristiques visuelles et fonctionnelles de ses prédécesseurs. Sa notation utilise également des caractères décalés dans l'espace pour faciliter l'examen visuel et l'analyse des données génétiques. AmbiScript a également été conçu pour indiquer des positions nucléotidiques ambiguës via des symboles composés. Cette stratégie visait à offrir une solution plus intuitive à l'utilisation des caractères d'ambiguïté initialement proposée par l'IUPAC. Comme pour les polices DNA Skyline de Jarvius et Landegren, les polices AmbiScript peuvent être téléchargées et appliquées aux données de séquence codées IUPAC.

Voir également

Les références

  1. ^ une Commission b IUPAC-IUB sur la nomenclature biochimique (1970). « Abréviations et symboles pour les acides nucléiques, les polynucléotides et leurs constituants ». Biochimie . 9 (20) : 4022-4027. doi : 10.1021/bi00822a023 .
  2. ^ un b Comité de nomenclature de l'Union internationale de biochimie (NC-IUB) (1984). « Nomenclature des bases incomplètement spécifiées dans les séquences d'acides nucléiques » . Recherche sur les acides nucléiques . 13 (9) : 3021-3030. doi : 10.1093/nar/13.9.3021 . PMC  341218 . PMID  2582368 .
  3. ^ un b Comité de nomenclature de l'Union internationale de biochimie (NC-IUB) (1986). "Nomenclature pour les bases incomplètement spécifiées dans les séquences d'acides nucléiques. Recommandations 1984" . Proc. Natl. Acad. Sci. États-Unis . 83 (1) : 4-8. Bibcode : 1986PNAS ... 83 .... 4O . doi : 10.1073/pnas.83.1.4 . PMC  322779 . PMID  2417239 .
  4. ^ Tinker, MA 1963. Lisibilité de l'impression. Iowa State University Press, Ames IA.
  5. ^ Cowin, JE; Gelée, CH; Rickwood, D. (1986). "Une nouvelle méthode de représentation des séquences d'ADN qui combine la facilité d'analyse visuelle avec la lisibilité par machine" . Recherche sur les acides nucléiques . 14 (1) : 509–15. doi : 10.1093/nar/14.1.509 . PMC  339435 . PMID  3003680 .
  6. ^ Zimmerman, Pennsylvanie; Épeler, ML ; Rawls, J.; Unnasch, TR (1991). « La transformation des données de séquence d'ADN en symboles géométriques ». Biotechniques . 11 (1) : 50-52. PMID  1954017 .
  7. ^ Jarvius, J.; Landegren, U. (2006). "DNA Skyline: polices pour faciliter l'inspection visuelle des séquences d'acides nucléiques" . Biotechniques . 40 (6) : 740. doi : 10.2144/000112180 . PMID  16774117 .
  8. ^ Hofstadter, Douglas R. (1985). Thémas métamagiques : remettre en question l'essence de l'esprit et du modèle . New York : livres de base. ISBN 978-0465045662.
  9. ^ Rozak, DA (2006). « Les avantages pratiques et pédagogiques d'une notation d'acide nucléique ambigraphique ». Nucléosides, nucléotides et acides nucléiques . 25 (7) : 807-813. doi : 10.1080/15257770600726109 . PMID  16898419 . S2CID  23600737 .
  10. ^ Rozak, David A.; Rozak, Anthony J. (2008). "Simplicité, fonction et lisibilité dans une notation d'acide nucléique ambigraphique améliorée" . Biotechniques . 44 (6) : 811-813. doi : 10.2144/000112727 . PMID  18476835 .