Séquence conservée - Conserved sequence

Un multiple alignement de séquences de cinq mammifères histone H1 protéines
séquences sont les acides aminés des résidus 120-180 de protéines. Les résidus qui sont conservés dans toutes les séquences sont surlignés en gris. Sous chaque site (c'est-à-dire position) de l'alignement de la séquence protéique se trouve une clé indiquant les sites conservés (*), les sites avec des remplacements conservateurs (:), les sites avec des remplacements semi-conservateurs (.) et les sites avec des remplacements non conservateurs ( ) .

En biologie de l' évolution , des séquences conservées sont identiques ou similaires des séquences en acides nucléiques ( ADN et ARN ) ou des protéines à travers les espèces ( séquences orthologues ), ou dans un génome ( séquences paralogues ), ou entre le donneur et taxons de récepteur ( séquences xénologues ). La conservation indique qu'une séquence a été maintenue par la sélection naturelle .

Une séquence hautement conservée est une séquence qui est restée relativement inchangée très loin dans l' arbre phylogénétique , et donc très loin dans les temps géologiques . Des exemples de séquences hautement conservées comprennent les composants ARN des ribosomes présents dans tous les domaines de la vie, les séquences homéoboîtes répandues parmi les eucaryotes et l' ARNt dans les bactéries . L'étude de la conservation des séquences chevauche les domaines de la génomique , de la protéomique , de la biologie évolutive , de la phylogénétique , de la bioinformatique et des mathématiques .

Histoire

La découverte du rôle de l' ADN dans l' hérédité et les observations de Frederick Sanger sur la variation entre les insulines animales en 1949 ont incité les premiers biologistes moléculaires à étudier la taxonomie d'un point de vue moléculaire. Des études menées dans les années 1960 ont utilisé des techniques d' hybridation de l'ADN et de réactivité croisée des protéines pour mesurer la similitude entre des protéines orthologues connues , telles que l' hémoglobine et le cytochrome c . En 1965, Émile Zuckerkandl et Linus Pauling ont introduit le concept d' horloge moléculaire , proposant que des taux constants de remplacement des acides aminés puissent être utilisés pour estimer le temps écoulé depuis que deux organismes ont divergé . Alors que les phylogénies initiales correspondaient étroitement aux archives fossiles , les observations selon lesquelles certains gènes semblaient évoluer à des rythmes différents ont conduit au développement de théories de l'évolution moléculaire . La comparaison de 1966 de Margaret Dayhoff des séquences de ferrodoxine a montré que la sélection naturelle agirait pour conserver et optimiser les séquences de protéines essentielles à la vie.

Mécanismes

Sur de nombreuses générations, les séquences d'acides nucléiques dans le génome d'une lignée évolutive peuvent changer progressivement au fil du temps en raison de mutations et de délétions aléatoires . Des séquences peuvent également se recombiner ou être supprimées en raison de réarrangements chromosomiques . Les séquences conservées sont des séquences qui persistent dans le génome malgré de telles forces et ont des taux de mutation plus lents que le taux de mutation de fond.

La conservation peut se produire dans les séquences d'acides nucléiques codantes et non codantes . On pense que les séquences d'ADN hautement conservées ont une valeur fonctionnelle, bien que le rôle de nombreuses séquences d'ADN non codantes hautement conservées soit mal compris. La mesure dans laquelle une séquence est conservée peut être affectée par des pressions de sélection variables , sa robustesse à la mutation, la taille de la population et la dérive génétique . De nombreuses séquences fonctionnelles sont également modulaires , contenant des régions qui peuvent être soumises à des pressions de sélection indépendantes , telles que des domaines protéiques .

Séquence de codage

Dans les séquences codantes, la séquence d'acides nucléiques et d'acides aminés peut être conservée à des degrés divers, car la dégénérescence du code génétique signifie que des mutations synonymes dans une séquence codante n'affectent pas la séquence d'acides aminés de son produit protéique.

Les séquences d'acides aminés peuvent être conservées pour maintenir la structure ou la fonction d'une protéine ou d'un domaine. Les protéines conservées subissent moins de remplacements d'acides aminés , ou sont plus susceptibles de remplacer des acides aminés ayant des propriétés biochimiques similaires . Au sein d'une séquence, les acides aminés qui sont importants pour le repliement , la stabilité structurelle ou qui forment un site de liaison peuvent être plus fortement conservés.

La séquence d'acide nucléique d'un gène codant pour une protéine peut également être conservée par d'autres pressions sélectives. Le biais d'utilisation des codons dans certains organismes peut restreindre les types de mutations synonymes dans une séquence. Les séquences d'acides nucléiques qui provoquent une structure secondaire dans l'ARNm d'un gène codant peuvent être sélectionnées, car certaines structures peuvent affecter négativement la traduction, ou conservées lorsque l'ARNm agit également comme un ARN non codant fonctionnel.

Non-codage

Des séquences non codantes importantes pour la régulation des gènes , telles que les sites de liaison ou de reconnaissance des ribosomes et des facteurs de transcription , peuvent être conservées dans un génome. Par exemple, le promoteur d'un gène ou d'un opéron conservé peut également être conservé. Comme pour les protéines, les acides nucléiques qui sont importants pour la structure et la fonction de l' ARN non codant (ARNnc) peuvent également être conservés. Cependant, la conservation des séquences dans les ARNnc est généralement médiocre par rapport aux séquences codant pour les protéines, et les paires de bases qui contribuent à la structure ou à la fonction sont souvent conservées à la place.

Identification

Les séquences conservées sont généralement identifiées par des approches bioinformatiques basées sur l' alignement des séquences . Les progrès dans le séquençage de l'ADN à haut débit et la spectrométrie de masse des protéines ont considérablement augmenté la disponibilité des séquences protéiques et des génomes entiers à des fins de comparaison depuis le début des années 2000.

Recherche d'homologie

Les séquences conservées peuvent être identifiées par homologie de recherche, en utilisant des outils tels que BLAST , HMMER , OrthologR et Infernal. Les outils de recherche d'homologie peuvent prendre une séquence d'acide nucléique ou de protéine individuelle comme entrée, ou utiliser des modèles statistiques générés à partir d'alignements de séquences multiples de séquences apparentées connues. Les modèles statistiques tels que les profils-HMM et les modèles de covariance d'ARN qui intègrent également des informations structurelles, peuvent être utiles lors de la recherche de séquences plus éloignées. Les séquences d'entrée sont ensuite alignées sur une base de données de séquences d'individus apparentés ou d'autres espèces. Les alignements résultants sont ensuite notés sur la base du nombre d'acides aminés ou de bases correspondants, et du nombre de lacunes ou de délétions générées par l'alignement. Des substitutions conservatrices acceptables peuvent être identifiées à l'aide de matrices de substitution telles que PAM et BLOSUM . Les alignements à score élevé sont supposés provenir de séquences homologues. La conservation d'une séquence peut alors être déduite par la détection d'homologues très similaires sur une large gamme phylogénétique.

Alignement de séquences multiples

Un logo de séquence pour le motif de liaison LexA des bactéries gram-positives . Comme l' adénosine en position 5 est hautement conservée, elle apparaît plus grosse que les autres caractères.

Des alignements de séquences multiples peuvent être utilisés pour visualiser des séquences conservées. Le format CLUSTAL comprend une clé en texte brut pour annoter les colonnes conservées de l'alignement, indiquant la séquence conservée (*), les mutations conservatrices (:), les mutations semi-conservatrices (.) et les mutations non conservatrices ( ) Les logos de séquence peuvent également s'afficher. séquence conservée en représentant les proportions de caractères en chaque point de l'alignement par hauteur.

Alignement du génome

Cette image du navigateur ECR montre le résultat de l'alignement de différents génomes de vertébrés sur le génome humain au niveau du gène OTX2 conservé . En haut : Annotations génétiques des exons et introns du gène OTX2. Pour chaque génome, la similarité de séquence (%) par rapport au génome humain est tracée. Les traces montrent les génomes du poisson zèbre , du chien , du poulet , de la grenouille à griffes occidentale , de l' opossum , de la souris , du macaque rhésus et du chimpanzé . Les pics montrent des régions de similitude de séquence élevée dans tous les génomes, montrant que cette séquence est hautement conservée.

Les alignements du génome entier (WGA) peuvent également être utilisés pour identifier des régions hautement conservées à travers les espèces. Actuellement, la précision et l' évolutivité des outils WGA restent limitées en raison de la complexité informatique du traitement des réarrangements, des régions de répétition et de la grande taille de nombreux génomes eucaryotes. Cependant, les WGA de 30 bactéries ou plus étroitement apparentées (procaryotes) sont maintenant de plus en plus réalisables.

Systèmes de notation

D'autres approches utilisent des mesures de conservation basées sur des tests statistiques qui tentent d'identifier des séquences qui mutent différemment par rapport à un taux de mutation de fond (neutre) attendu.

Le cadre GERP (Genomic Evolutionary Rate Profiling) évalue la conservation des séquences génétiques à travers les espèces. Cette approche estime le taux de mutation neutre dans un ensemble d'espèces à partir d'un alignement de séquences multiples, puis identifie les régions de la séquence qui présentent moins de mutations que prévu. Ces régions reçoivent ensuite des scores basés sur la différence entre le taux de mutation observé et le taux de mutation de fond attendu. Un score GERP élevé indique alors une séquence hautement conservée.

LIST (Local Identity and Shared Taxa) est basé sur l'hypothèse que les variations observées chez les espèces étroitement liées à l'homme sont plus importantes lors de l'évaluation de la conservation que celles observées chez les espèces éloignées. Ainsi, le LIST utilise l'identité d'alignement local autour de chaque position pour identifier les séquences pertinentes dans l'alignement de séquences multiples (MSA), puis il estime la conservation en fonction des distances taxonomiques de ces séquences par rapport à l'homme. Contrairement à d'autres outils, LIST ignore le nombre/la fréquence des variations dans le MSA.

Aminode combine plusieurs alignements avec une analyse phylogénétique pour analyser les changements dans les protéines homologues et produire un graphique qui indique les taux locaux de changements évolutifs. Cette approche identifie les régions à contrainte évolutive dans une protéine, qui sont des segments soumis à une sélection purificatrice et sont généralement critiques pour la fonction normale de la protéine.

D'autres approches telles que PhyloP et PhyloHMM intègrent des méthodes de phylogénétique statistique pour comparer les distributions de probabilité des taux de substitution, ce qui permet la détection à la fois de la conservation et de la mutation accélérée. Tout d'abord, une distribution de probabilité de fond est générée du nombre de substitutions attendues pour une colonne dans un alignement de séquences multiples, sur la base d'un arbre phylogénétique . Les relations évolutives estimées entre les espèces d'intérêt sont utilisées pour calculer l'importance de toute substitution (c'est-à-dire qu'une substitution entre deux espèces étroitement apparentées peut être moins susceptible de se produire que des espèces éloignées, et donc plus significative). Pour détecter la conservation, une distribution de probabilité est calculée pour un sous-ensemble de l'alignement de séquences multiples, et comparée à la distribution de fond à l'aide d'un test statistique tel qu'un test de rapport de vraisemblance ou un test de score . Les valeurs p générées à partir de la comparaison des deux distributions sont ensuite utilisées pour identifier les régions conservées. PhyloHMM utilise des modèles de Markov cachés pour générer des distributions de probabilité. Le progiciel PhyloP compare les distributions de probabilité à l'aide d'un test de rapport de vraisemblance ou d' un test de score , ainsi qu'à l'aide d'un système de notation de type GERP.

Conservation extrême

Éléments ultra-conservés

Les éléments ultra-conservés ou UCE sont des séquences très similaires ou identiques dans plusieurs groupes taxonomiques . Ceux-ci ont d'abord été découverts chez les vertébrés et ont ensuite été identifiés au sein de taxons très différents. Bien que l'origine et la fonction des UCE soient mal comprises, elles ont été utilisées pour étudier les divergences dans le temps profond chez les amniotes , les insectes et entre les animaux et les plantes .

Gènes universellement conservés

Les gènes les plus conservés sont ceux que l'on peut trouver dans tous les organismes. Ceux-ci se composent principalement des ARNnc et des protéines nécessaires à la transcription et à la traduction , qui sont supposés avoir été conservés à partir du dernier ancêtre commun universel de toute vie.

Les gènes ou les familles de gènes qui se sont avérés être universellement conservés comprennent les facteurs d'élongation de liaison au GTP , la méthionine aminopeptidase 2 , la sérine hydroxyméthyltransférase et les transporteurs d'ATP . Les composants de la machinerie de transcription, tels que l' ARN polymérase et les hélicases , et de la machinerie de traduction, tels que les ARN ribosomiques , les ARNt et les protéines ribosomiques sont également universellement conservés.

Applications

Phylogénétique et taxonomie

Des ensembles de séquences conservées sont souvent utilisés pour générer des arbres phylogénétiques , car on peut supposer que les organismes avec des séquences similaires sont étroitement liés. Le choix des séquences peut varier en fonction de la portée taxonomique de l'étude. Par exemple, les gènes les plus hautement conservés tels que l'ARN 16S et d'autres séquences ribosomiques sont utiles pour reconstruire des relations phylogénétiques profondes et identifier les phylums bactériens dans les études de métagénomique . Les séquences conservées au sein d'un clade mais qui subissent certaines mutations, telles que les gènes de ménage , peuvent être utilisées pour étudier les relations entre les espèces. La région d' espacement interne transcrit (ITS), qui est nécessaire pour espacer les gènes d'ARNr conservés mais subit une évolution rapide, est couramment utilisée pour classer les champignons et les souches de bactéries à évolution rapide.

Recherche médicale

Comme les séquences hautement conservées ont souvent des fonctions biologiques importantes, elles peuvent être un point de départ utile pour identifier la cause des maladies génétiques . De nombreux troubles métaboliques congénitaux et maladies de surcharge lysosomale sont le résultat de modifications apportées à des gènes individuels conservés, entraînant des enzymes manquantes ou défectueuses qui sont la cause sous-jacente des symptômes de la maladie. Les maladies génétiques peuvent être prédites en identifiant les séquences qui sont conservées entre les humains et les organismes de laboratoire tels que les souris ou les mouches des fruits , et en étudiant les effets des knock-outs de ces gènes. Les études d'association à l'échelle du génome peuvent également être utilisées pour identifier la variation dans les séquences conservées associées à la maladie ou aux résultats pour la santé. Dans la maladie d'Alzheimer, plus de deux douzaines de nouveaux loci potentiels de susceptibilité ont été découverts

Annotation fonctionnelle

L'identification de séquences conservées peut être utilisée pour découvrir et prédire des séquences fonctionnelles telles que des gènes. Des séquences conservées avec une fonction connue, telles que des domaines protéiques, peuvent également être utilisées pour prédire la fonction d'une séquence. Des bases de données de domaines protéiques conservés telles que Pfam et la base de données de domaines conservés peuvent être utilisées pour annoter des domaines fonctionnels dans des gènes codant pour des protéines prédites.

Voir également

Les références