Matrices de distance en phylogénie - Distance matrices in phylogeny

Les matrices de distance sont utilisées en phylogénie comme méthodes de distance non paramétriques et ont été initialement appliquées aux données phénétiques en utilisant une matrice de distances par paires. Ces distances sont ensuite réconciliées pour produire un arbre (un phylogramme , avec des longueurs de branches informatives). La matrice de distance peut provenir d'un certain nombre de sources différentes, y compris la distance mesurée (par exemple à partir d' études immunologiques ) ou l' analyse morphométrique , diverses formules de distance par paires (comme la distance euclidienne ) appliquées à des caractères morphologiques discrets, ou la distance génétique de la séquence, le fragment de restriction , ou des données d' allozyme . Pour les données de caractères phylogénétiques, les valeurs de distance brutes peuvent être calculées en comptant simplement le nombre de différences par paires dans les états des caractères ( distance de Hamming ).

Méthodes de matrice de distance

Les méthodes d'analyse phylogénétique à matrice de distance reposent explicitement sur une mesure de la «distance génétique» entre les séquences classées et nécessitent donc un MSA (alignement de séquences multiples) comme entrée. La distance est souvent définie comme la fraction des non-concordances aux positions alignées, les espaces étant ignorés ou comptés comme des discordances. Les méthodes de distance tentent de construire une matrice tout-à-tout à partir de l'ensemble de requêtes de séquence décrivant la distance entre chaque paire de séquences. À partir de là, est construit un arbre phylogénétique qui place des séquences étroitement liées sous le même nœud intérieur et dont les longueurs de branche reproduisent fidèlement les distances observées entre les séquences. Les méthodes de matrice de distance peuvent produire des arbres enracinés ou non, selon l'algorithme utilisé pour les calculer. Ils sont fréquemment utilisés comme base pour les types progressifs et itératifs d' alignement de séquences multiples . Le principal inconvénient des méthodes de matrice de distance est leur incapacité à utiliser efficacement les informations sur les régions locales à forte variation qui apparaissent sur plusieurs sous-arbres.

Rejoindre un voisin

Les méthodes de jonction de voisins appliquent des techniques générales de regroupement de données à l'analyse de séquence en utilisant la distance génétique comme métrique de regroupement. La méthode simple de jonction de voisins produit des arbres non enracinés, mais elle ne suppose pas un taux constant d'évolution (c'est-à-dire une horloge moléculaire ) à travers les lignées.

UPGMA et WPGMA

Les méthodes UPGMA ( méthode de groupe de paires non pondérées avec moyenne arithmétique ) et WPGMA ( méthode de groupe de paires pondérées avec moyenne arithmétique ) produisent des arbres enracinés et nécessitent une hypothèse à taux constant - c'est-à-dire qu'elle suppose un arbre ultramétrique dans lequel les distances de la racine à chaque extrémité de branche est égale.

Méthode Fitch – Margoliash

La méthode Fitch – Margoliash utilise une méthode des moindres carrés pondérés pour le regroupement basé sur la distance génétique. Les séquences étroitement apparentées reçoivent plus de poids dans le processus de construction de l'arbre pour corriger l'imprécision accrue dans la mesure des distances entre des séquences éloignées. En pratique, la correction de distance n'est nécessaire que lorsque les taux d'évolution diffèrent selon les branches. Les distances utilisées comme entrée de l'algorithme doivent être normalisées pour éviter de gros artefacts dans le calcul des relations entre des groupes étroitement liés et éloignés. Les distances calculées par cette méthode doivent être linéaires ; le critère de linéarité pour les distances exige que les valeurs attendues des longueurs de branche pour deux branches individuelles soient égales à la valeur attendue de la somme des deux distances de branche - une propriété qui ne s'applique aux séquences biologiques que lorsqu'elles ont été corrigées pour la possibilité de retour mutations sur des sites individuels. Cette correction se fait grâce à l'utilisation d'une matrice de substitution telle que celle dérivée du modèle d'évolution de l'ADN de Jukes – Cantor .

Le critère des moindres carrés appliqué à ces distances est plus précis mais moins efficace que les méthodes de voisinage. Une amélioration supplémentaire qui corrige les corrélations entre les distances qui résultent de nombreuses séquences étroitement liées dans l'ensemble de données peut également être appliquée à un coût de calcul accru. Trouver l'arbre des moindres carrés optimal avec n'importe quel facteur de correction est NP-complet , donc des méthodes de recherche heuristiques comme celles utilisées dans l'analyse de parcimonie maximale sont appliquées à la recherche dans l'espace arborescent.

Utilisation des groupes externes

Des informations indépendantes sur la relation entre les séquences ou les groupes peuvent être utilisées pour aider à réduire l'espace de recherche dans les arbres et à racine des arbres non enracinés. L'utilisation standard des méthodes de matrice de distance implique l'inclusion d'au moins une séquence d' exogroupes connue pour être uniquement liée à distance aux séquences d'intérêt dans l'ensemble de requêtes. Cet usage peut être vu comme un type de contrôle expérimental . Si l'exogroupe a été correctement choisi, il aura une distance génétique beaucoup plus grande et donc une longueur de branche plus longue que toute autre séquence, et il apparaîtra près de la racine d'un arbre enraciné. Le choix d'un exogroupe approprié nécessite la sélection d'une séquence qui est modérément liée aux séquences d'intérêt; une relation trop étroite va à l'encontre de l'objectif de l'exogroupe et trop distante ajoute du bruit à l'analyse. Des précautions doivent également être prises pour éviter les situations dans lesquelles les espèces à partir desquelles les séquences ont été prélevées sont éloignées, mais le gène codé par les séquences est hautement conservé à travers les lignées. Le transfert horizontal de gènes , en particulier entre des bactéries par ailleurs divergentes , peut également perturber l'utilisation hors groupe.

Faiblesses des différentes méthodes

En général, les données de distance par paires sont une sous-estimation de la distance de trajet entre les taxons sur un phylogramme . Les distances par paires "coupent effectivement les coins" d'une manière analogue à la distance géographique: la distance entre deux villes peut être de 100 miles "à vol d'oiseau", mais un voyageur peut en fait être obligé de parcourir 120 miles en raison de la disposition des routes, le terrain, arrêts en cours de route, etc. Entre les paires de taxons, certains changements de caractère qui ont eu lieu dans les lignées ancestrales seront indétectables, car les changements ultérieurs ont effacé les preuves (souvent appelées multiples hits et mutations inverses dans les données de séquence ). Ce problème est commun à toutes les estimations phylogénétiques, mais il est particulièrement aigu pour les méthodes de distance, car seuls deux échantillons sont utilisés pour chaque calcul de distance; d'autres méthodes bénéficient de preuves de ces changements cachés trouvés dans d'autres taxons non pris en compte dans les comparaisons par paires. Pour les données de séquence de nucléotides et d' acides aminés , les mêmes modèles stochastiques de changement de nucléotides utilisés dans l'analyse du maximum de vraisemblance peuvent être utilisés pour «corriger» les distances, rendant l'analyse «semi-paramétrique».

Plusieurs algorithmes simples existent pour construire un arbre directement à partir de distances par paires, y compris UPGMA et voisinage (NJ), mais ceux-ci ne produiront pas nécessairement le meilleur arbre pour les données. Pour contrer les complications potentielles mentionnées ci-dessus et pour trouver le meilleur arbre pour les données, l'analyse de distance peut également incorporer un protocole de recherche d'arbre qui cherche à satisfaire un critère d'optimalité explicite. Deux critères d'optimalité sont couramment appliqués aux données de distance, à l' évolution minimale (ME) et à l' inférence des moindres carrés . Les moindres carrés font partie d'une classe plus large de méthodes basées sur la régression regroupées ici pour plus de simplicité. Ces formules de régression minimisent les différences résiduelles entre les distances de chemin le long de l'arbre et les distances par paires dans la matrice de données, "ajustant" effectivement l'arbre aux distances empiriques. En revanche, ME accepte l'arbre avec la plus petite somme de longueurs de branche, et minimise ainsi la quantité totale d'évolution supposée. L'EM s'apparente étroitement à la parcimonie, et dans certaines conditions, l'analyse ME des distances basée sur un jeu de données de caractères discrets favorisera le même arbre que l'analyse de parcimonie conventionnelle des mêmes données.

L'estimation de la phylogénie à l'aide de méthodes à distance a produit un certain nombre de controverses. UPGMA suppose un arbre ultramétrique (un arbre où toutes les longueurs de chemin de la racine aux pointes sont égales). Si le taux d'évolution était égal dans toutes les lignées échantillonnées (une horloge moléculaire ), et si l'arbre était complètement équilibré (nombre égal de taxons des deux côtés de toute scission, pour contrer l' effet de densité de nœuds ), UPGMA ne devrait pas produire un biais résultat. Ces attentes ne sont pas satisfaites par la plupart des ensembles de données, et bien que l'UPGMA soit quelque peu robuste à leur violation, elle n'est pas couramment utilisée pour l'estimation de la phylogénie. L'avantage d'UPGMA est qu'il est rapide et peut gérer de nombreuses séquences.

La jonction de voisins est une forme de décomposition en étoile et, en tant que méthode heuristique , est généralement la moins intensive en calcul de ces méthodes. Il est très souvent utilisé seul et produit en fait assez fréquemment des arbres raisonnables. Cependant, il manque toute sorte de critère de recherche d'arbre et d'optimalité, et il n'y a donc aucune garantie que l'arbre récupéré soit celui qui correspond le mieux aux données. Une procédure analytique plus appropriée consisterait à utiliser NJ pour produire un arbre de départ, puis à utiliser une recherche arborescente en utilisant un critère d'optimalité, pour s'assurer que le meilleur arbre est récupéré.

De nombreux scientifiques évitent les méthodes à distance, pour diverses raisons. Une raison souvent citée est que les distances sont intrinsèquement phénétiques plutôt que phylogénétiques , en ce qu'elles ne font pas de distinction entre la similitude ancestrale ( symplesiomorphie ) et la similitude dérivée ( synapomorphie ). Cette critique n'est pas tout à fait juste: la plupart des implémentations actuelles de parcimonie, de vraisemblance et d'inférence phylogénétique bayésienne utilisent des modèles de caractères réversibles dans le temps, et n'accordent donc aucun statut spécial aux états de caractères dérivés ou ancestraux. Selon ces modèles, l'arbre est estimé non enraciné; l'enracinement, et par conséquent la détermination de la polarité, est effectué après l'analyse. La principale différence entre ces méthodes et les distances est que la parcimonie, la vraisemblance et les méthodes bayésiennes adaptent les caractères individuels à l'arbre, tandis que les méthodes de distance s'adaptent à tous les caractères à la fois. Il n'y a rien de moins phylogénétique dans cette approche.

Plus concrètement, les méthodes de distance sont évitées car la relation entre les caractères individuels et l'arbre est perdue dans le processus de réduction des caractères en distances. Ces méthodes n'utilisent pas directement les données de caractère et les informations verrouillées dans la distribution des états de caractère peuvent être perdues dans les comparaisons par paires. De plus, certaines relations phylogénétiques complexes peuvent produire des distances biaisées. Sur n'importe quel phylogramme, la longueur des branches sera sous-estimée car certains changements ne peuvent pas être découverts du tout en raison de l'échec de l'échantillonnage de certaines espèces en raison de la conception expérimentale ou de l'extinction (un phénomène appelé effet de densité de nœuds). Cependant, même si les distances par paires des données génétiques sont «corrigées» à l'aide de modèles stochastiques d'évolution comme mentionné ci-dessus, elles peuvent plus facilement se résumer à un arbre différent de celui produit à partir de l'analyse des mêmes données et du même modèle utilisant le maximum de vraisemblance . En effet, les distances par paires ne sont pas indépendantes; chaque branche d'un arbre est représentée dans les mesures de distance de tous les taxons qu'elle sépare. Une erreur résultant de toute caractéristique de cette branche qui pourrait confondre la phylogénie (variabilité stochastique, changement des paramètres évolutifs, une longueur de branche anormalement longue ou courte) sera propagée à travers toutes les mesures de distance pertinentes. La matrice de distance résultante peut alors mieux s'adapter à un arbre alternatif (probablement moins optimal).

Malgré ces problèmes potentiels, les méthodes à distance sont extrêmement rapides et produisent souvent une estimation raisonnable de la phylogénie. Ils présentent également certains avantages par rapport aux méthodes qui utilisent directement des caractères. Notamment, les méthodes à distance permettent l'utilisation de données qui peuvent ne pas être facilement converties en données de caractères, telles que les tests d' hybridation ADN-ADN . Ils permettent également des analyses qui tiennent compte de la possibilité que la vitesse à laquelle des nucléotides particuliers sont incorporés dans des séquences puisse varier sur l'arbre, en utilisant les distances LogDet . Pour certaines méthodes d'estimation de réseau (notamment NeighborNet ), l'abstraction d'informations sur les caractères individuels dans les données de distance est un avantage. Lorsqu'il est considéré caractère par caractère, un conflit entre un personnage et un arbre dû à une réticulation ne peut être distingué d'un conflit dû à une homoplasie ou à une erreur. Cependant, un conflit prononcé dans les données de distance, qui représente une fusion de nombreux caractères, est moins probable en raison d'une erreur ou d'une homoplasie à moins que les données ne soient fortement biaisées, et est donc plus susceptible d'être le résultat de réticulations.

Les méthodes à distance sont populaires parmi les systématiciens moléculaires, dont un grand nombre utilisent NJ sans étape d'optimisation presque exclusivement. Avec la vitesse croissante des analyses basées sur les caractères, certains des avantages des méthodes de distance vont probablement diminuer. Cependant, les implémentations NJ presque instantanées, la possibilité d'incorporer un modèle évolutif dans une analyse rapide, les distances LogDet, les méthodes d'estimation de réseau et le besoin occasionnel de résumer les relations avec un seul nombre signifient tous que les méthodes de distance resteront probablement dans le courant dominant pendant longtemps à venir.

Voir également

Liste des logiciels de phylogénétique

Références