Théorie coalescente - Coalescent theory

La théorie de la coalescence est un modèle de la façon dont les allèles échantillonnés dans une population peuvent provenir d'un ancêtre commun . Dans le cas le plus simple, la théorie de la coalescence ne suppose aucune recombinaison , aucune sélection naturelle et aucun flux de gènes ou structure de population , ce qui signifie que chaque variante est également susceptible d'avoir été transmise d'une génération à l'autre. Le modèle regarde en arrière dans le temps, fusionnant les allèles en une seule copie ancestrale selon un processus aléatoire dans les événements de coalescence. Dans ce modèle, le temps attendu entre les événements de coalescence successifs augmente de manière presque exponentielle dans le temps (avec une large variance ). La variance dans le modèle provient à la fois du passage aléatoire d'allèles d'une génération à l'autre et de l'occurrence aléatoire de mutations dans ces allèles.

La théorie mathématique de la coalescence a été développée indépendamment par plusieurs groupes au début des années 1980 en tant qu'extension naturelle de la théorie et des modèles classiques de la génétique des populations , mais peut être principalement attribuée à John Kingman . Les progrès de la théorie de la coalescence comprennent la recombinaison, la sélection, le chevauchement des générations et pratiquement tout modèle évolutif ou démographique arbitrairement complexe dans l'analyse génétique des populations.

Le modèle peut être utilisé pour produire de nombreuses généalogies théoriques, puis comparer les données observées à ces simulations pour tester les hypothèses sur l'histoire démographique d'une population. La théorie de la coalescence peut être utilisée pour faire des déductions sur les paramètres génétiques de la population, tels que la migration, la taille de la population et la recombinaison.

Théorie

Temps de fusion

Considérons un seul locus de gène échantillonné à partir de deux individus haploïdes dans une population. L'ascendance de cet échantillon est retracée dans le temps jusqu'au point où ces deux lignées fusionnent dans leur ancêtre commun le plus récent (MRCA). La théorie de la coalescence cherche à estimer l'espérance de cette période de temps et sa variance.

La probabilité que deux lignées fusionnent dans la génération immédiatement précédente est la probabilité qu'elles partagent une séquence d' ADN parentale . Dans une population avec une taille de population effective constante avec 2 N e copies de chaque locus, il y a 2 N e "parents potentiels" dans la génération précédente. Dans un modèle d'accouplement aléatoire , la probabilité que deux allèles proviennent de la même copie parentale est donc de 1/(2 N e ) et, en conséquence, la probabilité qu'ils ne fusionnent pas est de 1 − 1/(2 N e ).

A chaque génération précédente successive, la probabilité de coalescence est distribuée géométriquement, c'est-à-dire qu'elle est la probabilité de non coalescence aux t  − 1 générations précédentes multipliée par la probabilité de coalescence à la génération d'intérêt :

Pour des valeurs suffisamment grandes de N e , cette distribution est bien approchée par la distribution exponentielle continue

Ceci est mathématiquement pratique, car la distribution exponentielle standard a à la fois la valeur attendue et l' écart type égal à 2 N e . Par conséquent, bien que le temps de coalescence attendu soit de 2 N e , les temps de coalescence réels présentent une large plage de variation. Notez que le temps de coalescence est le nombre de générations précédentes où la coalescence a eu lieu et non le temps calendaire, bien qu'une estimation de ce dernier puisse être faite en multipliant 2 N e par le temps moyen entre les générations. Les calculs ci-dessus s'appliquent également à une population diploïde de taille effective N e (en d'autres termes, pour un segment d'ADN non recombinant, chaque chromosome peut être traité comme l'équivalent d'un individu haploïde indépendant ; en l'absence de consanguinité, les chromosomes frères dans un seul individu ne sont pas plus étroitement apparentés que deux chromosomes prélevés au hasard dans la population). Certains éléments d'ADN effectivement haploïdes, comme l'ADN mitochondrial , ne sont cependant transmis que par un sexe, et ont donc un quart de la taille effective de la population diploïde équivalente ( N e /2)

Variation neutre

La théorie de la coalescence peut également être utilisée pour modéliser la quantité de variation dans les séquences d' ADN attendue de la dérive génétique et de la mutation. Cette valeur est appelée hétérozygotie moyenne , représentée par . L'hétérozygotie moyenne est calculée comme la probabilité qu'une mutation se produise à une génération donnée divisée par la probabilité de tout « événement » à cette génération (soit une mutation, soit une coalescence). La probabilité que l'événement soit une mutation est la probabilité d'une mutation dans l'une ou l'autre des deux lignées : . Ainsi, l'hétérozygotie moyenne est égale à

Pour , la grande majorité des paires d'allèles ont au moins une différence de séquence nucléotidique .

Représentation graphique

Les coalescences peuvent être visualisées à l'aide de dendrogrammes qui montrent la relation entre les branches de la population. Le point où deux branches se rencontrent indique un événement coalescent.

Applications

Cartographie des gènes de la maladie

L'utilité de la théorie de la coalescence dans la cartographie des maladies gagne lentement en appréciation ; bien que l'application de la théorie en soit encore à ses balbutiements, un certain nombre de chercheurs développent activement des algorithmes pour l'analyse des données génétiques humaines qui utilisent la théorie de la coalescence.

Un nombre considérable de maladies humaines peuvent être attribuées à la génétique, des simples maladies mendéliennes comme la drépanocytose et la mucoviscidose , à des maladies plus complexes comme les cancers et les maladies mentales. Ces dernières sont des maladies polygéniques, contrôlées par de multiples gènes qui peuvent apparaître sur différents chromosomes, mais les maladies qui sont précipitées par une seule anomalie sont relativement simples à localiser et à retracer – bien que pas si simples que cela ait été réalisé pour toutes les maladies. Il est extrêmement utile pour comprendre ces maladies et leurs processus de savoir où elles se situent sur les chromosomes et comment elles ont été héritées à travers les générations d'une famille, comme cela peut être accompli par l'analyse coalescente.

Les maladies génétiques se transmettent d'une génération à l'autre comme les autres gènes. Alors que n'importe quel gène peut être déplacé d'un chromosome à un autre au cours de la recombinaison homologue , il est peu probable qu'un seul gène soit déplacé. Ainsi, d'autres gènes suffisamment proches du gène de la maladie pour y être liés peuvent être utilisés pour le tracer.

Les maladies polygéniques ont une base génétique même si elles ne suivent pas les modèles d'hérédité mendélienne, et celles-ci peuvent avoir une fréquence relativement élevée dans les populations et avoir de graves effets sur la santé. De telles maladies peuvent avoir une pénétrance incomplète et ont tendance à être polygéniques , ce qui complique leur étude. Ces traits peuvent survenir en raison de nombreuses petites mutations, qui, ensemble, ont un effet grave et délétère sur la santé de l'individu.

Les méthodes de cartographie des liens, y compris la théorie de la coalescence, peuvent être mises en œuvre sur ces maladies, car elles utilisent les pedigrees familiaux pour déterminer quels marqueurs accompagnent une maladie et comment elle est héritée. À tout le moins, cette méthode permet de réduire la ou les portions du génome sur lesquelles les mutations délétères peuvent se produire. Les complications de ces approches comprennent les effets épistatiques , la nature polygénique des mutations et les facteurs environnementaux. Cela dit, les gènes dont les effets sont additifs comportent un risque fixe de développer la maladie, et lorsqu'ils existent dans un génotype de la maladie, ils peuvent être utilisés pour prédire le risque et cartographier le gène. Le coalescent régulier et le coalescent brisé (qui permet que de multiples mutations aient pu se produire dans l'événement fondateur, et que la maladie puisse parfois être déclenchée par des facteurs environnementaux) ont été mis à contribution pour comprendre les gènes de la maladie.

Des études ont été menées pour corréler l'apparition de la maladie chez des jumeaux fraternels et identiques, et les résultats de ces études peuvent être utilisés pour éclairer la modélisation coalescente. Étant donné que les jumeaux identiques partagent tout leur génome, mais que les jumeaux fraternels ne partagent que la moitié de leur génome, la différence de corrélation entre les jumeaux identiques et fraternels peut être utilisée pour déterminer si une maladie est héréditaire et, si oui, à quel point.

La distribution génomique de l'hétérozygotie

La carte du polymorphisme mononucléotidique humain (SNP) a révélé de grandes variations régionales de l'hétérozygotie, plus que ne peut l'expliquer sur la base du hasard ( à distribution de Poisson ). Ces variations pourraient en partie s'expliquer sur la base des méthodes d'évaluation, de la disponibilité des séquences génomiques et éventuellement du modèle génétique de population coalescent standard. Les influences génétiques des populations pourraient avoir une influence majeure sur cette variation : certains loci auraient vraisemblablement des ancêtres communs relativement récents, d'autres pourraient avoir des généalogies beaucoup plus anciennes, et donc l'accumulation régionale de SNP au fil du temps pourrait être très différente. La densité locale de SNP le long des chromosomes semble se regrouper conformément à une loi de variance de la puissance moyenne et obéir à la distribution de Poisson composée de Tweedie . Dans ce modèle, les variations régionales de la carte SNP s'expliqueraient par l'accumulation de plusieurs petits segments génomiques par recombinaison, où le nombre moyen de SNP par segment serait distribué en gamma proportionnellement à un temps de distribution gamma jusqu'à l'ancêtre commun le plus récent pour chaque segment.

Histoire

La théorie de la coalescence est une extension naturelle du concept plus classique de génétique des populations d' évolution neutre et est une approximation du modèle Fisher-Wright (ou Wright-Fisher) pour les grandes populations. Il a été découvert indépendamment par plusieurs chercheurs dans les années 1980.

Logiciel

Un grand nombre de logiciels existe à la fois pour simuler des ensembles de données dans le cadre du processus de coalescence ainsi que pour déduire des paramètres tels que la taille de la population et les taux de migration à partir de données génétiques.

  • BEAST - Package d'inférence bayésienne via MCMC avec une large gamme de modèles coalescents, y compris l'utilisation de séquences échantillonnées temporellement.
  • BPP - progiciel pour déduire la phylogénie et les temps de divergence entre les populations dans le cadre d'un processus de coalescence multispécifique.
  • CoaSim – logiciel de simulation de données génétiques sous le modèle coalescent.
  • DIYABC - une approche conviviale de l' ABC pour l'inférence sur l'histoire de la population à l'aide de marqueurs moléculaires.
  • DendroPy - une bibliothèque Python pour le calcul phylogénétique, avec des classes et des méthodes pour simuler des arbres coalescents purs (sans contraintes) ainsi que des arbres coalescents contraints sous le modèle coalescent multi-espèces (c'est-à-dire "arbres génétiques dans les arbres d'espèces").
  • GeneRecon - logiciel pour la cartographie à petite échelle de la cartographie du déséquilibre de liaison des gènes de la maladie en utilisant la théorie de la coalescence basée sur un cadre MCMC bayésien .
  • logiciel genetree pour l'estimation des paramètres génétiques des populations à l' aide de la théorie et de la simulation coalescentes (le package R popgen). Voir aussi Oxford Mathematical Genetics and Bioinformatics Group
  • GENOMEsimulation rapide du génome entier par coalescence
  • IBDSim - un progiciel pour la simulation de données génotypiques sous isolation générale par des modèles de distance.
  • IMa - IMa implémente le même modèle d'isolement avec migration, mais le fait en utilisant une nouvelle méthode qui fournit des estimations de la densité de probabilité postérieure conjointe des paramètres du modèle. IMa permet également des tests de logarithme du rapport de vraisemblance des modèles démographiques imbriqués. IMa est basé sur une méthode décrite dans Hey et Nielsen (2007 PNAS 104:2785-2790). IMa est plus rapide et meilleur que IM (c'est-à-dire en donnant accès à la fonction de densité postérieure de l'articulation), et il peut être utilisé pour la plupart (mais pas toutes) des situations et des options pour lesquelles IM peut être utilisé.
  • Lamarc – logiciel d'estimation des taux de croissance démographique, de migration et de recombinaison.
  • Migraine - un programme qui implémente des algorithmes de coalescence pour une analyse de vraisemblance maximale (à l'aide d' algorithmes d' échantillonnage d'importance ) de données génétiques en mettant l'accent sur des populations structurées spatialement.
  • Migrermaximum de vraisemblance et inférence bayésienne des taux de migration sous le n- coalescent. L'inférence est implémentée à l'aide de MCMC
  • MaCS - Markovian Coalescent Simulator - simule les généalogies spatialement à travers les chromosomes en tant que processus markovien. Similaire à l'algorithme SMC de McVean et Cardin, et prend en charge tous les scénarios démographiques trouvés dans le ms de Hudson.
  • ms & msHOT - Le programme original de Richard Hudson pour générer des échantillons sous des modèles neutres et une extension qui permet des points chauds de recombinaison .
  • msms – une version étendue de ms qui inclut des balayages sélectifs.
  • msprime – un simulateur rapide et évolutif compatible ms, permettant des simulations démographiques, produisant des fichiers de sortie compacts pour des milliers ou des millions de génomes.
  • Recodon et NetRecodon – logiciels pour simuler des séquences codantes avec recombinaison inter/intracodon, migration, taux de croissance et échantillonnage longitudinal.
  • CoalEvol et SGWE – logiciels pour simuler les séquences de nucléotides, de codage et d'acides aminés sous la coalescence avec démographie, recombinaison, structure de population avec migration et échantillonnage longitudinal.
  • SARG – structure Ancestral Recombination Graph par Magnus Nordborg
  • simcoal2 – logiciel pour simuler des données génétiques sous le modèle coalescent avec démographie complexe et recombinaison
  • TreesimJ – logiciel de simulation avancée permettant l'échantillonnage de généalogies et d'ensembles de données sous divers modèles sélectifs et démographiques.

Les références

Sources

Des articles

  • ^ Arenas, M. et Posada, D. (2014) Simulation de l'évolution à l'échelle du génome sous des modèles de substitution hétérogènes et des histoires coalescentes multispécifiques complexes. Biologie moléculaire et évolution 31(5) : 1295–1301
  • ^ Arenas, M. et Posada, D. (2007) Recodon : Simulation coalescente de séquences d'ADN codantes avec recombinaison, migration et démographie. BMC Bioinformatique 8 : 458
  • ^ Arenas, M. et Posada, D. (2010) Simulation coalescente de la recombinaison intracodon. Génétique 184(2) : 429–437
  • ^ Browning, SR (2006) Cartographie d'associations multilocus utilisant des chaînes de Markov de longueur variable. Journal américain de génétique humaine 78 : 903–913
  • ^ Cornuet J.-M., Pudlo P., Veyssier J., Dehne-Garcia A., Gautier M., Leblois R., Marin J.-M., Estoup A. (2014) DIYABC v2.0 : un logiciel pour faire des inférences de calcul bayésien approximatif sur l'histoire de la population en utilisant le polymorphisme nucléotidique unique, la séquence d'ADN et les données microsatellites. Bioinformatique ' 30' : 1187–1189
  • ^ Degnan, JH et LA Salter. 2005. Distributions d'arbres génétiques sous le processus de coalescence. Évolution 59(1) : 24-37. pdf de coaltree.net/
  • ^ Donnelly, P., Tavaré, S. (1995) Coalescents et structure généalogique sous neutralité. Revue annuelle de génétique 29 :401-421
  • ^ Drummond A, Suchard MA, Xie D, Rambaut A (2012). "La phylogénétique bayésienne avec BEAUti et la BÊTE 1.7" . Biologie moléculaire et évolution . 29 (8) : 1969-1973. doi : 10.1093/molbev/mss075 . PMC  3408070 . PMID  22367748 .
  • ^ Ewing, G. et Hermisson J. (2010), MSMS : un programme de simulation coalescent comprenant la recombinaison, la structure démographique et la sélection à un seul locus, Bioinformatique 26 :15
  • ^ Hellenthal, G., Stephens M. (2006) msHOT: modification du simulateur ms de Hudson pour incorporer des points chauds de croisement et de conversion génique Bioinformatique AOP
  • ^ Hudson, Richard R. (1983a). "Test du modèle d'allèle neutre à taux constant avec des données de séquence de protéines". Évolution . 37 (1) : 203-17. doi : 10.2307/2408186 . ISSN  1558-5646 . JSTOR  2408186 . PMID  28568026 .
  • ^ Hudson RR (1983b) Propriétés d'un modèle d'allèle neutre avec recombinaison intragénique. Biologie théorique des populations 23 :183-201.
  • ^ Hudson RR (1991)Généalogies génétiques et processus de coalescence. Oxford Surveys in Evolutionary Biology 7 : 1–44
  • ^ Hudson RR (2002) Génération d'échantillons selon un modèle neutre Wright-Fisher. Bioinformatique 18 :337-338
  • ^ Kendal WS (2003) Un modèle de dispersion exponentielle pour la distribution des polymorphismes humains à un seul nucléotide. Mol Biol Evol 20 : 579–590
  • Hein, J., Schierup, M., Wiuf C. (2004) Gene Genealogies, Variation and Evolution: A Primer in Coalescent Theory Oxford University Press ISBN  978-0-19-852996-5
  • ^ Kaplan, NL, Darden, T., Hudson, RR (1988) Le processus de coalescence dans les modèles avec sélection. Génétique 120 :819-829
  • ^ Kingman, JFC (1982). « Sur la généalogie des grandes populations ». Journal des probabilités appliquées . 19 : 27-43. CiteSeerX  10.1.1.552.1429 . doi : 10.2307/3213548 . ISSN  0021-9002 . JSTOR  3213548 .
  • ^ Kingman, JFC (2000) Origines de la coalescence 1974-1982. Génétique 156 :1461-1463
  • ^ Leblois R., Estoup A. et Rousset F. (2009) IBDSim : un programme informatique pour simuler des données génotypiques isolées par distance Molecular Ecology Resources 9 : 107-109
  • ^ Liang L., Zöllner S., Abecasis GR (2007) GENOME: un simulateur de génome entier rapide basé sur la coalescence. Bioinformatique 23 : 1565–1567
  • ^ Mailund, T., Schierup, MH, Pedersen, CNS, Mechlenborg, PJM, Madsen, JN, Schauser, L. (2005) CoaSim : Un environnement flexible pour simuler des données génétiques sous des modèles coalescents BMC Bioinformatics 6 : 252
  • ^ Möhle, M., Sagitov, S. (2001) Une classification des processus de coalescence pour les modèles de population échangeables haploïdesThe Annals of Probability 29 : 1547-1562
  • ^ Morris, AP, Whittaker, JC, Balding, DJ (2002) Cartographie à petite échelle des loci de la maladie via une modélisation coalescente brisée des généalogies American Journal of Human Genetics 70 : 686-707
  • ^ Neuhauser, C., Krone, SM (1997) La généalogie des échantillons dans les modèles avec sélection Génétique 145 519-534
  • ^ Pitman, J. (1999) Coalescents avec collisions multiplesLes annales de la probabilité 27 :1870–1902
  • ^ Harding, Rosalind, M. 1998. Nouvelles phylogénies : un regard d'introduction sur le coalescent. pp. 15-22, dans Harvey, PH, Brown, AJL, Smith, JM, Nee, S. New uses for new phylogenies. Oxford University Press (ISBN 0198549849)
  • ^ Rosenberg, NA, Nordborg, M. (2002) Arbres généalogiques, théorie coalescente et analyse des polymorphismes génétiques. Nature Reviews Génétique 3 : 380–390
  • ^ Sagitov, S. (1999) La fusion générale avec les fusions asynchrones de lignées ancestralesJournal of Applied Probability 36 : 1116-1125
  • ^ Schweinsberg, J. (2000) Coalescents avec collisions multiples simultanéesElectronic Journal of Probability 5:1–50
  • ^ Slatkin, M. (2001) Simulation de généalogies d'allèles sélectionnés dans des populations de taille variableRecherche génétique 145 : 519-534
  • ^ Tajima, F. (1983) Relation évolutive des séquences d'ADN dans les populations finies. Génétique 105 :437-460
  • ^ Tavare S, Balding DJ, Griffiths RC & Donnelly P. 1997. Déduire les temps de coalescence à partir des données de séquence d'ADN. Génétique 145 : 505-518.
  • ^ Le groupe de travail international sur les cartes SNP. 2001. Une carte de la variation du génome humain contenant 1,42 million de polymorphismes nucléotidiques simples. Nature 409 : 928-933.
  • ^ Zöllner S. etPritchard JK(2005) Cartographie d'associations à base de coalescence et cartographie fine de la génétique complexe des loci detraits 169 : 1071-1092
  • ^ Rousset F. et Leblois R. (2007) Analyses de vraisemblance et de vraisemblance approximative de la structure génétique dans un habitat linéaire : performance et robustesse pourmodéliser la biologie moléculaire et l'évolution des spécifications erronées 24 : 2730–2745

Livres

Liens externes