GeneMark - GeneMark
Auteur (s) original (s) | Groupe de bioinformatique de Mark Borodovsky |
---|---|
Développeur (s) | Institut de technologie de la Géorgie |
Première version | 1993 |
Système opérateur | Linux , Windows et Mac OS |
Licence | Gratuit pour une utilisation académique, à but non lucratif ou du gouvernement américain |
Site Internet | opal.biology.gatech.edu/GeneMark |
GeneMark est un nom générique pour une famille de programmes de prédiction génétique ab initio développés au Georgia Institute of Technology d' Atlanta . Développé en 1993, le GeneMark original a été utilisé en 1995 comme outil de prédiction génique principal pour l'annotation du premier génome bactérien complètement séquencé d' Haemophilus influenzae , et en 1996 pour le premier génome archéen de Methanococcus jannaschii . L'algorithme a introduit des modèles de chaîne de Markov à trois périodes non homogènes de séquence d'ADN codant pour des protéines qui sont devenus la norme dans la prédiction génique ainsi qu'une approche bayésienne de la prédiction génique dans deux brins d'ADN simultanément. Les paramètres spécifiques aux espèces des modèles ont été estimés à partir d'ensembles d'apprentissage de séquences de type connu (codant et non codant pour les protéines). L’étape principale de l’algorithme calcule pour un fragment d’ADN donné les probabilités postérieures d’être «codant pour une protéine» (portant le code génétique ) dans chacun des six cadres de lecture possibles (y compris trois cadres dans un brin d’ ADN complémentaire ) ou d’être «non codant». . Original GeneMark (développé avant l'ère HMM en bioinformatique) est un algorithme de type HMM; il peut être considéré comme une approximation de l'algorithme de décodage postérieur de la théorie HMM connu pour un HMM correctement défini.
Prédiction des gènes procaryotes
L'algorithme GeneMark.hmm (1998) a été conçu pour améliorer la précision de la prédiction génique en trouvant des gènes courts et des germes génétiques. L'idée était d'intégrer les modèles de chaîne de Markov utilisés dans GeneMark dans un cadre de modèle de Markov caché , avec une transition entre les régions codantes et non codantes formellement interprétées comme des transitions entre des états cachés. De plus, le modèle de site de liaison aux ribosomes a été utilisé pour améliorer la précision de la prédiction du début du gène. L'étape suivante a été réalisée avec le développement de l'outil d'auto-formation de prédiction génétique GeneMarkS (2001). GeneMarkS a été utilisé activement par la communauté de la génomique pour l'identification de gènes dans de nouvelles séquences génomiques procaryotes. GeneMarkS +, extension de GeneMarkS intégrant des informations sur les protéines homologues dans la prédiction génique, est utilisée dans le pipeline NCBI pour l'annotation des génomes procaryotes; le pipeline peut annoter jusqu'à 2000 génomes par jour ( www.ncbi.nlm.nih.gov/genome/annotation_prok/process ).
Modèles heuristiques et prédiction génique dans les métagénomes et les métatransciptomes
L'identification précise des paramètres spécifiques aux espèces des algorithmes GeneMark et GeneMark.hmm était la condition clé pour faire des prédictions génétiques précises. Cependant, la question a été soulevée, motivée par des études de génomes viraux, comment définir des paramètres de prédiction génique dans une séquence assez courte qui n'a pas de grand contexte génomique. En 1999, cette question a été abordée par le développement d'une «méthode heuristique» de calculs des paramètres en tant que fonctions du contenu de la séquence G + C. Depuis 2004, des modèles construits par l'approche heuristique ont été utilisés pour trouver des gènes dans des séquences métagénomiques. Par la suite, l'analyse de plusieurs centaines de génomes procaryotes a conduit au développement d'une méthode heuristique plus avancée (mise en œuvre dans MetaGeneMark) en 2010.
Prédiction des gènes eucaryotes
Dans les génomes eucaryotes, la modélisation des frontières d' exons avec des introns et des régions intergéniques présente un défi majeur relevé par l'utilisation de HMM. L'architecture HMM de l'eucaryote GeneMark.hmm comprend des états cachés pour les exons initiaux, internes et terminaux, les introns , les régions intergéniques et les gènes d'exons uniques situés dans les deux brins d'ADN. GeneMark.hmm eucaryote initial avait besoin d'ensembles d'entraînement pour estimer les paramètres de l'algorithme. En 2005, la première version de l'algorithme d'auto-formation GeneMark-ES a été développée. En 2008, l'algorithme GeneMark-ES a été étendu aux génomes fongiques en développant un modèle d'intron spécial et une stratégie plus complexe d'auto-formation. Puis, en 2014, GeneMark-ET, l'algorithme qui augmentait l'auto-formation par des informations issues des lectures ARN-Seq non assemblées du génome, a été ajouté à la famille. La prédiction génique dans les transcriptions eucaryotes peut être effectuée par le nouvel algorithme GeneMarkS-T (2015)
GeneMark Famille de programmes de prédiction génique
Bactéries, archées
- GeneMark
- GeneMarkS
- GeneMarkS +
Métagénomes et métatranscriptomes
- MetaGeneMark
Eucaryotes
- GeneMark
- GeneMark.hmm
- GeneMark-ES: algorithme de recherche de gènes pour les génomes eucaryotes qui effectue un entraînement automatique en mode ab initio non supervisé.
- GeneMark-ET: augmente GeneMark-ES avec une nouvelle méthode qui intègre les alignements de lecture RNA-Seq dans la procédure d'auto-formation.
- GeneMark-EX: un outil intégré entièrement automatique pour l'annotation du génome qui montre des performances robustes sur les données d'entrée de différentes tailles, structures et qualités. L'algorithme sélectionne l'approche de l'estimation des paramètres en fonction du volume, de la qualité et des caractéristiques des données d'entrée, de la taille de l'ensemble de données ARN-seq, de la position phylogénétique de l'espèce, du degré de fragmentation de l'assemblage. Il est capable de modifier automatiquement l'architecture HMM pour l'adapter aux caractéristiques du génome en question et d'intégrer les informations de transcription et de protéine dans le processus de prédiction génique.
Virus, phages et plasmides
- Modèles heuristiques
Transcriptions assemblées à partir de RNA-Seq read
- GeneMarkS-T
Voir également
Les références
- Borodovsky M. et McIninch J. " GeneMark: reconnaissance de gène parallèle pour les deux brins d'ADN. " Computers & Chemistry (1993) 17 (2): 123-133.
- Lukashin A. et Borodovsky M. " GeneMark.hmm: nouvelles solutions pour la recherche de gènes. " Nucleic Acids Research (1998) 26 (4): 1107-1115. doi : 10.1093 / nar / 26.4.1107
- Besemer J. et Borodovsky M. " Approche heuristique pour dériver des modèles pour la découverte de gènes. " Nucleic Acids Research (1999) 27 (19): 3911–3920. doi : 10.1093 / nar / 27.19.3911
- Besemer J., Lomsadze A. et Borodovsky M. " GeneMarkS: une méthode d'auto-formation pour la prédiction du gène commence dans les génomes microbiens. Implications pour trouver des motifs de séquence dans les régions régulatrices. " Nucleic Acids Research (2001) 29 (12): 2607 –2618. doi : 10.1093 / nar / 29.12.2607
- Mills R., Rozanov M., Lomsadze A., Tatusova T. et Borodovsky M. " Amélioration de l'annotation des gènes dans les génomes viraux complets. " Nucleic Acids Research (2003) 31 (23): 7041–7055. doi : 10.1093 / nar / gkg878
- Besemer J. et Borodovsky M. " GeneMark: logiciel Web pour la recherche de gènes chez les procaryotes, les eucaryotes et les virus. " Nucleic Acids Research (2005) 33 (Web Server Issue): W451-454. doi : 10.1093 / nar / gki487
- Lomsadze A., Ter-Hovhannisyan V., Chernoff Y. et Borodovsky M. " Identification des gènes dans les nouveaux génomes eucaryotes par algorithme d'auto-formation. " Nucleic Acids Research (2005) 33 (20): 6494–6506. doi : 10.1093 / nar / gki937
- Zhu W., Lomsadze A. et Borodovsky M. « Identification de gène ab initio dans les séquences métagénomiques. » Nucleic Acids Research (2010) 38 (12): e132. doi : 10.1093 / nar / gkq275