GeneMark - GeneMark

GeneMark
Auteur (s) original (s) Groupe de bioinformatique de Mark Borodovsky
Développeur (s) Institut de technologie de la Géorgie
Première version 1993
Système opérateur Linux , Windows et Mac OS
Licence Gratuit pour une utilisation académique, à but non lucratif ou du gouvernement américain
Site Internet opal.biology.gatech.edu/GeneMark

GeneMark est un nom générique pour une famille de programmes de prédiction génétique ab initio développés au Georgia Institute of Technology d' Atlanta . Développé en 1993, le GeneMark original a été utilisé en 1995 comme outil de prédiction génique principal pour l'annotation du premier génome bactérien complètement séquencé d' Haemophilus influenzae , et en 1996 pour le premier génome archéen de Methanococcus jannaschii . L'algorithme a introduit des modèles de chaîne de Markov à trois périodes non homogènes de séquence d'ADN codant pour des protéines qui sont devenus la norme dans la prédiction génique ainsi qu'une approche bayésienne de la prédiction génique dans deux brins d'ADN simultanément. Les paramètres spécifiques aux espèces des modèles ont été estimés à partir d'ensembles d'apprentissage de séquences de type connu (codant et non codant pour les protéines). L’étape principale de l’algorithme calcule pour un fragment d’ADN donné les probabilités postérieures d’être «codant pour une protéine» (portant le code génétique ) dans chacun des six cadres de lecture possibles (y compris trois cadres dans un brin d’ ADN complémentaire ) ou d’être «non codant». . Original GeneMark (développé avant l'ère HMM en bioinformatique) est un algorithme de type HMM; il peut être considéré comme une approximation de l'algorithme de décodage postérieur de la théorie HMM connu pour un HMM correctement défini.

Prédiction des gènes procaryotes

L'algorithme GeneMark.hmm (1998) a été conçu pour améliorer la précision de la prédiction génique en trouvant des gènes courts et des germes génétiques. L'idée était d'intégrer les modèles de chaîne de Markov utilisés dans GeneMark dans un cadre de modèle de Markov caché , avec une transition entre les régions codantes et non codantes formellement interprétées comme des transitions entre des états cachés. De plus, le modèle de site de liaison aux ribosomes a été utilisé pour améliorer la précision de la prédiction du début du gène. L'étape suivante a été réalisée avec le développement de l'outil d'auto-formation de prédiction génétique GeneMarkS (2001). GeneMarkS a été utilisé activement par la communauté de la génomique pour l'identification de gènes dans de nouvelles séquences génomiques procaryotes. GeneMarkS +, extension de GeneMarkS intégrant des informations sur les protéines homologues dans la prédiction génique, est utilisée dans le pipeline NCBI pour l'annotation des génomes procaryotes; le pipeline peut annoter jusqu'à 2000 génomes par jour ( www.ncbi.nlm.nih.gov/genome/annotation_prok/process ).

Modèles heuristiques et prédiction génique dans les métagénomes et les métatransciptomes

L'identification précise des paramètres spécifiques aux espèces des algorithmes GeneMark et GeneMark.hmm était la condition clé pour faire des prédictions génétiques précises. Cependant, la question a été soulevée, motivée par des études de génomes viraux, comment définir des paramètres de prédiction génique dans une séquence assez courte qui n'a pas de grand contexte génomique. En 1999, cette question a été abordée par le développement d'une «méthode heuristique» de calculs des paramètres en tant que fonctions du contenu de la séquence G + C. Depuis 2004, des modèles construits par l'approche heuristique ont été utilisés pour trouver des gènes dans des séquences métagénomiques. Par la suite, l'analyse de plusieurs centaines de génomes procaryotes a conduit au développement d'une méthode heuristique plus avancée (mise en œuvre dans MetaGeneMark) en 2010.

Prédiction des gènes eucaryotes

Dans les génomes eucaryotes, la modélisation des frontières d' exons avec des introns et des régions intergéniques présente un défi majeur relevé par l'utilisation de HMM. L'architecture HMM de l'eucaryote GeneMark.hmm comprend des états cachés pour les exons initiaux, internes et terminaux, les introns , les régions intergéniques et les gènes d'exons uniques situés dans les deux brins d'ADN. GeneMark.hmm eucaryote initial avait besoin d'ensembles d'entraînement pour estimer les paramètres de l'algorithme. En 2005, la première version de l'algorithme d'auto-formation GeneMark-ES a été développée. En 2008, l'algorithme GeneMark-ES a été étendu aux génomes fongiques en développant un modèle d'intron spécial et une stratégie plus complexe d'auto-formation. Puis, en 2014, GeneMark-ET, l'algorithme qui augmentait l'auto-formation par des informations issues des lectures ARN-Seq non assemblées du génome, a été ajouté à la famille. La prédiction génique dans les transcriptions eucaryotes peut être effectuée par le nouvel algorithme GeneMarkS-T (2015)


GeneMark Famille de programmes de prédiction génique

Bactéries, archées

  • GeneMark
  • GeneMarkS
  • GeneMarkS +

Métagénomes et métatranscriptomes

  • MetaGeneMark

Eucaryotes

  • GeneMark
  • GeneMark.hmm
  • GeneMark-ES: algorithme de recherche de gènes pour les génomes eucaryotes qui effectue un entraînement automatique en mode ab initio non supervisé.
  • GeneMark-ET: augmente GeneMark-ES avec une nouvelle méthode qui intègre les alignements de lecture RNA-Seq dans la procédure d'auto-formation.
  • GeneMark-EX: un outil intégré entièrement automatique pour l'annotation du génome qui montre des performances robustes sur les données d'entrée de différentes tailles, structures et qualités. L'algorithme sélectionne l'approche de l'estimation des paramètres en fonction du volume, de la qualité et des caractéristiques des données d'entrée, de la taille de l'ensemble de données ARN-seq, de la position phylogénétique de l'espèce, du degré de fragmentation de l'assemblage. Il est capable de modifier automatiquement l'architecture HMM pour l'adapter aux caractéristiques du génome en question et d'intégrer les informations de transcription et de protéine dans le processus de prédiction génique.

Virus, phages et plasmides

  • Modèles heuristiques

Transcriptions assemblées à partir de RNA-Seq read

  • GeneMarkS-T

Voir également

Les références

Liens externes