Bioinformatique - Bioinformatics

Bioinformatique précoce—alignement informatique de séquences déterminées expérimentalement d'une classe de protéines apparentées ; voir § Analyse de séquence pour plus d'informations.
Carte du chromosome X humain (du site Web du National Center for Biotechnology Information )

Bioinformatics ( / ˌ b . ˌ ɪ n f ər m æ t ɪ k s / ( écouter )A propos de ce son ) est un interdisciplinaire champ qui développe des méthodes et des outils logiciels pour la compréhension biologique de données, en particulier lorsque les ensembles de données sont de grande taille et complexe . En tant que domaine scientifique interdisciplinaire, la bioinformatique combine la biologie , l' informatique , l' ingénierie de l'information , les mathématiques et les statistiques pour analyser et interpréter les données biologiques . La bioinformatique a été utilisée pour des analyses in silico de requêtes biologiques en utilisant des techniques mathématiques et statistiques.

La bioinformatique comprend des études biologiques qui utilisent la programmation informatique dans le cadre de leur méthodologie, ainsi qu'une analyse spécifique « pipelines » qui sont utilisées à plusieurs reprises, notamment dans le domaine de la génomique . Les utilisations courantes de la bioinformatique comprennent l'identification de gènes candidats et de polymorphismes nucléotidiques simples ( SNP ). Souvent, une telle identification est faite dans le but de mieux comprendre la base génétique de la maladie, les adaptations uniques, les propriétés souhaitables (en particulier chez les espèces agricoles) ou les différences entre les populations. De manière moins formelle, la bioinformatique essaie également de comprendre les principes d'organisation au sein des séquences d'acides nucléiques et de protéines , appelées protéomique .

Aperçu

La bioinformatique est devenue une partie importante de nombreux domaines de la biologie. En biologie moléculaire expérimentale , les techniques bioinformatiques telles que le traitement d' images et de signaux permettent d'extraire des résultats utiles à partir de grandes quantités de données brutes. Dans le domaine de la génétique, il aide au séquençage et à l'annotation des génomes et de leurs mutations observées . Il joue un rôle dans l' exploration de textes de la littérature biologique et le développement d' ontologies biologiques et génétiques pour organiser et interroger les données biologiques. Il joue également un rôle dans l'analyse de l'expression et de la régulation des gènes et des protéines. Les outils de bioinformatique aident à comparer, analyser et interpréter les données génétiques et génomiques et plus généralement à comprendre les aspects évolutifs de la biologie moléculaire. À un niveau plus intégratif, il permet d'analyser et de cataloguer les voies et réseaux biologiques qui constituent une partie importante de la biologie des systèmes . En biologie structurale , il aide à la simulation et à la modélisation de l'ADN, de l'ARN, des protéines ainsi que des interactions biomoléculaires.

Histoire

Historiquement, le terme bioinformatique ne signifiait pas ce qu'il signifie aujourd'hui. Paulien Hogeweg et Ben Hesper l'ont inventé en 1970 pour désigner l'étude des processus d'information dans les systèmes biotiques. Cette définition a placé la bioinformatique comme un domaine parallèle à la biochimie (l'étude des processus chimiques dans les systèmes biologiques).

Séquences

Les séquences de matériel génétique sont fréquemment utilisées en bioinformatique et sont plus faciles à gérer à l'aide d'ordinateurs que manuellement.

Les ordinateurs sont devenus essentiels en biologie moléculaire lorsque les séquences de protéines sont devenues disponibles après que Frederick Sanger ait déterminé la séquence de l' insuline au début des années 1950. La comparaison manuelle de plusieurs séquences s'est avérée peu pratique. Un pionnier dans le domaine était Margaret Oakley Dayhoff . Elle a compilé l'une des premières bases de données de séquences de protéines, initialement publiée sous forme de livres et de méthodes pionnières d'alignement de séquences et d'évolution moléculaire. Un autre contributeur précoce à la bioinformatique était Elvin A. Kabat , qui a été le pionnier de l'analyse de séquences biologiques en 1970 avec ses volumes complets de séquences d'anticorps publiés avec Tai Te Wu entre 1980 et 1991. Dans les années 1970, de nouvelles techniques de séquençage de l'ADN ont été appliquées au bactériophage MS2 et øX174, et les séquences nucléotidiques étendues ont ensuite été analysées avec des algorithmes d'information et statistiques. Ces études ont illustré que des caractéristiques bien connues, telles que les segments de codage et le code triplet, sont révélées dans des analyses statistiques simples et étaient donc la preuve du concept selon lequel la bioinformatique serait perspicace.

Buts

Pour étudier comment les activités cellulaires normales sont modifiées dans différents états pathologiques, les données biologiques doivent être combinées pour former une image complète de ces activités. Par conséquent, le domaine de la bioinformatique a évolué de telle sorte que la tâche la plus urgente implique maintenant l'analyse et l'interprétation de divers types de données. Cela inclut également les séquences de nucléotides et d' acides aminés , les domaines protéiques et les structures protéiques . Le processus réel d'analyse et d'interprétation des données est appelé biologie computationnelle . Les sous-disciplines importantes de la bioinformatique et de la biologie computationnelle comprennent :

  • Développement et mise en œuvre de programmes informatiques permettant un accès, une gestion et une utilisation efficaces de divers types d'informations.
  • Développement de nouveaux algorithmes (formules mathématiques) et de mesures statistiques qui évaluent les relations entre les membres de grands ensembles de données. Par exemple, il existe des méthodes pour localiser un gène dans une séquence, pour prédire la structure et/ou la fonction d'une protéine , et pour regrouper les séquences protéiques en familles de séquences apparentées.

L'objectif principal de la bioinformatique est d'accroître la compréhension des processus biologiques. Cependant, ce qui la distingue des autres approches, c'est l'accent qu'elle met sur le développement et l'application de techniques à forte intensité de calcul pour atteindre cet objectif. Les exemples incluent : la reconnaissance de formes , l'exploration de données , les algorithmes d' apprentissage automatique et la visualisation . Les principaux efforts de recherche dans le domaine comprennent l' alignement de séquences , la découverte de gènes , l'assemblage du génome , la conception de médicaments , la découverte de médicaments , l'alignement de la structure des protéines , la prédiction de la structure des protéines , la prédiction de l'expression des gènes et des interactions protéine-protéine , les études d'association à l'échelle du génome , la modélisation de l' évolution et division cellulaire/mitose.

La bioinformatique implique désormais la création et l'avancement de bases de données, d'algorithmes, de techniques informatiques et statistiques et de théories pour résoudre les problèmes formels et pratiques découlant de la gestion et de l'analyse des données biologiques.

Au cours des dernières décennies, les développements rapides des technologies de recherche génomique et moléculaire et les développements des technologies de l'information se sont combinés pour produire une énorme quantité d'informations liées à la biologie moléculaire. La bioinformatique est le nom donné à ces approches mathématiques et informatiques utilisées pour glaner la compréhension des processus biologiques.

Les activités courantes en bioinformatique comprennent la cartographie et l'analyse des séquences d' ADN et de protéines, l'alignement des séquences d'ADN et de protéines pour les comparer, et la création et la visualisation de modèles 3D de structures protéiques.

Relation avec d'autres domaines

La bioinformatique est un domaine scientifique similaire mais distinct du calcul biologique , alors qu'il est souvent considéré comme synonyme de biologie computationnelle . Le calcul biologique utilise la bio - ingénierie et la biologie pour construire des ordinateurs biologiques , tandis que la bioinformatique utilise le calcul pour mieux comprendre la biologie. La bioinformatique et la biologie computationnelle impliquent l'analyse de données biologiques, en particulier de séquences d'ADN, d'ARN et de protéines. Le domaine de la bio-informatique a connu une croissance explosive à partir du milieu des années 90, en grande partie grâce au projet du génome humain et aux progrès rapides de la technologie de séquençage de l'ADN.

L'analyse des données biologiques pour produire des informations significatives implique l'écriture et l'exécution de programmes logiciels qui utilisent des algorithmes issus de la théorie des graphes , de l'intelligence artificielle , de l'informatique douce , de l'exploration de données , du traitement d'images et de la simulation informatique . Les algorithmes dépendent à leur tour sur des bases théoriques telles que les mathématiques discrètes , théorie du contrôle , la théorie des systèmes , la théorie de l' information et des statistiques .

Analyse de séquence

Depuis le Phage Φ-X174 a été séquencée en 1977, les séquences d'ADN de milliers d'organismes ont été décodés et stockés dans des bases de données. Ces informations de séquence sont analysées pour déterminer les gènes qui codent pour les protéines , les gènes d'ARN, les séquences régulatrices, les motifs structurels et les séquences répétitives. Une comparaison de gènes au sein d'une espèce ou entre différentes espèces peut montrer des similitudes entre des fonctions protéiques, ou des relations entre espèces (utilisation de la systématique moléculaire pour construire des arbres phylogénétiques ). Avec la quantité croissante de données, il est depuis longtemps devenu impossible d'analyser manuellement les séquences d'ADN. Des programmes informatiques tels que BLAST sont couramment utilisés pour rechercher des séquences - à partir de 2008, à partir de plus de 260 000 organismes, contenant plus de 190 milliards de nucléotides .

séquençage ADN

Avant que les séquences puissent être analysées, elles doivent être obtenues à partir de la banque de stockage de données, par exemple la Genbank. Le séquençage de l'ADN reste un problème non trivial car les données brutes peuvent être bruyantes ou affectées par des signaux faibles. Des algorithmes ont été développés pour les bases faisant appel aux différentes approches expérimentales du séquençage de l'ADN.

Assemblage de séquences

La plupart des techniques de séquençage d'ADN produisent de courts fragments de séquence qui doivent être assemblés pour obtenir des séquences complètes de gènes ou de génomes. La technique dite de séquençage shotgun (qui a été utilisée, par exemple, par l'Institute for Genomic Research (TIGR) pour séquencer le premier génome bactérien, Haemophilus influenzae ) génère les séquences de plusieurs milliers de petits fragments d'ADN (allant de 35 à 900 nucléotides longs, selon la technologie de séquençage). Les extrémités de ces fragments se chevauchent et, lorsqu'elles sont correctement alignées par un programme d'assemblage du génome, peuvent être utilisées pour reconstruire le génome complet. Le séquençage au fusil de chasse fournit rapidement des données de séquence, mais la tâche d'assemblage des fragments peut être assez compliquée pour les génomes plus volumineux. Pour un génome aussi grand que le génome humain , l'assemblage des fragments peut prendre plusieurs jours de temps CPU sur des ordinateurs multiprocesseurs à grande mémoire, et l'assemblage résultant contient généralement de nombreuses lacunes qui doivent être comblées plus tard. Le séquençage au fusil de chasse est la méthode de choix pour pratiquement tous les génomes séquencés aujourd'hui, et les algorithmes d'assemblage du génome sont un domaine critique de la recherche en bioinformatique.

Annotation du génome

Dans le contexte de la génomique , l' annotation est le processus de marquage des gènes et d'autres caractéristiques biologiques dans une séquence d'ADN. Ce processus doit être automatisé car la plupart des génomes sont trop volumineux pour être annotés à la main, sans parler de la volonté d'annoter le plus de génomes possible, la cadence de séquençage ayant cessé de constituer un goulot d'étranglement. L'annotation est rendue possible par le fait que les gènes ont des régions de départ et d'arrêt reconnaissables, bien que la séquence exacte trouvée dans ces régions puisse varier entre les gènes.

La première description d'un système complet d'annotation du génome a été publiée en 1995 par l'équipe de l'Institute for Genomic Research qui a effectué le premier séquençage et analyse complets du génome d'un organisme vivant en liberté, la bactérie Haemophilus influenzae . Owen White a conçu et construit un système logiciel pour identifier les gènes codant pour toutes les protéines, les ARN de transfert, les ARN ribosomiques (et d'autres sites) et pour effectuer les affectations fonctionnelles initiales. La plupart des systèmes d'annotation du génome actuels fonctionnent de la même manière, mais les programmes disponibles pour l'analyse de l'ADN génomique, tels que le programme GeneMark formé et utilisé pour trouver des gènes codant pour les protéines chez Haemophilus influenzae , changent et s'améliorent constamment.

Suite aux objectifs que le projet du génome humain a laissé à atteindre après sa fermeture en 2003, un nouveau projet développé par le National Human Genome Research Institute aux États-Unis est apparu. Le projet ENCODE est une collecte collaborative de données des éléments fonctionnels du génome humain qui utilise des technologies de séquençage d'ADN de nouvelle génération et des puces à ADN génomique, des technologies capables de générer automatiquement de grandes quantités de données à un coût par base considérablement réduit. mais avec la même précision (erreur d'appel de base) et la même fidélité (erreur d'assemblage).

Prédiction de fonction génique

Alors que l'annotation du génome est principalement basée sur la similarité des séquences (et donc l' homologie ), d'autres propriétés des séquences peuvent être utilisées pour prédire la fonction des gènes. En fait, la plupart des méthodes de prédiction de la fonction des gènes se concentrent sur les séquences protéiques car elles sont plus informatives et plus riches en fonctionnalités. Par exemple, la distribution des acides aminés hydrophobes prédit les segments transmembranaires dans les protéines. Cependant, la prédiction de la fonction des protéines peut également utiliser des informations externes telles que les données d' expression des gènes (ou des protéines) , la structure des protéines ou les interactions protéine-protéine .

Biologie évolutive computationnelle

La biologie évolutive est l'étude de l'origine et de la descendance des espèces , ainsi que de leur évolution dans le temps. L'informatique a aidé les biologistes évolutionnistes en permettant aux chercheurs de :

  • retracer l'évolution d'un grand nombre d'organismes en mesurant les modifications de leur ADN , plutôt que par la taxonomie physique ou les seules observations physiologiques,
  • comparer des génomes entiers , ce qui permet l'étude d'événements évolutifs plus complexes, tels que la duplication de gènes , le transfert horizontal de gènes et la prédiction de facteurs importants dans la spéciation bactérienne ,
  • construire des modèles informatiques complexes de génétique des populations pour prédire le résultat du système au fil du temps
  • suivre et partager des informations sur un nombre de plus en plus important d'espèces et d'organismes

Les travaux futurs s'efforcent de reconstituer l' arbre de vie désormais plus complexe .

Le domaine de recherche en informatique qui utilise des algorithmes génétiques est parfois confondu avec la biologie évolutive computationnelle, mais les deux domaines ne sont pas nécessairement liés.

Génomique comparée

Le cœur de l'analyse comparative du génome est l'établissement de la correspondance entre les gènes ( analyse orthologique ) ou d'autres caractéristiques génomiques dans différents organismes. Ce sont ces cartes intergénomiques qui permettent de retracer les processus évolutifs responsables de la divergence de deux génomes. Une multitude d'événements évolutifs agissant à divers niveaux organisationnels façonnent l'évolution du génome. Au niveau le plus bas, les mutations ponctuelles affectent des nucléotides individuels. À un niveau supérieur, les grands segments chromosomiques subissent une duplication, un transfert latéral, une inversion, une transposition, une délétion et une insertion. En fin de compte, des génomes entiers sont impliqués dans des processus d'hybridation, de polyploïdisation et d' endosymbiose , conduisant souvent à une spéciation rapide. La complexité de l'évolution du génome pose de nombreux défis passionnants aux développeurs de modèles et d'algorithmes mathématiques, qui ont recours à un éventail de techniques algorithmiques, statistiques et mathématiques, allant des algorithmes exacts, heuristiques , à paramètres fixes et d' approximation pour les problèmes basés sur des modèles de parcimonie à Markov. algorithmes de Monte Carlo en chaîne pour l'analyse bayésienne de problèmes basés sur des modèles probabilistes.

Beaucoup de ces études sont basées sur la détection d' homologie de séquences pour attribuer des séquences à des familles de protéines .

Pan génomique

La pangénomique est un concept introduit en 2005 par Tettelin et Medini qui a finalement pris racine dans la bioinformatique. Le génome pan est le répertoire complet des gènes d'un groupe taxonomique particulier : bien qu'appliqué initialement à des souches étroitement apparentées d'une espèce, il peut être appliqué à un contexte plus large comme le genre, l'embranchement, etc. Il est divisé en deux parties - Le génome central : Ensemble de gènes communs à tous les génomes à l'étude (Ce sont souvent des gènes de ménage vitaux pour la survie) et Le Génome Dispensable/Flexible : Ensemble de gènes non présents dans tous sauf un ou certains génomes à l'étude. Un outil bioinformatique BPGA peut être utilisé pour caractériser le Pan Génome des espèces bactériennes.

Génétique de la maladie

Avec l'avènement du séquençage de nouvelle génération, nous obtenons suffisamment de données de séquence pour cartographier les gènes de maladies complexes telles que l' infertilité , le cancer du sein ou la maladie d'Alzheimer . Les études d'association à l'échelle du génome sont une approche utile pour identifier les mutations responsables de ces maladies complexes. Grâce à ces études, des milliers de variantes d'ADN ont été identifiées qui sont associées à des maladies et des traits similaires. De plus, la possibilité pour les gènes d'être utilisés pour le pronostic, le diagnostic ou le traitement est l'une des applications les plus essentielles. De nombreuses études discutent à la fois des moyens prometteurs de choisir les gènes à utiliser et des problèmes et pièges de l'utilisation des gènes pour prédire la présence ou le pronostic de la maladie.

Analyse des mutations dans le cancer

Dans le cancer , les génomes des cellules affectées sont réarrangés de manière complexe, voire imprévisible. Des efforts de séquençage massifs sont utilisés pour identifier des mutations ponctuelles auparavant inconnues dans une variété de gènes du cancer. Les bioinformaticiens continuent de produire des systèmes automatisés spécialisés pour gérer le volume considérable de données de séquence produites, et ils créent de nouveaux algorithmes et logiciels pour comparer les résultats du séquençage à la collection croissante de séquences du génome humain et de polymorphismes germinaux . Les nouvelles technologies de détection physiques sont utilisées, comme oligonucléotides biopuces pour identifier les gains et pertes chromosomiques (appelés hybridation génomique comparative ) et polymorphisme nucléotidique des réseaux connus pour détecter des mutations ponctuelles . Ces méthodes de détection mesurent simultanément plusieurs centaines de milliers de sites dans tout le génome et, lorsqu'elles sont utilisées à haut débit pour mesurer des milliers d'échantillons, génèrent des téraoctets de données par expérience. Encore une fois, les quantités massives et les nouveaux types de données génèrent de nouvelles opportunités pour les bioinformaticiens. Les données s'avèrent souvent contenir une variabilité considérable, ou du bruit , et donc le modèle de Markov caché et des méthodes d'analyse de point de changement sont en cours de développement pour déduire les changements réels du nombre de copies .

Deux principes importants peuvent être utilisés dans l'analyse bioinformatique des génomes du cancer concernant l'identification des mutations dans l' exome . Premièrement, le cancer est une maladie causée par l'accumulation de mutations somatiques dans les gènes. Le deuxième cancer contient des mutations du conducteur qui doivent être distinguées des passagers.

Avec les percées que cette technologie de séquençage de nouvelle génération apporte au domaine de la bioinformatique, la génomique du cancer pourrait changer radicalement. Ces nouvelles méthodes et logiciels permettent aux bioinformaticiens de séquencer de nombreux génomes cancéreux rapidement et à moindre coût. Cela pourrait créer un processus plus flexible pour classer les types de cancer par l'analyse des mutations induites par le cancer dans le génome. De plus, le suivi des patients pendant que la maladie progresse pourrait être possible à l'avenir avec la séquence d'échantillons de cancer.

Un autre type de données qui nécessite un nouveau développement informatique est l'analyse des lésions récurrentes parmi de nombreuses tumeurs.

Expression des gènes et des protéines

Analyse de l'expression des gènes

L' expression de nombreux gènes peut être déterminée en mesurant les niveaux d' ARNm avec plusieurs techniques, notamment les puces à ADN , le séquençage de l'étiquette de séquence d'ADNc exprimée (EST), l' analyse en série du séquençage de l'étiquette d' expression génique (SAGE), le séquençage de signature massivement parallèle (MPSS), RNA-Seq , également connu sous le nom de "Whole Transcriptome Shotgun Sequencing" (WTSS), ou diverses applications de l'hybridation in-situ multiplexée. Toutes ces techniques sont extrêmement sujettes au bruit et/ou sujettes à des biais dans la mesure biologique, et un domaine de recherche majeur en biologie computationnelle implique le développement d'outils statistiques pour séparer le signal du bruit dans les études d'expression génique à haut débit. De telles études sont souvent utilisées pour déterminer les gènes impliqués dans un trouble : on pourrait comparer les données de microarrays de cellules épithéliales cancéreuses aux données de cellules non cancéreuses pour déterminer les transcrits qui sont régulés à la hausse et à la baisse dans une population particulière de cellules cancéreuses .

Analyse de l'expression des protéines

Les puces à protéines et la spectrométrie de masse (MS) à haut débit (HT) peuvent fournir un instantané des protéines présentes dans un échantillon biologique. La bioinformatique est très impliquée dans la compréhension des données des puces à protéines et de la HT MS ; la première approche est confrontée à des problèmes similaires à ceux des puces à ADN ciblant l'ARNm, la seconde implique le problème de faire correspondre de grandes quantités de données de masse avec des masses prédites à partir de bases de données de séquences de protéines, et l'analyse statistique compliquée d'échantillons où des peptides multiples mais incomplets de chaque protéine sont détectée. La localisation des protéines cellulaires dans un contexte tissulaire peut être réalisée grâce à la protéomique d' affinité affichée sous forme de données spatiales basées sur l' immunohistochimie et les puces à ADN tissulaire .

Analyse de la réglementation

La régulation génique est l'orchestration complexe d'événements par lesquels un signal, potentiellement un signal extracellulaire tel qu'une hormone , conduit finalement à une augmentation ou à une diminution de l'activité d'une ou plusieurs protéines . Des techniques bioinformatiques ont été appliquées pour explorer les différentes étapes de ce processus.

Par exemple, l'expression des gènes peut être régulée par des éléments voisins du génome. L'analyse du promoteur implique l'identification et l'étude des motifs de séquence dans l'ADN entourant la région codante d'un gène. Ces motifs influencent la mesure dans laquelle cette région est transcrite en ARNm. Des éléments amplificateurs éloignés du promoteur peuvent également réguler l'expression des gènes, par le biais d'interactions en boucle tridimensionnelles. Ces interactions peuvent être déterminées par analyse bioinformatique d' expériences de capture de conformation chromosomique .

Les données d'expression peuvent être utilisées pour déduire la régulation des gènes : on peut comparer les données des puces à ADN provenant d'une grande variété d'états d'un organisme pour former des hypothèses sur les gènes impliqués dans chaque état. Dans un organisme unicellulaire, on pourrait comparer les étapes du cycle cellulaire , ainsi que diverses conditions de stress (choc thermique, famine, etc.). On peut ensuite appliquer des algorithmes de regroupement à ces données d'expression pour déterminer quels gènes sont co-exprimés. Par exemple, les régions en amont (promoteurs) de gènes co-exprimés peuvent être recherchées pour des éléments régulateurs surreprésentés . Des exemples d'algorithmes de clustering appliqués dans le clustering de gènes sont le clustering k-means , les cartes auto-organisées (SOM), le clustering hiérarchique et les méthodes de clustering par consensus .

Analyse de l'organisation cellulaire

Plusieurs approches ont été développées pour analyser l'emplacement des organites, des gènes, des protéines et d'autres composants dans les cellules. Ceci est pertinent car l'emplacement de ces composants affecte les événements au sein d'une cellule et nous aide ainsi à prédire le comportement des systèmes biologiques. Une catégorie d' ontologie génique , le composant cellulaire , a été conçue pour capturer la localisation subcellulaire dans de nombreuses bases de données biologiques .

Microscopie et analyse d'images

Les images microscopiques nous permettent de localiser à la fois les organites et les molécules. Cela peut également nous aider à faire la distinction entre les cellules normales et anormales, par exemple dans le cancer .

Localisation des protéines

La localisation des protéines nous aide à évaluer le rôle d'une protéine. Par exemple, si une protéine est trouvée dans le noyau, elle peut être impliquée dans la régulation ou l' épissage des gènes . En revanche, si une protéine est trouvée dans les mitochondries , elle peut être impliquée dans la respiration ou d'autres processus métaboliques . La localisation des protéines est donc un élément important de la prédiction de la fonction des protéines . Il existe des ressources de prédiction de localisation subcellulaire de protéines bien développées , y compris des bases de données de localisation subcellulaire de protéines et des outils de prédiction.

Organisation nucléaire de la chromatine

Les données d' expériences de capture de conformation chromosomique à haut débit , telles que Hi-C (expérience) et ChIA-PET , peuvent fournir des informations sur la proximité spatiale des loci d'ADN. L'analyse de ces expériences peut déterminer la structure tridimensionnelle et l'organisation nucléaire de la chromatine. Les défis bioinformatiques dans ce domaine incluent la partition du génome en domaines, tels que les domaines d'association topologique (TAD), qui sont organisés ensemble dans un espace tridimensionnel.

Bioinformatique structurelle

Les structures protéiques tridimensionnelles telles que celle-ci sont des sujets courants dans les analyses bioinformatiques.

La prédiction de la structure des protéines est une autre application importante de la bioinformatique. La séquence d' acides aminés d'une protéine, appelée structure primaire , peut être facilement déterminée à partir de la séquence du gène qui la code. Dans la grande majorité des cas, cette structure primaire détermine de manière unique une structure dans son environnement natif. (Bien sûr, il existe des exceptions, comme le prion de l'encéphalopathie spongiforme bovine (maladie de la vache folle) .) La connaissance de cette structure est vitale pour comprendre la fonction de la protéine. Les informations structurelles sont généralement classées parmi les structures secondaires , tertiaires et quaternaires . Une solution générale viable à de telles prédictions reste un problème ouvert. La plupart des efforts ont jusqu'à présent été orientés vers des heuristiques qui fonctionnent la plupart du temps.

L'une des idées clés de la bio-informatique est la notion d' homologie . Dans la branche génomique de la bioinformatique, l'homologie est utilisée pour prédire la fonction d'un gène : si la séquence du gène A , dont la fonction est connue, est homologue à la séquence du gène B, dont la fonction est inconnue, on pourrait en déduire que B peut partager la fonction de A. Dans la branche structurelle de la bioinformatique, l'homologie est utilisée pour déterminer quelles parties d'une protéine sont importantes dans la formation de la structure et l'interaction avec d'autres protéines. Dans une technique appelée modélisation d'homologie , cette information est utilisée pour prédire la structure d'une protéine une fois que la structure d'une protéine homologue est connue. Cela reste actuellement le seul moyen de prédire de manière fiable les structures des protéines.

Un exemple en est l'hémoglobine chez l'homme et l'hémoglobine chez les légumineuses ( leghémoglobine ), qui sont des parents éloignés de la même superfamille de protéines . Les deux ont le même objectif de transporter l'oxygène dans l'organisme. Bien que ces deux protéines aient des séquences d'acides aminés complètement différentes, leurs structures protéiques sont pratiquement identiques, ce qui reflète leurs objectifs presque identiques et leur ancêtre commun.

D'autres techniques pour prédire la structure des protéines comprennent l'enfilage des protéines et la modélisation physique de novo (à partir de zéro).

Un autre aspect de la bioinformatique structurelle comprend l'utilisation de structures protéiques pour les modèles de criblage virtuel tels que les modèles de relation quantitative structure-activité et les modèles protéochimométriques (PCM). En outre, la structure cristalline d'une protéine peut être utilisée dans la simulation par exemple d'études de liaison de ligand et d'études de mutagenèse silico .

Biologie des réseaux et des systèmes

L'analyse de réseau cherche à comprendre les relations au sein des réseaux biologiques tels que les réseaux d'interaction métabolique ou protéine-protéine . Bien que les réseaux biologiques puissent être construits à partir d'un seul type de molécule ou d'entité (comme des gènes), la biologie des réseaux tente souvent d'intégrer de nombreux types de données différents, tels que des protéines, de petites molécules, des données d'expression génique et autres, qui sont tous connectés physiquement. , fonctionnellement ou les deux.

La biologie des systèmes implique l'utilisation de simulations informatiques de sous-systèmes cellulaires (tels que les réseaux de métabolites et d' enzymes qui comprennent le métabolisme , les voies de transduction du signal et les réseaux de régulation des gènes ) pour analyser et visualiser les connexions complexes de ces processus cellulaires. La vie artificielle ou l'évolution virtuelle tente de comprendre les processus évolutifs via la simulation informatique de formes de vie simples (artificielles).

Réseaux d'interaction moléculaire

Les interactions entre les protéines sont fréquemment visualisées et analysées à l'aide de réseaux. Ce réseau est constitué d'interactions protéine-protéine de Treponema pallidum , l'agent causal de la syphilis et d'autres maladies.

Des dizaines de milliers de structures protéiques tridimensionnelles ont été déterminées par cristallographie aux rayons X et spectroscopie de résonance magnétique nucléaire des protéines (RMN des protéines) et une question centrale en bioinformatique structurelle est de savoir s'il est pratique de prédire d'éventuelles interactions protéine-protéine uniquement sur la base de celles-ci. Formes 3D, sans effectuer d' expériences d' interaction protéine-protéine . Diverses méthodes ont été développées pour résoudre le problème d' amarrage protéine-protéine , bien qu'il semble qu'il reste encore beaucoup de travail à faire dans ce domaine.

D'autres interactions rencontrées sur le terrain comprennent la protéine-ligand (y compris le médicament) et la protéine-peptide . La simulation dynamique moléculaire du mouvement des atomes autour des liaisons rotatives est le principe fondamental des algorithmes de calcul , appelés algorithmes d'amarrage, pour l'étude des interactions moléculaires .

Autres

Analyse de la littérature

La croissance du nombre de documents publiés rend pratiquement impossible la lecture de chaque article, ce qui entraîne des sous-domaines de recherche disjoints. L'analyse de la littérature vise à utiliser la linguistique informatique et statistique pour exploiter cette bibliothèque croissante de ressources textuelles. Par exemple:

  • Reconnaissance des abréviations – identifier la forme longue et l'abréviation des termes biologiques
  • Reconnaissance d'entité nommée - reconnaissance de termes biologiques tels que les noms de gènes
  • Interaction protéine-protéine - identifiez quelles protéines interagissent avec quelles protéines à partir du texte

Le domaine de recherche s'inspire des statistiques et de la linguistique informatique .

Analyse d'images à haut débit

Les technologies informatiques sont utilisées pour accélérer ou automatiser entièrement le traitement, la quantification et l'analyse de grandes quantités d' imagerie biomédicale à haute teneur en informations . Les systèmes d' analyse d'images modernes augmentent la capacité d'un observateur à effectuer des mesures à partir d'un ensemble d'images important ou complexe, en améliorant la précision , l' objectivité ou la vitesse. Un système d'analyse entièrement développé peut remplacer complètement l'observateur. Bien que ces systèmes ne soient pas propres à l'imagerie biomédicale, l'imagerie biomédicale devient de plus en plus importante à la fois pour le diagnostic et la recherche. Quelques exemples sont:

  • quantification et localisation sub-cellulaire à haut débit et haute fidélité ( criblage à haut contenu , cytohistopathologie, informatique Bioimage )
  • morphométrie
  • analyse et visualisation d'images cliniques
  • déterminer les modèles de flux d'air en temps réel dans les poumons respiratoires d'animaux vivants
  • quantification de la taille de l'occlusion dans l'imagerie en temps réel à partir du développement et de la récupération lors d'une lésion artérielle
  • faire des observations comportementales à partir d'enregistrements vidéo prolongés d'animaux de laboratoire
  • mesures infrarouges pour la détermination de l'activité métabolique
  • déduire des chevauchements de clones dans la cartographie de l' ADN , par exemple le score de Sulston

Analyse de données de cellule unique à haut débit

Des techniques de calcul sont utilisées pour analyser des données de cellule unique à haut débit et à faible mesure, telles que celles obtenues à partir de la cytométrie en flux . Ces méthodes impliquent généralement de trouver des populations de cellules qui sont pertinentes pour un état pathologique particulier ou une condition expérimentale.

Informatique de la biodiversité

L'informatique de la biodiversité traite de la collecte et de l'analyse des données sur la biodiversité , telles que les bases de données taxonomiques ou les données sur le microbiome . Des exemples de telles analyses incluent la phylogénétique , la modélisation de niche , la cartographie de la richesse des espèces , le codage à barres de l'ADN ou les outils d'identification des espèces .

Ontologies et intégration de données

Les ontologies biologiques sont des graphes acycliques orientés de vocabulaires contrôlés . Ils sont conçus pour capturer des concepts et des descriptions biologiques d'une manière qui peut être facilement catégorisée et analysée avec des ordinateurs. Une fois catégorisés de cette manière, il est possible de tirer une valeur ajoutée d'une analyse holistique et intégrée.

La fonderie OBO était un effort pour standardiser certaines ontologies. L'une des plus répandues est l' ontologie Gene qui décrit la fonction des gènes. Il existe également des ontologies qui décrivent des phénotypes.

Bases de données

Les bases de données sont essentielles pour la recherche et les applications en bioinformatique. De nombreuses bases de données existent, couvrant différents types d'informations : par exemple, les séquences d'ADN et de protéines, les structures moléculaires, les phénotypes et la biodiversité. Les bases de données peuvent contenir des données empiriques (obtenues directement à partir d'expériences), des données prédites (obtenues à partir d'analyses) ou, le plus souvent, les deux. Ils peuvent être spécifiques d'un organisme, d'une voie ou d'une molécule d'intérêt particulier. Alternativement, ils peuvent incorporer des données compilées à partir de plusieurs autres bases de données. Ces bases de données varient dans leur format, leur mécanisme d'accès et si elles sont publiques ou non.

Certaines des bases de données les plus couramment utilisées sont répertoriées ci-dessous. Pour une liste plus complète, veuillez consulter le lien au début de la sous-section.

  • Utilisé en analyse de séquence biologique : Genbank , UniProt
  • Utilisé dans l'analyse de structure : Protein Data Bank (PDB)
  • Utilisé pour trouver les familles de protéines et la recherche de motifs : InterPro , Pfam
  • Utilisé pour le séquençage de nouvelle génération : archive de lecture de séquence
  • Utilisé dans l'analyse de réseau : bases de données de voies métaboliques ( KEGG , BioCyc ), bases de données d'analyse d'interaction, réseaux fonctionnels
  • Utilisé dans la conception de circuits génétiques synthétiques : GenoCAD

Logiciels et outils

Les outils logiciels pour la bioinformatique vont des simples outils en ligne de commande aux programmes graphiques plus complexes et aux services Web autonomes disponibles auprès de diverses sociétés de bioinformatique ou institutions publiques.

Logiciel de bioinformatique open source

De nombreux outils logiciels libres et open source ont existé et n'ont cessé de croître depuis les années 1980. La combinaison d'un besoin continu de nouveaux algorithmes pour l'analyse des types émergents de lectures biologiques, le potentiel d' expériences in silico innovantes et des bases de code ouvertes disponibles gratuitement ont contribué à créer des opportunités pour tous les groupes de recherche de contribuer à la fois à la bioinformatique et à la gamme de logiciels libres disponibles, quelles que soient leurs modalités de financement. Les outils open source agissent souvent comme des incubateurs d'idées ou des plug-ins pris en charge par la communauté dans des applications commerciales. Ils peuvent également fournir des normes de facto et des modèles d'objets partagés pour aider à relever le défi de l'intégration de la bioinformation.

La gamme de progiciels open source comprend des titres tels que Bioconductor , BioPerl , Biopython , BioJava , BioJS , BioRuby , Bioclipse , EMBOSS , .NET Bio , Orange avec son module complémentaire de bioinformatique, Apache Taverna , UGENE et GenoCAD . Pour maintenir cette tradition et créer de nouvelles opportunités, l' Open Bioinformatics Foundation à but non lucratif soutient la conférence annuelle Bioinformatics Open Source (BOSC) depuis 2000.

Une méthode alternative pour construire des bases de données bioinformatiques publiques consiste à utiliser le moteur MediaWiki avec l' extension WikiOpener . Ce système permet à tous les experts du domaine d'accéder à la base de données et de la mettre à jour.

Services Web en bioinformatique

Les interfaces SOAP et REST ont été développées pour une grande variété d'applications bioinformatiques permettant à une application s'exécutant sur un ordinateur dans une partie du monde d'utiliser des algorithmes, des données et des ressources informatiques sur des serveurs dans d'autres parties du monde. Les principaux avantages découlent du fait que les utilisateurs finaux n'ont pas à gérer les frais généraux de maintenance des logiciels et des bases de données.

Les services bioinformatiques de base sont classés par l' EBI en trois catégories : SSS (Sequence Search Services), MSA (Multiple Sequence Alignment) et BSA (Biological Sequence Analysis). La disponibilité de ces ressources bioinformatiques orientées services démontre l'applicabilité des solutions bioinformatiques basées sur le Web et va d'une collection d'outils autonomes avec un format de données commun sous une interface unique, autonome ou basée sur le Web, à une bioinformatique intégrative, distribuée et extensible. systèmes de gestion de flux de travail .

Systèmes de gestion de flux de travail bioinformatique

Un système de gestion de flux de travail bioinformatique est une forme spécialisée d'un système de gestion de flux de travail conçu spécifiquement pour composer et exécuter une série d'étapes de calcul ou de manipulation de données, ou un flux de travail, dans une application bioinformatique. De tels systèmes sont conçus pour

  • fournir un environnement facile à utiliser pour les scientifiques d'application individuels eux-mêmes pour créer leurs propres flux de travail,
  • fournir des outils interactifs aux scientifiques leur permettant d'exécuter leurs workflows et de visualiser leurs résultats en temps réel,
  • simplifier le processus de partage et de réutilisation des workflows entre les scientifiques, et
  • permettre aux scientifiques de suivre la provenance des résultats d'exécution du workflow et les étapes de création du workflow.

Quelques plateformes offrant ce service : Galaxy , Kepler , Taverna , UGENE , Anduril , HIVE .

BioCompute et objets BioCompute

En 2014, la Food and Drug Administration des États-Unis a parrainé une conférence tenue au National Institutes of Health Bethesda Campus pour discuter de la reproductibilité en bioinformatique. Au cours des trois années suivantes, un consortium de parties prenantes s'est réuni régulièrement pour discuter de ce qui allait devenir le paradigme BioCompute. Ces intervenants comprenaient des représentants du gouvernement, de l'industrie et d'entités universitaires. Les animateurs de session représentaient de nombreuses branches des instituts et centres de la FDA et du NIH, des entités à but non lucratif, notamment le Human Variome Project et la Fédération européenne d'informatique médicale , et des instituts de recherche tels que Stanford , le New York Genome Center et l' Université George Washington .

Il a été décidé que le paradigme BioCompute se présenterait sous la forme de « cahiers de laboratoire » numériques permettant la reproductibilité, la réplication, la révision et la réutilisation des protocoles bioinformatiques. Cela a été proposé pour permettre une plus grande continuité au sein d'un groupe de recherche au cours d'un flux normal de personnel tout en favorisant l'échange d'idées entre les groupes. La FDA américaine a financé ce travail afin que les informations sur les pipelines soient plus transparentes et accessibles à leur personnel de réglementation.

En 2016, le groupe s'est réuni à nouveau au NIH à Bethesda et a discuté du potentiel d'un objet BioCompute , une instance du paradigme BioCompute. Ce travail a été copié à la fois comme document « d'essai standard » et comme document de préimpression téléchargé sur bioRxiv. L'objet BioCompute permet de partager l'enregistrement JSON entre les employés, les collaborateurs et les régulateurs.

Plateformes éducatives

Les plates-formes logicielles conçues pour enseigner les concepts et les méthodes de bioinformatique comprennent Rosalind et des cours en ligne proposés via le portail de formation de l'Institut suisse de bioinformatique . Les Ateliers canadiens de bioinformatique proposent des vidéos et des diapositives d'ateliers de formation sur leur site Web sous une licence Creative Commons . Le projet 4273π ou le projet 4273pi propose également du matériel pédagogique open source gratuitement. Le cours fonctionne sur des ordinateurs Raspberry Pi à faible coût et a été utilisé pour enseigner aux adultes et aux écoliers. 4273π est activement développé par un consortium d'universitaires et de chercheurs qui ont mené des recherches bioinformatiques à l'aide d'ordinateurs Raspberry Pi et du système d'exploitation 4273π.

Les plateformes MOOC fournissent également des certifications en ligne en bioinformatique et disciplines connexes, notamment la spécialisation en bioinformatique de Coursera ( UC San Diego ) et la spécialisation en science des données génomiques ( Johns Hopkins ) ainsi que l' analyse de données d' EdX pour les sciences de la vie XSeries ( Harvard ). L'Université de Californie du Sud propose une maîtrise en bioinformatique translationnelle axée sur les applications biomédicales.

Conférences

Il existe plusieurs grandes conférences qui traitent de la bioinformatique. Certains des exemples les plus notables sont les systèmes intelligents pour la biologie moléculaire (ISMB), la Conférence européenne sur la biologie computationnelle (ECCB) et la recherche en biologie moléculaire computationnelle (RECOMB).

Voir également

Les références

Lectures complémentaires

Liens externes

Écoutez cet article ( 37 minutes )
Icône Wikipédia parlée
Ce fichier audio a été créé à partir d'une révision de cet article datée du 20 septembre 2013 et ne reflète pas les modifications ultérieures. ( 2013-09-20 )