Amarrage macromoléculaire - Macromolecular docking

L'amarrage macromoléculaire est la modélisation informatique de la structure quaternaire de complexes formés par deux ou plusieurs macromolécules biologiques en interaction . Les complexes protéine-protéine sont les cibles les plus couramment tentées d'une telle modélisation, suivis par les complexes protéine- acide nucléique .

Le but ultime de l'amarrage est la prédiction de la structure tridimensionnelle du complexe macromoléculaire d'intérêt telle qu'elle se produirait dans un organisme vivant. L'amarrage lui-même ne produit que des structures candidates plausibles. Ces candidats doivent être classés à l'aide de méthodes telles que des fonctions de notation pour identifier les structures les plus susceptibles de se produire dans la nature.

Le terme « amarrage » est né à la fin des années 1970, avec un sens plus restreint ; puis, « docking » signifiait affiner un modèle d'une structure complexe en optimisant la séparation entre les interacteurs mais en gardant leurs orientations relatives fixes. Plus tard, les orientations relatives des partenaires en interaction dans la modélisation ont pu varier, mais la géométrie interne de chacun des partenaires a été maintenue fixe. Ce type de modélisation est parfois appelé « amarrage rigide ». Avec de nouvelles augmentations de la puissance de calcul, il est devenu possible de modéliser les changements dans la géométrie interne des partenaires en interaction qui peuvent se produire lors de la formation d'un complexe. Ce type de modélisation est appelé « docking flexible ».

Fond

Les rôles biologiques de la plupart des protéines, caractérisés par les autres macromolécules avec lesquelles elles interagissent , sont connus au mieux de manière incomplète. Même les protéines qui participent à un processus biologique bien étudié (par exemple, le cycle de Krebs ) peuvent avoir des partenaires d'interaction inattendus ou des fonctions qui ne sont pas liées à ce processus.

En cas d'interactions protéine-protéine connues, d'autres questions se posent. Les maladies génétiques (par exemple, la mucoviscidose ) sont connues pour être causées par des protéines mal repliées ou mutées , et il existe un désir de comprendre quelles, le cas échéant, les interactions protéine-protéine anormales peuvent provoquer une mutation donnée. Dans un avenir lointain, les protéines pourraient être conçues pour remplir des fonctions biologiques, et une détermination des interactions potentielles de ces protéines sera essentielle.

Pour un ensemble donné de protéines, les questions suivantes peuvent être intéressantes, du point de vue de la technologie ou de l'histoire naturelle :

  • Ces protéines se lient-elles in vivo ?

S'ils se lient,

  • Quelle est la configuration spatiale qu'ils adoptent dans leur état lié ?
  • Quelle est la force ou la faiblesse de leur interaction ?

S'ils ne lient pas,

  • Peut-on les faire se lier en induisant une mutation ?

L'amarrage protéine-protéine est finalement envisagé pour résoudre tous ces problèmes. De plus, étant donné que les méthodes d'amarrage peuvent être basées sur des principes purement physiques , même des protéines de fonction inconnue (ou qui ont été relativement peu étudiées) peuvent être amarrées. La seule condition préalable est que leur structure moléculaire ait été déterminée expérimentalement ou puisse être estimée par une technique de prédiction de la structure des protéines .

Les interactions protéine-acide nucléique occupent une place prépondérante dans la cellule vivante. Les facteurs de transcription , qui régulent l'expression des gènes , et les polymérases , qui catalysent la réplication , sont composés de protéines, et le matériel génétique avec lequel elles interagissent est composé d'acides nucléiques. La modélisation des complexes protéine-acide nucléique présente des défis uniques, comme décrit ci-dessous.

Histoire

Dans les années 1970, la modélisation complexe tournait autour de l'identification manuelle des caractéristiques sur les surfaces des interacteurs et de l'interprétation des conséquences pour la liaison, la fonction et l'activité ; tous les programmes informatiques étaient généralement utilisés à la fin du processus de modélisation, pour faire la distinction entre les relativement peu de configurations qui restaient après que toutes les contraintes heuristiques aient été imposées. La première utilisation des ordinateurs était dans une étude sur l' interaction de l' hémoglobine dans les fibres drépanocytaires . Cela a été suivi en 1978 par des travaux sur le complexe trypsine - BPTI . Les ordinateurs distinguaient les bons et les mauvais modèles en utilisant une fonction de notation qui récompensait une grande surface d'interface et des paires de molécules en contact mais n'occupant pas le même espace. L'ordinateur a utilisé une représentation simplifiée des protéines en interaction, avec un centre d'interaction pour chaque résidu. Des interactions électrostatiques favorables , y compris des liaisons hydrogène , ont été identifiées à la main.

Au début des années 1990, davantage de structures de complexes ont été déterminées et la puissance de calcul disponible a considérablement augmenté. Avec l'émergence de la bioinformatique , l'accent s'est déplacé vers le développement de techniques généralisées qui pourraient être appliquées à un ensemble arbitraire de complexes à un coût de calcul acceptable. Les nouvelles méthodes étaient envisagées pour s'appliquer même en l'absence d'indices phylogénétiques ou expérimentaux ; toute connaissance préalable spécifique pourrait toujours être introduite au stade du choix entre les modèles de sortie de rang le plus élevé, ou être encadrée en entrée si l'algorithme le prenait en compte. 1992 a vu la publication de la méthode de corrélation, un algorithme qui utilisait la transformée de Fourier rapide pour donner une évolutivité considérablement améliorée pour évaluer la complémentarité de forme grossière sur des modèles à corps rigide. Cela a été étendu en 1997 pour couvrir l'électrostatique grossière.

En 1996, les résultats du premier essai en aveugle ont été publiés, dans lesquels six groupes de recherche ont tenté de prédire la structure complexée de la bêta-lactamase TEM-1 avec la protéine inhibitrice de la bêta-lactamase (BLIP). L'exercice a mis en évidence la nécessité de s'adapter au changement de conformation et la difficulté de discriminer entre les conformères. Il a également servi de prototype pour la série d'évaluations CAPRI, qui a débuté en 2001.

Amarrage à corps rigide vs . amarrage flexible

Si les angles de liaison, les longueurs de liaison et les angles de torsion des composants ne sont modifiés à aucun stade de la génération complexe, on parle d' amarrage de corps rigide . Un sujet de spéculation est de savoir si l'amarrage à corps rigide est suffisamment bon pour la plupart des amarrages. Lorsqu'un changement conformationnel substantiel se produit dans les composants au moment de la formation du complexe, l'amarrage du corps rigide est inadéquat. Cependant, marquer tous les changements conformationnels possibles est prohibitif en temps informatique. Les procédures d'amarrage qui permettent un changement de conformation, ou des procédures d' amarrage flexibles , doivent sélectionner intelligemment un petit sous-ensemble de changements de conformation possibles à prendre en considération.

Méthodes

Un amarrage réussi nécessite deux critères :

  • Générer un ensemble de configurations qui comprend de manière fiable au moins une presque correcte.
  • Distinguer de manière fiable les configurations presque correctes des autres.

Pour de nombreuses interactions, le site de liaison est connu sur une ou plusieurs des protéines à amarrer. C'est le cas des anticorps et des inhibiteurs compétitifs . Dans d'autres cas, un site de liaison peut être fortement suggéré par des preuves mutagènes ou phylogénétiques . Des configurations où les protéines s'interpénétrent fortement peuvent également être exclues a priori .

Après avoir fait des exclusions basées sur des connaissances antérieures ou un choc stéréochimique , l'espace restant de structures complexées possibles doit être échantillonné de manière exhaustive, uniforme et avec une couverture suffisante pour garantir un coup proche. Chaque configuration doit être notée avec une mesure capable de classer une structure presque correcte au-dessus d'au moins 100 000 alternatives. Il s'agit d'une tâche de calcul intensif, et une variété de stratégies ont été développées.

Méthodes spatiales réciproques

Chacune des protéines peut être représentée comme un simple réseau cubique. Ensuite, pour la classe de scores qui sont des convolutions discrètes , les configurations liées les unes aux autres par la traduction d'une protéine par un vecteur de réseau exact peuvent toutes être évaluées presque simultanément en appliquant le théorème de convolution . Il est possible de construire des fonctions de notation raisonnables, bien qu'approximatives, de type convolution représentant à la fois la fitness stéréochimique et électrostatique.

Les méthodes spatiales réciproques ont été largement utilisées pour leur capacité à évaluer un nombre énorme de configurations. Ils perdent leur avantage de vitesse si des changements de torsion sont introduits. Un autre inconvénient est qu'il est impossible d'utiliser efficacement les connaissances antérieures. La question reste également de savoir si les convolutions sont une classe de fonction de notation trop limitée pour identifier le meilleur complexe de manière fiable.

Méthodes de Monte-Carlo

Dans Monte Carlo , une configuration initiale est affinée en prenant des étapes aléatoires qui sont acceptées ou rejetées en fonction de leur amélioration de score induite (voir le critère Metropolis ), jusqu'à ce qu'un certain nombre d'étapes aient été tentées. L'hypothèse est que la convergence vers la meilleure structure doit se produire à partir d'une grande classe de configurations initiales, dont une seule doit être considérée. Les configurations initiales peuvent être échantillonnées grossièrement, et beaucoup de temps de calcul peut être économisé. En raison de la difficulté de trouver une fonction de notation à la fois hautement discriminante pour la configuration correcte et convergeant également vers la configuration correcte à distance, l'utilisation de deux niveaux de raffinement, avec des fonctions de notation différentes, a été proposée. La torsion peut être introduite naturellement dans Monte Carlo en tant que propriété supplémentaire de chaque mouvement aléatoire.

Les méthodes de Monte Carlo ne garantissent pas une recherche exhaustive, de sorte que la meilleure configuration peut être manquée même en utilisant une fonction de notation qui l'identifierait en théorie. La gravité de ce problème pour l'amarrage n'a pas été fermement établie.

Évaluation

Fonctions de notation

Pour trouver un score qui constitue une base cohérente pour sélectionner la meilleure configuration, des études sont menées sur un référentiel standard (voir ci-dessous) de cas d'interaction protéine-protéine. Les fonctions de notation sont évaluées sur le rang qu'elles attribuent à la meilleure structure (idéalement la meilleure structure devrait être classée 1) et sur leur couverture (la proportion des cas de référence pour lesquels elles obtiennent un résultat acceptable). Les types de scores étudiés comprennent :

Il est habituel de créer des scores hybrides en combinant une ou plusieurs catégories ci-dessus dans une somme pondérée dont les poids sont optimisés sur les cas du benchmark. Pour éviter les biais, les cas de référence utilisés pour optimiser les poids ne doivent pas chevaucher les cas utilisés pour effectuer le test final du score.

L'objectif ultime de l'amarrage protéine-protéine est de sélectionner la solution de classement idéale en fonction d'un système de notation qui donnerait également un aperçu de l'affinité du complexe. Un tel développement conduirait à l'ingénierie des protéines in silico , à la conception de médicaments assistée par ordinateur et/ou à l'annotation à haut débit des protéines qui se lient ou non (annotation de l' interactome ). Plusieurs fonctions de scoring ont été proposées pour la prédiction de l'affinité de liaison/énergie libre. Cependant, la corrélation entre les affinités de liaison déterminées expérimentalement et les prédictions de neuf fonctions de notation couramment utilisées s'est avérée presque orthogonale (R 2 ~ 0). Il a également été observé que certains composants des algorithmes de notation peuvent afficher une meilleure corrélation avec les énergies de liaison expérimentales que le score complet, suggérant qu'une performance significativement meilleure pourrait être obtenue en combinant les contributions appropriées de différents algorithmes de notation. Les méthodes expérimentales pour la détermination des affinités de liaison sont : la résonance plasmonique de surface (SPR), le transfert d'énergie par résonance de Förster , les techniques à base de radioligands , la calorimétrie de titrage isotherme (ITC), la thermophorèse à micro - échelle (MST) ou les mesures spectroscopiques et d'autres techniques de fluorescence. Les informations textuelles des articles scientifiques peuvent fournir des indices utiles pour la notation.

Repères

Une référence de 84 interactions protéine-protéine avec des structures complexes connues a été développée pour tester les méthodes d'amarrage. L'ensemble est choisi pour couvrir un large éventail de types d'interactions, et pour éviter des caractéristiques répétées, telles que le profil des familles structurelles des interacteurs selon la base de données SCOP . Les éléments de référence sont classés en trois niveaux de difficulté (le plus difficile contenant le plus grand changement dans la conformation du squelette). La référence d'amarrage protéine-protéine contient des exemples de complexes enzyme-inhibiteur, antigène-anticorps et homomultimères.

La dernière version du benchmark d'amarrage protéine-protéine se compose de 230 complexes. Une référence d'amarrage protéine-ADN se compose de 47 cas de test. Une référence d'amarrage protéine-ARN a été organisée sous la forme d'un ensemble de données de 45 cas de test non redondants avec des complexes résolus uniquement par cristallographie aux rayons X , ainsi qu'un ensemble de données étendu de 71 cas de test avec des structures dérivées également de la modélisation d'homologie . La référence protéine-ARN a été mise à jour pour inclure davantage de structures résolues par cristallographie aux rayons X et se compose désormais de 126 cas de test. Les repères ont un ensemble de données combiné de 209 complexes.

Une référence d'affinité de liaison a été basée sur la référence d'amarrage protéine-protéine. 81 complexes protéine-protéine avec des affinités expérimentales connues sont inclus; ces complexes couvrent plus de 11 ordres de grandeur en termes d'affinité. Chaque entrée du benchmark comprend plusieurs paramètres biochimiques associés aux données expérimentales, ainsi que la méthode utilisée pour déterminer l'affinité. Cette référence a été utilisée pour évaluer dans quelle mesure les fonctions de notation pouvaient également prédire les affinités des complexes macromoléculaires.

Ce Benchmark a été revu par les pairs et considérablement élargi. Le nouvel ensemble est diversifié en termes de fonctions biologiques qu'il représente, avec des complexes impliquant des protéines G et des domaines extracellulaires récepteurs, ainsi que des complexes antigène/anticorps, enzyme/inhibiteur et enzyme/substrat. Il est également diversifié en termes d'affinité des partenaires les uns pour les autres, avec K d compris entre 10 -5 et 10 -14 M. Neuf paires d'entrées représentent des complexes étroitement liés qui ont une structure similaire, mais une affinité très différente, chacun paire comprenant un assemblage apparenté et un assemblage non apparenté. Les structures non liées des protéines constituantes étant disponibles, les changements de conformation peuvent être évalués. Ils sont significatifs dans la plupart des complexes, et des mouvements importants ou des transitions désordre-ordre sont fréquemment observés. L'ensemble peut être utilisé pour comparer des modèles biophysiques visant à relier l'affinité à la structure dans les interactions protéine-protéine, en tenant compte des réactifs et des changements de conformation qui accompagnent la réaction d'association, au lieu du seul produit final.

L'évaluation CAPRI

L'évaluation critique de la prédiction des interactions est une série continue d'événements au cours desquels les chercheurs de toute la communauté tentent d'ancrer les mêmes protéines, telles que fournies par les évaluateurs. Les tournées ont lieu environ tous les 6 mois. Chaque cycle contient entre un et six complexes protéine-protéine cibles dont les structures ont été récemment déterminées expérimentalement. Les coordonnées sont ainsi détenues en privé par les évaluateurs, avec le concours des biologistes des structures qui les ont déterminées. L'évaluation des soumissions est en double aveugle .

CAPRI attire un niveau élevé de participation (37 groupes ont participé dans le monde au septième tour) et un niveau élevé d'intérêt de la communauté biologique en général. Bien que les résultats de CAPRI aient peu de signification statistique en raison du petit nombre de cibles à chaque tour, le rôle de CAPRI dans la stimulation du discours est important. (L' évaluation CASP est un exercice similaire dans le domaine de la prédiction de la structure des protéines).

Voir également

Les références