Interaction protéine-protéine - Protein–protein interaction

L'inhibiteur de la ribonucléase en forme de fer à cheval (présenté sous forme de fil de fer) forme une interaction protéine-protéine avec la protéine ribonucléase. Les contacts entre les deux protéines sont représentés par des taches colorées.

Les interactions protéine-protéine ( IPP ) sont des contacts physiques de haute spécificité établis entre deux molécules protéiques ou plus à la suite d'événements biochimiques dirigés par des interactions qui incluent des forces électrostatiques , des liaisons hydrogène et l' effet hydrophobe . Beaucoup sont des contacts physiques avec des associations moléculaires entre des chaînes qui se produisent dans une cellule ou dans un organisme vivant dans un contexte biomoléculaire spécifique.

Les protéines agissent rarement seules car leurs fonctions ont tendance à être régulées. De nombreux processus moléculaires au sein d'une cellule sont effectués par des machines moléculaires construites à partir de nombreux composants protéiques organisés par leurs IPP. Ces interactions physiologiques constituent ce qu'on appelle l' interactomique de l'organisme, tandis que les IPP aberrants sont à la base de multiples maladies liées à l'agrégation, telles que les maladies de Creutzfeldt-Jakob et d' Alzheimer .

Les IPP ont été étudiés avec de nombreuses méthodes et sous différents angles : biochimie , chimie quantique , dynamique moléculaire , transduction de signal , entre autres. Toutes ces informations permettent la création de grands réseaux d'interactions protéiques - similaires aux réseaux métaboliques ou génétiques/épigénétiques - qui renforcent les connaissances actuelles sur les cascades biochimiques et l'étiologie moléculaire de la maladie, ainsi que la découverte de cibles protéiques putatives d'intérêt thérapeutique.

Exemples

Protéines de transfert d'électrons

Dans de nombreuses réactions métaboliques, une protéine qui agit comme un transporteur d'électrons se lie à une enzyme qui agit comme réductase . Après avoir reçu un électron, il se dissocie puis se lie à l'enzyme suivante qui agit comme son oxydase (c'est-à-dire un accepteur de l'électron). Ces interactions entre protéines dépendent d'une liaison hautement spécifique entre les protéines pour assurer un transfert d'électrons efficace. Exemples : composants du système de chaîne de phosphorylation oxydative mitochondriale cytochrome c-réductase/ cytochrome c /cytochrome c oxydase; systèmes microsomaux et mitochondriaux P450.

Dans le cas des systèmes mitochondriaux P450, les résidus spécifiques impliqués dans la liaison de la protéine de transfert d'électrons adrénodoxine à sa réductase ont été identifiés comme deux résidus Arg basiques à la surface de la réductase et deux résidus acides Asp sur l'adrénodoxine. Des travaux plus récents sur la phylogénie de la réductase ont montré que ces résidus impliqués dans les interactions protéine-protéine ont été conservés tout au long de l'évolution de cette enzyme.

Transduction du signal

L'activité de la cellule est régulée par des signaux extracellulaires. La propagation du signal à l'intérieur et/ou le long de l'intérieur des cellules dépend des IPP entre les différentes molécules de signalisation. Le recrutement de voies de signalisation via les IPP est appelé transduction du signal et joue un rôle fondamental dans de nombreux processus biologiques et dans de nombreuses maladies, notamment la maladie de Parkinson et le cancer.

Transport membranaire

Une protéine peut être porteuse d'une autre protéine (par exemple, du cytoplasme au noyau ou vice versa dans le cas des importines des pores nucléaires ).

Métabolisme cellulaire

Dans de nombreux processus de biosynthèse, les enzymes interagissent les unes avec les autres pour produire de petits composés ou d'autres macromolécules.

Contraction musculaire

La physiologie de la contraction musculaire implique plusieurs interactions. Les filaments de myosine agissent comme des moteurs moléculaires et en se liant à l' actine, ils permettent le glissement des filaments. De plus, des membres de la famille des protéines associées aux gouttelettes lipidiques du muscle squelettique s'associent à d'autres protéines, en tant qu'activateur de la triglycéride lipase adipeuse et de son coactivateur , identification comparative du gène-58, pour réguler la lipolyse dans le muscle squelettique.

Les types

Pour décrire les types d'interactions protéine-protéine (IPP), il est important de considérer que les protéines peuvent interagir de manière « transitoire » (pour produire un effet spécifique en peu de temps, comme une transduction de signal) ou interagir avec d'autres protéines dans une manière "stable" de former des complexes qui deviennent des machines moléculaires au sein des systèmes vivants. Un assemblage de complexe protéique peut entraîner la formation de complexes homo-oligomères ou hétéro-oligomères . En plus des complexes classiques, comme enzyme-inhibiteur et anticorps-antigène, des interactions peuvent également être établies entre domaine-domaine et domaine-peptide. Une autre distinction importante pour identifier les interactions protéine-protéine est la façon dont elles ont été déterminées, car il existe des techniques qui mesurent les interactions physiques directes entre les paires de protéines, appelées méthodes «binaires», alors qu'il existe d'autres techniques qui mesurent les interactions physiques entre groupes de protéines, sans détermination par paire de partenaires protéiques, appelées méthodes « co-complexes ».

Homo-oligomères vs hétéro-oligomères

Les homo-oligomères sont des complexes macromoléculaires constitués d'un seul type de sous-unité protéique . L'assemblage des sous-unités protéiques est guidé par l'établissement d' interactions non covalentes dans la structure quaternaire de la protéine. La rupture des homo-oligomères pour revenir aux monomères individuels initiaux nécessite souvent une dénaturation du complexe. Plusieurs enzymes , protéines porteuses, protéines d' échafaudage et facteurs de régulation transcriptionnelle remplissent leurs fonctions en tant qu'homo-oligomères. Des sous-unités protéiques distinctes interagissent dans des hétéro-oligomères, qui sont essentiels pour contrôler plusieurs fonctions cellulaires. L'importance de la communication entre les protéines hétérologues est encore plus évidente lors des événements de signalisation cellulaire et de telles interactions ne sont possibles qu'en raison des domaines structuraux au sein des protéines (comme décrit ci-dessous).

Interactions stables vs interactions transitoires

Les interactions stables impliquent des protéines qui interagissent longtemps, faisant partie de complexes permanents en tant que sous-unités, afin de remplir des rôles fonctionnels. Ce sont généralement le cas des homo-oligomères (par exemple le cytochrome c ) et de certaines protéines hétéro-oligomères, comme les sous-unités de l' ATPase . D'autre part, une protéine peut interagir brièvement et dans une réversible manière avec d' autres protéines que dans certains contextes cellulaires - type de cellules , stade du cycle cellulaire , des facteurs externes, la présence d'autres protéines de liaison, etc. - comme il arrive avec la plupart des protéines impliquées dans les cascades biochimiques . Celles-ci sont appelées interactions transitoires. Par exemple, certains récepteurs couplés aux protéines G ne se lient que de manière transitoire aux protéines G i/o lorsqu'ils sont activés par des ligands extracellulaires, tandis que certains récepteurs couplés aux G q , tels que le récepteur muscarinique M3, se pré-couplent avec les protéines G q avant la liaison récepteur-ligand. Les interactions entre les régions protéiques intrinsèquement désordonnées et les domaines protéiques globulaires (c'est-à-dire les MoRF ) sont des interactions transitoires.

Covalent vs non covalent

Les interactions covalentes sont celles qui présentent l'association la plus forte et sont formées par des liaisons disulfure ou par partage d'électrons . Bien que rares, ces interactions sont déterminantes dans certaines modifications post-traductionnelles , comme l' ubiquitination et la SUMOylation . Des liaisons non covalentes sont généralement établies lors d'interactions transitoires par la combinaison de liaisons plus faibles, telles que des liaisons hydrogène , des interactions ioniques, des forces de Van der Waals ou des liaisons hydrophobes.

Rôle de l'eau

Les molécules d'eau jouent un rôle important dans les interactions entre les protéines. Les structures cristallines de complexes, obtenues à haute résolution à partir de protéines différentes mais homologues, ont montré que certaines molécules d'eau d'interface sont conservées entre complexes homologues. La majorité des molécules d'eau d'interface font des liaisons hydrogène avec les deux partenaires de chaque complexe. Certains résidus d'acides aminés d'interface ou groupes atomiques d'un partenaire protéique s'engagent dans des interactions à la fois directes et médiées par l'eau avec l'autre partenaire protéique. Les interactions doublement indirectes, médiées par deux molécules d'eau, sont plus nombreuses dans les complexes homologues de faible affinité. Des expériences de mutagenèse soigneusement menées, par exemple en changeant un résidu tyrosine en phénylalanine, ont montré que les interactions médiées par l'eau peuvent contribuer à l'énergie d'interaction. Ainsi, les molécules d'eau peuvent faciliter les interactions et les reconnaissances croisées entre les protéines.

Structure

Structure cristalline de la Gramicidine S modifiée déterminée par cristallographie aux rayons X
Structure RMN du cytochrome C illustrant sa dynamique en solution

Les structures moléculaires de nombreux complexes de protéines ont été déverrouillés par la technique de cristallographie aux rayons X . La première structure à être résolue par cette méthode était celle de la myoglobine de cachalot par Sir John Cowdery Kendrew . Dans cette technique, les angles et les intensités d'un faisceau de rayons X diffracté par des atomes cristallins sont détectés dans un film, produisant ainsi une image tridimensionnelle de la densité d'électrons dans le cristal.

Plus tard, la résonance magnétique nucléaire a également commencé à être appliquée dans le but de démêler la structure moléculaire des complexes protéiques. L'un des premiers exemples était la structure des domaines de liaison à la calmoduline liés à la calmoduline . Cette technique est basée sur l'étude des propriétés magnétiques des noyaux atomiques, déterminant ainsi les propriétés physiques et chimiques des atomes correspondants ou des molécules. La résonance magnétique nucléaire est avantageuse pour caractériser les IPP faibles.

Domaines

Les protéines détiennent des domaines structurels qui permettent leur interaction et se lient à des séquences spécifiques sur d'autres protéines :

  • Domaine d'homologie Src 2 (SH2)
Les domaines SH2 sont structurellement composés d'une feuille bêta torsadée à trois brins prise en sandwich flanquée de deux hélices alpha. L'existence d'une poche de liaison profonde avec une affinité élevée pour la phosphotyrosine , mais pas pour la phosphosérine ou la phosphothréonine , est essentielle pour la reconnaissance des protéines phosphorylées de la tyrosine, principalement les récepteurs du facteur de croissance autophosphorylé . Les protéines de liaison au récepteur du facteur de croissance et la phospholipase Cγ sont des exemples de protéines qui ont des domaines SH2.
  • Domaine d'homologie Src 3 (SH3)
Structurellement, les domaines SH3 sont constitués d'un tonneau bêta formé de deux feuillets bêta orthogonaux et de trois brins bêta antiparallèles. Ces domaines reconnaissent des séquences enrichies en proline , en tant que structure hélicoïdale de polyproline de type II (motifs PXXP) dans des protéines de signalisation cellulaire telles que les protéines tyrosine kinases et la protéine 2 liée au récepteur du facteur de croissance ( Grb2 ).
  • Domaine de liaison à la phosphotyrosine (PTB)
Les domaines PTB interagissent avec des séquences qui contiennent un groupe phosphotyrosine. Ces domaines peuvent être trouvés dans le substrat du récepteur de l' insuline .
Les domaines LIM ont été initialement identifiés dans trois facteurs de transcription homéodomaines (lin11, is11 et mec3). En plus de ces protéines homéodomaines et d'autres protéines impliquées dans le développement, des domaines LIM ont également été identifiés dans des protéines non homéodomaines avec des rôles pertinents dans la différenciation cellulaire , l'association avec le cytosquelette et la sénescence . Ces domaines contiennent un motif de doigt Zn 2+ riche en cystéine en tandem et englobent la séquence consensus CX2CX16-23HX2CX2CX2CX16-21CX2C/H/D. Les domaines LIM se lient aux domaines PDZ, aux facteurs de transcription bHLH et à d'autres domaines LIM.
  • Domaine du motif alpha stérile (SAM)
Les domaines SAM sont composés de cinq hélices formant un ensemble compact avec un noyau hydrophobe conservé . Ces domaines, qui peuvent être trouvés dans le récepteur Eph et la molécule d'interaction stromale ( STIM ) par exemple, se lient à des protéines ne contenant pas de domaine SAM et ils semblent également avoir la capacité de se lier à l' ARN .
Les domaines PDZ ont d'abord été identifiés dans trois guanylate kinases : PSD-95, DlgA et ZO-1. Ces domaines reconnaissent les motifs tripeptides carboxy-terminaux (S/TXV), d'autres domaines PDZ ou domaines LIM et les lient par une courte séquence peptidique qui a un résidu hydrophobe C-terminal . Certaines des protéines identifiées comme ayant des domaines PDZ sont des protéines d'échafaudage ou semblent être impliquées dans l'assemblage des récepteurs ioniques et la formation de complexes récepteur-enzyme.
Les domaines FERM contiennent des résidus basiques capables de lier PtdIns(4,5)P 2 . La taline et la kinase d'adhésion focale (FAK) sont deux des protéines qui présentent des domaines FERM.
Les domaines CH sont principalement présents dans les protéines du cytosquelette sous forme de parvine .
Les domaines d'homologie de la Pleckstrine se lient aux phosphoinositides et aux domaines acides dans les protéines de signalisation.
Les domaines WW se lient aux séquences enrichies en proline.
  • Motif WSxWS
Trouvé dans les récepteurs de cytokines

Propriétés de l'interface

L'étude de la structure moléculaire peut donner des détails fins sur l'interface qui permet l'interaction entre les protéines. Lors de la caractérisation des interfaces PPI, il est important de prendre en compte le type de complexe.

Les paramètres évalués comprennent la taille (mesurée en dimensions absolues Å 2 ou en surface accessible au solvant (SASA) ), la forme, la complémentarité entre les surfaces, les propensions à l'interface des résidus, l'hydrophobie, la segmentation et la structure secondaire, et les changements de conformation lors de la formation du complexe.

La grande majorité des interfaces PPI reflète la composition des surfaces protéiques, plutôt que les noyaux protéiques, bien qu'elles soient fréquemment enrichies en résidus hydrophobes, en particulier en résidus aromatiques. Les interfaces PPI sont dynamiques et fréquemment planes, bien qu'elles puissent également être globulaires et saillantes. Sur la base de trois structures - insuline dimère, trypsine inhibiteur -pancreatic trypsine complexe, et oxyhémoglobine - Cyrus Chothia et Joël Janin ont trouvé que , entre 1130 et 1720 Å 2 de la surface a été retiré du contact avec l' eau indiquant que le caractère hydrophobe est un facteur important de stabilisation de IPP. Des études ultérieures ont affiné la surface enfouie de la majorité des interactions à 1 600 ± 350 2 . Cependant, des interfaces d'interaction beaucoup plus grandes ont également été observées et ont été associées à des changements significatifs dans la conformation de l'un des partenaires d'interaction. Les interfaces PPI présentent à la fois une complémentarité de forme et une complémentarité électrostatique.

Régulation

  • La concentration en protéines, qui à son tour est affectée par les niveaux d'expression et les taux de dégradation ;
  • Affinité protéique pour des protéines ou d'autres ligands de liaison ;
  • Concentrations de ligands ( substrats , ions , etc.);
  • Présence d' autres protéines , acides nucléiques et ions ;
  • Champs électriques autour des protéines.
  • Occurrence de modifications covalentes ;

Méthodes expérimentales

Il existe une multitude de méthodes pour les détecter. Chacune des approches a ses propres forces et faiblesses, notamment en ce qui concerne la sensibilité et la spécificité de la méthode. Les méthodes à haut débit les plus conventionnelles et les plus largement utilisées sont le criblage à deux hybrides de levure et la purification par affinité couplée à la spectrométrie de masse .

Principes des systèmes à deux hybrides de levure et de mammifère

Criblage à deux hybrides de levure

Ce système a été décrit pour la première fois en 1989 par Fields et Song en utilisant Saccharomyces cerevisiae comme modèle biologique. L'hybride de levure deux permet l'identification de PPI par paires (méthode binaire) in vivo , dans lesquels les deux protéines sont testées pour une interaction biophysique directe. Le Y2H est basé sur la reconstitution fonctionnelle du facteur de transcription de levure Gal4 et l'activation subséquente d'un rapporteur sélectif tel que His3. Pour tester l'interaction de deux protéines, deux constructions d'expression de protéines sont réalisées : une protéine (X) est fusionnée au domaine de liaison à l'ADN Gal4 (DB) et une seconde protéine (Y) est fusionnée au domaine d'activation Gal4 (AD). Dans l'essai, les cellules de levure sont transformées avec ces constructions. La transcription des gènes rapporteurs ne se produit que si l'appât (DB-X) et la proie (AD-Y) interagissent les uns avec les autres et forment un facteur de transcription Gal4 fonctionnel. Ainsi, l'interaction entre les protéines peut être inférée par la présence des produits résultant de l'expression du gène rapporteur. Dans les cas où le gène rapporteur exprime des enzymes qui permettent à la levure de synthétiser des acides aminés ou des nucléotides essentiels, la croissance de la levure dans des conditions de milieu sélectif indique que les deux protéines testées interagissent. Récemment, un logiciel pour détecter et hiérarchiser les interactions protéiques a été publié.

Malgré son utilité, le système à deux hybrides de levure a des limites. Il utilise la levure comme système hôte principal, ce qui peut poser problème lors de l'étude de protéines contenant des modifications post-traductionnelles spécifiques aux mammifères. Le nombre d'IPP identifiés est généralement faible en raison d'un taux élevé de faux négatifs ; et, sous- estime les protéines membranaires , par exemple.

Dans les études initiales qui utilisaient Y2H, des contrôles appropriés pour les faux positifs (par exemple, lorsque DB-X active le gène rapporteur sans la présence d'AD-Y) n'étaient souvent pas effectués, conduisant à un taux de faux positifs plus élevé que la normale. Un cadre empirique doit être mis en place pour contrôler ces faux positifs. Les limitations de la couverture inférieure des protéines membranaires ont été surmontées par l'émergence de variantes à deux hybrides de levure, telles que le double hybride de levure à membrane (MYTH) et le système split-ubiquitine, qui ne se limitent pas aux interactions qui se produisent dans le noyau ; et, le système bactérien à deux hybrides, réalisé dans des bactéries ;

Principe de la purification par affinité en tandem

Purification par affinité couplée à la spectrométrie de masse

La purification par affinité couplée à la spectrométrie de masse détecte principalement les interactions stables et indique ainsi mieux les PPI in vivo fonctionnels. Cette méthode commence par la purification de la protéine marquée, qui est exprimée dans la cellule généralement à des concentrations in vivo , et de ses protéines interagissant (purification par affinité). L'une des méthodes les plus avantageuses et les plus largement utilisées pour purifier les protéines avec un fond contaminant très faible est la purification par affinité en tandem , développée par Bertrand Seraphin et Matthias Mann et leurs collègues respectifs. Les IPP peuvent ensuite être analysés quantitativement et qualitativement par spectrométrie de masse en utilisant différentes méthodes : incorporation chimique, incorporation biologique ou métabolique (SILAC), et méthodes sans marqueur. De plus, la théorie des réseaux a été utilisée pour étudier l'ensemble des interactions protéine-protéine identifiées dans les cellules.

Réseau de protéines programmable d'acide nucléique (NAPPA)

Ce système a été développé pour la première fois par LaBaer et ses collègues en 2004 en utilisant un système de transcription et de traduction in vitro. Ils utilisent une matrice d'ADN codant pour le gène d'intérêt fusionné avec la protéine GST, et il a été immobilisé dans la surface solide. L'anticorps anti-GST et l'ADN plasmidique biotinylé ont été liés dans une lame revêtue d'aminopropyltriéthoxysilane (APTES). La BSA peut améliorer l'efficacité de liaison de l'ADN. L'ADN plasmidique biotinylé était lié par l'avidine. Une nouvelle protéine a été synthétisée en utilisant un système d'expression acellulaire, c'est-à-dire un lysat de réticulocytes de lapin (RRL), puis la nouvelle protéine a été capturée par un anticorps anti-GST lié sur la lame. Pour tester l'interaction protéine-protéine, l'ADNc de la protéine ciblée et l'ADNc de la protéine d'interrogation ont été immobilisés dans une même lame revêtue. En utilisant un système de transcription et de traduction in vitro, la protéine ciblée et la protéine de requête ont été synthétisées par le même extrait. La protéine ciblée a été liée à la puce par un anticorps enrobé dans la lame et la protéine d'interrogation a été utilisée pour sonder la puce. La protéine de requête a été marquée avec l'épitope de l'hémagglutinine (HA). Ainsi, l'interaction entre les deux protéines a été visualisée avec l'anticorps contre HA.

Complémentation intragénique

Lorsque plusieurs copies d'un polypeptide codé par un gène forment un complexe, cette structure protéique est appelée multimère. Lorsqu'un multimère est formé à partir de polypeptides produits par deux allèles mutants différents d'un gène particulier, le multimère mixte peut présenter une activité fonctionnelle supérieure à celle des multimères non mélangés formés par chacun des mutants seuls. Dans un tel cas, le phénomène est appelé complémentation intragénique (également appelée complémentation inter-allélique). La complémentation intragénique a été démontrée dans de nombreux gènes différents dans une variété d'organismes, y compris les champignons Neurospora crassa , Saccharomyces cerevisiae et Schizosaccharomyces pombe ; la bactérie Salmonella typhimurium ; le virus bactériophage T4 , un virus à ARN et les humains. Dans de telles études, de nombreuses mutations défectueuses dans le même gène ont souvent été isolées et cartographiées dans un ordre linéaire sur la base de fréquences de recombinaison pour former une carte génétique du gène. Séparément, les mutants ont été testés en combinaisons par paires pour mesurer la complémentation. Une analyse des résultats de telles études a conduit à la conclusion que la complémentation intragénique, en général, résulte de l'interaction de monomères polypeptidiques différemment défectueux pour former un multimère. Les gènes qui codent pour des polypeptides formant des multimères semblent être courants. Une interprétation des données est que les monomères polypeptidiques sont souvent alignés dans le multimère de telle sorte que les polypeptides mutants défectueux sur des sites proches de la carte génétique ont tendance à former un multimère mixte qui fonctionne mal, tandis que les polypeptides mutants défectueux sur des sites distants ont tendance à former un multimère mixte qui fonctionne plus efficacement. L'interaction directe de deux protéines naissantes émergeant des ribosomes voisins semble être un mécanisme général pour la formation d'homo-oligomères (multimères). Des centaines d'oligomères protéiques ont été identifiés qui s'assemblent dans les cellules humaines par une telle interaction. La forme d'interaction la plus répandue se situe entre les régions N-terminales des protéines en interaction. La formation de dimères semble pouvoir se produire indépendamment des machines d'assemblage dédiées. Les forces intermoléculaires probablement responsables de l'auto-reconnaissance et de la formation de multimères ont été discutées par Jehle.

Autres méthodes potentielles

Diverses techniques pour identifier les IPP ont émergé avec la progression de la technologie. Ceux-ci incluent la co-immunoprécipitation, les puces à protéines , l' ultracentrifugation analytique , la diffusion de la lumière , la spectroscopie de fluorescence , la cartographie d'interactomes mammifères basée sur la luminescence (LUMIER), les systèmes de transfert d'énergie de résonance, le piège d'interaction protéine-protéine de mammifère, les biosurfaces électro-commutables , la complémentation protéine-fragment dosage , ainsi que des mesures sans marqueur en temps réel par résonance plasmonique de surface et calorimétrie .

Méthodes de calcul

Protocole d' exploration de texte .

Prédiction informatique des interactions protéine-protéine

La détection expérimentale et la caractérisation des IPP demandent beaucoup de travail et de temps. Cependant, de nombreux PPI peuvent également être prédits par calcul, en utilisant généralement des données expérimentales comme point de départ. Cependant, des méthodes ont également été développées qui permettent la prédiction de PPI de novo, c'est-à-dire sans preuve préalable de ces interactions.

Méthodes de contexte génomique

La méthode Rosetta Stone ou Domain Fusion est basée sur l'hypothèse que les protéines en interaction sont parfois fusionnées en une seule protéine dans un autre génome. Par conséquent, nous pouvons prédire si deux protéines peuvent interagir en déterminant si elles ont chacune une similarité de séquence non chevauchante avec une région d'une séquence protéique unique dans un autre génome.

La méthode Conserved Neighborhood est basée sur l'hypothèse que si les gènes codant pour deux protéines sont voisins sur un chromosome dans de nombreux génomes, alors ils sont probablement fonctionnellement liés (et possiblement en interaction physique) .

La méthode du profil phylogénétique est basée sur l'hypothèse que si deux protéines ou plus sont présentes ou absentes simultanément dans plusieurs génomes, alors elles sont probablement fonctionnellement liées. Par conséquent, des protéines potentiellement interactives peuvent être identifiées en déterminant la présence ou l'absence de gènes dans de nombreux génomes et en sélectionnant les gènes qui sont toujours présents ou absents ensemble.

Méthodes d'exploration de texte

Les informations accessibles au public à partir de documents biomédicaux sont facilement accessibles via Internet et deviennent une ressource puissante pour collecter les interactions protéine-protéine (PPI), la prédiction PPI et l'amarrage des protéines connues. L'exploration de texte est beaucoup moins coûteuse et chronophage que d'autres techniques à haut débit. Actuellement, les méthodes d'exploration de texte détectent généralement les relations binaires entre les protéines en interaction à partir de phrases individuelles à l'aide d' approches d' extraction d'informations et d' apprentissage automatique basées sur des règles/modèles . Une grande variété d'applications d'exploration de texte pour l'extraction et/ou la prédiction de PPI sont disponibles pour un usage public, ainsi que des référentiels qui stockent souvent des PPI validés manuellement et/ou prédits par calcul. L'exploration de texte peut être mise en œuvre en deux étapes : la récupération d'informations , où les textes contenant les noms de l'une ou des deux protéines en interaction sont récupérés et l' extraction d'informations, où les informations ciblées (protéines en interaction, résidus impliqués, types d'interaction, etc.) sont extraites.

Il existe également des études utilisant le profilage phylogénétique , en basant leurs fonctionnalités sur la théorie selon laquelle les protéines impliquées dans des voies communes co-évoluent de manière corrélée entre les espèces. Certaines méthodologies d'exploration de texte plus complexes utilisent des techniques avancées de traitement du langage naturel (NLP) et construisent des réseaux de connaissances (par exemple, en considérant les noms de gènes comme des nœuds et les verbes comme des arêtes). D'autres développements impliquent des méthodes de noyau pour prédire les interactions entre les protéines.

Méthodes d'apprentissage automatique

Hiérarchie de classification des techniques d'apprentissage automatique.

De nombreuses méthodes de calcul ont été suggérées et examinées pour prédire les interactions protéine-protéine. Les approches de prédiction peuvent être regroupées en catégories basées sur des preuves prédictives : séquence protéique, génomique comparative, domaines protéiques, structure tertiaire des protéines et topologie du réseau d'interaction. La construction d'un ensemble positif (paires de protéines en interaction connues) et d'un ensemble négatif (paires de protéines sans interaction) est nécessaire pour le développement d'un modèle de prédiction informatique. Les modèles de prédiction utilisant des techniques d'apprentissage automatique peuvent être globalement classés en deux groupes principaux : supervisés et non supervisés, sur la base de l'étiquetage des variables d'entrée en fonction du résultat attendu.

En 2006, la forêt aléatoire , un exemple de technique supervisée, s'est avérée être la méthode d'apprentissage automatique la plus efficace pour la prédiction des interactions entre protéines. De telles méthodes ont été appliquées pour découvrir les interactions protéiques sur l'interactome humain, en particulier l'interactome des protéines membranaires et l'interactome des protéines associées à la schizophrénie.

À partir de 2020, un modèle utilisant des classes de grappes de résidus (RCC), construit à partir des bases de données 3DID et Negatome, a donné lieu à 96 à 99 % d'instances correctement classées d'interactions protéine-protéine. Les RCC sont un espace vectoriel informatique qui imite l'espace de repliement des protéines et comprend tous les ensembles de résidus simultanément contactés, qui peuvent être utilisés pour analyser la relation structure-fonction et l'évolution des protéines.

Bases de données

L'identification à grande échelle des IPP a généré des centaines de milliers d'interactions, qui ont été rassemblées dans des bases de données biologiques spécialisées qui sont continuellement mises à jour afin de fournir des interactomes complets . La première de ces bases de données était la Database of Interacting Proteins (DIP) .

Les bases de données primaires collectent des informations sur les IPP publiés dont l'existence a été prouvée via des méthodes expérimentales à petite ou à grande échelle. Exemples : DIP , base de données du réseau d'interactions biomoléculaires (BIND), référentiel général biologique pour les ensembles de données d'interaction ( BioGRID ), base de données de référence sur les protéines humaines (HPRD), base de données d'interactions moléculaires IntAct, base de données d'interactions moléculaires (MINT), ressource d'interaction protéique MIPS sur la levure (MIPS) -MPact) et MIPS Mammalian Protein-Protein Interaction Database (MIPS-MPPI).<

Les méta-bases de données résultent normalement de l'intégration d'informations de bases de données primaires, mais peuvent également collecter des données originales.

Les bases de données de prédiction comprennent de nombreux PPI qui sont prédits à l'aide de plusieurs techniques (article principal). Exemples : base de données de prédiction d'interaction protéine-protéine humaine (PIP), base de données d'interaction interlogue (I2D), interactions protéine-protéine connues et prédites (STRING-db) et Unified Human Interactive (UniHI).

Les méthodes de calcul susmentionnées dépendent toutes de bases de données sources dont les données peuvent être extrapolées pour prédire de nouvelles interactions protéine-protéine . La couverture diffère considérablement d'une base de données à l'autre. En général, les bases de données primaires ont le moins d'interactions protéiques totales enregistrées car elles n'intègrent pas les données de plusieurs autres bases de données, tandis que les bases de données de prédiction en ont le plus car elles incluent d'autres formes de preuves en plus des données expérimentales. Par exemple, la base de données principale IntAct a 572 063 interactions, la méta-base de données APID a 678 000 interactions et la base de données prédictive STRING a 25 914 693 interactions. Cependant, il est important de noter que certaines des interactions dans la base de données STRING ne sont prédites que par des méthodes de calcul telles que le contexte génomique et ne sont pas vérifiées expérimentalement.

Réseaux d'interaction

IPP de la schizophrénie.

Les informations trouvées dans les bases de données PPI soutiennent la construction de réseaux d'interaction. Bien que le réseau PPI d'une protéine de requête donnée puisse être représenté dans les manuels, les diagrammes des PPI de cellules entières sont franchement complexes et difficiles à générer.

Un exemple de carte d'interaction moléculaire produite manuellement est la carte de 1999 de Kurt Kohn sur le contrôle du cycle cellulaire. S'appuyant sur la carte de Kohn, Schwikowski et al. en 2000, a publié un article sur les IPP dans la levure, liant 1 548 protéines en interaction déterminées par criblage à deux hybrides. Ils ont utilisé une méthode de dessin de graphique en couches pour trouver un placement initial des nœuds, puis ont amélioré la disposition à l'aide d'un algorithme basé sur la force.

Des outils bioinformatiques ont été développés pour simplifier la tâche difficile de visualiser les réseaux d'interaction moléculaire et les compléter avec d'autres types de données. Par exemple, Cytoscape est un logiciel open source largement utilisé et de nombreux plugins sont actuellement disponibles. Le logiciel Pajek est avantageux pour la visualisation et l'analyse de très grands réseaux.

L'identification de modules fonctionnels dans les réseaux PPI est un défi important en bioinformatique. Les modules fonctionnels désignent un ensemble de protéines fortement connectées les unes aux autres dans le réseau PPI. C'est un problème presque similaire à celui de la détection de communauté dans les réseaux sociaux . Il existe certaines méthodes telles que les modules Jactive et MoBaS. Les modules Jactive intègrent le réseau PPI et les données d' expression génique alors que MoBaS intègrent le réseau PPI et les études d'association à l'échelle du génome .

Les relations protéine-protéine sont souvent le résultat de plusieurs types d'interactions ou sont déduites de différentes approches, notamment la colocalisation, l'interaction directe, l'interaction génétique suppressive, l'interaction génétique additive, l'association physique et d'autres associations.

Réseaux d'interaction signés

Les interactions protéine-protéine sont affichées dans un réseau signé qui décrit le type d'interactions qui ont lieu

Les interactions protéine-protéine aboutissent souvent à ce que l'une des protéines interagissant soit « activée » ou « réprimée ». De tels effets peuvent être indiqués dans un réseau PPI par des "signes" (par exemple "activation" ou "inhibition"). Bien que de tels attributs aient été ajoutés aux réseaux depuis longtemps, Vinayagam et al. (2014) ont inventé le terme de réseau signé pour eux. Les réseaux signés sont souvent exprimés en qualifiant l'interaction de positive ou de négative. Une interaction positive est une interaction dans laquelle l'interaction entraîne l'activation de l'une des protéines. A l'inverse, une interaction négative indique qu'une des protéines est inactivée.

Les réseaux d'interaction protéine-protéine sont souvent construits à la suite d'expériences de laboratoire telles que des criblages à deux hybrides de levure ou des techniques de purification par affinité et de spectrométrie de masse ultérieures. Cependant ces méthodes ne fournissent pas la couche d'information nécessaire pour déterminer quel type d'interaction est présent afin de pouvoir attribuer des signes aux schémas de réseau.

Écrans d'interférence ARN

Les criblages d' interférence ARN (ARNi) (répression de protéines individuelles entre la transcription et la traduction) sont une méthode qui peut être utilisée pour fournir des signes aux interactions protéine-protéine. Les protéines individuelles sont réprimées et les phénotypes résultants sont analysés. Une relation phénotypique de corrélation (c'est-à-dire où l'inhibition de l'une ou l'autre des deux protéines entraîne le même phénotype) indique une relation positive ou activatrice. Les phénotypes qui ne sont pas corrélés (c'est-à-dire où l'inhibition de l'une ou l'autre des deux protéines entraîne deux phénotypes différents) indiquent une relation négative ou inactivante. Si la protéine A dépend de la protéine B pour l'activation, l'inhibition de la protéine A ou B entraînera la perte par une cellule du service fourni par la protéine A et les phénotypes seront les mêmes pour l'inhibition de A ou B. Si , cependant, la protéine A est inactivée par la protéine B, alors les phénotypes différeront en fonction de la protéine inhibée (inhibe la protéine B et elle ne peut plus inactiver la protéine A en laissant A active mais inactive A et il n'y a rien à activer pour B puisque A est inactif et le phénotype change). Plusieurs criblages d' ARNi doivent être effectués afin de désigner de manière fiable un signe pour une interaction protéine-protéine donnée. Vinayagam et al. qui ont conçu cette technique déclarent qu'un minimum de neuf criblages d' ARNi est requis avec une confiance croissante au fur et à mesure que l'on effectue plus de criblages.

Comme cibles thérapeutiques

La modulation du PPI est un défi et reçoit une attention croissante de la communauté scientifique. Plusieurs propriétés du PPI, telles que les sites allostériques et les points chauds, ont été incorporées dans les stratégies de conception de médicaments. La pertinence des IPP en tant que cibles thérapeutiques putatives pour le développement de nouveaux traitements est particulièrement évidente dans le cancer, avec plusieurs essais cliniques en cours dans ce domaine. Le consensus entre ces cibles prometteuses se manifeste néanmoins dans les médicaments déjà disponibles sur le marché pour traiter une multitude de maladies. Des exemples sont le Tirobifan, inhibiteur de la glycoprotéine IIb/IIIa, utilisé comme médicament cardiovasculaire, et le Maraviroc, inhibiteur de l'interaction CCR5-gp120, utilisé comme médicament anti-VIH. Récemment, Amit Jaiswal et d'autres ont pu développer 30 peptides en utilisant des études d'interaction protéine-protéine pour inhiber le recrutement de la télomérase vers les télomères.

Voir également

Les références

Lectures complémentaires

Liens externes