Pfam - Pfam

Pfam
Pfam logo.gif
Teneur
La description La base de données Pfam fournit des alignements et des modèles de Markov cachés pour les domaines protéiques.
Types de données
capturés
Familles de protéines
Organismes tous
Contact
Centre de recherche EBI
Citation principale PMID  19920124
Accès
Format des données Format de Stockholm
Site Internet pfam .xfam .org
URL de téléchargement FTP 1 FTP 2
Divers
Licence Licence publique générale limitée GNU
Version 33.1

Entités pouvant être mises en signet
Oui

Pfam est une base de données de familles de protéines qui inclut leurs annotations et plusieurs alignements de séquences générés à l'aide de modèles Markov cachés . La version la plus récente, Pfam 34.0, est sortie en mars 2021 et contient 19 179 familles.

Les usages

L'objectif général de la base de données Pfam est de fournir une classification complète et précise des familles et des domaines de protéines. À l'origine, la raison d'être de la création de la base de données était d'avoir une méthode semi-automatisée de conservation des informations sur les familles de protéines connues afin d'améliorer l'efficacité de l'annotation des génomes. La classification Pfam des familles de protéines a été largement adoptée par les biologistes en raison de sa large couverture des protéines et des conventions de dénomination sensées.

Il est utilisé par les biologistes expérimentaux recherchant des protéines spécifiques, par les biologistes structurels pour identifier de nouvelles cibles pour la détermination de la structure, par les biologistes computationnels pour organiser des séquences et par les biologistes évolutionnistes retraçant les origines des protéines. Les premiers projets de génome, tels que l'humain et la mouche, ont largement utilisé Pfam pour l'annotation fonctionnelle des données génomiques.

Le site Web de Pfam permet aux utilisateurs de soumettre des séquences de protéines ou d'ADN pour rechercher des correspondances avec des familles dans la base de données. Si l'ADN est soumis, une traduction de six trames est effectuée, puis chaque trame est recherchée. Plutôt que d'effectuer une recherche BLAST typique , Pfam utilise des modèles Markov cachés de profil , qui donnent plus de poids aux correspondances sur des sites conservés , permettant une meilleure détection d'homologie à distance, les rendant plus adaptés à l'annotation de génomes d'organismes sans parents proches bien annotés.

Pfam a également été utilisé dans la création d'autres ressources telles que iPfam , qui répertorie les interactions domaine-domaine au sein et entre les protéines, sur la base des informations contenues dans les bases de données de structures et de la cartographie des domaines Pfam sur ces structures.

Caractéristiques

Pour chaque famille de Pfam on peut :

  • Voir une description de la famille
  • Regardez plusieurs alignements
  • Voir les architectures de domaines protéiques
  • Examiner la répartition des espèces
  • Suivez les liens vers d'autres bases de données
  • Voir les structures protéiques connues

Les entrées peuvent être de plusieurs types : famille, domaine, reprise ou motif. La famille est la classe par défaut, ce qui indique simplement que les membres sont liés. Les domaines sont définis comme une unité structurelle autonome ou une unité de séquence réutilisable qui peut être trouvée dans plusieurs contextes protéiques. Les répétitions ne sont généralement pas stables isolément, mais sont généralement nécessaires pour former des répétitions en tandem afin de former un domaine ou une structure étendue. Les motifs sont généralement des unités de séquence plus courtes trouvées en dehors des domaines globulaires.

Les descriptions des familles Pfam sont gérées par le grand public via Wikipédia (voir Historique ).

À partir de la version 29.0, 76,1% des séquences protéiques dans UniproKB correspondaient à au moins un domaine Pfam.

Création de nouvelles entrées

Les nouvelles familles proviennent de diverses sources, principalement l' APB et l'analyse de protéomes complets pour trouver des gènes sans impact Pfam.

Pour chaque famille, un sous-ensemble représentatif de séquences est aligné dans un alignement de graines de haute qualité. Les séquences pour l'alignement des graines proviennent principalement de pfamseq (une base de données non redondante de protéomes de référence) avec quelques compléments d' UniprotKB . Cet alignement de départ est ensuite utilisé pour construire un modèle de Markov caché de profil à l'aide de HMMER . Ce HMM est ensuite recherché dans des bases de données de séquences, et tous les résultats qui atteignent un seuil de collecte organisé sont classés comme membres de la famille des protéines. La collection de membres résultante est ensuite alignée sur le profil HMM pour générer un alignement complet.

Pour chaque famille, un seuil de collecte organisé manuellement est attribué qui maximise le nombre de vraies correspondances avec la famille tout en excluant les fausses correspondances positives. Les faux positifs sont estimés en observant les chevauchements entre les hits de la famille Pfam qui ne sont pas du même clan. Ce seuil est utilisé pour évaluer si une correspondance avec une famille HMM doit être incluse dans la famille de protéines. À chaque mise à jour de Pfam, les seuils de collecte sont réévalués pour éviter les chevauchements entre les familles nouvelles et existantes.

Domaines de fonction inconnue

Les domaines de fonction inconnue (DUF) représentent une fraction croissante de la base de données Pfam. Les familles sont ainsi nommées parce qu'elles se sont avérées être conservées à travers les espèces, mais jouent un rôle inconnu. Chaque DUF nouvellement ajouté est nommé par ordre d'ajout. Les noms de ces entrées sont mis à jour au fur et à mesure que leurs fonctions sont identifiées. Normalement, lorsque la fonction d'au moins une protéine appartenant à un DUF a été déterminée, la fonction de l'ensemble du DUF est mise à jour et la famille est renommée. Certaines familles nommées sont encore des domaines de fonction inconnue, qui portent le nom d'une protéine représentative, par exemple YbbR. On s'attend à ce que le nombre de DUF continue d'augmenter à mesure que des séquences conservées de fonction inconnue continuent d'être identifiées dans les données de séquence. On s'attend à ce que les DUF finissent par être plus nombreux que les familles de fonctions connues.

Clans

Au fil du temps, la couverture des séquences et des résidus a augmenté, et à mesure que les familles se sont développées, des relations plus évolutives ont été découvertes, permettant le regroupement des familles en clans. Les clans ont été introduits pour la première fois dans la base de données Pfam en 2005. Ce sont des regroupements de familles apparentées qui partagent une même origine évolutive, comme le confirment les comparaisons structurelles, fonctionnelles, de séquences et HMM. À partir de la version 29.0, environ un tiers des familles de protéines appartenaient à un clan. Cette portion est passée à environ les trois quarts en 2019 (version 32.0).

Pour identifier les relations claniques possibles, les conservateurs de Pfam utilisent le programme Simple Comparison Of Outputs (SCOOP) ainsi que les informations de la base de données ECOD. ECOD est une base de données hiérarchique semi-automatisée de familles de protéines avec des structures connues, avec des familles qui correspondent facilement aux entrées Pfam et des niveaux d'homologie qui correspondent généralement aux clans Pfam.

Histoire

Pfam a été fondée en 1995 par Erik Sonhammer, Sean Eddy et Richard Durbin en tant que collection de domaines protéiques courants pouvant être utilisés pour annoter les gènes codant pour les protéines d'animaux multicellulaires. L'un de ses principaux objectifs au départ était d'aider à l'annotation du génome de C. elegans . Le projet était en partie motivé par l'affirmation dans « Mille familles pour le biologiste moléculaire » de Cyrus Chothia qu'il y avait environ 1 500 familles différentes de protéines et que la majorité des protéines appartenaient à seulement 1 000 d'entre elles. Contrairement à cette affirmation, la base de données Pfam contient actuellement 16 306 entrées correspondant à des domaines et familles de protéines uniques. Cependant, beaucoup de ces familles contiennent des similitudes structurelles et fonctionnelles indiquant une origine évolutive partagée (voir Clans ).

Un point de différence majeur entre Pfam et d'autres bases de données au moment de sa création était l'utilisation de deux types d'alignement pour les entrées : un alignement de graine plus petit et vérifié manuellement, ainsi qu'un alignement complet construit en alignant des séquences sur un modèle de Markov caché de profil construit à partir de l'alignement des semences. Cet alignement de graines plus petit était plus facile à mettre à jour à mesure que de nouvelles versions de bases de données de séquences sortaient, et représentait donc une solution prometteuse au dilemme de la mise à jour de la base de données alors que le séquençage du génome devenait plus efficace et que davantage de données devaient être traitées au fil du temps. . Une autre amélioration de la vitesse de mise à jour de la base de données est apparue dans la version 24.0, avec l'introduction de HMMER3, qui est environ 100 fois plus rapide que HMMER2 et plus sensible.

Étant donné que les entrées dans Pfam-A ne couvrent pas toutes les protéines connues, un supplément généré automatiquement a été fourni appelé Pfam-B. Pfam-B contenait un grand nombre de petites familles dérivées de clusters produits par un algorithme appelé ADDA. Bien que de moindre qualité, les familles Pfam-B pourraient être utiles lorsqu'aucune famille Pfam-A n'était trouvée. Pfam-B a été abandonné à partir de la version 28.0, puis réintroduit dans la version 33.1 à l'aide d'un nouvel algorithme de clustering, MMSeqs2.

Pfam était initialement hébergé sur trois sites miroirs à travers le monde pour préserver la redondance. Cependant, entre 2012 et 2014, la ressource Pfam a été déplacée vers EMBL-EBI , ce qui a permis d'héberger le site Web à partir d'un domaine (xfam.org), en utilisant des centres de données indépendants en double. Cela a permis une meilleure centralisation des mises à jour et un regroupement avec d'autres projets Xfam tels que Rfam , TreeFam , iPfam et autres, tout en conservant la résilience critique fournie par l'hébergement à partir de plusieurs centres.

Pfam a subi une réorganisation substantielle au cours des deux dernières années pour réduire davantage l'effort manuel impliqué dans la conservation et permettre des mises à jour plus fréquentes.

Commissariat communautaire

La conservation d'une si grande base de données a posé des problèmes en termes de suivi du volume de nouvelles familles et d'informations mises à jour qui devaient être ajoutées. Pour accélérer les publications de la base de données, les développeurs ont lancé un certain nombre d'initiatives pour permettre une plus grande implication de la communauté dans la gestion de la base de données.

Une étape critique dans l'amélioration du rythme de mise à jour et d'amélioration des entrées a été d'ouvrir l'annotation fonctionnelle des domaines Pfam à la communauté Wikipedia dans la version 26.0. Pour les entrées qui avaient déjà une entrée Wikipedia, celle-ci était liée à la page Pfam, et pour celles qui n'en avaient pas, la communauté a été invitée à en créer une et à en informer les conservateurs, afin qu'elle soit liée. Il est prévu que, bien que l'implication de la communauté améliorera grandement le niveau d'annotation de ces familles, certaines resteront insuffisamment notables pour être incluses dans Wikipédia, auquel cas elles conserveront leur description Pfam d'origine. Certains articles de Wikipédia couvrent plusieurs familles, comme l' article Zinc finger . Une procédure automatisée de génération d'articles basée sur les données InterPro et Pfam a également été mise en place, qui remplit une page avec des informations et des liens vers des bases de données ainsi que des images disponibles, puis une fois qu'un article a été révisé par un conservateur, il est déplacé de la Sandbox vers Wikipédia proprement dit. Afin de se prémunir contre le vandalisme des articles, chaque révision de Wikipédia est examinée par des conservateurs avant d'être affichée sur le site Web de Pfam. Cependant, presque tous les cas de vandalisme ont été corrigés par la communauté avant qu'ils n'atteignent les conservateurs.

Pfam est dirigé par un consortium international de trois groupes. Dans les versions précédentes de Pfam, les entrées de famille ne pouvaient être modifiées que sur le site de Cambridge, au Royaume-Uni, limitant la capacité des membres du consortium à contribuer à la conservation du site. Dans la version 26.0, les développeurs sont passés à un nouveau système qui permettait aux utilisateurs enregistrés partout dans le monde d'ajouter ou de modifier les familles Pfam.

Voir également

  • Liste des bases de données biologiques
  • PANDIT , une base de données biologique couvrant les domaines protéiques
  • Base de données Rfam pour les familles d'ARN non codantes conservées
  • TreeFam Base de données d'arbres phylogénétiques de gènes animaux
  • Base de données TrEMBL réalisant une annotation automatisée de séquences de protéines
  • InterPro Intégration de bases de données de domaines protéiques et de familles de protéines
  • PDBfam — affectation complète des domaines Pfam aux séquences de la Protein Data Bank (PDB)

Les références

Liens externes

  • Pfam - Base de données sur les familles de protéines chez EBI UK
  • iPfam - Interactions des domaines Pfam dans PDB
  • PDBfam - Affectations de domaines Pfam à des séquences dans le PDB au Fox Chase Cancer Center USA
  • PlantTFDB - Les règles d'attribution des familles pour les facteurs de transcription des plantes basées sur les domaines Pfam