Archive de lecture de séquence - Sequence Read Archive

Archive de lecture de séquence
Base de données.png
Teneur
La description Données BAM des séquences FASTQ
Organismes tous
Contact
Centre de recherche Centre national d'information sur la biotechnologie
Institut européen de bioinformatique
Banque de données ADN du Japon
Accès
Site Internet www .ncbi .nlm .nih .gov /sra /
www .ebi .ac .uk /ena /
trace .ddbj .nig .ac .jp /dra /index _e .html

Le Sequence Read Archive ( SRA , anciennement connu sous le nom de Short Read Archive ) est une base de données bioinformatique qui fournit un référentiel public pour les données de séquençage de l'ADN , en particulier les « lectures courtes » générées par le séquençage à haut débit , qui sont généralement inférieures à 1 000 paires de bases. en longueur. Les archives font partie de l' International Nucleotide Sequence Database Collaboration (INSDC) et fonctionnent en collaboration entre le NCBI, l' European Bioinformatics Institute (EBI) et la DNA Data Bank of Japan (DDBJ).

L'archive a été créée par le National Center for Biotechnology Information (NCBI) en 2007 afin de fournir un référentiel pour les données produites par les études RNA-Seq et ChIP-Seq ainsi que des études à grande échelle, y compris le Human Microbiome Project et les 1000 génomes. Projet . Initialement appelé Short Read Archive, le nom a été modifié en prévision des futures technologies de séquençage capables de produire des lectures de séquences plus longues.

Le SRA a connu une croissance rapide depuis 2008. En 2011, la plupart des données de séquence SRA ont été produites par l' analyseur de génome d' Illumina .

Le volume de données déposées dans l'archive de lecture de séquence a augmenté rapidement. En septembre 2010, 65 % de la SRA était constituée de séquences génomiques humaines , et 16 % supplémentaires concernaient des lectures de séquences de métagénome humain . Une grande partie de ces données ont été déposées dans le cadre du projet 1000 génomes. En juin 2011, les données contenues dans le SRA dépassaient 100 térabases d'ADN en volume.

Le format de données préféré pour les fichiers soumis à la SRA est le format BAM , qui est capable de stocker à la fois des lectures alignées et non alignées. En interne, la SRA s'appuie sur la boîte à outils NCBI SRA, utilisée dans les trois bases de données des membres de l'INSDC, pour fournir une compression de données flexible , un accès API et une conversion vers d'autres formats tels que FASTQ .

Le NCBI a annoncé son intention de fermer le NCBI SRA en février 2011 en raison de la réduction du financement. Cependant, EBI et DDBJ ont annoncé qu'ils continueraient à soutenir la SRA. En octobre 2011, le NCBI a annoncé la poursuite du financement de la SRA.

Le dépôt de données dans le SRA est mandaté par la plupart des agences de financement et des revues en libre accès . Les revues du Nature Publishing Group exigent que les données de séquençage de l'ADN et de l'ARN soient mises à disposition via la SRA.

Voir également

Les références

Liens externes