Technologies transcriptomiques - Transcriptomics technologies

Les technologies de transcriptomique sont les techniques utilisées pour étudier le transcriptome d' un organisme , la somme de tous ses transcrits d'ARN . Le contenu informationnel d'un organisme est enregistré dans l'ADN de son génome et exprimé par transcription . Ici, l' ARNm sert de molécule intermédiaire transitoire dans le réseau d'information, tandis que les ARN non codants remplissent diverses fonctions supplémentaires. Un transcriptome capture un instantané dans le temps du total des transcrits présents dans une cellule . Les technologies de transcriptomique fournissent un aperçu général des processus cellulaires actifs et dormants. Un défi majeur en biologie moléculaire réside dans la compréhension de la manière dont un même génome peut donner naissance à différents types cellulaires et comment l'expression des gènes est régulée.

Les premières tentatives d'étude de transcriptomes entiers ont commencé au début des années 1990. Les progrès technologiques ultérieurs depuis la fin des années 1990 ont transformé à plusieurs reprises le domaine et fait de la transcriptomique une discipline répandue dans les sciences biologiques. Il existe deux techniques contemporaines clés dans le domaine : les microarrays , qui quantifient un ensemble de séquences prédéterminées, et RNA-Seq , qui utilise le séquençage à haut débit pour enregistrer tous les transcrits. À mesure que la technologie s'améliorait, le volume de données produites par chaque expérience de transcriptome augmentait. En conséquence, les méthodes d'analyse de données ont été régulièrement adaptées pour analyser de manière plus précise et efficace des volumes de données de plus en plus importants. Les bases de données de transcriptomes se sont développées et ont gagné en utilité au fur et à mesure que de plus en plus de transcriptomes sont collectés et partagés par les chercheurs. Il serait presque impossible d'interpréter les informations contenues dans un transcriptome sans le contexte des expériences précédentes.

Mesure de l'expression d'un organisme de gènes dans différents tissus ou conditions , ou à des moments différents, donne des informations sur la façon dont les gènes sont régulés et révèle les détails de la biologie d'un organisme. Il peut également être utilisé pour déduire les fonctions de gènes précédemment non annotés . L'analyse du transcriptome a permis d'étudier comment l'expression des gènes change dans différents organismes et a joué un rôle déterminant dans la compréhension des maladies humaines . Une analyse de l'expression génique dans son intégralité permet de détecter de larges tendances coordonnées qui ne peuvent pas être discernées par des tests plus ciblés .

Histoire

Utilisation de la méthode transcriptomique au fil du temps. Articles publiés faisant référence à l'ARN-Seq (noir), à la puce à ARN (rouge), à ​​l'étiquette de séquence exprimée (bleu), à l'affichage différentiel numérique (vert) et à l'analyse série/cap de l'expression génique (jaune) depuis 1990.

La transcriptomique s'est caractérisée par le développement de nouvelles techniques qui ont redéfini ce qui est possible tous les dix ans environ et rendu obsolètes les technologies précédentes. La première tentative de capture d'un transcriptome humain partiel a été publiée en 1991 et a rapporté 609 séquences d' ARNm provenant du cerveau humain . En 2008, deux transcriptomes humains, composés de millions de séquences dérivées de transcriptions couvrant 16 000 gènes, ont été publiés, et en 2015, des transcriptomes avaient été publiés pour des centaines d'individus. Des transcriptomes de différents états pathologiques , de tissus ou même de cellules individuelles sont désormais générés de manière routinière. Cette explosion de la transcriptomique a été entraînée par le développement rapide de nouvelles technologies avec une sensibilité et une économie améliorées.

Avant la transcriptomique

Des études de transcriptions individuelles étaient en cours plusieurs décennies avant que des approches transcriptomiques ne soient disponibles. Des bibliothèques de transcrits d'ARNm de papillon à soie ont été collectées et converties en ADN complémentaire (ADNc) pour le stockage à l'aide de la transcriptase inverse à la fin des années 1970. Dans les années 1980, le séquençage à faible débit utilisant la méthode de Sanger a été utilisé pour séquencer des transcrits aléatoires, produisant des étiquettes de séquence exprimées (EST). La méthode de séquençage de Sanger était prédominante jusqu'à l'avènement des méthodes à haut débit comme le séquençage par synthèse (Solexa/Illumina). Les EST ont pris de l' importance au cours des années 1990 en tant que méthode efficace pour déterminer le contenu génétique d' un organisme sans séquencer le génome entier . Les quantités de transcrits individuels ont été quantifiées à l' aide de méthodes de Northern blot , de matrices de membranes en nylon et plus tard de méthodes de PCR quantitative à transcriptase inverse (RT-qPCR), mais ces méthodes sont laborieuses et ne peuvent capturer qu'une minuscule sous-section d'un transcriptome. Par conséquent, la manière dont un transcriptome dans son ensemble est exprimé et régulé est restée inconnue jusqu'à ce que des techniques à plus haut débit soient développées.

Premières tentatives

Le mot « transcriptome » a été utilisé pour la première fois dans les années 1990. En 1995, l'une des premières méthodes transcriptomiques basées sur le séquençage a été développée, l' analyse en série de l'expression génique (SAGE), qui fonctionnait par séquençage Sanger de fragments de transcription aléatoires concaténés. Les transcriptions ont été quantifiées en faisant correspondre les fragments à des gènes connus. Une variante de SAGE utilisant des techniques de séquençage à haut débit, appelée analyse numérique de l'expression des gènes, a également été brièvement utilisée. Cependant, ces méthodes ont été largement dépassées par le séquençage à haut débit de transcrits entiers, qui a fourni des informations supplémentaires sur la structure du transcrit telles que les variantes d'épissage .

Développement de techniques contemporaines

Comparaison des méthodes contemporaines
ARN-Seq Microarray
Débit 1 jour à 1 semaine par expérience 1 à 2 jours par expérience
Quantité d'ARN d'entrée Faible ~ 1 ng d' ARN total Élevé ~ 1 g d'ARNm
Intensité du travail Élevé (préparation des échantillons et analyse des données) Meugler
Connaissance préalable Aucun requis, bien qu'une séquence de génome/transcriptome de référence soit utile Le génome/transcriptome de référence est requis pour la conception des sondes
Précision de la quantification ~90 % (limité par la couverture de séquence) >90% (limité par la précision de détection de fluorescence)
Résolution de séquence RNA-Seq peut détecter les SNP et les variantes d'épissage (limité par une précision de séquençage d'environ 99 %) Les puces spécialisées peuvent détecter les variants d'épissage d'ARNm (limité par la conception de la sonde et l'hybridation croisée)
Sensibilité 1 transcrit par million (approximatif, limité par la couverture de séquence) 1 transcrit pour mille (approximatif, limité par détection de fluorescence)
Plage dynamique 100 000:1 (limité par la couverture de séquence) 1 000:1 (limité par la saturation de fluorescence)
Reproductibilité technique >99% >99%

Les techniques contemporaines dominantes, les puces à ADN et l' ARN-Seq , ont été développées au milieu des années 1990 et 2000. Les puces à ADN qui mesurent l'abondance d'un ensemble défini de transcrits via leur hybridation à un réseau de sondes complémentaires ont été publiées pour la première fois en 1995. La technologie des puces à ADN a permis le dosage de milliers de transcrits simultanément et à un coût considérablement réduit par gène et une économie de main-d'œuvre. Les puces à oligonucléotides tachetés et les puces à haute densité Affymetrix étaient la méthode de choix pour le profilage transcriptionnel jusqu'à la fin des années 2000. Au cours de cette période, une gamme de puces à ADN a été produite pour couvrir les gènes connus dans des organismes modèles ou économiquement importants. Les progrès dans la conception et la fabrication des puces ont amélioré la spécificité des sondes et ont permis de tester davantage de gènes sur une seule puce. Les progrès de la détection par fluorescence ont augmenté la sensibilité et la précision des mesures pour les transcrits à faible abondance.

L'ARN-Seq est réalisé par transcription inverse de l'ARN in vitro et séquençage des ADNc résultants . L'abondance du transcrit est dérivée du nombre de comptes de chaque transcrit. La technique a donc été fortement influencée par le développement des technologies de séquençage à haut débit . Le séquençage de signature massivement parallèle (MPSS) était un exemple précoce basé sur la génération de séquences de 16 à 20  pb via une série complexe d' hybridations , et a été utilisé en 2004 pour valider l'expression de dix mille gènes chez Arabidopsis thaliana . Les premiers travaux sur l'ARN-Seq ont été publiés en 2006 avec cent mille transcrits séquencés à l'aide de la technologie 454 . Cette couverture était suffisante pour quantifier l'abondance relative des transcrits. RNA-Seq a commencé à gagner en popularité après 2008, lorsque les nouvelles technologies Solexa/Illumina ont permis d'enregistrer un milliard de séquences de transcrits. Ce rendement permet désormais la quantification et la comparaison de transcriptomes humains.

Collecte de données

La génération de données sur les transcrits d'ARN peut être réalisée via l'un ou l'autre de deux principes principaux : le séquençage de transcrits individuels ( EST ou RNA-Seq) ou l' hybridation de transcrits à un ensemble ordonné de sondes nucléotidiques (microarrays).

Isolement de l'ARN

Toutes les méthodes transcriptomiques nécessitent que l'ARN soit d'abord isolé de l'organisme expérimental avant que les transcrits puissent être enregistrés. Bien que les systèmes biologiques soient incroyablement divers, les techniques d' extraction d'ARN sont largement similaires et impliquent une perturbation mécanique des cellules ou des tissus, une perturbation de la RNase avec des sels chaotropiques , une perturbation des macromolécules et des complexes nucléotidiques, la séparation de l'ARN des biomolécules indésirables, y compris l'ADN, et la concentration de l'ARN. par précipitation à partir d'une solution ou élution à partir d'une matrice solide . L'ARN isolé peut en outre être traité avec de la DNase pour digérer toute trace d'ADN. Il est nécessaire d'enrichir l'ARN messager car les extraits d'ARN totaux sont typiquement de 98% d'ARN ribosomique . L'enrichissement des transcrits peut être effectué par des méthodes d'affinité poly-A ou par épuisement de l'ARN ribosomique à l'aide de sondes spécifiques à la séquence. L'ARN dégradé peut affecter les résultats en aval ; par exemple, l'enrichissement d'ARNm à partir d'échantillons dégradés entraînera l'épuisement des extrémités d'ARNm 5' et un signal inégal sur toute la longueur d'un transcrit. La congélation instantanée des tissus avant l'isolement de l'ARN est typique et des précautions sont prises pour réduire l'exposition aux enzymes RNase une fois l'isolement terminé.

Balises de séquences exprimées

Une étiquette de séquence exprimée (EST) est une courte séquence de nucléotides générée à partir d'un seul transcrit d'ARN. L'ARN est d'abord copié en tant qu'ADN complémentaire (ADNc) par une enzyme transcriptase inverse avant que l'ADNc résultant ne soit séquencé. Parce que les EST peuvent être collectées sans connaissance préalable de l'organisme dont elles proviennent, elles peuvent être fabriquées à partir de mélanges d'organismes ou d'échantillons environnementaux. Bien que des méthodes à plus haut débit soient maintenant utilisées, les bibliothèques EST ont généralement fourni des informations sur les séquences pour les premières conceptions de puces à ADN ; par exemple, une puce à ADN d' orge a été conçue à partir de 350 000 EST préalablement séquencées.

Analyse en série et en cap de l'expression génique (SAGE/CAGE)

Résumé de SAGE . Au sein des organismes, les gènes sont transcrits et épissés (chez les eucaryotes ) pour produire des transcrits d' ARNm matures (rouge). L'ARNm est extrait de l'organisme et la transcriptase inverse est utilisée pour copier l'ARNm en ADNc double brin stable ( ds - ADNc ; bleu). Dans SAGE, le ds-ADNc est digéré par des enzymes de restriction (à l'emplacement 'X' et 'X'+11) pour produire des fragments "tag" de 11 nucléotides. Ces balises sont concaténées et séquencées à l'aide d'un séquençage Sanger à lecture longue (différentes nuances de bleu indiquent des balises de différents gènes). Les séquences sont déconvoluées pour trouver la fréquence de chaque balise. La fréquence de l'étiquette peut être utilisée pour rendre compte de la transcription du gène d'où provient l'étiquette.

L'analyse en série de l'expression génique (SAGE) était un développement de la méthodologie EST pour augmenter le débit des étiquettes générées et permettre une certaine quantification de l'abondance des transcrits. L'ADNc est généré à partir de l' ARN mais est ensuite digéré en fragments "tag" de 11 pb en utilisant des enzymes de restriction qui coupent l'ADN à une séquence spécifique, et 11 paires de bases le long de cette séquence. Ces balises d'ADNc sont ensuite jointes tête-bêche en longs brins (> 500 pb) et séquencées à l'aide de méthodes à faible débit mais à longue lecture telles que le séquençage de Sanger . Les séquences sont ensuite divisées dans leurs étiquettes d'origine de 11 pb à l'aide d'un logiciel informatique dans le cadre d'un processus appelé déconvolution . Si un génome de référence de haute qualité est disponible, ces balises peuvent être associées à leur gène correspondant dans le génome. Si un génome de référence n'est pas disponible, les marqueurs peuvent être directement utilisés comme marqueurs de diagnostic s'ils sont exprimés de manière différentielle dans un état pathologique.

La méthode d'expression du gène par analyse cap (CAGE) est une variante de SAGE qui séquence les étiquettes à partir de l' extrémité 5' d'un transcrit d'ARNm uniquement. Par conséquent, le site de démarrage de la transcription des gènes peut être identifié lorsque les étiquettes sont alignées sur un génome de référence. L'identification des sites d'initiation du gène est utile pour l' analyse des promoteurs et pour le clonage d'ADNc complets.

Les méthodes SAGE et CAGE produisent des informations sur plus de gènes que cela n'était possible lors du séquençage d'EST uniques, mais la préparation des échantillons et l'analyse des données sont généralement plus laborieuses.

Microarrays

Résumé des puces à ADN . Au sein des organismes, les gènes sont transcrits et épissés (chez les eucaryotes) pour produire des transcrits d'ARNm matures (rouge). L'ARNm est extrait de l'organisme et la transcriptase inverse est utilisée pour copier l'ARNm dans un ds-ADNc stable (bleu). Dans les puces à ADN, le ds-ADNc est fragmenté et marqué par fluorescence (orange). Les fragments marqués se lient à une matrice ordonnée d'oligonucléotides complémentaires, et la mesure de l'intensité de fluorescence à travers la matrice indique l'abondance d'un ensemble prédéterminé de séquences. Ces séquences sont typiquement choisies spécifiquement pour rendre compte des gènes d'intérêt dans le génome de l'organisme.

Principes et avancées

Les puces à ADN sont constituées d' oligomères de nucléotides courts , appelés « sondes », qui sont généralement disposés en une grille sur une lame de verre. L'abondance des transcrits est déterminée par hybridation de transcrits marqués par fluorescence à ces sondes. L' intensité de fluorescence à chaque emplacement de sonde sur la matrice indique l'abondance du transcrit pour cette séquence de sonde.

Les puces à ADN nécessitent certaines connaissances génomiques de l'organisme d'intérêt, par exemple, sous la forme d'une séquence génomique annotée , ou d'une bibliothèque d'EST pouvant être utilisées pour générer les sondes pour la puce.

Méthodes

Les puces à ADN pour la transcriptomique se classent généralement dans l'une des deux grandes catégories : les puces à taches de faible densité ou les puces à sondes courtes à haute densité. L'abondance des transcrits est déduite de l'intensité de la fluorescence dérivée des transcrits marqués par des fluorophores qui se lient à la puce.

Les puces à faible densité tachetées comportent généralement des gouttes de picolitres d'une gamme d' ADNc purifiés disposés sur la surface d'une lame de verre. Ces sondes sont plus longues que celles des réseaux haute densité et ne peuvent pas identifier les événements d' épissage alternatifs . Les matrices tachetées utilisent deux fluorophores différents pour marquer les échantillons de test et de contrôle, et le rapport de fluorescence est utilisé pour calculer une mesure relative d'abondance. Les puces à haute densité utilisent un seul marqueur fluorescent et chaque échantillon est hybridé et détecté individuellement. Réseaux de haute densité ont été popularisés par le Affymetrix GeneChip matrice, où chaque transcrit est quantifiée par plusieurs courts 25 -Mer sondes qui , ensemble , doser un gène.

Les matrices NimbleGen étaient une matrice à haute densité produite par une méthode de photochimie sans masque , qui permettait une fabrication flexible de matrices en petit ou en grand nombre. Ces puces avaient 100 000 sondes de 45 à 85 mères et ont été hybridées avec un échantillon marqué d'une seule couleur pour l'analyse de l'expression. Certains modèles incorporaient jusqu'à 12 matrices indépendantes par lame.

ARN-Seq

Résumé de RNA-Seq . Au sein des organismes, les gènes sont transcrits et épissés (chez les eucaryotes) pour produire des transcrits d'ARNm matures (rouge). L'ARNm est extrait de l'organisme, fragmenté et copié dans un ds-ADNc stable (bleu). Le ds-cDNA est séquencé à l'aide de méthodes de séquençage à haut débit et à lecture courte. Ces séquences peuvent ensuite être alignées sur une séquence génomique de référence pour reconstruire quelles régions génomiques ont été transcrites. Ces données peuvent être utilisées pour annoter l'emplacement des gènes exprimés, leurs niveaux d'expression relatifs et toute variante d'épissage alternatif.

Principes et avancées

RNA-Seq fait référence à la combinaison d'une méthodologie de séquençage à haut débit avec des méthodes de calcul pour capturer et quantifier les transcrits présents dans un extrait d'ARN. Les séquences nucléotidiques générées ont typiquement une longueur d'environ 100 pb, mais peuvent aller de 30 pb à plus de 10 000 pb selon la méthode de séquençage utilisée. RNA-Seq exploite un échantillonnage en profondeur du transcriptome avec de nombreux fragments courts d'un transcriptome pour permettre la reconstruction informatique du transcrit d'ARN d'origine en alignant les lectures sur un génome de référence ou les unes aux autres ( assemblage de novo ). Les ARN à faible et à forte abondance peuvent être quantifiés dans une expérience RNA-Seq ( plage dynamique de 5 ordres de grandeur ) - un avantage clé par rapport aux transcriptomes de microarray. De plus, les quantités d'ARN d'entrée sont beaucoup plus faibles pour l'ARN-Seq (quantité de nanogrammes) par rapport aux puces à ADN (quantité de microgrammes), ce qui permet un examen plus fin des structures cellulaires jusqu'au niveau unicellulaire lorsqu'il est associé à une amplification linéaire de l'ADNc. Théoriquement, il n'y a pas de limite supérieure de quantification en RNA-Seq, et le bruit de fond est très faible pour des lectures de 100 pb dans des régions non répétitives.

L'ARN-Seq peut être utilisé pour identifier des gènes au sein d'un génome , ou identifier quels gènes sont actifs à un moment donné, et les comptes de lecture peuvent être utilisés pour modéliser avec précision le niveau d'expression génique relatif. La méthodologie RNA-Seq s'est constamment améliorée, principalement grâce au développement de technologies de séquençage de l'ADN pour augmenter le débit, la précision et la longueur de lecture. Depuis les premières descriptions en 2006 et 2008, RNA-Seq a été rapidement adopté et a dépassé les microarrays comme technique de transcriptomique dominante en 2015.

La recherche de données sur le transcriptome au niveau des cellules individuelles a entraîné des progrès dans les méthodes de préparation des bibliothèques d'ARN-Seq, entraînant des progrès spectaculaires en matière de sensibilité. Les transcriptomes unicellulaires sont maintenant bien décrits et ont même été étendus à l' ARN-Seq in situ où les transcriptomes de cellules individuelles sont directement interrogés dans des tissus fixés .

Méthodes

RNA-Seq a été créé de concert avec le développement rapide d'une gamme de technologies de séquençage d'ADN à haut débit. Cependant, avant que les transcrits d'ARN extraits ne soient séquencés, plusieurs étapes de traitement clés sont effectuées. Les méthodes diffèrent dans l'utilisation de l'enrichissement de la transcription, de la fragmentation, de l'amplification, du séquençage à une ou deux extrémités et de l'opportunité de préserver les informations sur les brins.

La sensibilité d'une expérience RNA-Seq peut être augmentée en enrichissant les classes d'ARN qui présentent un intérêt et en épuisant les ARN abondants connus. Les molécules d'ARNm peuvent être séparées à l'aide de sondes oligonucléotidiques qui se lient à leurs queues poly-A . Alternativement, la déplétion ribosomique peut être utilisée pour éliminer spécifiquement les ARN ribosomiques (ARNr) abondants mais non informatifs par hybridation à des sondes adaptées aux séquences d'ARNr spécifiques du taxon (par exemple, ARNr de mammifère, ARNr de plante). Cependant, l'appauvrissement en ribo peut également introduire un certain biais via l'appauvrissement non spécifique des transcrits hors cible. Les petits ARN, tels que les micro-ARN , peuvent être purifiés en fonction de leur taille par électrophorèse sur gel et extraction.

Étant donné que les ARNm sont plus longs que les longueurs de lecture des méthodes de séquençage à haut débit typiques, les transcrits sont généralement fragmentés avant le séquençage. La méthode de fragmentation est un aspect clé de la construction d'une bibliothèque de séquençage. La fragmentation peut être obtenue par hydrolyse chimique , nébulisation , sonication ou transcription inverse avec des nucléotides de terminaison de chaîne . En variante, la fragmentation et le marquage d'ADNc peuvent être effectués simultanément en utilisant des enzymes transposase .

Pendant la préparation du séquençage, les copies d'ADNc des transcrits peuvent être amplifiées par PCR pour enrichir les fragments qui contiennent les séquences adaptatrices 5' et 3' attendues. L'amplification est également utilisée pour permettre le séquençage de très faibles quantités d'ARN d'entrée, jusqu'à 50 pg dans les applications extrêmes. Des contrôles de pointe d'ARN connus peuvent être utilisés pour l'évaluation du contrôle qualité afin de vérifier la préparation et le séquençage de la bibliothèque, en termes de contenu GC , de longueur de fragment, ainsi que le biais dû à la position des fragments dans un transcrit. Les identifiants moléculaires uniques (UMI) sont de courtes séquences aléatoires qui sont utilisées pour marquer individuellement les fragments de séquence pendant la préparation de la bibliothèque de sorte que chaque fragment marqué soit unique. Les UMI fournissent une échelle absolue pour la quantification, la possibilité de corriger le biais d'amplification ultérieur introduit lors de la construction de la bibliothèque et d'estimer avec précision la taille initiale de l'échantillon. Les UMI sont particulièrement bien adaptées à la transcriptomique RNA-Seq à cellule unique, où la quantité d'ARN d'entrée est restreinte et une amplification étendue de l'échantillon est requise.

Une fois que les molécules de transcription ont été préparées, elles peuvent être séquencées dans une seule direction (extrémité unique) ou dans les deux directions (extrémité appariée). Une séquence à une extrémité est généralement plus rapide à produire, moins chère qu'un séquençage à extrémités appariées et suffisante pour la quantification des niveaux d'expression génique. Le séquençage par paires produit des alignements/assemblages plus robustes, ce qui est bénéfique pour l'annotation de gènes et la découverte d' isoformes de transcription . Les méthodes RNA-Seq spécifiques au brin préservent les informations de brin d'un transcrit séquencé. Sans information de brin, les lectures peuvent être alignées sur un locus de gène mais n'informent pas dans quelle direction le gène est transcrit. Stranded-RNA-Seq est utile pour déchiffrer la transcription de gènes qui se chevauchent dans différentes directions et pour faire des prédictions de gènes plus robustes dans des organismes non modèles.

Plateformes technologiques de séquençage couramment utilisées pour RNA-Seq
Plate-forme Sortie commerciale Longueur de lecture typique Débit maximal par exécution Précision de lecture unique RNA-Seq runs déposés dans le NCBI SRA (Oct 2016)
454 Sciences de la vie 2005 700 pb 0,7 Gbit/s 99,9% 3548
Illumina 2006 50-300 pb 900 Gbp 99,9% 362903
Solide 2008 50 pb 320 Gbp 99,9% 7032
Torrent ionique 2010 400 pb 30 Gbp 98% 1953
PacBio 2011 10 000 pb 2 Gbp 87% 160

Légende : NCBI SRA – Centre national d'archives de lecture de séquences d'informations biotechnologiques.

Actuellement, RNA-Seq repose sur la copie de molécules d'ARN dans des molécules d'ADNc avant le séquençage ; par conséquent, les plates-formes suivantes sont les mêmes pour les données transcriptomiques et génomiques. Par conséquent, le développement des technologies de séquençage de l'ADN a été une caractéristique déterminante de RNA-Seq. Le séquençage direct de l'ARN à l'aide du séquençage nanopore représente une technique RNA-Seq de pointe actuelle. Le séquençage nanopore de l'ARN peut détecter des bases modifiées qui seraient autrement masquées lors du séquençage de l'ADNc et élimine également les étapes d' amplification qui pourraient autrement introduire un biais.

La sensibilité et la précision d'une expérience RNA-Seq dépendent du nombre de lectures obtenues à partir de chaque échantillon. Un grand nombre de lectures sont nécessaires pour assurer une couverture suffisante du transcriptome, permettant la détection de transcrits de faible abondance. La conception expérimentale est encore compliquée par les technologies de séquençage avec une plage de sortie limitée, l'efficacité variable de la création de séquences et une qualité de séquence variable. À ces considérations s'ajoute le fait que chaque espèce possède un nombre différent de gènes et nécessite donc un rendement de séquence adapté pour un transcriptome efficace. Les premières études ont déterminé des seuils appropriés de manière empirique, mais à mesure que la technologie a mûri, une couverture appropriée a été prédite informatiquement par saturation du transcriptome. De manière quelque peu contre-intuitive, le moyen le plus efficace d'améliorer la détection de l'expression différentielle dans les gènes à faible expression est d'ajouter plus de réplicats biologiques plutôt que d'ajouter plus de lectures. Les références actuelles recommandées par le projet Encyclopedia of DNA Elements (ENCODE) concernent une couverture de l'exome de 70 fois pour l'ARN-Seq standard et une couverture de l'exome jusqu'à 500 fois pour détecter les transcrits et les isoformes rares.

L'analyse des données

Les méthodes de transcriptomique sont hautement parallèles et nécessitent des calculs importants pour produire des données significatives pour les expériences de microarray et d'ARN-Seq. Les données des puces à ADN sont enregistrées sous forme d' images haute résolution , nécessitant une détection des caractéristiques et une analyse spectrale. Les fichiers d'images brutes de microarray ont chacun une taille d'environ 750 Mo, tandis que les intensités traitées sont d'environ 60 Mo. Plusieurs sondes courtes correspondant à un seul transcrit peuvent révéler des détails sur la structure intron - exon , nécessitant des modèles statistiques pour déterminer l'authenticité du signal résultant. Les études RNA-Seq produisent des milliards de courtes séquences d'ADN, qui doivent être alignées sur des génomes de référence composés de millions à milliards de paires de bases. L' assemblage de novo de lectures au sein d'un ensemble de données nécessite la construction de graphes de séquence très complexes . Les opérations RNA-Seq sont très répétitives et bénéficient de calculs parallélisés, mais les algorithmes modernes signifient que le matériel informatique grand public est suffisant pour des expériences de transcriptomique simples qui ne nécessitent pas d' assemblage de novo de lectures. Un transcriptome humain pourrait être capturé avec précision à l'aide de RNA-Seq avec 30 millions de séquences de 100 pb par échantillon. Cet exemple nécessiterait environ 1,8 gigaoctets d'espace disque par échantillon lorsqu'il est stocké dans un format fastq compressé . Les données de comptage traitées pour chaque gène seraient beaucoup plus petites, équivalentes aux intensités de microarray traitées. Les données de séquence peuvent être stockées dans des référentiels publics, tels que Sequence Read Archive (SRA). Les ensembles de données RNA-Seq peuvent être téléchargés via Gene Expression Omnibus.

Traitement d'image

Microarray et Flow Cell de séquençage . Les puces à ADN et l'ARN-seq reposent sur l'analyse d'images de différentes manières. Dans une puce microarray, chaque point sur une puce est une sonde oligonucléotidique définie, et l'intensité de fluorescence détecte directement l'abondance d'une séquence spécifique (Affymetrix). Dans une Flow Cell de séquençage à haut débit, les spots sont séquencés un nucléotide à la fois, la couleur à chaque tour indiquant le nucléotide suivant dans la séquence (Illumina Hiseq). D'autres variantes de ces techniques utilisent plus ou moins de canaux de couleur.

Le traitement d'image par microréseau doit identifier correctement la grille régulière de caractéristiques au sein d'une image et quantifier indépendamment l' intensité de fluorescence pour chaque caractéristique. Les artefacts d'image doivent en outre être identifiés et supprimés de l'analyse globale. Les intensités de fluorescence indiquent directement l'abondance de chaque séquence, puisque la séquence de chaque sonde sur le réseau est déjà connue.

Les premières étapes de RNA-seq incluent également un traitement d'image similaire ; cependant, la conversion des images en données de séquence est généralement gérée automatiquement par le logiciel de l'instrument. La méthode de séquençage par synthèse d'Illumina permet d'obtenir un réseau de clusters répartis sur la surface d'une Flow Cell. La Flow Cell est imagée jusqu'à quatre fois au cours de chaque cycle de séquençage, avec des dizaines à des centaines de cycles au total. Les grappes de cellules à écoulement sont analogues aux taches de microarray et doivent être correctement identifiées au cours des premières étapes du processus de séquençage. Dans la méthode de pyroséquençage de Roche , l'intensité de la lumière émise détermine le nombre de nucléotides consécutifs dans une répétition d'homopolymère. Il existe de nombreuses variantes de ces méthodes, chacune avec un profil d'erreur différent pour les données résultantes.

Analyse des données RNA-Seq

Les expériences RNA-Seq génèrent un grand volume de lectures de séquences brutes qui doivent être traitées pour fournir des informations utiles. L'analyse des données nécessite généralement une combinaison d' outils logiciels bioinformatiques (voir aussi Liste des outils bioinformatiques RNA-Seq ) qui varient en fonction de la conception expérimentale et des objectifs. Le processus peut être décomposé en quatre étapes : contrôle qualité, alignement, quantification et expression différentielle. Les programmes RNA-Seq les plus populaires sont exécutés à partir d'une interface en ligne de commande , soit dans un environnement Unix , soit dans l' environnement statistique R / Bioconductor .

Contrôle de qualité

Les lectures de séquences ne sont pas parfaites, de sorte que la précision de chaque base de la séquence doit être estimée pour les analyses en aval. Les données brutes sont examinées pour s'assurer que les scores de qualité pour les appels de base sont élevés, que le contenu du GC correspond à la distribution attendue, que les motifs de séquence courte ( k-mers ) ne sont pas surreprésentés et que le taux de duplication de lecture est suffisamment faible. Plusieurs options logicielles existent pour l'analyse de la qualité des séquences, notamment FastQC et FaQC. Les anomalies peuvent être supprimées (rognage) ou étiquetées pour un traitement spécial au cours des processus ultérieurs.

Alignement

Afin de lier l'abondance de lecture de séquence à l'expression d'un gène particulier, les séquences de transcrits sont alignées sur un génome de référence ou alignées de novo les unes aux autres si aucune référence n'est disponible. Les principaux défis pour le logiciel d'alignement incluent une vitesse suffisante pour permettre à des milliards de séquences courtes d'être alignées dans un laps de temps significatif, une flexibilité pour reconnaître et traiter l'épissage d'introns d'ARNm eucaryotes et une affectation correcte des lectures qui correspondent à plusieurs emplacements. Les avancées logicielles ont largement résolu ces problèmes, et l'augmentation de la longueur de lecture du séquençage réduit le risque d'alignements de lecture ambigus. Une liste des aligneurs de séquences à haut débit actuellement disponibles est maintenue par l' EBI .

L'alignement des séquences d' ARNm de transcrit primaire dérivées d' eucaryotes sur un génome de référence nécessite une manipulation spécialisée des séquences d' intron , qui sont absentes de l'ARNm mature. Les aligneurs à lecture courte effectuent une série supplémentaire d'alignements spécialement conçus pour identifier les jonctions d'épissage , informés par des séquences de sites d'épissage canoniques et des informations connues sur les sites d'épissage d'intron. L'identification des jonctions d'épissage d'intron empêche les lectures d'être mal alignées entre les jonctions d'épissage ou rejetées par erreur, ce qui permet d'aligner davantage de lectures sur le génome de référence et d'améliorer la précision des estimations d'expression génique. Étant donné que la régulation des gènes peut se produire au niveau de l' isoforme de l' ARNm , les alignements sensibles à l'épissage permettent également la détection des changements d'abondance des isoformes qui seraient autrement perdus dans une analyse groupée.

L' assemblage de novo peut être utilisé pour aligner les lectures les unes avec les autres afin de construire des séquences de transcription complètes sans utiliser un génome de référence. Les défis particuliers à l' assemblage de novo comprennent des exigences de calcul plus importantes par rapport à un transcriptome basé sur des références, une validation supplémentaire des variantes ou des fragments de gènes et une annotation supplémentaire des transcrits assemblés. Les premières métriques utilisées pour décrire les assemblages de transcriptome, telles que N50 , se sont révélées trompeuses et des méthodes d'évaluation améliorées sont maintenant disponibles. Les métriques basées sur les annotations sont de meilleures évaluations de l'exhaustivité de l'assemblage, telles que le nombre de meilleurs coups réciproques contig . Une fois assemblé de novo , l'assemblage peut être utilisé comme référence pour les méthodes d'alignement de séquences ultérieures et l'analyse quantitative de l'expression génique.

Logiciel d'assemblage RNA-Seq de novo
Logiciel Publié Dernière mise à jour Efficacité de calcul Forces et faiblesses
Velours-Oasis 2008 2011 Besoin de RAM faible, monothread et élevé L'assembleur original à lecture courte. Il est désormais largement dépassé.
SOAPdenovo-trans 2011 2014 Besoin de RAM modéré, multithread et moyen Un premier exemple d'assembleur à lecture courte. Il a été mis à jour pour l'assemblage du transcriptome.
Trans-ABySS 2010 2016 Besoin de RAM modéré, multithread et moyen Adapté aux lectures courtes, peut gérer des transcriptomes complexes, et une version MPI-parallèle est disponible pour les clusters de calcul.
Trinité 2011 2017 Besoin de RAM modéré, multithread et moyen Convient aux lectures courtes. Il peut gérer des transcriptomes complexes mais est gourmand en mémoire.
miraEST 1999 2016 Besoin de RAM modéré, multithread et moyen Peut traiter des séquences répétitives, combiner différents formats de séquençage et une large gamme de plates-formes de séquences sont acceptées.
débutant 2004 2012 Besoin de RAM faible, monothread et élevé Spécialisé pour s'adapter aux erreurs de séquençage des homopolymères typiques des séquenceurs Roche 454.
Atelier de génomique CLC 2008 2014 Besoin de RAM élevé, multithread et faible Possède une interface utilisateur graphique, peut combiner diverses technologies de séquençage, n'a pas de fonctionnalités spécifiques au transcriptome et une licence doit être achetée avant utilisation.
Piques 2012 2017 Besoin de RAM élevé, multithread et faible Utilisé pour des expériences de transcriptomique sur des cellules individuelles.
RSEM 2011 2017 Besoin de RAM élevé, multithread et faible Peut estimer la fréquence des transcrits épissés alternativement. Convivial.
StringCravate 2015 2019 Besoin de RAM élevé, multithread et faible Peut utiliser une combinaison de méthodes d'assemblage guidées par référence et de novo pour identifier les transcriptions.

Légende : RAM – mémoire vive ; MPI – interface de transmission de messages ; EST – étiquette de séquence exprimée.


Quantification

Identification par carte thermique des modèles de co-expression génique dans différents échantillons. Chaque colonne contient les mesures du changement d'expression génique pour un seul échantillon. L'expression relative des gènes est indiquée par la couleur : expression élevée (rouge), expression médiane (blanc) et expression faible (bleu). Les gènes et les échantillons avec des profils d'expression similaires peuvent être automatiquement regroupés (arbres de gauche et du haut). Les échantillons peuvent être différents individus, tissus, environnements ou conditions de santé. Dans cet exemple, l'expression de l'ensemble de gènes 1 est élevée et l'expression de l'ensemble de gènes 2 est faible dans les échantillons 1, 2 et 3.

La quantification des alignements de séquences peut être effectuée au niveau du gène, de l'exon ou du transcrit. Les sorties typiques incluent un tableau des nombres de lectures pour chaque fonctionnalité fournie au logiciel ; par exemple, pour les gènes dans un fichier de format de caractéristiques générales . Les comptes de lecture de gènes et d'exons peuvent être calculés assez facilement en utilisant HTSeq, par exemple. La quantification au niveau du transcrit est plus compliquée et nécessite des méthodes probabilistes pour estimer l'abondance des isoformes du transcrit à partir d'informations de lecture courte ; par exemple, en utilisant un logiciel de boutons de manchette. Les lectures qui s'alignent aussi bien sur plusieurs emplacements doivent être identifiées et soit supprimées, alignées sur l'un des emplacements possibles ou alignées sur l'emplacement le plus probable.

Certaines méthodes de quantification peuvent contourner complètement la nécessité d'un alignement exact d'une lecture sur une séquence de référence. La méthode du logiciel kallisto combine le pseudo-alignement et la quantification en une seule étape qui exécute 2 ordres de grandeur plus rapidement que les méthodes contemporaines telles que celles utilisées par le logiciel tophat/cufflinks, avec moins de charge de calcul.

Expression différentielle

Une fois que les comptes quantitatifs de chaque transcrit sont disponibles, l'expression différentielle des gènes est mesurée en normalisant, modélisant et analysant statistiquement les données. La plupart des outils liront une table de gènes et liront des comptes en entrée, mais certains programmes, tels que cuffdiff, accepteront des alignements de lecture au format de carte d'alignement binaire en entrée. Les résultats finaux de ces analyses sont des listes de gènes avec des tests par paires associés pour l'expression différentielle entre les traitements et les estimations de probabilité de ces différences.

Logiciel d'expression génique différentielle RNA-Seq
Logiciel Environnement Spécialisation
Cuffdiff2 Basé sur Unix Analyse de transcription qui suit l'épissage alternatif de l'ARNm
BordR R/Bioconducteur Toutes les données génomiques basées sur le comptage
DEseq2 R/Bioconducteur Types de données flexibles, faible réplication
Limma/Voom R/Bioconducteur Données de microarray ou d'ARN-Seq, conception d'expérience flexible
Robe de bal R/Bioconducteur Découverte de transcription efficace et sensible, flexible.

Légende : ARNm - ARN messager.

Validation

Les analyses transcriptomiques peuvent être validées à l'aide d'une technique indépendante, par exemple la PCR quantitative (qPCR), reconnaissable et évaluable statistiquement. L'expression génique est mesurée par rapport à des normes définies à la fois pour le gène d'intérêt et les gènes de contrôle . La mesure par qPCR est similaire à celle obtenue par RNA-Seq dans laquelle une valeur peut être calculée pour la concentration d'une région cible dans un échantillon donné. La qPCR est cependant limitée aux amplicons inférieurs à 300 pb, généralement vers l'extrémité 3' de la région codante, évitant la 3'UTR . Si la validation des isoformes de transcription est requise, une inspection des alignements de lecture RNA-Seq devrait indiquer où les amorces qPCR pourraient être placées pour une discrimination maximale. La mesure de plusieurs gènes de contrôle ainsi que des gènes d'intérêt produit une référence stable dans un contexte biologique. La validation qPCR des données RNA-Seq a généralement montré que différentes méthodes RNA-Seq sont fortement corrélées.

La validation fonctionnelle des gènes clés est une considération importante pour la planification post-transcriptome. Les modèles d'expression génique observés peuvent être fonctionnellement liés à un phénotype par une étude indépendante de précipitation / sauvetage dans l'organisme d'intérêt.

Applications

Diagnostic et profilage de la maladie

Les stratégies transcriptomiques ont été largement appliquées dans divers domaines de la recherche biomédicale, y compris le diagnostic et le profilage des maladies . Les approches RNA-Seq ont permis l'identification à grande échelle de sites de démarrage de la transcription , l' utilisation de promoteurs alternatifs découverts et de nouvelles altérations d'épissage . Ces éléments régulateurs sont importants dans les maladies humaines et, par conséquent, la définition de ces variantes est cruciale pour l'interprétation des études d'association de maladies . RNA-Seq peut également identifier les polymorphismes nucléotidiques uniques (SNP) associés à la maladie , l'expression spécifique d'allèles et les fusions de gènes , ce qui contribue à la compréhension des variantes causales de la maladie.

Les rétrotransposons sont des éléments transposables qui prolifèrent au sein des génomes eucaryotes grâce à un processus de transcription inverse . RNA-Seq peut fournir des informations sur la transcription des rétrotransposons endogènes qui peuvent influencer la transcription des gènes voisins par divers mécanismes épigénétiques qui conduisent à la maladie. De même, le potentiel d'utilisation de l'ARN-Seq pour comprendre les maladies liées au système immunitaire augmente rapidement en raison de la capacité de disséquer les populations de cellules immunitaires et de séquencer les répertoires de récepteurs des cellules T et B des patients.

Transcriptomes humains et pathogènes

L'ARN-Seq des agents pathogènes humains est devenu une méthode établie pour quantifier les changements d'expression génique, identifier de nouveaux facteurs de virulence , prédire la résistance aux antibiotiques et dévoiler les interactions immunitaires hôte-pathogène . L'un des principaux objectifs de cette technologie est de développer des mesures de contrôle des infections optimisées et un traitement individualisé ciblé .

L'analyse transcriptomique s'est principalement concentrée sur l'hôte ou l'agent pathogène. Dual RNA-Seq a été appliqué pour profiler simultanément l'expression de l'ARN chez l'agent pathogène et l'hôte tout au long du processus d'infection. Cette technique permet d'étudier la réponse dynamique et les réseaux de régulation des gènes interspécifiques chez les deux partenaires d'interaction, du contact initial à l'invasion et à la persistance finale de l'agent pathogène ou à la clairance par le système immunitaire de l'hôte.

Réponses à l'environnement

La transcriptomique permet l'identification de gènes et de voies qui répondent et contrecarrent les stress environnementaux biotiques et abiotiques. La nature non ciblée de la transcriptomique permet l'identification de nouveaux réseaux transcriptionnels dans des systèmes complexes. Par exemple, l'analyse comparative d'une gamme de lignées de pois chiches à différents stades de développement a identifié des profils transcriptionnels distincts associés aux stress de sécheresse et de salinité , y compris l'identification du rôle des isoformes de transcription de AP2 - EREBP . L'étude de l'expression des gènes pendant la formation du biofilm par le champignon pathogène Candida albicans a révélé un ensemble corégulé de gènes essentiels à l'établissement et au maintien du biofilm.

Le profilage transcriptomique fournit également des informations cruciales sur les mécanismes de résistance aux médicaments . L'analyse de plus de 1 000 isolats de Plasmodium falciparum , un parasite virulent responsable du paludisme chez l'homme, a identifié que la régulation à la hausse de la réponse protéique dépliée et une progression plus lente dans les premiers stades du cycle de développement intraérythrocytaire asexué étaient associées à la résistance à l' artémisinine dans les isolats d' Asie du Sud-Est .

Annotation de fonction de gène

Toutes les techniques transcriptomiques ont été particulièrement utiles pour identifier les fonctions des gènes et identifier ceux qui sont responsables de phénotypes particuliers. La transcriptomique des écotypes d' Arabidopsis qui hyperaccumulent les métaux a corrélé les gènes impliqués dans l' absorption , la tolérance et l' homéostasie des métaux avec le phénotype. L'intégration d'ensembles de données RNA-Seq à travers différents tissus a été utilisée pour améliorer l'annotation des fonctions des gènes dans des organismes commercialement importants (par exemple le concombre ) ou des espèces menacées (par exemple le koala ).

L'assemblage des lectures RNA-Seq ne dépend pas d'un génome de référence et est donc idéal pour les études d'expression génique d'organismes non modèles avec des ressources génomiques inexistantes ou peu développées. Par exemple, une base de données des SNP utilisés dans les programmes de sélection du douglas a été créée par analyse de novo du transcriptome en l'absence d'un génome séquencé . De même, les gènes qui fonctionnent dans le développement des tissus cardiaques, musculaires et nerveux chez les homards ont été identifiés en comparant les transcriptomes des différents types de tissus sans utiliser de séquence génomique. L'ARN-Seq peut également être utilisé pour identifier des régions codant pour des protéines auparavant inconnues dans des génomes séquencés existants.

Une horloge de vieillissement basée sur le transcriptome

Les interventions préventives liées au vieillissement ne sont pas possibles sans mesure personnelle de la vitesse du vieillissement. Le moyen le plus récent et le plus complexe de mesurer le taux de vieillissement consiste à utiliser divers biomarqueurs du vieillissement humain. Il a été démontré que le vieillissement est un puissant moteur des modifications du transcriptome. Les horloges vieillissantes basées sur les transcriptomes ont souffert d'une variation considérable des données et d'une précision relativement faible. Cependant, une approche qui utilise la mise à l'échelle temporelle et la binarisation des transcriptomes pour définir un ensemble de gènes qui prédit l'âge biologique avec une précision a permis d'atteindre une évaluation proche de la limite théorique.

ARN non codant

La transcriptomique est le plus souvent appliquée à la teneur en ARNm de la cellule. Cependant, les mêmes techniques sont également applicables aux ARN non codants (ARNnc) qui ne sont pas traduits en une protéine, mais qui ont plutôt des fonctions directes (par exemple, rôles dans la traduction des protéines , la réplication de l'ADN , l'épissage de l'ARN et la régulation transcriptionnelle ). Beaucoup de ces ARNnc affectent les états pathologiques, y compris le cancer, les maladies cardiovasculaires et neurologiques.

Bases de données de transcriptome

Les études transcriptomiques génèrent de grandes quantités de données qui ont des applications potentielles bien au-delà des objectifs initiaux d'une expérience. A ce titre, les données brutes ou traitées peuvent être déposées dans des bases de données publiques pour garantir leur utilité pour la communauté scientifique au sens large. Par exemple, en 2018, le Gene Expression Omnibus contenait des millions d'expériences.

Bases de données transcriptomiques
Nom Hôte Données La description
Omnibus d'expression génique NCBI Microarray RNA-Seq Première base de données transcriptomique à accepter des données de n'importe quelle source. Introduction des normes communautaires MIAME et MINSEQE qui définissent les métadonnées d'expérience nécessaires pour assurer une interprétation et une répétabilité efficaces .
TableauExpress ENA Microarray Importe des ensembles de données de Gene Expression Omnibus et accepte les soumissions directes. Les données traitées et les métadonnées d'expérience sont stockées chez ArrayExpress, tandis que les lectures de séquences brutes sont conservées à l'ENA. Conforme aux normes MIAME et MINSEQE.
Atlas des expressions EBI Microarray RNA-Seq Base de données d'expression de gènes spécifiques aux tissus pour les animaux et les plantes. Affiche les analyses et la visualisation secondaires, telles que l'enrichissement fonctionnel des termes Gene Ontology , les domaines InterPro ou les voies. Liens vers les données sur l'abondance des protéines lorsqu'elles sont disponibles.
Genevestigateur Commissariat privé Microarray RNA-Seq Contient des curations manuelles d'ensembles de données de transcriptome publics, en se concentrant sur les données médicales et de biologie végétale. Les expériences individuelles sont normalisées dans toute la base de données pour permettre la comparaison de l'expression des gènes à travers diverses expériences. La fonctionnalité complète nécessite l'achat d'une licence, avec un accès gratuit à une fonctionnalité limitée.
RefEx DDBJ Tous Transcriptomes humains, de souris et de rat de 40 organes différents. Expression génique visualisée sous forme de cartes thermiques projetées sur des représentations 3D de structures anatomiques.
NON-CODE noncode.org ARN-Seq ARN non codants (ARNnc) à l'exclusion des ARNt et ARNr.

Légende : NCBI – Centre national d'information sur la biotechnologie ; EBI – Institut Européen de Bioinformatique ; DDBJ – Banque de données ADN du Japon ; ENA – Archives européennes des nucléotides ; MIAME - Informations minimales sur une expérience de puces à ADN ; MINSEQE - Informations minimales sur une expérience de séquençage de nucléotides à haut débit.

Voir également

Les références

Cet article a été adapté de la source suivante sous une licence CC BY 4.0 ( 2017 ) ( rapports des évaluateurs ) : Rohan Lowe ; Neil Shirley ; Mark Bleackley ; Stephen Dolan ; Thomas Shafee (18 mai 2017). "Technologies transcriptomiques" . Biologie computationnelle PLOS . 13 (5) : e1005457. doi : 10.1371/JOURNAL.PCBI.1005457 . ISSN  1553-734X . PMC  5436640 . PMID  28545146 . S2CID  3714586 . Wikidata  Q33703532 .

Remarques

  1. ^ En biologie moléculaire, l'  hybridation est un phénomène dans lequel des molécules d'acide désoxyribonucléique simple brin ( ADN ) ou d'acide ribonucléique ( ARN s'hybrident  à  un ADN ou un ARN complémentaire .
  2. ^ Un picolitre est environ 30 millions de fois plus petit qu'une goutte d'eau.

Lectures complémentaires