Capture de conformation chromosomique - Chromosome conformation capture

Technologies de capture de conformation chromosomique

Les techniques de capture de conformation chromosomique (souvent abrégées en technologies 3C ou méthodes basées sur les 3C) sont un ensemble de méthodes de biologie moléculaire utilisées pour analyser l' organisation spatiale de la chromatine dans une cellule. Ces méthodes quantifient le nombre d'interactions entre les loci génomiques qui sont proches dans l'espace 3-D, mais peuvent être séparés par de nombreux nucléotides dans le génome linéaire. De telles interactions peuvent résulter de fonctions biologiques, telles que des interactions promoteur - amplificateur , ou d'une boucle polymère aléatoire, où un mouvement physique non dirigé de la chromatine provoque la collision de loci. Les fréquences d'interaction peuvent être analysées directement, ou elles peuvent être converties en distances et utilisées pour reconstruire des structures 3-D.

La principale différence entre les méthodes basées sur les 3C est leur portée. Par exemple, lors de l'utilisation de la PCR pour détecter une interaction dans une expérience 3C, les interactions entre deux fragments spécifiques sont quantifiées. En revanche, Hi-C quantifie les interactions entre toutes les paires de fragments possibles simultanément. Le séquençage en profondeur du matériel produit par 3C produit également des cartes d'interactions à l'échelle du génome.

Histoire

Historiquement, la microscopie était la principale méthode d'enquête sur l'organisation nucléaire , qui peut être datée de 1590.

  • En 1879, Walther Flemming a inventé le terme chromatine.
  • En 1883, August Weismann a relié la chromatine à l'hérédité.
  • En 1884, Albrecht Kossel découvre les histones.
  • En 1888, Sutton et Boveri ont proposé la théorie de la continuité de la chromatine au cours du cycle cellulaire
  • En 1889, Wilhelm von Waldemeyer crée le terme « chromosome ».
  • En 1928, Emil Heitz a inventé le terme hétérochromatine et euchromatine .
  • En 1942, Conrad Waddington a postulé les paysages épigénétiques .
  • En 1948, Rollin Hotchkiss a découvert la méthylation de l'ADN.
  • En 1953, Watson et Crick ont ​​découvert la structure en double hélice de l'ADN.
  • En 1961, Mary Lyon a postulé le principe de l' X-inactivation .
  • En 1973/1974, la fibre de chromatine a été découverte.
  • En 1975, Pierre Chambon invente le terme de nucléosomes .
  • En 1982, des territoires chromosomiques ont été découverts.
  • En 1984, John T. Lis a innové la technique d' immunoprécipitation de la chromatine .
  • En 1993, le Nuclear Ligation Assay a été publié, une méthode qui pouvait déterminer les fréquences de circularisation de l'ADN en solution. Ce test a été utilisé pour montrer que les œstrogènes induisent une interaction entre le promoteur du gène de la prolactine et un activateur voisin .
  • En 2002, Job Dekker a introduit la nouvelle idée que des matrices denses de fréquences d'interaction entre les loci pourraient être utilisées pour déduire l'organisation spatiale des génomes. Cette idée a été à la base de son développement du test de capture de conformation chromosomique (3C), publié en 2002 par Job Dekker et ses collègues du laboratoire Kleckner de l'Université Harvard .
  • En 2003, le projet du génome humain était terminé.
  • En 2006, Marieke Simonis a inventé le 4C, Dostie, dans le laboratoire Dekker, a inventé le 5C.
  • En 2007, B. Franklin Pugh a innové la technique ChIP-seq.
  • En 2009, Lieberman-Aiden et Job Dekker ont inventé le Hi-C, Melissa J. Fullwood et Yijun Ruan ont inventé le ChiA-PET.
  • En 2012, le groupe Ren et les groupes dirigés par Edith Heard et Job Dekker ont découvert des domaines d'association topologique (TAD) chez les mammifères.
  • En 2013, Takashi Nagano et Peter Fraser ont introduit la ligature in-noyau pour Hi-C et Hi-C unicellulaire.
  • En 2014, Suhas Rao, Miriam Huntley et al. développé in situ Hi-C et l'utilisation d'enzymes de restriction à 4 coupes, et publié les premiers ensembles de données à haute résolution jusqu'à la résolution en kilobases pour plusieurs lignées cellulaires humaines. Ils ont également identifié la première preuve claire de la boucle CTCF-Cohésine dans les cartes Hi-C et identifié la règle de motif CTCF convergente sous-jacente à ces boucles.

méthodes expérimentales

Toutes les méthodes 3C commencent par un ensemble d'étapes similaires, effectuées sur un échantillon de cellules.

Comparaison entre 3C et ses méthodes dérivées.

Premièrement, les génomes cellulaires sont réticulés avec du formaldéhyde , ce qui introduit des liaisons qui « gèlent » les interactions entre les loci génomiques. Le traitement des cellules avec 1 à 3 % de formaldéhyde pendant 10 à 30 minutes à température ambiante est le plus courant, cependant, la normalisation pour empêcher la réticulation à haute teneur en protéines et en ADN est nécessaire, car cela peut affecter négativement l'efficacité de la digestion de restriction dans l'étape suivante. Le génome est ensuite découpé en fragments avec une endonucléase de restriction . La taille des fragments de restriction détermine la résolution de la cartographie d'interaction. Les enzymes de restriction (ER) qui coupent les séquences de reconnaissance de 6 pb, telles que EcoR1 ou HindIII , sont utilisées à cette fin, car elles coupent le génome une fois tous les 4000 pb, donnant environ 1 million de fragments dans le génome humain. Pour une cartographie d'interaction plus précise, un RE reconnaissant 4 pb peut également être utilisé. La prochaine étape est la ligature basée sur la proximité . Cela se produit à de faibles concentrations d'ADN ou dans des noyaux intacts et perméabilisés en présence d' ADN ligase T4 , de sorte que la ligature entre des fragments d'interaction réticulés est favorisée par rapport à la ligature entre des fragments qui ne sont pas réticulés. Par la suite, les loci en interaction sont quantifiés en amplifiant les jonctions ligaturées par des méthodes PCR.

Méthodes originales

3C (un contre un)

L'expérience de capture de conformation chromosomique (3C) quantifie les interactions entre une seule paire de loci génomiques. Par exemple, 3C peut être utilisé pour tester une interaction promoteur-amplificateur candidat. Les fragments ligaturés sont détectés par PCR avec des amorces connues . C'est pourquoi cette technique nécessite la connaissance préalable des régions en interaction.

4C (un contre tous)

La capture sur puce de conformation chromosomique (4C) capture les interactions entre un locus et tous les autres loci génomiques. Cela implique une deuxième étape de ligature, pour créer des fragments d'ADN auto-circularisés, qui sont utilisés pour effectuer une PCR inverse . La PCR inverse permet d'utiliser la séquence connue pour amplifier la séquence inconnue qui lui est liée. Contrairement à 3C et 5C, la technique 4C ne nécessite pas la connaissance préalable des deux régions chromosomiques en interaction. Les résultats obtenus à l'aide de 4C sont hautement reproductibles avec la plupart des interactions détectées entre des régions proches les unes des autres. Sur une seule puce, environ un million d'interactions peuvent être analysées.

5C (plusieurs contre plusieurs)

La copie carbone de capture de conformation chromosomique (5C) détecte les interactions entre tous les fragments de restriction au sein d'une région donnée, la taille de cette région ne dépassant généralement pas une mégabase. Cela se fait en ligaturant des amorces universelles à tous les fragments. Cependant, le 5C a une couverture relativement faible. La technique 5C surmonte les problèmes de jonction à l'étape de ligature intramoléculaire et est utile pour construire des interactions complexes de loci d'intérêt spécifiques. Cette approche n'est pas adaptée à la conduite d'interactions complexes à l'échelle du génome, car cela nécessitera l'utilisation de millions d'amorces 5C.

Salut-C (tous contre tous)

Hi-C utilise un séquençage à haut débit pour trouver la séquence nucléotidique des fragments et utilise un séquençage d'extrémités appariées , qui récupère une courte séquence à chaque extrémité de chaque fragment ligaturé. Ainsi, pour un fragment ligaturé donné, les deux séquences obtenues doivent représenter deux fragments de restriction différents qui ont été ligaturés ensemble dans l'étape de ligature basée sur la proximité. La paire de séquences est alignée individuellement sur le génome, déterminant ainsi les fragments impliqués dans cet événement de ligature. Par conséquent, toutes les interactions possibles par paires entre les fragments sont testées.

Méthodes basées sur la capture de séquence

Un certain nombre de méthodes utilisent la capture d' oligonucléotides pour enrichir les bibliothèques 3C et Hi-C pour des loci d'intérêt spécifiques. Ces méthodes incluent Capture-C, NG Capture-C, Capture-3C, HiCap, Capture Hi-C. et Micro Capture-C. Ces méthodes sont capables de produire une résolution et une sensibilité plus élevées que les méthodes basées sur 4C, Micro Capture-C fournit la résolution la plus élevée des techniques 3C disponibles et il est possible de générer des données de résolution de paires de bases.

Méthodes à cellule unique

Les adaptations unicellulaires de ces méthodes, telles que ChIP-seq et Hi-C, peuvent être utilisées pour étudier les interactions qui se produisent dans les cellules individuelles.

Méthodes basées sur l'immunoprécipitation

puce-boucle

ChIP-loop combine 3C avec ChIP-seq pour détecter les interactions entre deux loci d'intérêt médiés par une protéine d'intérêt. La boucle ChIP peut être utile pour identifier les interactions cis à longue distance et les interactions trans médiées par les protéines, car des collisions fréquentes d'ADN ne se produiront pas.

Méthodes à l'échelle du génome

ChIA-PET combine Hi-C avec ChIP-seq pour détecter toutes les interactions médiées par une protéine d'intérêt. HiChIP a été conçu pour permettre une analyse similaire à celle du ChIA-PET avec moins de matériel d'entrée.

Impact biologique

Les méthodes 3C ont conduit à un certain nombre de connaissances biologiques, notamment la découverte de nouvelles caractéristiques structurelles des chromosomes, le catalogage des boucles de chromatine et une meilleure compréhension des mécanismes de régulation transcriptionnelle (dont la perturbation peut entraîner une maladie).

Les méthodes 3C ont démontré l'importance de la proximité spatiale des éléments régulateurs avec les gènes qu'ils régulent. Par exemple, dans les tissus qui expriment les gènes de la globine , la région de contrôle du locus de la -globine forme une boucle avec ces gènes. Cette boucle ne se trouve pas dans les tissus où le gène n'est pas exprimé. Cette technologie a en outre facilité l' étude génétique et épigénétique des chromosomes à la fois dans des organismes modèles et chez l'homme.

Ces méthodes ont révélé une organisation à grande échelle du génome en domaines d'association topologique (TAD), qui sont en corrélation avec des marqueurs épigénétiques. Certains TAD sont transcriptionnellement actifs, tandis que d'autres sont réprimés. De nombreux TAD ont été trouvés chez D. melanogaster, la souris et l'homme. De plus, le CTCF et la cohésine jouent un rôle important dans la détermination des TAD et des interactions amplificateur-promoteur. Le résultat montre que l'orientation des motifs de liaison CTCF dans une boucle amplificateur-promoteur doit se faire face pour que l'amplificateur trouve sa cible correcte.

Maladie humaine

Il existe plusieurs maladies causées par des défauts dans les interactions promoteur-amplificateur, qui sont examinées dans cet article.

La bêta-thalassémie est un certain type de troubles sanguins causés par une suppression de l'élément activateur de LCR.

L'holoprosencéphalie est un trouble céphalique causé par une mutation de l'élément activateur SBE2, qui à son tour a affaibli la production du gène SHH.

La PPD2 (polydactylie d'un pouce triphalangien) est causée par une mutation de l'amplificateur ZRS, qui à son tour a renforcé la production du gène SHH.

L'adénocarcinome du poumon peut être causé par une duplication de l'élément activateur du gène MYC.

La leucémie aiguë lymphoblastique à cellules T est causée par l'introduction d'un nouvel activateur.

L'analyse des données

Carte thermique et visualisation de tracé circulaire des données Hi-C. une. Interactions Hi-C entre tous les chromosomes des cellules rénales humaines G401, telles que tracées par le logiciel my5C. b. Visualisation de carte thermique illustrant la structure bipartite du chromosome X de la souris, telle que tracée par Hi-Browse. c. Visualisation d'une carte thermique d'un locus de 3 Mbp (chr4:18000000-21000000), produite par Juicebox, en utilisant les données Hi-C in-situ de la lignée cellulaire GM12878. ré. Graphique circulaire du chromosome X bipartite de la souris, généré par le navigateur d'épigénome. Image de

Les différentes expériences de style 3C produisent des données avec des structures et des propriétés statistiques très différentes. En tant que tel, des packages d'analyse spécifiques existent pour chaque type d'expérience.

Les données Hi-C sont souvent utilisées pour analyser l'organisation de la chromatine à l'échelle du génome, comme les domaines d'association topologique (TAD), des régions linéairement contiguës du génome qui sont associées dans l'espace 3-D. Plusieurs algorithmes ont été développés pour identifier les TAD à partir des données Hi-C.

Hi-C et ses analyses ultérieures évoluent. Fit-Hi-C est une méthode basée sur une approche de binning discrète avec des modifications de l'ajout de la distance d'interaction (ajustement spline initial, aka spline-1) et du raffinement du modèle nul (spline-2). Le résultat de Fit-Hi-C est une liste d'interactions intra-chromosomiques par paires avec leurs valeurs p et leurs valeurs q.

L'organisation 3-D du génome peut également être analysée via la décomposition propre de la matrice de contact. Chaque vecteur propre correspond à un ensemble de loci, qui ne sont pas nécessairement linéairement contigus, qui partagent des caractéristiques structurelles.

Un facteur de confusion important dans les technologies 3C est les interactions non spécifiques fréquentes entre les loci génomiques qui se produisent en raison du comportement aléatoire des polymères . Une interaction entre deux loci doit être confirmée comme spécifique par des tests de signification statistique.

Normalisation de la carte de contact Hi-C

Il existe deux manières principales de normaliser les cartes thermiques de contact Hi-C brutes. La première consiste à supposer une visibilité égale, ce qui signifie qu'il y a une chance égale pour chaque position chromosomique d'avoir une interaction. Par conséquent, le vrai signal d'une carte de contact Hi-C doit être une matrice équilibrée (la matrice équilibrée a des sommes de lignes et des sommes de colonnes constantes). Un exemple d'algorithmes qui suppose une visibilité égale est l' algorithme Sinkhorn-Knopp , qui met à l'échelle la carte de contact Hi-C brute en une matrice équilibrée.

L'autre façon est de supposer qu'il existe un biais associé à chaque position chromosomique. La valeur de la carte de contact à chaque coordonnée sera le vrai signal à cette position fois le biais associé aux deux positions de contact. Un exemple d'algorithmes visant à résoudre ce modèle de biais est la correction itérative, qui a régressé de manière itérative le biais de ligne et de colonne de la carte de contact Hi-C brute. Il existe un certain nombre d'outils logiciels disponibles pour l'analyse des données Hi-C.

Analyse de motifs d'ADN

Les motifs d'ADN sont de courtes séquences d'ADN spécifiques, souvent de 8 à 20 nucléotides de long, qui sont statistiquement surreprésentées dans un ensemble de séquences ayant une fonction biologique commune. Actuellement, les motifs régulateurs sur les interactions à longue distance de la chromatine n'ont pas été étudiés de manière approfondie. Plusieurs études se sont concentrées sur l'élucidation de l'impact des motifs d'ADN dans les interactions promoteur-amplificateur.

Bailey et al. a identifié que le motif ZNF143 dans les régions promotrices fournit une spécificité de séquence pour les interactions promoteur-amplificateur. La mutation du motif ZNF143 a diminué la fréquence des interactions promoteur-amplificateur, suggérant que ZNF143 est un nouveau facteur de bouclage de la chromatine.

Pour l'analyse des motifs à l'échelle du génome, en 2016, Wong et al. ont rapporté une liste de 19 491 paires de motifs d'ADN pour la lignée cellulaire K562 sur les interactions promoteur-amplificateur. En conséquence, ils ont proposé que la multiplicité d'appariement de motifs (nombre de motifs associés à un motif donné) soit liée à la distance d'interaction et au type de région régulatrice. L'année suivante, Wong a publié un autre article faisant état de 18 879 paires de motifs dans 6 lignées cellulaires humaines. Une nouvelle contribution de ce travail est MotifHyades, un outil de découverte de motifs qui peut être directement appliqué à des séquences appariées.

Analyse du génome du cancer

Les techniques basées sur les 3C peuvent fournir des informations sur les réarrangements chromosomiques dans les génomes du cancer. De plus, ils peuvent montrer des changements de proximité spatiale pour les éléments régulateurs et leurs gènes cibles, ce qui permet de mieux comprendre les bases structurelles et fonctionnelles du génome.

Les références

Lectures complémentaires

Voir également