Génome complet I le shotgun («séquençage aléatoire»)








télécharger 31.34 Kb.
titreGénome complet I le shotgun («séquençage aléatoire»)
date de publication19.01.2018
taille31.34 Kb.
typeDocumentos
b.21-bal.com > comptabilité > Documentos

LE SEQUENCAGE


Sommaire

Génome complet

Le shot-gun

La voie systématique

Ordonnancement des clones

Par rapport aux chromosomes

Entre clones dans un même chromosome

Séquençage des contigs

Banques et séquençage de cDNA

Clonage positionnel


    1. Génome complet




I.1.1.Le shotgun (« séquençage aléatoire »)


Principe général

Cette approche, fortement tributaire de l'informatique, commence par découper de façon aléatoire le génome en différentes sections de longueur prédéterminée : 2.000 paires de base, 10.000 paires de base ou 50.000 paires de base. Des algorithmes mathématiques permettent ensuite d'assembler les fragments qui se suivent et de leur attribuer leur véritable emplacement sur le génome.
Les différentes étapes peuvent se résumer de la façon suivante :

  • Découpage du génome en fragments qui sont insérés dans un vecteur (BAC, YAC, …).

  • Cosmide ou BAC sous-cloné en fragments de petite taille

  • Des clones prélevés aléatoirement sont séquencés

  • Des séquences contiguës sont reconstruites par recouvrement

  • Les séquences restantes sont réalisée de façon dirigée.

On voit tout de suite que cette approche est problématique en présence de longues régions répétées.
Deux méthodes de shotgun pour le séquençage de génomes:

  • le shotgun "genome complet" (whole-genome shotgun) s'applique normalement aux génomes relativement simples, en se exploitant au maximum les informations de cartographie et la bioinformatique pour éviter les misassemblages. Employé par Celera.

Le shotgun hierarchique ou "clone par clone" implique de générer un jeu de clones de grande taille (100-200kb) couvrant le génome puis de soumettre au shotgun uniquement des clones bien choisis. Ceci élimine les risques d'erreur "longue distance".

I.1.2.La voie systématique


On considère comme préalable la constitution d’une banque de clones dans lesquels des fragments du génome ont été insérés. Deux stratégies différentes sont utilisées pour la cartographie physique du génome humain (en tant que génome de grande taille) :

L'approche chromosome-spécifique

Elle consiste à ordonner les clones issus d'un chromosome pris isolément, de manière à limiter la complexité et l'ampleur de la tâche.

Inconvénient : la purification du matériel génétique d'un chromosome donné n'est techniquement pas facile à réaliser.

L'approche génome entier

Cette approche nécessite plusieurs étapes d’ordonnancement :

  • Chaque clone doit être identifié individuellement.

  • Le clone doit être positionné sur le chromosome dont il est issu .

  • Les clones issus d’un même chromosome doivent être ordonnés entre eux.



Ordonnancement par rapport aux chromosomes (dans le cas d’une approche génome entier)


La position du clone par rapport au chromosome dont il dérive doit être déterminée

Celle-ci est définie grâce à deux techniques :
Technique 1 : Utilisation d'hybrides somatiques monochromosomiques : permet d'identifier le chromosome humain dont provient un clone donné.
Les hybrides de cellules somatiques ont été développés dans les années 1960, après la mise en évidence des phénomènes de fusion cellulaire spontanée et la mise au point de techniques d'induction (virus de Sendai, PEG). Ces hybrides résultent de la fusion de cellules primaires de l'espèce étudiée et d'une lignée établie de rongeur (souris ou hamster en général). Au cours de leur prolifération en culture, les clones de cellules hybrides perdent aléatoirement des chromosomes de la lignée primaire, alors que les chromosomes de rongeur sont conservés. Il est ainsi possible de créer une collection d'hybrides comportant chacun un jeu différent de chromosomes de la lignée primaire. Le nombre de chromosomes retenus est variable, en fonction de la durée de culture, et peut être réduit à un seul dans le cas d'hybrides monoporteurs, comme il en existe chez l'Homme ou le porc.


Les clones de la collection d'hybrides sont analysés par tests d'expression enzymatique, hybridation de sondes, amplification PCR, etc, afin de définir tout d'abord des synténies, c'est-à-dire des groupes de locus conservés ou perdus ensemble et donc localisés sur le même chromosome. L'utilisation des hybrides somatiques permet ainsi d'assigner des locus à des chromosomes et éventuellement d'obtenir une localisation régionale si les hybrides ne contiennent qu'un fragment d'un chromosome et/ou si leur analyse caryotypique est réalisable.

Technique 2 : FlSH : permet de déterminer la position du clone sur le chromosome.

Ordonnancement des clones issus d’un même chromosome

L'ordonnancement des clones est obtenu par deux voies complémentaires :

La voie top-down

(du général vers le particulier). Les marqueurs ordonnés sur les cartes de liaison sont utilisés pour identifier des clones génomiques qui les contiennent (par criblage de banque) et qui s'en trouvent par conséquent immédiatement cartographiés.

La voie bottom-up

(du particulier vers le général). Les données de recouvrement local (par comparaison de profils de restriction, hybridation ou PCR) sont utilisés pour identifier les groupes de chevauchements qui dans certains cas peuvent se rejoindre. Ceci est utilisé pour les petits génomes et pour les cartes locales chez l'homme, l'ordonnancement est établi entre clones pris deux à deux, de trois manières possibles :

- Par comparaison des profils de restriction des cartes de restriction de chacun des clones.

Deux clones chevauchants (recouvrants) présenteront dans ce cas des fragments de restriction (fingerprint) de même taille.

- Par hybridation

Deux clones sont partiellement chevauchants si une sonde dérivée de l'un s'hybride sur l'autre.

- Par un contenu commun en marqueur

Deux clones sont partiellement chevauchants s'ils contiennent un même marqueur unique. La technique utilisée est le criblage de la banque de clones à étudier : les clones sont testés en PCR avec un marqueur donné (présence : réponse positive ou absence: réponse négative). Par exemple le STS (sequence-tagged site) est un marqueur de choix pour cette cartographie physique.


I.1.3.Séquençage des contigs

Le séquençage automatique

L'établissement des séquences a beaucoup évolué ces dernières années avec la progression des séquenceurs automatiques. Ces derniers réalisent deux opérations :

La lecture

Ils sont équipés d'un système optique qui balaye le bas du gel d'électrophorèse : le signal obtenu est interprété par un programme informatique qui reconstituera la séquence originale du fragment d'ADN analysé. Un séquenceur automatique peut par opération unitaire, ou "lecture", déterminer l'enchaînement de 500 à 1000 nucléotides. Les molécules d'ADN à séquencer étant beaucoup plus longues que les lectures, il est nécessaire de réaliser des lectures redondantes qu'il faut ensuite raccorder les unes aux autres. Un "run" correspond à une expérience d'électrophorèse et il permet de faire entre 60 et 100 lectures.

L'assemblage

C'est à cette dernière étape qu'intervient traditionnellement la bioinformatique. Pour reconstituer la séquence initiale, les lectures doivent en effet être ordonnées les unes par rapport aux autres par la mise en évidence de recouvrements (extrémités chevauchantes), c'est à dire des régions terminales présentant un enchaînement de nucléotides identiques (aux erreurs de séquençage près). Une "contig" désigne deux ou plusieurs fragments chevauchants.
Le but du projet est d'aboutir (par recouvrements successifs de l'ensemble des contigs) à une contig unique correspondant à la séquence consensus.

Outre des erreurs ponctuelles (la disparition d'une base ou sa substitution par une autre), des erreurs dans l'ordre des sous-séquences restent possibles. Le taux d'erreur peut approcher 1%. De plus, certaines portions (zones répétées ...) de la molécule d'ADN sont plus délicates à séquencer et l'obtention d'une séquence qui couvre 100% d'un génome est particulièrement coûteuse. C'est pour ces raisons que l'on qualifie de "brouillon" (working draft) certains génomes en voie d'achèvement de séquençage.

Méthode de Sanger

-Pour connaître la séquence des ADN, on fait synthétiser un brin d'ADN par une enzyme spécifique.

-L'enzyme commence son travail à partir de l'extrémité 3' d'une sonde hybridée qui sert d'amorce. Elle ajoute des nucléotides complémentaires de ceux du brin d'ADN qu'elle copie.

-On lui donne pour substrats des désoxynucléotides triphosphates normaux mélangés avec des didésoxynucléotides dont la fonction alcool secondaire en 3' est réduite ce qui empêche la synthèse de se poursuivre au delà.

-Les didésoxynucléotides incorporés en dernier sont marqués spécifiquement par des molécules fluorescentes (vert pour didésoxyA, bleu pour didésoxyC, jaune pour didésoxyG et rouge pour didésoxyT)

-On sépare ensuite les fragments synthétisés dans un champ électrique (électrophorèse : les ADN sont des anions, ils vont donc vers le pôle +), en fonction de leur longueur (les plus petits vont plus vite).

-On lit ensuite les taches successives, identifiées par leur couleur, ce qui révèle la séquence des fragments synthétisés.
Le principe utilisé consiste donc à synthétiser toutes les copies partielles intermédiaires possibles de la molécule d'ADN. Cette synthèse est réalisée à l'aide d'un composé chimique fluorescent qui provoque l'interruption au hasard, mais systématique à la suite d'un seul des 4 nucléotides A, T, G ou C. On fait donc, en parallèle, 4 séries de copies. Dans chaque série, toutes les copies seront interrompues derrière un seul type de nucléotide ; par exemple, toutes les copies intermédiaires d'une série seront terminées par un A.


On sépare alors les copies selon leur taille par une migration électrophorétique dans un gel poreux. Ces gels permettent de séparer deux intermédiaires consécutifs qui ont une différence de taille d'un seul nucléotide. Il devient possible de reconstituer la succession des nucléotides tout au long de la séquence.
Technique chimique de Maxam et de Gilbert

La méthode chimique de MAXAM et de GILBERT est moins utilisée actuellement que la méthode enzymatique de SANGER. L’ADN à séquencer est tout d’abord marqué en 5’ avec phosphore 32 (dATP), puis clivé après A, G, C ou T par divers réactifs chimiques. Après clivage par ces réactifs, les fragments produits sont séparés par électrophorèse en gel de polyacrylamide. L’examen de l’autoradiographie correspondante permet de connaître la séquence du brin analysé.
Pour en savoir plus sur ces deux techniques de séquençage, vous pouvez consulter le site de l’INAPG : http://www.inapg.inra.fr/ens_rech/bio/biotech/textes/techniqu/techsequence/techniques-sequencage.htm
Pour vous aider à mieux visualiser les différentes étapes du séquençage, nous vous proposons des animations. Pour démarrez, il vous suffit de cliquer sur http://www.sciences-en-ligne.com/gene_genome/module_flash/sequence/module_seq.htm

ou http://vector.cshl.org/Shockwave/cycseq.html


Banques et séquençage de cDNA


Un tel programme consiste à :

Construire une banque d'ADNc :


A partir d'un tissu ou d'un type de cellules en culture, les ARNm sont purifiés, recopiés en ADNc simple brin à partir desquels sont synthétisés les ADNc double brin. Ces derniers sont alors clonés sous la forme d'une collection de clones indépendants.

Séquencer l'ADNc :


Séquençage systématique, intensif mais partiel (pour réduire le temps et le coût) de grandes séries de clones avec des moyens techniques fortement robotisés et automatisés : chaque fragment d'ADNc cloné n'est séquencé qu'une seule fois sur quelques centaines de nucléotides de chacune de ses extrémités : on obtient les EST (marqueurs de séquences exprimées). Toutefois, cette méthodologie employée entraîne un taux important d'erreurs dans les séquences (environ 3%).

Jusqu'à ces dernières années, la plupart des séquences publiées étaient issues de recherches émanant d'un seul laboratoire et portant sur un gène particulier. Mais aujourd'hui, ce sont les divers projets de séquençage systématique qui deviennent les principaux producteurs de séquences.

La banque dbEST, banque publique créée en 1993, centralise les séquences EST issues des différents projets de séquençage. Mais la collection présente une forte redondance due au fait que ces séquences ont été obtenues à partir de clones pris au hasard dans de nombreuses banques d'ADNc établies à partir de divers tissus. Par conséquent, des EST peuvent correspondre à des parties différentes, souvent (mais pas toujours) chevauchantes d'un même gène exprimé.

Des banques tentent de regrouper (grâce à un ensemble de logiciels de clusterisation) les séquences qui à priori proviennent du même gène. Parmi elles :

  • UNIGENE

  • TIGR Genes Indices

L'ensemble des EST consensus provenant de tous les tissus confondus (banque STACK) peut donner une évaluation du nombre total de gènes humains. Toutefois, la base de données dbEST peut être incomplète. Il peut en effet toujours exister des gènes très peu exprimés ou exprimés uniquement dans un tissu bien particulier à un instant précis du développement embryonnaire et qui échapperaient ainsi à ce comptage. Les premières estimations du nombre de gènes humains l'incluait dans une fourchette comprise entre 40000 et 100000. Les données issues de la dernière version du séquencage du génome humain (via la prédiction des ORFs notamment) l'évalue aujourd'hui à une valeur comprise entre 25000 et 40000.

Le clonage positionnel

Introduction


Méthode qui utilise les techniques de cartographie et de séquençage, pour identifier un gène dont la mutation est responsable d'une maladie : travail de focalisation progressive qui, grâce aux cartes du génome, permet d'identifier et de réduire progressivement un intervalle contenant le gène muté. Une fois une telle région définie, on recherche les gènes qui y sont localisés et, parmi ceux-ci, lequel est responsable de la maladie.

Les étapes de l’identification d'un gène responsable de maladie par clonage positionnel :


McKusick (auteur de la base OMIM) a répertorié 5000 maladies monogéniques. On en comptabilise aujourd'hui environ 6800.

  • tout être humain est porteur de 5 anomalies génétiques graves (qui ne s'expriment pas forcément).

  • un enfant sur 100 naît avec une maladie génétique.

Identifier un gène responsable d'une maladie génétique, c'est localiser et définir la (les) mutation(s) à l'origine de celle-ci. Selon le cas, l'identification du gène peut s'effectuer de plusieurs manières différentes :

Par la voie biochimique

Des indications relatives à la nature ou à la fonction de la protéine défectueuse peuvent permettre de remonter au gène présentant l'anomalie : on utilise alors la technique du clonage fonctionnel.

Par la voie cytologique

Des observations cytogénétiques peuvent révéler des anomalies chromosomiques (délétions, translocations) qui peuvent guider les recherches vers une région précise du génome.

Par le clonage positionnel

Si rien ne semble décelable au niveau biochimique ou cytologique, on utilise dans ce cas le clonage positionnel : la localisation de la région responsable de la maladie génétique étudiée s'effectue alors par analyse de liaison.
Le clonage positionnel procède par plusieurs étapes :

  • Recensement des familles au sein desquelles ségrège la maladie étudiée et extraction de l'ADN génomique du plus grand nombre d'individus de ces familles (atteints ou sains) à partir d'un échantillon sanguin prélevé sur eux.

  • Génotypage d'environ 200 à 300 marqueurs répartis à intervalles réguliers le long des chromosomes afin d'identifier ceux dont les allèles ségrègent spécifiquement avec le phénotype associé à la maladie : ces marqueurs définissent un intervalle de liaison au sein duquel se trouve le gène responsable.

  • La carte physique de la région impliquée est établie sous la forme d'un assemblage de sYAC chevauchants

  • L'inventaire de l'ensemble des gènes présents sur cet intervalle (notamment à l'aide d'une recherche d'EST) est dressé, et parmi ceux-ci est recherché celui présentant des mutations qui ségrègent spécifiquement chez les individus malades.

L'examen prioritaire de tel ou tel gène candidat peut être privilégié par :

  • le mode d'expression de la maladie ou sa parenté avec des gènes dont la fonction est connue.

  • L'existence de synthénies, c'est à dire, des groupes de liaisons conservés entre deux espèces, comme l'homme et la souris par exemple : un gène responsable d'un caractère donné identifié chez la souris a des chances d'être présent dans la région équivalente chez l'homme.

  • La détection de mutations passe alors par l'examen des séquences obtenues par Southern blot ou séquençage. La comparaison des séquences du gène chez les individus sains et les individus malades permet d'identifier la mutation responsable de la maladie.

similaire:

Génome complet I le shotgun («séquençage aléatoire») iconPackages r proposés pour l’analyse différentielle de données de séquençage...
«Le pendant du test limma adapté aux données de séquençage (cf moderated t-test du même auteur)»

Génome complet I le shotgun («séquençage aléatoire») iconDéveloppeur de pipeline d’analyse de génome

Génome complet I le shotgun («séquençage aléatoire») icon3 Transcription inverse du génome viral 23

Génome complet I le shotgun («séquençage aléatoire») iconAu cours de la gamétogenèse IL y a une répartition aléatoire des...

Génome complet I le shotgun («séquençage aléatoire») iconStructure, organisation, dynamique et polymorphismes du génome humain

Génome complet I le shotgun («séquençage aléatoire») iconVariations qualitatives du génome normal=> Single Nucleotide Polymorphism

Génome complet I le shotgun («séquençage aléatoire») iconExcept when indicated, all transcriptome and genome analysis was...

Génome complet I le shotgun («séquençage aléatoire») iconIntitulé complet de la structure fédérative

Génome complet I le shotgun («séquençage aléatoire») iconManuel complet Version préliminaire

Génome complet I le shotgun («séquençage aléatoire») iconExamen obstétrical complet en insistant sur








Tous droits réservés. Copyright © 2016
contacts
b.21-bal.com