Thèse pour obtenir le grade de








télécharger 3.33 Mb.
titreThèse pour obtenir le grade de
page3/36
date de publication21.01.2018
taille3.33 Mb.
typeThèse
b.21-bal.com > droit > Thèse
1   2   3   4   5   6   7   8   9   ...   36

II.De la génétique à la bioinformatique

A.La génétique

1.Notions de base

Le patrimoine héréditaire d’un être vivant se transmet de génération en génération. L’ensemble de l’information génétique commune aux individus d’une même espèce constitue le génome. Cette information est représentée dans plusieurs macros molécules d’ADN (Acides DésoxyriboNucléiques). L’ADN est constitué d’une succession de molécules appelées nucléotides. C’est la séquence, c’est à dire l’ordre dans lequel ces éléments de bases sont assemblés dans la macro molécule qui constitue l’information.

La molécule d’ADN interprétée pour donner naissance à des protéines. On peut dire que la molécule d’ADN contient le plan de fabrication des protéines.

Une protéine est, comme la molécule d’ADN, constituée d’une succession d’éléments, les acides aminés. L’ordre dans lequel les nucléotides sont disposés dans l’ADN va déterminer l’ordre dans lequel les acides aminés seront disposés dans la protéine synthétisée. La règle qui permet de passer de l’un à l’autre est identique (ou presque) pour tout le vivant, c’est le code génétique.

Les protéines sont très importantes dans le fonctionnement du vivant. Les enzymes, qui sont des catalyseurs naturel pour les réaction chimiques qui ont lieux au seins du vivant, sont le plus souvent des protéines. Les protéines interviennent dans les mécanismes de régulation et de transport de signal au seins de la cellule ou entre les cellules. On parle à ce propos de voie de régulation ou de voie de signalisation. La capacité d’une protéine à réaliser une fonction est fortement liée à sa structure spatiale. La conformation dans l’espace d’une protéine est décrite en terme de structure dans laquelle on peut reconnaître des motifs (Hunter et al., 1993).

Le patrimoine génétique d’un individu est décomposé en unités d’informations appelées gènes. Il y a environ 20000 gènes pour la drosophile et 30000 pour l’homme. Dans les cas simples, un gène code pour une protéine. Il y a débat pour définir exactement ce qu’est un gène (Wain et al., 2000). Nous adopterons implicitement la définition que se donne Flybase en utilisant les informations issues de cette base de données.

La synthèse des protéines se fait en deux étapes : la transcription et la traduction.

La portion de l’ADN correspondant à un gène est tout d’abord recopiée presque à l’identique, on dit transcrite, dans une molécule messagère appelée Acide Ribo Nucléique messager ou ARNm. Dans certain cas, la molécule transcrite subit des transformations avant d’être traduite ; c’est la maturation. Cette opération se fait souvent par coupure puis recollement de certains segments ; c’est l’épissage. La molécule issue de la transcription mais non encore parvenue à maturité est appelée ARN précurseur. L’ARNm est ensuite traduit en protéine selon les spécifications du code génétique. Cette opération est appelée traduction.

Tous les gènes ne sont pas actifs en même temps. Leur expression est contrôlée à plusieurs niveaux.

Un premier contrôle de l’expression est effectué au niveau de la transcription. Certaines protéines vont pouvoir se fixer sur l’ADN pour empêcher ou au contraire favoriser l’expression d’un gène situé à proximité.

Un deuxième contrôle de l’expression est effectué au moment de la maturation. Ce contrôle de l’expression génétique est dit post-transcriptionnel.

Après la traduction, la protéine produite va elle-même pouvoir subir des transformations qui vont par exemple activer sa fonction. C’est le contrôle post-traductionnel.

Ces actions au niveau moléculaire ont souvent des conséquences observables facilement sur l’individu. Typiquement, une déficience génétique va se traduire par une modification voire une malformation de l’individu. On parle alors d’individu mutant. L’individu originel est qualifié de sauvage. Des défauts génétiques distincts peuvent avoir des conséquences similaires. On fait donc la distinction entre phénotype et génotype. Le phénotype correspond à l’apparence de l’individu tandis que le génotype correspond à sa constitution génétique.

Les deux composantes d’un même gène sont désignées par le terme d’allèles. Des allèles distincts peuvent conduire à des individus tous sains mais ayant des caractéristiques différentes telles que la couleur des yeux. Dans ce cas, la distinction sauvage-mutant n’a plus de sens et n’est pas utilisée.

L’existence simultanée dans une population de plusieurs allèles d’un même gène est appelée le polymorphisme. Son étude est intéressante car elle donne accès aux mécanismes dans lesquels le gène est impliqué, autrement dit à sa fonction.
2.Définition des interactions

Une interaction peut s’exercer de multiples façons. Nous prendrons une définition très large de la notion d’interaction de façon à récolter un maximum d’informations à extraire dans les textes que nous avons annotés manuellement pour les besoins de l’expérience. Un développement possible de notre travail serait de faire des distinctions entre chaque type d’interaction.

Il existe deux grandes catégories d’interactions : interactions moléculaires et interactions génétiques.

Les interactions moléculaires correspondent à un contact entres deux molécules. Les partenaires de ces interactions sont des protéines ou des acides nucléiques (ADN ou ARN), mais un partenaire au moins est une protéine. Il existe donc trois cas de figures :

  • Interaction protéine – ADN,

  • Interaction protéine – ARN,

  • Interaction protéine – protéine.

Cela correspond par exemple au cas d’une protéine qui va se fixer à une séquence d’ADN spécifique et activer la transcription d’un gène. Autres exemples : une enzyme va couper une molécule d’ARN lors de la maturation de celle-ci, ou encore, deux protéines vont s’assembler pour former un complexe.

Dans tous les cas, les phénomènes moléculaires vont avoir des conséquences au niveau génétique. Autrement dit, des expériences de génétiques (par exemple l’observation du phénotype des individus obtenu par croisement) vont trahir les phénomènes moléculaires sous-jacent. Par exemple, il se peut qu’un gène soit inhibé par un autre gène. Ceci nous amène à définir la notion d’interaction génétique.

Les interactions génétiques correspondent à des modifications dans l’action d’un gène induites par l’expression d’un autre gène. Typiquement, les interactions génétiques sont mises en évidence par une observation des phénotypes. Par exemple, si le phénotype d’un mutant sur un premier gène est aggravé ou au contraire sauvé par une mutation sur un deuxième gène, alors il y a interaction entre les deux gènes.

Une interaction génétique peut être la conséquence directe d’une interaction moléculaire mais il se peut aussi qu’elle soit la conséquence d’une cascade d’interactions moléculaires. Les interactions génétiques sont donc des interactions dont on ne connaît pas le mécanisme moléculaire ou qui sont la conséquence de plusieurs interactions moléculaires.

En définitive, la notion d’interaction que nous prenons en compte recouvre des réalités biologiques variées :

  • Possibilité de fixation d’une protéine sur l’ADN

  • Régulation post-transcriptionnelle

  • Modification post-traductionnelle

  • Formation de complexe protéique

  • Activation ou inhibition d’un gène par un autre

  • Participation à des voies de signalisations

  • etc.

B.Le projet génome


Depuis la découverte de l’importance des molécules d’ADN dans le stockage de l’information génétique, les biologistes ont formé le projet d’en connaître la séquence complète. Des actions de séquençages du génome complet de plusieurs organismes ont vu le jours. Le plus grand chantier, en terme de moyen mis en œuvre, est celui qui concerne l’homme ; c’est ce que l’on a appelé le projet génome.

Actuellement, plus de trente-cinq génomes bactériens sont séquencés. On compte aussi cinq génomes d’organismes plus évolués (des eucaryotes), à savoir, la levure Sacharomyces cerevisæ, le ver Cænorhabditi elegans, la mouche Drosophila melanogaster, la plante Arabidopsis thaliana et enfin l’Homme. Ce dernier n’est encore qu’un « premier jet » mais renferme déjà une quantité considérable d’informations nouvelles (The genome sequencing consortium, 2001).

Avec l’apparition de grandes quantités d’informations numérisées disponibles, est apparue une nouvelle discipline scientifique : la bioinformatique. Cette discipline utilise des connaissances issues de la biologie, de l’informatique, des mathématiques et notamment des statistiques. Andrade et Sander (1997) définissent la bioinformatique comme un nouveau domaine de recherche qui, à partir de données biologiques et par l’utilisation de méthodes informatiques, permet de créer des connaissances nouvelles dans le domaine de la biologie elle-même.

Quand il s’agit d’exploiter des informations sur le génome on parle alors de génomique. Ce terme a été inventé par Thomas H. Roderick et al. en 1986 lors d’une discussion sur le nom d’un nouveau journal. Ce journal, Genomics, avait pour objet les données de séquences, la découverte de nouveau gènes, la cartographie génétique et plus généralement les nouvelles techniques en génétique. Ces études de génétique se consacrent au génome pris comme un tout, contrairement par exemple à l’analyse d’un ou de quelques gènes impliqués dans tel ou tel mécanisme biologique.

Au départ, la génomique s’est consacrée principalement à l’analyse des données de séquences. La détermination dans le génome des séquences codantes, à savoir celles qui correspondent à des gènes ou à des séquences régulatrices, est un problème classique de la génomique.

Elle s’oriente désormais vers l’étude de la fonction des gènes. Le terme de génomique fonctionnelle a été formé pour désigner cette nouvelle tendance (Hieter et al., 1997).

La relation entre la séquence et la fonction est une chose très complexe. Il est difficile de prévoir la forme d’une protéine à partir de sa seule séquence en acides aminés. Or la structure spatiale est essentielle dans la détermination de la fonction de la molécule. Ainsi, même quand on se place dans le schéma simplifié qui affirme que l’on peut lire la protéine dans la séquence génétique, on voit que l’on ne peut pas prévoir la fonction d’un gène à partir de l’étude de sa seule séquence. C’est une des gageures de la bioinformatique que de parvenir à comprendre le passage entre séquence génétique et structure protéique pour enfin accéder à la fonction (Attwood et al., 2000).

C.La post-génomique


Le grand projet de séquençage des génomes n’apparaît que comme une étape dans la compréhension des phénomènes biologiques. Le terme de post-génomique a été formé pour désigner cette évolution. Kanehisa et al. (2000), proposent d’employer le terme de génomique (genome informatics) pour désigner l’utilisation de l’informatique pour gérer les grandes quantités d’informations issues de l’étude des génomes, alors que la post-génomique (post genome informatics) aura pour but d’arriver à comprendre les phénomènes biologiques sous-jacents à partir de l’analyse informatique des données issues de l’analyse des génomes.

Pour analyser la fonction des gènes à l’échelle du génome, il faut être capable de comprendre les relations complexes qu’entretiennent les mondes des ADN, des ARN et des protéines. Ne s’intéresser qu’au génome n’est pas suffisant. Les concepts de protéome et de transcriptome ont été forgés à cet effet. Wilkins a créé le terme de protéome en 1994 et l’a défini comme le complément protéique exprimé par le génome (Wasinger, 1995). De la même façon, le transcriptome se défini comme l’ensemble des transcrits à l’échelle du génome.

La protéomique est l’étude de l’ensemble des protéines exprimées dans une cellule à un instant donné dans le but d’obtenir une vision globale des processus cellulaires (Rocha et al., 2000). Il s’agit en particulier de savoir avec quel substrat (ARN , ADN, autre protéine, autre molécule) les protéines exprimées interagissent. La protéomique est un domaine de recherche très actif, mais le but poursuivi est ambitieux car les expériences sont difficiles à mettre en œuvre.

La protéomique structurale se définit comme l’étude de la forme des protéines. Cependant, le terme de génomique structurale est aussi employé. Comme nous l’avons déjà signalé, il est difficile de prévoir la structure d’une protéine à partir de la séquence des acides aminés qui la compose. L’étude expérimentale de la structure des protéines à l’échelle du génome est donc un travail nécessaire mais très ambitieux (Wilkins et al., 1996).

Pour mieux comprendre les relations entre génome et transcriptome, des études expérimentales à grande échelle sont entreprises pour produire des données d’expressions. On cherche par ces expériences à réunir de grandes quantités d’informations sur les ARNm transcrits. Ces informations reflètent directement l’activité d’expression des gènes selon le tissu observé, le stade du développement, l’état normal ou pathologique des cellules, etc. La technologie des puces à ADN est utilisée (The chipping forecast, 1999). La ‘puce’ est constituée d’un support sur lequel sont greffées plusieurs milliers à plusieurs dizaines de milliers de sondes. Chaque sonde va être capable de reconnaître spécifiquement une substance telle qu’une séquence donnée d’ARNm. Les puces à ADN permettent donc de réaliser simultanément plusieurs dizaines de milliers d’expériences simultanément sur une toute petite surface. La logique est donc encore celle d’une production en masse de données, comme pour le séquençage.

Pour l’étude des interactions entre protéines, il existe aussi des techniques de production de données en masse. La méthode dite du double hybride (Fields et al. ,1989), l’électrophorèse bidimensionnelle sur gel et la spectrométrie de masse peuvent par exemple être utilisées. La méthode du double hybride est utilisée à l’échelle du protéome pour la levure.

La post génomique se donne pour objectif d’intégrer toutes ces données quantitatives d’expressions des gènes (Chee et al., 1996). Il s’agit par exemple d’intégrer des données d’expression avec des informations sur les voies métaboliques (Nakao et al., 1999), le but étant principalement de prévoir la fonctions des protéines (Gerstein et al., 2000).

Les informations de séquence, même si elles ne suffisent pas, sont très utilisées pour déterminer la fonction des gènes comme nous allons le voir dans la section suivante.

D.Utilisation du projet génome pour accéder à la fonction des gènes


En premier lieu, notons que la notion de fonction est difficile à définir. Dans les bases de données sont présentes toutes sortes d’informations qui touchent d’une façon ou d’une autre à la fonction des gènes. Il existe principalement quatre types de fonctions :

  • Fonction moléculaire : dans quels processus biochimiques les produits du gène sont impliqués

  • Fonction cellulaire : dans quel processus biologique le gène est impliqué

  • Fonction dans le développement : à quel stade et dans la formation de quel organe le gène est impliqué

  • Fonction d’adaptation : comment le gène participe à la compétitivité de l’organisme dans son milieu.

Ainsi, plusieurs niveaux de description coexistent et il est difficile de construire une notion de fonction qui va rassembler toutes les approches possibles (Davidson et Apweiler, 1999).

Quoi qu’il en soit, les données de séquences sont très utiles pour accéder à la fonction des gènes.

La première façon d’utiliser les données de séquences est de faire des comparaisons avec des séquences dont la fonction est déjà connue. En effet, une similarité dans la séquence trahit souvent l’existence d’un gène ancestral commun. Dans ce cas, les gènes sont qualifiés d’homologues. Cette notion a été définit par Fitch en 1970 (Fitch et al., 1970). La conséquence est que bien souvent on a une analogie de fonction. La recherche de similarité fait partie des méthodes de base de la bioinformatique (Bork et al., 1998). Une séquence étant connue, il s’agit d’identifier les éventuelles séquences homologues déjà présentes dans les banques de données de séquences. Ces recherches de similarités se font le plus souvent par des méthodes tel que BLAST 5 qui permettent de cribler les banques de séquence à la recherche de séquence homologue (Altschul et al., 1990). La recherche d’homologie vaut aussi bien pour des gènes situés dans le même génome que pour des gènes appartenant à des génomes différents. C’est d’ailleurs ce qui justifie l’étude d’organismes aussi éloignés de l’homme que la drosophile. On parle à ce sujet d’organismes modèles.

La comparaison des séquences est une méthode si puissante qu’elle permet d’obtenir des informations sur les interactions génétiques sans avoir aucune connaissance préalable sur la fonction des gènes. En effet, les événements de fusions de gènes au cours de l’évolution trahissent souvent des interactions génétiques entre les gènes qui ont fusionné. Ainsi il est possible grâce une comparaison purement informatique du génome de différents organismes de détecter des interactions génétiques (Enright et al., 1999).

Pour avoir une vision globale de l’information, le biologiste a besoin de consulter plusieurs bases de données, d’où l’intérêt des travaux sur la création de liens entre bases de données.

III.La recherche et l’extraction d’informations textuelles


Pour communiquer le résultat de leurs recherches, les scientifiques écrivent des articles qui sont publiés sur divers supports. Ces informations sont disponibles par l’accès au résumé que permettent les bases de données bibliographiques telles que Medline. Les bases de données factuelles fournissent, elles aussi, des informations sous forme de textes écrits directement par des annotateurs. Dans le domaine des interactions génétiques et moléculaires, on peut citer SWISS-PROT 6 (Bairoch et al., 2000) qui est une base de données sur les protéines particulièrement riche en annotations. Dans cette base de données, de nombreuses informations sont données sur la structure et la fonction des protéines, ainsi que sur les modifications post-traductionnelles subies par les protéines.

Dans les deux cas, ces informations, de nature textuelle, sont inaccessibles à la compréhension directe de l’ordinateur. On dit qu’ils sont écrits en langage naturel, par opposition aux langages formels utilisés en informatique. Ainsi, par exemple, l’essentiel de l’information sur les interactions génétiques et moléculaires n’est accessible que par le texte.

Pour accéder à l’information contenue dans les textes, deux domaines de recherche peuvent être mis à contribution : la recherche d’information textuelle et l’extraction d’information textuelle. Nous allons dans cette partie définir ces domaines et donner des exemples de réalisation.

A.La recherche d’informations textuelles


Les techniques de recherche d’informations textuelles (RI) sont directement issues de la recherche documentaire qui est une discipline ancienne, antérieure à l’apparition des ordinateurs. Le but poursuivi par ces techniques est de permettre un accès au document plus rapide que la consultation intégrale de la collection des documents. L’élaboration d’index est la technique la plus simple. Plus généralement, un système de représentation des documents est utilisé. La requête de l’utilisateur est représentée dans un autre système de représentation. Requête et document sont comparés par l’appariement de leurs représentations. L’ensemble des documents appariés est présenté à l’utilisateur avec éventuellement un indice de pertinence. Il existe deux modèles principaux de recherche documentaire : le modèle booléen et le modèle vectoriel.

Dans le premier cas, la requête s’exprime à travers une expression booléenne, par exemple : auteur=Salton ET (année=1980 OU année=1981). L’appariement ne se fait que s’il y a correspondance exacte, c’est à dire si les caractéristiques du document correspondent exactement à la requête. Ce système est très largement utilisé, aussi bien pour les bases de données bibliographiques que pour les moteurs de recherche sur internet.

Dans le cas du modèle vectoriel, on recherche une similitude entre document et requête plutôt qu’une correspondance exacte. Cette similitude est une quantité qui prend des valeurs entre zéro et un. Elle est d’autant plus grande que document et requête ont des mots en communs. Dans ce modèle, les documents et les requêtes sont représentés par des vecteurs dans un espace vectoriel. La similitude entre document et requête est calculée par le cosinus de l’angle que font les deux vecteurs.

Les méthodes de recherche documentaires doivent être évaluées sur la quantité et la qualité des réponses qu’elles fournissent. Deux indicateurs sont utilisés pour cela. Il s’agit du taux de rappel et du taux de précision (Salton et al., 1983). Le premier correspond à la proportion des documents trouvés (parmi les documents cherchés). Le second correspond à la proportion de documents pertinents (parmi les documents ramenés).

Pour améliorer la performance du système de recherche, des traitements sont nécessaires. Il s’agit de simplifier la représentation des documents afin d’éviter que des documents similaires soient considérés comme trop différents (Faloutsos et al., 1995). Une des premières étapes consiste à éliminer les mots qui à eux seuls n’apportent pas d’information sur le document (Van-Rijsbergen et al., 1979). Ces mots sont appelés mots vides 7. Ce pré-traitement a été utilisé lors de la détermination du vocabulaire spécifique de l’interaction génétique ou moléculaire. Une seconde étape dans le traitement classique des documents, consiste à lemmatiser les textes (Salton, 1989). Il s’agit de faire disparaître les différences morphologiques, par exemple les marques de pluriel, de féminin ou de conjugaison. Toutes les formes fléchies sont ramenées à une forme unique qui est appelée le lemme. Cette technique a été utilisée une première fois pour déterminer le vocabulaire spécifique et une seconde fois pour détecter les phrases qui par leur vocabulaire semblent décrire des interactions génétiques ou moléculaires.

D’autres directions de recherche existent en recherche d’information. Il y a notamment les techniques visant à organiser automatiquement les documents. Ces techniques permettent de faciliter la consultation et donc d’accéder plus facilement aux documents et à l’information. Cette organisation peut consister en des opérations de sélection de documents selon un thème, de tris des documents selon leur pertinence par rapport à une problématique, de classement en différentes rubriques, etc. A titre d’exemple, Ususaka et al. proposent une méthode basée sur l’apprentissage de cas pour sélectionner des résumés traitant d’un thème particulier (1998).

Dans le domaine de la veille technologique et de l’intelligence économique, Goujon propose un système d’analyse de texte qui met en évidence des segments de textes ayant des traits particuliers (2000). Cette technique permet, d’après son auteur, d’analyser le contenu d’un ensemble de documents tels que des brevets sans avoir à les lire intégralement.

Voyons maintenant dans quelle mesure notre travail s’inscrit dans la recherche d’informations et comment il s’en distingue.

Le premier volet de notre travail, à savoir, l’identification de gènes dans les textes, s’inscrit en partie dans la recherche d’informations. Il s’agit de repérer des objets pertinents dans des textes.

Cependant, nous faisons une distinction entre la détection d’une occurrence d’un gène et l’identification d’un gène. Dans le premier cas, il s’agit de détecter la présence d’une référence à un gène, autrement dit de repérer qu’un segment de texte est un nom de gène. Dans le second cas, il s’agit en plus d’associer le segment de texte à un gène bien précis d’une liste établie préalablement.

Quand nous voulons parler indifféremment de l’une ou de l’autre des tâches nous emploierons l’expression reconnaissance de gènes. Dans cette expression, il n’est pas précisé s’il s’agit simplement de repérer la présence d’un gène ou s’il s’agit de déterminer de quel gène exactement on parle.

La tâche qui est la nôtre est bien celle de l’identification des gènes dans les textes. Elle se rapproche de la recherche d’informations. Cependant, dans la recherche classique d’informations, un seul objet est recherché, alors que nous allons rechercher tous les gènes de la drosophile. Nous classerons donc notre travail dans la création de liens entre bases de données textuelles et factuelles comme nous le verrons section IV.

B.L’extraction d’informations textuelles


La recherche d’informations, dans son expression la plus simple, consiste à extraire un document ou un segment de document, c’est à dire une portion de texte. Le résultat est destiné à la lecture humaine et non à une exploitation informatique. Si l’on cherche à retourner une information codée dans un langage accessible à l’ordinateur, on quitte le champ de la recherche d’informations pour entrer dans celui de l’extraction d’informations.

L’extraction d’informations peut être considérée comme une branche de l’informatique. Il s’agit de répondre à une question bien précise. La réponse devra être codée dans un format défini par avance (Jacquemin et al., 2000). Des exemples typiques de tâches d’extraction d’informations sont donnés dans la série de conférences MUC (MUC-6, 1996). Les Message understanding conferences sont des compétitions organisées dans le domaine de l’extraction d’informations. Dans les épreuves, il s’agit par exemple de savoir quelles sont les entreprises qui fusionnent, se créent, passent des accords, etc. Pour réaliser une telle tâche, il faut être capable de réaliser des sous-tâches. La compétition est organisée en épreuve correspondant chacune à une sous-tâche. Je décris dans les sections suivantes chacune des sous-tâches définies par les conférences MUC.

  • La reconnaissance d’entités nommées (REN)

Il s’agit de reconnaître les entités tels que des noms d’entreprise, des noms de personnes, des noms de lieux, des dates, etc. Les méthodes utilisées peuvent être basées sur un apprentissage statistique d’exemples (Bikel et al., 1997), sur le repérage d’indices comme les titres honorifiques (Monsieur, Docteur, etc.), ou sur la recherche de patron syntaxique. Pour chaque entité rencontrée, une marque SGML (i.e. une chaîne de caractères) est posée de façon à délimiter la portion de texte repérée.

De tels travaux existent pour la reconnaissance des labels et nous y reviendrons dans la partie consacrée aux travaux concernant la reconnaissance de gènes sans lexiques (section Chapitre 2 I.B).

  • La résolution d’anaphore (co-reference resolution)

Il s’agit de repérer quand, dans un texte, il est fait référence plusieurs fois à une même entité, même si cette entité est nommée de façons différentes ou si un pronom personnel est utilisé. Cela recouvre en particulier la détection de lien d’abréviation, avec comme exemple d’utilisation la construction de dictionnaire d’acronymes à partir de corpus. Ce type de tâche est utile pour la reconnaissance des interactions car il est fréquent qu’un gène soit nommé de plusieurs façon dans le même résumé, précisément dans le cas d’utilisation d’abréviation. En revanche, le cas de l’utilisation d’un pronom pour faire référence à un gène semble être très peu fréquent dans notre corpus.

Il existe des travaux sur la construction, à partir de corpus, de dictionnaire d’acronymes pour les noms de gènes. Nous y reviendrons à la section Chapitre 2 I.C.

  • Le remplissage d’un formulaire simple (template element)

Il s’agit de trouver des caractéristiques d’un objet. Par exemple, pour un produit, trouver son nom, la société qui le fabrique, son prix, etc.

  • La découverte d’une relation (template relationship)

Il s’agit de mettre à jour des relations entre les objets. On peut classer l’extraction d’informations sur les interactions dans cette catégorie.

  • La description d’un évènement (scenario template)

Il s’agit de donner les caractéristiques d’un événement dans un texte : objets impliqués et modalités de réalisation. Par exemple : qui arrive à quel poste dans quelle entreprise. Dans le domaine de la génétique cela pourrait être : quelle protéine se fixe sur quel site promoteur, à quel stade du développement et quel est le type d’expérience qui a permis d’en apporter la preuve. Nous n’avons pas connaissance de système aussi élaboré dans le domaine de la génétique.

Nous voyons que l’extraction d’information se concentre sur la compréhension du texte, en évitant de faire référence à des connaissances extérieures. Par exemple, dans la tâche de reconnaissance des personnes, la question est plus de savoir qu’une portion de texte est un nom de personne (reconnaissance d’entité nommée) ou de savoir que plusieurs portions de textes renvoient en fait à un même individu (résolution d’anaphore), plutôt que d’identifier la personne avec une entrée d’un annuaire. Ainsi, la question est de comprendre ce qui est dit dans le texte et non de relier les éléments de compréhension acquis dans le texte à des connaissances acquises indépendamment.

Si le problème consiste à connecter, d’une part, des éléments de compréhension acquis dans le texte à, d’autre part, des connaissances du domaine acquises indépendamment, on se trouve face à d’autres exigences. On est placé dans le domaine de ce que nous appellerons la création de liens entre données factuelles et données bibliographiques. Cette thématique rejoint celles du couplage des bases de données, qu’elles soient bibliographiques ou factuelles.

IV.Le couplage des Bases de données


Les informations utiles aux biologistes sont souvent disséminées dans de multiples bases de données, chacune de ces bases de données ayant ses propres buts (Discala et al., 2000). Il serait illusoire de vouloir toutes les rassembler, de façon à présenter un point de vue unique sur la réalité. Apparaît néanmoins la nécessité de faire des liens entres les différentes informations qui s’y trouvent (Karp et al., 1996).

A.La création de liens entre bases de données


Il est vrai que chaque base de données s’emploie à créer des liens vers d’autres bases de données. Ainsi, il est très courant, dans les bases de données factuelles, de voir des références à des notices bibliographiques issues de Medline. Cependant, le travail de mise en relation est souvent fait manuellement. Il ne peut donc être exhaustif et rapide.

Des bases de données, créées spécifiquement pour compulser des données trouvées dans d’autres bases de données ont vu le jour. On peut citer Genecards 8 qui est une encyclopédie sur les gènes humains (Rebhan et al., 1998). Cette base de données rassemble sous une forme conviviale des informations sur les gènes, les protéines, les séquences et les pathologies. L’intérêt de cette base réside dans le fait que ces quatre types d’objets sont intimement liés. Plus précisément, la base est organisée autour des gènes qui sont présentés sous forme de ‘carte’, qui est un écran de synthèse sur toutes les informations rassemblées sur le gène. La base comporte 22400 cartes, ce qui correspond à 7000 gènes différents. Les informations sont issues des bases de données les plus complètes sur leurs sujets, entre autres SWISS-PROT, OMIM, GENATLAS et GDB.

OMIM 9 est un catalogue de gènes humains et de maladies associées. GENATLAS 10 est une compilation d’information sur la cartographie du génome humain. GDB 11 est une autre base de données sur la cartographie du génome humain.

DBGET/LinkDB est un autre projet d’acquisition et de gestion de données venant de bases de données biologiques hétérogènes (Fu jibuchi et al., 1998). C’est le système sur lequel s’appuie le programme GenomeNet dont fait partie l’encyclopédie sur les voies métaboliques KEGG.

Au niveau français, on peut citer la base de données prototype Virgil 12 qui permet de gérer des liens entre deux bases de données, à savoir, GenBank, qui est une base de séquences de gènes humains, et GDB qui est une base de données sur la cartographie des gènes humains (Achard et al., 1998). Cette base de données permet de compter les liens entres les enregistrements des bases de données, de savoir s’ils sont réciproques ou unidirectionnels, etc. La base de données est accessible à travers CORBA 13 qui est une interface qui permettant d’interroger plusieurs bases de données à la fois.

Pour faciliter les échanges d’informations entre les bases de données, les ontologies sont utilisées. Il s’agit de représentations formelles d’un domaine scientifique donné. Dans ces représentations, les objets et les relations entre ces objets sont décrits. Les ontologies peuvent être utilisées pour représenter les schémas d’organisation de l’information dans une base. L’ontologie devient la référence commune à plusieurs bases de données et elle permet l’échange d’information entre les différentes bases.

B.Couplage des bases de données factuelles avec des bases de données bibliographiques


Dans une base de données, les informations peuvent être codées, soit dans un langage naturel, par exemple l’anglais, soit codé dans un langage symbolique ou numérique. Dans le premier cas, nous parlerons de données textuelles, dans le second cas de données factuelles. Nous parlerons de bases de données textuelles pour les bases de données qui renferment essentiellement du texte. Il s’agit principalement de bases de données bibliographiques telles que Medline. Les bases de données factuelles sont les bases de données qui contiennent peu de texte. Il s’agit par exemple de bases de données de séquences ou d’encyclopédies sur les gènes d’un organisme particulier comme Flybase.

Nous inscrivons notre travail dans le couplage de bases de données bibliographiques avec des bases de données factuelles et plus généralement dans la mise en relation de données textuelles et de données symboliques ou numériques. Il s’agit de mettre en relation un ensemble de textes avec une collection d’informations contenues dans une base de données. Les liens peuvent être considérés, soit comme un repérage de faits décrits dans des textes, soit comme le repérage d’un commentaire textuel sur des faits. Ainsi, il s’agit, soit de construire automatiquement une bibliographie, soit de repérer des faits décrits dans des textes.

La création de liens entre données textuelles et données factuelles touche à la fois à la recherche d’information et à l’extraction d’information :

  • Quel sont les textes qui décrivent le mieux tel ou tel fait ?

  • Quelles sont les meilleures représentations du contenu du texte ?

Dans notre cas, la base de données textuelles est Medline. Les bases de donnée factuelles que nous utilisons sont, d’une part Flybase et d’autre part une base de données sur les interactions génétiques que nous avons construite. Dans cette dernière, les interactions sont décrites par un couple de gènes et une indication sur le sens de l’interaction.

Le lien entre Flybase et Medline consiste à identifier un gène dans une phrase : tel gène apparaît sous telle forme dans telle phrase à tel endroit dans la phrase. Le lien entre la base de données sur les interactions que nous avons créée et Medline correspond à la reconnaissance d’une interaction dans une phrase : tel gène interagit avec tel gène (avec indication éventuelle du sens) d’après telle phrase.

Ainsi, chaque lien est de nature assez différente. Dans le cas de l’identification des gènes, la base de données sur les gènes est donnée d’avance et il s’agit donc davantage de recherche d’information. Dans le cas de la reconnaissance des interactions, la base de données sur les interactions est créée au fur et à mesure et il s’agit donc davantage d’extraction d’informations.

Cependant, à l’avenir, nous aimerions travailler avec une liste d’interactions déjà constituée. Par exemple, il pourrait s’agir d’interactions hypothétiques obtenues par des expériences sur puces à ADN. La question serait alors d’avantage de trouver de la bibliographie permettant de valider les interactions plutôt que d’extraire de l’information.

Nous allons maintenant aborder l’état de l’art en ce qui concerne la question de la reconnaissance des gènes ou de leurs produits dans les textes. Dans la partie suivante nous traiterons de l’état de l’art en ce qui concerne l’extraction d’informations sur les interactions à partir de textes.
1   2   3   4   5   6   7   8   9   ...   36

similaire:

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de Docteur

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de
«capricieuse»!!! Merci également de m’avoir permis d’être impliqué dans des collaborations (eth zurich) et dans un programme Européen...

Thèse pour obtenir le grade de iconThèse présentée pour l’obtention du grade de Docteur

Thèse pour obtenir le grade de iconThèse pour l’obtention du grade de docteur de l’université

Thèse pour obtenir le grade de iconThèse pour obtenir le titre de

Thèse pour obtenir le grade de iconThèse présentée en vue de l'obtention du grade de

Thèse pour obtenir le grade de iconThèse présentée en vue d’obtenir

Thèse pour obtenir le grade de iconCe site permet d’obtenir les liens pour disposer de l’intégralité des programmes de Maths








Tous droits réservés. Copyright © 2016
contacts
b.21-bal.com