Thèse pour obtenir le grade de








télécharger 3.33 Mb.
titreThèse pour obtenir le grade de
page27/36
date de publication21.01.2018
taille3.33 Mb.
typeThèse
b.21-bal.com > droit > Thèse
1   ...   23   24   25   26   27   28   29   30   ...   36

Partie 3
Conclusion

Chapitre 1 Bilan du travail


Les connaissances sur la génétique sont recensées, organisées et structurées dans des encyclopédies électroniques ou dans des banques de résultats d’expériences. Ces informations, pour être exploitées au mieux, doivent être reliées aux textes des publications qui leur correspondent. Il s’agit, soit de reconnaître dans des textes des objets décrits dans des encyclopédies électroniques, soit de rechercher des publications apportant des informations sur des résultats d’expériences.

Notre travail comporte deux volets. Le premier consiste à coupler l’encyclopédie électronique Flybase avec la base de données bibliographique Medline. Il s’agit d’identifier dans Medline des gènes décrits dans Flybase. Cela revient à indexer les résumés à l’aide des noms de gènes standards qui sont donnés par Flybase. Le deuxième volet consiste à construire une base de données sur les interactions génétiques ou moléculaires à partir d’un ensemble de résumés de publications. Il s’agit d’extraire des informations sur les interactions génétiques ou moléculaires à partir de résumés issus de Medline. Cette extraction d’informations peut servir à l’interprétation d’expériences sur les interactions génétiques ou moléculaires.

Pour parvenir à identifier les gènes dans les résumés, nous avons confronté les informations contenues dans l’encyclopédie Flybase avec les textes de Medline. Les insuffisances des données présentes dans Flybase ont pu être mises en évidence. Des corrections sur les données terminologiques ont été entreprises. En particulier, quand un nom de gène entre dans la composition d’un terme qui n’est pas un nom de gène, ce dernier a été ajouté au lexique de façon à éviter toute confusion. Des informations d’un type nouveau ont aussi été adjointes. En particulier, l’ambiguïté de certains noms de gènes a été évaluée et des priorités ont été données quand un terme renvoie à plus d’un gène. Ceci nous a amené à structurer les données issues de Flybase dans une base de données relationnelle. Dans cette base, la distinction est claire entre les informations relatives aux gènes et les informations relatives aux termes qui les désignent.

Ce travail nous a permis d’obtenir un ensemble de 108 résumés annotés. Cette annotation s’est faite de façon semi-automatique, mais le résultat final a été entièrement validé par un expert du domaine. A côté de cela, nous avons obtenu une base de données terminologiques qui a été, elle aussi, complétée de façon semi-automatique et qui a été validée par un expert. Cette validation garantit que les informations sont correctes au sens où elles rendent compte, parfaitement ou presque, de l’usage qui a été constaté dans l’échantillon de 108 résumés.

Nous avons mis au point un algorithme d’identification des gènes. Cet algorithme prend en compte le contexte. En particulier, quand plusieurs noms d’un même gène sont présents dans un résumé, cela constitue un indice qui est utilisé dans le cas où un terme serait ambigu. Le système (bases de données terminologiques plus algorithme) a été testé sur un deuxième échantillon, faisant apparaître des taux de rappel et de précision, respectivement de 85 et 87 %.

Le système permet l’import d’informations depuis Flybase. Ainsi, est-il possible d’actualiser le dictionnaire terminologique des gènes. Ceci est rendu possible par une mise en mémoire des corrections faites sur les données. Les données erronées ne sont pas supprimées mais seulement invalidées. Ainsi, après le nouvel import, il ne sera pas nécessaire de contrôler à nouveau ces données pour les invalider une nouvelle fois.

La méthode que nous proposons permet d’améliorer les inventaires terminologiques existants. Elle permet d’étudier précisément l’utilisation qui est faite de la nomenclature. Nous avons pu, par exemple, comparer la fréquence d’utilisation des différents types de noms utilisés pour désigner les gènes, à savoir : les symboles, les noms complets et les synonymes.

Pour le deuxième volet de notre travail, nous avons utilisé un résultat déjà obtenu dans notre laboratoire par Pillet. Il s’agit d’une méthode qui permet de détecter les phrases qui décrivent une interaction. Cette méthode repose sur le calcul d’un indice de pertinence appelé IVI. Cet indice est calculé en repérant un certain nombre de termes dans la phrase et en calculant la moyenne des coefficients associés à ces termes. Les termes et les coefficients ont été déterminés par Pillet. Ce travail a été effectué sur un corpus de textes distinct du nôtre.

Nous avons utilisé l’identification des gènes qui a été mise en œuvre lors du premier volet. Les deux informations (présence d’un certain vocabulaire et présence de tel ou tel gène) ont été combinées de façon à extraire une liste d’interactions potentielles. Cette liste a été comparée à la liste des interactions effectivement observées dans le corpus.

Les résultats obtenus sont intéressants au regard de la simplicité du principe appliqué. Dans le cas où exactement deux gènes seraient cités, le taux de rappel atteindrait 89 % pour un taux de précision de 75 %. Dans le cas de phrase plus complexe où un nombre quelconque (supérieur à deux) de gènes distincts seraient cités, le taux de rappel atteindrait 82 % pour un taux de précision de 57 %.

En plus de la méthode, nous disposons maintenant de 108 résumés richement annotés. Pour chaque phrase, la liste des interactions décrites est consignée dans une base de données. Cet ensemble de résumés forme un corpus d’exemples intéressant pour les tâches d’extraction d’informations.

Grâce à cette annotation, nous avons obtenu des résultats statistiques très intéressants. Par exemple, nous pouvons dire qu’une interaction est rarement décrite dans plusieurs phrases : 72 % des interactions ne sont décrites que dans une seule phrase. Autre exemple, les descriptions d’interactions se trouvent préférentiellement dans les phrases qui comptent plus de deux occurrences de gènes : seulement 31% des descriptions d’interactions sont issues d’une phrase qui contient exactement deux occurrences de gènes.
1   ...   23   24   25   26   27   28   29   30   ...   36

similaire:

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de Docteur

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de
«capricieuse»!!! Merci également de m’avoir permis d’être impliqué dans des collaborations (eth zurich) et dans un programme Européen...

Thèse pour obtenir le grade de iconThèse présentée pour l’obtention du grade de Docteur

Thèse pour obtenir le grade de iconThèse pour l’obtention du grade de docteur de l’université

Thèse pour obtenir le grade de iconThèse pour obtenir le titre de

Thèse pour obtenir le grade de iconThèse présentée en vue de l'obtention du grade de

Thèse pour obtenir le grade de iconThèse présentée en vue d’obtenir

Thèse pour obtenir le grade de iconCe site permet d’obtenir les liens pour disposer de l’intégralité des programmes de Maths








Tous droits réservés. Copyright © 2016
contacts
b.21-bal.com