télécharger 3.33 Mb.
|
Tableau 93 Données pour les interactions répétées issues du processus 2G. Ce sont les données de la séries 2Gr de la Figure 13.
Tableau 94 Données pour les interactions répétées issues du processus nG Ce sont les données de la série nGr de la Figure 14.
Résumé : La thèse propose des solutions pour mettre automatiquement en relation des informations bibliographiques avec des informations factuelles. Il s’agit de documenter des encyclopédies en ligne avec des références bibliographiques ou d’extraire des informations directement à partir de la littérature scientifique. Nous avons pris l’exemple des gènes et de leurs interactions chez la mouche (Drosophile). Nous avons mis au point un logiciel qui permet d’identifier dans Medline des gènes décrits dans Flybase (encyclopédie sur la Drosophile) et de reconnaître les textes décrivant des interactions entre ces gènes. La difficulté dans l’automatisation de cette tâche réside dans la complexité de la nomenclature (existence d’alias et d’abréviations, composition de termes utilisant des noms de gènes, etc.), dans la confusion possible entre certains noms de gènes et des mots du vocabulaire courant et dans l’absence de mots clefs suffisamment univoques pour marquer les phrases décrivant une interaction. Mots clefs : Informatique documentaire, extraction d’information, statistique textuelle, terminologie, nomenclature, gènes, interaction génétique, interaction moléculaire, bioinformatique, Drosophila Melanogaster, Medline, Flybase. Title : Experiment in integration of factual databases and bibliographical databases: gene identification in Medline from Flybase description, and application of information extraction about genetics and molecular interaction from publications. Abstract : This thesis provides solutions to the problems of interaction between bibliographical information and factual information databases by informing on-line encyclopedias of other bibliographical references, and extracting information directly from on-line scientific literature. The case study we took was genes and their interactions in the fly “Drosophila”. We created software to find sentences or phrases describing at least one gene’s interaction, and to identify genes in Medline (a famous bibliographical database) from their descriptions in Flybase (an on-line encyclopedia of the fly). Difficulties in the computerization of this task were:
The program was tested successfully, and the details of the implementation are given in the document. Keywords : Information extraction, information retrieval, natural language processing, text processing, terminology, nomenclature, genes, genetics interaction, molecular interaction, bioinformatics, Drosophila melanogaster, Medline, Flybase Discipline : Science de l’information et de la communication Laboratoire : CRRM (Case 422) Centre scientifique de saint Jérôme 13397 Marseille Cedex 20 France 1 Les termes de l’index sont en italique. A l’endroit du textes où ils sont définis, ils sont en gras. 4 Pour consulter les renvois, on pourra se référer au plan détaillé. 7 Les termes de l’index sont en italique. Là où ils sont définis, ils sont aussi en gras. La consultation de l’index permet de trouver la page où ils sont définis (numéro de page en gras) et les pages où ils sont utilisés. 8 Rebhan M, Chalifa-Caspi V, Prilusky J, Lancet D. GeneCards: encyclopedia for genes, proteins and diseases. Weizmann Institute of Science, Bioinformatics Unit and Genome Center (Rehovot, Israel), 1997. Accessible sur http://thr.cit.nih.gov:8081/cards 22 Institut national de la recherche en informatique et automatique. 23 Laboratoire de génétique et développement de Marseille. 25 Les gènes duplicated legs (dpl) et dorsal (dl) admettent tous deux le label dl dans leurs définitions. Cela constitue une contradiction. Nous discuterons de ce type de difficulté dans la section Partie 2 Chapitre 1 I.E.1 26 Les gènes Larval cuticle protein 10 (Lcp10) et Rho1 admettent tous deux le label Rho dans leurs définitions. Cela constitue une contradiction. Nous discuterons de ce type de difficulté dans la section Partie 2 Chapitre 1 I.E.1 27 l’appellation none provient de l’abréviation du synonyme no-ocelli--narrow-eyes 28 Le gène held out wings (how) a bien comme définition synonyme le label who. Le gène compte en effet wings held out dans ces définitions, ce qui explique la présence de who. 29 Les tableaux longs sont placés en fin de partie de niveau deux (numérotées A, B, C, etc.) 30 Flybase donne un numéro unique à chacun des gènes qu’il répertorie. Son format est du type FBgnxxx. |
![]() | ![]() | ||
![]() | ![]() | «capricieuse»!!! Merci également de m’avoir permis d’être impliqué dans des collaborations (eth zurich) et dans un programme Européen... | |
![]() | ![]() | ||
![]() | ![]() | ||
![]() | ![]() |