Thèse pour obtenir le grade de








télécharger 3.33 Mb.
titreThèse pour obtenir le grade de
page28/36
date de publication21.01.2018
taille3.33 Mb.
typeThèse
b.21-bal.com > droit > Thèse
1   ...   24   25   26   27   28   29   30   31   ...   36

Chapitre 2 Améliorations envisagées et nouvelles directions de recherche

I.Transformation du prototype en un logiciel convivial


Notre base de données est un prototype. Elle demande à l’utilisateur un apprentissage pour comprendre comment accéder, modifier et rechercher les différentes informations. Son maniement nécessite de connaître la façon dont les données sont organisées. Il est souhaitable que, dans le futur, cette base de données soit utilisée par un public plus large que moi-même et les quelques personnes qui ont annoté les textes. Des adaptations seront nécessaires. Il s’agit de rajouter des interfaces qui guident l’utilisateur dans ses manipulations. Ces interfaces doivent prévoir des garde-fous pour empêcher des erreurs de manipulations qui peuvent aboutir à une corruption de la structure ou des données. Des fonctionnalités d’import sont aussi à prévoir pour les résumés et pour les données terminologiques de Flybase.

II.Couplage avec des résultats d’expériences


Nous proposons une méthode pour obtenir des informations sur les interactions génétiques ou moléculaires. Cependant, d’autres méthodes existent. Ces méthodes sont basées sur l’analyse de données d’expressions obtenues en masse. Nous pensons, en particulier, aux expériences sur puces à ADN. Nous pensons que notre système pourrait avantageusement être adapté à l’exploitation de ces résultats d’expériences. Il s’agirait de coupler une base de données de résultats d’expériences à une base de données bibliographique, en l’occurrence Medline. C’est une idée qui a été proposée par Dickerson et al. (2001) qui travaillent sur un système d’extraction d’informations sur les réseaux métaboliques à partir de résumés de publications issus de Medline ou de la base de donnée bibliographique Agricola.

Les informations bibliographiques apporteraient vraiment "un plus" aux données expérimentales d’expression. Ces données fournissent des présomptions de relations entre les gènes mais elles ne donnent pas de preuves définitives. Cette preuve définitive est à rechercher dans une expérience in vivo. Ce sont précisément des expériences de ce type qui sont relatées dans la littérature. Ainsi, associer des données d’expression à des publications serait un moyen pratique de vérification.

Il nous semble que, d’une manière générale, les systèmes d’extractions d’informations à partir de textes donnent des résultats insuffisants pour envisager une production en masse de données de qualité. En revanche, si l’on se restreint à l’analyse des gènes qui ont une raison particulière d’être en interaction, les performances peuvent devenir acceptables. Ainsi, nous proposons de coupler les systèmes d’extraction d’informations à partir de textes à d’autres systèmes d’obtention d’informations sur les interactions.

Dans ce cas, les textes relatant une éventuelle interaction seraient sélectionnés par le critère de la cooccurrence et ils seraient classés par ordre de pertinence décroissante grâce à l’IVI.

Ce couplage entre bases de données de résultats d’expériences et bases de données bibliographiques compléterait le couplage que nous avons réalisé d’une encyclopédie électronique avec une base de données bibliographiques. Ainsi, nous aurions deux exemples complémentaires de couplage de bases de donnée factuelles avec une base de données bibliographique.

III.Utilisation dans d’autres domaines d’applications


Le système que nous proposons, en raison de sa simplicité, est généralisable à d’autres domaines d’applications. Il est adapté à tout système de recherche et d’extraction d’informations sur les relations qu’entretiennent des objets techniques. De plus, les temps de traitement informatique sont réduits. Le système est donc adapté à une utilisation sur des données volumineuses et en constante évolution. Nous pensons en particulier aux données issues de l’internet, qui se prêtent mal à des traitements linguistiques sophistiqués.

Liste des tableaux, figures, exemples et équations

Tableau 1 Notion de terme spécifique 46

Tableau 2 Vocabulaire spécifique d’une interaction 47

Tableau 3 Prise en compte de la spécificité de chaque terme : somme ou moyenne 50

Tableau 4 Calcul de la spécificité : proportion ou analyse factorielle 51

Tableau 5 Exemples de nom de gène 57

Tableau 6 Un gène et ses définitions. 59

Tableau 7 Importance relative de chaque type de définition 59

Tableau 8 Importance de la casse 60

Tableau 9 Expressions spécifiques 61

Tableau 10 Table d’inclusion des labels 62

Tableau 11 Confusion avec des complexes de gènes ou de protéine 63

Tableau 12 Confusion avec des termes de génétique ou d’anatomie 64

Tableau 13 Les allèles 65

Tableau 14 Labels et mots vides 66

Tableau 15 Mots vides et différence de casse 67

Tableau 16 Labels peu ambigus 68

Tableau 17 Labels désambiguïsés 69

Tableau 18 Occurrence de gène de mammifère 70

Tableau 19 Gène de mammifère : extrait du dictionnaire 71

Tableau 20 Transformation de type première lettre en majuscule 72

Tableau 21 Transformation de type tout en majuscule 73

Tableau 22 Transformation de type espace transformé en tiret 73

Tableau 23 Transformation de type tout en minuscule ou tiret transformé en espace 73

Tableau 24 Importance relative de chaque type de transformation 74

Tableau 25 Variantes imprévues 75

Tableau 26 Importance relative des variantes prévues et imprévues 76

Tableau 27 Contradiction : cas des noms synonymes 77

Tableau 28 Contradiction entre symbole et nom complet. 78

Tableau 29 Mots vides : définitions invalidées 83

Tableau 30 Invalidation des variantes non confirmés 84

Tableau 31 Interaction et ordre 87

Tableau 32 Interaction et nombre d’occurrence de gène 88

Tableau 33 Labels assez ambigus 89

Tableau 34 Labels faiblement ambigus. 92

Tableau 35 Collection de gènes 93

Tableau 36 Orthographie absentes de Flybase 94

Tableau 37 Définitions aberrantes 98

Tableau 38 Liste des tables présentes dans la base de données 100

Tableau 39 Table des résumés 103

Tableau 40 Table des annotateurs 104

Tableau 41 La table des origines des résumés 105

Tableau 42 Table des phrases extraites de Medline 105

Tableau 43 Table des gènes ou objets assimilés 106

Tableau 44 Table des entités biologiques 107

Tableau 45 Table Provenances des gènes 107

Tableau 46 Table des filiations 108

Tableau 47 Table des labels 108

Tableau 48 Table des inclusions 109

Tableau 49 Table type de reconnaissance (première partie) 110

Tableau 50 Table Type de reconnaissance (deuxième partie) 111

Tableau 51 Table des transformations 112

Tableau 52 Table des relations de transformations 112

Tableau 53 Table des définitions 112

Tableau 54 Table des types de définition 113

Tableau 55 Table origine des définitions 113

Tableau 56 Table confiance dans les définitions 114

Tableau 57 Table Reconnaissance des labels 115

Tableau 58 Table reconnaissance des définitions 115

Tableau 59 Table des processus 116

Tableau 60 Table phrase Flybase 121

Tableau 61 Ambiguïté et fréquence 126

Tableau 62 Table reconnaissance des interactions 127

Tableau 63 Table Ordre des interactions 128

Tableau 64 Table Processus de reconnaissance des interactions 128

Tableau 65 Table des lemmes 129

Tableau 66 Table des formes fléchies 129

Tableau 67 Table de reconnaissance des formes fléchies 130

Tableau 68 Exemple d'annotation automatique d'un résumé 132

Tableau 69 Interactions extraites par le programme (processus 2G) 136

Tableau 70 Interactions extraites par l'annotateur 137

Tableau 71 Performance du programme d’identification des gènes 142

Tableau 72 Inventaire des cas d’erreurs sur l’échantillon B (tableau de synthèse) 147

Tableau 73 Faible effectif des interactions redondantes 158

Tableau 74 Exemple d’identification de gènes dans un résumé 160

Tableau 75 Inventaire des cas d’erreurs sur l’échantillon B 163

Tableau 76 Données chiffrées sur le corpus et le travail d’annotation 191

Tableau 77 Les contradictions du dictionnaire. 192

Tableau 78 Liste des labels de type de reconnaissance mots vides si début de phrase 197

Tableau 79 Liste des labels de type de reconnaissance mots vides 197

Tableau 80 Labels de type de reconnaissance ambigu en début de phrase 197

Tableau 81 Label de type de reconnaissance terme spécifique 198

Tableau 82 Label de type de reconnaissance plutôt ambigu 198

Tableau 83 Labels de type de reconnaissance peut-être ambigu 198

Tableau 84 Labels de type de reconnaissance désambiguïsation en cours 199

Tableau 85 Label de divers type de reconnaissance 199

Tableau 86 Labels de type de reconnaissance peu ambigus 199

Tableau 87 Label de type de reconnaissance spécifié univoque 200

Tableau 88 Données du graphique de la 201

Tableau 89 Données du grapique de la Figure 7 et de la Figure 9 202

Tableau 90 Données de la Figure 8 202

Tableau 91 Performance du processus 2G 204

Tableau 92 Données du calcul rappel-précision pour nG 204

Tableau 93 Données pour les interactions répétées issues du processus 2G. 205

Tableau 94 Données pour les interactions répétées issues du processus nG 206



Figure 1 Résultat de la méthode des IVI 49

Figure 2 Formulaire d’annotations (graphiques synthétiques) 139

Figure 3 Formulaire d’annotations (comparaison des annotations) 139

Figure 4 Formulaire d’annotation (autres informations) 140

Figure 5 Schéma de la base de données 140

Figure 6 Graphique rappel-précision pour les occurrences d’interactions (processus 2RDG) 148

Figure 7 Graphique rappel-précision pour les interactions au cours du processus 2RDG 150

Figure 8 Graphique rappel-précision pour les interactions au cours du processus nRDG 151

Figure 9 Comparaison des processus 2RDG et nRDG 152

Figure 10 Performance du processus 2G 153

Figure 11 Performance du processus nG 154

Figure 12 Comparaison des performances de 2G et nG 155

Figure 13 Comparaison du critère répétition avec le critère IVI pour le processus 2G 156

Figure 14 Comparaison des interactions extraites avec ou sans critère sur le nombre de reconnaissances associées 157



Exemple 1 Détection de phrases clefs et de mots clefs par le logiciel AbXtract. 35

Exemple 2 Phrase extraite de Flybase qui décrit une interaction 44

Exemple 3 Traits caractéristiques servant à l’analyse 44

Exemple 4 Annotation des phrases 56

Exemple 5 Plusieurs termes pour désigner un seul gène. 58

Exemple 6 Inclusion des labels 62

Exemple 7 Inclusion des labels dans des termes de biologie 63

Exemple 8 Confusion possible avec des gènes de mammifères 69

Exemple 9 Imprécision dans la terminologie 71

Exemple 10 Préférence donnée à un synonyme 78

Exemple 11 Interprétation et contexte 79

Exemple 12 Utilisation du contexte : cas d’un complexe de protéine 80

Exemple 13 Utilisation du contexte : cas des Allèles 80

Exemple 14 Utilisation du contexte : cas d’un objet spécifique 81

Exemple 15 Contexte et ambiguïté des labels 82

Exemple 16 Utilisation du contexte : cas des mots vides 83

Exemple 17 Les reconnaissances redondantes. 83

Exemple 18 Interaction faisant intervenir des groupes de gènes 85

Exemple 19 Interaction faisant intervenir des familles de protéines 86

Exemple 20 Interaction non ordonnée 86

Exemple 21 Partenaires de l’interaction non identifiés 87

Exemple 22 Partenaires non-cités dans la phrase 88

Exemple 23 Plus de deux gènes dans une même phrase. 88

Exemple 24 Partenaire présent mais non reconnu 128

Exemple 25 Requête SQL de calcul des IVI 130

Exemple 26 Phrase délicate à cause de la proposition whereas 134

Exemple 27 Reconnaissance manquée 141

Exemple 28 Reconnaissance à tort 141

Exemple 29 Résumé de difficulté moyenne pour l’identification des gènes 143



Équation 1 Le principe de l’analyse 45

Équation 2 Principe de l’analyse par utilisation des IVI 48


Index des termes

2G 153

2Gr 155

2RDG 148

à confirmer, définition 81, 114

à confirmer, label 82

aberrante, définition 78

AbXtract 34

Access 60

acide aminé 14

Acide DésoxyriboNucléique 14

Acide Ribo Nucléique 14

ADN 14

Agricola 169

allèle 15, 65

ambigus, label 65

ARN 14

ARN précurseur 14

base de données factuelles 24

base de données textuelles 24

bibliométrie 12

bibliothéconomie 12

bioinformatique 16

BLAST 19

casse 59

Cerise 41

champ contrôlé 13

chimères 122

clef externe 101

clef primaire 101

code génétique 14

collection de gènes 71

collocation 31

complexe de gènes 64, 72

complexe de protéine 64

confirmée, reconnaissance 81

contradictoires, définitions 76

CORBA 24

CRRM 12

Database of Interacting Proteins 158

DBGET/LinkDB 24

définition de gène 58

dictionnaire 26

dictionnaire d’acronymes 22, 31

DIP 158

donnée factuelle 24

donnée textuelle 24

données d’expressions 18

double hybride 18

doublon 102

Drosophila melanogaster 16

échantillon A 56, 141

échantillon B 142

électrophorèse bidimensionnelle sur gel 18

Entité Biologique, table 107

épissage 14

extraction d’informations 22

famille de gènes 72

famille de protéines 72

FASTUS 40

Flybase 43

GDB 24

GEISHA 35

GENATLAS 24

GenBank 24

gène 14

Genecards 23

gènes et assimilés, table 106

génome 14

le projet génome 16

GenomeNet 24

génomique 16

génomique fonctionnelle 17

génomique structurale 17

génotype 15

Highlight 40

homologue, gène 19

HUGO 27

identification, d'un gène 56

imprécis, label 71

inclus, label 61

Index de Vraisemblance d’Interaction 48

INRIA 41

intégrité relationnelle 102

intelligence économique 12

interaction 15

interaction génétique 16

interaction moléculaire 15

isolée, reconnaissance 81

IVI 48

KEGG 24

label 26, 58

langage naturel 13, 24

lemme 21, 46

lexique 26

LocusLink 28

macro 117

manque du dictionnaire 145

maturation 14

Medline 51

Medminer 27, 36

MeSH 159

Message understanding conferences 22

modèle, organisme 19

module 117

mot vide 20, 66

MUC 22

multiple, reconnaissance 81

mutant 15

nG 153

nGr 156

nom abrégé 58

nom complet 58

nom développé 58

nom synonyme 58

nomenclature 26

non confirmée, définition 81

non ordonnées, définition 86

nRDG 131

nucléotides 14

objet spécifique 81

occurrence 21

OMIM 24, 27

ordonnées, définition 86

PathBinder 27

phénotype 15

PIES 40

plat, fichier 123

polymorphisme 15

post-génomique 17

post-traductionnel 15

post-transcriptionnel 14

précision, taux de 20

prévue, variante 72

privilégiée, définition 81

Protein Interaction Extraction System 40

protéine 14

protéine, type de définition 73

protéome 17

protéomique 17

protéomique structurale 17

PubGene 28, 38

puce à ADN 18

rappel, taux de 20

recherche d’informations 20

reconnaissance d’acronymes 33

reconnaissance d’entités nommées 22, 29

reconnaissance, d'un gène 21

redondante ,reconnaissance 83

référence , gène de 65

relation de transformation, labels liés par une 72

REN 22

répétée, interaction 155

requête 117

requête sélection 117

résolution d’anaphore 22

RI 20

sauvage 15

Science Citation Index 38

scientométrie 12

segmentation 105

séquence 14

similarité, de séquence 19

simple, reconnaissance 81

SPECIALIST 30

spécificité 47

spectrométrie de masse 18

SQL 117

SRI 40

stop word 66

structure, d'une protéine 14

Structured Query Language 117

suiseki 39

SWISS-PROT 19, 24

symbole 58

synonyme 58

terme spécifique 64

texte libre 13

traduction 14

transcription 14

transcriptome 17

UMLS Metathesaurus 28, 30

variante, définition 72

veille technologique 12

Virgil 24

voie de régulation 14

voie de signalisation 14

Xerox 42

Bibliographie

Achard F, Barillot E. Virgil : a database of rich links between GDB and GenBank. Nucleic. Acids Res., 1998, vol. 26, n°1, p. 100-101 22

Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. Basic local alignment search tool. J Mol Biol, 1990, vol. 215, n°3, p. 403-410 17

Andrade M, Valencia A, Automatic extraction of keywords from scientific text : application to the knowledge domain of protein families. Bioinformatics. 1998, vol. 14, n°7, p. 600-607 32

Andrade MA, Bork P. Automated extraction of information in molecular biology. FEBS Letters. 2000, n° 476, p. 12-17 33

Andrade MA, Valencia A. Automatic annotation for biological sequences by extraction of keywords from MEDLINE abstracts. Development of a prototype system. Proceedings of the Fifth International Conference on Intelligent Systems for Molecular Biology (ISMB 97), 1997, p. 25-32 32

Andrade MA. Tools for automated protein annotation. Casadio R, Masotti L. Protein Sequence Analysis in the Genomic Era. Bologna (Italia) : CLUEB, 2001. [On line]
1   ...   24   25   26   27   28   29   30   31   ...   36

similaire:

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de Docteur

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de
«capricieuse»!!! Merci également de m’avoir permis d’être impliqué dans des collaborations (eth zurich) et dans un programme Européen...

Thèse pour obtenir le grade de iconThèse présentée pour l’obtention du grade de Docteur

Thèse pour obtenir le grade de iconThèse pour l’obtention du grade de docteur de l’université

Thèse pour obtenir le grade de iconThèse pour obtenir le titre de

Thèse pour obtenir le grade de iconThèse présentée en vue de l'obtention du grade de

Thèse pour obtenir le grade de iconThèse présentée en vue d’obtenir

Thèse pour obtenir le grade de iconCe site permet d’obtenir les liens pour disposer de l’intégralité des programmes de Maths








Tous droits réservés. Copyright © 2016
contacts
b.21-bal.com