Thèse pour obtenir le grade de








télécharger 3.33 Mb.
titreThèse pour obtenir le grade de
page30/36
date de publication21.01.2018
taille3.33 Mb.
typeThèse
b.21-bal.com > droit > Thèse
1   ...   26   27   28   29   30   31   32   33   ...   36
13

Wasinger VC, Cordwell SJ, Cerpa-Poljak A, Yan JX, Gooley AA, Wilkins MR, Duncan MW, Harris R, Williams KL, Humphery-Smith I. Progress with gene product mapping of the Mollicutes : Mycoplasma genitalium. Electrophoresis. 1995, vol. 16, n° 7, p. 1090-1094 16

Wilkins MR, Sanchez JC, Gooley AA, Appel RD, Humphery-Smith I, Hochstrasser DF, Williams KL. Progress with proteome projects : why all proteins expressed by a genome should be identified and how to do it. Biotechnol Genet Eng Rev. 1996, vol. 13, p. 19-50 16

Wong Limsoon. A Protein Interaction Extraction System. Proceedings of Pacific Symposium on Biocomputing 2001, p. 520-530. 37

Xenarios Ioannis, Rice Danny W, Salwinski Lukasz, Baron Marisa K, Marcotte Edward M, Eisenberg David. DIP : the Database of Interacting Proteins. Nucleic Acids Research, 2000, Vol. 28, No. 1, p. 289-291 142

Yamamoto Yasunori, Ohta Yoshihiro, Uchiyama Ikuo, Takagi Toshihisa. Constructing a dictionary of biological terms for information extraction. Akutsu T, Asai K, Hagiya M., Kuhara S, Miyano S, Nakai K. Genome Informatics Workshop. Tokyo : Universal Academy Press, 1996 28

Yoshida Mikio, Fukuda Ken-ichiro, Takagi Toshihisa. PNAD-CSS : a workbench for constructing a protein name abbreviation dictionary. Bioinformatics, 2000, vol.16, n° 2, p.169-175 26, 29

Yoshida Mikio; Fukuda Kenichiro, Takagi Toshihisa. Automatic Construction of Biological Abbreviation Dictionary from Abstracts of Biomedical Papers. Proceedings. of the Genome Informatics Workshop 1998, 1998, N° 9, p. 288-289 29

Nombre de références : 83

Plan détaillé

Partie 1
État de l’Art 11

Chapitre 1 Contexte scientifique de l’étude 12

I. Veille technologique, intelligence économique et analyse de l’information textuelle 12

II. De la génétique à la bioinformatique 13

A. La génétique 13

1. Notions de base 13

2. Définition des interactions 15

B. Le projet génome 16

C. La post-génomique 17

D. Utilisation du projet génome pour accéder à la fonction des gènes 18

III. La recherche et l’extraction d’informations textuelles 19

A. La recherche d’informations textuelles 20

B. L’extraction d’informations textuelles 21

IV. Le couplage des Bases de données 23

A. La création de liens entre bases de données 23

B. Couplage des bases de données factuelles avec des bases de données bibliographiques 24

Chapitre 2 Études des travaux comparables 26

I. Travaux concernant la reconnaissance de gènes ou de leurs produits dans des textes 26

A. Travaux sur la reconnaissance des gènes ou de leurs produits basés sur l’utilisation de listes de termes 26

B. Travaux sur la reconnaissance des gènes ou de leurs produits n’utilisant pas de lexiques 29

C. Travaux sur la création automatique ou assistée de dictionnaire des gènes ou de leurs produits à partir de textes 31

D. Conclusion sur les travaux concernant la recherche de gènes ou de leurs produits dans des textes 32

II. Travaux sur l’analyse informatique des textes et les interactions génétiques ou moléculaires 33

A. Méthodes d’analyse informatique des textes sur les interactions génétiques et moléculaires basées sur la recherche de mots clefs et de phrases clefs 34

B. Méthodes basées sur des études statistiques d’apparition de mots clefs pour extraire des informations sur les interactions génétiques ou moléculaires 37

C. Méthodes basées sur la cooccurrence pour extraire des informations sur les interactions génétiques ou moléculaires 38

D. Méthodes basées sur des motifs textuels pour extraire des informations sur les interactions génétiques ou moléculaires 39

Chapitre 3 Notre apport et celui du consortium Cerise 41

I. Historique des travaux dans le consortium Cerise 41

A. Présentation du programme de recherche du consortium Cerise 41

1. La saisie des informations sur les interactions génétiques et moléculaires 41

2. La représentation des connaissances sur les interactions génétiques et moléculaires 42

3. Analyse, comparaison et simulation de fonctionnement des réseaux régulateurs 42

B. Choix méthodologique initié par Pillet 43

1. Choix de la base de données Flybase 43

a. Présentation de la base de données Flybase 43

b. Avantages de la base de données Flybase 43

2. Choix d’une méthode d’analyse basée sur la présence conjointe de noms de gènes et d’un vocabulaire spécifique dans une même phrase 44

C. La méthode des IVI 45

1. Identifier le vocabulaire spécifique de l’interaction 45

2. Sélectionner les textes qui décrivent une interaction 48

3. Performance de la méthode des IVI 48

D. Les variantes de la méthode des IVI 49

1. Variante dans le calcul de la spécificité 49

2. Calcul de l’IVI par la somme des spécificités 50

3. Calcul de l’IVI par l’analyse factorielle 51

II. Réflexions sur la méthode d’analyse que nous proposons 51

A. Choix du corpus d’analyse 51

1. Choix de Medline 51

2. Choix de l’échantillon d’analyse 52

3. Utiliser les données issues de Flybase pour analyser les textes de Medline 53

B. Discussions sur les moyens et les buts 53

1. La présence de deux noms de gènes est un indice fort 53

2. Utilisation des phrases qui comportent plus de deux occurrences de gènes 54

3. Reconnaissance des interactions et non des phrases qui décrivent des interactions 54

Partie 2
Réalisation et résultats 55

Chapitre 1 Analyse des problèmes posées 56

I. Inventaire des difficultés à résoudre pour réaliser un programme d’identification des gènes 56

A. Méthodologie 56

B. Complexité de la nomenclature 57

1. Règles de désignation des gènes pour la drosophile 57

2. Existence de plusieurs termes pour désigner un seul gène 57

3. Importance de la casse pour désigner un gène 59

4. Complexité introduite par la formation de mots composés 60

5. Complexité introduite par l’inclusion des termes les uns dans les autres 61

a. Inclusion à l’intérieur du dictionnaire des gènes 61

b. Inclusion des labels dans des termes de biologie 63

6. Complexité introduite par l’existence des allèles 64

C. Ambiguïté des labels 65

1. Les labels qui sont des mots vides 65

2. Les labels qui prêtent à confusion avec des termes d’anglais assez courants 67

a. Les labels fortement ambigus 67

b. Les labels qui dans le contexte de la génétique sont moins ambigus qu’ils ne semblent 68

c. Les labels faiblement ambigus. 68

d. Les labels ambigus mais très importants 68

3. Les labels qui prêtent à confusion avec des gènes de mammifères. 69

D. Imprécision dans la terminologie 71

1. Les termes qui ne décrivent pas un gène précis mais qui peuvent désigner plusieurs gènes 71

2. Les variations orthographiques 72

a. Inventaire des orthographies absentes de Flybase 72

b. Les variantes prévues 72

c. Les variantes imprévues 74

d. Importance relative des variantes prévues et imprévues 76

E. Les erreurs du dictionnaire 76

1. Les contradictions du dictionnaire 76

2. Des définitions aberrantes 78

3. Les formats imprévus 78

F. Nécessité de l’utilisation du contexte 79

1. Utilisation du contexte pour préférer une reconnaissance à une autre 79

2. Utilisation du contexte pour régler le problème de l’ambiguïté des labels 82

3. Utilisation du contexte pour détecter les reconnaissances redondantes 83

4. Utilisation du contexte pour valider les définitions crées pour anticiper les variations orthographiques des labels 84

II. Analyse du problème de la reconnaissance des interactions 84

A. Complexité de la reconnaissance des interactions 85

1. Partenaires mal définis 85

2. Interaction et ordre 86

3. Partenaires de l’interaction non identifiés 87

B. Difficulté de la reconnaissance des interactions 87

1. Partenaires de l’interaction absents de la phrase mais pas du résumé 87

2. Difficulté introduite par la présence de plus de deux gènes dans une même phrase 88

Chapitre 2 Mise en œuvre 101

I. Mise en œuvre du programme d’identification des gènes 101

A. Structure de données pour l’identification des gènes dans les textes 101

1. Préliminaires 101

a. Notions sur les bases de données relationnelles 101

b. Conventions sur les noms de champs et de tables 102

c. Quelques principes sur la structuration des données 102

i. Les garanties d’intégrité des données 102

1) Garantir la présence des enregistrements cités dans une table 102

2) Garantir l’absence de doublons dans les enregistrements 102

ii. Structure des données pour permettre les mises à jour. 103

2. Structure de données pour les textes 103

a. Structure de données pour les résumés 103

i. La table des résumés 103

ii. Les tables annexes 104

1) Structure de données pour le suivi de l’annotation 104

2) Structure de données pour l’origine de l’enregistrement 104

b. Structure de données pour les phrases qui constituent les résumés 105

3. Structure de données pour le dictionnaire des gènes 106

a. Structure de données pour les gènes ou objets assimilés 106

i. La table des gènes ou objets assimilés 106

ii. Les tables annexes à la table des gènes 107

1) Structure de données pour les rubriques du dictionnaire 107

2) Structure de données pour la gestion de la provenance du gène 107

iii. Structure de données pour la gestion de la filiation 107

b. Structure de données pour les labels 108

i. La table des labels 108

ii. Structure de données pour la relation d’inclusion 108

iii. Structure de données pour faciliter l’actualisation des données 109

iv. La garantie de l’unicité 109

v. Structure de données pour la caractérisation du type de traitement à faire sur chaque label 110

vi. Structure de données pour la gestion de la relation de transformation 111

c. Structure de données pour les définitions 112

i. La table des définitions de gènes 112

ii. Les tables annexes 112

1) La table des types de définition 112

2) Structure de données pour le suivi de l’origine des définitions 113

iii. Structure de données pour gérer la confiance mise dans les définitions 113

1) Structure de données pour permettre la mise à jour 114

2) Structure de donné pour prendre ou ne pas prendre en compte les définitions 114

3) Structure de données pour exiger la confirmation de la reconnaissance d’une définition 114

4. Structure de données pour l’identification des gènes 115

a. Structure de données pour la reconnaissance des labels 115

b. Structure de données pour la reconnaissance des définitions 115

i. La table des reconnaissances des définitions 115

ii. Structure de données pour savoir quel est le processus d’indexation qui a été mis en œuvre 116

B. Méthode d’identification des gènes 116

1. La visualisation et l’exploitation des données dans une base de données relationnelle 116

a. L’utilisation des requêtes 117

b. L’automatisation des tâches 117

i. Les macros 117

ii. Les modules 117

2. La détection des occurrences de labels 117

a. Indexation des textes 117

b. Correction pour les mots ambigus en début de phrase 118

c. Épuration de l’index 118

d. Reconnaissance des mots vides 119

3. Interprétation des labels 119

C. Acquisition des données nécessaires à l’analyse 120

1. Collecte des textes et intégration dans la base de données 120

a. Choix des résumés Medline 120

b. Intégration des textes issus de Flybase et de Medline 121

i. Import des textes issus de Medline 121

ii. Éclatement des résumés en phrases 122

iii. Import des textes issus de Flybase 122

2. Constitution des données relatives au dictionnaire des gènes 122

a. Importation des données terminologiques 122

b. Les étapes de filtrages et de reformatages 123

c. Mise en forme relationnelle 123

d. Préparation de l’indexation des textes 123

e. Complémentation du dictionnaire 124

i. Ajout de nouvelles entités biologiques qui ne sont pas des gènes 124

ii. Ajout de termes spécifiques 124

iii. Caractérisation de l’ambiguïté des labels 124

3. Acquisition de nouvelles connaissances sur la nomenclature des gènes 125

a. Construction des définitions variantes 125

b. Validation des définitions par l’analyse des textes 125

c. Validation des labels par l’analyse des textes 126

II. Mise en œuvre de la reconnaissance automatique des interactions 127

A. Structure de données pour la reconnaissance des interactions 127

1. Table de reconnaissance des interactions 127

2. Table Ordre dans les interactions 128

3. Table Processus de reconnaissance des interactions 128

B. Structure de données pour l’IVI 129

1. Structure de données pour le dictionnaire de lemmatisation 129

a. Structure de données pour les lemmes 129

b. Structure de données pour les formes fléchies 129

2. Structure de données pour la reconnaissance des formes fléchies 129

C. Constitution des données relatives au dictionnaire de lemmatisation 130

D. Méthode de reconnaissance des interactions 130

1. Calcul de l’IVI 130

2. Annotation sur les interactions 131

III. Interface de visualisation des données contenues dans la base de données 132

A. Confrontation entre indices et faits sur les interactions 133

B. Confrontation entre l’annotation manuelle et l’annotation automatique 134

C. Autres informations sur le résumé 135

Chapitre 3 Évaluation et propositions d’améliorations 141

I. Évaluation du programme d’identification des gènes et nouvelle directions de recherche 141

A. Évaluation du système d’identification des gènes sur l’échantillon A 141

B. Évaluation du système d’identification des gènes sur l’échantillon B et propositions d’améliorations 142

1. Performance du système d’identification des gènes sur l’échantillon B 142

2. Un exemple de résumé annoté par le programme d’identification des gènes 142

3. Inventaire des cas d’erreurs sur l’échantillon B et propositions pour les éviter 143

II. Évaluation du programme de reconnaissance des interactions et discussion 147

A. Explications communes à tous les graphiques 147

B. Statistiques sur les reconnaissances d’interactions 148

C. Statistiques sur les interactions 149

1. Méthodes basées sur le nombre d’occurrence de gènes dans une même phrase 149

a. Reconnaissance des interactions à partir des phrases qui comptent deux occurrences de gènes 149

b. Reconnaissance des interactions à partir des phrases qui comptent plusieurs occurrences de gène 150

c. Comparaison des performances des méthodes basées sur le nombre d’occurrences de gènes 151

2. Méthodes basées sur le nombre de gènes cités dans une même phrase 152

a. Reconnaissance des interactions à partir des phrases qui citent deux gènes 153

b. Reconnaissance des interactions à partir des phrases qui citent plusieurs gènes 153

c. Comparaison des performances des méthodes basées sur le nombre de gènes cités 154

3. Utilisation du nombre de fois où une interaction est reconnue automatiquement 155

a. Interactions reconnues plusieurs fois au cours du processus 2G 155

b. Interactions reconnues plusieurs fois au cours du processus nG 156

c. Discussion sur la redondance de l’information sur les interactions 157

D. Nouvelles directions de recherche 158

1. Amélioration du calcul de l’IVI 158

2. Utilisation du MeSH pour sélectionner les résumés 159

Partie 3
Conclusion 166

Chapitre 1 Bilan du travail 167

Chapitre 2 Améliorations envisagées et nouvelles directions de recherche 169

I. Transformation du prototype en un logiciel convivial 169

II. Couplage avec des résultats d’expériences 169

III. Utilisation dans d’autres domaines d’applications 170

Annexe

Tableau 76 Données chiffrées sur le corpus et le travail d’annotation

Ce tableau donne des informations quantitatives sur les données et sur le travail effectué sur celles-ci.

Données sur les gènes




Origine : Flybase




Nombre de gènes

9979

Nombre de définitions de gènes

27473

Nombre de définitions ajoutées manuellement

224

Données sur les textes




Origine : Medline




Nombre de résumé dans Medline sur la Drosophile

19395

Nombre de résumés extraits de Medline

744

Nombre de résumés annotés

159

Échantillon A




Annotation sur les occurrences de gènes et sur les interactions




Nombre de résumés

109

Nombre d’occurrences de gènes

1345

Nombre d’occurrences d’interactions

333

Échantillon B




Annotation sur les occurrences de gènes




Nombre de résumés

50

Nombre d’occurrence de gènes

465
1   ...   26   27   28   29   30   31   32   33   ...   36

similaire:

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de Docteur

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de
«capricieuse»!!! Merci également de m’avoir permis d’être impliqué dans des collaborations (eth zurich) et dans un programme Européen...

Thèse pour obtenir le grade de iconThèse présentée pour l’obtention du grade de Docteur

Thèse pour obtenir le grade de iconThèse pour l’obtention du grade de docteur de l’université

Thèse pour obtenir le grade de iconThèse pour obtenir le titre de

Thèse pour obtenir le grade de iconThèse présentée en vue de l'obtention du grade de

Thèse pour obtenir le grade de iconThèse présentée en vue d’obtenir

Thèse pour obtenir le grade de iconCe site permet d’obtenir les liens pour disposer de l’intégralité des programmes de Maths








Tous droits réservés. Copyright © 2016
contacts
b.21-bal.com