Thèse pour obtenir le grade de








télécharger 3.33 Mb.
titreThèse pour obtenir le grade de
page36/36
date de publication21.01.2018
taille3.33 Mb.
typeThèse
b.21-bal.com > droit > Thèse
1   ...   28   29   30   31   32   33   34   35   36



Tableau 93 Données pour les interactions répétées issues du processus 2G.

Ce sont les données de la séries 2Gr de la Figure 13.

Seuil

Automatique

Expert

Confirnée

Rappel (%)

Précision (%)

-2

39

62

27

44

69

-0,25

32

62

26

42

81

-0,15

30

62

25

40

83

-0,14

30

62

25

40

83

-0,13

30

62

25

40

83

-0,12

29

62

24

39

83

-0,11

28

62

23

37

82

-0,1

28

62

23

37

82

-0,09

25

62

21

34

84

-0,08

25

62

21

34

84

-0,07

24

62

20

32

83

-0,06

21

62

18

29

86

-0,05

20

62

17

27

85

-0,04

18

62

15

24

83

-0,03

18

62

15

24

83

-0,02

16

62

14

23

88

-0,01

14

62

12

19

86

0

12

62

11

18

92

0,01

11

62

10

16

91

0,02

11

62

10

16

91

0,03

11

62

10

16

91



Tableau 94 Données pour les interactions répétées issues du processus nG

Ce sont les données de la série nGr de la Figure 14.

Seuil

Automatique

Expert

Confirnée

Rappel (%)

Précision (%)

-2

89

141

52

37

58

-0,25

80

141

51

36

64

-0,15

74

141

50

35

68

-0,1

71

141

48

34

68

-0,09

70

141

48

34

69

-0,08

68

141

47

33

69

-0,07

67

141

46

33

69

-0,06

64

141

44

31

69

-0,05

60

141

42

30

70

-0,04

55

141

38

27

69

-0,03

54

141

37

26

69

-0,02

52

141

36

26

69

-0,01

50

141

34

24

68

0

46

141

31

22

67

0,01

45

141

30

21

67

0,02

44

141

29

21

66

0,03

44

141

29

21

66

0,04

37

141

25

18

68

0,05

37

141

25

18

68

0,06

36

141

24

17

67

0,07

36

141

24

17

67

0,08

32

141

24

17

75

0,09

25

141

21

15

84

0,1

24

141

20

14

83

0,11

19

141

17

12

89

0,12

16

141

15

11

94

0,13

13

141

12

9

92

0,14

13

141

12

9

92

0,15

12

141

11

8

92

Résumé : La thèse propose des solutions pour mettre automatiquement en relation des informations bibliographiques avec des informations factuelles. Il s’agit de documenter des encyclopédies en ligne avec des références bibliographiques ou d’extraire des informations directement à partir de la littérature scientifique.

Nous avons pris l’exemple des gènes et de leurs interactions chez la mouche (Drosophile).

Nous avons mis au point un logiciel qui permet d’identifier dans Medline des gènes décrits dans Flybase (encyclopédie sur la Drosophile) et de reconnaître les textes décrivant des interactions entre ces gènes. La difficulté dans l’automatisation de cette tâche réside dans la complexité de la nomenclature (existence d’alias et d’abréviations, composition de termes utilisant des noms de gènes, etc.), dans la confusion possible entre certains noms de gènes et des mots du vocabulaire courant et dans l’absence de mots clefs suffisamment univoques pour marquer les phrases décrivant une interaction.
Mots clefs : Informatique documentaire, extraction d’information, statistique textuelle, terminologie, nomenclature, gènes, interaction génétique, interaction moléculaire, bioinformatique, Drosophila Melanogaster, Medline, Flybase.
Title : Experiment in integration of factual databases and bibliographical databases: gene identification in Medline from Flybase description, and application of information extraction about genetics and molecular interaction from publications.
Abstract : This thesis provides solutions to the problems of interaction between bibliographical information and factual information databases by informing on-line encyclopedias of other bibliographical references, and extracting information directly from on-line scientific literature.

The case study we took was genes and their interactions in the fly “Drosophila”. We created software to find sentences or phrases describing at least one gene’s interaction, and to identify genes in Medline (a famous bibliographical database) from their descriptions in Flybase (an on-line encyclopedia of the fly).

Difficulties in the computerization of this task were:

  • The absence of high-quality keywords for sentences that describe interactions.

  • Possible confusion between some genes’ names and common words

  • Gene naming complexity: existence of alias’ and abbreviations, composition of terms using names of genes, etc.

The program was tested successfully, and the details of the implementation are given in the document.
Keywords : Information extraction, information retrieval, natural language processing, text processing, terminology, nomenclature, genes, genetics interaction, molecular interaction, bioinformatics, Drosophila melanogaster, Medline, Flybase
Discipline : Science de l’information et de la communication
Laboratoire : CRRM (Case 422)

Centre scientifique de saint Jérôme

13397 Marseille Cedex 20

France

1 Les termes de l’index sont en italique. A l’endroit du textes où ils sont définis, ils sont en gras.

2 Centre de recherche rétrospective de Marseille. http://crrm.u-3mrs.fr

3 Institute for Scientific Information. http://www.isinet.com/isi/

4 Pour consulter les renvois, on pourra se référer au plan détaillé.

6 Accessible sur http://www.expasy.ch/sprot/

7 Les termes de l’index sont en italique. Là où ils sont définis, ils sont aussi en gras. La consultation de l’index permet de trouver la page où ils sont définis (numéro de page en gras) et les pages où ils sont utilisés.

8 Rebhan M, Chalifa-Caspi V, Prilusky J, Lancet D. GeneCards: encyclopedia for genes, proteins and diseases. Weizmann Institute of Science, Bioinformatics Unit and Genome Center (Rehovot, Israel), 1997. Accessible sur http://thr.cit.nih.gov:8081/cards

11 Accessible sur http://gdbwww.gdb.org/

15 Accessible sur http://www.ebi.ac.uk/embl/

20 Accessible sur http://www.pubgene.org/

21 Des exemples d’application sont accessible sur http://www.pdg.cnb.uam.es/suiseki/index.html

22 Institut national de la recherche en informatique et automatique.

23 Laboratoire de génétique et développement de Marseille.

25 Les gènes duplicated legs (dpl) et dorsal (dl) admettent tous deux le label dl dans leurs définitions. Cela constitue une contradiction. Nous discuterons de ce type de difficulté dans la section Partie 2 Chapitre 1 I.E.1

26 Les gènes Larval cuticle protein 10 (Lcp10) et Rho1 admettent tous deux le label Rho dans leurs définitions. Cela constitue une contradiction. Nous discuterons de ce type de difficulté dans la section Partie 2 Chapitre 1 I.E.1

27 l’appellation none provient de l’abréviation du synonyme no-ocelli--narrow-eyes

28 Le gène held out wings (how) a bien comme définition synonyme le label who. Le gène compte en effet wings held out dans ces définitions, ce qui explique la présence de who.

29 Les tableaux longs sont placés en fin de partie de niveau deux (numérotées A, B, C, etc.)

30 Flybase donne un numéro unique à chacun des gènes qu’il répertorie. Son format est du type FBgnxxx.
1   ...   28   29   30   31   32   33   34   35   36

similaire:

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de Docteur

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de
«capricieuse»!!! Merci également de m’avoir permis d’être impliqué dans des collaborations (eth zurich) et dans un programme Européen...

Thèse pour obtenir le grade de iconThèse présentée pour l’obtention du grade de Docteur

Thèse pour obtenir le grade de iconThèse pour l’obtention du grade de docteur de l’université

Thèse pour obtenir le grade de iconThèse pour obtenir le titre de

Thèse pour obtenir le grade de iconThèse présentée en vue de l'obtention du grade de

Thèse pour obtenir le grade de iconThèse présentée en vue d’obtenir

Thèse pour obtenir le grade de iconCe site permet d’obtenir les liens pour disposer de l’intégralité des programmes de Maths








Tous droits réservés. Copyright © 2016
contacts
b.21-bal.com