Thèse pour obtenir le grade de








télécharger 3.33 Mb.
titreThèse pour obtenir le grade de
page10/36
date de publication21.01.2018
taille3.33 Mb.
typeThèse
b.21-bal.com > droit > Thèse
1   ...   6   7   8   9   10   11   12   13   ...   36

D.Imprécision dans la terminologie

1.Les termes qui ne décrivent pas un gène précis mais qui peuvent désigner plusieurs gènes

Dans le dictionnaire, certains labels participent à plusieurs définitions. Nous dirons alors que le label est imprécis. Dans l’exemple 71, le label hsp70 est reconnu car il fait bien partie du dictionnaire, mais le dictionnaire fournit non pas un, mais quatre candidats possibles pour ce label.

Exemple 9 Imprécision dans la terminologie

Le texte peut ne pas préciser exactement de quel gène il s’agit. Ici l’auteur en notant hsp70 (souligné) ne précise pas s’il s’agit de Heat-shock-protein 70Aa, 70Ab, 70Ba, 70Bb ou 70Bc.

Immunopurified TFIID produces a large DNase I footprint over the hsp70, hsp26, and histone H3 promoters of Drosophila.

L’auteur n’est pas assez précis par rapport au dictionnaire que nous avons. Ce phénomène est d’autant plus préoccupant qu’une interaction est décrite, mais l’auteur ne dit pas exactement avec quel gène. L’information qu’il fournit est vraiment relative à ce que nous appellerons une collection de gènes et pas à un gène particulier. Ce phénomène est assez courant. Lors de l’annotation experte des textes, nous avons répertorié une série de labels qui présentent cette caractéristique. Ils sont présentés dans le Tableau 35.

Pour prendre en compte cette imprécision et annoter les textes malgré tout, nous avons créé de nouvelles entrées dans le dictionnaire. Ainsi, par exemple, nous avons créé un nouvel objet que nous avons nommé hsp70 et qui admet comme label hsp70. Parallèlement, la phrase de l’exemple 71 sera annotée en signalant que l’occurrence de hsp70 doit être comprise comme une référence à l’objet nouvellement créé dans le dictionnaire. Ce dispositif nous permet d’annoter le plus fidèlement possible les phrases. L’auteur ne fait pas référence à un des éléments de la collection, ni même à chacun des éléments de la collection. Il fait référence à la collection, qui n’est ni réductible à un élément particulier, ni à son ensemble. Cependant des liens ont été créés entre les entités nouvellement créés (de type collection) et les membres de la collection (de type gène).

Chaque élément créé (de type collection) est classé dans l’une des trois catégories : famille de gènes, famille de protéines ou complexe de gènes.
2.Les variations orthographiques

Certaine orthographies sont absentes du dictionnaire fournis par Flybase.
a.Inventaire des orthographies absentes de Flybase

Au cours de l’annotation des textes nous avons relevé toutes les variations orthographiques non-répertoriées dans Flybase. Le Tableau 36 en dresse l’inventaire.

Dans la plus part des cas, il existe dans Flybase une définition approchante. Nous dirons que la nouvelle définition est une variante de l’ancienne définition et que les labels sont liés par une relation de transformation. Certaines transformations sont automatisable. Nous dirons que les variantes correspondantes sont prévues.
b.Les variantes prévues

Il existe quatre types de relation de transformation qui sont prise en charge par le système.

Le type le plus important de relation de transformation est le type première lettre en majuscule. Les définitions qui sont concernés sont listées dans le Tableau 20.

Tableau 20 Transformation de type première lettre en majuscule

Le label 1 était présent dans les définitions Flybase du gène, mais pas le label 2. Le label 2 a été utilisé au moins une fois pour désigner le gène.

Label 1

Transformation

Label 2

Gène

achaete

1ière lettre en majuscule

Achaete

achaete (ac)

armadillo

1ière lettre en majuscule

Armadillo

armadillo (arm)

bicoid

1ière lettre en majuscule

Bicoid

bicoid (bcd)

cactus

1ière lettre en majuscule

Cactus

cactus (cact)

daughterless

1ière lettre en majuscule

Daughterless

daughterless (da)

dorsal

1ière lettre en majuscule

Dorsal

dorsal (dl)

hb

1ière lettre en majuscule

Hb

hunchback (hb)

hunchback

1ière lettre en majuscule

Hunchback

hunchback (hb)

nos

1ière lettre en majuscule

Nos

nanos (nos)

pelle

1ière lettre en majuscule

Pelle

pelle (pll)

runt

1ière lettre en majuscule

Runt

runt (run)

scute

1ière lettre en majuscule

Scute

scute (sc)

sevenless

1ière lettre en majuscule

Sevenless

sevenless (sev)

sry delta

1ière lettre en majuscule

Sry delta

Serendipity delta (Sry-delta)

torso

1ière lettre en majuscule

Torso

torso (tor)

trithorax

1ière lettre en majuscule

Trithorax

trithorax (trx)

tube

1ière lettre en majuscule

Tube

tube (tub)

wingless

1ière lettre en majuscule

Wingless

wingless (wg)

Vient ensuite le cas de relation de transformation de type tout en majuscule. Le Tableau 21 donne les définitions concernées effectivement reconnues par l’annotateur dans l’échantillon A.

Tableau 21 Transformation de type tout en majuscule

Le label 1 était présent dans les définitions Flybase du gène, mais pas le label 2. Le label 2 a été interprété au moins une fois comme une manifestation du gène par l’annotateur.

Label 1

Transformation

Label 2

Gène

Antp

Tout en majuscules

ANTP

Antennapedia (Antp)

Psi

Tout en majuscules

PSI

P-element somatic inhibitor (Psi)

tra

Tout en majuscules

TRA

transformer (tra)

UBx

Tout en majuscules

UBX

Ultrabithorax (Ubx)

Ubx

Tout en majuscules

UBX

Ultrabithorax (Ubx)

antp

Tout en majuscules

ANTP

Antennapedia (Antp)

dpp

Tout en majuscules

DPP

decapentaplegic (dpp)

scw

Tout en majuscules

SCW

screw (scw)

tolloid

Tout en majuscules

TOLLOID

tolloid (tld)

ubx

Tout en majuscules

UBX

Ultrabithorax (Ubx)

Notons que le label transformé correspond souvent à la protéine synthétisée par le gène. C’est la raison pour laquelle nous avons choisi de définir par défaut le type de ces définitions à protéine.

Vient ensuite le cas de relation de transformation de type espace transformé en tiret. Le Tableau 22 donne les définitions concernées effectivement reconnues par l’annotateur dans l’échantillon A.

Tableau 22 Transformation de type espace transformé en tiret

Le label 1 était présent dans les définitions Flybase du gène, mais pas le label 2. Le label 2 a été interprété au moins une fois comme une manifestation du gène par l’annotateur.

Label 1

transformation

Label 2

Gène

Abdominal B

espace -> tiret

Abdominal-B

Abdominal B (Abd-B)

Bicaudal D

espace -> tiret

Bicaudal-D

Bicaudal D (BicD)

Sex lethal

espace -> tiret

Sex-lethal

Sex lethal (Sxl)

abdominal A

espace -> tiret

abdominal-A

abdominal A (abd-A)

even skipped

espace -> tiret

even-skipped

even skipped (eve)

gooseberry distal

espace -> tiret

gooseberry-distal

gooseberry distal (gsb-d)

gooseberry proximal

espace -> tiret

gooseberry-proximal

gooseberry proximal (gsb-p)

Vient enfin le cas de relation de transformation de type tout en minuscule ou tiret transformé en espace. Le Tableau 23 donne les définitions concernées effectivement reconnues par l’annotateur dans l’échantillon A.

Tableau 23 Transformation de type tout en minuscule ou tiret transformé en espace

Le label 1 était présent dans les définitions Flybase du gène, mais pas le label 2. Le label 2 a été utilisé au moins une fois dans les textes annotés pour désigner le gène.

Label 1

transformation

Label 2

Gène

troponin-I

tiret -> espace

troponin I

wings up A (wupA)

Sry-delta

tiret -> espace

Sry delta

Serendipity delta (Sry-delta)

Phosrestin-II

tiret -> espace

Phosrestin II

Arrestin A (Arr1)

Serendipity delta

Tout en minusc.

serendipity delta

Serendipity delta (Sry-delta)

Adducin-like

Tout en minusc.

adducin-like

hu li tai shao (hts)

Bien sûr, en générant automatiquement de nouvelles définitions, on peut créer de nouvelles difficultés. En effet le label transformé peut être ambigu, c’est à dire qu’il se confond avec un terme souvent présent dans les textes mais qui n’a rien à voir avec un quelconque gène. Nous verrons à la section Partie 2 Chapitre 1 I.F comment cette difficulté peut être résolue par l’utilisation du contexte.

Par ailleurs, il est important de noter que les exemples donnés dans les sections précédentes et en particulier dans la section 6 qui traite de l’ambiguïté des labels, n’ont rien à voir avec ces nouvelles définitions. Autrement dit, les problèmes que nous avons illustrés précédemment n’ont pas été générés par l’introduction automatique de variantes sur les définitions. En effet, nous avons pris soin, dans ces exemples, de n’utiliser que des définitions, soit directement issues de Flybase, soit introduites manuellement par l’annotateur.

Pour évaluer l’importance relative de chaque type de relation de transformation nous proposons le Tableau 24.

Tableau 24 Importance relative de chaque type de transformation

La colonne Effectif donne le nombre de reconnaissance faite par l’annotateur dans l’échantillon A.

Transformation

Effectif

1ière lettre en majuscule

65

Tout en majuscules

23

espace -> tiret

21

tiret -> espace

5

Tout en minuscules

4
c.Les variantes imprévues

Voyons le cas des définitions variantes qui ne sont pas actuellement anticipées par le système que nous proposons. Le Tableau 25 répertorie celles que nous avons trouvées.

Tableau 25 Variantes imprévues

Chaque ligne du tableau donne une définition rencontrée au moins une fois dans l’échantillon A. Elles sont toutes absentes du dictionnaire issu de Flybase. Ces variantes ne sont pas actuellement prévues par le système. Elles ont été introduites manuellement par l’annotateur.

Label

Gène

abdominal- A

abdominal A (abd-A)

Absent, small or homeotic discs1

absent, small, or homeotic discs 1 (ash1)

AceIJ40

Acetylcholine esterase (Ace)

acetylcholinesterase

Acetylcholine esterase (Ace)

Acetylcholinesterases

Acetylcholine esterase (Ace)

alpha- spectrin

alpha Spectrin (alpha-Spec)

cyclin E

Cyclin E (CycE)

D- Mek

Downstream of raf1 (Dsor1)

D-mekts

Downstream of raf1 (Dsor1)

dorsal switch protein

Dorsal switch protein 1 (Dsp1)

double sex

doublesex (dsx)

EGF-Receptor

EGF receptor (Egfr)

Extra sex combs

extra sexcombs (esc)

Extramacrochaete

extra macrochaetae (emc)

extra-macrochaete

extra macrochaetae (emc)

histone H1

Histone H1 (His1)

histone H3

Histone H3 (His3)

Hsp90

Heat shock protein 83 (Hsp83)

I elements

I element (I-element)

Lethal of Scute

lethal of scute (l(1)sc)

lethal-of- scute

lethal of scute (l(1)sc)

phosrestins I

Arrestin B (Arr2)

Segregation Distorter

Segregation distorter (Sd)

Zeste-white 3

shaggy (sgg)

Zeste-White 3

shaggy (sgg)

zeste-white 3

shaggy (sgg)

Nous remarquons dans le Tableau 25, que des variantes actuellement imprévues sont la conséquence de transformations systématiquement opérées, bien que non prise en charge par le système. Le système pourrait donc être amélioré pour prendre en charge ces transformations.

La présence des labels Abdominal- A, alpha- spectrin, D- Mek et lethal-of- scute s’explique par un formatage particulier des textes de Medline. Il s’agit assez vraisemblablement d’un traitement automatique effectué sur les textes qui a pour but de permettre des recherches en texte intégral sur des termes qui participent à des mots composés. Cependant cet espace après le tiret n’est pas systématique.

Nous remarquons aussi à l’œuvre des transformations de concaténation dans les labels acetylcholinesterase, Acetylcholinesterases et extramacrochaete.

Symétriquement les labels double sex et extra sex combs résultent d’une transformation de scission.

Des opérations de mise en majuscule des premières lettres de certains des mots qui entrent dans la composition d’un label sont aussi à l’œuvre dans Lethal of Scute et Segregation Distorter.
d.Importance relative des variantes prévues et imprévues

Il est intéressant de comparer l’importance relative des transformations prévues et imprévues. Le tableau 76 donne cette information. Ainsi, en termes d’occurrence, 70 % des définitions variantes sont déjà prise en charge par notre système. Des progrès sont néanmoins encore possible.

Tableau 26 Importance relative des variantes prévues et imprévues

L’effectif correspond au nombre de reconnaissance dans l’échantillon A.

Type

Effectif

Proportion

Prévue

100

70 %

Imprévue

42

30 %

Total

142

100 %

Il est à noter que le nombre de reconnaissances correspondant aux variantes prévues vaut 100, alors que la somme des fréquences mentionnées dans le Tableau 24 vaut 118. Cette différence provient du fait qu’une même définition peut être issue de plusieurs type de transformation. Ainsi, lors que l’on ajoute les effectifs du Tableau 24, on peu compter plusieurs fois une même reconnaissance, de sorte que le résultat est supérieur à l’effectif total.
1   ...   6   7   8   9   10   11   12   13   ...   36

similaire:

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de Docteur

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de
«capricieuse»!!! Merci également de m’avoir permis d’être impliqué dans des collaborations (eth zurich) et dans un programme Européen...

Thèse pour obtenir le grade de iconThèse présentée pour l’obtention du grade de Docteur

Thèse pour obtenir le grade de iconThèse pour l’obtention du grade de docteur de l’université

Thèse pour obtenir le grade de iconThèse pour obtenir le titre de

Thèse pour obtenir le grade de iconThèse présentée en vue de l'obtention du grade de

Thèse pour obtenir le grade de iconThèse présentée en vue d’obtenir

Thèse pour obtenir le grade de iconCe site permet d’obtenir les liens pour disposer de l’intégralité des programmes de Maths








Tous droits réservés. Copyright © 2016
contacts
b.21-bal.com