D.Imprécision dans la terminologie 1.Les termes qui ne décrivent pas un gène précis mais qui peuvent désigner plusieurs gènes Dans le dictionnaire, certains labels participent à plusieurs définitions. Nous dirons alors que le label est imprécis. Dans l’exemple 71, le label hsp70 est reconnu car il fait bien partie du dictionnaire, mais le dictionnaire fournit non pas un, mais quatre candidats possibles pour ce label.
Exemple 9 Imprécision dans la terminologie
Le texte peut ne pas préciser exactement de quel gène il s’agit. Ici l’auteur en notant hsp70 (souligné) ne précise pas s’il s’agit de Heat-shock-protein 70Aa, 70Ab, 70Ba, 70Bb ou 70Bc.
Immunopurified TFIID produces a large DNase I footprint over the hsp70, hsp26, and histone H3 promoters of Drosophila.
L’auteur n’est pas assez précis par rapport au dictionnaire que nous avons. Ce phénomène est d’autant plus préoccupant qu’une interaction est décrite, mais l’auteur ne dit pas exactement avec quel gène. L’information qu’il fournit est vraiment relative à ce que nous appellerons une collection de gènes et pas à un gène particulier. Ce phénomène est assez courant. Lors de l’annotation experte des textes, nous avons répertorié une série de labels qui présentent cette caractéristique. Ils sont présentés dans le Tableau 35.
Pour prendre en compte cette imprécision et annoter les textes malgré tout, nous avons créé de nouvelles entrées dans le dictionnaire. Ainsi, par exemple, nous avons créé un nouvel objet que nous avons nommé hsp70 et qui admet comme label hsp70. Parallèlement, la phrase de l’exemple 71 sera annotée en signalant que l’occurrence de hsp70 doit être comprise comme une référence à l’objet nouvellement créé dans le dictionnaire. Ce dispositif nous permet d’annoter le plus fidèlement possible les phrases. L’auteur ne fait pas référence à un des éléments de la collection, ni même à chacun des éléments de la collection. Il fait référence à la collection, qui n’est ni réductible à un élément particulier, ni à son ensemble. Cependant des liens ont été créés entre les entités nouvellement créés (de type collection) et les membres de la collection (de type gène).
Chaque élément créé (de type collection) est classé dans l’une des trois catégories : famille de gènes, famille de protéines ou complexe de gènes.
2.Les variations orthographiques Certaine orthographies sont absentes du dictionnaire fournis par Flybase.
a.Inventaire des orthographies absentes de Flybase Au cours de l’annotation des textes nous avons relevé toutes les variations orthographiques non-répertoriées dans Flybase. Le Tableau 36 en dresse l’inventaire.
Dans la plus part des cas, il existe dans Flybase une définition approchante. Nous dirons que la nouvelle définition est une variante de l’ancienne définition et que les labels sont liés par une relation de transformation. Certaines transformations sont automatisable. Nous dirons que les variantes correspondantes sont prévues.
b.Les variantes prévues Il existe quatre types de relation de transformation qui sont prise en charge par le système.
Le type le plus important de relation de transformation est le type première lettre en majuscule. Les définitions qui sont concernés sont listées dans le Tableau 20.
Tableau 20 Transformation de type première lettre en majuscule
Le label 1 était présent dans les définitions Flybase du gène, mais pas le label 2. Le label 2 a été utilisé au moins une fois pour désigner le gène. Label 1
| Transformation
| Label 2
| Gène
| achaete
| 1ière lettre en majuscule
| Achaete
| achaete (ac)
| armadillo
| 1ière lettre en majuscule
| Armadillo
| armadillo (arm)
| bicoid
| 1ière lettre en majuscule
| Bicoid
| bicoid (bcd)
| cactus
| 1ière lettre en majuscule
| Cactus
| cactus (cact)
| daughterless
| 1ière lettre en majuscule
| Daughterless
| daughterless (da)
| dorsal
| 1ière lettre en majuscule
| Dorsal
| dorsal (dl)
| hb
| 1ière lettre en majuscule
| Hb
| hunchback (hb)
| hunchback
| 1ière lettre en majuscule
| Hunchback
| hunchback (hb)
| nos
| 1ière lettre en majuscule
| Nos
| nanos (nos)
| pelle
| 1ière lettre en majuscule
| Pelle
| pelle (pll)
| runt
| 1ière lettre en majuscule
| Runt
| runt (run)
| scute
| 1ière lettre en majuscule
| Scute
| scute (sc)
| sevenless
| 1ière lettre en majuscule
| Sevenless
| sevenless (sev)
| sry delta
| 1ière lettre en majuscule
| Sry delta
| Serendipity delta (Sry-delta)
| torso
| 1ière lettre en majuscule
| Torso
| torso (tor)
| trithorax
| 1ière lettre en majuscule
| Trithorax
| trithorax (trx)
| tube
| 1ière lettre en majuscule
| Tube
| tube (tub)
| wingless
| 1ière lettre en majuscule
| Wingless
| wingless (wg)
| Vient ensuite le cas de relation de transformation de type tout en majuscule. Le Tableau 21 donne les définitions concernées effectivement reconnues par l’annotateur dans l’échantillon A.
Tableau 21 Transformation de type tout en majuscule
Le label 1 était présent dans les définitions Flybase du gène, mais pas le label 2. Le label 2 a été interprété au moins une fois comme une manifestation du gène par l’annotateur. Label 1
| Transformation
| Label 2
| Gène
| Antp
| Tout en majuscules
| ANTP
| Antennapedia (Antp)
| Psi
| Tout en majuscules
| PSI
| P-element somatic inhibitor (Psi)
| tra
| Tout en majuscules
| TRA
| transformer (tra)
| UBx
| Tout en majuscules
| UBX
| Ultrabithorax (Ubx)
| Ubx
| Tout en majuscules
| UBX
| Ultrabithorax (Ubx)
| antp
| Tout en majuscules
| ANTP
| Antennapedia (Antp)
| dpp
| Tout en majuscules
| DPP
| decapentaplegic (dpp)
| scw
| Tout en majuscules
| SCW
| screw (scw)
| tolloid
| Tout en majuscules
| TOLLOID
| tolloid (tld)
| ubx
| Tout en majuscules
| UBX
| Ultrabithorax (Ubx)
| Notons que le label transformé correspond souvent à la protéine synthétisée par le gène. C’est la raison pour laquelle nous avons choisi de définir par défaut le type de ces définitions à protéine.
Vient ensuite le cas de relation de transformation de type espace transformé en tiret. Le Tableau 22 donne les définitions concernées effectivement reconnues par l’annotateur dans l’échantillon A.
Tableau 22 Transformation de type espace transformé en tiret
Le label 1 était présent dans les définitions Flybase du gène, mais pas le label 2. Le label 2 a été interprété au moins une fois comme une manifestation du gène par l’annotateur. Label 1
| transformation
| Label 2
| Gène
| Abdominal B
| espace -> tiret
| Abdominal-B
| Abdominal B (Abd-B)
| Bicaudal D
| espace -> tiret
| Bicaudal-D
| Bicaudal D (BicD)
| Sex lethal
| espace -> tiret
| Sex-lethal
| Sex lethal (Sxl)
| abdominal A
| espace -> tiret
| abdominal-A
| abdominal A (abd-A)
| even skipped
| espace -> tiret
| even-skipped
| even skipped (eve)
| gooseberry distal
| espace -> tiret
| gooseberry-distal
| gooseberry distal (gsb-d)
| gooseberry proximal
| espace -> tiret
| gooseberry-proximal
| gooseberry proximal (gsb-p)
| Vient enfin le cas de relation de transformation de type tout en minuscule ou tiret transformé en espace. Le Tableau 23 donne les définitions concernées effectivement reconnues par l’annotateur dans l’échantillon A.
Tableau 23 Transformation de type tout en minuscule ou tiret transformé en espace
Le label 1 était présent dans les définitions Flybase du gène, mais pas le label 2. Le label 2 a été utilisé au moins une fois dans les textes annotés pour désigner le gène. Label 1
| transformation
| Label 2
| Gène
| troponin-I
| tiret -> espace
| troponin I
| wings up A (wupA)
| Sry-delta
| tiret -> espace
| Sry delta
| Serendipity delta (Sry-delta)
| Phosrestin-II
| tiret -> espace
| Phosrestin II
| Arrestin A (Arr1)
| Serendipity delta
| Tout en minusc.
| serendipity delta
| Serendipity delta (Sry-delta)
| Adducin-like
| Tout en minusc.
| adducin-like
| hu li tai shao (hts)
| Bien sûr, en générant automatiquement de nouvelles définitions, on peut créer de nouvelles difficultés. En effet le label transformé peut être ambigu, c’est à dire qu’il se confond avec un terme souvent présent dans les textes mais qui n’a rien à voir avec un quelconque gène. Nous verrons à la section Partie 2 Chapitre 1 I.F comment cette difficulté peut être résolue par l’utilisation du contexte.
Par ailleurs, il est important de noter que les exemples donnés dans les sections précédentes et en particulier dans la section 6 qui traite de l’ambiguïté des labels, n’ont rien à voir avec ces nouvelles définitions. Autrement dit, les problèmes que nous avons illustrés précédemment n’ont pas été générés par l’introduction automatique de variantes sur les définitions. En effet, nous avons pris soin, dans ces exemples, de n’utiliser que des définitions, soit directement issues de Flybase, soit introduites manuellement par l’annotateur.
Pour évaluer l’importance relative de chaque type de relation de transformation nous proposons le Tableau 24.
Tableau 24 Importance relative de chaque type de transformation
La colonne Effectif donne le nombre de reconnaissance faite par l’annotateur dans l’échantillon A. Transformation
| Effectif
| 1ière lettre en majuscule
| 65
| Tout en majuscules
| 23
| espace -> tiret
| 21
| tiret -> espace
| 5
| Tout en minuscules
| 4
| c.Les variantes imprévues Voyons le cas des définitions variantes qui ne sont pas actuellement anticipées par le système que nous proposons. Le Tableau 25 répertorie celles que nous avons trouvées.
Tableau 25 Variantes imprévues
Chaque ligne du tableau donne une définition rencontrée au moins une fois dans l’échantillon A. Elles sont toutes absentes du dictionnaire issu de Flybase. Ces variantes ne sont pas actuellement prévues par le système. Elles ont été introduites manuellement par l’annotateur. Label
| Gène
| abdominal- A
| abdominal A (abd-A)
| Absent, small or homeotic discs1
| absent, small, or homeotic discs 1 (ash1)
| AceIJ40
| Acetylcholine esterase (Ace)
| acetylcholinesterase
| Acetylcholine esterase (Ace)
| Acetylcholinesterases
| Acetylcholine esterase (Ace)
| alpha- spectrin
| alpha Spectrin (alpha-Spec)
| cyclin E
| Cyclin E (CycE)
| D- Mek
| Downstream of raf1 (Dsor1)
| D-mekts
| Downstream of raf1 (Dsor1)
| dorsal switch protein
| Dorsal switch protein 1 (Dsp1)
| double sex
| doublesex (dsx)
| EGF-Receptor
| EGF receptor (Egfr)
| Extra sex combs
| extra sexcombs (esc)
| Extramacrochaete
| extra macrochaetae (emc)
| extra-macrochaete
| extra macrochaetae (emc)
| histone H1
| Histone H1 (His1)
| histone H3
| Histone H3 (His3)
| Hsp90
| Heat shock protein 83 (Hsp83)
| I elements
| I element (I-element)
| Lethal of Scute
| lethal of scute (l(1)sc)
| lethal-of- scute
| lethal of scute (l(1)sc)
| phosrestins I
| Arrestin B (Arr2)
| Segregation Distorter
| Segregation distorter (Sd)
| Zeste-white 3
| shaggy (sgg)
| Zeste-White 3
| shaggy (sgg)
| zeste-white 3
| shaggy (sgg)
| Nous remarquons dans le Tableau 25, que des variantes actuellement imprévues sont la conséquence de transformations systématiquement opérées, bien que non prise en charge par le système. Le système pourrait donc être amélioré pour prendre en charge ces transformations.
La présence des labels Abdominal- A, alpha- spectrin, D- Mek et lethal-of- scute s’explique par un formatage particulier des textes de Medline. Il s’agit assez vraisemblablement d’un traitement automatique effectué sur les textes qui a pour but de permettre des recherches en texte intégral sur des termes qui participent à des mots composés. Cependant cet espace après le tiret n’est pas systématique.
Nous remarquons aussi à l’œuvre des transformations de concaténation dans les labels acetylcholinesterase, Acetylcholinesterases et extramacrochaete.
Symétriquement les labels double sex et extra sex combs résultent d’une transformation de scission.
Des opérations de mise en majuscule des premières lettres de certains des mots qui entrent dans la composition d’un label sont aussi à l’œuvre dans Lethal of Scute et Segregation Distorter.
d.Importance relative des variantes prévues et imprévues Il est intéressant de comparer l’importance relative des transformations prévues et imprévues. Le tableau 76 donne cette information. Ainsi, en termes d’occurrence, 70 % des définitions variantes sont déjà prise en charge par notre système. Des progrès sont néanmoins encore possible.
Tableau 26 Importance relative des variantes prévues et imprévues
L’effectif correspond au nombre de reconnaissance dans l’échantillon A. Type
| Effectif
| Proportion
| Prévue
| 100
| 70 %
| Imprévue
| 42
| 30 %
| Total
| 142
| 100 %
| Il est à noter que le nombre de reconnaissances correspondant aux variantes prévues vaut 100, alors que la somme des fréquences mentionnées dans le Tableau 24 vaut 118. Cette différence provient du fait qu’une même définition peut être issue de plusieurs type de transformation. Ainsi, lors que l’on ajoute les effectifs du Tableau 24, on peu compter plusieurs fois une même reconnaissance, de sorte que le résultat est supérieur à l’effectif total.
|