C.Ambiguïté des labels Nous arrivons à la difficulté sans doute la plus importante. Les labels sont parfois ambigus, c’est à dire qu’ils peuvent faire référence à tout autre chose que des gènes. Nous avons distingué deux catégories de label ambigu selon la gravité de la situation.
1.Les labels qui sont des mots vides Cette première catégorie de label ambigu correspond à des mots extrêmement courants de l’anglais comme if ou for qui malheureusement désignent des gènes. Le Tableau 14 donne la liste de ces termes.
Tableau 14 Labels et mots vides
Les labels présentés prêtent à confusion avec des mots vides. Label
| Gène
| an
| ancon (an)
| as
| ascute (as)
| at
| arctus oculus (at)
| be
| tumor(3)be (tu(3)be)
| by
| blistery (by)
| can
| cannonball (can)
| did
| diminished discs (did)
| do
| pale ocelli (po)
| for
| foraging (for)
| her
| hermaphrodite (her)
| how
| held out wings (how)
| if
| inflated (if)
| in
| inturned (in)
| me
| focal melanosis (me)
| none 27
| glass (gl)
| not
| non-stop (not)
| or
| orange (or)
| per
| period (per)
| she
| sherry (she)
| so
| sine oculis (so)
| up
| upheld (up)
| us
| undersized (us)
| we
| wee (we)
| who
| held out wings (how) 28
| with
| with trident (with)
| Ces mots sont appelés mots vides (stop word en anglais) en recherche documentaire. Cette appellation provient du fait que ces mots à eux seul ne renferment pas de sens. C’est à dire que leur présence ou absence dans un texte donné ne permet pas de savoir quoi que ce soit sur ce texte quant à son sens. Ils ne sont donc jamais utilisés dans les index. Nous avons employé une liste de mots vides établie pour la mise au point d’un système d’indexation de texte en anglais. Nous avons trouvé parmi les labels de notre dictionnaire un certain nombre de termes qui appartiennent à cette liste. Nous voyons que la liste des membres de cette première catégorie de labels ambigus a été établie avant toute expérience ; ce qui ne sera pas le cas de la deuxième liste qui elle sera établie à la lecture des textes, au fur et à mesure de la rencontre avec des labels ambigus. Certains termes ont pu quand même changer de catégorie, quand nous nous sommes aperçus qu’ils n’étaient pas toujours aussi largement répandus dans les textes.
Les occurrences de ces termes sont trop nombreuses pour que nous puissions les indexer systématiquement. Cela aboutirait à une surcharge de la base de données. Il est d’ailleurs d’usage de ne pas les inclure dans les index en partie pour cette raison.
Néanmoins nous verrons que le contexte permet dans certain cas de les prendre en compte lors de l’identification des gènes dans les textes. Retenons simplement pour l’instant que la présence à elle seule d’un de ces labels ne peut être interprété comme une référence à un gène.
Les labels que nous avons présentés dans le Tableau 14 se confondent exactement avec des mots vides. D’autres labels ne s’en distinguent que par la casse. Ils sont présentés dans le Tableau 15.
Tableau 15 Mots vides et différence de casse
Les labels présentés prêtent à confusion avec des mots vides, mais ils s’en distinguent par la casse. Label
| Gène
| Remarque
| And
| Androcam (And)
|
| At
| Attenuated (At)
|
| Be
| lethal (2) 37Be (l(2)37Be)
|
| Can
| Calcineurin B (CanB)
| Can est un label commun à deux gènes
| Can
| Calcineurin A1 (CanA1)
| idem
| Co
| Notch (N)
| Co provient du synonyme Confluens
| Had
| beta Hydroxy acid dehydrogenase (Had)
|
| Is
| Isis (Is)
|
| Low
| Lightener of white (Low)
|
| Me
| Moire (Me)
|
| Off
| Off
|
| On
| Open (On)
|
| Re
| Re
|
| To
| Superoxide dismutase (Sod)
| To provient du synonyme Tetrazolium oxidase
| Ve
| veinlet (ve)
|
| We
| Washed eye (We)
|
| Ces labels sont recherchés dans les textes car le système prend en compte la différence de casse. Cependant quand le mot en question se trouve en première position dans la phrase, alors il y a de fortes chances pour qu’il s’agisse en fait du mot vide correspondant. Dans ce cas la reconnaissance ne se fait pas.
2.Les labels qui prêtent à confusion avec des termes d’anglais assez courants Cette deuxième catégorie de labels ambigus comporte des termes dont l’ambiguïté est moins sévère. Ce sont des termes de la langue anglaise, mais ce ne sont pas des mots-outils, des mots à tout faire comme pour la première catégorie.
a.Les labels fortement ambigus Certains labels sont, dans le contexte des textes que nous étudions, fortement ambigus. Le Tableau 33 29 en fait l’inventaire.
Ces termes sont trop ambigus pour que l’on puisse avoir totalement confiance quand on les rencontre dans les textes. Nous verrons à la section F qu’une utilisation du contexte permet de résoudre le problème.
b.Les labels qui dans le contexte de la génétique sont moins ambigus qu’ils ne semblent Certains termes, bien que faisant partie du dictionnaire, ne sont pas aussi ambigus qu’il y paraît, et pourront être utilisés pour identifier les gènes dans les textes. C’est le cas par exemple de hedgeog, qui bien qu’ayant un autre sens que celui d’un gène (hérisson), devra être interprété comme une référence au gène hedgeog (hh) car il est peu probable que l’on parle de hérisson dans un texte de génétique de la drosophile. Le Tableau 16 fait l’inventaire de ces termes.
Tableau 16 Labels peu ambigus
Les labels présentés sont a priori ambigus, mais pas dans le contexte de la génétique. Label
| Gène
| Remarques
| cap
| Calphotin (Cpn)
| Signifie chapeau, terme rare
| cap
| capon (cap)
| idem
| cap
| Chromosome-associated protein (Cap)
| idem
| Deformed
| Deformed (Dfd)
| ne se confond pas avec deformed
| giant
| giant (gt)
| signifie géant, terme rare
| HAD
| beta Hydroxy acid dehydrogenase (Had)
| ne se confond pas avec had
| hedgehog
| hedgehog (hh)
| Signifie hérisson, terme rare
| ltd
| lightoid (ltd)
| ltd est l’abréviation de limited, terme rare
| ME
| Malic enzyme (Men)
| ne se confond pas avec me
| mr
| morula (mr)
| ne se confond pas avec Mr
| rough
| rough (ro)
| signifie rugueux, terme rare
| stranded
| stranded (sand)
| signifie échouer, terme rare
| suffix
| suffix element (suffix)
|
| thick
| thick (tk)
| signifie gros, terme rare
| thin
| thin (tn)
| signifie mince, terme rare
| tube
| tube (tub)
|
| weak
| weak (wk)
| signifie faible, terme rare
| Nous constatons que, dans certains cas, c’est la différence de casse entre le label et le terme d’anglais qui permet de lever l’ambiguïté.
c.Les labels faiblement ambigus. Pour d’autres termes, nous n’avons pas beaucoup d’exemples d’occurrence dans les textes. Ainsi, il s’agit de termes qui sont rares à la fois dans leur acception de label et dans une autre acception. Cependant, ils paraissent assez peu ambigus et ils seront donc utilisés pour l’identification des gènes dans les textes. Le Tableau 34 fait l’inventaire de ces termes.
d.Les labels ambigus mais très importants Les gènes dorsal (dl) et armadillo (arm) sont très importants en génétique de la drosophile et sont souvent cités par les auteurs. Ne pas les reconnaître serait donc grave à la fois du point de vue de la biologie et du point de vue des performances attendues du système. Une stratégie de désambiguïsation a donc été mise en œuvre. Elle est basée sur la présence d’un contexte qui dans le cas où il ne s’agirait pas d’un gène, va donner des indices qui permettent de lever l’ambiguïté. Ces termes de désambiguïsation, déjà donnés dans le Tableau 12, sont listés à nouveau dans le Tableau 17.
Tableau 17 Labels désambiguïsés
Les termes dorsal et arm sont pris en compte grâce à une technique de désambiguïsation. Le label est interprété comme un gène sauf si c’est le terme de désambiguïsation qui est reconnu. Label
| Terme de désambiguïsation
| arm
| chromosome arm
| arm
| N-terminal arm
| arm
| C-terminal arm
| dorsal
| dorsal side
| dorsal
| dorsal vessel
| dorsal
| dorsal-specific
| dorsal
| dorsal cell
| dorsal
| dorsal closure
| dorsal
| dorsal half
| dorsal
| dorsal ectoderm
| dorsal
| dorsal follicle
| dorsal
| dorsal fate
| dorsal
| dorsal cells
| dorsal
| dorsal or ventral
| dorsal
| dorsal pattern
| dorsal
| dorsal-ventral
| dorsal
| dorsal epidermis
| dorsal
| dorsal midline
| 3.Les labels qui prêtent à confusion avec des gènes de mammifères. Dans les textes que nous analysons, il est parfois question de gènes d’autres espèces biologiques comme dans l’exemple 69.
Exemple 8 Confusion possible avec des gènes de mammifères
Des gènes de mammifères ont les noms qui se confondent avec ceux de la drosophile. Ici les occurrences soulignées de E2F font référence à un gène humain, alors que E2F est un synonyme de E2F transcription factor (E2f) d’après Flybase.
The temporal activation of E2F transcriptional activity appears to be an important component of the mechanisms that prepare mammalian cells for DNA replication. Regulation of E2F activity appears to be a highly complex process, and the dissection of the E2F pathway will be greatly facilitated by the ability to use genetic approaches. We report the isolation of two Drosophila genes that can stimulate E2F-dependent transcription in Drosophila cells. One of these genes, dE2F, contains three domains that are highly conserved in the human homologs E2F-1, E2F-2, and E2F-3. Interestingly, one of these domains is highly homologous to the retinoblastoma protein (RB)-binding sequences of human E2F genes. The other gene, dDP, is closely related to the human DP-1 and DP-2 genes. We demonstrate that dDP and dE2F interact and cooperate to give sequence- specific DNA binding and optimal trans-activation. These features suggest that endogenous Drosophila E2F, like human E2F, may be composed of heterodimers and may be regulated by RB-like proteins. The isolation of these genes will provide important reagents for the genetic analysis of the E2F pathway.
Les auteurs font référence à des gènes d’autres espèces pour donner des informations sur l’homologie ou, d’une façon plus générale, sur les ressemblances dans les propriétés ou fonctions des gènes en question avec des gènes de la drosophile.
Le problème se rencontre 13 fois dans l’échantillon A. Le Tableau 18 fournit les phrases concernées.
Tableau 18 Occurrence de gène de mammifère
La colonne de droite donne le label qui prête à confusion. Une référence à un gène de mammifère ne doit pas être interprétée comme une référence à un gène de drosophile. Phrase
| Label
| We show here that btd is expressed in a stripe covering the head analgen of the segments affected in btd lack-of-function mutants and that btd encodes a zinc-finger-type transcription factor with sequence and functional similarity to the prototype mammalian transcription factor Sp1.
| Sp1
| When expressed in the spatial pattern of btd, a transgene providing Sp1 activity can support development of the mandibular segment in the head of btd mutant embryos.
| Sp1
| This Musca protein, designated Musca PRI, changes its pI upon illumination in vivo.
| PRI et PRIs
| Rabbit antibodies raised against Musca PRI, against bovine arrestin, and against a synthetic peptide based on the Drosophila PRI sequence stained the Drosophila and Musca PRIs specifically on 1 and 2-dimensional Western immunoblots.
| PRI et PRIs
| Both Drosophila and Musca PRIs incorporated 32P-radioactivity from gamma-32P-ATP in cell-free homogenates of retinas.
| PRI et PRIs
| Partial peptide digestions of Drosophila and Musca PRIs revealed similarity between these proteins.
| PRI et PRIs
| Mutations in the Drosophila gene extradenticle (exd), a homologue of the human proto-oncogene pbx1, cause homeotic transformations by altering the morphological consequences of homeotic selector gene activity. exd has been proposed to act by contributing to the specificity of selector homeodomain proteins for their downstream targets.
| pbx1
| The Drosophila protein Dorsal (which, like the human protein NF-kappa B3, is a member of the Rel family of transcriptional activators) activates the twist gene and represses the zen gene in the ventral region of early embryos.
| Rel
| Nous constatons que dans la plupart des cas, il suffit de compléter le dictionnaire en créant une rubrique pour les gènes de mammifères. Nous n’avons pas complété cette rubrique à l’aide de bases de donnée de génétique de la souris, de l’homme ou des mammifères. Nous avons simplement, et à titre expérimental, complété cette rubrique avec les exemples que nous avons trouvés au cours de l’annotation. Le Tableau 19 liste les données ainsi introduites.
Tableau 19 Gène de mammifère : extrait du dictionnaire
Des gènes de mammifères qui ont été rajoutés au dictionnaire des gènes. Seul les cas effectivement trouvés dans les textes sont concernés. Ces informations ont été introduites par l’annotateur à titre expérimental, pour prouver la capacité du système à correctement distinguer entre gène de drosophile et gène d’autres espèces. Gène
| Label
|
| E2F-1
| E2F-1
|
| E2F-1
| human E2F
|
| E2F-2
| E2F-2
|
| E2F-2
| human E2F
|
| E2F-3
| E2F-3
|
| E2F-3
| human E2F
|
| human proto-oncogene pbx1
| human proto-oncogene pbx1
|
| mammalian transcription factor Sp1
| mammalian transcription factor Sp1
|
| mammalian transcription factor Sp1
| Sp1
|
| Musca PRI
| Musca PRI
|
| Musca PRI
| Musca PRIs
|
| |