b.Structure de données pour les labels i.La table des labels
Les labels, c’est à dire les chaînes de caractères qui dans un texte peuvent désigner un gène ou un objet assimilé, sont répertoriés dans une table. Le Tableau 47 donne un exemple d’enregistrement de la table. La table est intitulée NG pour Nom de Gène..
Tableau 47 Table des labels
Un exemple d’enregistrement est donné dans ce tableau. Champ
| Contenu
| Clef Label
| 108
| Label
| AbdA
| Transcode
| |Abd. A
| Reconnaître
| Non renseigné
| Nouveau
| Non
| Date
| 21/04/00 16:20:45
| L’utilité des champs Transcode, Reconnaître et Nouveau seront expliqués dans les sections qui suivent.
ii.Structure de données pour la relation d’inclusion
Les labels sont inclus les uns dans les autres et cette inclusion est une information essentielle au processus d’identification des gènes dans les textes. Nous avons discuté de ce point dans la section Chapitre 1 I.B.5. Ces informations sont consignées dans la table d’inclusion. Le Tableau 48 donne un exemple d’enregistrement de cette table. La table est intitulée RNGR pour Reconnaissance de Nom de Gène Réflexive..
Tableau 48 Table des inclusions
Un exemple d’enregistrement de la table est donné dans ce tableau. Le label Hairless est inclue en position 15 dans le label Suppressor of Hairless. Champ
| Contenu
| Label
| Suppressor of Hairless
| Inclue
| Hairless
| Position
| 15
| Date
| 07/06/00 21:25:48
| La position est le numéro du caractère où commence le label inclus dans la chaîne de caractères qui constitue le texte de la phrase.
iii.Structure de données pour faciliter l’actualisation des données
La table des inclusions est très volumineuse et la construire demande beaucoup de temps à la machine (quatre nuits). Elle ne peut donc pas être reconstruite à chaque fois que l’on souhaite lancer le processus d’identification des gènes dans des textes. Pour éviter cette reconstruction totale, une reconstruction partielle ou plutôt une complémentation a été imaginée. Il s’agit de ne reconstruire la table d’inclusion que pour les enregistrements nouvellement introduits dans la table des labels. Le champ nouveau a été introduit à cet effet dans la table des labels. Il prend par défaut la valeur Oui lors de la création d’un nouvel enregistrement. Lors de la complémentation de la table d’inclusion, seuls les enregistrements dont le champ nouveau prend la valeur Oui sont pris en compte. A la fin de la complémentation le champ nouveau est mis à Non pour tous les enregistrements de la table des labels. La complémentation elle-même de la table d’inclusion sera expliquée dans la section C.2.d.
iv.La garantie de l’unicité
Il est important qu’il n’y ait pas de doublons dans les tables. Les doublons nuissent à la bonne interprétation des données et notamment lors de l’établissement de statistiques. Pour la table des labels, il est plus difficile d’assurer cette exigence. En effet, il est possible de poser des règles d’intégrité des données dont le logiciel de gestion de base de données va ensuite assurer de lui-même. Ainsi, après avoir fait en sorte qu’il n’y a pas initialement de doublons dans une table, on peut interdire leur existence pour la suite. Dès lors, le SGBD va faire en sorte de ne jamais en créer en refusant tout nouvel enregistrement qui serait en contradiction avec cette règle. Pour imposer l’absence de doublons dans un champ, on demande à ce qu’il soit indexé sans doublons.
Pour la table des labels, il est plus difficile de garantir l’absence de doublons. Il n’est pas possible d’imposer que le champ label de la table ne contienne pas de doublons car le logiciel que nous utilisons ne fait pas la différence entre les majuscules et les minuscules lors de la construction des index. Le champ label est donc doublé d’un autre champ appelé transcode. Ce champ contient la même information mais avec un codage particulier qui permet au logiciel de faire la différence entre les majuscules et les minuscules. Le transcodage consiste à insérer un caractère (par ailleurs absent des données) devant chaque majuscule. L’exigence d’unicité de l’enregistrement est posée dans le champ transcode.
v.Structure de données pour la caractérisation du type de traitement à faire sur chaque label
Chaque label peut être traité de façon différente par le système d’identification des gènes en fonction de caractéristiques propres au label. La table qui contient cette information s’intitule TR pour Type de reconnaissance. Les informations qu’elle contient ont été mises dans deux tableaux, car elles ne tenaient pas dans un seul. Le Tableau 49 donne la liste des catégories et pour chaque catégorie, le traitement qui est réservé aux labels appartenant à cette catégorie. Le Tableau 50 commente chaque catégorie en précisant le type de labels qu’elle contient.
Tableau 49 Table type de reconnaissance (première partie)
Les labels sont classés en fonction du type de traitement à effectuer lors du processus d’identification des gènes dans les textes. Les catégories de labels sont données dans ce tableau. Clef
| Reconnaissance
| Indexer
| 2ième Vague
| Désindexer si début
| Interpréter
| Confirmer
| Exemples
| 6
| Abérant
| Non
| Non
| Non
| Non
| Non
| Tableau 37
| 2
| Mot vide si début de phrase
| Non
| Oui
| Oui
| Oui
| Oui
| Tableau 78
| 1
| Mot vide
| Non
| Oui
| Non
| Oui
| Oui
| Tableau 79
| 11
| Ambigu en début de phrase
| Oui
| Non
| Oui
| Oui
| Non
| Tableau 80
| 10
| Trop ambigu
| Oui
| Non
| Non
| Non
| Non
| Tableau 85
| 13
| Terme spécifique
| Oui
| Non
| Non
| Non
| Non
| Tableau 81
| 3
| Plutôt ambigu
| Oui
| Non
| Non
| Oui
| Oui
| Tableau 82
| 4
| Peut-être ambigu
| Oui
| Non
| Non
| Oui
| Oui
| Tableau 83
| 8
| Désambiguïsation en cours
| Oui
| Non
| Non
| Oui
| Oui
| Tableau 84
| 12
| Ambiguité constatée mais marginale
| Oui
| Non
| Non
| Oui
| Oui
| Tableau 85
| 0
| Non renseigné
| Oui
| Non
| Non
| Oui
| Non
|
| 5
| Peu ambigu
| Oui
| Non
| Non
| Oui
| Non
| Tableau 86
| 7
| Désambigüé
| Oui
| Non
| Non
| Oui
| Non
| Tableau 85
| 9
| Spécifié univoque
| Oui
| Non
| Non
| Oui
| Non
| Tableau 87
| Tableau 50 Table Type de reconnaissance (deuxième partie)
Le champ commentaire de la table permet de préciser l’intitulé de l’enregistrement. Clef
| Reconnaissance
| Commentaire
| 6
| Abérant
| Label abérant. Ne sera pas reconnu. Ex : gene 1
| 2
| Mot vide si début de phrase
| Mot très courant si en première position dans la phrase, sinon plutôt rare. Ex : We
| 1
| Mot vide
| Mot très courant de l'anglais. Exemple : at. On les indexes que dans les résumés où les gènes associés semblent présents.
| 11
| Ambigu en début de phrase
| Mot de début de phrase assez courant en anglais. Ex : Midway
| 10
| Trop ambigu
| Mot très courant de l'anglais et que l'on ne prendra pas en compte
| 13
| Terme spécifique
| Elément du lexique qui n'est pas le nom d’un gènes mais qui inclus un label
| 3
| Plutôt ambigu
| Mot trop courant de l'anglais et que l'on ne prendra en compte que s'il y a confirmation
| 4
| Peut-être ambigu
| Mot possiblement ambigu. A voir plus tard. Interprété pour l'instant.
| 8
| Désambiguïsation en cours
| Désambiguïsation en cours. Pour l'instant le label n'est pas interprété.
| 12
| Ambiguité constatée mais marginale
| On a trouvé un ou plusieurs cas où le label prétait à confusion mais cela semble marginale
| 0
| Non renseigné
| La nature du label n'a pas été étudié.
| 5
| Peu ambigu
| Mot moins ambigu qu'il n'y parait. Il faut le reconaître.
| 7
| Désambigüé
| Label au dépard ambigu pour lequel on a une solution de désambiguïsation. Ex : dorsal
| 9
| Spécifié univoque
| Label considéré comme univoque par l'annotateur. Recommandé pour les labels rentré manuellement.
| Les étapes du traitement seront expliquées dans la partie sur la méthode de reconnaissance des gènes dans les textes. A ce stade, la seule chose à savoir est que les types de traitement à faire sur les labels sont indiqués dans la table type de reconnaissance.
La liste des termes appartenant à chaque catégorie est donnée dans la plupart des cas en annexe. Le numéro du tableau à voir est indiqué dans la dernière colonne. Dans certains cas, il s’agit d’un tableau que nous avons donné dans la partie sur l’analyse du problème de l’identification des gènes.
La modalité non renseigné est utilisée au cours du processus d’annotation, mais à l’issue de celui-ci aucun label n’a ce type de reconnaissance.
vi.Structure de données pour la gestion de la relation de transformation
Les labels sont liés entre eux par des relations de transformation comme nous l’avons vu dans la section Chapitre 1 I.D.2. Des exemples sont donnés du Tableau 20 au Tableau 23. La table des transformations TNG, en abrégé pour transformation nom de gène, fait l’inventaire de toutes ces relations entre labels. Le Tableau 51 donne un exemple d’enregistrement de cette table.
Tableau 51 Table des transformations
Ce tableau donne un enregistrement parmi d’autre de la table. Les labels 1 et 2 sont liés par une relation de transformation. Champ
| Contenu
| Label 1
| wingless
| transformation
| 1ière lettre en majuscule
| Label 2
| Wingless
| Les modalités possibles pour la relation de transformation sont listées dans la table Relation de transformation (RT) qui est donnée dans le Tableau 52.
Tableau 52 Table des relations de transformations
Cette table donne les cinq types possibles de relation de transformation. Clef
| Relation
| Commentaire
| 1
| Tout en minuscules
| Les lettres sont misses en minuscules
| 2
| Tout en majuscules
| Les lettres sont misses en majuscules
| 3
| 1ière lettre en majuscule
| La première lettre est mise en majuscule
| 4
| espace -> tiret
| chaque espace est remplacé par un tiret
| 5
| tiret -> espace
| chaque tiret est remplacé par un espace
| c.Structure de données pour les définitions i.La table des définitions de gènes
Le dictionnaire des gènes et objets assimilés est structuré à l’aide de définitions comme expliqué en Partie 2 Chapitre 1 I.B.2. Un exemple d’enregistrement de la table des définitions de gène (DG) est donné dans le Tableau 53. La signification des champs Type, Origine et Confiance sont expliqués dans les sections qui suivent.
Tableau 53 Table des définitions
Un exemple d’enregistrement de la table est donné dans ce tableau. Champ
| Contenu
| Clef Définition
| 10856
| Label
| abdA
| Type
| Synonyme
| Origine
| Flybase
| Confiance
| correcte
| Problème
|
| Date
| 21/04/00 16:16:49
| ii.Les tables annexes
1)La table des types de définition
Les différents types de définitions sont énumérés dans la table type de définition. Le contenu de cette table est donné dans le Tableau 54. La table est intitulée Ty.
Tableau 54 Table des types de définition
Cette table fait l’inventaire des modalités possible pour le champ type de la table définition. Clef
| Type
| 1
| Symbole
| 2
| Nom Complet
| 3
| Synonyme
| 4
| Protéine
| La valeur protéine est utilisée pour les définitions qui associent un nom de protéine au gène qui code pour cette protéine. Dans Flybase cette modalité est absente. Dans notre base de données, les définitions de type protéine sont en général issues du processus d’ajout automatique de définition qui sera expliqué en Partie 2 Chapitre 2 I.C.3.a.
2)Structure de données pour le suivi de l’origine des définitions
Les modalités possibles du champ Origine de la table des définitions sont données dans la table Origine des définitions (appelé OED pour Origine des Enregistrements du Dictionnaire) dont le contenu est donné dans le Tableau 55.
Tableau 55 Table origine des définitions
Cette table fait l’inventaire des modalités possible du champ origine de la table définition. Clef
| Origine
| Confiance
| Variante
| 1
| Flybase
| Oui
| Non
| 2
| Ajout Manuel
| Oui
| Non
| 3
| Tout en majuscule
| Non
| Oui
| 4
| 1ère lettre en majuscule
| Non
| Oui
| 5
| Tout en minuscule
| Non
| Oui
| 6
| Tiret -> espace
| Non
| Oui
| 7
| Espace -> tiret
| Non
| Oui
| 8
| réimport
| Non
| Non
| Il y a deux types principaux d’origines :
Les origines de type variantes (de 3 à 7 dans la table) correspondent à des définitions qui ont été ajoutées automatiquement. C’est ce que nous avons appelé des définitions variantes.
Les origines de type confiance qui correspondent à des définitions qui, soit étaient présentes dans Flybase, soit ont été rajoutées manuellement par l’annotateur.
L’origine réimport correspond à des enregistrements qui avaient été supprimés à un stade précoce du traitement, car ils ne sont pas appropriés pour notre travail. Cela est expliqué dans la section Partie 2 Chapitre 1 I.E.2. Ces enregistrements de la table définition ont été réimportés dans la base pour permettre une mise à jour des données à l’avenir. Ces enregistrements sont disqualifiés à toutes les étapes de l’identification des gènes par la présence de la modalité désactivée sur liste dans le champ confiance.
iii.Structure de données pour gérer la confiance mise dans les définitions
Les modalités possibles du champ confiance de la table définitions sont données dans la table Confiance dans les Définitions (CD) qui est donnée intégralement dans le Tableau 56.
Tableau 56 Table confiance dans les définitions
Cette table fait l’inventaire des modalités possible du champ confiance de la table des définitions. Clef
| Confiance
| Valide
| Prendre
| Confirmation
| Commentaire
| 1
| correcte
| Oui
| Oui
| Non
| La définition n'est pas contredite par une définition valide.
| 2
| privilégiée
| Oui
| Oui
| Non
| La définition est contredite mais elle reste crédible.
| 3
| à confirmer
| Oui
| Oui
| Oui
| La définition est contredite par une définition plus crédible. Elle n'est pas prise en compte à moins qu'elle soit confirmée par ailleurs.
| 5
| imprécise
| Oui
| Non
| Non
| Le label ne désigne pas un gène précis mais une collection de gènes.
| 8
| non confirmée
| Oui
| Non
| Non
| La définition qui a été ajoutée automatiquement n'est pas confirmée par une annalyse automatique des textes
| 4
| invalidée manuellement
| Non
| Non
| Non
| L'opérateur à choisit d'invalider la définition.
| 6
| désactivée sur liste
| Non
| Non
| Non
| La définition concerne un label jugés abérant (correspond au réimport)
| 7
| transférée
| Non
| Non
| Non
| la définition a été transféré du gène fils au gène père. Elle n'est plus active chez le fils.
| Les valeurs des champs valide, prendre et confirmation indiquent quels traitements doivent avoir lieu sur les définitions concernées. L’utilisation de chacun de ces champs est expliquée dans les sections qui suivent.
1)Structure de données pour permettre la mise à jour
La possibilité de mettre à jour le dictionnaire des gènes est assurée par le champ Valide. Les enregistrements qui ne sont pas conformes n’ont pas été supprimés. A la place de cela, nous les avons marqués par le champ valide. De cette façon, on garantit qu’ils ne seront pas réintégrés de nouveau dans les données lors des futures mises à jour.
2)Structure de donné pour prendre ou ne pas prendre en compte les définitions
Certaines définitions ne doivent pas être prises en compte dans l’identification des gènes, même si elles sont exactes. Il s’agit par exemple, des définitions imprécises qui ont été définies dans la section Partie 2 Chapitre 1 I.D.1. Le champ prendre sert à indiquer que les définitions associées ne doivent pas être prises en compte lors de l’identification des gènes. La valeur par défaut pour ce champ est Oui.
3)Structure de données pour exiger la confirmation de la reconnaissance d’une définition
Certaines définitions n’ont pas les qualités suffisantes pour qu’elles puissent être interprétées dans un texte à elles seules. L’identification du gène qu’elles définissent doit être confirmée par ailleurs dans le résumé par la présence d’au moins une autre définition du même gène. Ces définitions sont dites à confirmer. Cette notion à été abordée à la section Partie 2 Chapitre 1 I.F.1. Le champ à confirmer est utilisé dans le processus d’identification des gènes pour vérifier si la reconnaissance de la définition, même isolée, peut être utilisée dans l’interprétation.
4.Structure de données pour l’identification des gènes L’identification des gènes se fait en deux temps. Dans un premier temps, les textes sont parcourus à la recherche des labels. Le résultat de cette opération est mis dans la table de reconnaissance des labels. Dans un second temps, à partir de cette table et en utilisant le dictionnaire des gènes, ces labels sont interprétés, c’est-à-dire associés à un gène. Il s’agit de la reconnaissance des définitions de gènes.
a.Structure de données pour la reconnaissance des labels Le résultat de la reconnaissance des labels est contenu dans la table dont le nom est RNG pour reconnaissance nom de gènes. Le Tableau 57 donne un exemple d’enregistrement de cette table.
Tableau 57 Table Reconnaissance des labels
Ce tableau présente un enregistrement de la table. Champ
| Contenu
| Clef Index
| 70699
| N° Phrase
| 21097
| Label
| ptc
| Position
| 39
| Date
| 14/09/00 14:15:23
| Cet enregistrement correspond à la phrase qui est donnée dans l’Exemple 4. La position correspond au rang du premier caractère qui compose le label. La méthode d’indexation des textes sera expliquée dans la section Partie 2 Chapitre 2 I.B.2.
b.Structure de données pour la reconnaissance des définitions i.La table des reconnaissances des définitions
Après avoir reconnu les labels, ce sont les définitions de gènes qui sont reconnues. L’information est placée dans la table reconnaissance des définitions dont nous donnons un enregistrement dans le Tableau 58. La table est intitulée RDG pour Reconnaissance Définition de Gène.
Tableau 58 Table reconnaissance des définitions
Le tableau donne un exemple d’enregistrement de la table. Champ
| Contenu
| Clef Reconnaissance
| 1639
| N° Phrase
| 21097
| Position
| 39
| N°Définition
| 19078
| Problème
|
| Processus
| Expert
| Redondant
| Non
| Date
| 21/04/00 17:58:38
| L’exemple que nous donnons là correspond à la première occurrence du gène patched (pct) dans l’Exemple 4. La définition du gène est celle qui associe le label pct au gène patched (pct).
Le champ redondant permet de noter que la reconnaissance du gène a déjà eu lieu avec le mot qui précède. Ce concept est expliqué dans la section Chapitre 1 I.F.3.
La signification du champ Processus est donnée dans la section qui suit.
ii.Structure de données pour savoir quel est le processus d’indexation qui a été mis en œuvre
L’inventaire des modalités possibles du champ processus de la table des reconnaissances est réalisé grâce à la table processus dont le Tableau 59 donne le contenu. La table est intitulée PRG pour Processus Reconnaissance Gène.
Tableau 59 Table des processus
La table donne la nature du processus qui a conduit à la reconnaissance d’une définition de gène. Clef
| Processus
| Prendre
| Auto
| Commentaires
| 1
| non renseigné
| Non
| Oui
| Pas de valeur.
| 2
| Expert
| Oui
| Non
| Reconnaissance faite par l'annotateur.
| 3
| Définition ignorée
| Non
| Oui
| La définition ne doit pas être prise en compte dans la reconnaissance.
| 4
| Reconnaissance confirmée
| Oui
| Oui
| Reconnaissance confirmée. Une autre définition du même gène est reconnue dans les textes.
| 5
| Label non confirmée
| Non
| Oui
| Défault de confirmation du label.
| 6
| Définition non confirmée
| Non
| Oui
| Défault de confirmation de la définition.
| 7
| Reconnaissance multiple isolée
| Non
| Oui
| Défault de confirmation de la reconnaissance multiple.
| 8
| Reconnaissance simple
| Oui
| Oui
| Reconnaissance simple non confirmée.
| Les processus sont généralement automatiques (champ auto) sauf dans un processus qui est le processus expert. Les reconnaissances sont considérées comme à prendre (champ prendre) ou à laisser selon le processus qui leur a donné naissance. Les processus seront expliqués dans la partie B.3.
|