Thèse pour obtenir le grade de








télécharger 3.33 Mb.
titreThèse pour obtenir le grade de
page18/36
date de publication21.01.2018
taille3.33 Mb.
typeThèse
b.21-bal.com > droit > Thèse
1   ...   14   15   16   17   18   19   20   21   ...   36
b.Structure de données pour les labels

i.La table des labels

Les labels, c’est à dire les chaînes de caractères qui dans un texte peuvent désigner un gène ou un objet assimilé, sont répertoriés dans une table. Le Tableau 47 donne un exemple d’enregistrement de la table. La table est intitulée NG pour Nom de Gène..

Tableau 47 Table des labels

Un exemple d’enregistrement est donné dans ce tableau.

Champ

Contenu

Clef Label

108

Label

AbdA

Transcode

|Abd. A

Reconnaître

Non renseigné

Nouveau

Non

Date

21/04/00 16:20:45

L’utilité des champs Transcode, Reconnaître et Nouveau seront expliqués dans les sections qui suivent.

ii.Structure de données pour la relation d’inclusion

Les labels sont inclus les uns dans les autres et cette inclusion est une information essentielle au processus d’identification des gènes dans les textes. Nous avons discuté de ce point dans la section Chapitre 1 I.B.5. Ces informations sont consignées dans la table d’inclusion. Le Tableau 48 donne un exemple d’enregistrement de cette table. La table est intitulée RNGR pour Reconnaissance de Nom de Gène Réflexive..

Tableau 48 Table des inclusions

Un exemple d’enregistrement de la table est donné dans ce tableau. Le label Hairless est inclue en position 15 dans le label Suppressor of Hairless.

Champ

Contenu

Label

Suppressor of Hairless

Inclue

Hairless

Position

15

Date

07/06/00 21:25:48

La position est le numéro du caractère où commence le label inclus dans la chaîne de caractères qui constitue le texte de la phrase.

iii.Structure de données pour faciliter l’actualisation des données

La table des inclusions est très volumineuse et la construire demande beaucoup de temps à la machine (quatre nuits). Elle ne peut donc pas être reconstruite à chaque fois que l’on souhaite lancer le processus d’identification des gènes dans des textes. Pour éviter cette reconstruction totale, une reconstruction partielle ou plutôt une complémentation a été imaginée. Il s’agit de ne reconstruire la table d’inclusion que pour les enregistrements nouvellement introduits dans la table des labels. Le champ nouveau a été introduit à cet effet dans la table des labels. Il prend par défaut la valeur Oui lors de la création d’un nouvel enregistrement. Lors de la complémentation de la table d’inclusion, seuls les enregistrements dont le champ nouveau prend la valeur Oui sont pris en compte. A la fin de la complémentation le champ nouveau est mis à Non pour tous les enregistrements de la table des labels. La complémentation elle-même de la table d’inclusion sera expliquée dans la section C.2.d.

iv.La garantie de l’unicité

Il est important qu’il n’y ait pas de doublons dans les tables. Les doublons nuissent à la bonne interprétation des données et notamment lors de l’établissement de statistiques. Pour la table des labels, il est plus difficile d’assurer cette exigence. En effet, il est possible de poser des règles d’intégrité des données dont le logiciel de gestion de base de données va ensuite assurer de lui-même. Ainsi, après avoir fait en sorte qu’il n’y a pas initialement de doublons dans une table, on peut interdire leur existence pour la suite. Dès lors, le SGBD va faire en sorte de ne jamais en créer en refusant tout nouvel enregistrement qui serait en contradiction avec cette règle. Pour imposer l’absence de doublons dans un champ, on demande à ce qu’il soit indexé sans doublons.

Pour la table des labels, il est plus difficile de garantir l’absence de doublons. Il n’est pas possible d’imposer que le champ label de la table ne contienne pas de doublons car le logiciel que nous utilisons ne fait pas la différence entre les majuscules et les minuscules lors de la construction des index. Le champ label est donc doublé d’un autre champ appelé transcode. Ce champ contient la même information mais avec un codage particulier qui permet au logiciel de faire la différence entre les majuscules et les minuscules. Le transcodage consiste à insérer un caractère (par ailleurs absent des données) devant chaque majuscule. L’exigence d’unicité de l’enregistrement est posée dans le champ transcode.

v.Structure de données pour la caractérisation du type de traitement à faire sur chaque label

Chaque label peut être traité de façon différente par le système d’identification des gènes en fonction de caractéristiques propres au label. La table qui contient cette information s’intitule TR pour Type de reconnaissance. Les informations qu’elle contient ont été mises dans deux tableaux, car elles ne tenaient pas dans un seul. Le Tableau 49 donne la liste des catégories et pour chaque catégorie, le traitement qui est réservé aux labels appartenant à cette catégorie. Le Tableau 50 commente chaque catégorie en précisant le type de labels qu’elle contient.

Tableau 49 Table type de reconnaissance (première partie)

Les labels sont classés en fonction du type de traitement à effectuer lors du processus d’identification des gènes dans les textes. Les catégories de labels sont données dans ce tableau.

Clef

Reconnaissance

Indexer

2ième Vague

Désindexer si début

Interpréter

Confirmer

Exemples

6

Abérant

Non

Non

Non

Non

Non

Tableau 37

2

Mot vide si début de phrase

Non

Oui

Oui

Oui

Oui

Tableau 78

1

Mot vide

Non

Oui

Non

Oui

Oui

Tableau 79

11

Ambigu en début de phrase

Oui

Non

Oui

Oui

Non

Tableau 80

10

Trop ambigu

Oui

Non

Non

Non

Non

Tableau 85

13

Terme spécifique

Oui

Non

Non

Non

Non

Tableau 81

3

Plutôt ambigu

Oui

Non

Non

Oui

Oui

Tableau 82

4

Peut-être ambigu

Oui

Non

Non

Oui

Oui

Tableau 83

8

Désambiguïsation en cours

Oui

Non

Non

Oui

Oui

Tableau 84

12

Ambiguité constatée mais marginale

Oui

Non

Non

Oui

Oui

Tableau 85

0

Non renseigné

Oui

Non

Non

Oui

Non




5

Peu ambigu

Oui

Non

Non

Oui

Non

Tableau 86

7

Désambigüé

Oui

Non

Non

Oui

Non

Tableau 85

9

Spécifié univoque

Oui

Non

Non

Oui

Non

Tableau 87

Tableau 50 Table Type de reconnaissance (deuxième partie)

Le champ commentaire de la table permet de préciser l’intitulé de l’enregistrement.

Clef

Reconnaissance

Commentaire

6

Abérant

Label abérant. Ne sera pas reconnu. Ex : gene 1

2

Mot vide si début de phrase

Mot très courant si en première position dans la phrase, sinon plutôt rare. Ex : We

1

Mot vide

Mot très courant de l'anglais. Exemple : at. On les indexes que dans les résumés où les gènes associés semblent présents.

11

Ambigu en début de phrase

Mot de début de phrase assez courant en anglais. Ex : Midway

10

Trop ambigu

Mot très courant de l'anglais et que l'on ne prendra pas en compte

13

Terme spécifique

Elément du lexique qui n'est pas le nom d’un gènes mais qui inclus un label

3

Plutôt ambigu

Mot trop courant de l'anglais et que l'on ne prendra en compte que s'il y a confirmation

4

Peut-être ambigu

Mot possiblement ambigu. A voir plus tard. Interprété pour l'instant.

8

Désambiguïsation en cours

Désambiguïsation en cours. Pour l'instant le label n'est pas interprété.

12

Ambiguité constatée mais marginale

On a trouvé un ou plusieurs cas où le label prétait à confusion mais cela semble marginale

0

Non renseigné

La nature du label n'a pas été étudié.

5

Peu ambigu

Mot moins ambigu qu'il n'y parait. Il faut le reconaître.

7

Désambigüé

Label au dépard ambigu pour lequel on a une solution de désambiguïsation. Ex : dorsal

9

Spécifié univoque

Label considéré comme univoque par l'annotateur. Recommandé pour les labels rentré manuellement.

Les étapes du traitement seront expliquées dans la partie sur la méthode de reconnaissance des gènes dans les textes. A ce stade, la seule chose à savoir est que les types de traitement à faire sur les labels sont indiqués dans la table type de reconnaissance.

La liste des termes appartenant à chaque catégorie est donnée dans la plupart des cas en annexe. Le numéro du tableau à voir est indiqué dans la dernière colonne. Dans certains cas, il s’agit d’un tableau que nous avons donné dans la partie sur l’analyse du problème de l’identification des gènes.

La modalité non renseigné est utilisée au cours du processus d’annotation, mais à l’issue de celui-ci aucun label n’a ce type de reconnaissance.

vi.Structure de données pour la gestion de la relation de transformation

Les labels sont liés entre eux par des relations de transformation comme nous l’avons vu dans la section Chapitre 1 I.D.2. Des exemples sont donnés du Tableau 20 au Tableau 23. La table des transformations TNG, en abrégé pour transformation nom de gène, fait l’inventaire de toutes ces relations entre labels. Le Tableau 51 donne un exemple d’enregistrement de cette table.

Tableau 51 Table des transformations

Ce tableau donne un enregistrement parmi d’autre de la table. Les labels 1 et 2 sont liés par une relation de transformation.

Champ

Contenu

Label 1

wingless

transformation

1ière lettre en majuscule

Label 2

Wingless

Les modalités possibles pour la relation de transformation sont listées dans la table Relation de transformation (RT) qui est donnée dans le Tableau 52.

Tableau 52 Table des relations de transformations

Cette table donne les cinq types possibles de relation de transformation.

Clef

Relation

Commentaire

1

Tout en minuscules

Les lettres sont misses en minuscules

2

Tout en majuscules

Les lettres sont misses en majuscules

3

1ière lettre en majuscule

La première lettre est mise en majuscule

4

espace -> tiret

chaque espace est remplacé par un tiret

5

tiret -> espace

chaque tiret est remplacé par un espace
c.Structure de données pour les définitions

i.La table des définitions de gènes

Le dictionnaire des gènes et objets assimilés est structuré à l’aide de définitions comme expliqué en Partie 2 Chapitre 1 I.B.2. Un exemple d’enregistrement de la table des définitions de gène (DG) est donné dans le Tableau 53. La signification des champs Type, Origine et Confiance sont expliqués dans les sections qui suivent.

Tableau 53 Table des définitions

Un exemple d’enregistrement de la table est donné dans ce tableau.

Champ

Contenu

Clef Définition

10856

Label

abdA

Type

Synonyme

Origine

Flybase

Confiance

correcte

Problème




Date

21/04/00 16:16:49

ii.Les tables annexes

1)La table des types de définition

Les différents types de définitions sont énumérés dans la table type de définition. Le contenu de cette table est donné dans le Tableau 54. La table est intitulée Ty.

Tableau 54 Table des types de définition

Cette table fait l’inventaire des modalités possible pour le champ type de la table définition.

Clef

Type

1

Symbole

2

Nom Complet

3

Synonyme

4

Protéine

La valeur protéine est utilisée pour les définitions qui associent un nom de protéine au gène qui code pour cette protéine. Dans Flybase cette modalité est absente. Dans notre base de données, les définitions de type protéine sont en général issues du processus d’ajout automatique de définition qui sera expliqué en Partie 2 Chapitre 2 I.C.3.a.

2)Structure de données pour le suivi de l’origine des définitions

Les modalités possibles du champ Origine de la table des définitions sont données dans la table Origine des définitions (appelé OED pour Origine des Enregistrements du Dictionnaire) dont le contenu est donné dans le Tableau 55.

Tableau 55 Table origine des définitions

Cette table fait l’inventaire des modalités possible du champ origine de la table définition.

Clef

Origine

Confiance

Variante

1

Flybase

Oui

Non

2

Ajout Manuel

Oui

Non

3

Tout en majuscule

Non

Oui

4

1ère lettre en majuscule

Non

Oui

5

Tout en minuscule

Non

Oui

6

Tiret -> espace

Non

Oui

7

Espace -> tiret

Non

Oui

8

réimport

Non

Non

Il y a deux types principaux d’origines :

  • Les origines de type variantes (de 3 à 7 dans la table) correspondent à des définitions qui ont été ajoutées automatiquement. C’est ce que nous avons appelé des définitions variantes.

  • Les origines de type confiance qui correspondent à des définitions qui, soit étaient présentes dans Flybase, soit ont été rajoutées manuellement par l’annotateur.

L’origine réimport correspond à des enregistrements qui avaient été supprimés à un stade précoce du traitement, car ils ne sont pas appropriés pour notre travail. Cela est expliqué dans la section Partie 2 Chapitre 1 I.E.2. Ces enregistrements de la table définition ont été réimportés dans la base pour permettre une mise à jour des données à l’avenir. Ces enregistrements sont disqualifiés à toutes les étapes de l’identification des gènes par la présence de la modalité désactivée sur liste dans le champ confiance.

iii.Structure de données pour gérer la confiance mise dans les définitions

Les modalités possibles du champ confiance de la table définitions sont données dans la table Confiance dans les Définitions (CD) qui est donnée intégralement dans le Tableau 56.

Tableau 56 Table confiance dans les définitions

Cette table fait l’inventaire des modalités possible du champ confiance de la table des définitions.

Clef

Confiance

Valide

Prendre

Confirmation

Commentaire

1

correcte

Oui

Oui

Non

La définition n'est pas contredite par une définition valide.

2

privilégiée

Oui

Oui

Non

La définition est contredite mais elle reste crédible.

3

à confirmer

Oui

Oui

Oui

La définition est contredite par une définition plus crédible. Elle n'est pas prise en compte à moins qu'elle soit confirmée par ailleurs.

5

imprécise

Oui

Non

Non

Le label ne désigne pas un gène précis mais une collection de gènes.

8

non confirmée

Oui

Non

Non

La définition qui a été ajoutée automatiquement n'est pas confirmée par une annalyse automatique des textes

4

invalidée manuellement

Non

Non

Non

L'opérateur à choisit d'invalider la définition.

6

désactivée sur liste

Non

Non

Non

La définition concerne un label jugés abérant (correspond au réimport)

7

transférée

Non

Non

Non

la définition a été transféré du gène fils au gène père. Elle n'est plus active chez le fils.

Les valeurs des champs valide, prendre et confirmation indiquent quels traitements doivent avoir lieu sur les définitions concernées. L’utilisation de chacun de ces champs est expliquée dans les sections qui suivent.

1)Structure de données pour permettre la mise à jour

La possibilité de mettre à jour le dictionnaire des gènes est assurée par le champ Valide. Les enregistrements qui ne sont pas conformes n’ont pas été supprimés. A la place de cela, nous les avons marqués par le champ valide. De cette façon, on garantit qu’ils ne seront pas réintégrés de nouveau dans les données lors des futures mises à jour.

2)Structure de donné pour prendre ou ne pas prendre en compte les définitions

Certaines définitions ne doivent pas être prises en compte dans l’identification des gènes, même si elles sont exactes. Il s’agit par exemple, des définitions imprécises qui ont été définies dans la section Partie 2 Chapitre 1 I.D.1. Le champ prendre sert à indiquer que les définitions associées ne doivent pas être prises en compte lors de l’identification des gènes. La valeur par défaut pour ce champ est Oui.

3)Structure de données pour exiger la confirmation de la reconnaissance d’une définition

Certaines définitions n’ont pas les qualités suffisantes pour qu’elles puissent être interprétées dans un texte à elles seules. L’identification du gène qu’elles définissent doit être confirmée par ailleurs dans le résumé par la présence d’au moins une autre définition du même gène. Ces définitions sont dites à confirmer. Cette notion à été abordée à la section Partie 2 Chapitre 1 I.F.1. Le champ à confirmer est utilisé dans le processus d’identification des gènes pour vérifier si la reconnaissance de la définition, même isolée, peut être utilisée dans l’interprétation.
4.Structure de données pour l’identification des gènes

L’identification des gènes se fait en deux temps. Dans un premier temps, les textes sont parcourus à la recherche des labels. Le résultat de cette opération est mis dans la table de reconnaissance des labels. Dans un second temps, à partir de cette table et en utilisant le dictionnaire des gènes, ces labels sont interprétés, c’est-à-dire associés à un gène. Il s’agit de la reconnaissance des définitions de gènes.
a.Structure de données pour la reconnaissance des labels

Le résultat de la reconnaissance des labels est contenu dans la table dont le nom est RNG pour reconnaissance nom de gènes. Le Tableau 57 donne un exemple d’enregistrement de cette table.

Tableau 57 Table Reconnaissance des labels

Ce tableau présente un enregistrement de la table.

Champ

Contenu

Clef Index

70699

N° Phrase

21097

Label

ptc

Position

39

Date

14/09/00 14:15:23

Cet enregistrement correspond à la phrase qui est donnée dans l’Exemple 4. La position correspond au rang du premier caractère qui compose le label. La méthode d’indexation des textes sera expliquée dans la section Partie 2 Chapitre 2 I.B.2.
b.Structure de données pour la reconnaissance des définitions

i.La table des reconnaissances des définitions

Après avoir reconnu les labels, ce sont les définitions de gènes qui sont reconnues. L’information est placée dans la table reconnaissance des définitions dont nous donnons un enregistrement dans le Tableau 58. La table est intitulée RDG pour Reconnaissance Définition de Gène.

Tableau 58 Table reconnaissance des définitions

Le tableau donne un exemple d’enregistrement de la table.

Champ

Contenu

Clef Reconnaissance

1639

N° Phrase

21097

Position

39

N°Définition

19078

Problème




Processus

Expert

Redondant

Non

Date

21/04/00 17:58:38

L’exemple que nous donnons là correspond à la première occurrence du gène patched (pct) dans l’Exemple 4. La définition du gène est celle qui associe le label pct au gène patched (pct).

Le champ redondant permet de noter que la reconnaissance du gène a déjà eu lieu avec le mot qui précède. Ce concept est expliqué dans la section Chapitre 1 I.F.3.

La signification du champ Processus est donnée dans la section qui suit.

ii.Structure de données pour savoir quel est le processus d’indexation qui a été mis en œuvre

L’inventaire des modalités possibles du champ processus de la table des reconnaissances est réalisé grâce à la table processus dont le Tableau 59 donne le contenu. La table est intitulée PRG pour Processus Reconnaissance Gène.

Tableau 59 Table des processus

La table donne la nature du processus qui a conduit à la reconnaissance d’une définition de gène.

Clef

Processus

Prendre

Auto

Commentaires

1

non renseigné

Non

Oui

Pas de valeur.

2

Expert

Oui

Non

Reconnaissance faite par l'annotateur.

3

Définition ignorée

Non

Oui

La définition ne doit pas être prise en compte dans la reconnaissance.

4

Reconnaissance confirmée

Oui

Oui

Reconnaissance confirmée. Une autre définition du même gène est reconnue dans les textes.

5

Label non confirmée

Non

Oui

Défault de confirmation du label.

6

Définition non confirmée

Non

Oui

Défault de confirmation de la définition.

7

Reconnaissance multiple isolée

Non

Oui

Défault de confirmation de la reconnaissance multiple.

8

Reconnaissance simple

Oui

Oui

Reconnaissance simple non confirmée.

Les processus sont généralement automatiques (champ auto) sauf dans un processus qui est le processus expert. Les reconnaissances sont considérées comme à prendre (champ prendre) ou à laisser selon le processus qui leur a donné naissance. Les processus seront expliqués dans la partie B.3.
1   ...   14   15   16   17   18   19   20   21   ...   36

similaire:

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de Docteur

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de
«capricieuse»!!! Merci également de m’avoir permis d’être impliqué dans des collaborations (eth zurich) et dans un programme Européen...

Thèse pour obtenir le grade de iconThèse présentée pour l’obtention du grade de Docteur

Thèse pour obtenir le grade de iconThèse pour l’obtention du grade de docteur de l’université

Thèse pour obtenir le grade de iconThèse pour obtenir le titre de

Thèse pour obtenir le grade de iconThèse présentée en vue de l'obtention du grade de

Thèse pour obtenir le grade de iconThèse présentée en vue d’obtenir

Thèse pour obtenir le grade de iconCe site permet d’obtenir les liens pour disposer de l’intégralité des programmes de Maths








Tous droits réservés. Copyright © 2016
contacts
b.21-bal.com