Thèse pour obtenir le grade de








télécharger 3.33 Mb.
titreThèse pour obtenir le grade de
page22/36
date de publication21.01.2018
taille3.33 Mb.
typeThèse
b.21-bal.com > droit > Thèse
1   ...   18   19   20   21   22   23   24   25   ...   36

Chapitre 3 Évaluation et propositions d’améliorations


Nous traitons dans cette partie de l’évaluation du programme d’identification des gènes et de reconnaissance des interactions. Des propositions d’améliorations de système sont aussi incluses.

I.Évaluation du programme d’identification des gènes et nouvelle directions de recherche


Le système d’identification des gènes a été évalué sur deux échantillons. Le premier correspond aux textes qui ont servi à mettre au point le système. Le second est constitué de textes totalement nouveaux.

A.Évaluation du système d’identification des gènes sur l’échantillon A


Le système a été évalué sur l’échantillon A. Sur cet échantillon, 1274 identifications étaient à faire. Trois identifications n’ont pas été faites par le système et une identification faite par le système l’a été à tort. Le contexte des deux premières identifications manquées est donné dans l’Exemple 27. La troisième correspond à l’interprétation du label ras présenté dans l’Exemple 10.

Exemple 27 Reconnaissance manquée

Dans la première phrase c’est l’absence d’espace entre le label Bic-D (souligné) et le terme null qui est à l’origine de l’absence d’identification. Dans la deuxième phrase c’est la reconnaissance du terme Musca PRI (souligné) qui bloque celle du terme PRI. Le gène Arrestin B (Arr2), associé à PRI, ne peut donc pas être reconnu. Ces deux phrases ne sont pas dans le même résumé.

A new class of Bic-Dnull alleles reveals a novel requirement for Bic-D for zygotic viability. Immunocytochemistry at the EM level revealed a distribution of both Drosophila and Musca PRI epitopes in membranous vesicular structures in the cytosol as well as in the rhabdomeric microvillar membranes where the visual pigment, rhodopsin, exists.

Le contexte de l’unique reconnaissance à tort est donné dans l’Exemple 28.

Exemple 28 Reconnaissance à tort

Le terme (souligné) Rel a été interprété par le système comme une citation du gène Relish (Rel).

The Drosophila protein Dorsal (which, like the human protein NF-kappa B3, is a member of the Rel family of transcriptional activators) activates the twist gene and represses the zen gene in the ventral region of early embryos.

Ce décompte ne tient compte que des reconnaissances des seuls gènes. Les performances sur l’identification des autres types d’entité biologique n’ont pas été évaluées. En effet, seules les reconnaissances des gènes ont été contrôlées par l’annotateur.

On voit que le système est très fiable sur les résumés qui ont servi à la construction des connaissances sur la terminologie. En effet si nous les calculions sur cet échantillon, le rappel et la précision seraient supérieurs à 99 %. Nous calculerons les performances réelles du système sur un échantillon qui n’a pas servi à la mise au point du système. Nous retenons simplement que l’algorithme que nous proposons prend en compte suffisamment de critères pour arriver à une identification sans erreur ou presque. Ainsi à quelques très rares exceptions près, si le système fait une erreur, c’est que les données du dictionnaire sont inexactes ou simplement mal-adaptées. Autrement dit, le système ne se trompe pas par manque d’intelligence mais par manque de connaissances. Le système est suffisamment subtil, mais pas suffisamment savant.

Par ailleurs, nous avons constaté sur l’échantillon A que le système d’identification des gènes ne fait jamais d’erreur dans le champ Redondant.

B.Évaluation du système d’identification des gènes sur l’échantillon B et propositions d’améliorations

1.Performance du système d’identification des gènes sur l’échantillon B

Les données de l’échantillon A ne sont pas significatives pour évaluer le système, car ce sont elles qui ont servi à la correction des données terminologiques. Nous avons donc constitué un deuxième échantillon, l’échantillon B. Il a été annoté par le programme en aveugle, c’est à dire avant que nous ayons pris connaissance des textes qui s’y trouvent et fait les adaptations nécessaires dans le dictionnaire des gènes. L’échantillon B est constitué de 50 résumés. L’annotateur a effectué 408 identifications de gènes. Le programme a effectué 396 identifications de gènes. 349 identifications sont identiques. Nous pouvons donc dresser le tableau suivant :

Tableau 71 Performance du programme d’identification des gènes

L’évaluation a été faite sur un ensemble de résumés qui n’a pas été utilisé pour la mise au point du système.

Indicateur

Calcul

Valeur

Rappel

349/408

86 %

Précision

349/395

88 %
2.Un exemple de résumé annoté par le programme d’identification des gènes

Ci-dessous, nous présentons un résumé de difficulté moyenne.

Exemple 29 Résumé de difficulté moyenne pour l’identification des gènes

Les termes sur-lignés correspondent aux labels que l’annotateur a interprétés. Les termes sous-lignés correspondent aux labels interprétés par le programme. Quand le soulignement est ondulé, cela signifie que le programme a diagnostiqué qu’il ne s’agissait pas d’un gène.

We report the characterization of loss-of-function alleles of the homoeotic mutation Regulator of postbithorax (Rg-pbx) in Drosophila melanogaster. Rg- pbx is a dominant gain-of-function mutation which shows a transformation of posterior haltere to wing in the adult cuticle. This mutant phenotype mimics that of the bithorax complex lesion postbithorax (pbx). Loss-of- function alleles described here are lethal in the embryonic stage and affect the pattern of segmentation of the embryo. Examination of the terminal phenotype of null and hypomorphic alleles of Rg-pbx has shown that inactivation of the Rg-pbx gene leads to loss of the thoracic segments and the adjacent labial segment of the Drosophila embryo. An effect of the mutations is also seen in the seventh and eighth abdominal segments of embryos. The loss-of-function phenotype is similar to that described for the segmentation mutant hunchback (hb). Complementation tests show that Rg- pbx and hb are allelic. Temperature shift experiments using a temperature- sensitive loss-of-function allele show that the Rg-pbx gene product is required early in embryogenesis. We further report that the dominant Rg-pbx phenotype is sensitive to the gene dosage of another segmentation- controlling gene, fushi tarazu (ftz). Flies carrying a mutant copy of the ftz gene in trans to Rg-pbx show a dramatic enhancement of the penetrance of the homoeotic mutant phenotype. We were also able to demonstrate a suppression of the Rg-pbx phenotype by the addition of a duplication for the ftz+ gene to an Rg-pbx stock. Examination of the phenotype of ftz Rg- pbx- double-mutant embryos did not reveal a clear pattern of epistasis between the genes nor was absolute additivity of phenotype seen. A possible formal relationship between Rg-pbx, ftz, and the postbithorax (pbx) locus is proposed.

Ce résumé fait partie de l’échantillon B, ce qui signifie qu’il n’a pas été utilisé lors de la mise au point du système. Le Tableau 74 permet de savoir comment le programme a interprété le résumé. Dans le même tableau sont placés à la fois les annotations du programme et de l’expert. En principe l’annotation de l’expert est immédiatement suivie d’une annotation identique du programme. C’est le cas pour la phrase 1. En revanche, au début de la phrase 2 il y a désaccord. L’annotateur a interprété le label Rg- pbx alors que le programme a interprété les labels Rg et pbx indépendamment. C’est l’espace après le tiret qui a induit le programme en erreur. L’erreur est facilement corrigeable en rajoutant la définition Rg- pbx au dictionnaire des gènes.

On remarque que les labels labial, abdominal, similar, early et double ont étés correctement interprétés puisque le programme a rejeté les définitions associées. En effet, la colonne Prendre prend la valeur nom dans les lignes correspondantes. Ce bon comportement est dû au fait que le problème s’est déjà posé lors de l’annotation de l’échantillon A. Ainsi nous avons déjà classé ces labels dans la catégorie des labels ambigus. Leur reconnaissance doit être confirmée pour être accepté par le programme.

L’annotateur a effectué 29 identifications de gènes sur ce résumé. Le programme en a effectué exactement le même nombre. 26 annotations coïncident. Le rappel et la précision sont donc égaux et valent tous deux 90%. Ce sont approximativement les mêmes valeurs que celles qui ont été trouvées pour l’échantillon B tout entier. C’est en ce sens, que nous pouvons dire que l’exemple ci-dessus est représentatif.
3.Inventaire des cas d’erreurs sur l’échantillon B et propositions pour les éviter

Nous avons étudié les cas d’erreurs commises par le programme sur l’échantillon B. Après avoir fait travaillé le programme sur l’échantillon nous avons repris chaque erreur commise afin d’en identifier les raisons. Nous avons identifié 5 catégories d’erreurs, que nous avons subdivisées en sous-catégories. Le résultat de ce travail est présenté dans le Tableau 75.

Deux types d’erreurs peuvent être commises. Il s’agit soit d’une annotation faite par le programme à tort, soit d’une annotation omise par le programme. Les annotations commises à tort font baisser le taux de précision. Les annotations omises font baisser le taux de rappel. Il est important de remarquer qu’un même problème peut donc être pénalisant à la fois pour le rappel et pour la précision. Par exemple, l’introduction d’un espace après de tiret dans Rg-pbx va avoir deux conséquences. D’une part, l’identification de hunchback (hb), qui est le gène associé à Rg-pbx, va être omise. D’autre part, Ultrabithorax (Ubx), dont pbx est un synonyme, sera reconnu à tort.

Dans le tableau, nous présentons les deux types d’erreurs. Le tableau est organisé en catégories et sous catégories. L’effectif de chaque catégorie et sous catégorie est calculé. Un éventuel commentaire est indiqué avant le décompte détaillé. Le décompte détaillé concerne le label, tel qu’il est écrit dans le texte.

Nous donnons ci-dessous une analyse des catégories rencontrées, des plus fréquentes aux moins fréquentes.

La catégorie la plus fréquente, à savoir, Variation orthographique correspond aux variations sur des définitions de gènes déjà présentes dans Flybase mais qui n’ont pas été anticipées par le programme.

Les espaces après les tirets sont un problème spécifique à la source de données que nous avons utilisée. L’éditeur des cédérom a effectué un traitement sur les textes probablement pour permettre au logiciel d’interrogation de fonctionner correctement. Ce traitement consiste en l’ajout d’espace après certains tirets. Ce traitement n’est pas souhaitable pour notre application. Il faudrait soit rectifier les données, soit utiliser une autre source d’information. La rectification paraît difficile car le traitement des tirets n’est pas systématique : tous les tirets ne sont pas suivis d’espace. Il faudrait savoir quelle a été la logique de ce traitement pour pouvoir le rectifier. L’utilisation des données issues de l’internet paraît plus simple. Le traitement mis en cause n’a pas été effectué sur les données présentes sur internet. Une autre solution consisterait à modifier les données du dictionnaire pour le mettre en adéquation avec les textes. Il s’agirait d’ajouter de nouvelles définitions chaque fois qu’un tiret apparaît dans un label. Cette solution est moins élégante que les deux précédentes. Une troisième solution consisterait à supprimer tous les espaces après les tirets dans les textes. Cependant cela pourrait conduire à créer de nouveaux problèmes à d’autres endroits. Nous avons choisi de n’effectuer aucun pré-traitement des textes. Nous préférons ajouter des définitions au dictionnaire pour prendre en compte toutes les irrégularités présentes dans les textes. Le suivi des opérations est correctement assuré dans le dictionnaire alors qu’il serait difficile de l’assurer dans les textes. Ainsi, dans l’évaluation du système, nous pouvons facilement savoir quand une erreur est due à un de nos traitements.

Les parenthèses incorrectes correspondent aussi à un pré-traitement des textes dont nous disposons. Des parenthèses ont été remplacées par des crochets. Ce traitement n’est pas systématique et correspond à une logique difficile à élucider. Ce traitement introduit des dissymétries : des crochets ferment des parenthèses, des parenthèses ferment des crochets et parfois même deux parenthèses ouvrantes ne sont fermées que par un seul crochet. Les données issues de l’internet présente les mêmes défauts aux même endroits. Actuellement le problème des parenthèses incorrectes n’est pas traité automatiquement. Les irrégularités sont simplement relevées et ajoutées au dictionnaire.

Un traitement possible consisterait à remplacer tous les crochets par des parenthèses dans les textes. Comme dans le cas précédent, cela pourrait créer de nouveaux problèmes à d’autres endroits.

La catégorie espace avant et après les exposants concerne aussi un problème de formatage. Il s’agit cette fois de données erronées dans le dictionnaire et non plus dans les textes. Les exposants font partie intégrante des noms de gènes. Par exemple su(wa) est le symbole d’un gène. Dans les données issues de Flybase, les exposants et les indices sont indiqués. L’exposant est codé dans Flybase par du HTML. La notion d’exposant ou d’indice est absente des résumés issus de Medline. C’est pourquoi nous avons supprimé le code HTML des données issues de Flybase. Dans la plus part des cas, cela permet effectivement de mettre en adéquation le texte et le dictionnaire. Cependant, dans certain cas, des espaces sont présents entre les balises HTML et le texte lui-même, mais ce n’est pas systématique. Ils n’ont pas été supprimés lorsque nous avons effectué la suppression des balises HTML. C’est la cause des problèmes constatés. La solution à ce problème consiste à réimporter les données issues de Flybase avec cette fois une procédure permettant de supprimer ces espaces.

Le cas des coupures de mots est plutôt délicat. Il faudrait disposer d’un logiciel de reconnaissance approximative de mots pour compléter automatiquement le dictionnaire. Cette complémentation suivrait le même principe de validation qu’actuellement, à savoir, une validation par le contexte. Le système d’identification des gènes que nous proposons nécessite un dictionnaire des gènes le plus complet possible. Malheureusement, les dictionnaires ne sont jamais tout à fait complets.

Nous proposons une méthode pour compléter le dictionnaire grâce à une analyse automatique des textes. Cette méthode consiste à anticiper les variations orthographiques possibles, puis à les valider sur les textes. Cette validation utilise le phénomène de répétition du même gène sous des appellations différentes. Ainsi, quand, dans le même texte, une appellation variante côtoie une appellation répertoriée, cela valide l’appellation variante. Cette méthode permet d’anticiper les variantes orthographiques dans environ 70 % des cas. Pour aller plus loin, il faudrait utiliser des techniques de reconnaissance approximative de chaînes de caractères. Ces techniques permettraient de reconnaître des définitions variantes possibles. Cependant, nous considérons que ces travaux, bien qu’utiles, font partie d’un domaine de recherche distinct, à savoir l’acquisition de connaissances terminologiques à partir de corpus.

Les cas divers rassemble, entre autres, des variations orthographiques portant simultanément sur la case et sur l’équivalence entre tiret et espace. Ce sont des variations qui ne sont pas prises en charge par le système.

La catégorie manque du dictionnaire correspond aux définitions absentes du dictionnaire. Il n’y que trois cas au total, mais les deux premiers concernent une dizaine d’occurrences chacun. Ces deux cas sont plutôt atypiques. Il s’agit des labels DNA ligase I et DNA ligase II qui sont manifestement les noms complets des gènes du même nom. Il s’agit d’une erreur assez grossière de Flybase. Il n’y avait pas de noms complets pour ces gènes dans la base de données. Seuls étaient présent les symboles et des synonymes.

Le cas du label alpha-methyldopa hypersensitive est plus classique. Il s’agit d’un synonyme absent du dictionnaire. Ce terme désignait bien le gène alpha methyl dopa-resistant (amd) dans le texte car l’auteur a précisé entre parenthèses le symbole du gène. De plus, une visite sur le site de Flybase, nous apprend que le label l(2)amd alpha-methyldopa hypersensitive est un synonyme du gène.

Le seul traitement que nous envisageons pour cette catégorie est de compléter manuellement le dictionnaire. Cela ne permet pas d’anticiper sur de nouveaux cas.

Nous avons déjà largement présenté le problème des labels ambigus. Cette catégorie est encore assez importante mais ce n’est plus la principale source d’erreurs comme au début de nos expérimentations. Ce progrès est dû à l’accumulation d’informations sur les labels ambigus. L’annotation de nouveaux textes permet de découvrir sans cesse de nouveaux labels ambigus. Une solution définitive au problème consisterait à utiliser des lexiques de termes courants de l’anglais pour faire la liste des labels potentiellement ambigus. Cette solution paraît acceptable si l’on utilise aussi le contexte lors de l’interprétation. Les labels considérés comme potentiellement ambigus ne seraient pas totalement négligés. Lors de l’interprétation, ils ne seraient rejetés que s’ils correspondent à des reconnaissances isolées. Concrètement, une nouvelle catégorie serait créée dans la table Type de reconnaissance. Les labels appartenant à une liste de termes potentiellement ambigus seraient classés dans cette catégorie. Ils recevraient un traitement identique au label de la catégorie plutôt ambigus.

Cependant, il faut bien noter que cela conduirait nécessairement le système à faire des erreurs là où il n’y en avait pas précédemment. Ainsi, des labels peu ambigus dans le contexte de la génétique de la drosophile comme hedgeog risquerait de ne pas être interprétés comme des gènes. Il n’est donc pas sûr que cette méthode de résolution du problème serait la bonne. La technique que nous avons adoptée, qui consiste à considérer que les labels sont univoques jusqu’à preuve du contraire, a l’avantage de permettre un rappel fort.

La catégorie Confusion entre entités regroupe le cas du chromosome SD chromosome et du complexe decapentaplegic complex. Ces entités ont été confondues respectivement avec le gène Sd et avec le gène decapentaplegic.

Les problèmes de ce type pourraient être évités à l’avenir en utilisant un lexique de termes de biologie. Les termes du lexique qui permettraient de lever l’ambiguïté sur un label seraient inclus dans le dictionnaire.

Le tableau ci-après fait la synthèse du Tableau 75.

Tableau 72 Inventaire des cas d’erreurs sur l’échantillon B (tableau de synthèse)

La colonne + indique le nombre d’erreur par excès : le programme identifier par erreur un gène. La colonne - indique le nombre d’erreur par défaut : le programme a omis d’identifier un gène. La colonne T donne le total. Les colonnes en grisé donnent les proportions afférentes aux effectifs qui précèdent.

Type d’erreur

-

%

+

%

T

%

Variation orthographique

35

59

12

26

47

45

Manque du dictionnaire

20

34







20

19

Label ambigu







18

39

18

17

Confusion entre entités







13

28

13

12

Divers

4

7

3

7

7

7

Total

59

100

46

100

105

100

Les effectifs sont suffisants pour permettre de faire des calculs de pourcentage. Nous voyons que la catégorie Variation orthographique est la plus fréquente. Elle totalise presque la moitié des erreurs (45 %). Cette catégorie provoque des erreurs des deux types. Elle est responsable de plus de la moitié des reconnaissances manquées (59 %) et d’environ un quart des faux positifs (26 %). L’effort principal nous paraît devoir être porté sur cette catégorie.

Cette catégorie est composée de cinq sous catégories, à savoir Variation orthographique, Parenthèses incorrects, Espace avant et après les exposants, Coupure de mot et Divers. Les solutions envisagées pour les trois premières sous-catégories sont faciles à mettre en œuvre. Ces sous catégories représentent 35 cas sur les 45 que compte la catégorie. Un travail sur cette catégorie devrait donc facilement améliorer les performances du système.
1   ...   18   19   20   21   22   23   24   25   ...   36

similaire:

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de Docteur

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de
«capricieuse»!!! Merci également de m’avoir permis d’être impliqué dans des collaborations (eth zurich) et dans un programme Européen...

Thèse pour obtenir le grade de iconThèse présentée pour l’obtention du grade de Docteur

Thèse pour obtenir le grade de iconThèse pour l’obtention du grade de docteur de l’université

Thèse pour obtenir le grade de iconThèse pour obtenir le titre de

Thèse pour obtenir le grade de iconThèse présentée en vue de l'obtention du grade de

Thèse pour obtenir le grade de iconThèse présentée en vue d’obtenir

Thèse pour obtenir le grade de iconCe site permet d’obtenir les liens pour disposer de l’intégralité des programmes de Maths








Tous droits réservés. Copyright © 2016
contacts
b.21-bal.com