Thèse pour obtenir le grade de








télécharger 3.33 Mb.
titreThèse pour obtenir le grade de
page24/36
date de publication21.01.2018
taille3.33 Mb.
typeThèse
b.21-bal.com > droit > Thèse
1   ...   20   21   22   23   24   25   26   27   ...   36

C.Statistiques sur les interactions


Dans cette section, nous comparons l’ensemble des interactions issues d’un processus manuel d’une part et automatique d’autre part. On ne considère plus l’extraction d’informations faite phrase par phrase mais sur l’ensemble de toutes les phrases. Dans la section B, nous comptions les reconnaissances, dans cette section nous comptons les interactions.
1.Méthodes basées sur le nombre d’occurrence de gènes dans une même phrase
a.Reconnaissance des interactions à partir des phrases qui comptent deux occurrences de gènes

Le processus d’annotation automatique concerné est intitulé 2RDG. Il a été décrit dans la section B. Les données associées se trouvent Tableau 89. La dernière colonne sera utilisée plus loin pour la comparaison de 2RDG avec nRDG. Le nombre de phrases concernées par cette statistique est de 225. Le graphique correspondant se trouve Figure 7.

Figure 7 Graphique rappel-précision pour les interactions au cours du processus 2RDG



Nous remarquons que le rappel n’est au mieux que de 95%. Ce taux est atteint dans le cas de l’extraction d’informations avant prise en compte de l’IVI. Comment expliquer ces manques ? Dans un premier cas de figure, la phrase compte deux gènes distincts, mais elle décrit une interaction entre un gène et lui-même. Dans un deuxième cas de figure, la phrase décrit une interaction mais ne cite pas un des deux partenaires.

Nous remarquons que la précision n’est au mieux que de 65% environ. Dans ce cas, le rappel est extrêmement faible, de l’ordre de 20%. Cela signifie, que nous ne pouvons pas espérer une précision absolue (de 100%), même en tenant compte du phénomène de redondance de l’information que nous pouvons espérer sur des gros corpus.

Globalement, nous remarquons que la courbe est placée assez haut sur le graphique, ce qui est positif, car cela signifie que la précision est élevée. En revanche la pente de la droite est faible, puisque bien que l’on commence assez haut, on n’atteint pas le maximum qui est 100%, mais seulement 65%. Ainsi, on voit que le principal facteur qui fait fonctionner le système d’extraction d’informations est la présence simultanée d’occurrence de gènes, la prise en compte de l’IVI n’apportant qu’une faible augmentation de la précision, au prix d’une forte diminution du rappel.
b.Reconnaissance des interactions à partir des phrases qui comptent plusieurs occurrences de gène

Le processus d’extraction d’information 2RDG a l’inconvénient majeur de ne prendre en compte que les phrases qui comptent deux occurrences de gène seulement. Or on sait que de nombreuses interactions se trouvent dans les phrases qui comptent davantage d’occurrences de gène. Nous avons donné des chiffres à ce propos dans la section Chapitre 1 II.B.2. Nous avons donc créé le processus de reconnaissance des interactions nRDG.

Le principe de la reconnaissance est le suivant : pour chaque phrase qui compte plusieurs reconnaissances de gène, pour chaque couple de reconnaissance de gène présent dans cette phrase, on crée l’interaction correspondante dans la table de reconnaissance des interactions. Le graphe correspondant se trouve Figure 8, et les données correspondantes dans le Tableau 90. Le nombre de phrases concernées par cette statistique est de 486.

Figure 8 Graphique rappel-précision pour les interactions au cours du processus nRDG



L’inconvénient de la méthode nRDG apparaît tout de suite : beaucoup trop d’interactions sont générées automatiquement, relativement au nombre d’interaction qui sont réellement décrites dans les phrases. On voit par exemple qu’avant intervention de l’IVI, près de 1000 interactions sont générées, alors que l’expert n’en a trouvé que 154. La précision ne peut, dans ces conditions, qu’être très faible.
c.Comparaison des performances des méthodes basées sur le nombre d’occurrences de gènes

Nous avons vu deux processus différents : 2RDG et nRDG. Chaque processus a ses avantages et ses inconvénients. Le premier est plus précis que le second, mais il ramène nécessairement moins d’interactions puisqu’il s’applique à beaucoup moins de phrases.

Plus précisément, il est clair que nRDG forme beaucoup de faux positifs, mais on peut espérer compenser cela en faisant une forte sélection sur les interactions en étant très exigeant sur les IVI des phrases qui leur ont donné naissance. Nous allons voir précisément ce qu’il en est dans la section qui suit.. Il s’agit donc de comparer précisément 2RDG et nRDG en les mettant tous les deux sur un même graphique. Pour cela nous allons considérer que 2RDG s’applique aux même phrases que nRDG mais qu’il néglige de prendre en compte toutes les phrases qui comptent plus de deux occurrences de gènes. Dans ces conditions, pour le calcul des performances, les annotations de références ne sont plus les mêmes. Il faut rajouter toutes les annotations de l’expert qui ont été faites dans les phrases qui comptent plus de deux occurrences de gènes. En revanche, cela ne modifie en rien l’ensemble des annotations communes à l’expert et à la machine. Ainsi, pour un seuil donné la précision de 2RDG reste identique, alors que le rappel change mécaniquement : il est divisé par une constante. Le nouveau rappel est indiqué dans la dernière colonne du Tableau 89. Le graphique est présenté Figure 9.

Figure 9 Comparaison des processus 2RDG et nRDG



Nous constatons que l’effet de l’IVI n’est pas suffisant pour rattraper l’imprécision constitutive du processus nRDG. Le processus 2RDG demeure meilleur que nRDG sur son domaine.

Cependant, on ne peut pas dire qu’un des processus soit globalement meilleur que l’autre. Le processus nRDG ne bat certes pas 2RDG sur son domaine, qui est celui des précision forte et rappel faible. Mais il s’exerce aussi dans le domaine précision faible et rappel fort sur lequel il n’est pas concurrencé par 2RDG. Chaque processus garde donc son intérêt.
2.Méthodes basées sur le nombre de gènes cités dans une même phrase

Nous avons vu que la présence de deux occurrences de gènes est un indice fort de la présence d’une interaction entre les gènes concernés. Cependant, on imagine bien que cet indice soit moins convaincant quand il s’agit de deux occurrences du même gène. Autrement dit, si un auteur cite conjointement deux gènes, c’est quand même un indice fort que les deux gènes ont quelques chose à faire l’un avec l’autre et donc en particulier qu’ils interagissent, tandis que si un auteur cite plusieurs fois le même gène dans la même phrase, ce n’est peut-être que parce que ce gène l’intéresse. Ainsi, la méthode d’extraction d’information que nous proposons paraît être plus pertinente pour trouver des interactions entre gènes différents que pour trouver des auto-interactions. Nous allons donc reprendre nos statistiques en ne nous intéressant cette fois qu’aux interactions du premier type pour négliger les interactions du deuxième type, sur lesquels d’autres méthodes d’extraction d’interactions pourraient s’avérer plus pertinentes.
a.Reconnaissance des interactions à partir des phrases qui citent deux gènes

Nous nous intéressons aux phrases qui citent exactement deux gènes. Pour ces phrases nous créons tous les couples de gènes en présences. Cela nous fournit les interactions du processus 2G.

Ce processus prend en compte 189 phrases. Le graphique correspondant se trouve Figure 10 et les valeurs se trouvent dans le Tableau 91

Figure 10 Performance du processus 2G



Les résultats sont effectivement meilleurs avec 2G qu’avec 2RDG. En effet, avant prise en compte de l’IVI la précision atteint 61% avec 2G alors qu’elle n’était que de 39% pour 2RDG avec des niveaux de rappel sensiblement égaux. Cela confirme bien l’intérêt qu’il y avait à restreindre le champ d’application de la méthode aux interactions entre gènes distincts.
b.Reconnaissance des interactions à partir des phrases qui citent plusieurs gènes

Exactement pour les même motifs qui nous ont conduit nRDG après 2RDG, nous sommes conduits à nG après 2G. Il s’agit de considérer les phrases qui citent plusieurs gènes, et pour chacune d’elles, de construire l’ensemble des couples de gènes qui sont cités dans cette phrase.

Ce processus prend en compte 252 phrases. Le graphique correspondant se trouve Figure 11 et les données Tableau 92.

Figure 11 Performance du processus nG



Comme lors du passage de 2RDG à nRDG, on constate une diminution de la précision. Cependant elle reste relativement haute, puisqu’elle vaut au minimum 47%.
c.Comparaison des performances des méthodes basées sur le nombre de gènes cités

Pour les même raisons que précédemment avec les techniques 2RDG et nRDG, il est intéressant de comparer 2G avec nG. Le graphe correspondant se trouve Figure 12. Les données utilisées pour tracer nG sont les mêmes que précédemment. Les données utilisées pour tracer 2G figurent dans la dernière colonne du Tableau 91.

Figure 12 Comparaison des performances de 2G et nG



Nous constatons que là encore, le processus 2G l’emporte là où il est concurrencé par nG. Cependant la différence est moindre que ce qu’elle était pour les processus 2RDG et nRDG. En effet, à un niveau de rappel de 20%, le gain de précision entre nRDG et 2RDG est de 25% (à lire entre les deux droites de tendance) alors qu’il est moitié moindre entre nG et 2G.
3.Utilisation du nombre de fois où une interaction est reconnue automatiquement

Dans ce qui précède, nous avons considéré que la détection automatique d’une interaction pouvait se faire dans une seule phrase pour être crédible. Nous allons étudier dans cette section l’effet d’une sélection des interactions automatiques basée sur la fréquence des reconnaissances associées.

Les interactions générées automatiquement seront caractérisées de répétées si elles ont été reconnues plus d’une fois au cours du processus de reconnaissance automatique que l’on considère.

Exiger la répétition, est une façon de sélectionner les interactions, au même titre que la sélection basée sur l’IVI. Il s’agit de comparer les deux méthodes de sélection. Pour le faire nous proposons un graphe rappel-précision. Sur ce graphe nous proposons deux séries de données. La première correspond aux interactions extraites automatiquement sans sélection, et la deuxième série de données correspond aux seules interactions répétées. Cette comparaison a été faite pour les processus automatiques 2G et nG.
a.Interactions reconnues plusieurs fois au cours du processus 2G

Le corpus de phrases qui sert à l’analyse est le même que pour le processus 2G. Le graphe correspondant se trouve Figure 13 et les données de la série 2Gr se trouvent dans le Tableau 93.

Figure 13 Comparaison du critère répétition avec le critère IVI pour le processus 2G

La série de données 2Gr correspond aux seules interactions répétées issues du processus 2G.



La série 2Gr est un petit peu en dessous de la série 2G, ce qui signifie que les performances sont légèrement inférieures. Les séries restent globalement très proches. Ainsi, on peut dire que le critère de la répétition peut rivaliser avec celui de l’IVI.
b.Interactions reconnues plusieurs fois au cours du processus nG

Le corpus de phrases qui sert à l’analyse est le même que pour le processus nG. Le graphe correspondant se trouve Figure 14 et les données pour la série nGr dans le .

Figure 14 Comparaison des interactions extraites avec ou sans critère sur le nombre de reconnaissances associées



Les deux séries de données sont presque sur une même ligne. Cette fois-ci, la séries nGr n’est pas en dessous de la série nG. Elle parait même être au-dessus pour les points à l’extrême gauche du graphique, mais comme nous l’avons expliqué dans la section supra, ces données sont entachées d’une grande incertitude en raison des faibles effectifs associés.

Ainsi, par rapport au cas précédent, la répétition est un critère de qualité légèrement supérieur. C’est un résultat attendu dans la mesure ou la technique d’extraction d’information nG donne plus de faux positifs que la technique 2G. Il est donc naturel de penser qu’un critère basé sur l’auto-confirmation des données extraites est plus profitable dans le cas de nG.
c.Discussion sur la redondance de l’information sur les interactions

Nous avons vu que la sélection des interactions sur le critère de répétition donne des résultas aussi bons que l’IVI. Ce procédé de sélection des interactions est basé sur le fait qu’il y a redondance d’information : une interaction peut être décrite plusieurs fois dans le corpus de textes que l’on étudie. Or comme nous allons le voir ce phénomène est plutôt rare. Les résultats que nous obtenons n’en sont que plus satisfaisants.

Le Tableau 73 fournit la preuve de la rareté de la redondance. En effet, on peut y voir que près des trois quarts des interactions ne sont énoncées qu’une seule fois dans les textes.

Tableau 73 Faible effectif des interactions redondantes

Les interactions ont été classées en fonction du nombre de citations –colonne redondance. Pour chaque classe on calcule l’effectif de celle-ci puis l’effectif relatif –colonne proportion. Cette statistique a été réalisée à partir de l’annotation manuelle de l’échantillon A.

Redondance

Effectif

Proportion

1

40

72 %

2

7

13 %

3

5

9 %

4

3

5 %

Total

55

100 %
1   ...   20   21   22   23   24   25   26   27   ...   36

similaire:

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de Docteur

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de
«capricieuse»!!! Merci également de m’avoir permis d’être impliqué dans des collaborations (eth zurich) et dans un programme Européen...

Thèse pour obtenir le grade de iconThèse présentée pour l’obtention du grade de Docteur

Thèse pour obtenir le grade de iconThèse pour l’obtention du grade de docteur de l’université

Thèse pour obtenir le grade de iconThèse pour obtenir le titre de

Thèse pour obtenir le grade de iconThèse présentée en vue de l'obtention du grade de

Thèse pour obtenir le grade de iconThèse présentée en vue d’obtenir

Thèse pour obtenir le grade de iconCe site permet d’obtenir les liens pour disposer de l’intégralité des programmes de Maths








Tous droits réservés. Copyright © 2016
contacts
b.21-bal.com