Thèse pour obtenir le grade de








télécharger 3.33 Mb.
titreThèse pour obtenir le grade de
page15/36
date de publication21.01.2018
taille3.33 Mb.
typeThèse
b.21-bal.com > droit > Thèse
1   ...   11   12   13   14   15   16   17   18   ...   36

Chapitre 2 Mise en œuvre


Nous traitons dans cette partie de la mise en œuvre de l’identification des gènes et de la reconnaissance des interactions. Des données chiffrés sur la taille des corpus utilisés et des traitements effectués sur ces corpus sont données dans le Tableau 76.

I.Mise en œuvre du programme d’identification des gènes


Nous traitons dans cette partie de l’outil et des méthodes que nous avons mis en œuvre pour résoudre le problème de l’identification des gènes. Dans un premier temps, nous exposerons la façon dont les informations nécessaires à l’analyse sont représentés dans la base de données. Dans un deuxième temps nous expliquerons comment le système utilise les données de façon à parvenir à identifier les gènes par l’analyse des textes. Dans un troisième temps, nous expliquerons comment nous avons collecté et structuré les données de façon à les faire rentrer dans la base de données tel quelle est structurée.

A.Structure de données pour l’identification des gènes dans les textes


Dans cette partie, nous traitons de la façon dont les informations nécessaires à l’identification des gènes sont structurées à l’intérieur de la base de données. La méthode que nous avons suivi pour mettre les données sous cette forme ne pourra logiquement être donnée que plus tard. Cela sera traité en C. De même, la façon dont l’outil fonctionne pour identifier les gènes ne pourra être expliquée qu’après cette partie. Cela sera fait en B.
1.Préliminaires

Avant d’aborder la structure de la base de données, nous donnons dans cette partie quelques éléments sur les bases de données relationnelles qui seront utiles tout au long de l’exposé.
a.Notions sur les bases de données relationnelles

Les données contenues dans la base de données sont organisées en tables. Nous pouvons représenter ces tables par des tableaux. Dans ce cas, chaque ligne représente un enregistrement (ou individu) et chaque colonne représente un champ ( ou caractéristique). A l’intersection d’une ligne et d’une colonne se trouve la valeur du champ colonne pour l’enregistrement ligne.

Les enregistrements d’une table sont généralement munis d’un numéro unique. Le champ correspondant est nommé clef primaire.

Dans un champ d’une table, il arrive fréquemment que l’on fasse référence à un enregistrement d’une autre table. Dans ce cas on utilise précisément la clef primaire de la deuxième table pour indiquer de façon unique l’enregistrement en question. On dira dans ce cas que le champ de la première table est une clef externe. On dira qu’il y a une relation entre les deux tables. La plupart du temps cette relation est une relation « de un à plusieurs ». Cela signifie que plusieurs enregistrements de la première table peuvent faire référence au même enregistrement de la deuxième table, mais que chaque référence à un enregistrement est univoque. L’ensemble des liens présents dans la base de données est présenté Figure 5.
b.Conventions sur les noms de champs et de tables

Dans la base de données nous utilisons des abréviations pour désigner les tables. Ces abréviations sont constituées en général de deux à quatre lettres en majuscule. Cela s’avère pratique pour que les requêtes ne soient pas constituées d’un texte trop long de façon à rester lisible. La liste des tables est présentée dans le .

Pour les clefs primaires, nous utiliserons toujours une abréviation qui commence par la lettre i comme identifiant.
c.Quelques principes sur la structuration des données

i.Les garanties d’intégrité des données

Le gestionnaire de base de données peut prendre en charge l’intégrité des donnés, c’est à dire leurs cohérences. Il suffit pour cela d’édicter des règles d’intégrité des données. Le gestionnaire de base de données va alors empêcher toute opération qui aboutirait à une violation de ces règles. Voyons maintenant quelle sont les principales règles.

1)Garantir la présence des enregistrements cités dans une table

Quand une table fait référence à des enregistrements d’une autre table, il est important que les enregistrements cités existent bel et bien. Cette règle s’appelle l’intégrité relationnelle. Cette règle est mise en danger quand on supprime un enregistrement. Pour la garantir, le système peut prendre l’initiative de supprimer en cascade les enregistrements qui font référence à l’enregistrement en question. C’est une règle que nous avons adoptée systématiquement sauf dans le cas où cela pourrait être dangereux pour un utilisateur non averti. En particulier nous ne l’avons pas fait pour les liens vers des « petites » tables qui ne font en fait que donner les quelques modalités, une douzaine au plus, qui sont possibles pour la valeur d’un champ.

2)Garantir l’absence de doublons dans les enregistrements

Les doublons sont en général proscrits dans les bases de données relationnelles. Un doublon est un enregistrement en double dans une table. Dans certains cas, on ne considère que certains champs pour juger de la présence de doublons. Pour garantir l’absence de doublons dans une table, des index sont posés sur un ou plusieurs champs de la table. Un index est une structure interne au système de gestion de base de données qui donne pour chaque valeur du champ ou des couples de champs qui définissent l’index, un accès direct aux enregistrements qui utilisent cette valeur. Pour garantir l’absence de doublons, on pose comme condition que l’index doit être sans doublons. L’absence de doublons dans un champ est mise en péril par l’ajout d’enregistrements. Le système, pour maintenir l’intégrité des données, va donc ignorer les tentatives d’ajouts d’enregistrements qui aboutiraient à la création de doublons.

ii.Structure des données pour permettre les mises à jour.

Les données contenues dans la base de données sont pour l’essentiel issues d’autres bases de données, à savoir Medline et Flybase. Elles ont été importées par des processus automatiques. La base est conçue pour pouvoir permettre des "imports" successifs. Il est important de faire en sorte que les données dont nous avons décidé, pour une raison ou pour une autre, de ne pas tenir compte, ne soient pas purement et simplement supprimées. En effet, si tel était le cas, ces données risqueraient d’être réintroduites par erreur dans la base lors de la prochaine mise à jour de la base de données. Il est impératif de garder une trace des données que nous avons souhaité de mettre "hors jeu", la suppression n’étant pas une solution acceptable.

Pour permettre la mise à jour, nous avons introduit à chaque fois que nécessaire, des champs de d’activation ou d’inactivation. Par défaut, tous les enregistrements sont actifs. Les enregistrements indésirables sont inactivés grâce à ce champ.
1   ...   11   12   13   14   15   16   17   18   ...   36

similaire:

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de Docteur

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de
«capricieuse»!!! Merci également de m’avoir permis d’être impliqué dans des collaborations (eth zurich) et dans un programme Européen...

Thèse pour obtenir le grade de iconThèse présentée pour l’obtention du grade de Docteur

Thèse pour obtenir le grade de iconThèse pour l’obtention du grade de docteur de l’université

Thèse pour obtenir le grade de iconThèse pour obtenir le titre de

Thèse pour obtenir le grade de iconThèse présentée en vue de l'obtention du grade de

Thèse pour obtenir le grade de iconThèse présentée en vue d’obtenir

Thèse pour obtenir le grade de iconCe site permet d’obtenir les liens pour disposer de l’intégralité des programmes de Maths








Tous droits réservés. Copyright © 2016
contacts
b.21-bal.com