Toulouse III paul sabatier








télécharger 1.29 Mb.
titreToulouse III paul sabatier
page5/44
date de publication18.11.2017
taille1.29 Mb.
typeRésumé
b.21-bal.com > comptabilité > Résumé
1   2   3   4   5   6   7   8   9   ...   44

0.2 - Historique de mes recherches

0.2.1MACAO, une méthode pour l’acquisition de connaissances expertes


Mes recherches dans le domaine de l’ingénierie des connaissances ont débuté avec ma thèse de 1986 à 1989, effectuée au sein de l’équipe SMI (Systèmes Multi-inférentiels) du laboratoire LSI, sous la direction de M. Borillo et encadrée par J.-L. Soubie. Ce sujet était motivé par les diverses expériences et difficultés rencontrées au sein de cette équipe pour construire les bases de connaissances d’un système multi-expert. L’objectif visé était de définir une méthode d’acquisition des connaissances expertes et un environnement de structuration de ces connaissances avant leur représentation sous forme de règles de production. Ce problème était peu abordé par les chercheurs français jusque-là. L’orientation choisie était d’emblée interdisciplinaire : d’une part, s’appuyer sur les travaux de la psychologie cognitive sur la nature des connaissances expertes pour mieux connaître les processus de résolution de problème, savoir les identifier et faire expliciter les connaissances mises en œuvre ; d’autre part, évaluer et adapter différentes techniques utilisées en psychologie et surtout en ergonomie pour les proposer au sein d’une méthode dédiée à la construction de systèmes à base de connaissances. Cette thèse a produit une méthode, MACAO, proposant des repères et des supports à différentes techniques d’entretiens, une plate-forme de modélisation intégrant des outils de recueil de connaissances comme les grilles répertoires et une représentation de connaissances à l’aide de schémas. La méthode a été utilisée sur des cas d’école et dans le cadre du projet SAMIE1.

Le domaine de l’acquisition des connaissances en était alors à ses débuts et une communauté scientifique commençait à s’organiser, en particulier grâce aux conférences KAW (Knowledge Acquisition Workshops) se tenant depuis 1986 en Amérique du Nord et depuis 1987 en Europe, à l’initiative de B. Gaines (chercheur à l’université de Calgary) et J. Boose (chercheur chez Boeing). En France, les premières journées scientifiques sur ce thème se sont tenues en 1988 et 1989 en lien avec le PRC-IA, et la première édition des Journées d’Acquisition des Connaissances (JAC) a eu lieu en 1990 à l’initiative de chercheurs travaillant en apprentissage automatique.

0.2.2MACAO-II, modélisation de connaissances et opérationnalisation


Ce travail a été poursuivi dans le cadre d’une deuxième thèse, réalisée par Nada Matta de 1991 à 1995. L’objectif de cette thèse était de reprendre la méthode MACAO pour en dépasser certaines limites : prévoir une représentation des connaissances qui permette de mieux expliciter la méthode de résolution de problème présente dans le modèle conceptuel ; pouvoir, à partir de cette représentation, simuler la mise en œuvre de cette méthode ; mieux aider le cogniticien dans le passage du modèle conceptuel à la base de connaissances proprement dite. Ce travail s’est accompagné de l’étude des théories relatives aux différents modes de raisonnement (en psychologie et en IA). Il a conduit à la mise au point du langage MONA de modélisation des connaissances. La thèse de Nada Matta a également conduit à la mise en forme d’une nouvelle méthode, MACAO-II et au développement d’une plate-forme associée. MACAO-II permet de gérer des modèles de tâches de la bibliothèque de KADS et de les adapter pour construire le modèle conceptuel d’une expertise.

À partir de cette thèse, plusieurs développements ont été menés en collaboration avec d’autres laboratoires. Ainsi, un module d’opérationnalisation de modèles décrits en MONA a été développé, utilisant le langage ZOLA développé à l’IRIN par l’équipe de P. Tchounikine. Ce module permet de valider les modèles par simulation et surtout de construire des modèles adaptés à des systèmes coopératifs. Afin d’enrichir la représentation des connaissances du domaine avec MONA, une coopération avec F. Tort et C. Reynaud du LRI a permis de reprendre certaines propositions du système ASTREE, en particulier pour la formalisation des relations. Dans la continuité de ces collaborations, un travail conjoint avec ces deux équipes a visé une meilleure organisation des connaissances entre les niveaux domaine et résolution de problème ou tâche, ainsi qu’une articulation mieux contrôlée entre ces types de connaissance, à travers la structure de rôle.

Enfin, plusieurs évaluations expérimentales de cette nouvelle version de MACAO, dont le projet SADE (1993), ont été effectuées. Elles ont montré l’intérêt d’exploiter la complémentarité entre méthodes ascendantes (constructives) et descendantes (par réutilisation de modèles de résolution) pour la construction de modèle, et de mieux caractériser les résultats obtenus selon chacune d’elles. Enfin, dans le cadre d’une collaboration avec J. Breuker de l’Univ. d’Amsterdam, des outils ont été définis pour assurer une maintenance aisée et cohérente du modèle conceptuel et de la base de connaissances associée. À partir du module d’opérationnalisation en ZOLA, le langage MONA a été enrichi afin de mieux tracer le processus de modélisation et mesurer en quoi un modèle conceptuel facilite la maintenance du système.

0.2.3Bases de connaissances terminologiques et analyse linguistique de textes


C’est à partir de 1993 que mes travaux ont pris un tournant en se focalisant aussi sur les documents comme sources de connaissances et sur les outils d’analyse terminologique comme moyen de les exploiter. La motivation initiale, classique, visait un gain de temps pour le repérage de la terminologie et pour la structuration des concepts du domaine, travail correspondant à une des tâches du processus de modélisation. Ce glissement thématique a bénéficié d’une collaboration avec D. Bourigault, chercheur en Traitement Automatique des Langues à EDF à cette époque, et des linguistes du laboratoire ERSS de Toulouse Le Mirail. Une première expérience a consisté à dégager la terminologie du domaine à partir de documents techniques à l’aide du logiciel LEXTER au sein du projet SADE. LEXTER permet de trouver un ensemble très riche de termes du domaine, de les utiliser pour définir des concepts et de repérer des synonymies entre termes. L’avantage de son utilisation est aussi de disposer de liens entre le modèle conceptuel et les textes « source ».

Les résultats prometteurs obtenus m'ont amenée à explorer plus systématiquement la manière de conduire des analyses terminologiques en amont de l'acquisition des connaissances, en étroite collaboration avec des linguistes. Une convergence d’intérêt avec la linguistique de corpus et la structuration de terminologies a donné un caractère plus ambitieux à cette piste. La période entre 1993 et 1998 correspond donc à celle d’une évolution thématique qui s’est stabilisée avec la confirmation de l’intérêt de cette approche pour la construction d’ontologies et de l’importance (provisoirement exagérée sans doute) des ontologies dans les applications.

Cette période est également celle d’une transition dans le domaine de l’ingénierie des connaissances. Les projets européens (CommonKads et affiliés) ou américains (Protégé) étant parvenus à des propositions stables et convergentes en matière de méthodes et de modèles pour l’ingénierie des connaissances, plusieurs courants répondant à des besoins plus spécialisés ont vu le jour. Parmi ceux-ci, je citerai la conception de systèmes coopératifs (répartition dynamique des tâches entre système et opérateur), la prise en compte de l’organisation dans laquelle s’intègre le système, la définition de langages standardisés facilitant l’interopérabilité, ou encore l’exploitation de connaissances pour un meilleur accès au contenu du Web. Au croisement de ces trois dernières pistes, la notion d’ontologie, redéfinie par l’ingénierie des connaissances comme un modèle conceptuel consensuel d’un domaine, a pris une place croissante.

Un premier objet d’étude, les bases de connaissances terminologiques (BCT), a été le support de questions et de contributions convergentes venant de l’IC, de l’analyse linguistique de textes et de la linguistique de corpus. Ces bases contiennent des connaissances sur la terminologie d’un domaine, sous la forme d’un réseau conceptuel associé à des fiches terminologiques. Entre 1995 et 1998, mes travaux ont porté sur la définition et l’évaluation de ces structures de données et, pour cela, sur le développement d’un support logiciel pour les gérer. Élaboré en collaboration avec A. Condamines (ERSS), le modèle de données proposé pour les BCT associe textes, termes et un réseau conceptuel. La représentation des connaissances choisie se situe au niveau conceptuel puis elle est formelle (en logique de description). J’ai étudié la nature des changements qu’introduit la formalisation sur les données. Des outils ont été développés pour leur gestion (Géditerm) et leur utilisation (Consulterm). Ces logiciels ont permis de conduire des recherches sur le passage de données lexicales à un modèle conceptuel, sur la traçabilité des choix de modélisation et le rôle des textes comme traces de ces choix.

Du point de vue méthodologique, j’ai essayé de rapprocher les méthodes et outils utilisés pour la modélisation conceptuelle pour construire une BCT. J’ai également cherché à évaluer en quoi une BCT pourrait être un produit intermédiaire utile pour la construction de modèles du domaine dédiés à des applications. Deux projets de valorisation menés avec A. Condamines (l’un avec la DDE de Midi-Pyrénées, l’autre, Mouglis, avec la DER d’EDF) ont permis d’utiliser et valider le modèle de données et les logiciels, ainsi que la méthodologie. Ils conduisent aussi à remettre en question l’intérêt de disposer d’une BCT pour construire un modèle du domaine. Or, l’hypothèse de travail des linguistes était double : une BCT pourrait permettre de rendre compte de « toutes les connaissances » contenues dans un texte à partir des seules traces linguistiques ; et ainsi, une BCT pourrait servir de source de connaissances à modifier ensuite en fonction des objectifs de l’application. Cette hypothèse a été depuis complètement revue, d’une part à cause de l’observation pratique de l’impossibilité de rendre compte de manière neutre et exhaustive du contenu d’un texte, et, d’autre part, pour des motivations plus théoriques liées à la notion d’interprétation, bien présente dans le processus de construction de modèle.

0.2.4Analyse de textes pour modéliser ontologies et terminologies


En parallèle, dans la continuité des recherches sur le processus de modélisation conceptuelle, j’ai étudié l'intégration de l'analyse terminologique et de ses résultats dans ce processus. Au cours de différents projets, en collaboration avec A. Condamines et D. Bourigault de l’ERSS, j’ai expérimenté ou validé des logiciels d’aide à l’extraction d’éléments linguistiques porteurs de connaissances, et donc utiles pour la construction de modèles, comme les concordanciers (Yakwa), les logiciels d’extraction de termes et de réseau terminologique Lexter puis Syntex, des logiciels d’analyse distributionnelle comme UPERY. Parce que les relations sémantiques sont un des moyens de repérer des concepts et de justifier leur définition, j’ai encadré la thèse de P. Séguéla (sous la direction de J.-L. Soubie) sur l’utilisation de patrons linguistiques pour le repérage de relations lexicales puis la mise en relation conceptuelle. Elle a débouché en 2000 sur la mise au point du logiciel Caméléon, dont deux nouvelles versions ont été depuis développées afin de balayer des textes étiquetés grammaticalement.

Ces différents logiciels ont été évalués et j’ai spécifié leur intégration au sein d’une chaîne de traitements dans le cadre d’une méthodologie de construction de ressources terminologiques et ontologiques à partir de textes : Terminae. Initialement définie au LIPN par B. Biébow et S. Szulman pour représenter formellement des connaissances tirées de spécifications en langage naturel, cette méthode s’appuie sur un logiciel de modélisation dédié qui débouche sur une représentation en logique de description. Cette représentation a la structure d’une ontologie. Suite à l’expérience tirée de Géditerm, j’ai collaboré avec le LIPN pour intégrer dans Terminae les éléments nécessaires à la gestion de BCT d’une part, et, d’autre part, des résultats des logiciels d’analyse de textes (en particulier des extracteurs de termes Lexter puis Syntex). De ce fait, le modèle de données a évolué, intégrant désormais des fiches terminologiques et des éléments textuels (phrases ou paragraphes). De nouvelles interfaces de saisies et de nouveaux modules de développement des données ont été définis, à la spécification desquels j’ai contribué.

Plus fondamentalement, l’ensemble de ces travaux a permis une première réflexion sur l’apport d’éléments terminologiques et linguistiques pour améliorer la qualité et l’acceptabilité des modèles. En effet, on s’attend à ce que les systèmes qui les utilisent répondent mieux aux besoins des utilisateurs, car les éléments linguistiques contribuent à mieux en faire comprendre et accepter le contenu. Ensuite, la construction de modèles à partir de textes renouvelle la question du degré d’opérationnalisation des connaissances. Il paraît plus naturel de considérer qu’une partie des connaissances peut rester sous une forme peu opérationnelle, telle qu’elle se présente dans les textes, car ils sont accessibles à l’utilisateur et leur structure peut être maniée assez simplement par le système d’information. Seul un noyau de connaissances doit être formalisé, les connaissances sur lesquelles le système doit raisonner pour répondre aux besoins des utilisateurs. Jusque-là, l’objectif était de modéliser et d’opérationnaliser uniformément toutes les connaissances nécessaires au système. En renouvelant le questionnement de l’ingénierie des connaissances, cette approche élargit les types de réponse informatique envisagés face à des besoins d’utilisateurs.

0.2.5Apport des modèles conceptuels à différents types d’applications


De ce fait, via des contrats de valorisation, j'ai également élargi l'éventail des applications possibles pour évaluer ces méthodes et outils, au-delà de l'aide à la résolution de problèmes : gestion documentaire, mémoire d'entreprise, modélisation des utilisateurs, construction de systèmes coopératifs. Or chaque type d’application soulève des problèmes de recherche spécifiques, qui dépassent l’adaptation des logiciels. La majorité de ces expériences a concerné l’intérêt de modèles conceptuels ou terminologiques, donc de données sémantiques structurées, pour accéder à ou naviguer dans des éléments documentaires. La répartition de la « résolution de problème » au sein du couple système-utilisateur final est ici tout à fait inversée par rapport aux systèmes à base de connaissances. Le système exploite des connaissances du domaine pour orienter au mieux un utilisateur qui a l’initiative de la recherche, et surtout de l’interprétation du contenu documentaire en fonction du contexte dans lequel il réalise sa tâche. Au cours de différents projets, cette question a été déclinée sous plusieurs formes : (i) mesurer l’intérêt d’un modèle de tâches pour la consultation de guides de procédures (projet Mouglis), (ii) juger de l’apport d’un modèle conceptuel pour faciliter la sélection des termes et leur structuration dans un index (projet Hyperplan), (iii) structurer un index de site web selon une approche terminologique (IndexWeb), (iv) évaluer l’apport des ontologies pour la reformulation de requêtes (DEA de M. Baziz) ou encore (v) pour la consultation de documents structurés (projet Arkeotek). Ces différents questionnements exigent une réponse interdisciplinaire entre spécialistes des sciences de l’information ou de recherche d’information, du traitement automatique des langues et de l’ingénierie des connaissances, linguistes et ergonomes. Ma participation à des groupes de travail comme TIA du GRD I3 et l’action spécifique « corpus et terminologies » m’ont permis de mener ce type de réflexion avec des chercheurs de ces disciplines.

Mes recherches en cours reprennent ces différentes expériences pour en tirer des éléments méthodologiques sur les étapes et logiciels utiles à la construction de différents types de modèle terminologique ou ontologique pour chacune des classes d’application possibles. Il me semble important, pour proposer un cadre générique au sein duquel adapter des approches et des outils en fonction des applications, de s’appuyer sur des retours d’expérience. Plus que de définir un cadre méthodologique, aujourd’hui assez consensuel, la difficulté est de mettre en place pratiquement une chaîne de traitements du langage adaptés et d’aides à la modélisation.

Une autre problématique ressort de ces expériences : celle de la maintenance des modèles en cohérence avec le vocabulaire et les connaissances du domaine, les textes à indexer, consulter ou explorer. Le contexte d’usage des ontologies, et cela est encore plus criant dans le cas du web, est d’évidence en évolution permanente. Or les ontologies sont souvent considérées comme des représentations stables puisque consensuelles. Je voudrais prévoir un processus de maintenance d’ontologies dynamiques, afin qu’elles puissent être revues à la demande, en fonction des évolutions du contexte dans lequel elles sont utilisées. Une recherche est en cours sur ce thème, la solution proposée s’appuyant sur l’analyse de texte à l’aide d’agents adaptatifs.
1   2   3   4   5   6   7   8   9   ...   44

similaire:

Toulouse III paul sabatier icon«eea» universite paul sabatier (Toulouse) cursus de master en ingenierie 1 «eea» 1

Toulouse III paul sabatier iconEssai gène reporteur luciférase, digestion par enzymes de restriction,...
«Vectorologie, Thérapie génique et Vaccinologie» à l’université Paul Sabatier de Toulouse

Toulouse III paul sabatier iconUniversite paul cezanne aix marseille III

Toulouse III paul sabatier iconUniversité Paul Cezanne (Aix-Marseille III)

Toulouse III paul sabatier iconUniversite aix marseille III – paul cezanne

Toulouse III paul sabatier iconUniversité Paul Cézanne Aix-Marseille III

Toulouse III paul sabatier iconUniversite paul cezanne aix-marseille III

Toulouse III paul sabatier iconTechnicienne chimiste
«A» Paul sabatier de Castres en alternance avec l’entreprise Seppic Castres en tant que technicienne de recherche dans le laboratoire...

Toulouse III paul sabatier icon3ème année de Licence – Mention Chimie
«d’Ouverture» qui est à choisir dans un large panel proposé par l’Université Paul Sabatier (voir même d’autres Universités Toulousaines...

Toulouse III paul sabatier iconIii. Disposition III. Agent pathogène








Tous droits réservés. Copyright © 2016
contacts
b.21-bal.com