Apprentissage des ontologies - Ontology learning

Ontologie apprentissage ( ontologie extraction , ontologie génération ou l' acquisition d'ontologie ) est la création automatique ou semi-automatique de ontologies , y compris l' extraction du correspondant de domaine termes et les relations entre les concepts que ces termes représentent d'un corpus de texte en langage naturel, et l' encodage avec un langage d'ontologie pour une récupération facile. Comme la construction manuelle d' ontologies est extrêmement laborieuse et chronophage, il existe une grande motivation pour automatiser le processus.

En règle générale, le processus commence par extraire des termes et des concepts ou des phrases nominales à partir de texte brut à l'aide de processeurs linguistiques tels que le balisage de parties de discours et le découpage de phrases . Ensuite, des techniques statistiques ou symboliques sont utilisées pour extraire les signatures de relations , souvent basées sur des techniques d'extraction d'hypernymes basées sur des modèles ou des définitions.

Procédure

L'apprentissage des ontologies (OL) est utilisé pour extraire (semi-)automatiquement des ontologies entières à partir d'un texte en langage naturel. Le processus est généralement divisé en huit tâches suivantes, qui ne sont pas nécessairement toutes appliquées dans chaque système d'apprentissage d'ontologie.

Extraction de la terminologie du domaine

Au cours de l' étape d' extraction de la terminologie du domaine , les termes spécifiques au domaine sont extraits, qui sont utilisés à l'étape suivante (découverte de concept) pour dériver des concepts. Les termes pertinents peuvent être déterminés, par exemple, par calcul des valeurs TF/IDF ou par application de la méthode valeur C/valeur NC. La liste de termes résultante doit être filtrée par un expert du domaine. Dans l'étape suivante, de manière similaire à la résolution de coréférence dans l' extraction d'informations , le système OL détermine les synonymes, car ils partagent le même sens et correspondent donc au même concept. Les méthodes les plus courantes sont donc le regroupement et l'application de mesures de similarité statistiques.

Découverte de concepts

Dans l'étape de découverte du concept, les termes sont regroupés par unités porteuses de sens, qui correspondent à une abstraction du monde et donc à des concepts . Les termes regroupés sont ces termes spécifiques au domaine et leurs synonymes, qui ont été identifiés lors de l'étape d'extraction de la terminologie du domaine.

Dérivation de la hiérarchie des concepts

Dans l'étape de dérivation de la hiérarchie des concepts, le système OL essaie d'organiser les concepts extraits dans une structure taxonomique. Ceci est principalement réalisé avec des méthodes de clustering hiérarchique non supervisées . Etant donné que le résultat de telles méthodes est souvent bruyant, une étape de supervision, par exemple l'évaluation de l'utilisateur, est ajoutée. Une autre méthode pour la dérivation d'une hiérarchie de concepts existe dans l'utilisation de plusieurs modèles qui devraient indiquer une relation de sous- ou de supersomption . Des modèles comme « X, c'est un Y » ou « X est un Y » indiquent que X est une sous-classe de Y. Un tel modèle peut être analysé efficacement, mais ils se produisent souvent trop rarement pour extraire suffisamment de relations de sous- ou de supersomption. Au lieu de cela, des méthodes d'amorçage sont développées, qui apprennent ces modèles automatiquement et assurent donc une couverture plus large.

Apprentissage des relations non taxonomiques

Dans l'étape d'apprentissage des relations non taxonomiques, des relations sont extraites qui n'expriment aucune sous- ou supersomption. De telles relations sont, par exemple, des œuvres pour ou localisées. Il existe deux approches courantes pour résoudre cette sous-tâche. La première est basée sur l'extraction d'associations anonymes, qui sont nommées de manière appropriée dans une deuxième étape. La seconde approche extrait les verbes, qui indiquent une relation entre des entités, représentées par les mots environnants. Le résultat des deux approches doit être évalué par un ontologue pour garantir l'exactitude.

Découverte de règles

Lors de la découverte de règles , des axiomes (description formelle des concepts) sont générés pour les concepts extraits. Ceci peut être réalisé, par exemple, en analysant la structure syntaxique d'une définition de langage naturel et l'application de règles de transformation sur l'arbre de dépendance résultant. Le résultat de ce processus est une liste d'axiomes, qui, par la suite, est comprise dans une description de concept. Cette sortie est ensuite évaluée par un ontologue.

Population d'ontologies

À cette étape, l'ontologie est augmentée d'instances de concepts et de propriétés. Pour l'augmentation avec des instances de concepts, des méthodes basées sur l'appariement de motifs lexico-syntaxiques sont utilisées. Des instances de propriétés sont ajoutées via l'application de méthodes d'amorçage , qui collectent des tuples de relation.

Extension de la hiérarchie des concepts

Dans cette étape, le système OL essaie d'étendre la structure taxonomique d'une ontologie existante avec d'autres concepts. Cela peut être effectué de manière supervisée avec un classificateur formé ou de manière non supervisée via l'application de mesures de similarité .

Détection de trames et d'événements

Pendant la détection de trame/événement, le système OL essaie d'extraire des relations complexes du texte, par exemple, qui est parti d'où vers quel endroit et quand. Les approches vont de l'application de SVM avec des méthodes de noyau à l'étiquetage de rôle sémantique (SRL) aux techniques d' analyse sémantique approfondie .

Outils

Dog4Dag (Dresden Ontology Generator for Directed Acyclic Graphs) est un plugin de génération d'ontologies pour Protégé 4.1 et OBOEdit 2.1. Il permet la génération de termes, la génération de frères et sœurs, la génération de définitions et l'induction de relations. Intégré à Protégé 4.1 et OBO-Edit 2.1, DOG4DAG permet une extension d'ontologie pour tous les formats d'ontologie courants (par exemple, OWL et OBO). Limité en grande partie aux extensions de service de recherche EBI et Bio Portal.

Voir également

Bibliographie

Les références