Cyclisme - Cyc

Cyclisme
	Dans le sens horaire : Logos pour la base de connaissances de Cyc, moteurs d'inférence, sortie exploitable, sélection intelligente de données
Auteur(s) original(aux)	Douglas Lénat
Développeur(s)	Cycorp, Inc.
Première version	1984 ; il y a 37 ans
Version stable	6.1 / 27 novembre 2017 ; il y a 3 ans
Écrit en	Lisp , CycL , SUBL
Taper	Ontologie et base de connaissances et la représentation des connaissances langue et moteur d'inférence
Site Internet	www .cyc .com

Cyc (prononcé / s aɪ k / SYKE ) est un à long terme l' intelligence artificielle projet qui vise à rassembler une vaste ontologie et la base de connaissances qui enjambe les concepts et les règles de base sur la façon dont le monde fonctionne. Dans l'espoir de capturer les connaissances de bon sens , Cyc se concentre sur les connaissances implicites que d'autres plateformes d'IA peuvent tenir pour acquises. Cela contraste avec les faits que l'on pourrait trouver quelque part sur Internet ou récupérer via un moteur de recherche ou Wikipédia. Cyc permet aux raisonneurs sémantiques d'effectuer un raisonnement de type humain et d'être moins « cassants » lorsqu'ils sont confrontés à de nouvelles situations.

Douglas Lenat a commencé le projet en juillet 1984 au MCC , où il était scientifique principal de 1984 à 1994, puis, depuis janvier 1995, a été activement développé par la société Cycorp , dont il est le PDG .

Aperçu

Le besoin d'un projet massif d'intelligence artificielle symbolique de ce genre est né au début des années 1980. Les premiers chercheurs en IA avaient une vaste expérience au cours des 25 dernières années avec des programmes d'IA qui généraient des premiers résultats encourageants mais ne parvenaient pas à « augmenter » - aller au-delà de « l'ensemble de formation » pour s'attaquer à un plus large éventail de cas. Douglas Lenat et Alan Kay ont fait connaître ce besoin et ils ont organisé une réunion à Stanford en 1983 pour aborder le problème. Les calculs au fond de l'enveloppe de Lenat, Kay et de leurs collègues (dont Marvin Minsky , Allen Newell , Edward Feigenbaum et John McCarthy ) indiquaient que cet effort exigerait entre 1 000 et 3 000 années-personnes d'effort, bien au-delà le modèle de projet académique standard. Cependant, les événements survenus moins d'un an après cette réunion ont permis de lancer un effort de cette ampleur.

Le projet a commencé en juillet 1984 en tant que projet phare de la Microelectronics and Computer Technology Corporation (MCC) de 400 personnes , un consortium de recherche lancé par deux douzaines de grandes sociétés basées aux États-Unis "pour contrer un effort japonais alors menaçant dans l'IA, le so- projet appelé « cinquième génération ». Le gouvernement américain a réagi à la menace de cinquième génération en adoptant le National Cooperative Research Act de 1984, qui pour la première fois a permis aux entreprises américaines de « s'entendre » sur la recherche à long terme à haut risque et à haut rendement, et MCC et Sematech ont surgi jusqu'à profiter de cette opportunité de dix ans. Le premier président et chef de la direction du MCC était Bobby Ray Inman , ancien directeur de la NSA et directeur adjoint de la Central Intelligence Agency.

L'objectif du projet Cyc était de codifier, sous une forme utilisable par la machine, les millions de connaissances qui composent le sens commun humain. Cela impliquait, en cours de route, (1) de développer un langage de représentation suffisamment expressif, CyclL , (2) de développer une ontologie couvrant tous les concepts humains jusqu'à un niveau de détail approprié, (3) de développer une base de connaissances sur ce cadre ontologique, comprenant toutes les connaissances humaines sur ces concepts jusqu'à un certain niveau de détail approprié, et (4) développer un moteur d'inférence exponentiellement plus rapide que ceux utilisés dans les systèmes experts de l'époque, pour être en mesure de déduire les mêmes types et la même profondeur de conclusions que les humains sont capables compte tenu de leur connaissance du monde.

Un peu plus en détail :

Le langage de représentation CycL a commencé comme une extension de RLL (le soi-disant langage de langage de représentation, développé en 1979-1980 par Lenat et son étudiant diplômé Russell Greiner à l'Université de Stanford), mais quelques années après le lancement du projet Cyc il est devenu clair que même représenter un reportage, un roman ou une publicité typique exigerait plus que le pouvoir expressif de la logique du premier ordre complète , à savoir le calcul des prédicats du second ordre ("Quelle est la relation entre la pluie et l'eau?") Et puis même des ordres logiques de niveau supérieur, y compris la logique modale , la réflexion (permettant au système de raisonner sur ses progrès jusqu'à présent, sur un problème sur lequel il travaille) et la logique contextuelle (permettant au système de raisonner explicitement sur les contextes dans lesquels ses diverses prémisses et les conclusions pourraient tenir), la logique non monotone et la circonscription . En 1989, CyclL avait étendu son pouvoir d'expression à la logique d'ordre supérieur (HOL).
- Les représentations triplestore (qui s'apparentent aux langages de représentation Frame-and-slot des années 1970 à partir desquels RLL est issue) sont aujourd'hui largement répandues dans l'IA. Il peut être utile de citer quelques exemples qui accentuent ou cassent ce type de représentation, typiques des exemples qui ont contraint le projet Cyc à passer d'une représentation triplestore à une représentation beaucoup plus expressive au cours de la période 1984-1989 : phrases anglaises incluant des négations ("Fred ne possède pas de chien"), quantificateurs imbriqués ("Chaque Américain a une mère" signifie pour-tout x il existe y... mais "Chaque Américain a un Président" signifie qu'il-existe y tel que pour- all x...), des modaux imbriqués comme « Les États-Unis croient que l'Allemagne veut que l'OTAN évite de poursuivre... » et c'est même gênant de représenter, dans un Triplestore , des relations d'arité supérieure à 2, comme « Los Angeles est entre San Diego et San Francisco le long de l'US101."
L'ontologie de Cyc est passée à environ 100 000 termes au cours de la première décennie du projet, jusqu'en 1994, et en 2017 contenait environ 1 500 000 termes. Cette ontologie comprenait :
- 416 000 collections (types, sortes, types naturels , qui incluent les deux types de choses telles que le poisson et les types d'actions telles que la pêche)
- un peu plus d'un million de personnes représentant
  - 42 500 prédicats (relations, attributs, champs, propriétés, fonctions),
  - environ un million d'entités généralement bien connues telles que TheUnitedStatesOfAmerica, BarackObama, TheSigningOfTheUSDeclarationOfIndependence, etc.
  - Un nombre arbitrairement grand de termes supplémentaires sont également implicitement présents dans la ontologie Cyc, dans le sens où il existe des fonctions de désignation de termes telles que CalendarYearFn (lorsqu'on lui donne l'argument 2016, il désigne l'année civile 2016), GovernmentFn (lorsqu'on lui donne l'argument France, il désigne le gouvernement de la France), Meter (lorsqu'on lui donne l'argument 2016, il désigne une distance de 2,016 kilomètres) et les imbrications et compositions de ces termes désignant des fonctions.
La base de connaissances Cyc des règles et affirmations générales du sens commun impliquant ces termes ontologiques a été largement créée par l'écriture d'axiomes à la main ; il est passé à environ 1 million en 1994, et en 2017, il était d'environ 24,5 millions et a nécessité plus de 1 000 années-personnes d'efforts pour construire.
- Il est important de comprendre que les ingénieurs ontologiques Cyc s'efforcent de garder ces nombres aussi petits que possible, de ne pas les gonfler, tant que la fermeture déductive de la base de connaissances n'est pas réduite. Supposons que Cyc soit informé d'environ un milliard de personnes, d'animaux, etc. Ensuite, il pourrait lui être dit 10 ¹⁸ faits de la forme "Mickey Mouse n'est pas le même individu que <Bullwinkle the Moose/Abraham Lincoln/Jennifer Lopez>". Mais au lieu de cela, on pourrait dire à Cyc 10 000 règles de taxonomie linnéenne suivies de seulement 10 ⁸ règles de la forme "Aucune souris n'est un orignal". Et de manière encore plus compacte, Cyc pourrait simplement recevoir ces 10 000 règles de taxonomie linnéennes suivies d'une seule règle de la forme "Pour deux taxons linniens quelconques, si aucun n'est explicitement connu pour être un supertaxon de l'autre, alors ils sont disjoints". Ces 10 001 affirmations ont la même clôture déductive que les 10 ¹⁸ faits mentionnés plus haut .
La conception du moteur d'inférence Cyc sépare le problème épistémologique (quel contenu devrait être dans le Cyc KB) du problème heuristique (comment Cyc pourrait efficacement déduire des arguments à des centaines d'étapes de profondeur, dans une mer de dizaines de millions d'axiomes). Pour faire le premier, le langage CyclL et l'inférence logique bien comprise pourraient suffire. Pour ce dernier, Cyc a utilisé une architecture de communauté d'agents, où des modules de raisonnement spécialisés, chacun avec sa propre structure de données et son algorithme, "ont levé la main" s'ils pouvaient progresser efficacement sur l'un des sous-problèmes actuellement ouverts. En 1994, il existait 20 modules de niveau heuristique (HL) de ce type ; à partir de 2017, il y a plus de 1 050 modules HL.
- Certains de ces modules HL sont très généraux, comme un module qui met en cache l' étoile de Kleene ( fermeture transitive ) de toutes les relations transitives couramment utilisées dans l'ontologie de Cyc.
- Certains sont spécifiques à un domaine, comme un équilibreur d'équations chimiques. Ceux-ci peuvent être et sont souvent une « évasion » vers (pointeur vers) un programme, un service Web ou une base de données en ligne disponible en externe, comme un module permettant de « calculer » rapidement la population actuelle d'une ville en sachant où/comment rechercher cela.

CycL a une spécification publiée et des dizaines de modules HL ont été décrits dans le manuel de Lenat et Guha, mais le code du moteur d'inférence Cyc et la liste complète de plus de 1000 modules HL sont la propriété de Cycorp.

Le nom « Cyc » (de « encyclopédie », prononcé [saɪk] , comme « syke ») est une marque déposée appartenant à Cycorp. L'accès à Cyc se fait par le biais de licences payantes, mais les groupes de recherche en IA de bonne foi reçoivent des licences gratuites pour la recherche uniquement (cf. ResearchCyc ); en 2017, plus de 600 de ces groupes dans le monde détenaient ces licences.

Les éléments de connaissances typiques représentés dans la base de connaissances Cyc sont « Chaque arbre est une plante » et « Les plantes meurent éventuellement ». Lorsqu'on lui demande si les arbres meurent, le moteur d'inférence peut tirer la conclusion évidente et répondre correctement à la question.

La plupart des connaissances de Cyc, en dehors des mathématiques, ne sont vraies que par défaut. Par exemple, Cyc sait que par défaut les parents aiment leurs enfants, quand vous êtes heureux, vous souriez, faire votre premier pas est un grand accomplissement, quand quelqu'un que vous aimez a un grand accomplissement qui vous rend heureux, et seuls les adultes ont des enfants . Lorsqu'on lui a demandé si une image sous-titrée "Quelqu'un regarde sa fille faire son premier pas" contient une personne adulte souriante, Cyc peut logiquement en déduire que la réponse est Oui et "montrer son travail" en présentant l'argument logique étape par étape en utilisant ces cinq pièces de connaissances à partir de sa base de connaissances. Ceux-ci sont formulés dans le langage CyclL , qui est basé sur le calcul des prédicats et a une syntaxe similaire à celle du langage de programmation Lisp .

En 2008, les ressources Cyc ont été mappées sur de nombreux articles de Wikipédia . Cyc est actuellement connecté à Wikidata . Les plans futurs peuvent connecter Cyc à la fois à DBpedia et à Freebase .

Une grande partie du travail actuel de Cyc continue d'être de l' ingénierie des connaissances , représentant des faits sur le monde à la main et mettant en œuvre des mécanismes d'inférence efficaces sur ces connaissances. Cependant, de plus en plus, le travail chez Cycorp consiste à donner au système Cyc la capacité de communiquer avec les utilisateurs finaux en langage naturel et d'aider au processus de formation continue des connaissances via l'apprentissage automatique et la compréhension du langage naturel . Un autre grand effort de Cycorp consiste à créer une suite d' outils d' ingénierie ontologique alimentés par Cyc pour abaisser la barre à l'entrée pour que les individus puissent contribuer, éditer, parcourir et interroger Cyc.

Comme de nombreuses entreprises, Cycorp a l'ambition d'utiliser le traitement du langage naturel de Cyc pour analyser l'ensemble d'Internet afin d'extraire des données structurées ; contrairement à tous les autres, il est capable de faire appel au système Cyc lui-même pour agir comme un biais inductif et comme un juge d' ambiguïté , de métaphore et d' ellipse . Il existe peu ou pas d'études de référence systématiques sur les performances de Cyc.

Base de connaissances

Les noms de concept dans Cyc sont des termes ou des constantes de CycL . Les constantes commencent par un "#$" facultatif et sont sensibles à la casse. Il existe des constantes pour :

Éléments individuels appelés individus , tels que #$BillClinton ou #$France.
Collections , telles que #$Tree-ThePlant (contenant tous les arbres) ou #$EquivalenceRelation (contenant toutes les relations d'équivalence ). Un membre d'une collection est appelé une instance de cette collection.
Fonctions , qui produisent de nouveaux termes à partir de termes donnés. Par exemple, #$FruitFn, lorsqu'il est fourni avec un argument décrivant un type (ou une collection) de plantes, renverra la collection de ses fruits. Par convention, les constantes de fonction commencent par une lettre majuscule et se terminent par la chaîne "Fn".
Fonctions de vérité , qui peuvent s'appliquer à un ou plusieurs autres concepts et retourner vrai ou faux. Par exemple, #$siblings est la relation fraternelle, true si les deux arguments sont frères. Par convention, les constantes de la fonction de vérité commencent par une lettre minuscule. Les fonctions de vérité peuvent être décomposées en connecteurs logiques (tels que #$and, #$or, #$not, #$implies), quantifiers (#$forAll, #$thereExists, etc.) et prédicats .

Deux prédicats binaires importants sont #$isa et #$genls. Le premier décrit qu'un élément est une instance d'une collection, le second qu'une collection est une sous-collection d'une autre. Les faits sur les concepts sont affirmés à l'aide de certaines phrases CyclL . Les prédicats sont écrits avant leurs arguments, entre parenthèses :

(#$isa #$BillClinton #$UnitedStatesPresident)

"Bill Clinton appartient à la collection des présidents américains."

(#$genls #$Tree-ThePlant #$Plant)

"Tous les arbres sont des plantes."

(#$capitalCity #$France #$Paris)

"Paris est la capitale de la France."

Les phrases peuvent également contenir des variables, des chaînes commençant par "?". Ces phrases sont appelées « règles ». Une règle importante affirmée à propos du prédicat #$isa se lit comme suit :

(#$implies
   (#$and
     (#$isa ?OBJ ?SUBSET)
     (#$genls ?SUBSET ?SUPERSET))
   (#$isa ?OBJ ?SUPERSET))

"Si OBJ est une instance de la collection SUBSET et SUBSET est une sous-collection de SUPERSET , alors OBJ est une instance de la collection SUPERSET". Un autre exemple typique est

(#$relationAllExists #$biologicalMother #$ChordataPhylum #$FemaleAnimal)

ce qui signifie que pour chaque instance de la collection #$ChordataPhylum (c'est-à-dire pour chaque chordé ), il existe un animal femelle (instance de #$FemaleAnimal), qui est sa mère (décrite par le prédicat #$biologicalMother).

La base de connaissances est divisée en microthéories (Mt), collections de concepts et de faits se rapportant généralement à un domaine particulier de la connaissance. Contrairement à la base de connaissances dans son ensemble, chaque microthéorie doit être exempte de contradictions monotones . Chaque microthéorie est un objet de première classe dans l'ontologie Cyc ; il a un nom qui est une constante régulière ; les constantes de microthéorie contiennent la chaîne "Mt" par convention. Un exemple est #$MathMt, la microthéorie contenant des connaissances mathématiques. Les microthéories peuvent hériter les unes des autres et sont organisées en hiérarchie : une spécialisation de #$MathMt est #$GeometryGMt, la microthéorie sur la géométrie.

Moteur d'inférence

Un moteur d'inférence est un programme informatique qui essaie d'obtenir des réponses à partir d'une base de connaissances. Le moteur d'inférence Cyc effectue une déduction logique générale (y compris le modus ponens , le modus tollens , la quantification universelle et la quantification existentielle ). Il effectue également un raisonnement inductif , un apprentissage automatique statistique et un apprentissage automatique symbolique, et un raisonnement abductif (mais bien sûr avec parcimonie et en utilisant la base de connaissances existante comme filtre et guide).

Versions

OpenCyc

La première version d'OpenCyc est sortie au printemps 2002 et ne contenait que 6 000 concepts et 60 000 faits. La base de connaissances a été publiée sous la licence Apache . Cycorp a déclaré son intention de publier OpenCyc sous des licences parallèles et illimitées pour répondre aux besoins de ses utilisateurs. Le CycL interprète et SUBL (le programme qui permet aux utilisateurs de naviguer et de modifier la base de données ainsi que pour tirer des conclusions) a été libéré gratuitement, mais seulement en tant que binaire, sans le code source. Il a été rendu disponible pour Linux et Microsoft Windows . Le projet open source Texai a publié le contenu compatible RDF extrait d'OpenCyc. Une version d'OpenCyc, 4.0, a été publiée en juin 2012. OpenCyc 4.0 incluait une grande partie de l'ontologie Cyc de l'époque, contenant des centaines de milliers de termes, ainsi que des millions d'assertions reliant les termes les uns aux autres ; cependant, ce sont principalement des affirmations taxonomiques, pas les règles complexes disponibles dans Cyc. La base de connaissances OpenCyc 4.0 contenait 239 000 concepts et 2 093 000 faits.

L'objectif principal de la sortie d'OpenCyc était d'aider les chercheurs en IA à comprendre ce qui manquait dans ce qu'ils appellent maintenant les ontologies et les graphes de connaissances . Il est utile et important d'avoir des concepts correctement taxonomisés comme personne, nuit, sommeil, couché, réveil, heureux, etc., mais ce qui manque dans le contenu OpenCyc à propos de ces termes, mais présent dans le contenu Cyc KB, ce sont les différentes règles de pouce que la plupart d'entre nous partagent à propos de ces termes : que (par défaut, dans le ModernWesternHumanCultureMt) chaque personne dort la nuit, dort allongé, peut être réveillé, n'est pas content d'être réveillé, et ainsi de suite. Ce point ne nécessite pas de versions continuellement mises à jour d'OpenCyc, donc, à partir de 2017, OpenCyc n'est plus disponible.

RechercheCycle

En juillet 2006, Cycorp a publié gratuitement l' exécutable de ResearchCyc 1.0, une version de Cyc destinée à la communauté des chercheurs. (ResearchCyc était en phase de développement bêta pendant toute l'année 2004 ; une version bêta a été publiée en février 2005.) En plus des informations taxonomiques contenues dans OpenCyc, ResearchCyc inclut beaucoup plus de connaissances sémantiques (c'est-à-dire des faits supplémentaires et des règles empiriques) impliquant les concepts de sa base de connaissances ; il comprend également un grand lexique, des outils d'analyse et de génération en anglais et des interfaces Java pour l'édition et l'interrogation des connaissances. De plus, il contient un système d' intégration de données basé sur une ontologie . À partir de 2017, des versions régulières de ResearchCyc ont continué à apparaître, avec 600 groupes de recherche utilisant des licences dans le monde entier sans frais à des fins de recherche non commerciales. Depuis décembre 2019, ResearchCyc n'est plus pris en charge. Cycorp prévoit d'améliorer et de réviser les outils pour les développeurs externes au cours des prochaines années.

Applications

Il y a eu plus d'une centaine d'applications réussies de Cyc; Voici quelques exemples dissemblables entre eux : -

Gestionnaire/Intégrateur du Thésaurus des Termes Pharmaceutiques

Pendant plus d'une décennie, Glaxo a utilisé Cyc pour intégrer semi-automatiquement tous les grands thésaurus (des centaines de milliers de termes) de termes de l'industrie pharmaceutique qui reflètent des usages différents selon les entreprises, les pays, les années et les sous-industries. Cette tâche d'intégration d'ontologies nécessite une connaissance du domaine, une connaissance sémantique superficielle, mais aussi une connaissance et un raisonnement arbitrairement profonds du bon sens. Le vocabulaire pharmaceutique varie selon les pays, les (sous-)industries, les entreprises, les départements et les décennies. Par exemple, qu'est-ce qu'un gel pak ? Quel est le « nom de rue » du chlorhydrate de ranitidine ? Chacun de ces n vocabulaires contrôlés est une ontologie d'environ 300 000 termes. Les chercheurs de Glaxo doivent émettre une requête dans leur vocabulaire actuel , la traduire en un « véritable sens » neutre, puis la transformer dans la direction opposée pour trouver des correspondances potentielles avec des documents dont chacun a été écrit pour se conformer à un vocabulaire connu particulier. . Ils avaient utilisé un grand personnel pour le faire manuellement. Cyc est utilisé comme l'interlingua universel capable de représenter l'union de tous les termes « vrais sens », et capable de représenter les 300k transformations entre chacun de ces vocabulaires contrôlés et Cyc, convertissant ainsi un problème n² en un problème linéaire sans introduire le sorte habituelle de « jeu téléphonique » d'atténuation du sens. De plus, la création de chacun de ces 300 000 mappages pour chaque thésaurus est effectuée de manière largement automatisée, par Cyc.

Base de connaissances sur le terrorisme

La base de connaissances complète sur le terrorisme était une application de Cyc en développement qui tentait de contenir en fin de compte toutes les connaissances pertinentes sur les groupes "terroristes", leurs membres, leurs dirigeants, leur idéologie, leurs fondateurs, leurs sponsors, leurs affiliations, leurs installations, leurs emplacements, leurs finances, leurs capacités, leurs intentions, leurs comportements. , des tactiques et des descriptions complètes d'événements terroristes spécifiques. Les connaissances sont stockées sous forme d'énoncés dans une logique mathématique, adaptés à la compréhension et au raisonnement informatiques.

Fondation de la clinique de Cleveland

La Cleveland Clinic a utilisé Cyc pour développer une interface de requête en langage naturel d'informations biomédicales, couvrant des décennies d'informations sur les chirurgies cardiothoraciques. Une requête est analysée dans un ensemble de fragments CycL (logique d'ordre supérieur) avec des variables ouvertes (par exemple, "cette question parle d'une personne qui a développé une infection à endocardite", "cette question parle d'un sous-ensemble de patients de la Cleveland Clinic qui y a été opéré en 2009", etc.) ; puis diverses contraintes sont appliquées (connaissance du domaine médical, bon sens, pragmatique du discours, syntaxe) pour voir comment ces fragments pourraient éventuellement s'emboîter dans une requête formelle sémantiquement significative ; de manière significative, dans la plupart des cas, il existe exactement une et une seule manière d'incorporer et d'intégrer ces fragments. L'intégration des fragments implique (i) de décider quelles variables ouvertes dans quels fragments représentent réellement la même variable, et (ii) pour toutes les variables finales, de décider quel ordre et quelle portée de quantification cette variable devrait avoir, et quel type (universel ou existentiel) . Cette requête logique (CycL) est ensuite convertie en une requête SPARQL qui est transmise au CCF SemanticDB qui est son lac de données .

MathCraft

Une application Cyc vise à aider les élèves à faire des mathématiques au niveau de la 6e année, en les aidant à comprendre beaucoup plus profondément ce sujet. Il est basé sur l'expérience que nous avons souvent pensé que nous comprenions quelque chose, mais que nous ne l'avons vraiment compris qu'après avoir dû l'expliquer ou l'enseigner à quelqu'un d'autre. Contrairement à presque tous les autres logiciels éducatifs, où l'ordinateur joue le rôle de l'enseignant, cette application de Cyc, appelée MathCraft, fait jouer à Cyc le rôle d'un camarade de classe qui est toujours un peu plus confus que vous, l'utilisateur, sur le sujet. . Le rôle de l'utilisateur est d'observer l'avatar de Cyc et de lui donner des conseils, de corriger ses erreurs, de l'encadrer, de lui faire voir ce qu'il fait mal, etc. Comme l'utilisateur donne de bons conseils, Cyc permet à l'avatar de faire moins d'erreurs de ce type , par conséquent, du point de vue de l'utilisateur, il semble que l'utilisateur vient de lui apprendre quelque chose avec succès. Il s'agit d'une variante de l' apprentissage par l'enseignement .

des reproches

Le projet Cyc a été décrit comme « l'une des entreprises les plus controversées de l'histoire de l'intelligence artificielle ». Catherine Havasi , PDG de Luminoso, dit que Cyc est le projet prédécesseur de Watson d' IBM . Le scientifique en apprentissage automatique Pedro Domingos qualifie le projet d'« échec catastrophique » pour plusieurs raisons, notamment la quantité infinie de données nécessaires pour produire des résultats viables et l'incapacité pour Cyc d'évoluer par lui-même.

Robin Hanson , professeur d'économie à l'université George Mason, donne une analyse plus équilibrée :

Bien entendu, le projet CYC est critiquable sur ses nombreux choix particuliers. Les gens se sont plaints de ses représentations logiques et linguistiques, de sa sélection de cas prototypiques à partir desquels construire (par exemple, des articles d'encyclopédie), de son accent sur la réponse plutôt que sur l'action, de la fréquence à laquelle il reconstruit par rapport au maintien des systèmes hérités, et sur le fait d'être privé par rapport à tout publier. Mais tout grand projet comme celui-ci produirait de telles disputes, et il n'est pas évident qu'aucun de ses choix n'ait été sérieusement erroné. Ils devaient commencer quelque part et, à mon avis, ils ont maintenant rassemblé une base de connaissances avec une taille, une portée et une intégration vraiment spectaculaires. D'autres architectures fonctionnent peut-être mieux, mais si connaître des lots est aussi important que Lenat le pense, je m'attendrais à ce que de sérieuses tentatives d'IA importent les connaissances de CYC, les traduisant en une nouvelle représentation. Aucune autre source n'a la taille, la portée et l'intégration de CYC.

Un sentiment similaire a été exprimé par Marvin Minsky : "Malheureusement, les stratégies les plus populaires parmi les chercheurs en IA dans les années 1980 sont arrivées à une impasse", a déclaré Minsky. Les soi-disant « systèmes experts », qui émulaient l'expertise humaine dans des domaines étroitement définis comme le droit et la médecine, pourraient faire correspondre les requêtes des utilisateurs aux diagnostics, articles et résumés pertinents, mais ils ne pourraient pas apprendre les concepts que la plupart des enfants connaissent au moment où ils sont 3 ans. "Pour chaque type de problème différent", a déclaré Minsky, "la construction de systèmes experts a dû recommencer, car ils n'ont pas accumulé de connaissances de bon sens." Selon Minsky, un seul chercheur s'est engagé dans la tâche colossale de construire un système de raisonnement complet et de bon sens. Douglas Lenat, à travers son projet Cyc, a dirigé l'entrée ligne par ligne de plus d'un million de règles dans une base de connaissances de bon sens."

Gary Marcus , professeur de psychologie et de sciences neuronales à l'Université de New York et cofondateur d'une société d'intelligence artificielle appelée Geometric Intelligence, déclare que « cela représente une approche très différente de tous les trucs d'apprentissage en profondeur qui ont fait l'actualité. » Ceci est cohérent avec la position de Doug Lenat selon laquelle "Parfois, le vernis de l'intelligence ne suffit pas".

Stephen Wolfram écrit :

Aux débuts de l'intelligence artificielle, les discussions sur la « représentation de la connaissance » étaient nombreuses, avec des approches basées tantôt sur la grammaire du langage naturel, la structure de la logique des prédicats ou le formalisme des bases de données. Très peu de projets à grande échelle ont été tentés (le Cyc de Doug Lenat étant un contre-exemple notable).

Marcus écrit :

Le domaine pourrait bien bénéficier si les CYC étaient systématiquement décrits et évalués. Si CYC a résolu une fraction importante du raisonnement de bon sens, il est alors essentiel de le savoir, à la fois comme outil utile et comme point de départ pour de nouvelles recherches. Si CYC a rencontré des difficultés, il serait utile de tirer les leçons des erreurs commises. Si CYC est totalement inutile, alors les chercheurs peuvent au moins cesser de se demander s'ils réinventent la roue.

Toutes les quelques années depuis qu'il a commencé à publier (1993), il y a un nouvel article de Wired Magazine sur Cyc, certains positifs et certains négatifs (y compris un numéro qui contenait un de chaque).

Employés notables

Ceci est une liste de certaines des personnes notables qui travaillent ou ont travaillé sur Cyc alors qu'il s'agissait d'un projet au MCC (où Cyc a été lancé pour la première fois) ou Cycorp.

Voir également

Les références

Lectures complémentaires

Alan Belasco et al. (2004). « Représenter efficacement les lacunes dans les connaissances » . Dans : D. Karagiannis, U. Reimer (Eds.) : Aspects pratiques de la gestion des connaissances, Actes du PAKM 2004, Vienne, Autriche, 2-3 décembre 2004 . Springer-Verlag, Berlin Heidelberg.
Elisa Bertino , Gian Piero & BC Zarria (2001). Systèmes de base de données intelligents . Addison-Wesley Professionnel.
John Cabral et autres (2005). "Convertir la méta-connaissance sémantique en biais inductif" . Dans : Actes de la 15e Conférence internationale sur la programmation logique inductive . Bonn, Allemagne, août 2005.
Jon Curtis et al. (2005). "Sur l'utilisation efficace de Cyc dans un système de réponse aux questions" . Dans : Articles de l'atelier IJCAI sur la connaissance et le raisonnement pour répondre aux questions . Édimbourg, Écosse : 2005.
Chris Deaton et al. (2005). « La base de connaissances complète sur le terrorisme à Cyc » . Dans : Actes de la Conférence internationale de 2005 sur l'analyse du renseignement, McLean, Virginie, mai 2005.
Kenneth Forbus et al. (2005) . "Combinant l'analogie, la recherche d'informations intelligente et l'intégration des connaissances pour l'analyse : un rapport préliminaire" . Dans : Actes de la Conférence internationale 2005 sur l'analyse du renseignement , McLean, Virginie, mai 2005
douglas foxvog (2010), "Cyc". Dans : Théorie et applications de l'ontologie : Applications informatiques », Springer .
Fritz Lehmann et d. foxvog (1998), " Mettre de la chair sur les os : problèmes qui se posent dans la création de bases de connaissances anatomiques avec des structures relationnelles riches ". Dans : Partage des connaissances à travers les systèmes basés sur les connaissances biologiques et médicales , AAAI .
Douglas Lenat et RV Guha (1990). Construire de grands systèmes à base de connaissances : représentation et inférence dans le projet Cyc . Addison-Wesley. ISBN 0-201-51752-3 .
James Maîtres (2002). "Intégration de sources de connaissances structurées et ses applications à la fusion d'informations" . Dans : Actes de la cinquième conférence internationale sur la fusion de l'information . Annapolis, MD, juillet 2002.
James Masters et Z. Güngördü (2003). . « Intégration de sources de connaissances structurées : un rapport d'étape » Dans : Intégration de systèmes multi-agents à forte intensité de connaissances . Cambridge, Massachusetts, États-Unis, 2003.
Cynthia Matuszek et al. (2006). "Une introduction à la syntaxe et au contenu de Cyc." . Dans : Proc. du Symposium du printemps 2006 de l'AAAI sur la formalisation et la compilation des connaissances de base et leurs applications à la représentation des connaissances et à la réponse aux questions . Stanford, 2006
Cynthia Matuszek et al. (2005) . « À la recherche du bon sens : Remplir Cyc à partir du Web » . Dans : Actes de la vingtième conférence nationale sur l'intelligence artificielle . Pittsburgh, Pennsylvanie, juillet 2005.
Tom O'Hara et al. (2003). "Induire des critères pour les mappages lexicaux de nom de masse en utilisant la base de connaissances Cyc et son extension à WordNet" . Dans : Actes du cinquième atelier international sur la sémantique computationnelle . Tilbourg, 2003.
Fabrizio Morbini et Lenhart Schubert (2009). « Évaluation d'EPILOG : un raisonneur pour la logique épisodique » . Université de Rochester, conférence Commonsense '09 (décrit la bibliothèque de Cyc d'environ 1600 « tests Commonsense »)
Kathy Panton et al. (2002). "Formation des connaissances et dialogue à l'aide de l'ensemble d'outils KRAKEN" . Dans : Dix - huitième Conférence nationale sur l'intelligence artificielle . Edmonton, Canada, 2002.
Deepak Ramachandran P. Reagan & K. Goolsbey (2005). "ResearchCyc de premier ordre : expressivité et efficacité dans une ontologie de bon sens" . Dans : Articles de l'atelier AAAI sur les contextes et les ontologies : théorie, pratique et applications . Pittsburgh, Pennsylvanie, juillet 2005.
Stephen Reed et D. Lenat (2002). "Mappage des ontologies dans Cyc" . Dans : AAAI 2002 Conference Workshop sur les ontologies pour le Web sémantique . Edmonton, Canada, juillet 2002.
Benjamin Rode et al. (2005). "Vers un modèle de récupération de modèle dans les données relationnelles" . Dans : Actes de la Conférence internationale de 2005 sur l'analyse du renseignement . McLean, Virginie, mai 2005.
Dave Schneider et al. (2005). "Rassembler et gérer des faits pour l'analyse du renseignement" . Dans: Actes de la Conférence internationale de 2005 sur l'analyse du renseignement". McLean, Virginie, mai 2005.
Schneider, D., & Witbrock, MJ (2015, mai). " Grammaire de construction sémantique : combler le fossé NL/Logique " Dans les Actes de la 24e Conférence internationale sur le World Wide Web (pp. 673-678).
Blake Shepard et al. (2005). « Une approche basée sur les connaissances de la sécurité des réseaux : application de Cyc dans le domaine de l'évaluation des risques de réseau » . Dans : Actes de la dix-septième conférence sur les applications innovantes de l'intelligence artificielle . Pittsburgh, Pennsylvanie, juillet 2005.
Nick Siegel et al. (2004). « Architecture d'agents : combiner les forces du génie logiciel et des systèmes cognitifs » . Dans : Articles de l'atelier AAAI sur les architectures d'agents intelligents : Combiner les forces du génie logiciel et des systèmes cognitifs . Rapport technique WS-04-07, p. 74-79. Menlo Park, Californie : AAAI Press, 2004.
Nick Siegel et al. (2005). Génération d'hypothèses et assemblage de preuves pour l'analyse du renseignement : Application Nooscape de Cycorp . Dans les actes de la conférence internationale de 2005 sur l'analyse du renseignement, McLean, Virginie, mai 2005.
Michael Witbrock et al. (2002). "Un système de dialogue interactif pour l'acquisition de connaissances dans Cyc" . Dans : Actes de la dix-huitième Conférence internationale conjointe sur l'intelligence artificielle . Acapulco, Mexique, 2003.
Michael Witbrock et al. (2004). "Annotation OWL automatisée assistée par une large base de connaissances" . Dans : Notes d'atelier de l'atelier 2004 sur le balisage des connaissances et l'annotation sémantique à la 3e conférence internationale du Web sémantique ISWC2004 . Hiroshima, Japon, novembre 2004, pp. 71-80.
Michael Witbrock et al. (2005). "La connaissance engendre la connaissance: étapes vers l'acquisition de connaissances assistée dans Cyc" . Dans : Articles du Symposium de printemps 2005 de l'AAAI sur la collecte de connaissances des contributeurs bénévoles (KCVC) . p. 99-105. Stanford, Californie, mars 2005.
William Jarrold (2001). "Validation de l'intelligence dans les grands systèmes à base de règles avec le bon sens" . « Validation basée sur un modèle de l'intelligence : articles du Symposium AAAI 2001 » (Rapport technique AAAI SS-01-04).
Guillaume Jarrold. (2003). Utiliser une ontologie pour évaluer une grande ontologie basée sur des règles : théorie et pratique . {\em Performance Metrics for Intelligent Systems PerMIS '03} (NIST Special Publication 1014).

Liens externes

Page d'accueil de Cycorp

Languages

In other projects