Connexionnisme - Connectionism

Le connexionnisme est une approche dans le domaine des sciences cognitives qui espère expliquer les phénomènes mentaux à l' aide de réseaux de neurones artificiels (ANN). Le connexionnisme présente une théorie cognitive basée sur une activité de signal distribuée se produisant simultanément via des connexions qui peuvent être représentées numériquement, où l'apprentissage se produit en modifiant les forces de connexion en fonction de l'expérience.

Certains avantages de l'approche connexionniste incluent son applicabilité à un large éventail de fonctions, une approximation structurelle des neurones biologiques, de faibles exigences en matière de structure innée et une capacité de dégradation gracieuse . Certains inconvénients incluent la difficulté à déchiffrer la façon dont les ANN traitent l'information, ou rendent compte de la compositionnalité des représentations mentales, et une difficulté résultante à expliquer les phénomènes à un niveau supérieur.

Le succès des réseaux d' apprentissage en profondeur au cours de la dernière décennie a considérablement accru la popularité de cette approche, mais la complexité et l'échelle de ces réseaux ont entraîné des problèmes d'interprétabilité accrus . Le connexionnisme est considéré par beaucoup comme une alternative aux théories classiques de l'esprit basées sur le calcul symbolique, mais la mesure dans laquelle les deux approches sont compatibles a fait l'objet de nombreux débats depuis leur création.

Modèle connexionniste (ANN) avec une couche cachée

Principes de base

Le principe connexionniste central est que les phénomènes mentaux peuvent être décrits par des réseaux interconnectés d'unités simples et souvent uniformes. La forme des connexions et les unités peuvent varier d'un modèle à l'autre. Par exemple, les unités du réseau pourraient représenter des neurones et les connexions pourraient représenter des synapses , comme dans le cerveau humain .

Activation d'épandage

Dans la plupart des modèles connexionnistes, les réseaux changent avec le temps. Un aspect étroitement lié et très courant des modèles connexionnistes est l' activation . À tout moment, une unité du réseau a une activation, qui est une valeur numérique destinée à représenter un aspect de l'unité. Par exemple, si les unités du modèle sont des neurones, l'activation pourrait représenter la probabilité que le neurone génère un pic de potentiel d'action . L'activation s'étend généralement à toutes les autres unités qui y sont connectées. La propagation de l'activation est toujours une caractéristique des modèles de réseaux de neurones, et elle est très courante dans les modèles connexionnistes utilisés par les psychologues cognitifs .

Les réseaux de neurones

Les réseaux de neurones sont de loin le modèle connexionniste le plus couramment utilisé aujourd'hui. Bien qu'il existe une grande variété de modèles de réseaux de neurones, ils suivent presque toujours deux principes de base concernant l'esprit :

  1. Tout état mental peut être décrit comme un vecteur de dimension (N) de valeurs d'activation numériques sur les unités neuronales d'un réseau.
  2. La mémoire est créée en modifiant la force des connexions entre les unités neuronales. Les forces de connexion, ou "poids", sont généralement représentées sous la forme d'une matrice N×N .

La plupart de la variété parmi les modèles de réseaux neuronaux provient de :

  • Interprétation des unités : Les unités peuvent être interprétées comme des neurones ou des groupes de neurones.
  • Définition de l'activation : L'activation peut être définie de différentes manières. Par exemple, dans une machine de Boltzmann , l'activation est interprétée comme la probabilité de générer un pic de potentiel d'action, et est déterminée via une fonction logistique sur la somme des entrées d'une unité.
  • Algorithme d'apprentissage : Différents réseaux modifient leurs connexions différemment. En général, tout changement défini mathématiquement des poids de connexion au fil du temps est appelé « algorithme d'apprentissage ».

Les connexionnistes s'accordent à dire que les réseaux de neurones récurrents ( réseaux dirigés dans lesquels les connexions du réseau peuvent former un cycle dirigé) sont un meilleur modèle du cerveau que les réseaux de neurones à action directe (réseaux dirigés sans cycles, appelés DAG ). De nombreux modèles connexionnistes récurrents intègrent également la théorie des systèmes dynamiques . De nombreux chercheurs, comme le connexionniste Paul Smolensky , ont fait valoir que les modèles connexionnistes évolueront vers entièrement continu de grande dimension,, non linéaire , systèmes dynamiques approches.

Réalisme biologique

Le travail connexionniste en général n'a pas besoin d'être biologiquement réaliste et souffre donc d'un manque de plausibilité neuroscientifique. Cependant, la structure des réseaux de neurones est dérivée de celle des neurones biologiques , et ce parallèle dans la structure de bas niveau est souvent considéré comme un avantage du connexionnisme dans la modélisation des structures cognitives par rapport à d'autres approches. Un domaine où les modèles connexionnistes sont considérés comme biologiquement invraisemblables concerne les réseaux de propagation d'erreurs qui sont nécessaires pour soutenir l'apprentissage, mais la propagation d'erreurs peut expliquer une partie de l'activité électrique générée biologiquement observée au niveau du cuir chevelu dans des potentiels liés à des événements tels que le N400 et le P600 , et cela fournit un certain soutien biologique à l'une des hypothèses clés des procédures d'apprentissage connexionnistes.

Apprentissage

Les poids dans un réseau de neurones sont ajustés en fonction d'une règle ou d'un algorithme d' apprentissage , tel que l' apprentissage Hebbian . Ainsi, les connexionnistes ont créé de nombreuses procédures d'apprentissage sophistiquées pour les réseaux de neurones. L'apprentissage implique toujours de modifier les poids de connexion. En général, ceux-ci impliquent des formules mathématiques pour déterminer le changement de poids lorsqu'on leur donne des ensembles de données constitués de vecteurs d'activation pour un sous-ensemble d'unités neurales. Plusieurs travaux se sont concentrés sur la conception de méthodes d'enseignement-apprentissage basées sur le connexionnisme.

En formalisant l'apprentissage de cette manière, les connexionnistes disposent de nombreux outils. Une stratégie très courante dans les méthodes d'apprentissage connexionnistes consiste à incorporer une descente de gradient sur une surface d'erreur dans un espace défini par la matrice de poids. Tout apprentissage de descente de gradient dans les modèles connexionnistes implique de changer chaque poids par la dérivée partielle de la surface d'erreur par rapport au poids. La rétropropagation (BP), rendue populaire pour la première fois dans les années 1980, est probablement l'algorithme de descente de gradient connexionniste le plus connu aujourd'hui.

Le connexionnisme peut être attribué à des idées vieilles de plus d'un siècle, qui n'étaient guère plus que de la spéculation jusqu'au milieu ou à la fin du 20e siècle.

Traitement distribué parallèle

L'approche connexionniste qui prévaut aujourd'hui était à l'origine connue sous le nom de traitement distribué parallèle (PDP). C'était une approche de réseau de neurones artificiels qui soulignait la nature parallèle du traitement neuronal et la nature distribuée des représentations neuronales. Il a fourni un cadre mathématique général dans lequel les chercheurs peuvent opérer. Le cadre comportait huit aspects principaux :

  • Un ensemble d' unités de traitement , représenté par un ensemble d'entiers.
  • Une activation pour chaque unité, représentée par un vecteur de fonctions dépendantes du temps .
  • Une fonction de sortie pour chaque unité, représentée par un vecteur de fonctions sur les activations.
  • Un modèle de connectivité entre les unités, représenté par une matrice de nombres réels indiquant la force de la connexion.
  • Une règle de propagation répartissant les activations via les connexions, représentée par une fonction sur la sortie des unités.
  • Une règle d'activation pour combiner des entrées à une unité pour déterminer sa nouvelle activation, représentée par une fonction sur l'activation et la propagation en cours.
  • Une règle d'apprentissage pour modifier les connexions en fonction de l'expérience, représentée par un changement des poids en fonction d'un nombre quelconque de variables.
  • Un environnement qui fournit au système une expérience, représenté par des ensembles de vecteurs d'activation pour un sous - ensemble d'unités.

Une grande partie des recherches qui ont conduit au développement du PDP ont été effectuées dans les années 1970, mais le PDP est devenu populaire dans les années 1980 avec la sortie des livres Parallel Distributed Processing: Explorations in the Microstructure of Cognition - Volume 1 (foundations) et Volume 2 (Modèles psychologiques et biologiques) , par James L. McClelland , David E. Rumelhart et le PDP Research Group. Les livres sont maintenant considérés comme des œuvres connexionnistes séminales, et il est maintenant courant d'assimiler pleinement PDP et connexionnisme, bien que le terme « connexionnisme » ne soit pas utilisé dans les livres. Suivant le modèle PDP, les chercheurs ont théorisé des systèmes basés sur les principes du traitement distribué perpendiculaire (PDP).

Travail antérieur

Les racines directes de PDP étaient les théories du perceptron de chercheurs tels que Frank Rosenblatt des années 1950 et 1960. Mais les modèles de perceptrons ont été rendus très impopulaires par le livre Perceptrons de Marvin Minsky et Seymour Papert , publié en 1969. Il a démontré les limites des types de fonctions que les perceptrons à couche unique (pas de couche cachée) peuvent calculer, montrant que même des fonctions simples comme la disjonction exclusive (XOR) n'a pas pu être gérée correctement. Les livres PDP ont surmonté cette limitation en montrant que les réseaux de neurones non linéaires à plusieurs niveaux étaient beaucoup plus robustes et pouvaient être utilisés pour une vaste gamme de fonctions.

De nombreux chercheurs antérieurs ont préconisé des modèles de style connexionniste, par exemple dans les années 1940 et 1950, Warren McCulloch et Walter Pitts ( MP neurone ), Donald Olding Hebb et Karl Lashley . McCulloch et Pitts ont montré comment les systèmes neuronaux pouvaient mettre en œuvre la logique du premier ordre : leur article classique "A Logical Calculus of Ideas Immanent in Nervous Activity" (1943) est important dans ce développement ici. Ils ont été influencés par l'important travail de Nicolas Rashevsky dans les années 1930. Hebb a grandement contribué aux spéculations sur le fonctionnement neuronal et a proposé un principe d' apprentissage , l' apprentissage Hebbian , qui est encore utilisé aujourd'hui. Lashley a plaidé pour des représentations distribuées en raison de son échec à trouver quoi que ce soit comme un engramme localisé au cours d'années d' expériences sur les lésions .

Le connexionnisme en dehors du PDP

Bien que le PDP soit la forme dominante du connexionnisme, d'autres travaux théoriques devraient également être classés comme connexionnistes.

De nombreux principes connexionnistes remontent aux premiers travaux de psychologie , comme celui de William James . Les théories psychologiques basées sur la connaissance du cerveau humain étaient à la mode à la fin du XIXe siècle. Dès 1869, le neurologue John Hughlings Jackson a plaidé pour des systèmes distribués à plusieurs niveaux. Suivant cette piste, les Principes de psychologie d' Herbert Spencer , 3e édition (1872), et le Projet de Sigmund Freud pour une psychologie scientifique (composé en 1895) ont proposé des théories connexionnistes ou proto-connexionnistes. Il s'agissait plutôt de théories spéculatives. Mais au début du 20e siècle, Edward Thorndike expérimentait un apprentissage qui postulait un réseau de type connexionniste.

Friedrich Hayek a conçu indépendamment le modèle d'apprentissage des synapses Hebbian dans un article présenté en 1920 et a développé ce modèle en théorie globale du cerveau constituée de réseaux de synapses Hebbian s'intégrant dans de plus grands systèmes de cartes et de réseaux de mémoire. Le travail révolutionnaire de Hayek a été cité par Frank Rosenblatt dans son article sur le perceptron.

Une autre forme de modèle connexionniste était le cadre de réseau relationnel développé par le linguiste Sydney Lamb dans les années 1960. Les réseaux relationnels n'ont été utilisés que par les linguistes et n'ont jamais été unifiés avec l'approche PDP. En conséquence, ils sont maintenant utilisés par très peu de chercheurs.

Il existe également des modèles connexionnistes hybrides, mélangeant principalement des représentations symboliques avec des modèles de réseaux de neurones. L'approche hybride a été préconisée par certains chercheurs (comme Ron Sun ).

Débat sur le connexionnisme contre le computationalisme

Alors que le connexionnisme est devenu de plus en plus populaire à la fin des années 1980, certains chercheurs (dont Jerry Fodor , Steven Pinker et d'autres) ont réagi contre lui. Ils ont fait valoir que le connexionnisme, alors qu'il se développait, menaçait d'effacer ce qu'ils considéraient comme les progrès réalisés dans les domaines des sciences cognitives et de la psychologie par l'approche classique du computationalisme . Le computationalisme est une forme spécifique de cognitivisme qui soutient que l'activité mentale est computationnelle , c'est-à-dire que l'esprit opère en effectuant des opérations purement formelles sur des symboles, comme une machine de Turing . Certains chercheurs ont soutenu que la tendance du connexionnisme représentait un retour vers l' associationnisme et l'abandon de l'idée d'un langage de la pensée , quelque chose qu'ils considéraient comme erroné. En revanche, ces mêmes tendances ont rendu le connexionnisme attrayant pour d'autres chercheurs.

Le connexionnisme et le computationalisme n'ont pas besoin d'être en désaccord, mais le débat de la fin des années 1980 et du début des années 1990 a conduit à une opposition entre les deux approches. Tout au long du débat, certains chercheurs ont soutenu que le connexionnisme et le computationalisme sont entièrement compatibles, bien qu'un consensus total sur cette question n'ait pas été atteint. Les différences entre les deux approches sont les suivantes :

  • Les informaticiens postulent des modèles symboliques qui sont structurellement similaires à la structure cérébrale sous-jacente, tandis que les connexionnistes s'engagent dans une modélisation « de bas niveau », en essayant de s'assurer que leurs modèles ressemblent à des structures neurologiques.
  • Les calculateurs se concentrent généralement sur la structure des symboles explicites ( modèles mentaux ) et les règles syntaxiques pour leur manipulation interne, tandis que les connexionnistes se concentrent sur l'apprentissage à partir de stimuli environnementaux et le stockage de ces informations sous forme de connexions entre les neurones.
  • Les informaticiens croient que l'activité mentale interne consiste en la manipulation de symboles explicites, tandis que les connexionnistes croient que la manipulation de symboles explicites fournit un mauvais modèle d'activité mentale.
  • Les informaticiens postulent souvent des sous-systèmes symboliques spécifiques à un domaine conçus pour soutenir l'apprentissage dans des domaines spécifiques de la cognition (par exemple, le langage, l'intentionnalité, le nombre), tandis que les connexionnistes postulent un ou un petit ensemble de mécanismes d'apprentissage très généraux.

Malgré ces différences, certains théoriciens ont proposé que l'architecture connexionniste soit simplement la manière dont les cerveaux organiques implémentent le système de manipulation de symboles. Ceci est logiquement possible, car il est bien connu que les modèles connexionnistes peuvent mettre en œuvre des systèmes de manipulation de symboles du type utilisé dans les modèles computationnels, car ils doivent en effet être capables s'ils doivent expliquer la capacité humaine à effectuer des tâches de manipulation de symboles. Plusieurs modèles cognitifs combinant à la fois des architectures manipulatrices de symboles et connexionnistes ont été proposés, notamment parmi eux l' Integrated Connectionist/Symbolic Cognitive Architecture (ICS) de Paul Smolensky . Mais le débat repose sur la question de savoir si cette manipulation de symboles constitue le fondement de la cognition en général, ce n'est donc pas une justification potentielle du computationalisme. Néanmoins, les descriptions informatiques peuvent être des descriptions de haut niveau utiles de la cognition de la logique, par exemple.

Le débat était largement centré sur des arguments logiques quant à savoir si les réseaux connexionnistes pouvaient produire la structure syntaxique observée dans ce genre de raisonnement. Ceci a été réalisé plus tard en utilisant des capacités de liaison à variable rapide en dehors de celles généralement supposées dans les modèles connexionnistes.

Une partie de l'attrait des descriptions computationnelles est qu'elles sont relativement faciles à interpréter, et peuvent donc être considérées comme contribuant à notre compréhension de processus mentaux particuliers, alors que les modèles connexionnistes sont en général plus opaques, dans la mesure où ils peuvent être descriptibles uniquement dans termes très généraux (comme la spécification de l'algorithme d'apprentissage, le nombre d'unités, etc.), ou en termes inutilement bas niveau. En ce sens, les modèles connexionnistes peuvent instancier, et ainsi fournir des preuves, une large théorie de la cognition (c'est-à-dire le connexionnisme), sans représenter une théorie utile du processus particulier qui est modélisé. En ce sens, le débat pourrait être considéré comme reflétant dans une certaine mesure une simple différence dans le niveau d'analyse dans lequel des théories particulières sont formulées. Certains chercheurs suggèrent que l'écart d'analyse est la conséquence de mécanismes connexionnistes donnant lieu à des phénomènes émergents qui peuvent être descriptibles en termes informatiques.

La popularité récente des systèmes dynamiques en philosophie de l'esprit a ajouté une nouvelle perspective au débat ; certains auteurs soutiennent maintenant que toute scission entre le connexionnisme et le computationalisme est caractérisée de manière plus concluante comme une scission entre le computationalisme et les systèmes dynamiques .

En 2014, Alex Graves et d'autres de DeepMind ont publié une série d'articles décrivant une nouvelle structure de réseau de neurones profonds appelée Neural Turing Machine, capable de lire des symboles sur une bande et de stocker des symboles en mémoire. Les réseaux relationnels, un autre module Deep Network publié par DeepMind, sont capables de créer des représentations de type objet et de les manipuler pour répondre à des questions complexes. Les réseaux relationnels et les machines de Turing neuronales sont une preuve supplémentaire que le connexionnisme et le computationalisme n'ont pas besoin d'être en désaccord.

Voir également

Remarques

Les références

  • Rumelhart, DE, JL McClelland et le PDP Research Group (1986). Traitement distribué parallèle : explorations dans la microstructure de la cognition. Volume 1 : Fondations , Cambridge, Massachusetts : MIT Press , ISBN  978-0262680530
  • McClelland, JL, DE Rumelhart et le PDP Research Group (1986). Traitement distribué parallèle : explorations dans la microstructure de la cognition. Volume 2 : Modèles psychologiques et biologiques , Cambridge, Massachusetts : MIT Press, ISBN  978-0262631105
  • Pinker, Steven et Mehler, Jacques (1988). Connexions et symboles , Cambridge MA: MIT Press, ISBN  978-0262660648
  • Jeffrey L. Elman, Elizabeth A. Bates, Mark H. Johnson, Annette Karmiloff-Smith, Domenico Parisi, Kim Plunkett (1996). Repenser l'innéité : une perspective connexionniste sur le développement , Cambridge MA : MIT Press, ISBN  978-0262550307
  • Marcus, Gary F. (2001). L'esprit algébrique : intégration du connexionnisme et des sciences cognitives (apprentissage, développement et changement conceptuel) , Cambridge, Massachusetts : MIT Press, ISBN  978-0262632683
  • David A. Medler (1998). « Une brève histoire du connexionnisme » (PDF) . Enquêtes sur l'informatique neuronale . 1 : 61-101.

Liens externes

Écoutez cet article ( 19 minutes )
Icône Wikipédia parlée
Ce fichier audio a été créé à partir d'une révision de cet article datée du 26 novembre 2011 et ne reflète pas les modifications ultérieures. ( 2011-11-26 )