Apprentissage non supervisé - Unsupervised learning

L'apprentissage non supervisé est un type d' apprentissage automatique dans lequel l'algorithme ne dispose d'aucune étiquette ou score pré-assigné pour les données d'entraînement. En conséquence, les algorithmes d'apprentissage non supervisé doivent d'abord découvrir eux-mêmes tous les modèles naturels dans cet ensemble de données d'apprentissage. Les exemples courants incluent le clustering , où l'algorithme regroupe automatiquement ses exemples d'entraînement en catégories avec des caractéristiques similaires, et l' analyse en composantes principales , où l'algorithme trouve des moyens de compresser l'ensemble de données d'entraînement en identifiant les caractéristiques les plus utiles pour distinguer les différents exemples d'entraînement, et jeter le reste. Cela contraste avec l' apprentissage supervisé dans lequel les données d'apprentissage incluent des étiquettes de catégorie pré-assignées (souvent par un humain, ou à partir de la sortie d'un algorithme de classification de non-apprentissage). Les autres niveaux intermédiaires du spectre de supervision incluent l' apprentissage par renforcement , où seuls des scores numériques sont disponibles pour chaque exemple de formation au lieu de balises détaillées, et l' apprentissage semi-supervisé où seule une partie des données de formation a été balisée.

Les avantages de l'apprentissage non supervisé incluent une charge de travail minimale pour préparer et auditer l'ensemble de formation, contrairement aux techniques d'apprentissage supervisé où une quantité considérable de travail humain expert est nécessaire pour attribuer et vérifier les balises initiales, et une plus grande liberté pour identifier et exploiter des modèles auparavant non détectés. cela n'a peut-être pas été remarqué par les "experts". Cela se fait souvent au prix de techniques non supervisées nécessitant une plus grande quantité de données d'entraînement et convergeant plus lentement vers des performances acceptables, des exigences de calcul et de stockage accrues pendant le processus exploratoire et une susceptibilité potentiellement plus grande aux artefacts ou aux anomalies dans les données d'entraînement qui pourraient être manifestement non pertinents ou reconnus comme erronés par un humain, mais se voient attribuer une importance excessive par l'algorithme d'apprentissage non supervisé.

Approches

Les familles courantes d'algorithmes utilisées dans l'apprentissage non supervisé comprennent : (1) le regroupement, (2) la détection d'anomalies, (3) les réseaux de neurones (notez que tous les réseaux de neurones ne sont pas non supervisés ; ils peuvent être entraînés par supervisé, non supervisé, semi-supervisé ou méthodes de renforcement) et (4) modèles à variables latentes.

Méthode des instants

Une approche statistique pour l'apprentissage non supervisé est la méthode des moments . Dans la méthode des moments, les paramètres inconnus d'intérêt dans le modèle sont liés aux moments d'une ou plusieurs variables aléatoires. Ces moments sont estimés empiriquement à partir des échantillons de données disponibles et utilisés pour calculer les distributions de valeurs les plus probables pour chaque paramètre. La méthode des moments s'avère efficace pour apprendre les paramètres des modèles à variables latentes , où, en plus des variables observées disponibles dans les ensembles de données d'apprentissage et d'entrée, un certain nombre de variables latentes non observées sont également supposées exister et déterminer la catégorisation. de chaque même. Un exemple pratique de modèles de variables latentes en apprentissage automatique est la modélisation de sujets , qui est un modèle statistique permettant de prédire les mots (variables observées) dans un document en fonction du sujet (variable latente) du document. Il a été démontré que la méthode des moments (techniques de décomposition tensorielle) récupère systématiquement les paramètres d'une grande classe de modèles à variables latentes sous certaines hypothèses.

L' algorithme d'espérance-maximisation est une autre méthode pratique pour apprendre des modèles de variables latentes. Cependant, il peut rester bloqué dans des optima locaux et il n'est pas garanti de converger vers les véritables paramètres inconnus du modèle. En revanche, en utilisant la méthode des moments, la convergence globale est garantie sous certaines conditions.

Les réseaux de neurones

Les cinq sous-sections suivantes contiennent des informations de base. Plus de matériel de niveau intermédiaire le suit dans Comparaison des réseaux et Réseaux spécifiques. Les matériaux avancés ont leurs propres entrées Wikipédia.

Tâches contre méthodes

Tendance pour une tâche à employer des méthodes supervisées ou non supervisées. La séparation peut être floue.

Traditionnellement, les méthodes supervisées sont utilisées pour les tâches de reconnaissance et les méthodes non supervisées sont utilisées pour les tâches génératives. Au fur et à mesure que les progrès avancent, certaines tâches utilisent les deux méthodes, et certaines tâches basculent d'une méthode à une autre. Par exemple, la reconnaissance d'images a commencé comme fortement supervisée, mais est devenue hybride en employant une pré-formation non supervisée, puis est revenue à la supervision avec l'avènement des taux d'abandon, de relu et d'apprentissage adaptatif.

Entraînement

Pendant la phase d'apprentissage, un réseau non supervisé essaie d'imiter les données qui lui sont fournies et utilise l'erreur dans sa sortie imitée pour se corriger (c'est-à-dire corriger ses poids et ses biais). Cela ressemble au comportement de mimétisme des enfants lorsqu'ils apprennent une langue. Parfois, l'erreur est exprimée comme une faible probabilité que la sortie erronée se produise, ou elle peut être exprimée comme un état instable à haute énergie dans le réseau.

Contrairement à l'utilisation dominante de la rétropropagation dans la méthode supervisée, les méthodes non supervisées utilisent divers algorithmes d'apprentissage, notamment : la règle d'apprentissage de Hopfield, la règle d'apprentissage de Boltzmann, la divergence de contraste, le sommeil de réveil, l'inférence variationnelle, le maximum A Posteriori, l'échantillonnage de Gibbs, la rétropropagation de l'erreur de reconstruction ou la rétropropagation du reparamétrages de l'état caché. Voir le tableau ci-dessous pour plus de détails.

Énergie

Dans les machines de Boltzmann, l'Énergie joue le rôle de la fonction Coût. Une fonction énergétique est une mesure macroscopique de l'état d'un réseau. Cette analogie avec la physique est inspirée de l'analyse de Ludwig Boltzmann de l'énergie macroscopique d'un gaz à partir des probabilités microscopiques de mouvement des particules p e E/kT , où k est la constante de Boltzmann et T est la température. Dans le réseau RBM, la relation est p = e −E / Z, où p & E varient sur chaque modèle d'activation possible et Z = e -E(pattern) . Pour être plus précis, p(a) = e -E(a) / Z, où a est un schéma d'activation de tous les neurones (visibles et cachés). Par conséquent, les premiers réseaux de neurones portent le nom de machine de Boltzmann. Paul Smolensky appelle -E l'Harmonie. Un réseau recherche une faible énergie qui est une grande Harmonie.

Réseaux

Ce tableau présente les schémas de connexion de différents réseaux non supervisés, dont les détails seront donnés dans la section Comparaison de Réseau. Parmi les réseaux portant des noms de personnes, seul Hopfield a travaillé directement avec des réseaux de neurones. Boltzmann et Helmholtz ont vécu avant l'invention des réseaux de neurones artificiels, mais ils ont inspiré les méthodes analytiques utilisées.

Hopfield Boltzmann GAR Helmholtz Encodeur automatique VAE
Un réseau basé sur des domaines magnétiques dans le fer avec une seule couche auto-connectée.
2 couches. Utilise des poids symétriques bidirectionnels. Suivant la thermodynamique de Boltzmann, les probabilités individuelles donnent naissance à des énergies macroscopiques.
Machine Boltzmann restreinte. Il s'agit d'une machine Boltzmann où les connexions latérales au sein d'une couche sont interdites pour rendre l'analyse traitable.
Au lieu de la connexion symétrique bidirectionnelle d'une machine de Boltzmann, nous avons des connexions unidirectionnelles séparées pour former une boucle. Il fait à la fois génération et discrimination.
Un réseau feed forward qui vise à trouver une bonne représentation de la couche intermédiaire de son monde d'entrée.
Applique l'inférence variationnelle à l'encodeur automatique. La couche intermédiaire est un ensemble de moyennes et de variances pour les distributions gaussiennes.

Histoire

1969 Perceptrons de Minsky & Papert montre qu'un perceptron sans couches cachées échoue sur XOR
années 1970 (dates approximatives) AI hiver I
1974 Modèle magnétique d'Ising proposé par WA Little pour la cognition
1980 Fukushima introduit le néocognitron, qui sera plus tard appelé réseau de neurones à convolution. Il est principalement utilisé dans SL, mais mérite une mention ici.
1982 Ising variant Hopfield net décrit comme CAM et classificateurs par John Hopfield.
1983 Machine de Boltzmann variante d'Ising avec des neurones probabilistes décrite par Hinton & Sejnowski à la suite des travaux de 1975 de Sherington & Kirkpatrick.
1986 Paul Smolensky publie Harmony Theory, qui est un RBM avec pratiquement la même fonction énergétique de Boltzmann. Smolensky n'a pas donné de programme de formation pratique. Hinton l'a fait au milieu des années 2000
1995 Schmidthuber présente le neurone LSTM pour les langues.
1995 Dayan & Hinton présente la machine Helmholtz
1995-2005 (dates approximatives) AI hiver II
2013 Kingma, Rezende, & co. introduit les autoencodeurs variationnels en tant que réseau de probabilité graphique bayésien, avec des réseaux de neurones comme composants.

Réseaux spécifiques

Ici, nous mettons en évidence quelques caractéristiques de chacun des réseaux. Le ferromagnétisme a inspiré les réseaux de Hopfield, les machines de Boltzmann et les RBM. Un neurone correspond à un domaine de fer avec des moments magnétiques binaires haut et bas, et les connexions neuronales correspondent à l'influence du domaine les uns sur les autres. Les connexions symétriques permettent une formulation énergétique globale. Pendant l'inférence, le réseau met à jour chaque état à l'aide de la fonction d'étape d'activation standard. Les poids symétriques garantissent la convergence vers un modèle d'activation stable.

Hopfield
les réseaux sont utilisés comme des CAM et sont garantis pour s'adapter à un certain modèle. Sans poids symétriques, le réseau est très difficile à analyser. Avec la bonne fonction énergétique, un réseau convergera.
Machines Boltzmann
Ce sont des réseaux de Hopfield stochastiques. Leur valeur d'état est échantillonnée à partir de cette pdf comme suit : supposons qu'un neurone binaire se déclenche avec la probabilité de Bernoulli p(1) = 1/3 et repose avec p(0) = 2/3. On en échantillonne en prenant un nombre aléatoire y distribué UNIFORMEMENT, et en le branchant sur la fonction de distribution cumulative inversée, qui est dans ce cas la fonction échelon seuillée à 2/3. La fonction inverse = { 0 si x <= 2/3, 1 si x > 2/3 }
Helmholtz
Ce sont les premières inspirations pour les encodeurs automatiques variationnels. Il s'agit de 2 réseaux combinés en un seul : les pondérations avant opèrent la reconnaissance et les pondérations arrière mettent en œuvre l'imagination. C'est peut-être le premier réseau à faire les deux. Helmholtz n'a pas travaillé dans l'apprentissage automatique mais il a inspiré le point de vue du "moteur d'inférence statistique dont la fonction est d'inférer les causes probables de l'entrée sensorielle" (3). le neurone binaire stochastique génère une probabilité que son état soit 0 ou 1. L'entrée de données n'est normalement pas considérée comme une couche, mais dans le mode de génération de la machine de Helmholtz, la couche de données reçoit l'entrée de la couche intermédiaire a des poids séparés à cette fin, donc il est considéré comme une couche. Par conséquent, ce réseau a 3 couches.
Autoencodeur variationnel
Ceux-ci sont inspirés des machines de Helmholtz et combinent un réseau de probabilités avec des réseaux de neurones. Un Autoencodeur est un réseau CAM à 3 couches, où la couche intermédiaire est censée être une représentation interne des modèles d'entrée. Le codeur réseau de neurones est une distribution de probabilité q φ (x donnée z) et le réseau de décodeur est p θ (x z donnée). Les poids sont nommés phi & theta plutôt que W et V comme dans Helmholtz, une différence cosmétique. Ces 2 réseaux ici peuvent être entièrement connectés, ou utiliser un autre schéma NN.

Comparaison des réseaux

Hopfield Boltzmann GAR Helmholtz Encodeur automatique VAE
usage & notables CAM, problème de voyageur de commerce CAME. La liberté des connexions rend ce réseau difficile à analyser. reconnaissance de formes (MNIST, reconnaissance vocale) imagination, mimétisme langue : écriture créative, traduction. Vision : améliorer les images floues générer des données réalistes
neurone état binaire déterministe. Activation = { 0 (ou -1) si x est négatif, 1 sinon } neurone de Hopfield binaire stochastique binaire stochastique. Étendu à la valeur réelle au milieu des années 2000 stochastique, binaire, sigmoïde langue : LSTM. vision : champs récepteurs locaux. activation de relu généralement à valeur réelle. les neurones de la couche intermédiaire codent les moyennes et les variances pour les gaussiennes. En mode exécution (inférence), les sorties de la couche intermédiaire sont des valeurs échantillonnées à partir des gaussiennes.
Connexions 1 couche avec poids symétriques. Pas d'auto-connexions. 2 couches. 1-caché & 1-visible. poids symétriques. <-- pareil.
pas de connexions latérales au sein d'une couche.
3 couches : poids asymétriques. 2 réseaux combinés en 1. 3 couches. L'entrée est considérée comme une couche même si elle n'a pas de poids entrants. couches récurrentes pour la PNL. convolutions d'anticipation pour la vision. l'entrée et la sortie ont le même nombre de neurones. 3 couches : entrée, encodeur, distribution sampler décodeur. le préleveur n'est pas considéré comme une couche(e)
inférence et énergie l'énergie est donnée par la mesure de probabilité de Gibbs : pareil pareil minimiser la divergence KL l'inférence n'est qu'un feed-forward. les réseaux UL précédents fonctionnaient en avant ET en arrière minimiser l'erreur = erreur de reconstruction - KLD
entraînement Δw ij = s i *s j , pour +1/-1 neurone w ij = e*(p ij - p' ij ). Ceci est dérivé de la minimisation de KLD. e = taux d'apprentissage, p' = prédit et p = distribution réelle. divergence contrastive avec échantillonnage de Gibbs entraînement réveil-sommeil en 2 phases Retour propager l'erreur de reconstruction reparamétrer l'état caché pour backprop
force ressemble à des systèmes physiques donc il hérite de leurs équations <--- pareil. les neurones cachés agissent comme une représentation interne du monde externe programme de formation plus rapide et plus pratique que les machines Boltzmann légèrement anatomique. analysable avec la théorie de l'information et la mécanique statistique
la faiblesse difficile à former en raison des connexions latérales

Hebbian Learning, ART, SOM
L'exemple classique d'apprentissage non supervisé dans l'étude des réseaux de neurones est le principe de Donald Hebb , c'est-à-dire que les neurones qui s'activent ensemble se connectent ensemble. Dans l' apprentissage Hebbian , la connexion est renforcée indépendamment d'une erreur, mais est exclusivement fonction de la coïncidence entre les potentiels d'action entre les deux neurones. Une version similaire qui modifie les poids synaptiques prend en compte le temps entre les potentiels d'action ( spike-timing-dependent plasticity ou STDP). Hebbian Learning a émis l'hypothèse qu'il sous-tend une gamme de fonctions cognitives, telles que la reconnaissance de formes et l'apprentissage expérientiel.

Parmi les modèles de réseaux de neurones , la carte d'auto-organisation (SOM) et la théorie de la résonance adaptative (ART) sont couramment utilisées dans les algorithmes d'apprentissage non supervisé. Le SOM est une organisation topographique dans laquelle les emplacements proches sur la carte représentent des entrées avec des propriétés similaires. Le modèle ART permet au nombre de clusters de varier en fonction de la taille du problème et permet à l'utilisateur de contrôler le degré de similarité entre les membres des mêmes clusters au moyen d'une constante définie par l'utilisateur appelée paramètre de vigilance. Les réseaux ART sont utilisés pour de nombreuses tâches de reconnaissance de formes, telles que la reconnaissance automatique de cibles et le traitement des signaux sismiques.

Voir également

Les références

Lectures complémentaires