Modèle de mélange - Mixture model

En statistique , un modèle mixte est un modèle probabiliste pour représenter la présence de sous - populations au sein d'une population globale, sans exiger qu'un ensemble de données observées identifie la sous-population à laquelle appartient une observation individuelle. Formellement, un modèle de mélange correspond à la distribution de mélange qui représente la distribution de probabilité des observations dans la population globale. Cependant, alors que les problèmes associés aux « distributions de mélanges » concernent la dérivation des propriétés de la population globale à partir de celles des sous-populations, les « modèles de mélanges » sont utilisés pour faire des déductions statistiques sur les propriétés des sous-populations étant donné uniquement des observations sur la population regroupée, sans information sur l'identité de la sous-population.

Les modèles de mélange ne doivent pas être confondus avec les modèles de données de composition , c'est-à-dire les données dont les composants sont contraints de sommer à une valeur constante (1, 100 %, etc.). Cependant, les modèles de composition peuvent être considérés comme des modèles de mélange, où les membres de la population sont échantillonnés au hasard. Inversement, les modèles de mélange peuvent être considérés comme des modèles de composition, où la population de lecture de taille totale a été normalisée à 1.

Structure

Modèle de mélange général

Un modèle de mélange de dimension finie typique est un modèle hiérarchique composé des composants suivants :

  • N variables aléatoires qui sont observées, chacune distribuée selon un mélange de K composantes, avec les composantes appartenant à la même famille paramétrique de distributions (par exemple, toutes normales , toutes zipfiennes , etc.) mais avec des paramètres différents
  • N variables latentes aléatoires spécifiant l'identité de la composante de mélange de chaque observation, chacune distribuée selon une distribution catégorique à K dimensions
  • Un ensemble de K poids de mélange, qui sont des probabilités dont la somme est 1.
  • Un ensemble de K paramètres, chacun spécifiant le paramètre du composant de mélange correspondant. Dans de nombreux cas, chaque "paramètre" est en fait un ensemble de paramètres. Par exemple, si les composants du mélange sont des distributions gaussiennes , il y aura une moyenne et une variance pour chaque composant. Si les composants du mélange sont des distributions catégorielles (par exemple, lorsque chaque observation est un jeton d'un alphabet fini de taille V ), il y aura un vecteur de probabilités V totalisant 1.

De plus, dans un cadre bayésien , les poids et paramètres du mélange seront eux-mêmes des variables aléatoires, et des distributions a priori seront placées sur les variables. Dans un tel cas, les poids sont généralement considérés comme un vecteur aléatoire à K dimensions tiré d'une distribution de Dirichlet (la priorité conjuguée de la distribution catégorique), et les paramètres seront distribués en fonction de leurs priorités conjuguées respectives.

Mathématiquement, un modèle de mélange paramétrique de base peut être décrit comme suit :

Dans un cadre bayésien, tous les paramètres sont associés à des variables aléatoires, comme suit :

Cette caractérisation utilise F et H pour décrire des distributions arbitraires sur les observations et les paramètres, respectivement. Typiquement H sera le conjugué a priori de F . Les deux choix les plus courants de F sont gaussien aka " normal " (pour les observations à valeur réelle) et catégorique (pour les observations discrètes). D'autres possibilités courantes pour la distribution des composants du mélange sont :

  • Distribution binomiale , pour le nombre d'"occurrences positives" (par exemple, succès, votes oui, etc.) étant donné un nombre fixe d'occurrences totales
  • Distribution multinomiale , similaire à la distribution binomiale, mais pour le nombre d'occurrences à plusieurs voies (par exemple, oui/non/peut-être dans une enquête)
  • Distribution binomiale négative , pour les observations de type binomial mais où la quantité d'intérêt est le nombre d'échecs avant qu'un nombre donné de succès ne se produise
  • Distribution de Poisson , pour le nombre d'occurrences d'un événement dans une période de temps donnée, pour un événement caractérisé par un taux d'occurrence fixe
  • Distribution exponentielle , pour le temps avant que l'événement suivant ne se produise, pour un événement caractérisé par un taux d'occurrence fixe
  • Distribution log-normale , pour les nombres réels positifs supposés croître de façon exponentielle, tels que les revenus ou les prix
  • Distribution normale multivariée (aka distribution gaussienne multivariée), pour les vecteurs de résultats corrélés qui sont individuellement distribués gaussiens
  • Distribution t de Student multivariée , pour les vecteurs de résultats corrélés à queue lourde
  • Un vecteur de valeurs distribuées par Bernoulli , correspondant, par exemple, à une image en noir et blanc, chaque valeur représentant un pixel ; voir l'exemple de reconnaissance d'écriture manuscrite ci-dessous

Exemples spécifiques

Modèle de mélange gaussien

Modèle de mélange gaussien non bayésien utilisant la notation de plaque . Les petits carrés indiquent des paramètres fixes ; les cercles plus grands indiquent les variables aléatoires. Les formes remplies indiquent des valeurs connues. L'indication [K] signifie un vecteur de taille K .

Un modèle de mélange gaussien non bayésien typique ressemble à ceci :

Modèle bayésien de mélange gaussien utilisant la notation par plaques . Les petits carrés indiquent des paramètres fixes ; les cercles plus grands indiquent les variables aléatoires. Les formes remplies indiquent des valeurs connues. L'indication [K] signifie un vecteur de taille K .

Une version bayésienne d'un modèle de mélange gaussien est la suivante :

Animation du processus de clustering pour les données unidimensionnelles à l'aide d'un modèle de mélange bayésien gaussien où les distributions normales sont tirées d'un processus de Dirichlet . Les histogrammes des clusters sont affichés en différentes couleurs. Au cours du processus d'estimation des paramètres, de nouveaux clusters sont créés et se développent sur les données. La légende montre les couleurs du cluster et le nombre de points de données attribués à chaque cluster.

Modèle de mélange gaussien multivarié

Un modèle de mélange bayésien gaussien est généralement étendu pour s'adapter à un vecteur de paramètres inconnus (indiqués en gras) ou à des distributions normales multivariées. Dans une distribution multivariée (c'est-à-dire une modélisation d'un vecteur avec N variables aléatoires) on peut modéliser un vecteur de paramètres (tels que plusieurs observations d'un signal ou de patchs dans une image) en utilisant un modèle de mélange gaussien distribution a priori sur le vecteur d'estimations donné par

où la i ème composante vectorielle est caractérisée par des distributions normales avec des poids , des moyennes et des matrices de covariance . Pour incorporer ce prior dans une estimation bayésienne, le prior est multiplié par la distribution connue des données conditionnée par les paramètres à estimer. Avec cette formulation, la distribution a posteriori est aussi un modèle de mélange gaussien de la forme

avec de nouveaux paramètres et qui sont mis à jour à l'aide de l' algorithme EM . Bien que les mises à jour des paramètres basées sur les EM soient bien établies, fournir les estimations initiales de ces paramètres est actuellement un domaine de recherche active. Notez que cette formulation donne une solution de forme fermée à la distribution postérieure complète. Les estimations de la variable aléatoire peuvent être obtenues via l'un de plusieurs estimateurs, tels que la moyenne ou le maximum de la distribution postérieure.

De telles distributions sont utiles pour supposer des formes par patch d'images et de clusters, par exemple. Dans le cas de la représentation d'images, chaque gaussienne peut être inclinée, agrandie et déformée selon les matrices de covariance . Une distribution gaussienne de l'ensemble est adaptée à chaque patch (généralement de taille 8x8 pixels) dans l'image. Notamment, toute distribution de points autour d'un cluster (voir k -means ) peut recevoir avec précision suffisamment de composants gaussiens, mais à peine plus de K = 20 composants sont nécessaires pour modéliser avec précision une distribution d'image ou un cluster de données donné.

Modèle de mélange catégoriel

Modèle de mélange catégorique non bayésien utilisant la notation de plaque . Les petits carrés indiquent des paramètres fixes ; les cercles plus grands indiquent les variables aléatoires. Les formes remplies indiquent des valeurs connues. L'indication [K] signifie un vecteur de taille K ; de même pour [V].

Un modèle de mélange non bayésien typique avec des observations catégorielles ressemble à ceci :

  • comme ci-dessus
  • comme ci-dessus
  • comme ci-dessus
  • dimension des observations catégorielles, par exemple, la taille du vocabulaire des mots
  • probabilité pour la composante de l' élément d'observation
  • vecteur de dimension composé de doit sommer 1

Les variables aléatoires :


Modèle de mélange catégoriel bayésien utilisant la notation par plaques . Les petits carrés indiquent des paramètres fixes ; les cercles plus grands indiquent les variables aléatoires. Les formes remplies indiquent des valeurs connues. L'indication [K] signifie un vecteur de taille K ; de même pour [V].

Un modèle de mélange bayésien typique avec des observations catégorielles ressemble à ceci :

  • comme ci-dessus
  • comme ci-dessus
  • comme ci-dessus
  • dimension des observations catégorielles, par exemple, la taille du vocabulaire des mots
  • probabilité pour la composante de l' élément d'observation
  • vecteur de dimension composé de doit sommer 1
  • hyperparamètre de concentration partagé de pour chaque composant
  • hyperparamètre de concentration de

Les variables aléatoires :


Exemples

Un modèle financier

La distribution normale est tracée en utilisant différentes moyennes et variances

Les rendements financiers se comportent souvent différemment dans des situations normales et en temps de crise. Un modèle mixte pour les données de retour semble raisonnable. Parfois, le modèle utilisé est un modèle de diffusion par saut , ou un mélange de deux distributions normales. Voir Économie financière #Défis et critiques pour plus de contexte.

Prix ​​des maisons

Supposons que l'on observe les prix de N maisons différentes. Différents types de maisons dans différents quartiers auront des prix très différents, mais le prix d'un type particulier de maison dans un quartier particulier (par exemple, une maison de trois chambres dans un quartier modérément haut de gamme) aura tendance à se regrouper assez étroitement autour de la moyenne. Un modèle possible de tels prix serait de supposer que les prix sont décrits avec précision par un modèle de mélange avec K composants différents, chacun étant distribué comme une distribution normale avec une moyenne et une variance inconnues, chaque composant spécifiant une combinaison particulière de type de maison/quartier. L'ajustement de ce modèle aux prix observés, par exemple en utilisant l' algorithme de maximisation des attentes , aurait tendance à regrouper les prix selon le type de maison/quartier et révélerait la dispersion des prix dans chaque type/quartier. (Notez que pour des valeurs telles que les prix ou les revenus qui sont garantis positifs et qui ont tendance à croître de façon exponentielle , une distribution log-normale peut en fait être un meilleur modèle qu'une distribution normale.)

Sujets dans un document

Supposons qu'un document soit composé de N mots différents d'un vocabulaire total de taille V , où chaque mot correspond à l'un des K thèmes possibles. La distribution de ces mots pourrait être modélisée comme un mélange de K différentes distributions catégorielles de dimension V . Un modèle de ce type est communément appelé modèle thématique . Notez que la maximisation des attentes appliquée à un tel modèle échouera généralement à produire des résultats réalistes, en raison (entre autres) du nombre excessif de paramètres . Certaines sortes d'hypothèses supplémentaires sont généralement nécessaires pour obtenir de bons résultats. Généralement, deux types de composants supplémentaires sont ajoutés au modèle :

  1. Une distribution a priori est placée sur les paramètres décrivant les distributions thématiques, en utilisant une distribution de Dirichlet avec un paramètre de concentration qui est défini significativement en dessous de 1, afin d'encourager les distributions clairsemées (où seul un petit nombre de mots ont des probabilités significativement non nulles).
  2. Une sorte de contrainte supplémentaire est placée sur les identités thématiques des mots, pour tirer parti du regroupement naturel.
  • Par exemple, une chaîne de Markov pourrait être placée sur les identités de sujet (c'est-à-dire les variables latentes spécifiant la composante de mélange de chaque observation), correspondant au fait que les mots voisins appartiennent à des sujets similaires. (Cela se traduit par un modèle de Markov caché , en particulier un modèle où une distribution a priori est placée sur les transitions d'état qui favorise les transitions qui restent dans le même état.)
  • Une autre possibilité est le modèle d' allocation latente de Dirichlet , qui divise les mots en D documents différents et suppose que dans chaque document, seul un petit nombre de sujets apparaît à une fréquence quelconque.

Reconnaissance de l'écriture manuscrite

L'exemple suivant est basé sur un exemple de Christopher M. Bishop , Pattern Recognition and Machine Learning .

Imaginez que l'on nous donne une image en noir et blanc N × N connue pour être un scan d'un chiffre écrit à la main entre 0 et 9, mais nous ne savons pas quel chiffre est écrit. Nous pouvons créer un modèle de mélange avec différentes composantes, où chaque composante est un vecteur de taille des distributions de Bernoulli (une par pixel). Un tel modèle peut être formé avec l' algorithme de maximisation des attentes sur un ensemble non étiqueté de chiffres écrits à la main, et regroupera efficacement les images en fonction du chiffre en cours d'écriture. Le même modèle pourrait ensuite être utilisé pour reconnaître le chiffre d'une autre image simplement en maintenant les paramètres constants, en calculant la probabilité de la nouvelle image pour chaque chiffre possible (un calcul trivial) et en renvoyant le chiffre qui a généré la probabilité la plus élevée.

Évaluation de la précision du projectile (alias erreur circulaire probable, CEP)

Les modèles de mélange s'appliquent au problème de diriger plusieurs projectiles vers une cible (comme dans les applications de défense aérienne, terrestre ou maritime), où les caractéristiques physiques et/ou statistiques des projectiles diffèrent au sein des multiples projectiles. Un exemple pourrait être des tirs de plusieurs types de munitions ou des tirs de plusieurs emplacements dirigés vers une cible. La combinaison de types de projectiles peut être caractérisée comme un modèle de mélange gaussien. De plus, une mesure bien connue de la précision d'un groupe de projectiles est l' erreur circulaire probable (CEP), qui est le nombre R tel que, en moyenne, la moitié du groupe de projectiles se situe dans le cercle de rayon R autour de la cible. point. Le modèle de mélange peut être utilisé pour déterminer (ou estimer) la valeur R . Le modèle de mélange capture correctement les différents types de projectiles.

Applications directes et indirectes

L'exemple financier ci-dessus est une application directe du modèle de mélange, une situation dans laquelle nous supposons un mécanisme sous-jacent de sorte que chaque observation appartient à l'une d'un certain nombre de sources ou de catégories différentes. Ce mécanisme sous-jacent peut être ou non observable. Dans cette forme de mélange, chacune des sources est décrite par une fonction de densité de probabilité de composante, et son poids de mélange est la probabilité qu'une observation provienne de cette composante.

Dans une application indirecte du modèle de mélange, nous ne supposons pas un tel mécanisme. Le modèle de mélange est simplement utilisé pour ses flexibilités mathématiques. Par exemple, un mélange de deux distributions normales avec des moyennes différentes peut entraîner une densité avec deux modes , qui n'est pas modélisée par des distributions paramétriques standard. Un autre exemple est donné par la possibilité de distributions de mélanges pour modéliser des queues plus grosses que les gaussiennes de base, afin d'être un candidat pour modéliser des événements plus extrêmes. Combinée à une cohérence dynamique , cette approche a été appliquée à la valorisation de dérivés financiers en présence du sourire de volatilité dans le cadre de modèles de volatilité locaux . Cela définit notre application.

Maintenance prédictive

Le clustering basé sur un modèle de mélange est également principalement utilisé pour identifier l'état de la machine en maintenance prédictive . Les tracés de densité sont utilisés pour analyser la densité des caractéristiques de grande dimension. Si des densités multi-modèles sont observées, alors on suppose qu'un ensemble fini de densités est formé par un ensemble fini de mélanges normaux. Un modèle de mélange gaussien multivarié est utilisé pour regrouper les données de caractéristiques en k nombre de groupes où k représente chaque état de la machine. L'état de la machine peut être un état normal, un état hors tension ou un état défectueux. Chaque amas formé peut être diagnostiqué à l'aide de techniques telles que l'analyse spectrale. Ces dernières années, cela a également été largement utilisé dans d'autres domaines tels que la détection précoce des défauts.

Segmentation d'image floue

Un exemple de mélange gaussien en segmentation d'image avec histogramme gris

En traitement d'images et en vision par ordinateur, les modèles traditionnels de segmentation d'images n'attribuent souvent à un pixel qu'un seul motif exclusif. Dans la segmentation floue ou douce, n'importe quel motif peut avoir une certaine "propriété" sur n'importe quel pixel. Si les motifs sont gaussiens, la segmentation floue conduit naturellement à des mélanges gaussiens. Combinés à d'autres outils analytiques ou géométriques (par exemple, transitions de phase sur des limites diffusives), de tels modèles de mélanges spatialement régularisés pourraient conduire à des méthodes de segmentation plus réalistes et plus efficaces sur le plan informatique.

Enregistrement du jeu de points

Les modèles de mélanges probabilistes tels que les modèles de mélanges gaussiens (GMM) sont utilisés pour résoudre les problèmes d' enregistrement d'ensembles de points dans les domaines du traitement d'images et de la vision par ordinateur. Pour l' enregistrement d'ensembles de points par paire , un ensemble de points est considéré comme les centroïdes des modèles de mélange, et l'autre ensemble de points est considéré comme des points de données (observations). Les méthodes de pointe sont par exemple la dérive de points cohérents (CPD) et les modèles de mélange à distribution t de Student (TMM). Le résultat de recherches récentes démontre la supériorité des modèles de mélanges hybrides (par exemple, combinant la distribution t de Student et la distribution de Watson/la distribution de Bingham pour modéliser les positions spatiales et les orientations des axes séparément) par rapport à CPD et TMM, en termes de robustesse inhérente, de précision et de capacité discriminante .

Identificabilité

L'identifiabilité fait référence à l'existence d'une caractérisation unique pour l'un des modèles de la classe (famille) considérée. Les procédures d'estimation peuvent ne pas être bien définies et la théorie asymptotique peut ne pas tenir si un modèle n'est pas identifiable.

Exemple

Soit J la classe de toutes les distributions binomiales avec n = 2 . Alors un mélange de deux membres de J aurait

et p 2 = 1 − p 0p 1 . Clairement, étant donné p 0 et p 1 , il n'est pas possible de déterminer le modèle de mélange ci-dessus de manière unique, car il y a trois paramètres ( π , θ 1 , θ 2 ) à déterminer.

Définition

Considérons un mélange de distributions paramétriques de la même classe. Laisser

être la classe de toutes les distributions de composants. Alors l' enveloppe convexe K de J définit la classe de tout mélange fini de distributions dans J :

K est dit identifiable si tous ses membres sont uniques, c'est-à-dire étant donnés deux membres p et p′ dans K , étant des mélanges de k distributions et k′ distributions respectivement dans J , on a p = p′ si et seulement si, tout d'abord, k = k′ et deuxièmement nous pouvons réordonner les sommations telles que a i = a i et ƒ i = ƒ i pour tout i .

Estimation des paramètres et identification du système

Modèles de mélange Parametric sont souvent utilisés quand on connaît la distribution Y et nous pouvons l' échantillon de X , mais nous aimerions déterminer un i et thetav i valeurs. De telles situations peuvent survenir dans les études dans lesquelles nous échantillonnons à partir d'une population composée de plusieurs sous-populations distinctes.

Il est courant de considérer la modélisation par mélange de probabilités comme un problème de données manquantes. Une façon de comprendre cela est de supposer que les points de données considérés sont « membres » dans l'une des distributions que nous utilisons pour modéliser les données. Lorsque nous commençons, cette adhésion est inconnue, ou manquante. Le travail de l'estimation consiste à concevoir des paramètres appropriés pour les fonctions de modèle que nous choisissons, la connexion aux points de données étant représentée comme leur appartenance aux distributions de modèle individuelles.

Une variété d'approches au problème de la décomposition de mélanges ont été proposées, dont beaucoup se concentrent sur les méthodes de maximum de vraisemblance telles que la maximisation de l'espérance (EM) ou l' estimation maximale a posteriori (MAP). Généralement, ces méthodes considèrent séparément les questions d'identification du système et d'estimation des paramètres ; les méthodes pour déterminer le nombre et la forme fonctionnelle des composants dans un mélange se distinguent des méthodes pour estimer les valeurs des paramètres correspondants. Certains écarts notables sont les méthodes graphiques décrites dans Tarter et Lock et plus récemment les techniques de longueur de message minimale (MML) telles que Figueiredo et Jain et, dans une certaine mesure, les routines d'analyse de modèle de correspondance de moment suggérées par McWilliam et Loh (2009).

Maximisation des attentes (EM)

La maximisation des attentes (EM) est apparemment la technique la plus populaire utilisée pour déterminer les paramètres d'un mélange avec un nombre a priori donné de composants. Il s'agit d'une manière particulière de mettre en œuvre l' estimation du maximum de vraisemblance pour ce problème. EM est particulièrement intéressant pour les mélanges normaux finis où des expressions de forme fermée sont possibles, comme dans l'algorithme itératif suivant de Dempster et al. (1977)

avec les probabilités postérieures

Ainsi, sur la base de l'estimation courante des paramètres, la probabilité conditionnelle pour qu'une observation donnée x ( t ) soit générée à partir de l'état s est déterminée pour chaque t = 1, …, N  ; N étant la taille de l'échantillon. Les paramètres sont ensuite mis à jour de telle sorte que les nouveaux poids des composants correspondent à la probabilité conditionnelle moyenne et que chaque moyenne et covariance de composant soit la moyenne pondérée spécifique du composant de la moyenne et de la covariance de l'échantillon entier.

Dempster a également montré que chaque itération EM successive ne diminuera pas la probabilité, une propriété non partagée par d'autres techniques de maximisation basées sur le gradient. De plus, EM intègre naturellement en son sein des contraintes sur le vecteur de probabilité, et pour des tailles d'échantillon suffisamment grandes, la définition positive des itérations de covariance. Il s'agit d'un avantage clé car les méthodes explicitement contraintes entraînent des coûts de calcul supplémentaires pour vérifier et maintenir les valeurs appropriées. Théoriquement, EM est un algorithme du premier ordre et en tant que tel converge lentement vers une solution à point fixe. Redner et Walker (1984) font valoir ce point en plaidant en faveur des méthodes superlinéaires et du second ordre de Newton et quasi-Newton et signalent une convergence lente en EM sur la base de leurs tests empiriques. Ils admettent que la convergence en vraisemblance était rapide même si la convergence dans les valeurs des paramètres elles-mêmes ne l'était pas. Les mérites relatifs de l'EM et d'autres algorithmes vis-à-vis de la convergence ont été discutés dans d'autres publications.

D'autres objections courantes à l'utilisation de l'EM sont qu'il a une propension à identifier faussement des maxima locaux, ainsi qu'à afficher une sensibilité aux valeurs initiales. On peut résoudre ces problèmes en évaluant EM à plusieurs points initiaux dans l'espace des paramètres, mais cela est coûteux en calcul et d'autres approches, telles que la méthode EM de recuit d'Udea et Nakano (1998) (dans laquelle les composants initiaux sont essentiellement forcés de se chevaucher, fournissant une base moins hétérogène pour les estimations initiales), peut être préférable.

Figueiredo et Jain notent que la convergence vers des valeurs de paramètres « insignifiantes » obtenues à la frontière (où la rupture des conditions de régularité, par exemple Ghosh et Sen (1985)) est fréquemment observée lorsque le nombre de composants du modèle dépasse le nombre optimal/vrai. Sur cette base, ils suggèrent une approche unifiée de l'estimation et de l'identification dans laquelle le n initial est choisi pour dépasser largement la valeur optimale attendue. Leur routine d'optimisation est construite via un critère de longueur de message minimum (MML) qui élimine efficacement un composant candidat s'il n'y a pas suffisamment d'informations pour le prendre en charge. De cette façon, il est possible de systématiser les réductions de n et de considérer conjointement l'estimation et l'identification.

L' algorithme d'espérance-maximisation peut être utilisé pour calculer les paramètres d'une distribution de modèle de mélange paramétrique (les a i et θ i ). Il s'agit d'un algorithme itératif à deux étapes : une étape d'espérance et une étape de maximisation . Des exemples pratiques d'EM et de modélisation de mélange sont inclus dans les démonstrations SOCR .

L'étape de l'attente

Avec les suppositions initiales pour les paramètres de notre modèle de mélange, "l'appartenance partielle" de chaque point de données dans chaque distribution constituante est calculée en calculant les valeurs attendues pour les variables d'appartenance de chaque point de données. Autrement dit, pour chaque point de données x j et distribution Y i , la valeur d'appartenance y i , j est :

L'étape de maximisation

Avec les valeurs attendues en main pour l'appartenance au groupe, les estimations de plug-in sont recalculées pour les paramètres de distribution.

Les coefficients de mélange a i sont les moyennes des valeurs d'appartenance sur les N points de données.

Les paramètres du modèle de composant θ i sont également calculés par maximisation des attentes à l'aide de points de données x j qui ont été pondérés à l'aide des valeurs d'appartenance. Par exemple, si θ est une moyenne μ

Avec de nouvelles estimations pour un i et θ i ' s, l'étape d'attente est répétée pour recalculer de nouvelles valeurs d'appartenance. Toute la procédure est répétée jusqu'à ce que les paramètres du modèle convergent.

Chaîne de Markov Monte Carlo

Comme alternative à l'algorithme EM, les paramètres du modèle de mélange peuvent être déduits en utilisant un échantillonnage a posteriori comme indiqué par le théorème de Bayes . Ceci est toujours considéré comme un problème de données incomplètes dans lequel l'appartenance aux points de données est la donnée manquante. Une procédure itérative en deux étapes connue sous le nom d' échantillonnage de Gibbs peut être utilisée.

L'exemple précédent d'un mélange de deux distributions gaussiennes peut montrer comment fonctionne la méthode. Comme précédemment, des estimations initiales des paramètres du modèle de mélange sont effectuées. Au lieu de calculer les appartenances partielles pour chaque distribution élémentaire, une valeur d'appartenance pour chaque point de données est tirée d'une distribution de Bernoulli (c'est-à-dire qu'elle sera attribuée à la première ou à la deuxième gaussienne). Le paramètre Bernoulli θ est déterminée pour chaque point de données sur la base de l' une des distributions de constituants. Les tirages de la distribution génèrent des associations de membres pour chaque point de données. Des estimateurs plug-in peuvent ensuite être utilisés comme dans l'étape M de EM pour générer un nouvel ensemble de paramètres de modèle de mélange, et l'étape de tirage binomial répétée.

Correspondance des moments

La méthode d'appariement des moments est l'une des plus anciennes techniques pour déterminer les paramètres du mélange remontant aux travaux fondateurs de Karl Pearson de 1894. Dans cette approche, les paramètres du mélange sont déterminés de telle sorte que la distribution composite a des moments correspondant à une valeur donnée. Dans de nombreux cas, l'extraction de solutions aux équations des moments peut présenter des problèmes algébriques ou de calcul non triviaux. De plus, l'analyse numérique de Day a indiqué que de telles méthodes peuvent être inefficaces par rapport à l'EM. Néanmoins, il y a eu un regain d'intérêt pour cette méthode, par exemple Craigmile et Titterington (1998) et Wang.

McWilliam et Loh (2009) considèrent la caractérisation d'une copule de mélange normal hyper-cuboïde dans des systèmes de grande dimension pour lesquels la ME serait prohibitive en termes de calcul. Ici, une routine d'analyse de modèle est utilisée pour générer des dépendances de queue multivariées cohérentes avec un ensemble de moments univariés et (dans un certain sens) bivariés. Les performances de cette méthode sont ensuite évaluées à l'aide de données de rendement logarithmique d'équité avec des statistiques de test de Kolmogorov-Smirnov suggérant un bon ajustement descriptif.

Méthode spectrale

Certains problèmes d'estimation de modèle de mélange peuvent être résolus à l'aide de méthodes spectrales . Dans ce document devient particulièrement utile si les points de données x i sont des points en haute dimensions l' espace réel , et les distributions cachées sont connues pour être log-concave (comme la distribution gaussienne ou la distribution Exponentielle ).

Les méthodes spectrales d'apprentissage des modèles de mélange sont basées sur l'utilisation de la décomposition en valeurs singulières d'une matrice qui contient des points de données. L'idée est de considérer les k vecteurs singuliers supérieurs , où k est le nombre de distributions à apprendre. La projection de chaque point de données vers un sous-espace linéaire couvert par ces vecteurs regroupe des points provenant de la même distribution très proches les uns des autres, tandis que les points de distributions différentes restent éloignés.

Une caractéristique distinctive de la méthode spectrale est qu'elle nous permet de prouver que si les distributions satisfont à certaines conditions de séparation (par exemple, pas trop proches), alors le mélange estimé sera très proche du vrai avec une forte probabilité.

Méthodes graphiques

Tarter et Lock décrivent une approche graphique de l'identification des mélanges dans laquelle une fonction de noyau est appliquée à un tracé de fréquence empirique afin de réduire la variance intra-composant. De cette manière, on peut identifier plus facilement des composants ayant des moyens différents. Bien que cette méthode λ ne nécessite pas de connaissance préalable du nombre ou de la forme fonctionnelle des composants, son succès repose sur le choix des paramètres du noyau qui, dans une certaine mesure, intègre implicitement des hypothèses sur la structure des composants.

Autres méthodes

Certains d'entre eux peuvent même probablement apprendre des mélanges de distributions à queue lourde, y compris celles à variance infinie (voir les liens vers les articles ci-dessous). Dans ce contexte, les méthodes basées sur EM ne fonctionneraient pas, car l'étape d'attente divergerait en raison de la présence de valeurs aberrantes .

Une simulation

Pour simuler un échantillon de taille N issu d'un mélange de distributions F i , i =1 à n , avec des probabilités p i (somme=  p i  = 1) :

  1. Générez N nombres aléatoires à partir d'une distribution catégorique de taille n et de probabilités p i pour i = 1= à  n . Ceux-ci vous indiquent de quel F i chacune des N valeurs proviendra. Notons m i la quantité de nombres aléatoires affectés à la i ème catégorie.
  2. Pour chaque i , générez m i nombres aléatoires à partir de la distribution F i .

Rallonges

Dans un cadre bayésien , des niveaux supplémentaires peuvent être ajoutés au modèle graphique définissant le modèle de mélange. Par exemple, dans le modèle de sujet d' allocation de Dirichlet latent commun , les observations sont des ensembles de mots tirés de D documents différents et les K composants de mélange représentent des sujets qui sont partagés entre les documents. Chaque document a un ensemble différent de poids de mélange, qui spécifient les sujets prédominants dans ce document. Tous les ensembles de poids de mélange partagent des hyperparamètres communs .

Une extension très courante consiste à connecter les variables latentes définissant les identités des composants du mélange dans une chaîne de Markov , au lieu de supposer qu'il s'agit de variables aléatoires indépendantes et distribuées de manière identique . Le modèle résultant est appelé modèle de Markov caché et est l'un des modèles hiérarchiques séquentiels les plus courants. De nombreuses extensions de modèles de Markov cachés ont été développées ; voir l'article résultant pour plus d'informations.

Histoire

Les distributions de mélange et le problème de la décomposition du mélange, c'est-à-dire l'identification de ses composants constitutifs et de leurs paramètres, ont été cités dans la littérature dès 1846 (Quetelet in McLachlan, 2000) bien que l'on fasse souvent référence aux travaux de Karl Pearson (1894). La motivation de ce travail a été fournie par le zoologiste Walter Frank Raphael Weldon qui avait spéculé en 1893 (dans Tarter et Lock) que l'asymétrie dans l'histogramme de ces rapports pourrait signaler une divergence évolutive. L'approche de Pearson consistait à ajuster un mélange univarié de deux normales aux données en choisissant les cinq paramètres du mélange de telle sorte que les moments empiriques correspondent à ceux du modèle.

Bien que son travail ait réussi à identifier deux sous-populations potentiellement distinctes et à démontrer la flexibilité des mélanges en tant qu'outil de mise en correspondance des moments, la formulation nécessitait la solution d'un polynôme de 9e degré (nonique) qui à l'époque posait un défi informatique important.

Les travaux ultérieurs se sont concentrés sur la résolution de ces problèmes, mais ce n'est qu'avec l'avènement de l'ordinateur moderne et la vulgarisation des techniques de paramétrage du Maximum de Vraisemblance (MLE) que la recherche a vraiment décollé. Depuis lors , il y a eu un vaste corpus de recherche sur le sujet couvrant des domaines tels que la recherche halieutique , l' agriculture , la botanique , l' économie , la médecine , la génétique , la psychologie , la paléontologie , l' électrophorèse , la finance , la géologie et la zoologie .

Voir également

Mélange

Modèles hiérarchiques

Détection des valeurs aberrantes

Les références

Lectures complémentaires

Livres sur les modèles de mélange

Application des modèles de mélange gaussien

  1. Reynolds, DA; Rose, RC (janvier 1995). « Identification robuste du locuteur indépendant du texte à l'aide de modèles de locuteurs à mélange gaussien ». Transactions IEEE sur le traitement de la parole et de l'audio . 3 (1) : 72-83. doi : 10.1109/89.365379 .
  2. Permuter, H.; Francos, J.; Jermyn, IH (2003). Modèles de mélange gaussien de texture et de couleur pour la récupération de bases de données d'images . Conférence internationale IEEE sur l'acoustique, la parole et le traitement du signal , 2003. Actes (ICASSP '03). doi : 10.1109/ICASSP.2003.1199538 .
  3. Lemke, Wolfgang (2005). Modélisation et estimation de la structure des termes dans un cadre d'espace d'état . Springer Verlag. ISBN 978-3-540-28342-3.
  4. Brigo, Damien ; Mercurio, Fabio (2001). Diffusions déplacées et mixtes pour des modèles de sourire analytiquement tractables . Mathematical Finance – Bachelier Congress 2000. Actes. Springer Verlag.
  5. Brigo, Damien ; Mercurio, Fabio (juin 2002). "La dynamique du mélange lognormal et l'étalonnage aux sourires de volatilité du marché". Revue internationale de finance théorique et appliquée . 5 (4) : 427. CiteSeerX  10.1.1.210.4165 . doi : 10.1142/S0219024902001511 .
  6. Spall, JC; Maryak, JL (1992). « Un estimateur bayésien réalisable des quantiles pour la précision des projectiles à partir de données non-iid ». Journal de l'Association statistique américaine . 87 (419) : 676-681. doi : 10.1080/01621459.1992.10475269 . JSTOR  2290205 .
  7. Alexander, Carol (décembre 2004). « Diffusion de mélange normale avec volatilité incertaine : modélisation des effets de sourire à court et à long terme » (PDF) . Revue Bancaire & Financière . 28 (12) : 2957-80. doi : 10.1016/j.jbankfin.2003.10.017 .
  8. Stylianou, Yannis ; Pantazis, Yannis ; Calderero, Felipe ; Larroy, Pedro ; Séverin, François ; Schimke, Sascha ; Bonal, Rolando; Matta, Federico; Valsamakis, Athanasios (2005). Vérification biométrique multimodale basée sur le GMM (PDF) .
  9. Chen, J.; Adebomi, 0.E.; Olusayo, OS ; Kulesza, W. (2010). L'évaluation de l'approche de densité d'hypothèse de probabilité de mélange gaussien pour le suivi multi-cibles . Conférence internationale IEEE sur les systèmes et techniques d'imagerie , 2010. doi : 10.1109/IST.2010.5548541 .

Liens externes