Agrégation spectrale - Spectral clustering

Un exemple de deux graphes connectés

Dans les statistiques multivariées , les techniques de regroupement spectral utilisent le spectre ( valeurs propres ) de la matrice de similarité des données pour effectuer une réduction de la dimensionnalité avant le regroupement en moins de dimensions. La matrice de similarité est fournie en entrée et consiste en une évaluation quantitative de la similarité relative de chaque paire de points dans l'ensemble de données.

En application à la segmentation d'images, le regroupement spectral est connu sous le nom de catégorisation d'objets basée sur la segmentation .

Définitions

Étant donné un ensemble énuméré de points de données, la matrice de similarité peut être définie comme une matrice symétrique , où représente une mesure de la similarité entre les points de données avec les indices et . L'approche générale de la classification spectrale consiste à utiliser une méthode de classification standard (il existe de nombreuses méthodes de ce type, k -means est discuté ci - dessous ) sur les vecteurs propres pertinents d'une matrice laplacienne de . Il existe de nombreuses façons différentes de définir un Laplacien qui ont des interprétations mathématiques différentes, et donc le regroupement aura également des interprétations différentes. Les vecteurs propres qui sont pertinents sont ceux qui correspondent aux plus petites valeurs propres du Laplacien, à l'exception de la plus petite valeur propre qui aura une valeur de 0. Pour l'efficacité du calcul, ces vecteurs propres sont souvent calculés comme les vecteurs propres correspondant aux plus grandes valeurs propres d'un fonction du Laplacien.

Le regroupement spectral est bien connu pour se rapporter à la partition d'un système masse-ressort, où chaque masse est associée à un point de données et chaque raideur de ressort correspond à un poids d'un bord décrivant une similitude des deux points de données liés. Plus précisément, la référence classique explique que le problème aux valeurs propres décrivant les modes de vibration transversaux d'un système masse-ressort est exactement le même que le problème aux valeurs propres pour la matrice laplacienne du graphe définie comme

,

où est la matrice diagonale

Les masses qui sont étroitement reliées par les ressorts dans le système masse-ressort se déplacent évidemment ensemble à partir de la position d'équilibre dans les modes de vibration à basse fréquence, de sorte que les composantes des vecteurs propres correspondant aux plus petites valeurs propres du graphique Laplacien peuvent être utilisées pour regroupement des masses.

Une technique de regroupement spectrale connexe populaire est l' algorithme de coupe normalisée ou l' algorithme Shi-Malik introduit par Jianbo Shi et Jitendra Malik, couramment utilisé pour la segmentation d'images . Il divise les points en deux ensembles en fonction du vecteur propre correspondant à la deuxième plus petite valeur propre du Laplacien normalisé symétrique défini comme

Un algorithme mathématiquement équivalent prend le vecteur propre correspondant à la plus grande valeur propre de la matrice d' adjacence normalisée de la marche aléatoire .

Connaissant les vecteurs propres, le partitionnement peut être effectué de différentes manières, par exemple en calculant la médiane des composantes du deuxième plus petit vecteur propre , et en plaçant tous les points dont la composante dans est plus grande que dans , et le reste dans . L'algorithme peut être utilisé pour le regroupement hiérarchique en partitionnant à plusieurs reprises les sous-ensembles de cette manière.

Algorithmes

Algorithme de base
  1. Calculer le Laplacien (ou le Laplacien normalisé)
  2. Calculer les premiers vecteurs propres (les vecteurs propres correspondant aux plus petites valeurs propres de )
  3. Considérons la matrice formée par les premiers vecteurs propres ; la -ième ligne définit les caractéristiques du nœud du graphe
  4. Regroupez les nœuds du graphique en fonction de ces caractéristiques (par exemple, en utilisant le clustering k-means )

Si la matrice de similarité n'a pas déjà été explicitement construite, l'efficacité du clustering spectral peut être améliorée si la solution du problème de valeurs propres correspondant est effectuée sans matrice (sans manipuler explicitement ni même calculer la matrice de similarité), comme dans le Algorithme de Lanczos .

Pour les graphes de grande taille, la deuxième valeur propre de la matrice laplacienne du graphe (normalisé) est souvent mal conditionnée , ce qui conduit à une convergence lente des solveurs itératifs de valeurs propres. Le préconditionnement est une technologie clé qui accélère la convergence, par exemple dans la méthode LOBPCG sans matrice . Le clustering spectral a été appliqué avec succès sur de grands graphes en identifiant d'abord leur structure de communauté , puis en regroupant les communautés.

Le regroupement spectral est étroitement lié à la réduction de dimensionnalité non linéaire , et des techniques de réduction de dimension telles que l'intégration localement linéaire peuvent être utilisées pour réduire les erreurs dues au bruit ou aux valeurs aberrantes.

Logiciel

Le logiciel libre mise en œuvre de la classification spectrale est disponible dans les grands projets open source comme scikit-learn en utilisant LOBPCG avec multigrille préconditionnement ou ARPACK , MLlib pour pseudo-regroupement en utilisant l'vecteur propre itération de puissance méthode et R .

Relation avec d'autres méthodes de clustering

Les idées derrière le regroupement spectral peuvent ne pas être immédiatement évidentes. Il peut être utile de mettre en évidence les relations avec d'autres méthodes. En particulier, il peut être décrit dans le contexte des méthodes de clustering du noyau, ce qui révèle plusieurs similitudes avec d'autres approches.

Relation avec k- moyennes

Le problème k -means du noyau est une extension du problème k -means où les points de données d'entrée sont mappés de manière non linéaire dans un espace de caractéristiques de dimension supérieure via une fonction noyau . Le problème k- means du noyau pondéré étend encore ce problème en définissant un poids pour chaque cluster comme l'inverse du nombre d'éléments dans le cluster,

Supposons une matrice des coefficients de normalisation pour chaque point pour chaque cluster si et zéro sinon. Supposons que est la matrice du noyau pour tous les points. Le noyau pondéré k -means problème avec n points et k clusters est donné comme,

tel que

tel que . De plus, il y a des contraintes d'identité sur donné par,

où représente un vecteur de uns. Ce problème peut être reformulé comme

Ce problème est équivalent au problème de clustering spectral lorsque les contraintes d'identité sur sont relâchées. En particulier, le problème des k- moyennes pondérées du noyau peut être reformulé comme un problème de clustering spectral (partitionnement de graphe) et vice versa. Les sorties des algorithmes sont des vecteurs propres qui ne satisfont pas aux exigences d'identité pour les variables indicatrices définies par . Par conséquent, le post-traitement des vecteurs propres est nécessaire pour l'équivalence entre les problèmes. Transformer le problème de clustering spectral en un problème de k- means à noyau pondéré réduit considérablement la charge de calcul.

Relation avec DBSCAN

Le clustering spectral est également lié au clustering DBSCAN , qui trouve les composants connectés à la densité. Les composants connectés correspondent à des clusters spectraux optimaux (pas de bords coupés) ; et DBSCAN utilise un graphe voisin asymétrique avec des bords supprimés lorsque les points source ne sont pas denses. Ainsi, DBSCAN est un cas particulier de clustering spectral, mais qui permet des algorithmes plus efficaces (pire des cas , dans de nombreux cas pratiques beaucoup plus rapides avec des indices).

Mesures pour comparer les clusters

Ravi Kannan, Santosh Vempala et Adrian Vetta ont proposé une mesure bicritère pour définir la qualité d'un clustering donné. Ils ont dit qu'un clustering était un (α, ε)-clustering si la conductance de chaque cluster (dans le clustering) était d'au moins α et le poids des bords inter-clusters était d'au plus ε fraction du poids total de tous les arêtes dans le graphique. Ils examinent également deux algorithmes d'approximation dans le même article.

Solutions approximatives

Le clustering spectral est coûteux en calcul à moins que le graphique ne soit clairsemé et que la matrice de similarité puisse être construite efficacement. Si la matrice de similarité est une matrice de noyau RBF, le clustering spectral est coûteux. Il existe des algorithmes approximatifs pour rendre le clustering spectral plus efficace : méthode de puissance, méthode de Nystrom, etc. Cependant, des recherches récentes ont mis en évidence les problèmes du clustering spectral avec la méthode de Nystrom ; en particulier, la matrice de similarité avec l'approximation de Nystrom n'est pas positivement élémentaire, ce qui peut être problématique.

Histoire et littératures connexes

Le clustering spectral a une longue histoire. Le clustering spectral en tant que méthode d' apprentissage automatique a été popularisé par Shi & Malik et Ng, Jordan et Weiss.

Les idées et les mesures de réseau liées au clustering spectral jouent également un rôle important dans un certain nombre d'applications apparemment différentes des problèmes de clustering. Par exemple, les réseaux avec des partitions spectrales plus fortes mettent plus de temps à converger dans les modèles de mise à jour d'opinion utilisés en sociologie et en économie.

Voir également

Les références

  1. ^ J. Demmel, [1] , CS267: Notes pour la conférence 23, 9 avril 1999, Graph Partitioning, Part 2
  2. ^ A b c Jianbo Shi et Jitendra Malik, " Les coupes et Normalisé image Segmentation" , IEEE Transactions on PAMI, Vol. 22, n° 8, août 2000.
  3. ^ Marina Meilă & Jianbo Shi, " Segmentation d'apprentissage par des promenades aléatoires ", Systèmes de traitement de l'information neuronale 13 (NIPS 2000), 2001, pp. 873-879.
  4. ^ Zare, Habil; P. Shooshtari ; A. Gupta ; R. Brinkman (2010). "Réduction des données pour le regroupement spectral pour analyser les données de cytométrie en flux à haut débit" . BMC Bioinformatique . 11 : 403. doi : 10.1186/1471-2105-11-403 . PMC  2923634 . PMID  20667133 .
  5. ^ Arias-Castro, E. et Chen, G. et Lerman, G. (2011), "Regroupement spectral basé sur des approximations linéaires locales.", Electronic Journal of Statistics , 5 : 1537–1587, arXiv : 1001.1323 , doi : 10.1214 /11-ejs651 , S2CID  88518155CS1 maint : plusieurs noms : liste des auteurs ( lien )
  6. ^ http://scikit-learn.org/stable/modules/clustering.html#spectral-clustering
  7. ^ Knyazev, Andrew V. (2003). Boley ; Dhillon ; Gosh ; Kogan (éd.). Solveurs propres modernes préconditionnés pour la segmentation d'images spectrales et la bissection de graphes . Regroupement de grands ensembles de données ; Troisième conférence internationale IEEE sur l'exploration de données (ICDM 2003) Melbourne, Floride : IEEE Computer Society. p. 59-62.
  8. ^ Knyazev, Andrew V. (2006). Segmentation d'images spectrales multi-échelles Préconditionnement multi-échelles pour le calcul des valeurs propres des laplaciens de graphes en segmentation d'images . Atelier d'apprentissage rapide des collecteurs, WM Williamburg, VA. doi : 10.13140/RG.2.2.35280.02565 .
  9. ^ Knyazev, Andrew V. (2006). Partitionnement de graphes spectrales multi-échelles et segmentation d'images . Atelier sur les algorithmes pour les ensembles de données massifs modernes Stanford University et Yahoo! Recherche.
  10. ^ http://spark.apache.org/docs/latest/mllib-clustering.html#power-iteration-clustering-pic
  11. ^ https://cran.r-project.org/web/packages/kernlab
  12. ^ Filippone M., Camastra F., Masulli, F., Rovetta, S. (janvier 2008). « Une enquête sur le noyau et les méthodes spectrales pour le clustering ». Reconnaissance de motifs . 41 (1) : 176-190. Bibcode : 2008PatRe..41..176F . doi : 10.1016/j.patcog.2007.05.018 .CS1 maint : plusieurs noms : liste des auteurs ( lien ) CS1 maint : date et année ( lien )
  13. ^ Dhillon, IS et Guan, Y. et Kulis, B. (2004). "Kernel k -means: clustering spectral et coupes normalisées". Actes de la dixième conférence internationale ACM SIGKDD sur la découverte des connaissances et l'exploration de données . p. 551-556.CS1 maint : plusieurs noms : liste des auteurs ( lien )
  14. ^ Dhillon, Inderjit; Yuqiang Guan ; Brian Kulis (novembre 2007). « Coupes de graphiques pondérées sans vecteurs propres : une approche à plusieurs niveaux ». Transactions IEEE sur l'analyse des modèles et l'intelligence machine . 29 (11) : 1944-1957. CiteSeerX  10.1.1.131.2635 . doi : 10.1109/tpami.2007.1115 . PMID  17848776 . S2CID  9402790 .
  15. ^ Schubert, Erich; Hess, Sibylle ; Morik, Katharina (2018). La relation entre DBSCAN et la factorisation matricielle et le regroupement spectral (PDF) . LWDA. p. 330-334.
  16. ^ Kannan, Ravi; Vempala, Santosh ; Vetta, Adrien (2004). "Sur les regroupements : bon, mauvais et spectral". Journal de l'ACM . 51 (3) : 497-515. doi : 10.1145/990308.990313 . S2CID  207558562 .
  17. ^ Boutsidis, Christos (2015). « Regroupement spectral via la méthode de puissance prouvable » (PDF) . Conférence internationale sur l'apprentissage automatique .
  18. ^ Fowlkes, C (2004). "Regroupement spectral à l'aide de la méthode de Nystrom" . Transactions IEEE sur l'analyse des modèles et l'intelligence machine . 26 (2) : 214-25. doi : 10.1109/TPAMI.2004.1262185 . PMID  15376896 . S2CID  2384316 .
  19. ^ S. Wang, A. Gittens et MW Mahoney (2019). « Regroupement évolutif de K-Means du noyau avec l'approximation de Nystrom : limites d'erreur relative ». Journal de recherche en apprentissage automatique . 20 : 1–49. arXiv : 1706.02803 .CS1 maint : plusieurs noms : liste des auteurs ( lien )
  20. ^ Cheeger, Jeff (1969). « Une borne inférieure pour la plus petite valeur propre du Laplacien ». Actes de la Conférence de Princeton en l'honneur du professeur S. Bochner .
  21. ^ William Donath et Alan Hoffman (1972). « Algorithmes de partitionnement de graphes et de logique informatique basés sur les vecteurs propres des matrices de connexions ». Bulletin de divulgation technique IBM .
  22. ^ Fiedler, Miroslav (1973). "Connectivité algébrique des graphes" . Journal mathématique tchécoslovaque . 23 (2) : 298-305. doi : 10.21136/CMJ.1973.101168 .
  23. ^ Stephen Guattery et Gary L. Miller (1995). « Sur la performance des méthodes de partitionnement de graphes spectraux ». Symposium annuel ACM-SIAM sur les algorithmes discrets .
  24. ^ Daniel A. Spielman et Shang-Hua Teng (1996). « Travaux de partitionnement spectral : graphes planaires et maillages d'éléments finis ». Symposium annuel de l'IEEE sur les fondements de l'informatique .
  25. ^ un b Ng, Andrew Y et Jordan, Michael I et Weiss, Yair (2002). « Sur le regroupement spectral : analyse et un algorithme » (PDF) . Avancées dans les systèmes de traitement de l'information neuronale .CS1 maint : plusieurs noms : liste des auteurs ( lien )
  26. ^ DeMarzo, PM ; Vayanos, D.; Zwiebel, J. (2003-08-01). "Biais de persuasion, influence sociale et opinions unidimensionnelles" . Le Journal trimestriel d'économie . Presse universitaire d'Oxford (OUP). 118 (3) : 909-968. doi : 10.1162/00335530360698469 . ISSN  0033-5533 .
  27. ^ Golub, Benjamin; Jackson, Matthew O. (2012-07-26). "Comment l'homophilie affecte la vitesse d'apprentissage et la dynamique de meilleure réponse". Le Journal trimestriel d'économie . Oxford University Press (OUP). 127 (3) : 1287-1338. doi : 10.1093/qje/qjs021 . ISSN  0033-5533 .