Information mutuelle ajustée - Adjusted mutual information

En théorie des probabilités et la théorie de l' information , l' information mutuelle ajustée , une variation d' information mutuelle peut être utilisé pour comparer clusterings . Il corrige l'effet de l'accord uniquement dû au hasard entre les regroupements, de la même manière que l' indice de rand ajusté corrige l' indice de Rand . Elle est étroitement liée à la variation de l'information : lorsqu'un ajustement similaire est apporté à l'indice VI, il devient équivalent à l'AMI. La mesure ajustée n'est cependant plus métrique.

Information mutuelle de deux partitions

Étant donné un ensemble S de N éléments , considérons deux partitions de S , à savoir avec R clusters, et avec C clusters. On suppose ici que les partitions sont des clusters dits durs ; les partitions sont deux à deux disjointes :

pour tous et complétez :

Les informations mutuelles sur le chevauchement des clusters entre U et V peuvent être résumées sous la forme d'un tableau de contingence R x C , où désigne le nombre d'objets communs aux clusters et . C'est-à-dire,

Supposons qu'un objet soit choisi au hasard dans S ; la probabilité que l'objet tombe dans le cluster est :

L' entropie associée au partitionnement U est :

H(U) est non négatif et prend la valeur 0 uniquement lorsqu'il n'y a pas d'incertitude déterminant l'appartenance à un cluster d'un objet, c'est -à- dire lorsqu'il n'y a qu'un seul cluster. De même, l'entropie du clustering V peut être calculée comme :

où . L' information mutuelle (MI) entre deux partitions :

où désigne la probabilité qu'un point appartienne à la fois à l'amas de U et à l'amas de V :

MI est une quantité non négative majorée par les entropies H ( U ) et H ( V ). Il quantifie les informations partagées par les deux regroupements et peut donc être utilisé comme mesure de similarité de regroupement .

Ajustement au hasard

Comme l' indice Rand , la valeur de base de l'information mutuelle entre deux clusters aléatoires ne prend pas une valeur constante et tend à être plus grande lorsque les deux partitions ont un plus grand nombre de clusters (avec un nombre fixe d'éléments d'ensemble N ). En adoptant un modèle hypergéométrique d'aléatoire, on peut montrer que l'information mutuelle attendue entre deux regroupements aléatoires est :

où désigne . Les variables et sont des sommes partielles du tableau de contingence ; C'est,

et

La mesure ajustée de l'information mutuelle peut alors être définie comme :

.

L'AMI prend la valeur 1 lorsque les deux partitions sont identiques et 0 lorsque le MI entre deux partitions est égal à la valeur attendue du seul fait du hasard.

Les références

  1. ^ A b c Vinh, NX; Epps, J.; Bailey, J. (2009). « Mesures théoriques de l'information pour la comparaison des regroupements ». Actes de la 26e Conférence internationale annuelle sur l'apprentissage automatique - ICML '09 . p. 1. doi : 10.1145/1553374.1553511 . ISBN 9781605585161.
  2. ^ Meila, M. (2007). « Comparer les regroupements – une distance basée sur l'information » . Journal d'analyse multivariée . 98 (5) : 873-895. doi : 10.1016/j.jmva.2006.11.013 .
  3. ^ Vinh, Nguyen Xuan; Epps, Julien ; Bailey, James (2010), « Mesures théoriques de l'information pour la comparaison des regroupements : variantes, propriétés, normalisation et correction pour le hasard » (PDF) , The Journal of Machine Learning Research , 11 (oct): 2837-54

Liens externes