Corrélation de distance - Distance correlation

En statistique et en théorie des probabilités , la corrélation de distance ou la covariance de distance est une mesure de dépendance entre deux vecteurs aléatoires appariés de dimension arbitraire, pas nécessairement égale . Le coefficient de corrélation de distance de population est nul si et seulement si les vecteurs aléatoires sont indépendants . Ainsi, la corrélation de distance mesure à la fois l'association linéaire et non linéaire entre deux variables aléatoires ou vecteurs aléatoires. Ceci contraste avec la corrélation de Pearson , qui ne peut détecter qu'une association linéaire entre deux variables aléatoires .

La corrélation de distance peut être utilisée pour effectuer un test statistique de dépendance avec un test de permutation . On calcule d'abord la corrélation de distance (impliquant le recentrage des matrices de distance euclidiennes) entre deux vecteurs aléatoires, puis on compare cette valeur aux corrélations de distance de nombreux brassages de données.

Plusieurs ensembles de points ( xy ), avec le coefficient de corrélation de distance x et y pour chaque ensemble. Comparer au graphique sur la corrélation

Fond

La mesure classique de la dépendance, le coefficient de corrélation de Pearson , est principalement sensible à une relation linéaire entre deux variables. La corrélation de distance a été introduite en 2005 par Gábor J. Székely dans plusieurs conférences pour remédier à cette lacune de la corrélation de Pearson , à savoir qu'elle peut facilement être nulle pour les variables dépendantes. La corrélation = 0 (non corrélée) n'implique pas l'indépendance tandis que la corrélation de distance = 0 implique l'indépendance. Les premiers résultats sur la corrélation de distance ont été publiés en 2007 et 2009. Il a été prouvé que la covariance de distance est la même que la covariance brownienne. Ces mesures sont des exemples de distances énergétiques .

La corrélation de distance est dérivée d'un certain nombre d'autres quantités qui sont utilisées dans le cahier des charges, en particulier: la variance de la distance , l' écart type de la distance et de covariance à distance . Ces quantités jouent les mêmes rôles que les moments ordinaires avec des noms correspondants dans la spécification du coefficient de corrélation produit-moment de Pearson .

Définitions

Covariance de distance

Commençons par la définition de la covariance de distance d'échantillon . Soit ( X kY k ), k  = 1, 2, ..., n un échantillon statistique d'une paire de variables aléatoires à valeur réelle ou vectorielle ( XY ). Tout d'abord, calculez les matrices de distance n par n ( a j , k ) et ( b j , k ) contenant toutes les distances par paires

où ||⋅ || désigne la norme euclidienne . Puis prendre toutes les distances doublement centrées

où est la moyenne de la j -ième ligne, est la moyenne de la k -ième colonne et est la moyenne générale de la matrice de distance de l' échantillon X. La notation est similaire pour les valeurs b . (Dans les matrices de distances centrées ( A j , k ) et ( B j , k ) toutes les lignes et toutes les colonnes totalisent zéro.) La covariance de distance d'échantillon au carré (un scalaire) est simplement la moyenne arithmétique des produits A j , k B j , k :

La statistique T n = n dCov 2 n ( X , Y ) détermine un test multivarié cohérent d'indépendance des vecteurs aléatoires dans des dimensions arbitraires. Pour une implémentation voir fonction dcov.test dans le package énergétique pour R .

La valeur de population de la covariance de distance peut être définie selon les mêmes lignes. Soit X une variable aléatoire qui prend des valeurs dans un espace euclidien de dimension p avec une distribution de probabilité μ et soit Y une variable aléatoire qui prend des valeurs dans un espace euclidien de dimension q avec une distribution de probabilité ν , et supposons que X et Y ont des valeurs finies attentes. Écrivez

Enfin, définissez la valeur de population de la covariance de distance au carré de X et Y comme

On peut montrer que cela équivaut à la définition suivante :

E désigne la valeur attendue, et et sont indépendants et distribués de manière identique. Les variables aléatoires amorcées et désignent des copies indépendantes et distribuées de manière identique (iid) des variables et et sont de même iid. La covariance de distance peut être exprimée en termes de covariance de Pearson classique , cov , comme suit :

Cette identité montre que la covariance des distances n'est pas la même que la covariance des distances, cov(|| XX' ||, || YY' || ). Celui-ci peut être nul même si X et Y ne sont pas indépendants.

Alternativement, la covariance de distance peut être définie comme la norme pondérée L 2 de la distance entre la fonction caractéristique jointe des variables aléatoires et le produit de leurs fonctions caractéristiques marginales :

où , , et sont les fonctions caractéristiques de ( X , Y ), X et Y , respectivement, p , q désignent la dimension euclidienne de X et Y , et donc de s et t , et c p , c q sont des constantes. La fonction de pondération est choisie pour produire une mesure d'équivariante d'échelle et d'invariance de rotation qui ne va pas à zéro pour les variables dépendantes. Une interprétation de la définition de la fonction caractéristique est que les variables l' e ISX et e Ity sont des représentations cycliques de X et Y avec des périodes données par s et t , et l'expression φ X , Y ( s , t ) - φ X ( s ) ϕ Y ( t ) dans le numérateur de la fonction caractéristique définition de la covariance de distance est simplement la covariance classique de e isX et e itY . La définition de la fonction caractéristique montre clairement que dCov 2 ( X , Y ) = 0 si et seulement si X et Y sont indépendants.

Variance de distance et écart type de distance

La variance de distance est un cas particulier de covariance de distance lorsque les deux variables sont identiques. La valeur de population de la variance de distance est la racine carrée de

où , , et sont des variables aléatoires indépendantes et distribuées de manière identique , désigne la valeur attendue , et pour la fonction , par exemple, .

La variance de la distance de l'échantillon est la racine carrée de

qui est un parent de Gini Corrado de différence moyenne introduite en 1912 (mais n'a pas fonctionné indice de Gini des distances centrées).

L' écart-type de distance est la racine carrée de la variance de distance .

Corrélation de distance

La corrélation de distance de deux variables aléatoires est obtenue en divisant leur covariance de distance par le produit de leurs écarts-types de distance . La corrélation de distance est

et la corrélation de distance d'échantillon est définie en substituant la covariance de distance d'échantillon et les variances de distance aux coefficients de population ci-dessus.

Pour un calcul facile de la corrélation de distance d'échantillon, voir la fonction dcor dans le package d' énergie pour R .

Propriétés

Corrélation de distance

  1. et ; cela contraste avec la corrélation de Pearson, qui peut être négative.
  2. si et seulement si X et Y sont indépendants.
  3. implique que les dimensions des sous-espaces linéaires couverts par les échantillons X et Y respectivement sont presque sûrement égales et si nous supposons que ces sous-espaces sont égaux, alors dans ce sous-espace pour un vecteur A , un scalaire b et une matrice orthonormée .

Covariance de distance

  1. et ;
  2. pour tous les vecteurs constants , scalaires et matrices orthonormées .
  3. Si les vecteurs aléatoires et sont indépendants alors
    L'égalité est vraie si et seulement si et sont tous deux des constantes, ou et sont tous deux des constantes, ou sont mutuellement indépendants.
  4. si et seulement si X et Y sont indépendants.

Cette dernière propriété est l'effet le plus important du travail avec des distances centrées.

La statistique est un estimateur biaisé de . Sous indépendance de X et Y

Un estimateur sans biais de est donné par Székely et Rizzo.

Variation de distance

  1. si et seulement si presque sûrement.
  2. si et seulement si chaque observation de l'échantillon est identique.
  3. pour tous les vecteurs constants A , les scalaires b et les matrices orthonormées .
  4. Si X et Y sont indépendants alors .

L'égalité est vérifiée dans (iv) si et seulement si l'une des variables aléatoires X ou Y est une constante.

Généralisation

La covariance de distance peut être généralisée pour inclure les puissances de la distance euclidienne. Définir

Alors pour tout , et sont indépendants si et seulement si . Il est important de noter que cette caractérisation ne vaut pas pour l'exposant ; dans ce cas pour bivariée , est une fonction déterministe de la corrélation de Pearson. Si et sont des puissances des distances correspondantes, , alors la covariance de distance d'échantillon peut être définie comme le nombre non négatif pour lequel

On peut étendre aux variables aléatoires à valeurs d' espace métrique et : Si a une loi dans un espace métrique de métrique , alors définir , , et (à condition qu'il soit fini, c'est-à-dire qu'il ait un premier moment fini), . Alors si a la loi (dans un espace métrique éventuellement différent avec un premier moment fini), définir

Ce n'est pas négatif pour tous ces ssi les deux espaces métriques ont un type négatif. Ici, un espace métrique est de type négatif s'il est isométrique à un sous-ensemble d'un espace de Hilbert . Si les deux espaces métriques ont un type négatif fort, alors ssi sont indépendants.

Définition alternative de la covariance de distance

La covariance de distance d' origine a été définie comme la racine carrée de , plutôt que le coefficient carré lui-même. a la propriété que c'est la distance d'énergie entre la distribution conjointe de et le produit de ses marginaux. Selon cette définition, cependant, la variance de distance, plutôt que l'écart type de distance, est mesurée dans les mêmes unités que les distances.

Alternativement, on pourrait définir la covariance de distance comme le carré de la distance énergétique : dans ce cas, l'écart type de distance de est mesuré dans les mêmes unités que la distance, et il existe un estimateur sans biais pour la covariance de distance de la population.

Dans ces définitions alternatives, la corrélation de distance est également définie comme le carré , plutôt que la racine carrée.

Formulation alternative : covariance brownienne

La covariance brownienne est motivée par la généralisation de la notion de covariance aux processus stochastiques. Le carré de la covariance des variables aléatoires X et Y peut s'écrire sous la forme suivante :

où E désigne la valeur attendue et le nombre premier désigne des copies indépendantes et distribuées de manière identique. Nous avons besoin de la généralisation suivante de cette formule. Si U(s), V(t) sont des processus aléatoires arbitraires définis pour tous les réels s et t alors définissent la version U-centrée de X par

chaque fois que la valeur attendue conditionnelle soustraite existe et notez Y V la version centrée sur V de Y. La covariance (U,V) de (X,Y) est définie comme le nombre non négatif dont le carré est

chaque fois que le membre de droite est non négatif et fini. L'exemple le plus important est lorsque U et V sont des mouvements browniens bilatéral indépendants / processus de Wiener avec une espérance nulle et une covariance | s | + | t | − | st | = 2 min( s , t ) (pour s non négatifs, t uniquement). (C'est deux fois la covariance du processus de Wiener standard ; ici le facteur 2 simplifie les calculs.) Dans ce cas, la covariance ( U , V ) est appelée covariance brownienne et est notée par

Il y a une coïncidence surprenante : la covariance brownienne est la même que la covariance de distance :

et donc la corrélation brownienne est la même que la corrélation de distance.

D'autre part, si nous remplaçons le mouvement brownien par la fonction d'identité déterministe id alors Cov id ( X , Y ) est simplement la valeur absolue de la covariance de Pearson classique ,

Métriques associées

D'autres métriques corrélationnelles, y compris les métriques corrélationnelles basées sur le noyau (telles que le critère d'indépendance de Hilbert-Schmidt ou HSIC) peuvent également détecter les interactions linéaires et non linéaires. La corrélation de distance et les métriques basées sur le noyau peuvent être utilisées dans des méthodes telles que l' analyse de corrélation canonique et l' analyse de composants indépendants pour obtenir une puissance statistique plus élevée .

Voir également

Remarques

Les références

Liens externes