Homoscédasticité - Homoscedasticity

Graphique avec des données aléatoires montrant l'homoscédasticité : à chaque valeur de x , la valeur y des points a à peu près la même variance .

Dans les statistiques , une séquence (ou un vecteur) de variables aléatoires est homoscédastique / ˌ h m s k ə d æ s t ɪ k / si toutes ses variables aléatoires ont le même fini variance . Ceci est également connu sous le nom d' homogénéité de la variance . La notion complémentaire est appelée hétéroscédasticité . Les orthographes homos k edasticity et heteros k edasticity sont également fréquemment utilisées.

En supposant une variable est homoscédastique alors qu'en réalité il est hétéroscédastique ( / ˌ h ɛ t ər s k ə d æ s t ɪ k / ) produit des estimations ponctuelles sans biais , mais inefficaces et des estimations biaisées des erreurs standard, et peut entraîner surestimer la qualité de l'ajustement telle que mesurée par le coefficient de Pearson .

Hypothèses d'un modèle de régression

Une hypothèse standard dans une régression linéaire , est que la variance du terme de perturbation est la même à travers les observations, et en particulier ne dépend pas des valeurs des variables explicatives C'est l'une des hypothèses sous lesquelles le théorème de Gauss-Markov s'applique et les moindres carrés ordinaires (MCO) donnent le meilleur estimateur linéaire sans biais (« BLEU »). L'homoscédasticité n'est pas requise pour que les estimations des coefficients soient non biaisées, cohérentes et asymptotiquement normales, mais elle est requise pour que les MCO soient efficaces. Il est également nécessaire que les erreurs types des estimations soient non biaisées et cohérentes, de sorte qu'il est nécessaire pour un test d'hypothèse précis, par exemple pour un test t de savoir si un coefficient est significativement différent de zéro.

Une façon plus formelle d'énoncer l'hypothèse d'homoscédasticité est que les diagonales de la matrice de variance-covariance de doivent toutes être le même nombre : , où est le même pour tout i . Notez que cela permet toujours aux hors-diagonales, les covariances , d'être différentes de zéro, ce qui constitue une violation distincte des hypothèses de Gauss-Markov connues sous le nom de corrélation en série.

Exemples

Les matrices ci-dessous sont des covariances de la perturbation, avec des entrées , lorsqu'il n'y a que trois observations dans le temps. La perturbation dans la matrice A est homoscédastique ; c'est le cas simple où MCO est le meilleur estimateur linéaire sans biais. Les perturbations dans les matrices B et C sont hétéroscédastiques. Dans la matrice B, la variance varie dans le temps, augmentant régulièrement dans le temps ; dans la matrice C, la variance dépend de la valeur de x. La perturbation dans la matrice D est homoscédastique car les variances diagonales sont constantes, même si les covariances hors diagonale sont non nulles et que les moindres carrés ordinaires sont inefficaces pour une autre raison : la corrélation sérielle.

Si y est la consommation, x est le revenu et les caprices du consommateur, et nous estimons que si les caprices des consommateurs les plus riches affectent davantage leurs dépenses en dollars absolus, nous pourrions avoir une augmentation avec le revenu, comme dans la matrice C ci-dessus.

Essai

Les résidus peuvent être testés pour l'homoscédasticité à l'aide du test de Breusch-Pagan , qui effectue une régression auxiliaire des résidus au carré sur les variables indépendantes. A partir de cette régression auxiliaire, la somme des carrés expliquée est retenue, divisée par deux, puis devient la statistique de test pour une distribution chi-carré avec des degrés de liberté égaux au nombre de variables indépendantes. L'hypothèse nulle de ce test du chi carré est l'homoscédasticité, et l'hypothèse alternative indiquerait l'hétéroscédasticité. Étant donné que le test de Breusch-Pagan est sensible aux écarts par rapport à la normalité ou aux petits échantillons, le test de Koenker-Bassett ou « généralisé Breusch-Pagan » est couramment utilisé à la place. De la régression auxiliaire, il retient la valeur R-carré qui est ensuite multipliée par la taille de l'échantillon, puis devient la statistique de test pour une distribution chi-carré (et utilise les mêmes degrés de liberté). Bien qu'il ne soit pas nécessaire pour le test de Koenker-Bassett, le test de Breusch-Pagan exige que les carrés des résidus soient également divisés par la somme des carrés des résidus divisée par la taille de l'échantillon. Le test d'hétéroscédasticité par groupe nécessite le test de Goldfeld-Quandt .

Distributions homoscédastiques

Deux ou plusieurs distributions normales , , sont homoscédastiques si elles partagent une matrice de covariance (ou de corrélation ) commune, . Les distributions homoscédastiques sont particulièrement utiles pour dériver des algorithmes de reconnaissance de formes statistiques et d' apprentissage automatique . Un exemple populaire d'algorithme qui suppose l'homoscédasticité est l' analyse discriminante linéaire de Fisher .

Le concept d'homoscédasticité peut être appliqué aux distributions sur des sphères.

Voir également

Les références