Degrés de liberté (statistiques) - Degrees of freedom (statistics)

Dans les statistiques , le nombre de degrés de liberté est le nombre de valeurs dans le calcul final d'une statistique qui sont libres de varier.

Le nombre de manières indépendantes par lesquelles un système dynamique peut se déplacer, sans violer aucune contrainte qui lui est imposée, est appelé nombre de degrés de liberté. En d'autres termes, le nombre de degrés de liberté peut être défini comme le nombre minimum de coordonnées indépendantes qui peuvent spécifier complètement l' espace des phases , c'est-à-dire les positions et la quantité de mouvement en mécanique classique , du système.

Les estimations de paramètres statistiques peuvent être basées sur différentes quantités d'informations ou de données. Le nombre d'informations indépendantes qui entrent dans l'estimation d'un paramètre sont appelés degrés de liberté. En général, les degrés de liberté d'une estimation d'un paramètre sont égaux au nombre de scores indépendants qui entrent dans l'estimation moins le nombre de paramètres utilisés comme étapes intermédiaires dans l'estimation du paramètre lui-même (la plupart du temps la variance de l'échantillon a N  − 1 degrés de liberté, puisqu'il est calculé à partir de N scores aléatoires moins le seul 1 paramètre estimé comme étape intermédiaire, qui est la moyenne de l'échantillon).

Mathématiquement, les degrés de liberté sont le nombre de dimensions du domaine d'un vecteur aléatoire , ou essentiellement le nombre de composants "libres" (combien de composants doivent être connus avant que le vecteur ne soit complètement déterminé).

Le terme est le plus souvent utilisé dans le contexte des modèles linéaires ( régression linéaire , analyse de la variance ), où certains vecteurs aléatoires sont contraints de se situer dans des sous - espaces linéaires , et le nombre de degrés de liberté est la dimension du sous - espace . Les degrés de liberté sont également couramment associés aux longueurs au carré (ou « somme des carrés » des coordonnées) de ces vecteurs, et aux paramètres du chi carré et d'autres distributions qui surviennent dans les problèmes de test statistique associés.

Alors que les manuels d'introduction peuvent introduire des degrés de liberté en tant que paramètres de distribution ou par le biais de tests d'hypothèses, c'est la géométrie sous-jacente qui définit les degrés de liberté et est essentielle à une bonne compréhension du concept.

Histoire

Bien que le concept de base des degrés de liberté ait été reconnu dès 1821 dans les travaux de l'astronome et mathématicien allemand Carl Friedrich Gauss , sa définition et son utilisation modernes ont d'abord été élaborées par le statisticien anglais William Sealy Gosset dans son article Biometrika de 1908 « The Probable Error of a Mean", publié sous le pseudonyme "Student". Bien que Gosset n'ait pas utilisé le terme « degrés de liberté », il a expliqué le concept au cours du développement de ce qui est devenu connu sous le nom de distribution t de Student . Le terme lui-même a été popularisé par le statisticien et biologiste anglais Ronald Fisher , à partir de ses travaux de 1922 sur les carrés chi.

Notation

Dans les équations, le symbole typique des degrés de liberté est ν ( lettre grecque minuscule nu ). Dans le texte et les tableaux, l'abréviation "df" est couramment utilisée. RA Fisher a utilisé n pour symboliser les degrés de liberté, mais l'usage moderne réserve généralement n pour la taille de l'échantillon.

Des vecteurs aléatoires

Géométriquement, les degrés de liberté peuvent être interprétés comme la dimension de certains sous-espaces vectoriels. Comme point de départ, supposons que nous ayons un échantillon d'observations indépendantes normalement distribuées,

Cela peut être représenté comme un vecteur aléatoire à n dimensions :

Comme ce vecteur aléatoire peut se trouver n'importe où dans l'espace à n dimensions, il a n degrés de liberté.

Soit maintenant la moyenne de l' échantillon . Le vecteur aléatoire peut être décomposé comme la somme de la moyenne de l'échantillon plus un vecteur de résidus :

Le premier vecteur du côté droit est contraint d'être un multiple du vecteur de 1, et la seule quantité libre est . Il a donc 1 degré de liberté.

Le deuxième vecteur est contraint par la relation . Les n  − 1 premières composantes de ce vecteur peuvent être n'importe quoi. Cependant, une fois que vous connaissez les n  − 1 premiers composants, la contrainte vous indique la valeur du n ème composant. Par conséquent, ce vecteur a n  − 1 degrés de liberté.

Mathématiquement, le premier vecteur est la projection oblique du vecteur de données sur le sous - espace couvert par le vecteur de 1. Le 1 degré de liberté est la dimension de ce sous-espace. Le second vecteur résiduel est la projection des moindres carrés sur le complément orthogonal de  dimension ( n − 1) de ce sous-espace, et possède n  − 1 degrés de liberté.

Dans les applications de tests statistiques, on ne s'intéresse souvent pas directement aux vecteurs composants, mais plutôt à leurs longueurs au carré. Dans l'exemple ci-dessus, la somme des carrés résiduelle est

Si les points de données sont normalement distribués avec une moyenne de 0 et une variance , alors la somme des carrés résiduelle a une distribution chi-carré échelonnée (échelonnée par le facteur ), avec n  − 1 degrés de liberté. Les degrés de liberté, ici un paramètre de la distribution, peuvent encore être interprétés comme la dimension d'un sous-espace vectoriel sous-jacent.

De même, la statistique du test t pour un échantillon ,

suit une distribution t de Student avec n  − 1 degrés de liberté lorsque la moyenne hypothétique est correcte. Encore une fois, les degrés de liberté découlent du vecteur résiduel dans le dénominateur.

Dans les modèles d'équations structurelles

Lorsque les résultats des modèles d'équations structurelles (SEM) sont présentés, ils incluent généralement un ou plusieurs indices d'ajustement global du modèle, dont le plus courant est une statistique χ 2 . Cela constitue la base d'autres indices couramment rapportés. Bien qu'il soit ces statistiques qui sont le plus souvent interprétées, les degrés de liberté du χ 2 sont essentiels pour comprendre l' ajustement du modèle, ainsi que la nature du modèle lui - même.

Les degrés de liberté dans SEM sont calculés comme une différence entre le nombre d'informations uniques qui sont utilisées comme entrée dans l'analyse, parfois appelées connues, et le nombre de paramètres qui sont estimés de manière unique, parfois appelés inconnues. Par exemple, dans une analyse factorielle confirmatoire à un facteur avec 4 éléments, il y a 10 inconnues (les six covariances uniques parmi les quatre éléments et les quatre variances d'éléments) et 8 inconnues (4 charges factorielles et 4 variances d'erreur) pour 2 degrés de liberté. Les degrés de liberté sont importants pour la compréhension de l'ajustement du modèle si pour aucune autre raison que cela, toutes choses étant égales par ailleurs, moins il y a de degrés de liberté, meilleurs seront les indices tels que χ 2 .

Il a été démontré que les degrés de liberté peuvent être utilisés par les lecteurs d'articles contenant des SEM pour déterminer si les auteurs de ces articles rapportent en fait les bonnes statistiques d'ajustement du modèle. Dans les sciences organisationnelles, par exemple, près de la moitié des articles publiés dans les meilleures revues font état de degrés de liberté incompatibles avec les modèles décrits dans ces articles, laissant le lecteur se demander quels modèles ont réellement été testés.

Des résidus

Une façon courante de considérer les degrés de liberté est le nombre d'informations indépendantes disponibles pour estimer une autre information. Plus concrètement, le nombre de degrés de liberté est le nombre d'observations indépendantes dans un échantillon de données qui sont disponibles pour estimer un paramètre de la population à partir de laquelle cet échantillon est tiré. Par exemple, si nous avons deux observations, lors du calcul de la moyenne, nous avons deux observations indépendantes ; cependant, lors du calcul de la variance, nous n'avons qu'une seule observation indépendante, puisque les deux observations sont à égale distance de la moyenne de l'échantillon.

Lors de l'ajustement des modèles statistiques aux données, les vecteurs de résidus sont contraints de se situer dans un espace de dimension plus petite que le nombre de composants dans le vecteur. Cette dimension plus petite est le nombre de degrés de liberté d'erreur , également appelés degrés de liberté résiduels .

Exemple

L'exemple le plus simple est peut-être celui-ci. Supposer

sont des variables aléatoires chacune avec espérance mathématique μ et laissez

être la "moyenne de l'échantillon". puis les quantités

sont des résidus qui peuvent être considérés comme des estimations des erreurs X i  −  μ . La somme des résidus (contrairement à la somme des erreurs) est nécessairement 0. Si l'on connaît les valeurs de n'importe quel n  − 1 des résidus, on peut donc trouver le dernier. Cela signifie qu'ils sont contraints de se situer dans un espace de dimension n  − 1. On dit qu'il existe n  − 1 degrés de liberté pour les erreurs.

Un exemple un peu moins simple est celui de l' estimation par les moindres carrés de a et b dans le modèle

x i est donné, mais e i et donc Y i sont aléatoires. Soit et les estimations des moindres carrés de a et b . Puis les résidus

sont contraints de se situer dans l'espace défini par les deux équations

On dit qu'il y a n  − 2 degrés de liberté pour l'erreur.

Notationnellement, la lettre majuscule Y est utilisée pour spécifier le modèle, tandis que y minuscule dans la définition des résidus ; c'est parce que les premières sont des variables aléatoires hypothétiques et les dernières sont des données réelles.

Nous pouvons généraliser cela à une régression multiple impliquant p paramètres et covariables (par exemple p  − 1 prédicteurs et une moyenne (=interception dans la régression)), auquel cas le coût en degrés de liberté de l'ajustement est p , laissant n - p degrés de liberté pour les erreurs

Dans les modèles linéaires

La démonstration des distributions t et chi-carré pour les problèmes à un échantillon ci-dessus est l'exemple le plus simple où surviennent des degrés de liberté. Cependant, une géométrie et des décompositions vectorielles similaires sous-tendent une grande partie de la théorie des modèles linéaires , y compris la régression linéaire et l' analyse de la variance . Un exemple explicite basé sur la comparaison de trois moyennes est présenté ici ; la géométrie des modèles linéaires est discutée plus en détail par Christensen (2002).

Supposons que des observations indépendantes soient faites pour trois populations, , et . La restriction à trois groupes et à des tailles d'échantillon égales simplifie la notation, mais les idées sont facilement généralisables.

Les observations peuvent être décomposées en

où sont les moyennes des échantillons individuels, et est la moyenne des 3 n observations. En notation vectorielle, cette décomposition peut s'écrire sous la forme

Le vecteur d'observation, à gauche, a 3 n degrés de liberté. Du côté droit, le premier vecteur a un degré de liberté (ou dimension) pour la moyenne globale. Le deuxième vecteur dépend de trois variables aléatoires, , et . Cependant, ceux-ci doivent totaliser 0 et sont donc contraints ; le vecteur doit donc se situer dans un sous-espace à 2 dimensions, et a 2 degrés de liberté. Les 3 n  − 3 degrés de liberté restants sont dans le vecteur résiduel (constitué de n  − 1 degrés de liberté au sein de chacune des populations).

En analyse de variance (ANOVA)

Dans les problèmes de tests statistiques, on ne s'intéresse généralement pas aux vecteurs composants eux-mêmes, mais plutôt à leurs longueurs au carré, ou à la somme des carrés. Les degrés de liberté associés à une somme des carrés sont les degrés de liberté des vecteurs composants correspondants.

L'exemple à trois populations ci-dessus est un exemple d' analyse de variance à un facteur . Le modèle, ou traitement, somme des carrés est la longueur au carré du deuxième vecteur,

avec 2 degrés de liberté. La somme des carrés résiduelle, ou erreur, est

avec 3( n −1) degrés de liberté. Bien sûr, les livres d'introduction à l'ANOVA énoncent généralement les formules sans montrer les vecteurs, mais c'est cette géométrie sous-jacente qui donne lieu aux formules SS et montre comment déterminer sans ambiguïté les degrés de liberté dans une situation donnée.

Sous l'hypothèse nulle d'absence de différence entre les moyennes de population (et en supposant que les hypothèses de régularité standard de l'ANOVA sont satisfaites), les sommes des carrés ont des distributions du chi carré, avec les degrés de liberté correspondants. La statistique du test F est le rapport, après mise à l'échelle par les degrés de liberté. S'il n'y a pas de différence entre les populations, cela signifie que ce rapport suit une loi F avec 2 et 3 n  − 3 degrés de liberté.

Dans certains contextes compliqués, tels que les conceptions à parcelles divisées déséquilibrées , les sommes des carrés n'ont plus de distributions du Khi-deux à l'échelle. La comparaison de la somme des carrés avec les degrés de liberté n'a plus de sens, et le logiciel peut signaler certains « degrés de liberté » fractionnaires dans ces cas. De tels nombres n'ont pas d'interprétation véritable des degrés de liberté, mais fournissent simplement une distribution approximative du chi carré pour la somme des carrés correspondante. Les détails de ces approximations dépassent le cadre de cette page.

Dans les distributions de probabilité

Plusieurs distributions statistiques couramment rencontrées ( t de Student , chi-carré , F ) ont des paramètres communément appelés degrés de liberté . Cette terminologie reflète simplement que dans de nombreuses applications où ces distributions se produisent, le paramètre correspond aux degrés de liberté d'un vecteur aléatoire sous-jacent, comme dans l'exemple d'ANOVA précédent. Un autre exemple simple est : si sont des variables aléatoires normales indépendantes , la statistique

suit une distribution chi-carré avec n  − 1 degrés de liberté. Ici, les degrés de liberté résultent de la somme des carrés résiduelle dans le numérateur, et à son tour des n  − 1 degrés de liberté du vecteur résiduel sous-jacent .

Dans l'application de ces distributions aux modèles linéaires, les paramètres de degrés de liberté ne peuvent prendre que des valeurs entières . Les familles de distributions sous-jacentes autorisent des valeurs fractionnaires pour les paramètres de degrés de liberté, qui peuvent survenir dans des utilisations plus sophistiquées. Un ensemble d'exemples est constitué de problèmes où des approximations du chi carré basées sur des degrés de liberté effectifs sont utilisées. Dans d'autres applications, telles que la modélisation de données à queue lourde , la distribution à ou F peut être utilisée comme modèle empirique. Dans ces cas, il n'y a pas de degrés de liberté particuliers d' interprétation des paramètres de distribution, même si la terminologie peut continuer à être utilisée.

En régression non standard

De nombreuses méthodes de régression non standard, y compris les moindres carrés régularisés (par exemple, la régression de crête ), les lisseurs linéaires , les splines de lissage et la régression semi - paramétrique ne sont pas basées sur des projections des moindres carrés ordinaires , mais plutôt sur des moindres carrés régularisés ( généralisés et/ou pénalisés) , et donc les degrés de liberté définis en termes de dimensionnalité ne sont généralement pas utiles pour ces procédures. Cependant, ces procédures sont toujours linéaires dans les observations, et les valeurs ajustées de la régression peuvent être exprimées sous la forme

où est le vecteur des valeurs ajustées à chacune des valeurs de covariables d'origine du modèle ajusté, y est le vecteur d'origine des réponses et H est la matrice chapeau ou, plus généralement, la matrice plus lisse.

Pour l'inférence statistique, des sommes des carrés peuvent toujours être formées : la somme des carrés du modèle est ; la somme des carrés résiduelle est . Cependant, parce que H ne correspond pas à un ajustement par les moindres carrés ordinaire (c'est-à-dire qu'il ne s'agit pas d'une projection orthogonale), ces sommes des carrés n'ont plus de distributions du chi carré (à l'échelle, non centrales) et de degrés de dimension définis. -liberté ne sont pas utiles.

Les degrés de liberté effectifs de l'ajustement peuvent être définis de diverses manières pour mettre en œuvre des tests d'adéquation , une validation croisée et d'autres procédures d' inférence statistique . Ici , on peut distinguer entre régression degrés de liberté réels et les degrés de liberté effective résiduelle .

Degrés de liberté effectifs de régression

Pour les degrés de liberté effectifs de régression, les définitions appropriées peuvent inclure la trace de la matrice chapeau, tr( H ), la trace de la forme quadratique de la matrice chapeau, tr( H'H ), la forme tr(2 HH H' ), ou l' approximation de Satterthwaite , tr( H'H ) 2 /tr( H'HH'H ) . Dans le cas de la régression linéaire, la matrice chapeau H est X ( X  ' X ) −1 X ' , et toutes ces définitions se réduisent aux degrés de liberté habituels. Remarquerez que

les degrés de liberté de régression (non résiduels) dans les modèles linéaires sont « la somme des sensibilités des valeurs ajustées par rapport aux valeurs de réponse observées », c'est-à-dire la somme des scores de levier .

Une façon d'aider à conceptualiser cela est de considérer une simple matrice de lissage comme un flou gaussien , utilisé pour atténuer le bruit des données. Contrairement à un simple ajustement linéaire ou polynomial, le calcul des degrés de liberté effectifs de la fonction de lissage n'est pas simple. Dans ces cas, il est important d'estimer les degrés de liberté autorisés par la matrice afin que les degrés de liberté résiduels puissent ensuite être utilisés pour estimer des tests statistiques tels que .

Degrés de liberté effectifs résiduels

Il existe des définitions correspondantes des degrés de liberté effectifs résiduels (redf), avec H remplacé par I  −  H . Par exemple, si l'objectif est d'estimer la variance de l'erreur, la redf serait définie comme tr(( I  −  H )'( I  −  H )), et l'estimation sans biais est (avec ),

ou alors:

La dernière approximation ci-dessus réduit le coût de calcul de O ( n 2 ) à seulement O ( n ). En général, le numérateur serait la fonction objectif minimisée ; par exemple, si la matrice chapeau comprend une matrice de covariance d'observation, , devient alors .

Général

Notez que contrairement au cas d'origine, les degrés de liberté non entiers sont autorisés, bien que la valeur doive généralement toujours être contrainte entre 0 et n .

Considérons, à titre d'exemple, le lisseur k - le plus proche voisin , qui est la moyenne des k valeurs mesurées les plus proches du point donné. Ensuite, à chacun des n points mesurés, le poids de la valeur d'origine sur la combinaison linéaire qui constitue la valeur prédite n'est que de 1/ k . Ainsi, la trace de la matrice chapeau est n/k . Ainsi, le lissage coûte n/k degrés de liberté effectifs.

Comme autre exemple, considérons l'existence d'observations presque dupliquées. L'application naïve de la formule classique, np , conduirait à une surestimation du degré de liberté des résidus, comme si chaque observation était indépendante. De façon plus réaliste, cependant, la matrice chapeau H = X ( X  ' Σ −1 X ) −1 X ' Σ −1 impliquerait une matrice de covariance d'observation Σ indiquant la corrélation non nulle entre les observations.

La formulation plus générale du degré de liberté effectif aboutirait à une estimation plus réaliste pour, par exemple, la variance d'erreur 2 , qui à son tour met à l'échelle l' écart type a posteriori des paramètres inconnus ; le degré de liberté affectera également le facteur d'expansion nécessaire pour produire une ellipse d'erreur pour un niveau de confiance donné .

Autres formules

Des concepts similaires sont les degrés de liberté équivalents dans la régression non paramétrique , le degré de liberté du signal dans les études atmosphériques et le degré de liberté non entier dans la géodésie.

La somme des carrés résiduelle a une distribution du chi-carré généralisée , et la théorie associée à cette distribution fournit une voie alternative aux réponses fournies ci-dessus.

Voir également

Les références

Lectures complémentaires

Liens externes