Statistique chi carré réduite - Reduced chi-squared statistic

En statistique , la statistique du chi carré réduit est largement utilisée dans les tests d' ajustement . Il est également appelé écart moyen pondéré au carré ( MSWD ) dans la datation isotopique et variance du poids unitaire dans le contexte des moindres carrés pondérés .

Sa racine carrée est appelée erreur standard régression , erreur standard de la régression ou l' erreur - type de l'équation (voir moindres carrés ordinaire # réduit chi carré )

Définition

Il est défini comme le chi carré par degré de liberté :

où le chi carré est une somme pondérée des écarts au carré :

avec des entrées: variance , les observations O données et calculé C . Le degré de liberté ,, est égal au nombre d'observations n moins le nombre de paramètres ajustés m .

Dans les moindres carrés pondérés , la définition est souvent écrite en notation matricielle comme

r est le vecteur des résidus et W est la matrice de poids, l'inverse de la matrice de covariance d'entrée (diagonale) des observations. Si W n'est pas diagonal, alors les moindres carrés généralisés s'appliquent.

Dans les moindres carrés ordinaires , la définition se simplifie en:

où le numérateur est la somme résiduelle des carrés (RSS).

Discussion

En règle générale, lorsque la variance de l'erreur de mesure est connue a priori , a indique un mauvais ajustement du modèle. A indique que l'ajustement n'a pas entièrement capturé les données (ou que la variance d'erreur a été sous-estimée). En principe, une valeur d' environ indique que l'étendue de la correspondance entre les observations et les estimations est en accord avec la variance d'erreur. A indique que le modèle «sur-ajuste» les données: soit le modèle est mal ajusté au bruit, soit la variance d'erreur a été surestimée.

Lorsque la variance de l'erreur de mesure n'est que partiellement connue, le chi-carré réduit peut servir de correction estimée a posteriori , voir moyenne arithmétique pondérée # Correction de la sur- ou sous-dispersion .

Applications

Géochronologie

En géochronologie , le MSWD est une mesure de la qualité de l'ajustement qui prend en compte l'importance relative de la reproductibilité interne et externe, avec l'utilisation la plus courante dans la datation isotopique.

En général quand:

MSWD = 1 si les données d'âge correspondent à une distribution normale univariée dans l' espace t (pour l' âge moyen arithmétique ) ou log ( t ) (pour l' âge moyen géométrique ), ou si les données de composition correspondent à une distribution normale bivariée dans [log ( U / He ), log ( Th / He)] - espace (pour l'âge central).

MSWD <1 si la dispersion observée est inférieure à celle prédite par les incertitudes analytiques. Dans ce cas, les données sont dites "sous-dispersées", ce qui indique que les incertitudes analytiques ont été surestimées.

MSWD> 1 si la dispersion observée dépasse celle prédite par les incertitudes analytiques. Dans ce cas, les données sont dites "surdispersées". Cette situation est la règle plutôt que l'exception en géochronologie (U-Th) / He, indiquant une compréhension incomplète du système isotopique. Plusieurs raisons ont été proposées pour expliquer la surdispersion des données (U-Th) / He, y compris les distributions U-Th inégalement réparties et les dommages dus aux rayonnements.

Souvent, le géochronologue déterminera une série de mesures d'âge sur un seul échantillon, la valeur mesurée ayant une pondération et une erreur associée pour chaque détermination d'âge. En ce qui concerne la pondération, on peut soit pondérer tous les âges mesurés de manière égale, soit les pondérer par la proportion de l'échantillon qu'ils représentent. Par exemple, si les deux tiers de l'échantillon ont été utilisés pour la première mesure et un tiers pour la deuxième et dernière mesure, alors on pourrait pondérer la première mesure deux fois celle de la seconde.

La moyenne arithmétique des déterminations d'âge est

mais cette valeur peut être trompeuse, à moins que chaque détermination de l'âge ne soit d'égale importance.

Lorsqu'on peut supposer que chaque valeur mesurée a la même pondération ou la même signification, les estimateurs biaisés et sans biais (ou « échantillon » et «population» respectivement) de la variance sont calculés comme suit:

L'écart type est la racine carrée de la variance.

Lorsque les déterminations individuelles d'un âge ne sont pas d'égale importance, il est préférable d'utiliser une moyenne pondérée pour obtenir un âge «moyen», comme suit:

L'estimateur pondéré biaisé de la variance peut être démontré

qui peut être calculé comme

L'estimateur pondéré sans biais de la variance de l'échantillon peut être calculé comme suit:

Là encore, l'écart type correspondant est la racine carrée de la variance.

L'estimateur pondéré sans biais de la variance de l'échantillon peut également être calculé à la volée comme suit:

Le carré moyen non pondéré des écarts pondérés (MSWD non pondéré) peut alors être calculé comme suit:

Par analogie, le carré moyen pondéré des écarts pondérés (MSWD pondéré) peut être calculé comme suit:

Analyse de Rasch

Dans l'analyse des données basée sur le modèle de Rasch , la statistique du chi carré réduit est appelée statistique moyenne quadratique de la tenue, et la statistique du chi carré réduit pondérée par l'information est appelée statistique du carré moyen d'Infit.

Les références