t -statistique - t-statistic

Dans les statistiques , le t -statistic est le rapport entre le départ de la valeur estimée d'un paramètre à partir de sa valeur hypothétique à son erreur standard . Il est utilisé dans les tests d'hypothèses via le t -test de Student . La statistique t est utilisée dans un test t pour déterminer s'il faut soutenir ou rejeter l'hypothèse nulle. Il est très similaire au score Z, mais à la différence que la statistique t est utilisée lorsque la taille de l'échantillon est petite ou que l'écart-type de la population est inconnu. Par exemple, la statistique t est utilisée pour estimer la moyenne de la population à partir d'une distribution d' échantillonnage des moyennes de l' échantillon si l' écart-type de la population est inconnu. Il est également utilisé avec la valeur p lors de l'exécution de tests d'hypothèse où la valeur p nous indique quelles sont les chances que les résultats se soient produits.

Définition et caractéristiques

Soit un estimateur du paramètre β dans un modèle statistique . Alors une statistique t pour ce paramètre est n'importe quelle quantité de la forme

β 0 est une constante connue non aléatoire qui peut correspondre ou non à la valeur réelle du paramètre inconnu β , et est l' erreur standard de l'estimateur pour β .

Par défaut, les progiciels statistiques indiquent t -statistic avec β 0 = 0 (ces t -statistics sont utilisées pour tester la signification du régresseur correspondant). Cependant, lorsque la statistique t est nécessaire pour tester l'hypothèse de la forme H 0 : β = β 0 , alors un β 0 non nul peut être utilisé.

Si est un estimateur ordinaire des moindres carrés dans le modèle de régression linéaire classique (c'est-à-dire avec des termes d'erreur normalement distribués et homoscédastiques ), et si la vraie valeur du paramètre β est égale à β 0 , alors la distribution d'échantillonnage de la statistique t est le Student t de -Distribution avec ( n - k ) degrés de liberté, où n est le nombre d'observations, et k est le nombre de régresseurs (y compris l'interception).

Dans la majorité des modèles, l'estimateur est cohérent pour β et est distribué asymptotiquement normalement . Si la vraie valeur du paramètre β est égale à β 0 et que la quantité estime correctement la variance asymptotique de cet estimateur, alors la statistique t aura asymptotiquement la distribution normale standard .

Dans certains modèles, la distribution de la statistique t est différente de la distribution normale, même asymptotiquement. Par exemple, lorsqu'une série temporelle avec une racine unitaire est régressée dans le test Dickey – Fuller augmenté , le test t -statistic aura asymptotiquement l'une des distributions Dickey – Fuller (en fonction du paramètre de test).

Utiliser

Le plus souvent, les statistiques t sont utilisées dans les tests t de Student , une forme de test d'hypothèses statistiques , et dans le calcul de certains intervalles de confiance .

La principale propriété de la statistique t est qu'il s'agit d'une grandeur pivot - bien que définie en termes de moyenne de l'échantillon, sa distribution d'échantillonnage ne dépend pas des paramètres de la population et peut donc être utilisée quels qu'ils soient.

On peut également diviser un résidu par l' écart type de l'échantillon :

pour calculer une estimation du nombre d'écarts types, un échantillon donné est à partir de la moyenne, en tant que version échantillon d'un score z, le score z nécessitant les paramètres de population.

Prédiction

Étant donné une distribution normale avec une moyenne et une variance inconnues, la statistique t d'une observation future après que l'on a fait n observations, est une statistique auxiliaire - une grandeur pivot (ne dépend pas des valeurs de μ et σ 2 ) qui est une statistique (calculé à partir d'observations). Cela permet de calculer un intervalle de prédiction fréquentiste (un intervalle de confiance prédictif ), via la distribution t suivante:

La résolution des rendements de la distribution de prédiction

à partir desquels on peut calculer des intervalles de confiance prédictifs - étant donné une probabilité p, on peut calculer des intervalles tels que 100 p % du temps, la prochaine observation tombera dans cet intervalle.

Histoire

Le terme « statistique t » est abrégé de «statistique de test d'hypothèse». En statistique, la distribution t a été dérivée pour la première fois en tant que distribution postérieure en 1876 par Helmert et Lüroth . La distribution t est également apparue sous une forme plus générale en tant que distribution Pearson de type IV dans l'article de Karl Pearson de 1895. Cependant, la T-Distribution, également connue sous le nom de Student's T Distribution, tire son nom de William Sealy Gosset qui fut le premier à publier le résultat en anglais dans son article de 1908 intitulé "The Probable Error of a Mean" (dans Biometrika ) en utilisant son pseudonyme " Étudiant "parce que son employeur préférait que son personnel utilise des noms de plume lors de la publication d'articles scientifiques au lieu de leur vrai nom, il a donc utilisé le nom" Étudiant "pour cacher son identité. Gosset a travaillé à la brasserie Guinness à Dublin , en Irlande , et s'est intéressé aux problèmes des petits échantillons - par exemple, les propriétés chimiques de l'orge où la taille des échantillons pourrait être aussi peu que 3. D'où une deuxième version de l'étymologie du terme Student est que Guinness ne voulait pas que ses concurrents sachent qu'ils utilisaient le test t pour déterminer la qualité de la matière première. Bien que ce soit William Gosset après qui le terme «étudiant» a été écrit, c'est en fait grâce au travail de Ronald Fisher que la distribution est devenue bien connue sous le nom de «distribution de Student» et de « test t de Student ».

Concepts associés

Voir également

Les références

Liens externes