Aplatissement - Kurtosis

En théorie des probabilités et statistiques , kurtosis (du grec : κυρτός , kyrtos ou Kurtos , ce qui signifie « courbe, cambrant ») est une mesure de la « tailedness » de la distribution de probabilité d'une réelle -Évaluées variable aléatoire . Comme l' asymétrie , l'aplatissement décrit la forme d'une distribution de probabilité et il existe différentes manières de la quantifier pour une distribution théorique et des manières correspondantes de l'estimer à partir d'un échantillon d'une population. Différentes mesures d'aplatissement peuvent avoir des interprétations différentes .

La mesure standard de l'aplatissement d'une distribution, originaire de Karl Pearson , est une version à l'échelle du quatrième moment de la distribution. Ce nombre est lié aux queues de la distribution, pas à son pic ; par conséquent, la caractérisation parfois vue de l'aplatissement en tant que "point culminant" est incorrecte. Pour cette mesure, un kurtosis plus élevé correspond à une plus grande extrémité des écarts (ou valeurs aberrantes ), et non à la configuration des données proche de la moyenne .

L'aplatissement de toute distribution normale univariée est de 3. Il est courant de comparer l'aplatissement d'une distribution à cette valeur. Les distributions avec un kurtosis inférieur à 3 sont dites platykurtiques , bien que cela n'implique pas que la distribution soit "à sommet plat", comme cela est parfois indiqué. Cela signifie plutôt que la distribution produit moins de valeurs aberrantes et moins extrêmes que la distribution normale. Un exemple de distribution platykurtique est la distribution uniforme , qui ne produit pas de valeurs aberrantes. Les distributions avec un aplatissement supérieur à 3 sont dites leptokurtiques . Un exemple d'une distribution leptokurtique est la distribution de Laplace , qui a des queues qui s'approchent asymptotiquement de zéro plus lentement qu'une gaussienne, et produit donc plus de valeurs aberrantes que la distribution normale. Il est également courant d'utiliser une version ajustée de l'aplatissement de Pearson, l'aplatissement en excès, qui est l'aplatissement moins 3, pour fournir la comparaison avec la distribution normale standard . Certains auteurs utilisent « kurtosis » par lui-même pour désigner l'excès de kurtosis. Pour plus de clarté et de généralité, cependant, cet article suit la convention de non-excès et indique explicitement où l'excès de kurtosis est signifié.

Les mesures alternatives du kurtosis sont : le L-kurtosis , qui est une version à l'échelle du quatrième L-moment ; mesures basées sur quatre quantiles de population ou d'échantillon . Celles-ci sont analogues aux mesures alternatives de l' asymétrie qui ne sont pas basées sur des moments ordinaires.

Moments Pearson

L'aplatissement est le quatrième moment standardisé , défini comme

μ 4 est le quatrième moment central et σ est l' écart - type . Plusieurs lettres sont utilisées dans la littérature pour désigner l'aplatissement. Un choix très courant est κ , ce qui est bien tant qu'il est clair qu'il ne fait pas référence à un cumulant . D'autres choix incluent γ 2 , pour être similaire à la notation pour l'asymétrie, bien que parfois cela soit plutôt réservé à l'excès de kurtosis.

Le kurtosis est délimité ci-dessous par l' asymétrie carrée plus 1 :

μ 3 est le troisième moment central . La borne inférieure est réalisée par la distribution de Bernoulli . Il n'y a pas de limite supérieure au kurtosis d'une distribution de probabilité générale, et il peut être infini.

Une raison pour laquelle certains auteurs favorisent l'excès de kurtosis est que les cumulants sont extensifs . Les formules liées à la propriété extensive s'expriment plus naturellement en termes de kurtosis en excès. Par exemple, soit X 1 , ..., X n des variables aléatoires indépendantes pour lesquelles le quatrième moment existe, et soit Y la variable aléatoire définie par la somme des X i . L'excès de kurtosis de Y est

où est l'écart type de . En particulier si tous les X i ont la même variance, alors cela se simplifie en

La raison de ne pas soustraire 3 est que le quatrième moment nu se généralise mieux aux distributions multivariées , en particulier lorsque l'indépendance n'est pas supposée. La cokurtose entre paires de variables est un tenseur d' ordre quatre . Pour une distribution normale bivariée, le tenseur de cokurtose a des termes hors diagonale qui ne sont ni 0 ni 3 en général, donc tenter de "corriger" un excès devient déroutant. Il est vrai, cependant, que les cumulants conjoints de degré supérieur à deux pour toute distribution normale multivariée sont nuls.

Pour deux variables aléatoires, X et Y , pas nécessairement indépendantes, le kurtosis de la somme, X  +  Y , est

Notez que les coefficients binomiaux apparaissent dans l'équation ci-dessus.

Interprétation

L'interprétation exacte de la mesure de Pearson de l'aplatissement (ou excès d'aplatissement) était autrefois contestée, mais est maintenant réglée. Comme le note Westfall en 2014, "... sa seule interprétation sans ambiguïté est en termes d'extrémité de la queue, c'est-à-dire soit des valeurs aberrantes existantes (pour l'aplatissement de l'échantillon) soit la propension à produire des valeurs aberrantes (pour l'aplatissement d'une distribution de probabilité)." La logique est simple : Kurtosis est la moyenne (ou valeur attendue ) des données standardisées élevée à la puissance quatrième. Toutes les valeurs standardisées inférieures à 1 (c'est-à-dire les données à l'intérieur d'un écart type de la moyenne, là où se situerait le « pic »), ne contribuent pratiquement en rien à l'aplatissement, car le fait d'élever un nombre inférieur à 1 à la puissance quatre le rend plus proche de zéro. Les seules valeurs de données (observées ou observables) qui contribuent à l'aplatissement de manière significative sont celles en dehors de la région du pic ; c'est-à-dire les valeurs aberrantes. Par conséquent, l'aplatissement mesure uniquement les valeurs aberrantes ; il ne mesure rien sur le "pic".

De nombreuses interprétations incorrectes de l'aplatissement impliquant des notions de pic ont été données. L'une est que l'aplatissement mesure à la fois le "point culminant" de la distribution et la lourdeur de sa queue . Diverses autres interprétations incorrectes ont été suggérées, telles que « manque d'épaules » (où « l'épaule » est définie vaguement comme la zone entre le pic et la queue, ou plus précisément comme la zone située à environ un écart type de la moyenne) ou « bimodalité". Balanda et MacGillivray affirment que la définition standard de l'aplatissement "est une mauvaise mesure de l'aplatissement, de la pointe ou du poids de queue d'une distribution" et proposent plutôt de "définir vaguement l'aplatissement comme le mouvement sans emplacement et sans échelle de la masse probabiliste à partir du épaules d'une distribution en son centre et ses queues".

Interprétation des Maures

En 1986, les Maures ont donné une interprétation de l'aplatissement. Laisser

X est une variable aléatoire, μ est la moyenne et σ est l'écart type.

Or par définition du kurtosis , et par l'identité bien connue

.

Le kurtosis peut maintenant être vu comme une mesure de la dispersion de Z 2 autour de son espérance. Alternativement, il peut être considéré comme une mesure de la dispersion de Z autour de +1 et -1. κ atteint sa valeur minimale dans une distribution en deux points symétriques. En termes de variable d'origine X , le kurtosis est une mesure de la dispersion de X autour des deux valeurs μ  ±  σ .

Des valeurs élevées de κ apparaissent dans deux circonstances:

  • où la masse de probabilité est concentrée autour de la moyenne et le processus de génération de données produit des valeurs occasionnelles loin de la moyenne,
  • où la masse de probabilité est concentrée dans les queues de la distribution.

Excès d'aplatissement

L' aplatissement excessif est défini comme l'aplatissement moins 3. Il existe 3 régimes distincts décrits ci-dessous.

Mésokurtique

Les distributions sans kurtosis en excès sont appelées mésokurtique ou mésokurtotique. L'exemple le plus frappant d'une distribution mésokurtique est la famille de distribution normale, quelles que soient les valeurs de ses paramètres . Quelques autres distributions bien connues peuvent être mésokurtiques, en fonction des valeurs des paramètres : par exemple, la distribution binomiale est mésokurtique pour .

Leptokurtique

Une distribution avec un excès d'aplatissement positif est appelée leptokurtotique ou leptokurtotique. "Lepto-" signifie "svelte". En termes de forme, une distribution leptokurtique a des queues plus grosses . Des exemples de distributions leptokurtiques comprennent la distribution t de Student , distribution de Rayleigh , la distribution de Laplace , distribution exponentielle , distribution de Poisson et la distribution logistique . De telles distributions sont parfois appelées super-gaussiennes .

Platykurtique

Le tirage au sort est la distribution la plus platykurtique

Une distribution avec un excès de kurtosis négatif est appelée platykurtic ou platykurtotic. "Platy-" signifie "large". En termes de forme, une distribution platykurtique a des queues plus minces . Des exemples de distributions platykurtiques comprennent les distributions uniformes continues et discrètes et la distribution en cosinus surélevé . La distribution la plus platykurtique de toutes est la distribution de Bernoulli avec p = 1/2 (par exemple le nombre de fois où l'on obtient « face » en lançant une pièce une fois, un tirage au sort ), pour laquelle l'excès de kurtosis est de -2. De telles distributions sont parfois appelées distributions sous-gaussiennes , proposées à l'origine par Jean-Pierre Kahane et décrites plus en détail par Buldygin et Kozachenko.

Exemples graphiques

La famille Pearson type VII

pdf pour la distribution de Pearson de type VII avec un excès de kurtosis à l'infini (rouge) ; 2 (bleu); et 0 (noir)
log-pdf pour la distribution de Pearson de type VII avec un excès de kurtosis à l'infini (rouge) ; 2 (bleu); 1, 1/2, 1/4, 1/8 et 1/16 (gris) ; et 0 (noir)

Les effets du kurtosis sont illustrés à l'aide d'une famille paramétrique de distributions dont le kurtosis peut être ajusté alors que leurs moments d'ordre inférieur et leurs cumulants restent constants. Considérons la famille Pearson de type VII , qui est un cas particulier de la famille Pearson de type IV restreinte aux densités symétriques. La fonction de densité de probabilité est donnée par

a est un paramètre d'échelle et m est un paramètre de forme .

Toutes les densités de cette famille sont symétriques. Le k ème moment existe à condition que m  > ( k  + 1)/2. Pour que le kurtosis existe, nous avons besoin de m  > 5/2. Alors la moyenne et l' asymétrie existent et sont toutes deux identiques à zéro. Définir a 2  = 2 m  − 3 rend la variance égale à l'unité. Alors le seul paramètre libre est m , qui contrôle le quatrième moment (et cumulant) et donc le kurtosis. On peut reparamétrer avec , où est l'excès de kurtosis tel que défini ci-dessus. Cela donne une famille leptokurtique à un paramètre avec une moyenne nulle, une variance unitaire, une asymétrie nulle et un excès d'aplatissement arbitraire non négatif. La densité reparamétrée est

A la limite comme on obtient la densité

qui est montré comme la courbe rouge dans les images sur la droite.

Dans l'autre sens, on obtient la densité normale standard comme distribution limite, représentée par la courbe noire.

Dans les images de droite, la courbe bleue représente la densité avec un excès de kurtosis de 2. L'image du haut montre que les densités leptokurtiques dans cette famille ont un pic plus élevé que la densité mésokurtique normale, bien que cette conclusion ne soit valable que pour cette famille sélectionnée de répartitions. Les queues comparativement plus grosses des densités leptokurtiques sont illustrées dans la deuxième image, qui trace le logarithme népérien des densités de Pearson de type VII : la courbe noire est le logarithme de la densité normale standard, qui est une parabole . On peut voir que la densité normale alloue peu de masse de probabilité aux régions éloignées de la moyenne ("a des queues fines"), comparée à la courbe bleue de la densité leptokurtique de Pearson type VII avec un excès de kurtosis de 2. Entre la courbe bleue et la noir sont d'autres densités Pearson de type VII avec γ 2  = 1, 1/2, 1/4, 1/8 et 1/16. La courbe rouge montre à nouveau la limite supérieure de la famille Pearson type VII, avec (ce qui, à proprement parler, signifie que le quatrième moment n'existe pas). La courbe rouge diminue le plus lentement à mesure que l'on s'éloigne de l'origine ("a de grosses queues").

Autres distributions bien connues

Fonctions de densité de probabilité pour des distributions sélectionnées avec une moyenne de 0, une variance 1 et différents excès de kurtosis
Logarithmes des fonctions de densité de probabilité pour des distributions sélectionnées avec une moyenne 0, une variance 1 et différents excès de kurtosis

Plusieurs distributions bien connues, unimodales et symétriques de différentes familles paramétriques sont comparées ici. Chacun a une moyenne et une asymétrie de zéro. Les paramètres ont été choisis pour aboutir à une variance égale à 1 dans chaque cas. Les images de droite montrent des courbes pour les sept densités suivantes, en échelle linéaire et en échelle logarithmique :

Notez que dans ces cas, les densités platykurtiques ont un support borné , alors que les densités avec un excès de kurtosis positif ou nul sont supportées sur toute la ligne réelle .

On ne peut pas en déduire que les distributions d'aplatissement élevé ou faible ont les caractéristiques indiquées par ces exemples. Il existe des densités platykurtiques à support infini,

et il existe des densités leptokurtiques à support fini.

  • par exemple, une distribution uniforme entre -3 et -0,3, entre -0,3 et 0,3 et entre 0,3 et 3, avec la même densité dans les intervalles (-3, -0,3) et (0,3,3), mais avec 20 fois plus de densité dans l'intervalle (−0,3, 0,3)

En outre, il existe des densités platykurtiques avec des pics infinis,

  • par exemple, un mélange égal de la distribution bêta avec les paramètres 0,5 et 1 avec sa réflexion d'environ 0,0

et il existe des densités leptokurtiques qui apparaissent aplaties,

  • par exemple, un mélange de distribution qui est uniforme entre -1 et 1 avec une distribution t de Student T(4.0000001) , avec des probabilités de mélange de 0,999 et 0,001.

Exemple d'aplatissement

Définitions

Un estimateur naturel mais biaisé

Pour un échantillon de n valeurs, une méthode d'estimation des moments de l'excès d'aplatissement de la population peut être définie comme

m 4 est le quatrième échantillon instant autour de la moyenne , m 2 est le second moment d'échantillonnage autour de la moyenne (qui est, la variance de l' échantillon ), ix i est la i ème valeur, et est la moyenne de l' échantillon .

Cette formule a la représentation la plus simple,

où les valeurs sont les valeurs de données normalisées utilisant l'écart type défini en utilisant n plutôt que n  − 1 dans le dénominateur.

Par exemple, supposons que les valeurs de données sont 0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999.

Alors les valeurs sont -0,239, -0,225, -0,221, -0,234, -0,230, -0,225, -0,239, -0,230, -0,234, -0,225, -0,230, -0,239, -0,230, -0,230, -0,225, - 0,230, -0,216, -0,230, -0,225, 4,359

et les valeurs sont 0,003, 0,003, 0,002, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,002, 0,003, 0,003, 360,976.

La moyenne de ces valeurs est de 18,05 et l'excès de kurtosis est donc de 18,05 − 3 = 15,05. Cet exemple montre clairement que les données proches du « milieu » ou du « pic » de la distribution ne contribuent pas à la statistique de kurtosis, donc kurtosis ne mesure pas le « pic ». Il s'agit simplement d'une mesure de la valeur aberrante, 999 dans cet exemple.

Estimateur standard sans biais

Étant donné un sous-ensemble d'échantillons d'une population, l'aplatissement excédentaire de l'échantillon ci-dessus est un estimateur biaisé de l'aplatissement excédentaire de la population. Un autre estimateur du kurtosis excédentaire de la population, qui est sans biais dans des échantillons aléatoires d'une distribution normale, est défini comme suit :

k 4 est l'unique estimateur symétrique sans biais du quatrième cumulant , k 2 est l'estimation sans biais du deuxième cumulant (identique à l'estimation sans biais de la variance de l'échantillon), m 4 est le quatrième moment de l'échantillon autour de la moyenne, m 2 est le second moment d'échantillonnage autour de la moyenne, x i est la i ème valeur, et est la moyenne échantillon. Ce coefficient de moment normalisé de Fisher-Pearson ajusté est la version trouvée dans Excel et plusieurs progiciels statistiques dont Minitab , SAS et SPSS .

Malheureusement, dans les échantillons non normaux est lui-même généralement biaisé.

Limite supérieure

Une limite supérieure pour l'aplatissement de l'échantillon de n ( n > 2) nombres réels est

où est l'asymétrie de l'échantillon correspondant.

Variance sous la normalité

La variance de l'aplatissement de l'échantillon d'un échantillon de taille n par rapport à la distribution normale est

En d'autres termes, en supposant que la variable aléatoire sous-jacente est normalement distribuée, on peut montrer que .

Applications

L'aplatissement de l'échantillon est une mesure utile pour déterminer s'il existe un problème de valeurs aberrantes dans un ensemble de données. Un aplatissement plus important indique un problème de valeur aberrante plus grave et peut amener le chercheur à choisir des méthodes statistiques alternatives.

Le test K-carré de D'Agostino est un test de normalité d' ajustement basé sur une combinaison de l'asymétrie de l'échantillon et de l'aplatissement de l'échantillon, tout comme le test de normalité de Jarque-Bera .

Pour les échantillons non normaux, la variance de la variance de l'échantillon dépend du kurtosis ; pour plus de détails, s'il vous plaît voir la variance .

La définition de l'aplatissement de Pearson est utilisée comme indicateur d'intermittence dans la turbulence . Il est également utilisé en imagerie par résonance magnétique pour quantifier la diffusion non gaussienne.

Un exemple concret est le lemme suivant de He, Zhang et Zhang : Supposons qu'une variable aléatoire ait une espérance , une variance et un aplatissement . Supposons que nous échantillonnions de nombreuses copies indépendantes. Puis

.

Cela montre qu'avec de nombreux échantillons, nous en verrons un qui est au-dessus de l'attente avec une probabilité d'au moins . En d'autres termes : si le kurtosis est grand, nous pourrions voir beaucoup de valeurs, toutes inférieures ou supérieures à la moyenne.

Convergence de l'aplatissement

En appliquant des filtres passe-bande aux images numériques , les valeurs d'aplatissement ont tendance à être uniformes, indépendamment de la plage du filtre. Ce comportement, appelé convergence d'aplatissement , peut être utilisé pour détecter l'épissage d'images dans une analyse médico-légale .

Autres mesures

Une mesure différente de "kurtosis" est fournie en utilisant des L-moments au lieu des moments ordinaires.

Voir également

Les références

Lectures complémentaires

Liens externes