Mode (statistiques) - Mode (statistics)

Le mode est la valeur qui apparaît le plus souvent dans un ensemble de valeurs de données. Si X est une variable aléatoire discrète, le mode est la valeur x (c'est-à-dire X = x ) à laquelle la fonction de masse de probabilité prend sa valeur maximale. En d'autres termes, c'est la valeur qui est la plus susceptible d'être échantillonnée.

Tout comme la moyenne statistique et la médiane , le mode est une manière d'exprimer, en un nombre (généralement) unique, des informations importantes sur une variable aléatoire ou une population . La valeur numérique du mode est la même que celle de la moyenne et de la médiane dans une distribution normale , et elle peut être très différente dans des distributions très asymétriques .

Le mode n'est pas nécessairement unique à une distribution discrète donnée , puisque la fonction de probabilité de masse peut prendre la même valeur maximale en plusieurs points x 1 , x 2 , etc. Le cas le plus extrême se produit dans des distributions uniformes , où toutes les valeurs se produisent également fréquemment.

Lorsque la fonction de densité de probabilité d'une distribution continue a plusieurs maxima locaux, il est courant de se référer à tous les maxima locaux en tant que modes de la distribution. Une telle distribution continue est appelée multimodale (par opposition à unimodale ). Un mode d'une distribution de probabilité continue est souvent considéré comme une valeur x à laquelle sa fonction de densité de probabilité a une valeur localement maximale, de sorte que tout pic est un mode.

Dans les distributions unimodales symétriques , telles que la distribution normale , la moyenne (si définie), la médiane et le mode coïncident tous. Pour les échantillons, si l'on sait qu'ils sont tirés d'une distribution unimodale symétrique, la moyenne de l'échantillon peut être utilisée comme une estimation du mode de population.

Mode d'un échantillon

Le mode d'un échantillon est l'élément qui apparaît le plus souvent dans la collection. Par exemple, le mode de l'échantillon [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17] est 6. Compte tenu de la liste de données [1, 1, 2, 4, 4] son mode n'est pas unique. Un ensemble de données, dans un tel cas, est dit bimodal , tandis qu'un ensemble avec plus de deux modes peut être décrit comme multimodal .

Pour un échantillon d'une distribution continue, comme [0.935 ..., 1.211 ..., 2.430 ..., 3.668 ..., 3.874 ...], le concept est inutilisable sous sa forme brute, car il n'y a pas deux valeurs sera exactement la même, donc chaque valeur se produira précisément une fois. Afin d'estimer le mode de la distribution sous-jacente, la pratique habituelle est de discrétiser les données en attribuant des valeurs de fréquence à des intervalles d'égale distance, comme pour faire un histogramme , en remplaçant effectivement les valeurs par les points médians des intervalles auxquels elles sont assignées. Le mode est alors la valeur à laquelle l'histogramme atteint son apogée. Pour les échantillons de petite ou moyenne taille, le résultat de cette procédure est sensible au choix de la largeur de l'intervalle si elle est choisie trop étroite ou trop large; en général, on devrait avoir une fraction importante des données concentrée dans un nombre relativement petit d'intervalles (5 à 10), tandis que la fraction des données tombant en dehors de ces intervalles est également importante. Une autre approche est l' estimation de la densité du noyau , qui brouille essentiellement les échantillons ponctuels pour produire une estimation continue de la fonction de densité de probabilité qui peut fournir une estimation du mode.

L' exemple de code MATLAB (ou Octave ) suivant calcule le mode d'un échantillon:

X = sort(x);                               % x is a column vector dataset
indices   =  find(diff([X; realmax]) > 0); % indices where repeated values change
[modeL,i] =  max (diff([0; indices]));     % longest persistence length of repeated values
mode      =  X(indices(i));

L'algorithme nécessite dans un premier temps de trier l'échantillon par ordre croissant. Il calcule ensuite la dérivée discrète de la liste triée et trouve les indices où cette dérivée est positive. Ensuite, il calcule la dérivée discrète de cet ensemble d'indices, localisant le maximum de cette dérivée d'indices, et évalue finalement l'échantillon trié au point où ce maximum se produit, ce qui correspond au dernier membre de l'étirement des valeurs répétées.

Comparaison de la moyenne, de la médiane et du mode

Visualisation géométrique du mode, de la médiane et de la moyenne d'une fonction de densité de probabilité arbitraire.
Comparaison des moyennes courantes de valeurs {1, 2, 2, 3, 4, 7, 9}
Taper La description Exemple Résultat
Moyenne arithmétique Somme des valeurs d'un ensemble de données divisée par le nombre de valeurs (1 + 2 + 2 + 3 + 4 + 7 + 9) / 7 4
Médian Valeur médiane séparant les moitiés supérieure et inférieure d'un ensemble de données 1, 2, 2, 3 , 4, 7, 9 3
Mode Valeur la plus fréquente dans un ensemble de données 1, 2 , 2 , 3, 4, 7, 9 2

Utiliser

À la différence de la moyenne et de la médiane, le concept de mode a également un sens pour les « données nominales » (c'est-à-dire non constituées de valeurs numériques dans le cas de la moyenne, ou même de valeurs ordonnées dans le cas de la médiane). Par exemple, en prenant un échantillon de noms de famille coréens , on peut constater que " Kim " apparaît plus souvent que tout autre nom. Alors "Kim" serait le mode de l'échantillon. Dans tout système de vote où une pluralité détermine la victoire, une seule valeur modale détermine le vainqueur, tandis qu'un résultat multimodal nécessiterait une certaine procédure de départage.

Contrairement à la médiane, le concept de mode a du sens pour toute variable aléatoire supposant des valeurs d'un espace vectoriel , y compris les nombres réels (un espace vectoriel unidimensionnel ) et les entiers (qui peuvent être considérés comme incorporés dans les réels). Par exemple, une distribution de points dans le plan aura généralement une moyenne et un mode, mais le concept de médiane ne s'applique pas. La médiane a du sens lorsqu'il y a un ordre linéaire sur les valeurs possibles. Les généralisations du concept d'espaces médians aux espaces de dimension supérieure sont la médiane géométrique et le point central .

Unicité et définition

Pour certaines distributions de probabilité, la valeur attendue peut être infinie ou indéfinie, mais si elle est définie, elle est unique. La moyenne d'un échantillon (fini) est toujours définie. La médiane est la valeur telle que les fractions ne la dépassant pas et ne tombant pas en dessous soient chacune au moins 1/2. Ce n'est pas nécessairement unique, mais jamais infini ou totalement indéfini. Pour un échantillon de données, il s'agit de la valeur «à mi-chemin» lorsque la liste de valeurs est ordonnée en valeur croissante, où généralement pour une liste de longueur paire, la moyenne numérique est prise des deux valeurs les plus proches de «à mi-chemin». Enfin, comme dit précédemment, le mode n'est pas forcément unique. Certaines distributions pathologiques (par exemple, la distribution de Cantor ) n'ont aucun mode défini. Pour un échantillon de données finies, le mode est une (ou plusieurs) des valeurs de l'échantillon.

Propriétés

En supposant la définition, et par souci de simplicité, l'unicité, voici quelques-unes des propriétés les plus intéressantes.

  • Les trois mesures ont la propriété suivante: Si la variable aléatoire (ou chaque valeur de l'échantillon) est soumise à la transformation linéaire ou affine , qui remplace X par aX + b , la moyenne, la médiane et le mode le sont aussi.
  • Sauf pour les échantillons extrêmement petits, le mode est insensible aux « valeurs aberrantes » (telles que les lectures expérimentales occasionnelles, rares et fausses). La médiane est également très robuste en présence de valeurs aberrantes, tandis que la moyenne est plutôt sensible.
  • Dans les distributions unimodales continues, la médiane se situe souvent entre la moyenne et le mode, environ un tiers du chemin allant de la moyenne au mode. Dans une formule, médiane ≈ (2 × moyenne + mode) / 3. Cette règle, due à Karl Pearson , s'applique souvent à des distributions légèrement non symétriques qui ressemblent à une distribution normale, mais ce n'est pas toujours vrai et en général les trois statistiques peuvent apparaître dans n'importe quel ordre.
  • Pour les distributions unimodales, le mode se situe à 3 écarts types de la moyenne et l'écart quadratique moyen par rapport au mode se situe entre l'écart type et deux fois l'écart type.

Exemple de distribution asymétrique

Un exemple de répartition asymétrique est la richesse personnelle : peu de gens sont très riches, mais parmi eux certains sont extrêmement riches. Cependant, beaucoup sont plutôt pauvres.

Comparaison de la moyenne , de la médiane et du mode de deux distributions log-normales avec des asymétries différentes .

Une classe bien connue de distributions qui peuvent être arbitrairement biaisées est donnée par la distribution log-normale . Il est obtenu par la transformation d' une variable aléatoire X ayant une distribution normale dans la variable aléatoire Y = e X . Ensuite, le logarithme de la variable aléatoire Y est normalement distribué, d'où le nom.

En prenant la moyenne de μ X soit 0, la médiane de Y sera 1, indépendamment de l' écart type σ de X . Il en est ainsi parce que X a une distribution symétrique, de sorte que la médiane est également 0. La transformation de X à Y est monotones, et nous trouvons la médiane e 0 = 1 pour Y .

Lorsque X a un écart type σ = 0,25, la distribution de Y est faiblement asymétrique. En utilisant des formules pour la distribution log-normale , nous trouvons:

En effet, la médiane est d'environ un tiers sur le chemin de la moyenne au mode.

Lorsque X a un écart type plus grand, σ = 1 , la distribution de Y est fortement biaisée. À présent

Ici, la règle empirique de Pearson échoue.

État de Van Zwet

Van Zwet a dérivé une inégalité qui fournit des conditions suffisantes pour que cette inégalité se maintienne. L'inégalité

Mode ≤ Médiane ≤ Moyenne

tient si

F (médiane - x ) + F (médiane + x ) ≥ 1

pour tout x où F () est la fonction de distribution cumulative de la distribution.

Distributions unimodales

Pour une distribution unimodale, on peut montrer que la médiane et la moyenne se situent à (3/5) 1/2 ≈ 0,7746 écarts-types l'une de l'autre. En symboles,

où est la valeur absolue.

Une relation similaire existe entre la médiane et le mode: ils se situent à 3 1/2 ≈ 1,732 écarts-types l'un de l'autre:

Histoire

Le terme mode provient de Karl Pearson en 1895.

Pearson utilise le terme mode de manière interchangeable avec maximum-ordonnée . Dans une note de bas de page, il dit: "J'ai trouvé pratique d'utiliser le terme mode pour désigner l'abscisse correspondant à l'ordonnée de la fréquence maximale."

Voir également

Les références

Liens externes