Distribution log-normale - Log-normal distribution

Log-normal
Fonction de densité de probabilité
Tracé du PDF Lognormal
Paramètre identique mais paramètres différents
Fonction de distribution cumulative
Tracé du CDF Lognormal
Notation
Paramètres ,
Soutien
PDF
CDF
Quantile
Moyenne
Médian
Mode
Variance
Asymétrie
Ex. aplatissement
Entropie
MGF défini uniquement pour les nombres avec une partie réelle non positive, voir texte
FC la représentation est asymptotiquement divergente mais suffisante à des fins numériques
Informations sur les pêcheurs
Méthode des moments ,

En théorie des probabilités , une distribution log-normale (ou lognormale) est une distribution de probabilité continue d'une variable aléatoire dont le logarithme est normalement distribué . Ainsi, si la variable aléatoire X est distribuée de manière log-normale, alors Y = ln( X ) a une distribution normale. De manière équivalente, si Y a une distribution normale, alors la fonction exponentielle de Y , X = exp( Y ) , a une distribution log-normale. Une variable aléatoire à distribution log-normale ne prend que des valeurs réelles positives. C'est un modèle pratique et utile pour les mesures en sciences exactes et techniques , ainsi qu'en médecine , économie et autres sujets (par exemple, énergies, concentrations, longueurs, rendements financiers et autres mesures).

La distribution est parfois appelée distribution de Galton ou distribution de Galton , d'après Francis Galton . La distribution log-normale a également été associée à d'autres noms, tels que McAlister, Gibrat et Cobb-Douglas .

Un log-normale processus est la réalisation statistique du multiplicatif produit de nombreuses indépendantes variables aléatoires , ce qui est positif chacun. Ceci est justifié en considérant le théorème central limite dans le domaine log (appelé parfois loi de Gibrat ). La distribution log-normale est la distribution de probabilité d'entropie maximale pour une variable aléatoire X — pour laquelle la moyenne et la variance de ln( X ) sont spécifiées.

Définitions

Génération et paramètres

Soit une variable normale standard , et soit et deux nombres réels. Ensuite, la distribution de la variable aléatoire

est appelée la distribution log-normale avec les paramètres et . Il s'agit de la valeur attendue (ou moyenne ) et de l' écart type du logarithme népérien de la variable , et non de l'espérance et de l'écart type de lui - même.

Relation entre distribution normale et distribution log-normale. Si est normalement distribué, alors est log-normalement distribué.

Cette relation est vraie quelle que soit la base de la fonction logarithmique ou exponentielle : si est normalement distribuée, alors il en est de même pour deux nombres positifs quelconques . De même, si est distribué de manière log-normale, alors , où .

Afin de produire une distribution avec la moyenne et la variance souhaitées , on utilise et

Alternativement, les paramètres "multiplicatifs" ou "géométriques" et peuvent être utilisés. Ils ont une interprétation plus directe : est la médiane de la distribution, et est utile pour déterminer les intervalles de « dispersion », voir ci-dessous.

Fonction de densité de probabilité

Une variable aléatoire positive X est log-normalement distribuée (c'est-à-dire, ), si le logarithme népérien de X est normalement distribué avec la moyenne et la variance :

Soient et respectivement la fonction de distribution de probabilité cumulée et la fonction de densité de probabilité de la distribution N (0,1), alors nous avons que

Fonction de distribution cumulative

La fonction de distribution cumulée est

où est la fonction de distribution cumulative de la distribution normale standard (c'est-à-dire N (0,1)).

Cela peut aussi s'exprimer comme suit :

où erfc est la fonction d'erreur complémentaire .

Log-normale multivariée

Si est une distribution normale multivariée , alors a une distribution log-normale multivariée avec une moyenne

et matrice de covariance

Étant donné que la distribution log-normale multivariée n'est pas largement utilisée, le reste de cette entrée ne traite que de la distribution univariée .

Fonction caractéristique et fonction génératrice de moment

Tous les moments de la distribution log-normale existent et

Cela peut être dérivé en laissant dans l'intégrale. Cependant, la distribution log-normale n'est pas déterminée par ses moments. Cela implique qu'il ne peut pas avoir une fonction génératrice de moment définie au voisinage de zéro. En effet, la valeur attendue n'est définie pour aucune valeur positive de l'argument , puisque l'intégrale de définition diverge.

La fonction caractéristique est définie pour les valeurs réelles de t , mais n'est définie pour aucune valeur complexe de t qui a une partie imaginaire négative, et donc la fonction caractéristique n'est pas analytique à l'origine. Par conséquent, la fonction caractéristique de la distribution log-normale ne peut pas être représentée comme une série convergente infinie. En particulier, sa série formelle de Taylor diverge :

Cependant, un certain nombre de représentations alternatives de séries divergentes ont été obtenues.

Une formule de forme fermée pour la fonction caractéristique avec dans le domaine de la convergence est pas connue. Une formule d'approximation relativement simple est disponible sous forme fermée, et est donnée par

où est la fonction Lambert W . Cette approximation est dérivée via une méthode asymptotique, mais elle reste nette sur tout le domaine de convergence de .

Propriétés

une. est une variable log-normale avec . est calculé en transformant à la variable normale , puis en intégrant sa densité sur le domaine défini par (régions bleues), en utilisant la méthode numérique de lancer de rayons. avant JC. Le pdf et le cdf de la fonction de la variable log-normale peuvent également être calculés de cette manière.

Probabilité dans différents domaines

Le contenu de probabilité d'une distribution log-normale dans n'importe quel domaine arbitraire peut être calculé avec la précision souhaitée en transformant d'abord la variable en normale, puis en l'intégrant numériquement à l'aide de la méthode du lancer de rayons. ( code Matlab )

Probabilités des fonctions d'une variable log-normale

Étant donné que la probabilité d'une log-normale peut être calculée dans n'importe quel domaine, cela signifie que le cdf (et par conséquent pdf et cdf inverse) de n'importe quelle fonction d'une variable log-normale peut également être calculé. ( code Matlab )

Moments géométriques ou multiplicatifs

La moyenne géométrique ou multiplicative de la distribution log-normale est . Il est égal à la médiane. L' écart type géométrique ou multiplicatif est .

Par analogie avec les statistiques arithmétiques, on peut définir une variance géométrique, , et un coefficient de variation géométrique , , a été proposé. Ce terme était destiné à être analogue au coefficient de variation, pour décrire la variation multiplicative dans les données log-normales, mais cette définition de GCV n'a aucune base théorique en tant qu'estimation d' elle - même (voir aussi Coefficient de variation ).

Notez que la moyenne géométrique est plus petite que la moyenne arithmétique. Cela est dû à l' inégalité AM-GM et est une conséquence du fait que le logarithme est une fonction concave . En réalité,

En finance, le terme est parfois interprété comme une correction de convexité . Du point de vue du calcul stochastique , c'est le même terme de correction que dans le lemme de Itō pour le mouvement brownien géométrique .

Moments arithmétiques

Pour tout nombre réel ou complexe n , le n- ième moment d'une variable log-normalement distribuée X est donné par

Plus précisément, la moyenne arithmétique, le carré attendu, la variance arithmétique et l'écart type arithmétique d'une variable log-normalement distribuée X sont respectivement donnés par :

Le coefficient de variation arithmétique est le rapport . Pour une distribution log-normale, il est égal à

Cette estimation est parfois appelée « CV géométrique » (GCV), en raison de son utilisation de la variance géométrique. Contrairement à l'écart type arithmétique, le coefficient de variation arithmétique est indépendant de la moyenne arithmétique.

Les paramètres u et σ peuvent être obtenus, si la moyenne arithmétique et la variance arithmétique sont connus:

Une distribution de probabilité n'est pas uniquement déterminée par les moments E[ X n ] = e + 1/2n 2 σ 2 pour n ≥ 1. C'est-à-dire qu'il existe d'autres distributions avec le même ensemble de moments. En fait, il existe toute une famille de distributions avec les mêmes moments que la distribution log-normale.

Mode, médiane, quantiles

Comparaison de la moyenne , de la médiane et du mode de deux distributions log-normales avec une asymétrie différente .

Le mode est le point de maximum global de la fonction de densité de probabilité. En particulier, en résolvant l'équation , on obtient que :

Étant donné que la variable transformée en log a une distribution normale et que les quantiles sont conservés sous les transformations monotones, les quantiles de sont

où est le quantile de la distribution normale standard.

Plus précisément, la médiane d'une distribution log-normale est égale à sa moyenne multiplicative,

Attente partielle

L'espérance partielle d'une variable aléatoire par rapport à un seuil est définie comme

Alternativement, en utilisant la définition de l' espérance conditionnelle , il peut être écrit comme . Pour une variable aléatoire log-normale, l'espérance partielle est donnée par :

où est la fonction de distribution cumulative normale . La dérivation de la formule est fournie dans la page de discussion . La formule d'espérance partielle a des applications en assurance et en économie , elle est utilisée pour résoudre l'équation aux dérivées partielles menant à la formule de Black-Scholes .

Espérance conditionnelle

L'espérance conditionnelle d'une variable aléatoire log-normale - par rapport à un seuil - est son espérance partielle divisée par la probabilité cumulée d'être dans cette plage :

Paramétrages alternatifs

En plus de la caractérisation par ou , voici plusieurs façons de paramétrer la distribution log-normale. ProbOnto , la base de connaissances et l'ontologie des distributions de probabilité répertorie sept de ces formes :

Vue d'ensemble des paramétrisations des distributions log-normales.
  • LogNormal1(μ,σ) avec la moyenne , et l' écart type , , tous deux sur l'échelle logarithmique
  • LogNormal2(μ,υ) avec la moyenne, , et la variance, , toutes deux sur l'échelle logarithmique
  • LogNormal3(m,σ) avec la médiane , m, sur l'échelle naturelle et l'écart type, , sur l'échelle log
  • LogNormal4(m,cv) avec médiane, m, et coefficient de variation , cv, tous deux sur l'échelle naturelle
  • LogNormal5(μ,τ) avec moyenne, , et précision, , tous deux sur l'échelle logarithmique
  • LogNormal6(m,σ g ) avec médiane, m et écart type géométrique , g , tous deux sur l'échelle naturelle
  • LogNormal7(μ NN ) avec moyenne, μ N , et écart type, σ N , tous deux sur l'échelle naturelle

Exemples de reparamétrage

Considérez la situation où l'on souhaite exécuter un modèle à l'aide de deux outils de conception optimaux différents, par exemple PFIM et PopED. Le premier prend en charge le paramétrage LN2, le dernier LN7, respectivement. Par conséquent, le reparamétrage est nécessaire, sinon les deux outils produiraient des résultats différents.

Pour la transition, les formules suivantes sont valables .

Pour la transition, les formules suivantes sont valables .

Toutes les formules de re-paramétrage restantes peuvent être trouvées dans le document de spécification sur le site Web du projet.

Pouvoir multiple, réciproque

  • Multiplication par une constante : Si alors
  • Réciproque : Si alors
  • Puissance : Si alors pour

Multiplication et division de variables aléatoires indépendantes, log-normales

Si deux variables indépendantes , log-normales et sont multipliées [divisées], le produit [rapport] est à nouveau log-normal, avec les paramètres [ ] et , où . Ceci est facilement généralisable au produit de telles variables.

Plus généralement, si sont des variables indépendantes, distribuées log-normalement, alors

Théorème central limite multiplicatif

La moyenne géométrique ou multiplicative des variables aléatoires positives indépendantes, distribuées de manière identique, montre, pour approximativement une distribution log-normale avec des paramètres et , en supposant que ce soit fini.

En fait, les variables aléatoires n'ont pas à être distribuées de manière identique. Il suffit que les distributions de à toutes aient une variance finie et satisfassent aux autres conditions de l'une des nombreuses variantes du théorème central limite .

C'est ce qu'on appelle communément la loi de Gibrat .

Autre

Un ensemble de données qui découle de la distribution log-normale a une courbe de Lorenz symétrique (voir aussi coefficient d'asymétrie de Lorenz ).

Les moyennes harmoniques , géométriques et arithmétiques de cette distribution sont liées ; une telle relation est donnée par

Les distributions log-normales sont divisibles à l'infini , mais ce ne sont pas des distributions stables , dont on peut facilement tirer parti.

Distributions associées

  • Si est une distribution normale , alors
  • Si est distribué log-normalement, alors est une variable aléatoire normale.
  • Soient des variables indépendantes distribuées log-normalement avec éventuellement des paramètres variables et , et . La distribution de n'a pas d'expression fermée, mais peut être raisonnablement approchée par une autre distribution log-normale à la queue droite. Sa fonction de densité de probabilité au voisinage de 0 a été caractérisée et elle ne ressemble à aucune distribution log-normale. Une approximation couramment utilisée due à LF Fenton (mais précédemment déclarée par RI Wilkinson et mathématiquement justifiée par Marlow) est obtenue en faisant correspondre la moyenne et la variance d'une autre distribution log-normale :
Dans le cas où toutes ont le même paramètre de variance , ces formules se simplifient en

Pour une approximation plus précise, on peut utiliser la méthode de Monte Carlo pour estimer la fonction de distribution cumulée, la pdf et la queue de droite.

La somme des variables aléatoires corrélées à distribution log-normale peut également être approchée par une distribution log-normale

  • Si alors on dit qu'il a une distribution log-normale à trois paramètres avec le support . , .
  • La distribution log-normale est un cas particulier de la distribution SU semi-bornée de Johnson .
  • Si avec , alors ( distribution Suzuki ).
  • Un substitut à la log-normale dont l'intégrale peut être exprimée en termes de fonctions plus élémentaires peut être obtenu sur la base de la distribution logistique pour obtenir une approximation de la CDF
Il s'agit d'une distribution log-logistique .

Inférence statistique

Estimation des paramètres

Pour déterminer les estimateurs du maximum de vraisemblance des paramètres de distribution log-normale μ et σ , nous pouvons utiliser la même procédure que pour la distribution normale . Noter que

,

où est la fonction de densité de la distribution normale . Par conséquent, la fonction de log-vraisemblance est

.

Puisque le premier terme est constant par rapport à μ et σ , les deux fonctions de vraisemblance logarithmique, et , atteignent leur maximum avec le même et . Par conséquent, les estimateurs du maximum de vraisemblance sont identiques à ceux d'une distribution normale pour les observations ,

Pour n fini , ces estimateurs sont biaisés. Alors que le biais pour est négligeable, un estimateur moins biaisé pour est obtenu comme pour la distribution normale en remplaçant le dénominateur n par n-1 dans l'équation pour .

Lorsque les valeurs individuelles ne sont pas disponibles, mais que la moyenne et l' écart type s de l'échantillon le sont, les paramètres correspondants sont déterminés par les formules suivantes, obtenues en résolvant les équations de l'espérance et de la variance pour et :

.

Statistiques

Le moyen le plus efficace d'analyser des données log-normalement distribuées consiste à appliquer les méthodes bien connues basées sur la distribution normale aux données transformées de manière logarithmique, puis à retransformer les résultats si nécessaire.

Intervalles de dispersion

Un exemple de base est donné par les intervalles de dispersion : Pour la distribution normale, l'intervalle contient environ les deux tiers (68 %) de la probabilité (ou d'un grand échantillon) et contient 95 %. Par conséquent, pour une distribution log-normale,

contient 2/3, et
contient 95 %

de la probabilité. En utilisant des paramètres estimés, alors approximativement les mêmes pourcentages de données devraient être contenus dans ces intervalles.

Intervalle de confiance pour

En utilisant le principe, notez qu'un intervalle de confiance pour est , où est l'erreur standard et q est le quantile à 97,5% d'une distribution t avec n-1 degrés de liberté. La rétro-transformation conduit à un intervalle de confiance pour ,

avec

Principe extrême d'entropie pour fixer le paramètre libre

Dans les applications, c'est un paramètre à déterminer. Pour les processus de croissance équilibrés par la production et la dissipation, l'utilisation d'un principe extrême d'entropie de Shannon montre que

Cette valeur peut ensuite être utilisée pour donner une relation d'échelle entre le point d'inflexion et le point maximum de la distribution log-normale. Cette relation est déterminée par la base du logarithme népérien, , et présente une certaine similitude géométrique avec le principe de l'énergie de surface minimale. Ces relations d'échelle sont utiles pour prédire un certain nombre de processus de croissance (diffusion de l'épidémie, éclaboussures de gouttelettes, croissance de la population, vitesse de tourbillonnement du vortex de la baignoire, distribution des caractères du langage, profil de vitesse des turbulences, etc.). Par exemple, la fonction log-normale avec de telles s'adapte bien à la taille des gouttelettes produites secondairement lors de l'impact des gouttelettes et de la propagation d'une maladie épidémique.

La valeur est utilisée pour fournir une solution probabiliste pour l'équation de Drake.

Occurrence et applications

La distribution log-normale est importante dans la description des phénomènes naturels. De nombreux processus de croissance naturelle sont entraînés par l'accumulation de nombreux petits changements en pourcentage qui deviennent additifs sur une échelle logarithmique. Dans des conditions de régularité appropriées, la distribution des changements accumulés résultants sera de mieux en mieux approchée par une log-normale, comme indiqué dans la section ci-dessus sur le « Théorème limite central multiplicatif ». C'est ce qu'on appelle aussi la loi de Gibrat , d'après Robert Gibrat (1904-1980) qui l'a formulée pour les entreprises. Si le taux d'accumulation de ces petits changements ne varie pas dans le temps, la croissance devient indépendante de la taille. Même si ce n'est pas vrai, les distributions de taille à tout âge des choses qui se développent au fil du temps ont tendance à être log-normales.

Une seconde justification repose sur l'observation que les lois naturelles fondamentales impliquent des multiplications et des divisions de variables positives. Des exemples sont la simple loi de gravitation reliant les masses et la distance à la force résultante, ou la formule pour les concentrations d'équilibre de produits chimiques dans une solution qui relie les concentrations d'éduits et de produits. L'hypothèse de distributions log-normales des variables impliquées conduit à des modèles cohérents dans ces cas.

Même si aucune de ces justifications ne s'applique, la distribution log-normale est souvent un modèle plausible et empiriquement adéquat. Les exemples incluent les suivants :

Comportements humains

  • La longueur des commentaires publiés dans les forums de discussion Internet suit une distribution log-normale.
  • Le temps de passage des utilisateurs sur les articles en ligne (blagues, actualités, etc.) suit une distribution log-normale.
  • La durée des parties d' échecs a tendance à suivre une distribution log-normale.
  • Les durées d'apparition des stimuli de comparaison acoustique qui correspondent à un stimulus standard suivent une distribution log-normale.
  • Les résolutions du Rubik's Cube, qu'elles soient générales ou individuelles, semblent suivre une distribution log-normale.

En biologie et médecine

  • Mesures de la taille des tissus vivants (longueur, surface cutanée, poids).
  • Pour les épidémies hautement transmissibles, comme le SRAS en 2003, si des politiques publiques de contrôle de l'intervention sont impliquées, le nombre de cas hospitalisés est montré pour satisfaire la distribution log-normale sans paramètres libres si une entropie est supposée et l'écart type est déterminé par le principe du taux maximum de production d'entropie.
  • La longueur des appendices inertes (cheveux, griffes, ongles, dents) des spécimens biologiques, dans le sens de la croissance.
  • Le décompte RNA-Seq normalisé pour n'importe quelle région génomique peut être bien approximé par une distribution log-normale.
  • La longueur de lecture du séquençage PacBio suit une distribution log-normale.
  • Certaines mesures physiologiques, telles que la pression artérielle chez l'homme adulte (après séparation sur sous-populations hommes/femmes).
  • Plusieurs variables pharmacocinétiques , telles que la C max , la demi-vie d' élimination et la constante de vitesse d' élimination .
  • En neurosciences, la distribution des taux de décharge à travers une population de neurones est souvent approximativement log-normale. Cela a d'abord été observé dans le cortex et le striatum et plus tard dans l'hippocampe et le cortex entorhinal, et ailleurs dans le cerveau. De plus, les distributions de gain intrinsèque et les distributions de poids synaptique semblent également être log-normales.
  • Dans la gestion des blocs opératoires, la répartition de la durée de la chirurgie .

En chimie colloïdale et chimie des polymères

Par conséquent, les plages de référence pour les mesures chez les individus en bonne santé sont estimées avec plus de précision en supposant une distribution log-normale qu'en supposant une distribution symétrique autour de la moyenne.

Distribution log-normale cumulée ajustée aux précipitations annuelles maximales sur 1 jour, voir ajustement de la distribution

Hydrologie

  • En hydrologie , la distribution log-normale est utilisée pour analyser les valeurs extrêmes de variables telles que les valeurs maximales mensuelles et annuelles des précipitations quotidiennes et les volumes de débit des rivières.
L'image de droite, réalisée avec CumFreq , illustre un exemple d'ajustement de la distribution log-normale aux précipitations annuelles maximales d'un jour classées, montrant également la ceinture de confiance à 90 % basée sur la distribution binomiale .
Les données pluviométriques sont représentées en traçant les positions dans le cadre d'une analyse de fréquence cumulée .

Sciences sociales et démographie

  • En économie , il est prouvé que le revenu de 97 % à 99 % de la population est distribué de manière log-normale. (La distribution des individus à revenu élevé suit une distribution de Pareto ).
  • Si une distribution de revenu suit une distribution log-normale avec un écart-type , le coefficient de Gini , couramment utilisé pour évaluer l'inégalité des revenus, peut être calculé comme où est la fonction d'erreur , puisque , où est la fonction de distribution cumulative d'une distribution normale standard.
  • En finance , en particulier le modèle Black-Scholes , les changements dans le logarithme des taux de change, des indices de prix et des indices boursiers sont supposés normaux (ces variables se comportent comme des intérêts composés, pas comme des intérêts simples, et sont donc multiplicatives). Cependant, certains mathématiciens comme Benoit Mandelbrot ont avancé que les distributions log-Lévy , qui possèdent des queues lourdes, seraient un modèle plus approprié, en particulier pour l'analyse des krachs boursiers . En effet, les distributions des cours des actions présentent généralement une queue épaisse . La distribution à queue épaisse des changements pendant les krachs boursiers invalide les hypothèses du théorème central limite .
  • En scientométrie , le nombre de citations d'articles de revues et de brevets suit une distribution log-normale discrète.
  • La taille des villes (population) satisfont à la loi de Gibrat. Le processus de croissance de la taille des villes est proportionnel et invariant par rapport à la taille. A partir du théorème central limite donc, le log de la taille de la ville est normalement distribué.

La technologie

  • Dans l' analyse de fiabilité , la distribution log-normale est souvent utilisée pour modéliser les temps de réparation d'un système maintenable.
  • Dans la communication sans fil , « la puissance moyenne locale exprimée en valeurs logarithmiques, telles que dB ou neper, a une distribution normale (c'est-à-dire gaussienne). En outre, l'obstruction aléatoire des signaux radio due aux grands bâtiments et aux collines, appelée ombrage , est souvent modélisée sous la forme d'une distribution log-normale.
  • Distributions granulométriques produites par broyage avec des impacts aléatoires, comme dans le broyage à billes .
  • La distribution de la taille des fichiers de données audio et vidéo accessibles au public ( types MIME ) suit une distribution log-normale sur cinq ordres de grandeur .
  • Dans les réseaux informatiques et l' analyse du trafic Internet , le log-normal est présenté comme un bon modèle statistique pour représenter la quantité de trafic par unité de temps. Cela a été démontré en appliquant une approche statistique robuste sur un grand nombre de traces Internet réelles. Dans ce contexte, la distribution log-normale a montré de bonnes performances dans deux cas d'utilisation principaux : (1) prédire la proportion de temps de trafic qui dépassera un niveau donné (pour l'accord de niveau de service ou l'estimation de capacité de liaison) c'est-à-dire le dimensionnement de liaison basé sur la bande passante l'approvisionnement et (2) la prévision des prix au 95e centile.

Voir également

Remarques

Lectures complémentaires

Liens externes