L'inégalité de Jensen - Jensen's inequality

L'inégalité de Jensen généralise l'affirmation selon laquelle une ligne sécante d'une fonction convexe se trouve au-dessus de son graphique.
Visualiser la convexité et l'inégalité de Jensen

En mathématiques , l'inégalité de Jensen , du nom du mathématicien danois Johan Jensen , relie la valeur d'une fonction convexe d'une intégrale à l'intégrale de la fonction convexe. Elle a été prouvée par Jensen en 1906. Compte tenu de sa généralité, l' inégalité apparaît sous de nombreuses formes selon le contexte, dont certaines sont présentées ci-dessous. Dans sa forme la plus simple, l'inégalité énonce que la transformation convexe d'une moyenne est inférieure ou égale à la moyenne appliquée après transformation convexe ; c'est un simple corollaire que l'inverse est vrai des transformations concaves.

L'inégalité de Jensen généralise l'affirmation selon laquelle la ligne sécante d'une fonction convexe se situe au - dessus du graphique de la fonction , qui est l'inégalité de Jensen pour deux points : la ligne sécante est constituée des moyennes pondérées de la fonction convexe (pour t  [0,1]) ,

tandis que le graphique de la fonction est la fonction convexe des moyennes pondérées,

Ainsi, l'inégalité de Jensen est

Dans le contexte de la théorie des probabilités , il est généralement indiqué sous la forme suivante: si X est une variable aléatoire et φ est une fonction convexe, puis

La différence entre les deux côtés de l'inégalité, , est appelée l' écart de Jensen .

Déclarations

La forme classique de l'inégalité de Jensen implique plusieurs nombres et poids. L'inégalité peut être énoncée de manière assez générale en utilisant soit le langage de la théorie de la mesure, soit (de manière équivalente) la probabilité. Dans le cadre probabiliste, l'inégalité peut encore être généralisée à sa pleine force .

Forme finie

Pour une fonction convexe réelle , des nombres dans son domaine et des poids positifs , l'inégalité de Jensen peut être énoncée comme suit :

 

 

 

 

( 1 )

et l'inégalité est inversée si est concave , ce qui est

 

 

 

 

( 2 )

L'égalité est vraie si et seulement si ou est linéaire sur un domaine contenant .

Comme cas particulier, si les poids sont tous égaux, alors ( 1 ) et ( 2 ) deviennent

 

 

 

 

( 3 )

 

 

 

 

( 4 )

Par exemple, la fonction log( x ) est concave , donc la substitution dans la formule précédente ( 4 ) établit le (logarithme de) l' inégalité arithmétique/moyenne géométrique familière :

Une application courante a x en fonction d'une autre variable (ou ensemble de variables) t , c'est-à-dire . Tout ceci renvoie directement au cas général continu : les poids a i sont remplacés par une fonction intégrable non négative f  ( x ) , telle qu'une distribution de probabilité, et les sommations sont remplacées par des intégrales.

Forme théorique de la mesure et probabiliste

Soit un espace de probabilité , c'est à dire . Si est une fonction à valeur réelle qui est - intégrable , et si est une fonction convexe sur la ligne réelle, alors :

Dans une analyse réelle, nous pouvons exiger une estimation sur

où , et est une fonction intégrable de Lebesgue non négative . Dans ce cas, la mesure de Lebesgue n'est pas nécessairement l'unité. Cependant, par intégration par substitution, l'intervalle peut être redimensionné pour qu'il ait une unité de mesure. Ensuite, l'inégalité de Jensen peut être appliquée pour obtenir

Le même résultat peut être énoncé de manière équivalente dans un cadre de théorie des probabilités , par un simple changement de notation. Soient un espace de probabilité , X une variable aléatoire à valeur réelle intégrable et φ une fonction convexe . Puis:

Dans ce paramètre de probabilité, la mesure μ est conçue comme une probabilité , l'intégrale par rapport à u comme valeur attendue , et la fonction comme une variable aléatoire X .

Notez que l'égalité est vraie si et seulement si φ est une fonction linéaire sur un ensemble convexe tel que (ce qui suit en inspectant la preuve théorique de la mesure ci-dessous).

Inégalité générale dans un cadre probabiliste

Plus généralement, soit T un espace vectoriel topologique réel , et X une variable aléatoire intégrable de valeur T. Dans ce cadre général, intégrable signifie qu'il existe un élément dans T , tel que pour tout élément z dans l' espace dual de T : , et . Alors, pour toute fonction convexe mesurable φ et toute sous --algèbre de :

Ici représente l' espérance conditionnée à la -algèbre . Cette déclaration générale réduit aux précédentes lorsque l'espace vectoriel topologique T est l' axe réel , et est le trivial σ -algèbre {∅, Ω} (où est l' ensemble vide et Ω est l' espace de l' échantillon ).

Une forme affûtée et généralisée

Soit X une variable aléatoire unidimensionnelle de moyenne et de variance . Soit une fonction deux fois dérivable, et définissons la fonction

Puis

En particulier, quand est convexe, alors , et la forme standard de l'inégalité de Jensen suit immédiatement pour le cas où est en outre supposé être deux fois différentiable.

Preuves

Une "preuve" graphique de l'inégalité de Jensen pour le cas probabiliste. La courbe en pointillés le long de l' axe X est la distribution hypothétique de X , tandis que la courbe en pointillés le long de l' axe Y est la distribution correspondante des valeurs Y. Notez que le mappage convexe Y ( X ) " étire " de plus en plus la distribution pour des valeurs croissantes de X .
Ceci est une preuve sans mots de l'inégalité de Jensen pour n variables. Sans perte de généralité, la somme des poids positifs est de 1 . Il s'ensuit que le point pondéré se trouve dans l'enveloppe convexe des points d'origine, qui se situe au-dessus de la fonction elle-même par la définition de la convexité. La conclusion suit.

L'inégalité de Jensen peut être prouvée de plusieurs manières, et trois preuves différentes correspondant aux différentes déclarations ci-dessus seront proposées. Avant de se lancer dans ces dérivations mathématiques, cependant, il convient d'analyser un argument graphique intuitif basé sur le cas probabiliste où X est un nombre réel (voir figure). En supposant une distribution hypothétique des valeurs X , on peut immédiatement identifier la position de et son image dans le graphique. En remarquant que pour convexe mappages Y = φ ( X ) la distribution correspondante de Y valeurs est de plus en plus « tendu » pour des valeurs croissantes de X , il est facile de voir que la distribution des Y est plus large dans l'intervalle correspondant à X > X 0 et plus étroit en X < X 0 pour tout X 0 ; en particulier, cela est également vrai pour . Par conséquent, dans cette image, l'espérance de Y se déplacera toujours vers le haut par rapport à la position de . Un raisonnement similaire est valable si la distribution de X couvre une partie décroissante de la fonction convexe, ou à la fois une partie décroissante et une partie croissante de celle-ci. Cela « prouve » l'inégalité, c'est-à-dire

avec égalité lorsque φ ( X ) n'est pas strictement convexe, par exemple lorsqu'il s'agit d'une droite, ou lorsque X suit une distribution dégénérée (ie est une constante).

Les preuves ci-dessous formalisent cette notion intuitive.

Preuve 1 (forme finie)

Si λ 1 et λ 2 sont deux nombres réels arbitraires non négatifs de telle sorte que λ 1 + λ 2 = 1 alors convexité de φ implique

Ceci peut être généralisé : si λ 1 , ..., λ n sont des nombres réels non négatifs tels que λ 1 + ... + λ n = 1 , alors

pour tout x 1 , ..., x n .

La forme finie de l'inégalité de Jensen peut être prouvée par induction : par des hypothèses de convexité, l'énoncé est vrai pour n  = 2. Supposons que l'énoncé soit vrai pour un certain n , donc

pour tout λ 1 , ..., λ n tel que λ 1 + ... + λ n = 1 .

Il faut le prouver pour n + 1 . Au moins un des λ i est strictement plus petit que , disons λ n +1 ; donc par inégalité de convexité :

Puisque λ 1 + ... + λ n + λ n +1 = 1 ,

,

l'application de l'hypothèse d'induction donne

donc

On en déduit que l'égalité est vraie pour n + 1 , par le principe d'induction mathématique il s'ensuit que le résultat est également vrai pour tout entier n supérieur à 2.

Afin d'obtenir l'inégalité générale à partir de cette forme finie, il faut utiliser un argument de densité. La forme finie peut être réécrite comme :

μ n est une mesure donnée par une combinaison convexe arbitraire de deltas de Dirac :

Étant donné que les fonctions convexes sont continues et que les combinaisons convexes de deltas de Dirac sont faiblement denses dans l'ensemble des mesures de probabilité (comme cela pourrait être facilement vérifié), l'énoncé général est obtenu simplement par une procédure de limitation.

Preuve 2 (forme théorique de la mesure)

Soit g une fonction -intégrable à valeur réelle sur un espace de probabilité Ω, et soit φ une fonction convexe sur les nombres réels. Puisque φ est convexe, à chaque nombre réel x nous avons un ensemble non vide de subderivatives , qui peuvent être considérés comme des lignes touchant le graphe de φ à x , mais qui sont au niveau ou en dessous du graphique de φ à tous les points (lignes de soutien de le graphique).

Maintenant, si nous définissons

en raison de l'existence de sous-dérivées pour les fonctions convexes, on peut choisir a et b tels que

pour tout réel x et

Mais alors on a ça

pour tout x . Puisque nous avons une mesure de probabilité, l'intégrale est monotone avec μ (Ω) = 1 de sorte que

comme voulu.

Preuve 3 (inégalité générale dans un cadre probabiliste)

Soit X une variable aléatoire intégrable qui prend des valeurs dans un espace vectoriel topologique réel T . Puisque est convexe, pour tout , la quantité

est décroissant lorsque θ tend vers 0 + . En particulier, le sous- différentiel de évalué en x dans la direction y est bien défini par

On voit facilement que la sous-différentielle est linéaire en y (c'est faux et l'assertion nécessite de prouver le théorème de Hahn-Banach) et, puisque l'infimum pris dans la partie droite de la formule précédente est plus petit que la valeur de la même terme pour θ = 1 , on obtient

En particulier, pour une sous- σ -algèbre arbitraire, nous pouvons évaluer la dernière inégalité quand obtenir

Maintenant, si nous prenons l'espérance conditionnée aux deux côtés de l'expression précédente, nous obtenons le résultat puisque :

par la linéarité de la sous-différentielle dans la variable y , et la propriété bien connue suivante de l' espérance conditionnelle :

Applications et cas particuliers

Forme impliquant une fonction de densité de probabilité

Supposons que Ω est un sous - ensemble mesurable de la ligne réelle et f ( x ) est une fonction non négative de telle sorte que

En langage probabiliste, f est une fonction de densité de probabilité .

Alors l'inégalité de Jensen devient l'énoncé suivant sur les intégrales convexes :

Si g est une fonction mesurable à valeur réelle et est convexe sur la plage de g , alors

Si g ( x ) = x , alors cette forme de l'inégalité se réduit à un cas particulier couramment utilisé :

Ceci est appliqué dans les méthodes bayésiennes variationnelles .

Exemple : moments pairs d'une variable aléatoire

Si g ( x ) = x 2n , et X est une variable aléatoire, alors g est convexe comme

et donc

En particulier, si un moment pair 2n de X est fini, X a une moyenne finie. Une extension de cet argument montre que X a des moments finis de tout ordre divisant n .

Forme finie alternative

Laissez Ω = { x 1 , ... x n }, et prendre μ être la mesure de comptage sur Ω , la forme générale se réduit à une déclaration au sujet des sommes:

à condition que λ i ≥ 0 et

Il existe aussi une forme discrète infinie.

Physique statistique

L'inégalité de Jensen est d'une importance particulière en physique statistique lorsque la fonction convexe est une exponentielle, donnant :

où les valeurs attendues sont par rapport à une distribution de probabilité dans la variable aléatoire X .

La preuve dans ce cas est très simple (cf. Chandler, Sec. 5.5). L'inégalité recherchée suit directement, en écrivant

puis en appliquant l'inégalité e X 1 + X à l'exponentielle finale.

Théorie de l'information

Si p ( x ) est la densité réelle de probabilité de X , et q ( x ) est une autre densité, puis en appliquant l'inégalité de Jensen pour la variable aléatoire Y ( X ) = q ( X ) / p ( X ) et la fonction convexe φ ( y ) = −log( y ) donne

Par conséquent:

un résultat appelé inégalité de Gibbs .

Il montre que la longueur moyenne des messages est minimisée lorsque les codes sont attribués sur la base des vraies probabilités p plutôt que sur toute autre distribution q . La quantité non négative est appelée divergence de Kullback-Leibler de q à partir de p .

Puisque −log( x ) est une fonction strictement convexe pour x > 0 , il s'ensuit que l'égalité est vérifiée lorsque p ( x ) est égal à q ( x ) presque partout.

Théorème de Rao-Blackwell

Si L est une fonction convexe et une sous-sigma-algèbre, alors, à partir de la version conditionnelle de l'inégalité de Jensen, on obtient

Donc si δ( X ) est un estimateur d'un paramètre non observé θ étant donné un vecteur d'observables X ; et si T ( X ) est une statistique suffisante pour θ ; alors un estimateur amélioré, dans le sens d'avoir une plus petite perte attendue L , peut être obtenu en calculant

la valeur attendue de par rapport à , prise sur tous les vecteurs possibles d'observations X compatibles avec la même valeur de T ( X ) que celle observée. De plus, parce que T est une statistique suffisante, ne dépend pas de , devient donc une statistique.

Ce résultat est connu sous le nom de théorème de Rao-Blackwell .

Voir également

Remarques

Les références

Liens externes