Fonction de vraisemblance - Likelihood function

La fonction de vraisemblance (souvent simplement appelée vraisemblance ) décrit la probabilité conjointe des données observées en fonction des paramètres du modèle statistique choisi . Pour chaque valeur de paramètre spécifique dans l' espace des paramètres , la fonction de vraisemblance attribue donc une prédiction probabiliste aux données observées . Puisqu'il s'agit essentiellement du produit des densités d'échantillonnage , la vraisemblance encapsule généralement à la fois le processus de génération de données ainsi que le mécanisme de données manquantes qui a produit l'échantillon observé.

Pour souligner que la vraisemblance n'est pas un pdf des paramètres, elle est souvent écrite sous la forme . Dans l' estimation du maximum de vraisemblance , la fonction de vraisemblance est maximisée pour obtenir la valeur spécifique qui est « la plus susceptible » d'avoir généré les données observées. Pendant ce temps, dans les statistiques bayésiennes , la fonction de vraisemblance sert de conduit par lequel les informations de l'échantillon influencent la probabilité postérieure du paramètre.

L'argument en faveur de l'utilisation de la vraisemblance a été présenté pour la première fois par RA Fisher , qui croyait qu'il s'agissait d'un cadre autonome pour la modélisation statistique et l'inférence. Plus tard, Barnard et Birnbaum ont dirigé une école de pensée qui a préconisé le principe de vraisemblance , postulant que toutes les informations pertinentes pour l' inférence sont contenues dans la fonction de vraisemblance. Mais dans les statistiques fréquentistes et bayésiennes , la fonction de vraisemblance joue un rôle fondamental.

Définition

La fonction de vraisemblance est généralement définie différemment pour les distributions de probabilité discrètes et continues . Une définition générale est également possible, comme discuté ci-dessous.

Distribution de probabilité discrète

Soit une variable aléatoire discrète avec une fonction de masse de probabilité dépendant d'un paramètre . Alors la fonction

considérée comme une fonction de , est la fonction de vraisemblance , étant donné le résultat de la variable aléatoire . Parfois , la probabilité de "la valeur de la valeur du paramètre " est écrit en tant que P ( X = x | θ ) ou P ( X = x ; θ ) . ne doit pas être confondu avec ; la vraisemblance est égale à la probabilité qu'un résultat particulier soit observé lorsque la vraie valeur du paramètre est , et par conséquent elle est égale à une densité de probabilité sur le résultat et non sur le paramètre .  

En l'absence d'événement (pas de données), la probabilité et donc la vraisemblance est de 1 ; tout événement non négligeable aura une probabilité plus faible.

Exemple

Figure 1. La fonction de vraisemblance ( ) pour la probabilité qu'une pièce atterrisse en tête-à-tête (sans connaissance préalable de l'équité de la pièce), étant donné que nous avons observé HH.
Figure 2. La fonction de vraisemblance ( ) pour la probabilité qu'une pièce atterrisse en tête-à-tête (sans connaissance préalable de l'équité de la pièce), étant donné que nous avons observé HHT.

Considérons un modèle statistique simple d'un lancer de pièce : un seul paramètre qui exprime la « justice » de la pièce. Le paramètre est la probabilité qu'une pièce tombe en tête ("H") lorsqu'elle est lancée. peut prendre n'importe quelle valeur comprise entre 0,0 et 1,0. Pour une pièce parfaitement équitable , .

Imaginez que vous lancez deux fois une pièce de monnaie équitable et observez les données suivantes : deux têtes en deux lancers (« HH »). En supposant que chaque tirage au sort successif est iid , alors la probabilité d'observer HH est

Par conséquent, étant donné les données observées HH, la probabilité que le paramètre du modèle soit égal à 0,5 est de 0,25. Mathématiquement, cela s'écrit comme

Ce n'est pas la même chose que de dire que la probabilité que , étant donné l'observation HH, soit de 0,25. (Pour cela, nous pourrions appliquer le théorème de Bayes , ce qui implique que la probabilité postérieure est proportionnelle à la probabilité multipliée par la probabilité antérieure.)

Supposons que la pièce n'est pas une pièce équitable, mais qu'elle a plutôt . Alors la probabilité d'obtenir deux têtes est

D'où

Plus généralement, pour chaque valeur de , on peut calculer la vraisemblance correspondante. Le résultat de ces calculs est affiché dans la figure 1.

Sur la figure 1, l'intégrale de la vraisemblance sur l'intervalle [0, 1] est de 1/3. Cela illustre un aspect important des vraisemblances : les vraisemblances n'ont pas à s'intégrer (ou à additionner) à 1, contrairement aux probabilités.

Distribution de probabilité continue

Soit une variable aléatoire suivant une distribution de probabilité absolument continue avec la fonction de densité (une fonction de ) qui dépend d'un paramètre . Alors la fonction

considérée en fonction de , est la fonction de vraisemblance (de , étant donné le résultat de ). Parfois, la fonction de densité pour "la valeur de la valeur du paramètre donnée " est écrite sous la forme . La fonction de vraisemblance, , ne doit pas être confondue avec ; la vraisemblance est égale à la densité de probabilité du résultat observé, , lorsque la vraie valeur du paramètre est , et est donc égale à une densité de probabilité sur le résultat , c'est-à-dire que la fonction de vraisemblance n'est pas une densité sur le paramètre . En termes simples, il s'agit de tester des hypothèses (trouver la probabilité de résultats variables étant donné un ensemble de paramètres définis dans l' hypothèse nulle ) comme l' est l'inférence (trouver les paramètres probables étant donné un résultat spécifique).  

En général

Dans la théorie des probabilités de la mesure , la fonction de densité est définie comme la dérivée de Radon-Nikodym de la distribution de probabilité par rapport à une mesure dominante commune. La fonction de vraisemblance est cette densité interprétée comme une fonction du paramètre (éventuellement un vecteur), plutôt que des résultats possibles. Cela fournit une fonction de vraisemblance pour tout modèle statistique avec toutes les distributions, qu'elles soient discrètes, absolument continues, un mélange ou autre chose. (Les probabilités ne seront comparables, par exemple pour l'estimation des paramètres, que s'il s'agit de dérivés Radon-Nikodym par rapport à la même mesure dominante.)

La discussion ci-dessus de la probabilité avec des probabilités discrètes est un cas particulier de cela en utilisant la mesure de comptage , qui rend la densité de probabilité à tout résultat égale à la probabilité de ce résultat unique.

Fonction de vraisemblance d'un modèle paramétré

Parmi de nombreuses applications, nous en considérons ici une d'une grande importance théorique et pratique. Soit une famille paramétrée de fonctions de densité de probabilité (ou fonctions de masse de probabilité dans le cas de distributions discrètes)

où est le paramètre, la fonction de vraisemblance est

écrit

où est le résultat observé d'une expérience. En d'autres termes, lorsqu'elle est considérée comme une fonction de avec fixe, c'est une fonction de densité de probabilité, et lorsqu'elle est considérée comme une fonction de avec fixe, c'est une fonction de vraisemblance.

Ce n'est pas la même chose que la probabilité que ces paramètres soient les bons, compte tenu de l'échantillon observé. Tenter d'interpréter la probabilité d'une hypothèse compte tenu des preuves observées comme la probabilité de l'hypothèse est une erreur courante, avec des conséquences potentiellement désastreuses. Voir le sophisme du procureur pour un exemple de cela.

D'un point de vue géométrique, si l'on considère comme une fonction de deux variables alors la famille des distributions de probabilité peut être considérée comme une famille de courbes parallèles à l' axe -, tandis que la famille des fonctions de vraisemblance est constituée des courbes orthogonales parallèles à l' axe -.

Probabilités pour les distributions continues

L'utilisation de la densité de probabilité pour spécifier la fonction de vraisemblance ci-dessus est justifiée comme suit. Étant donné une observation , la vraisemblance pour l'intervalle , où est une constante, est donnée par . Observe ceci

,

car est positif et constant. Parce que

où est la fonction de densité de probabilité, il s'ensuit que

.

Le premier théorème fondamental du calcul et la règle de l'Hôpital fournissent ensemble que

Puis

Par conséquent,

et ainsi maximiser la densité de probabilité à revient à maximiser la vraisemblance de l'observation spécifique .

Probabilités pour les distributions mixtes continues et discrètes

Ce qui précède peut être étendu de manière simple pour permettre la prise en compte de distributions qui contiennent à la fois des composants discrets et continus. Supposons que la distribution se compose d'un certain nombre de masses de probabilité discrètes et d'une densité , où la somme de tous les ajoutés à l'intégrale de est toujours un. En supposant qu'il soit possible de distinguer une observation correspondant à l'une des masses de probabilité discrètes de celle qui correspond à la composante de densité, la fonction de vraisemblance pour une observation de la composante continue peut être traitée de la manière indiquée ci-dessus. Pour une observation de la composante discrète, la fonction de vraisemblance pour une observation de la composante discrète est simplement

où est l'indice de la masse de probabilité discrète correspondant à l'observation , car maximiser la masse de probabilité (ou probabilité) à revient à maximiser la vraisemblance de l'observation spécifique.

Le fait que la fonction de vraisemblance puisse être définie d'une manière qui inclut des contributions non proportionnelles (la densité et la masse de probabilité) découle de la manière dont la fonction de vraisemblance est définie à une constante de proportionnalité près, où cette « constante » peut changer avec l'observation , mais pas avec le paramètre .

Conditions de régularité

Dans le contexte de l'estimation des paramètres, la fonction de vraisemblance est généralement supposée obéir à certaines conditions, appelées conditions de régularité. Ces conditions sont supposées dans diverses preuves impliquant des fonctions de vraisemblance et doivent être vérifiées dans chaque application particulière. Pour l'estimation du maximum de vraisemblance, l'existence d'un maximum global de la fonction de vraisemblance est de la plus haute importance. Par le théorème des valeurs extrêmes , il suffit que la fonction de vraisemblance soit continue sur un espace de paramètres compact pour que l'estimateur du maximum de vraisemblance existe. Alors que l'hypothèse de continuité est généralement satisfaite, l'hypothèse de compacité concernant l'espace des paramètres ne l'est souvent pas, car les limites des vraies valeurs des paramètres sont inconnues. Dans ce cas, la concavité de la fonction de vraisemblance joue un rôle clé.

Plus précisément, si la fonction de vraisemblance est deux fois continûment différentiable sur l' espace des paramètres à k dimensions supposé être un sous-ensemble ouvert connecté de , il existe un unique maximum si

est défini négatif à chaque pour lequel le gradient s'annule, et
, c'est-à-dire que la fonction de vraisemblance s'approche d'une constante sur la frontière de l'espace des paramètres, qui peut inclure les points à l'infini s'il est non borné.

Mäkeläinen et al. prouver ce résultat en utilisant la théorie Morse tout en faisant appel de manière informelle à une propriété de col de montagne. Mascarenhas réitère sa preuve en utilisant le théorème des cols de montagne .

Dans les preuves de cohérence et de normalité asymptotique de l'estimateur du maximum de vraisemblance, des hypothèses supplémentaires sont faites sur les densités de probabilité qui forment la base d'une fonction de vraisemblance particulière. Ces conditions ont d'abord été établies par Chanda. En particulier, pour presque tous , et pour tous ,

existent pour tous afin d'assurer l'existence d'une expansion de Taylor . Deuxièmement, pour presque tous et pour tous, il doit être que

où est tel que . Cette limitation des dérivées est nécessaire pour permettre la différenciation sous le signe intégral . Et enfin, on suppose que la matrice d'information ,

est défini positif et est fini. Cela garantit que le score a une variance finie.

Les conditions ci-dessus sont suffisantes, mais pas nécessaires. C'est-à-dire qu'un modèle qui ne satisfait pas à ces conditions de régularité peut avoir ou non un estimateur du maximum de vraisemblance des propriétés mentionnées ci-dessus. De plus, dans le cas d'observations non indépendantes ou non distribuées de manière identique, des propriétés supplémentaires peuvent devoir être supposées.

En statistique bayésienne, des conditions de régularité presque identiques sont imposées à la fonction de vraisemblance afin de justifier l' approximation de Laplace de la probabilité postérieure .

Rapport de vraisemblance et vraisemblance relative

Rapport de vraisemblance

Un rapport de vraisemblance est le rapport de deux probabilités spécifiées, fréquemment écrit comme :

Le rapport de vraisemblance est au cœur des statistiques probabilistes : la loi de vraisemblance indique que le degré auquel les données (considérées comme des preuves) soutiennent une valeur de paramètre par rapport à une autre est mesuré par le rapport de vraisemblance.

Dans l' inférence fréquentiste , le rapport de vraisemblance est la base d' une statistique de test , appelée test du rapport de vraisemblance . D'après le lemme de Neyman-Pearson , c'est le test le plus puissant pour comparer deux hypothèses simples à un niveau de signification donné . De nombreux autres tests peuvent être considérés comme des tests de rapport de vraisemblance ou des approximations de ceux-ci. La distribution asymptotique du rapport de vraisemblance, considérée comme une statistique de test, est donnée par le théorème de Wilks .

Le rapport de vraisemblance est également d'une importance capitale dans l'inférence bayésienne , où il est connu sous le nom de facteur de Bayes , et est utilisé dans la règle de Bayes . Exprimée en termes de cotes , la règle de Bayes stipule que les cotes postérieures de deux alternatives, et , étant donné un événement , sont les cotes antérieures multipliées par le rapport de vraisemblance. Comme équation :

Le rapport de vraisemblance n'est pas directement utilisé dans les statistiques basées sur l'AIC. Au lieu de cela, ce qui est utilisé est la probabilité relative des modèles (voir ci-dessous).

Distinction au rapport de cotes

Le rapport de vraisemblance de deux modèles, étant donné le même événement, peut être mis en contraste avec la probabilité de deux événements, étant donné le même modèle. En termes de fonction de masse de probabilité paramétrée , le rapport de vraisemblance de deux valeurs du paramètre et , étant donné un résultat est :

tandis que la probabilité de deux résultats, et , étant donné une valeur du paramètre , est :

Cela met en évidence la différence entre vraisemblance et probabilité : en vraisemblance, on compare des modèles (paramètres), en maintenant les données fixes ; tandis que dans les cotes, on compare les événements (résultats, données), en maintenant le modèle fixe.

Le rapport de cotes est un rapport de deux cotes conditionnelles (d'un événement, étant donné qu'un autre événement est présent ou absent). Cependant, l'odds ratio peut également être interprété comme un rapport de deux rapports de vraisemblance, si l'on considère que l'un des événements est plus facilement observable que l'autre. Voir le rapport de cotes de diagnostic , où le résultat d'un test de diagnostic est plus facilement observable que la présence ou l'absence d'une condition médicale sous-jacente .

Fonction de vraisemblance relative

Étant donné que la valeur réelle de la fonction de vraisemblance dépend de l'échantillon, il est souvent pratique de travailler avec une mesure standardisée. Supposons que l' estimation du maximum de vraisemblance pour le paramètre θ est . Vraisemblances relatives d'autres thetav valeurs peuvent être trouvées en comparant les vraisemblances de ces autres valeurs avec la probabilité . La probabilité relative de θ est défini comme étant

Ainsi, la vraisemblance relative est le rapport de vraisemblance (discuté ci-dessus) avec le dénominateur fixe . Cela correspond à normaliser la probabilité d'avoir un maximum de 1.

Région de probabilité

Une région de vraisemblance est l'ensemble de toutes les valeurs de θ dont la probabilité relative est supérieure ou égale à un seuil donné. En termes de pourcentages, une région de probabilité p % pour θ est définie comme étant

Si θ est un paramètre réel unique, une p région de vraisemblance% sera généralement comprennent un intervalle de valeurs réelles. Si la région comprend un intervalle, on l'appelle un intervalle de vraisemblance .

Les intervalles de vraisemblance, et plus généralement les régions de vraisemblance, sont utilisés pour l' estimation d'intervalle dans les statistiques vraisemblables : ils sont similaires aux intervalles de confiance dans les statistiques fréquentistes et aux intervalles crédibles dans les statistiques bayésiennes. Les intervalles de vraisemblance sont interprétés directement en termes de vraisemblance relative, et non en termes de probabilité de couverture (fréquentisme) ou de probabilité a posteriori (bayésianisme).

Étant donné un modèle, les intervalles de vraisemblance peuvent être comparés à des intervalles de confiance. Si θ est un paramètre réel unique, puis sous certaines conditions, un intervalle de probabilité de 14,65% (environ 1: 7 probabilité) pour θ sera identique à un intervalle de confiance de 95% (19/20 de probabilité de couverture). Dans une formulation légèrement différente adaptée à l'utilisation des log-vraisemblances (voir le théorème de Wilks ), la statistique de test est le double de la différence des log-vraisemblances et la distribution de probabilité de la statistique de test est approximativement une distribution chi-carré avec des degrés de -liberté (df) égale à la différence de df entre les deux modèles (par conséquent, l' intervalle de vraisemblance e −2 est le même que l'intervalle de confiance de 0,954 ; en supposant que la différence de df est de 1).

Probabilités qui éliminent les paramètres de nuisance

Dans de nombreux cas, la vraisemblance est fonction de plus d'un paramètre mais l'intérêt se concentre sur l'estimation d'un seul, ou tout au plus de quelques-uns d'entre eux, les autres étant considérés comme des paramètres de nuisance . Plusieurs approches alternatives ont été développées pour éliminer ces paramètres de nuisance, de sorte qu'une vraisemblance puisse être écrite en fonction uniquement du paramètre (ou des paramètres) d'intérêt : les principales approches sont les vraisemblances de profil, conditionnelles et marginales. Ces approches sont également utiles lorsqu'une surface de vraisemblance de grande dimension doit être réduite à un ou deux paramètres d'intérêt afin de permettre un graphe .

Probabilité du profil

Il est possible de réduire les dimensions en concentrant la fonction de vraisemblance pour un sous-ensemble de paramètres en exprimant les paramètres de nuisance en fonction des paramètres d'intérêt et en les remplaçant dans la fonction de vraisemblance. En général, pour une fonction de vraisemblance dépendant du vecteur de paramètres qui peut être divisé en , et où une correspondance peut être déterminée explicitement, la concentration réduit la charge de calcul du problème de maximisation d'origine.

Par exemple, dans une régression linéaire avec des erreurs normalement distribuées, , le vecteur de coefficient pourrait être divisé en (et par conséquent la matrice de conception ). Maximiser par rapport à donne une fonction de valeur optimale . En utilisant ce résultat, l'estimateur du maximum de vraisemblance pour peut alors être dérivé comme

où est la matrice de projection de . Ce résultat est connu sous le nom de théorème de Frisch-Waugh-Lovell .

Étant donné que graphiquement la procédure de concentration équivaut à découper la surface de vraisemblance le long de la crête des valeurs du paramètre de nuisance qui maximise la fonction de vraisemblance, créant un profil isométrique de la fonction de vraisemblance pour un , le résultat de cette procédure est également connu sous le nom de profil vraisemblance . En plus d'être représentée graphiquement, la vraisemblance du profil peut également être utilisée pour calculer des intervalles de confiance qui ont souvent de meilleures propriétés pour les petits échantillons que celles basées sur les erreurs types asymptotiques calculées à partir de la vraisemblance totale.

Vraisemblance conditionnelle

Parfois, il est possible de trouver une statistique suffisante pour les paramètres de nuisance, et le conditionnement sur cette statistique aboutit à une vraisemblance qui ne dépend pas des paramètres de nuisance.

Un exemple se produit dans les tableaux 2 × 2, où le conditionnement sur les quatre totaux marginaux conduit à une vraisemblance conditionnelle basée sur la distribution hypergéométrique non centrale . Cette forme de conditionnement est également à la base du test exact de Fisher .

Vraisemblance marginale

Parfois, nous pouvons supprimer les paramètres de nuisance en considérant une vraisemblance basée sur une partie seulement des informations contenues dans les données, par exemple en utilisant l'ensemble des rangs plutôt que les valeurs numériques. Un autre exemple se produit dans les modèles linéaires mixtes , où la prise en compte d'une vraisemblance pour les résidus uniquement après ajustement des effets fixes conduit à une estimation du maximum de vraisemblance résiduelle des composantes de la variance.

Vraisemblance partielle

Une vraisemblance partielle est une adaptation de la vraisemblance totale de telle sorte que seule une partie des paramètres (les paramètres d'intérêt) s'y trouve. C'est un élément clé du modèle à risques proportionnels : en utilisant une restriction sur la fonction de risque, la vraisemblance ne contient pas la forme du risque dans le temps.

Produits de vraisemblances

La vraisemblance, compte tenu de deux événements indépendants ou plus , est le produit des vraisemblances de chacun des événements individuels :

Cela découle de la définition de l'indépendance en probabilité : les probabilités que deux événements indépendants se produisent, étant donné un modèle, sont le produit des probabilités.

Ceci est particulièrement important lorsque les événements proviennent de variables aléatoires indépendantes et distribuées de manière identique , telles que des observations indépendantes ou un échantillonnage avec remise . Dans une telle situation, la fonction de vraisemblance se décompose en un produit de fonctions de vraisemblance individuelles.

Le produit vide a la valeur 1, qui correspond à la vraisemblance, étant donné aucun événement, étant 1 : avant toute donnée, la vraisemblance est toujours 1. Ceci est similaire à un a priori uniforme dans les statistiques bayésiennes, mais dans les statistiques vraisemblance ce n'est pas un impropre a priori car les vraisemblances ne sont pas intégrées.

Log-vraisemblance

La fonction de log-vraisemblance est une transformation logarithmique de la fonction de vraisemblance, souvent désignée par un l minuscule ou , pour contraster avec la majuscule L ou pour la vraisemblance. Comme les logarithmes sont des fonctions strictement croissantes , maximiser la vraisemblance équivaut à maximiser la log-vraisemblance. Mais à des fins pratiques, il est plus pratique de travailler avec la fonction de vraisemblance logarithmique dans l' estimation du maximum de vraisemblance , en particulier puisque les distributions de probabilité les plus courantes, notamment la famille exponentielle, ne sont que logarithmiquement concaves et que la concavité de la fonction objectif joue un rôle clé dans la maximisation .

Compte tenu de l'indépendance de chaque événement, la log-vraisemblance globale d'intersection est égale à la somme des log-vraisemblances des événements individuels. Ceci est analogue au fait que la log-probabilité globale est la somme de la log-probabilité des événements individuels. En plus de la commodité mathématique de cela, le processus d'ajout de log-vraisemblance a une interprétation intuitive, aussi souvent exprimée comme « support » à partir des données. Lorsque les paramètres sont estimés à l'aide de la log-vraisemblance pour l' estimation du maximum de vraisemblance , chaque point de données est utilisé en étant ajouté à la log-vraisemblance totale. Comme les données peuvent être considérées comme une preuve qui appuie les paramètres estimés, ce processus peut être interprété comme un « soutien à partir de preuves indépendantes ajoute », et la log-vraisemblance est le « poids de la preuve ». Interprétant la log-probabilité négative comme contenu informationnel ou surprenant , le support (log-vraisemblance) d'un modèle, étant donné un événement, est le négatif de la surprise de l'événement, étant donné le modèle : un modèle est supporté par un événement dans la mesure que l'événement n'est pas surprenant, étant donné le modèle.

Un logarithme d'un rapport de vraisemblance est égal à la différence des log-vraisemblances :

De même que la vraisemblance, en l'absence d'événement, étant 1, la log-vraisemblance, en l'absence d'événement, est de 0, ce qui correspond à la valeur de la somme vide : sans aucune donnée, il n'y a de support pour aucun modèle.

Équations de vraisemblance

Si la fonction de log-vraisemblance est lisse , son gradient par rapport au paramètre, appelé score et noté , existe et permet l'application du calcul différentiel . Le moyen de base pour maximiser une fonction dérivable est de trouver les points stationnaires (les points où la dérivée est nulle); puisque la dérivée d'une somme n'est que la somme des dérivées, mais que la dérivée d'un produit nécessite la règle du produit , il est plus facile de calculer les points stationnaires de la log-vraisemblance d'événements indépendants que pour la probabilité d'événements indépendants.

Les équations définies par le point stationnaire de la fonction de score servent d' équations d'estimation pour l'estimateur du maximum de vraisemblance.

En ce sens, l'estimateur du maximum de vraisemblance est implicitement défini par la valeur à de la fonction inverse , où est l' espace euclidien de dimension d , et est l'espace des paramètres. En utilisant le théorème de fonction inverse , on peut montrer que est bien définie dans un voisinage ouvert au sujet avec la probabilité d' aller à un, et est une estimation cohérente de . En conséquence, il existe une séquence telle que asymptotiquement presque sûrement , et . Un résultat similaire peut être établi en utilisant le théorème de Rolle .

La dérivée seconde évaluée à , connue sous le nom d' information de Fisher , détermine la courbure de la surface de vraisemblance, et indique ainsi la précision de l'estimation.

Familles exponentielles

La log-vraisemblance est également particulièrement utile pour les familles de distributions exponentielles , qui incluent de nombreuses distributions de probabilité paramétriques courantes . La fonction de distribution de probabilité (et donc la fonction de vraisemblance) pour les familles exponentielles contient des produits de facteurs impliquant l' exponentiation . Le logarithme d'une telle fonction est une somme de produits, encore plus facile à différencier que la fonction d'origine.

Une famille exponentielle est celle dont la fonction de densité de probabilité est de la forme (pour certaines fonctions, écrivant pour le produit scalaire ):

Chacun de ces termes a une interprétation, mais le simple fait de passer de la probabilité à la vraisemblance et de prendre des logarithmes donne la somme :

Les et correspondent chacun à un changement de coordonnées , donc dans ces coordonnées, la log-vraisemblance d'une famille exponentielle est donnée par la formule simple :

En mots, la log-vraisemblance d'une famille exponentielle est le produit intérieur du paramètre naturel et de la statistique suffisante , moins le facteur de normalisation ( fonction de partition log ) . Ainsi, par exemple, l'estimation du maximum de vraisemblance peut être calculée en prenant des dérivées de la statistique suffisante T et de la fonction de partition log A .

Exemple : la distribution gamma

La distribution gamma est une famille exponentielle à deux paramètres, et . La fonction de vraisemblance est

Trouver l'estimation du maximum de vraisemblance pour une seule valeur observée semble plutôt intimidant. Son logarithme est beaucoup plus simple à utiliser :

Pour maximiser la log-vraisemblance, on prend d'abord la dérivée partielle par rapport à :

S'il existe un certain nombre d'observations indépendantes , alors la log-vraisemblance conjointe sera la somme des log-vraisemblances individuelles, et la dérivée de cette somme sera une somme des dérivées de chaque log-vraisemblance individuelle :

Pour compléter la procédure de maximisation de la log-vraisemblance conjointe, l'équation est mise à zéro et résolue pour :

Dénote ici l'estimation du maximum de vraisemblance, et est la moyenne de l' échantillon des observations.

Contexte et interprétation

Remarques historiques

Le terme « probabilité » est utilisé en anglais depuis au moins la fin du moyen anglais . Son utilisation formelle pour désigner une fonction spécifique en statistique mathématique a été proposée par Ronald Fisher , dans deux articles de recherche publiés en 1921 et 1922. L'article de 1921 a introduit ce qu'on appelle aujourd'hui un « intervalle de vraisemblance » ; l'article de 1922 a introduit le terme « méthode du maximum de vraisemblance ». Citant Fisher :

[I]n 1922, j'ai proposé le terme « vraisemblance », compte tenu du fait que, par rapport à [le paramètre], ce n'est pas une probabilité, et n'obéit pas aux lois de la probabilité, tout en rapporte au problème du choix rationnel entre les valeurs possibles du [paramètre] une relation semblable à celle que la probabilité porte au problème de la prédiction des événements dans les jeux de hasard. . . . Alors que, cependant, en ce qui concerne le jugement psychologique, la vraisemblance a une certaine ressemblance avec la probabilité, les deux concepts sont totalement distincts. . . ."

Le concept de vraisemblance ne doit pas être confondu avec la probabilité comme mentionné par Sir Ronald Fisher

J'insiste là-dessus parce que malgré l'accent que j'ai toujours mis sur la différence entre probabilité et vraisemblance, il existe toujours une tendance à traiter la vraisemblance comme s'il s'agissait d'une sorte de probabilité. Le premier résultat est donc qu'il existe deux mesures différentes de la croyance rationnelle appropriées à différents cas. Connaissant la population, nous pouvons exprimer notre connaissance incomplète ou notre attente de l'échantillon en termes de probabilité ; connaissant l'échantillon, nous pouvons exprimer notre connaissance incomplète de la population en termes de vraisemblance.

L'invention de la vraisemblance statistique par Fisher était une réaction contre une forme antérieure de raisonnement appelée probabilité inverse . Son utilisation du terme « vraisemblance » a fixé le sens du terme dans les statistiques mathématiques.

AWF Edwards (1972) a établi la base axiomatique de l'utilisation du rapport de vraisemblance logarithmique comme mesure du soutien relatif d'une hypothèse par rapport à une autre. La fonction de support est alors le logarithme népérien de la fonction de vraisemblance. Les deux termes sont utilisés en phylogénétique , mais n'ont pas été adoptés dans un traitement général du sujet des preuves statistiques.

Interprétations sous différentes fondations

Parmi les statisticiens, il n'y a pas de consensus sur ce que devrait être le fondement des statistiques . Quatre paradigmes principaux ont été proposés pour la fondation : le fréquentisme , le bayésianisme , le vraisemblance et l' AIC . Pour chacun des fondements proposés, l'interprétation de la vraisemblance est différente. Les quatre interprétations sont décrites dans les sous-sections ci-dessous.

Interprétation fréquentiste

Interprétation bayésienne

Dans l'inférence bayésienne , bien que l'on puisse parler de la vraisemblance de toute proposition ou variable aléatoire étant donné une autre variable aléatoire : par exemple la vraisemblance d'une valeur de paramètre ou d'un modèle statistique (voir vraisemblance marginale ), compte tenu de données spécifiées ou d'autres preuves, la vraisemblance fonction reste la même entité, avec les interprétations supplémentaires de (i) une densité conditionnelle des données étant donné le paramètre (puisque le paramètre est alors une variable aléatoire) et (ii) une mesure ou quantité d'informations apportées par les données sur le paramètre valeur ou même le modèle. En raison de l'introduction d'une structure de probabilité sur l'espace des paramètres ou sur la collection de modèles, il est possible qu'une valeur de paramètre ou un modèle statistique ait une grande valeur de vraisemblance pour des données données, et pourtant ait une faible probabilité , ou vice versa. C'est souvent le cas dans les contextes médicaux. Suivant la règle de Bayes , la vraisemblance, lorsqu'elle est considérée comme une densité conditionnelle, peut être multipliée par la densité de probabilité antérieure du paramètre, puis normalisée, pour donner une densité de probabilité postérieure . Plus généralement, la probabilité d'une quantité inconnue donnée une autre quantité inconnue est proportionnelle à la probabilité de donnée .

Interprétation vraisemblable

Dans les statistiques fréquentistes, la fonction de vraisemblance est elle-même une statistique qui résume un seul échantillon d'une population, dont la valeur calculée dépend d'un choix de plusieurs paramètres θ 1 ... θ p , où p est le nombre de paramètres dans certains déjà sélectionnés. modèle statistique . La valeur de la vraisemblance sert de facteur de mérite pour le choix utilisé pour les paramètres, et l'ensemble de paramètres avec le maximum de vraisemblance est le meilleur choix, compte tenu des données disponibles.

Le calcul spécifique de la vraisemblance est la probabilité que l'échantillon observé soit affecté, en supposant que le modèle choisi et les valeurs des différents paramètres θ donnent une approximation précise de la distribution de fréquence de la population d'où provient l'échantillon observé. Heuristiquement, il est logique qu'un bon choix de paramètres soit ceux qui rendent l'échantillon réellement observé la probabilité post-hoc maximale possible d'avoir eu lieu. Le théorème de Wilks quantifie la règle heuristique en montrant que la différence entre le logarithme de la vraisemblance générée par les valeurs des paramètres de l'estimation et le logarithme de la vraisemblance générée par les valeurs « vraies » (mais inconnues) des paramètres de la population est asymptotiquement χ 2 distribué .

L'estimation du maximum de vraisemblance de chaque échantillon indépendant est une estimation distincte du « vrai » ensemble de paramètres décrivant la population échantillonnée. Les estimations successives de nombreux échantillons indépendants se regrouperont avec le « vrai » ensemble de valeurs de paramètres de la population caché quelque part au milieu d'eux. La différence entre les logarithmes de la vraisemblance maximale , et les vraisemblances de jeux de paramètres adjacents peut être utilisé pour dessiner une région de confiance sur un terrain dont les coordonnées sont les paramètres de 1 ... θ p . La région entoure l'estimation de vraisemblance maximale, et tous les points (ensembles de paramètres) dans cette région diffèrent au plus en log-vraisemblance d'une valeur fixe. La distribution χ 2 donnée par le théorème de Wilks convertit les différences de log-vraisemblance de la région en la « confiance » que l'ensemble de paramètres « vrai » de la population se trouve à l'intérieur. L'art de choisir la différence de log-vraisemblance fixe est de rendre la confiance suffisamment élevée tout en gardant la région suffisamment petite (plage d'estimations étroite).

Au fur et à mesure que davantage de données sont observées, au lieu d'être utilisées pour faire des estimations indépendantes, elles peuvent être combinées avec les échantillons précédents pour former un seul échantillon combiné, et ce grand échantillon peut être utilisé pour une nouvelle estimation du maximum de vraisemblance. À mesure que la taille de l'échantillon combiné augmente, la taille de la région de vraisemblance avec la même confiance diminue. Finalement, soit la taille de la région de confiance est très proche d'un seul point, soit la population entière a été échantillonnée ; dans les deux cas, l'ensemble de paramètres estimé est essentiellement le même que l'ensemble de paramètres de population.

Interprétation basée sur l'AIC

Dans le paradigme AIC , la vraisemblance est interprétée dans le contexte de la théorie de l' information .

Voir également

Remarques

Les références

Lectures complémentaires

Liens externes