Classificateur naïf Bayes - Naive Bayes classifier

En statistique , les classificateurs naïfs de Bayes sont une famille de simples « classificateurs probabilistes » basés sur l'application du théorème de Bayes avec de fortes hypothèses d' indépendance (naïves) entre les caractéristiques (voir le classificateur de Bayes ). Ils font partie des modèles de réseaux bayésiens les plus simples , mais couplés à l' estimation de la densité du noyau , ils peuvent atteindre des niveaux de précision plus élevés.

Les classificateurs naïfs de Bayes sont hautement évolutifs, nécessitant un certain nombre de paramètres linéaires dans le nombre de variables (caractéristiques/prédicteurs) dans un problème d'apprentissage. L' apprentissage par maximum de vraisemblance peut être effectué en évaluant une expression de forme fermée , qui prend un temps linéaire , plutôt que par une approximation itérative coûteuse comme celle utilisée pour de nombreux autres types de classificateurs.

Dans la littérature statistique et informatique , les modèles naïfs de Bayes sont connus sous divers noms, notamment Bayes simple et Bayes indépendant . Tous ces noms font référence à l'utilisation du théorème de Bayes dans la règle de décision du classifieur, mais Bayes naïf n'est pas (nécessairement) une méthode bayésienne .

introduction

Naive Bayes est une technique simple pour construire des classificateurs : des modèles qui attribuent des étiquettes de classe aux instances du problème, représentées comme des vecteurs de valeurs de caractéristiques , où les étiquettes de classe sont tirées d'un ensemble fini. Il n'y a pas un seul algorithme pour former de tels classificateurs, mais une famille d'algorithmes basée sur un principe commun : tous les classificateurs naïfs de Bayes supposent que la valeur d'une caractéristique particulière est indépendante de la valeur de toute autre caractéristique, étant donné la variable de classe. Par exemple, un fruit peut être considéré comme une pomme s'il est rouge, rond et d'environ 10 cm de diamètre. Un classificateur naïf de Bayes considère que chacune de ces caractéristiques contribue indépendamment à la probabilité que ce fruit soit une pomme, quelles que soient les corrélations possibles entre les caractéristiques de couleur, de rondeur et de diamètre.

Pour certains types de modèles de probabilité, les classificateurs naïfs de Bayes peuvent être entraînés très efficacement dans un cadre d' apprentissage supervisé . Dans de nombreuses applications pratiques, l'estimation des paramètres pour les modèles naïfs de Bayes utilise la méthode du maximum de vraisemblance ; en d'autres termes, on peut travailler avec le modèle naïf de Bayes sans accepter la probabilité bayésienne ou utiliser des méthodes bayésiennes.

Malgré leur conception naïve et leurs hypothèses apparemment simplistes, les classificateurs naïfs de Bayes ont plutôt bien fonctionné dans de nombreuses situations complexes du monde réel. En 2004, une analyse du problème de classification bayésienne a montré qu'il existe de bonnes raisons théoriques à l' efficacité apparemment invraisemblable des classificateurs bayésiens naïfs. Pourtant, une comparaison complète avec d'autres algorithmes de classification en 2006 a montré que la classification de Bayes est surpassée par d'autres approches, telles que les arbres boostés ou les forêts aléatoires .

Un avantage de Bayes naïf est qu'il ne nécessite qu'un petit nombre de données d'apprentissage pour estimer les paramètres nécessaires à la classification.

Modèle probabiliste

De manière abstraite, Bayes naïf est un modèle de probabilité conditionnelle : étant donné une instance de problème à classer, représentée par un vecteur représentant quelques n caractéristiques (variables indépendantes), il attribue à cette instance des probabilités

pour chacun des K résultats ou classes possibles .

Le problème avec la formulation ci-dessus est que si le nombre de caractéristiques n est grand ou si une caractéristique peut prendre un grand nombre de valeurs, alors baser un tel modèle sur des tables de probabilités est infaisable. Le modèle doit donc être reformulé pour le rendre plus maniable. En utilisant le théorème de Bayes , la probabilité conditionnelle peut être décomposée en

En clair, en utilisant la terminologie de probabilité bayésienne , l'équation ci-dessus peut être écrite comme

En pratique, il n'y a d'intérêt que pour le numérateur de cette fraction, car le dénominateur ne dépend pas de et les valeurs des caractéristiques sont données, de sorte que le dénominateur est effectivement constant. Le numérateur est équivalent au modèle de probabilité conjoint

qui peut être réécrite comme suit, en utilisant la règle de la chaîne pour les applications répétées de la définition de la probabilité conditionnelle :

Maintenant, les hypothèses d' indépendance conditionnelle « naïves » entrent en jeu : supposons que toutes les caractéristiques de sont mutuellement indépendantes , conditionnelles à la catégorie . Sous cette hypothèse,

.

Ainsi, le modèle conjoint peut être exprimé comme

où désigne la proportionnalité .

Cela signifie que sous les hypothèses d'indépendance ci-dessus, la distribution conditionnelle sur la variable de classe est :

où la preuve est un facteur d'échelle dépendant uniquement de , c'est-à-dire une constante si les valeurs des variables de caractéristique sont connues.

Construire un classifieur à partir du modèle de probabilité

La discussion jusqu'à présent a dérivé le modèle de caractéristique indépendant, c'est-à-dire le modèle de probabilité naïf de Bayes . Le classificateur naïf de Bayes combine ce modèle avec une règle de décision . Une règle courante consiste à choisir l'hypothèse la plus probable ; c'est ce qu'on appelle la règle de décision maximale a posteriori ou MAP . Le classificateur correspondant, un classificateur de Bayes , est la fonction qui attribue une étiquette de classe pour certains k comme suit :

Estimation des paramètres et modèles d'événements

Le prior d'une classe peut être calculé en supposant des classes équiprobables ( c'est-à - dire ) ou en calculant une estimation de la probabilité de classe à partir de l'ensemble d'apprentissage ( c'est -à- dire <prior pour une classe donnée> = <nombre d'échantillons dans la classe>/<total nombre d'échantillons>). Pour estimer les paramètres de la distribution d'une caractéristique, il faut supposer une distribution ou générer des modèles non paramétriques pour les caractéristiques à partir de l'ensemble d'apprentissage.

Les hypothèses sur les distributions de caractéristiques sont appelées « modèle d'événement » du classificateur naïf de Bayes. Pour les fonctionnalités discrètes comme celles rencontrées dans la classification des documents (y compris le filtrage du spam), les distributions multinomiales et Bernoulli sont populaires. Ces hypothèses conduisent à deux modèles distincts, souvent confondus.

Bayes naïf gaussien

Lorsqu'il s'agit de données continues, une hypothèse typique est que les valeurs continues associées à chaque classe sont distribuées selon une distribution normale (ou gaussienne). Par exemple, supposons que les données d'apprentissage contiennent un attribut continu, . Les données sont d'abord segmentées par classe, puis la moyenne et la variance de sont calculées dans chaque classe. Soit la moyenne des valeurs in associées à la classe C k , et soit la variance corrigée de Bessel des valeurs in associées à la classe C k . Supposons que l'on ait collecté une valeur d'observation . Ensuite, la densité de probabilité d' une classe donnée , , peut être calculée en se connectant à l'équation pour une distribution normale paramétrée par et . C'est-à-dire,

Une autre technique courante pour gérer les valeurs continues consiste à utiliser le binning pour discrétiser les valeurs des caractéristiques, afin d'obtenir un nouvel ensemble de caractéristiques distribuées par Bernoulli ; certaines publications suggèrent en fait que cela est nécessaire pour appliquer des Bayes naïfs, mais ce n'est pas le cas, et la discrétisation peut rejeter des informations discriminantes .

Parfois, la distribution des densités marginales conditionnelles de classe est loin d'être normale. Dans ces cas, l' estimation de la densité par noyau peut être utilisée pour une estimation plus réaliste des densités marginales de chaque classe. Cette méthode, qui a été introduite par John et Langley, peut augmenter considérablement la précision du classificateur.

Bayes naïf multinomial

Avec un modèle d'événement multinomial, les échantillons (vecteurs de caractéristiques) représentent les fréquences avec lesquelles certains événements ont été générés par un multinôme où est la probabilité que l'événement i se produise (ou K tels multinômes dans le cas multiclasse). Un vecteur caractéristique est alors un histogramme , comptant le nombre de fois où l'événement i a été observé dans un cas particulier. Il s'agit du modèle d'événement généralement utilisé pour la classification des documents, les événements représentant l'occurrence d'un mot dans un seul document (voir l' hypothèse du sac de mots ). La probabilité d'observer un histogramme x est donnée par

Le classificateur naïf multinomial de Bayes devient un classificateur linéaire lorsqu'il est exprimé dans l'espace log :

où et .

Si une classe et une valeur de caractéristique données n'apparaissent jamais ensemble dans les données d'apprentissage, l'estimation de probabilité basée sur la fréquence sera nulle, car l'estimation de probabilité est directement proportionnelle au nombre d'occurrences de la valeur d'une caractéristique. Ceci est problématique car cela effacera toutes les informations des autres probabilités lorsqu'elles seront multipliées. Par conséquent, il est souvent souhaitable d'incorporer une correction pour petit échantillon, appelée pseudocompte , dans toutes les estimations de probabilité de telle sorte qu'aucune probabilité ne soit jamais définie exactement à zéro. Cette façon de régulariser naïf Bayes est appelée lissage de Laplace lorsque le pseudo-compte est un, et lissage de Lidstone dans le cas général.

Rennie et al. discuter des problèmes liés à l'hypothèse multinomiale dans le contexte de la classification des documents et des moyens possibles d'atténuer ces problèmes, y compris l'utilisation de poids tf-idf au lieu des fréquences de termes bruts et de la normalisation de la longueur des documents, pour produire un classificateur naïf de Bayes qui soit compétitif avec le vecteur de support machines .

Bernoulli naïf Bayes

Dans le modèle d'événement multivarié de Bernoulli , les caractéristiques sont des booléens indépendants (variables binaires) décrivant les entrées. Comme le modèle multinomial, ce modèle est populaire pour les tâches de classification de documents, où les caractéristiques d'occurrence de termes binaires sont utilisées plutôt que les fréquences de termes. Si est une valeur booléenne exprimant l'apparition ou l' absence du i « e terme du vocabulaire, la probabilité d'un document donné une classe est donnée par

où est la probabilité que la classe génère le terme . Ce modèle d'événement est particulièrement populaire pour classer des textes courts. Elle a l'avantage de modéliser explicitement l'absence de termes. Notez qu'un classificateur naïf de Bayes avec un modèle d'événement de Bernoulli n'est pas le même qu'un classificateur NB multinomial avec des nombres de fréquences tronqués à un.

Estimation des paramètres semi-supervisée

Étant donné un moyen d'entraîner un classificateur naïf de Bayes à partir de données étiquetées, il est possible de construire un algorithme d'apprentissage semi-supervisé qui peut apprendre à partir d'une combinaison de données étiquetées et non étiquetées en exécutant l'algorithme d'apprentissage supervisé en boucle :

Étant donné une collection d'échantillons étiquetés L et d'échantillons non étiquetés U , commencez par entraîner un classificateur naïf de Bayes sur L .
Jusqu'à convergence, faites :
Prédisez les probabilités de classe pour tous les exemples x dans .
Réentraînez le modèle en fonction des probabilités (et non des étiquettes) prédites à l'étape précédente.

La convergence est déterminée en fonction de l'amélioration de la vraisemblance du modèle , où désigne les paramètres du modèle naïf de Bayes.

Cet algorithme d'apprentissage est une instance de la plus générale algorithme de maximisation d'attente (EM): l'étape de prédiction à l' intérieur de la boucle est le E -Step de EM, alors que la re-formation de Bayes naïf est le M -Step. L'algorithme est formellement justifié par l'hypothèse que les données sont générées par un modèle de mélange , et les composants de ce modèle de mélange sont exactement les classes du problème de classification.

Discussion

Malgré le fait que les hypothèses d'indépendance de grande envergure soient souvent inexactes, le classificateur naïf de Bayes possède plusieurs propriétés qui le rendent étonnamment utile dans la pratique. En particulier, le découplage des distributions de caractéristiques conditionnelles de classe signifie que chaque distribution peut être estimée indépendamment comme une distribution unidimensionnelle. Cela permet d'atténuer les problèmes liés à la malédiction de la dimensionnalité , tels que le besoin d'ensembles de données qui évoluent de manière exponentielle avec le nombre d'entités. Alors que Bayes naïf ne parvient souvent pas à produire une bonne estimation des probabilités de classe correctes, cela peut ne pas être une exigence pour de nombreuses applications. Par exemple, le classificateur naïf de Bayes effectuera la classification de règle de décision MAP correcte tant que la classe correcte est plus probable que toute autre classe. Cela est vrai, que l'estimation de la probabilité soit légèrement ou même grossièrement inexacte. De cette manière, le classificateur global peut être suffisamment robuste pour ignorer les graves lacunes de son modèle de probabilité naïf sous-jacent. D'autres raisons du succès observé du classificateur naïf de Bayes sont discutées dans la littérature citée ci-dessous.

Relation avec la régression logistique

Dans le cas d'entrées discrètes (indicateurs ou caractéristiques fréquentielles pour des événements discrets), les classificateurs naïfs de Bayes forment une paire générative-discriminante avec des classificateurs de régression logistique ( multinomiaux ) : chaque classificateur naïf de Bayes peut être considéré comme un moyen d'ajuster un modèle de probabilité qui optimise la probabilité conjointe , tandis que la régression logistique s'adapte au même modèle de probabilité pour optimiser le conditionnel .

Le lien entre les deux peut être vu en observant que la fonction de décision pour Bayes naïf (dans le cas binaire) peut être réécrite comme "prédire la classe si les chances de dépassent celles de ". Exprimer cela dans l'espace de journalisation donne :

Le côté gauche de cette équation est le log-odds, ou logit , la quantité prédite par le modèle linéaire qui sous-tend la régression logistique. Puisque Bayes naïf est également un modèle linéaire pour les deux modèles d'événements "discrets", il peut être reparamétré comme une fonction linéaire . L'obtention des probabilités consiste alors à appliquer la fonction logistique à , ou dans le cas multiclasse, la fonction softmax .

Les classificateurs discriminants ont une erreur asymptotique plus faible que les classificateurs génératifs ; Cependant, les recherches de Ng et Jordan ont montré que dans certains cas pratiques, Bayes naïf peut surpasser la régression logistique car elle atteint son erreur asymptotique plus rapidement.

Exemples

Classement des personnes

Problème : classer si une personne donnée est un homme ou une femme en fonction des caractéristiques mesurées. Les caractéristiques comprennent la taille, le poids et la taille du pied.

Entraînement

Exemple de formation ci-dessous.

Personne hauteur (pieds) poids en livres) taille du pied (pouces)
Masculin 6 180 12
Masculin 5.92 (5'11") 190 11
Masculin 5.58 (5'7") 170 12
Masculin 5.92 (5'11") 165 dix
Femme 5 100 6
Femme 5.5 (5'6") 150 8
Femme 5.42 (5'5") 130 7
Femme 5.75 (5'9") 150 9

Le classificateur créé à partir de l'ensemble d'apprentissage à l'aide d'une hypothèse de distribution gaussienne serait (étant donné que les variances sont des variances d'échantillon non biaisées ) :

Personne moyenne (hauteur) écart (hauteur) moyenne (poids) écart (poids) moyenne (taille du pied) écart (taille du pied)
Masculin 5.855 3,5033 × 10 −2 176,25 1,2292 × 10 2 11.25 9,1667 × 10 -1
Femme 5.4175 9,7225 × 10 −2 132,5 5,5833 × 10 2 7.5 1.6667

L'exemple suivant suppose des classes équiprobables de sorte que P(mâle)= P(femelle) = 0,5. Cette distribution de probabilité a priori peut être basée sur une connaissance préalable des fréquences dans la population plus large ou dans l'ensemble d'apprentissage.

Essai

Vous trouverez ci-dessous un échantillon à classer en tant qu'homme ou femme.

Personne hauteur (pieds) poids en livres) taille du pied (pouces)
goûter 6 130 8

Afin de classer l'échantillon, il faut déterminer quel postérieur est le plus grand, masculin ou féminin. Pour la classification comme mâle le postérieur est donné par

Pour la classification comme femelle le postérieur est donné par

La preuve (également appelée constante de normalisation) peut être calculée :

Cependant, étant donné l'échantillon, la preuve est une constante et met donc à l'échelle les deux postérieurs de manière égale. Elle n'affecte donc pas la classification et peut être ignorée. La distribution de probabilité pour le sexe de l'échantillon peut maintenant être déterminée :

,

où et sont les paramètres de la distribution normale qui ont été préalablement déterminés à partir de l'ensemble d'apprentissage. Notez qu'une valeur supérieure à 1 est OK ici - c'est une densité de probabilité plutôt qu'une probabilité, car la hauteur est une variable continue.

Puisque le numérateur postérieur est plus grand dans le cas féminin, la prédiction est que l'échantillon est féminin.

Classement des documents

Voici un exemple travaillé de classification bayésienne naïve au problème de classification de documents . Considérez le problème de la classification des documents selon leur contenu, par exemple dans les e-mails spam et non-spam . Imaginez que les documents soient tirés d'un certain nombre de classes de documents qui peuvent être modélisés comme des ensembles de mots où la probabilité (indépendante) que le ième mot d'un document donné se trouve dans un document de la classe C peut être écrite comme

(Pour ce traitement, les choses sont encore simplifiées en supposant que les mots sont distribués de manière aléatoire dans le document - c'est-à-dire que les mots ne dépendent pas de la longueur du document, de la position dans le document par rapport à d'autres mots ou d'un autre contexte du document. )

Alors la probabilité qu'un document donné D contienne tous les mots , étant donné une classe C , est

La question à laquelle il faut répondre est : « quelle est la probabilité qu'un document donné D appartienne à une classe C donnée ? En d'autres termes, qu'est-ce que c'est ?

Maintenant par définition

et

Le théorème de Bayes les manipule en un énoncé de probabilité en termes de vraisemblance .

Supposons pour le moment qu'il n'y ait que deux classes mutuellement exclusives, S et S (par exemple spam et non spam), de sorte que chaque élément (email) soit dans l'un ou l'autre ;

et

En utilisant le résultat bayésien ci-dessus, on peut écrire :

Diviser l'un par l'autre donne :

Ce qui peut être refactorisé comme :

Ainsi, le rapport de probabilité p( S | D ) / p(¬ S | D ) peut être exprimé en termes d'une série de rapports de vraisemblance . La probabilité réelle p( S | D ) peut être facilement calculée à partir de log (p( S | D ) / p(¬ S | D )) en se basant sur l'observation que p( S | D ) + p(¬ S | D ) = 1.

En prenant le logarithme de tous ces rapports, on obtient :

(Cette technique des « log-vraisemblance ratios » est une technique courante en statistique. Dans le cas de deux alternatives mutuellement exclusives (comme cet exemple), la conversion d'un log-ratio de vraisemblance en une probabilité prend la forme d'une courbe sigmoïde : voir logit pour plus de détails.)

Enfin, le document peut être classé comme suit. C'est du spam si (c'est-à-dire, ), sinon ce n'est pas du spam.

Voir également

Les références

Lectures complémentaires

Liens externes

Logiciel