Apprentissage multitâche - Multi-task learning

L'apprentissage multitâche (MTL) est un sous-domaine de l'apprentissage automatique dans lequel plusieurs tâches d'apprentissage sont résolues en même temps, tout en exploitant les points communs et les différences entre les tâches. Cela peut entraîner une amélioration de l'efficacité de l'apprentissage et de la précision des prédictions pour les modèles spécifiques à la tâche, par rapport à l'entraînement séparé des modèles. Les premières versions de MTL étaient appelées « indices ».

Dans un article largement cité de 1997, Rich Caruana a donné la caractérisation suivante :

L'apprentissage multitâche est une approche du transfert inductif qui améliore la généralisation en utilisant les informations de domaine contenues dans les signaux d'entraînement des tâches connexes comme biais inductif . Il le fait en apprenant des tâches en parallèle tout en utilisant une représentation partagée ; ce qui est appris pour chaque tâche peut aider à mieux apprendre d'autres tâches.

Dans le contexte de la classification, MTL vise à améliorer les performances de plusieurs tâches de classification en les apprenant conjointement. Un exemple est un filtre anti-spam, qui peut être traité comme des tâches de classification distinctes mais liées entre différents utilisateurs. Pour rendre cela plus concret, considérez que différentes personnes ont des distributions différentes de fonctionnalités qui distinguent les e-mails de spam des e-mails légitimes, par exemple un anglophone peut trouver que tous les e-mails en russe sont du spam, ce n'est pas le cas pour les russophones. Pourtant, il existe un point commun certain dans cette tâche de classification entre les utilisateurs, par exemple une caractéristique commune pourrait être le texte lié au transfert d'argent. Résoudre conjointement le problème de classification des spams de chaque utilisateur via MTL peut permettre aux solutions de s'informer mutuellement et d'améliorer les performances. D' autres exemples de paramètres de MTL comprennent la classification multiclassent et classification multi-étiquettes .

L'apprentissage multitâche fonctionne car la régularisation induite en exigeant qu'un algorithme fonctionne bien sur une tâche connexe peut être supérieure à la régularisation qui empêche le surapprentissage en pénalisant uniformément toute la complexité. Une situation où MTL peut être particulièrement utile est si les tâches partagent des points communs importants et sont généralement légèrement sous-échantillonnées. Cependant, comme indiqué ci-dessous, le MTL s'est également avéré bénéfique pour l'apprentissage de tâches non liées.

Méthodes

Regroupement et chevauchement des tâches

Dans le paradigme MTL, les informations peuvent être partagées entre certaines ou toutes les tâches. En fonction de la structure des relations entre les tâches, on peut souhaiter partager des informations de manière sélective entre les tâches. Par exemple, les tâches peuvent être regroupées ou exister dans une hiérarchie, ou être liées selon une métrique générale. Supposons, comme développé plus formellement ci-dessous, que le vecteur de paramètres modélisant chaque tâche est une combinaison linéaire d'une base sous-jacente. La similitude en termes de cette base peut indiquer la relation entre les tâches. Par exemple, avec la rareté , le chevauchement de coefficients non nuls entre les tâches indique une similitude. Un groupe de tâches correspond alors aux tâches situées dans un sous-espace généré par un sous-ensemble d'éléments de base, où les tâches de différents groupes peuvent être disjointes ou se chevaucher arbitrairement en termes de leurs bases. La relation entre les tâches peut être imposée a priori ou apprise à partir des données. La relation hiérarchique entre les tâches peut également être exploitée implicitement sans supposer explicitement des connaissances a priori ou des relations d'apprentissage. Par exemple, l'apprentissage explicite de la pertinence de l'échantillon à travers les tâches peut être fait pour garantir l'efficacité de l'apprentissage conjoint dans plusieurs domaines.

Exploiter des tâches sans rapport

On peut tenter d'apprendre un groupe de tâches principales en utilisant un groupe de tâches auxiliaires, sans rapport avec les principales. Dans de nombreuses applications, l'apprentissage conjoint de tâches non liées qui utilisent les mêmes données d'entrée peut être bénéfique. La raison en est que les connaissances préalables sur la relation entre les tâches peuvent conduire à des représentations plus clairsemées et plus informatives pour chaque groupe de tâches, essentiellement en éliminant les idiosyncrasies de la distribution des données. De nouvelles méthodes qui s'appuient sur une méthodologie multitâche antérieure en favorisant une représentation partagée de faible dimension au sein de chaque groupe de tâches ont été proposées. Le programmeur peut imposer une pénalité sur les tâches de groupes différents ce qui encourage les deux représentations à être orthogonales . Des expériences sur des données synthétiques et réelles ont indiqué que l'incorporation de tâches non liées peut entraîner des améliorations significatives par rapport aux méthodes d'apprentissage multitâches standard.

Transfert de connaissances

Le concept de transfert de connaissances est lié à l'apprentissage multitâche. Alors que l'apprentissage multitâche traditionnel implique qu'une représentation partagée soit développée simultanément à travers les tâches, le transfert de connaissances implique une représentation partagée séquentiellement. Des projets d'apprentissage automatique à grande échelle tels que le réseau de neurones à convolution profonde GoogLeNet , un classificateur d'objets basé sur des images, peuvent développer des représentations robustes qui peuvent être utiles pour approfondir les algorithmes d'apprentissage des tâches associées. Par exemple, le modèle pré-entraîné peut être utilisé comme un extracteur de caractéristiques pour effectuer un pré-traitement pour un autre algorithme d'apprentissage. Ou le modèle pré-entraîné peut être utilisé pour initialiser un modèle avec une architecture similaire qui est ensuite affiné pour apprendre une tâche de classification différente.

Apprentissage adaptatif en groupe en ligne

Traditionnellement, l'apprentissage multitâche et le transfert de connaissances sont appliqués à des environnements d'apprentissage stationnaires. Leur extension aux environnements non stationnaires est appelée apprentissage adaptatif en ligne en groupe (GOAL). Le partage d'informations pourrait être particulièrement utile si les apprenants évoluent dans des environnements en constante évolution, car un apprenant pourrait bénéficier de l'expérience antérieure d'un autre apprenant pour s'adapter rapidement à son nouvel environnement. Un tel apprentissage adaptatif de groupe a de nombreuses applications, de la prédiction de séries temporelles financières, en passant par les systèmes de recommandation de contenu, à la compréhension visuelle pour les agents autonomes adaptatifs.

Mathématiques

Reproduction de l'espace de Hilbert des fonctions à valeurs vectorielles (RKHSvv)

Le problème MTL peut être exprimé dans le contexte de RKHSvv (un espace produit interne complet de fonctions à valeurs vectorielles équipé d'un noyau reproducteur ). En particulier, l'accent a été mis récemment sur les cas où la structure des tâches peut être identifiée via un noyau séparable, décrit ci-dessous. La présentation ici est tirée de Ciliberto et al., 2015.

Concepts RKHSvv

Supposons que l'ensemble de données d'apprentissage soit , avec , , où t indexe la tâche et . Laissez . Dans ce cadre, il y a un espace d'entrée et de sortie cohérent et la même fonction de perte pour chaque tâche : . Cela se traduit par le problème d'apprentissage automatique régularisé :

 

 

 

 

( 1 )

où est une valeur vectorielle reproduisant l'espace de Hilbert du noyau avec des fonctions ayant des composants .

Le noyau de reproduction pour l'espace des fonctions est une fonction symétrique à valeur matricielle , telle que et la propriété de reproduction suivante est vérifiée :

 

 

 

 

( 2 )

Le noyau reproducteur donne lieu à un théorème représentant montrant que toute solution de l'équation 1 a la forme :

 

 

 

 

( 3 )

Noyaux séparables

La forme du noyau Γ induit à la fois la représentation de l' espace des caractéristiques et structure la sortie à travers les tâches. Une simplification naturelle consiste à choisir un noyau séparable, qui se factorise en noyaux séparés sur l'espace d'entrée X et sur les tâches . Dans ce cas, le noyau reliant les composants scalaires et est donné par . Pour les fonctions à valeur vectorielle, nous pouvons écrire , où k est un noyau reproducteur scalaire et A est une matrice semi-définie positive symétrique . Désigne désormais .

Cette propriété de factorisation, la séparabilité, implique que la représentation de l'espace des caractéristiques en entrée ne varie pas selon la tâche. C'est-à-dire qu'il n'y a pas d'interaction entre le noyau d'entrée et le noyau de tâche. La structure sur les tâches est représentée uniquement par A . Méthodes de noyaux non séparables Γ est un champ de recherche actuel.

Pour le cas séparable, le théorème de représentation se réduit à . La sortie du modèle sur les données d'apprentissage est alors KCA , où K est la matrice de noyau empirique avec des entrées , et C est la matrice de lignes .

Avec le noyau séparable, l'équation 1 peut être réécrite comme

 

 

 

 

( P )

V est une moyenne (pondérée) de L appliquée en entrée à Y et KCA . (Le poids est zéro s'il y a une observation manquante).

Notez que le deuxième terme de P peut être dérivé comme suit :

Structure de tâche connue

Représentations de la structure des tâches

Il existe trois manières largement équivalentes de représenter la structure des tâches : via un régularisateur ; via une métrique de sortie et via un mappage de sortie.

Régularisateur  —  Avec le noyau séparable, on peut montrer (ci-dessous) que , où est l' élément du pseudoinverse de , et est le RKHS basé sur le noyau scalaire , et . Cette formulation montre que contrôle le poids de la pénalité associée à . (Notez qui découle de .)

Preuve  —

Métrique de sortie  —  une métrique de sortie alternative peut être induite par le produit interne . Avec la perte au carré, il y a une équivalence entre les noyaux séparables sous la métrique alternative, et , sous la métrique canonique.

Mappage de sortie  —  Les sorties peuvent être mappées vers un espace de dimension supérieure pour coder des structures complexes telles que des arbres, des graphiques et des chaînes. Pour les applications linéaires L , avec un choix approprié de noyau séparable, on peut montrer que .

Exemples de structures de tâches

Via la formulation de régularisation, on peut représenter facilement une variété de structures de tâches.

  • Letting (où est le T x T matrice d'identité, et est le T x T matrice de ceux) équivaut à laisser Γ contrôler la variance des tâches à leur moyenne . Par exemple, les taux sanguins de certains biomarqueurs peuvent être prélevés sur des patients T à des moments précis au cours d'une journée et l'intérêt peut résider dans la régularisation de la variance des prédictions entre les patients.
  • Laisser , où équivaut à laisser contrôler la variance mesurée par rapport à une moyenne de groupe : . (Ici la cardinalité du groupe r, et est la fonction indicatrice). Par exemple, des membres de différents partis politiques (groupes) pourraient être régularisés ensemble en ce qui concerne la prédiction de la cote de favorabilité d'un politicien. Notez que cette pénalité se réduit au premier lorsque toutes les tâches sont dans le même groupe.
  • Laisser , où est le laplacien pour le graphe avec la matrice d'adjacence M donnant des similarités de tâches deux à deux. Cela revient à donner une pénalité plus importante à la distance séparant les tâches t et s lorsqu'elles sont plus similaires (selon le poids ,) c'est-à-dire régularise .
  • Tous les choix ci-dessus de A induisent également le terme de régularisation supplémentaire qui pénalise plus largement la complexité dans f.

Tâches d'apprentissage avec leur structure

Le problème d'apprentissage P peut être généralisé pour admettre la matrice de tâches d'apprentissage A comme suit :

 

 

 

 

( Q )

Le choix de doit être conçu pour apprendre des matrices A d'un type donné. Voir "Cas particuliers" ci-dessous.

Optimisation de Q

En se limitant au cas des pertes convexes et des pénalités coercitives Ciliberto et al. ont montré que bien que Q ne soit pas convexe conjointement dans C et A, un problème connexe est conjointement convexe.

Spécifiquement sur l'ensemble convexe , le problème équivalent

 

 

 

 

( R )

est convexe avec la même valeur minimale. Et si est un minimiseur pour R alors est un minimiseur pour Q .

R peut être résolu par une méthode barrière sur un ensemble fermé en introduisant la perturbation suivante :

 

 

 

 

( S )

La perturbation via la barrière force les fonctions objectifs à être égales à sur la frontière de .

S peut être résolu avec une méthode de descente de coordonnées de bloc, alternant dans C et A. Cela se traduit par une séquence de minimiseursdans S qui converge vers la solution dans R as, et donne donc la solution à Q .

Cas spéciaux

Pénalités spectrales - Dinnuzo et al ont suggéré de définir F comme norme de Frobenius. Ils ont optimisé Q directement en utilisant la descente de coordonnées de bloc, sans tenir compte des difficultés à la frontière de.

Apprentissage des tâches en cluster - Jacob et al ont suggéré d'apprendre A dans le cadre où les tâches T sont organisées en R clusters disjoints. Dans ce cas soit la matrice avec . En fixant , et , la matrice des tâches peut être paramétrée en fonction de : , avec des termes qui pénalisent la moyenne, respectivement la variance entre clusters et intra-clusters des prédictions de tâche. M n'est pas convexe, mais il existe une relaxation convexe . Dans cette formulation, .

Généralisations

Pénalités non convexes - Les pénalités peuvent être construites de telle sorte que A soit contraint d'être un graphe Laplacien, ou que A ait une factorisation de faible rang. Cependant ces pénalités ne sont pas convexes, et l'analyse de la méthode barrière proposée par Ciliberto et al. ne passe pas dans ces cas.

Noyaux non séparables - Les noyaux séparables sont limités, en particulier ils ne tiennent pas compte des structures dans l'espace d'interaction entre les domaines d'entrée et de sortie conjointement. Des travaux futurs sont nécessaires pour développer des modèles pour ces noyaux.

Applications

Filtrage des spams

En utilisant les principes du MTL, des techniques de filtrage collaboratif du spam facilitant la personnalisation ont été proposées. Dans les systèmes de messagerie ouverts à grande échelle, la plupart des utilisateurs n'étiquettent pas suffisamment de messages pour qu'un classificateur local individuel soit efficace, tandis que les données sont trop bruyantes pour être utilisées pour un filtre global sur tous les utilisateurs. Un classificateur hybride global/individuel peut être efficace pour absorber l'influence des utilisateurs qui étiquettent très attentivement les e-mails du grand public. Cela peut être accompli tout en offrant une qualité suffisante aux utilisateurs avec peu d'instances étiquetées.

recherche Internet

En utilisant des arbres de décision boostés , on peut permettre le partage et la régularisation implicites des données. Cette méthode d'apprentissage peut être utilisée sur des ensembles de données de classement de recherche Web. Un exemple consiste à utiliser des ensembles de données de classement de plusieurs pays. Ici, l'apprentissage multitâche est particulièrement utile car les ensembles de données de différents pays varient largement en taille en raison du coût des jugements éditoriaux. Il a été démontré que l'apprentissage conjoint de diverses tâches peut conduire à des améliorations significatives des performances avec une fiabilité surprenante.

Progiciel

Le package Matlab d'apprentissage multi-tâches via la régularisation structurelle (MALSAR) implémente les algorithmes d'apprentissage multi-tâches suivants :

  • Apprentissage multi-tâches moyen-régularisé
  • Apprentissage multitâche avec sélection de fonctionnalités conjointes
  • Apprentissage robuste des fonctionnalités multitâches
  • Apprentissage multi-tâches régularisé Trace-Norm
  • Optimisation structurelle alternée
  • Apprentissage incohérent de bas rang et clairsemé
  • Apprentissage multitâche robuste de bas rang
  • Apprentissage multitâche en cluster
  • Apprentissage multitâche avec des structures de graphes

Voir également

Les références

Liens externes

Logiciel