Contrôle stochastique - Stochastic control

Le contrôle stochastique ou contrôle optimal stochastique est un sous-domaine de la théorie du contrôle qui traite de l'existence d'incertitudes soit dans les observations, soit dans le bruit qui entraîne l'évolution du système. Le concepteur du système suppose, d'une manière bayésienne axée sur la probabilité , que le bruit aléatoire avec une distribution de probabilité connue affecte l'évolution et l'observation des variables d'état. Le contrôle stochastique vise à concevoir le chemin temporel des variables contrôlées qui effectue la tâche de contrôle souhaitée avec un coût minimum, défini d'une manière ou d'une autre, malgré la présence de ce bruit. Le contexte peut être soit discret ou temps continu .

Équivalence de certitude

Une formulation extrêmement bien étudiée en contrôle stochastique est celle du contrôle gaussien quadratique linéaire . Ici le modèle est linéaire, la fonction objectif est la valeur attendue d'une forme quadratique, et les perturbations sont purement additives. Un résultat de base pour les systèmes centralisés à temps discret avec seulement une incertitude additive est la propriété d'équivalence de certitude : que la solution de contrôle optimale dans ce cas est la même que celle qui serait obtenue en l'absence des perturbations additives. Cette propriété est applicable à tous les systèmes centralisés avec des équations d'évolution linéaires, une fonction de coût quadratique et du bruit entrant dans le modèle uniquement de manière additive ; l'hypothèse quadratique permet aux lois de commande optimales, qui suivent la propriété d'équivalence de certitude, d'être des fonctions linéaires des observations des contrôleurs.

Tout écart par rapport aux hypothèses ci-dessus - une équation d'état non linéaire, une fonction objectif non quadratique, du bruit dans les paramètres multiplicatifs du modèle ou une décentralisation du contrôle - fait que la propriété d'équivalence de certitude ne tient pas. Par exemple, son échec à tenir pour un contrôle décentralisé a été démontré dans le contre-exemple de Witsenhausen .

Temps discret

Dans un contexte à temps discret, le décideur observe la variable d'état, éventuellement avec du bruit d'observation, à chaque période de temps. L'objectif peut être d'optimiser la somme des valeurs attendues d'une fonction objectif non linéaire (éventuellement quadratique) sur toutes les périodes de temps allant de la période actuelle à la période finale concernée, ou d'optimiser la valeur de la fonction objectif à partir de la période finale uniquement . À chaque période de temps, de nouvelles observations sont faites et les variables de contrôle doivent être ajustées de manière optimale. Trouver la solution optimale pour le moment présent peut impliquer l'itération d'une équation matricielle de Riccati en arrière dans le temps de la dernière période à la période actuelle.

Dans le cas à temps discret avec incertitude sur les valeurs des paramètres dans la matrice de transition (donnant l'effet des valeurs courantes des variables d'état sur leur propre évolution) et/ou la matrice de réponse de contrôle de l'équation d'état, mais toujours avec un état linéaire équation et fonction objectif quadratique, une équation de Riccati peut toujours être obtenue pour itérer en arrière jusqu'à la solution de chaque période, même si l'équivalence de certitude ne s'applique pas. ch.13 Le cas en temps discret d'une fonction de perte non quadratique mais seulement des perturbations additives peut également être traité, mais avec plus de complications.

Exemple

Une spécification typique du problème de commande quadratique linéaire stochastique à temps discret est de minimiser

où E 1 est l' opérateur de valeur attendue conditionnelle à y 0 , l'exposant T indique une transposition matricielle et S est l'horizon temporel, soumis à l'équation d'état

y est un vecteur n × 1 de variables d'état observables, u est un vecteur k × 1 de variables de contrôle, A t est le temps t de réalisation de la matrice de transition d'état stochastique n × n , B t est le temps t de réalisation de la matrice stochastique n × k de multiplicateurs de contrôle, et Q ( n × n ) et R ( k × k ) sont des matrices de coût définies positives symétriques connues. Nous supposons que chaque élément de A et B est conjointement distribué indépendamment et de manière identique dans le temps, de sorte que les opérations de valeur attendue n'ont pas besoin d'être conditionnées par le temps.

L'induction à rebours dans le temps permet d'obtenir à chaque instant la solution de contrôle optimale,

avec la matrice symétrique de coût restant définie positive X évoluant en arrière dans le temps selon

qui est connue sous le nom d'équation de Riccati dynamique en temps discret de ce problème. Les seules informations nécessaires concernant les paramètres inconnus dans les matrices A et B sont la valeur attendue et la variance de chaque élément de chaque matrice et les covariances entre les éléments de la même matrice et entre les éléments à travers les matrices.

La solution de contrôle optimale n'est pas affectée si des chocs additifs iid à moyenne nulle apparaissent également dans l'équation d'état, tant qu'ils ne sont pas corrélés avec les paramètres des matrices A et B. Mais s'ils sont ainsi corrélés, alors la solution de contrôle optimale pour chaque période contient un vecteur constant additif supplémentaire. Si un vecteur constant additif apparaît dans l'équation d'état, la solution de contrôle optimale pour chaque période contient à nouveau un vecteur constant additif supplémentaire.

La caractérisation à l'état stationnaire de X (si elle existe), pertinente pour le problème de l'horizon infini dans lequel S tend vers l'infini, peut être trouvée en itérant l'équation dynamique pour X à plusieurs reprises jusqu'à ce qu'elle converge ; alors X est caractérisé en supprimant les indices de temps de son équation dynamique.

Temps continu

Si le modèle est en temps continu, le contrôleur connaît l'état du système à chaque instant du temps. L'objectif est de maximiser soit une intégrale de, par exemple, une fonction concave d'une variable d'état sur un horizon allant du temps zéro (le présent) à un temps terminal T , soit une fonction concave d'une variable d'état à une date future T . Au fil du temps, de nouvelles observations sont faites en permanence et les variables de contrôle sont continuellement ajustées de manière optimale.

Contrôle prédictif du modèle stochastique

Dans la littérature, il existe deux types de MPC pour les systèmes stochastiques ; Contrôle prédictif de modèle robuste et contrôle prédictif de modèle stochastique (SMPC). Le contrôle prédictif par modèle robuste est une méthode plus conservatrice qui considère le pire scénario dans la procédure d'optimisation. Cependant, cette méthode, similaire à d'autres contrôles robustes, détériore les performances globales du contrôleur et n'est également applicable que pour les systèmes avec des incertitudes limitées. La méthode alternative, SMPC, considère des contraintes souples qui limitent le risque de violation par une inégalité probabiliste.

En finance

Dans une approche en temps continu dans un contexte financier , la variable d'état dans l'équation différentielle stochastique est généralement la richesse ou la valeur nette, et les contrôles sont les parts placées à chaque instant dans les divers actifs. Compte tenu de l' allocation d'actifs choisie à tout moment, les déterminants de l'évolution de la richesse sont généralement les rendements stochastiques des actifs et le taux d'intérêt de l'actif sans risque. Le domaine du contrôle stochastique s'est beaucoup développé depuis les années 1970, notamment dans ses applications à la finance. Robert Merton a utilisé le contrôle stochastique pour étudier des portefeuilles optimaux d'actifs sûrs et risqués. Son travail et celui de Black-Scholes ont changé la nature de la littérature financière . Les traitements de manuels mathématiques influents étaient par Fleming et Rishel , et par Fleming et Soner . Ces techniques ont été appliquées par Stein à la crise financière de 2007-08 .

La maximisation, disons du logarithme attendu de la valeur nette à une date terminale T , est soumise à des processus stochastiques sur les composantes de la richesse. Dans ce cas, en temps continu l'équation d'Itô est le principal outil d'analyse. Dans le cas où la maximisation est une intégrale d'une fonction d'utilité concave sur un horizon (0, T ), une programmation dynamique est utilisée. Il n'y a pas d'équivalence de certitude comme dans la littérature plus ancienne, car les coefficients des variables de contrôle, c'est-à-dire les rendements reçus par les parts d'actifs choisies, sont stochastiques.

Voir également

Les références

Lectures complémentaires

  • Dixit, Avinash (1991). « Un traitement simplifié de la théorie de la régulation optimale du mouvement brownien ». Journal de dynamique économique et de contrôle . 15 (4) : 657-673. doi : 10.1016/0165-1889(91)90037-2 .
  • Yong, Jiongmin ; Zhou, Xun Yu (1999). Contrôles stochastiques : systèmes hamiltoniens et équations HJB . New York : Springer. ISBN 0-387-98723-1.