« Optimisation de politique proximale » : différence entre les versions

Version du 10 mars 2026 à 14:46

Définition

L'optimisation de politique proximale (OPP) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés par OpenAI en 2017.

L'OPP réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle fonction objective qui effectue une mise à jour de la région de confiance compatible avec la descente de gradient stochastique.

Français

Optimisation de politique proximale

Optimisation de stratégie proximale

algorithme OPP

OPP

Anglais

Proximal Policy Optimization

PPO

Sources

Source : Wikipédia

Source : Vector Institute

@@ Ligne 1 : / Ligne 1 : @@
 == Définition ==
-L'optimisation de politique proximale (PPO) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés par OpenAI en 2017.
+L'optimisation de politique proximale (OPP) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés par OpenAI en 2017.
-La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle [[fonction]] objective qui effectue une mise à jour de la région de confiance compatible avec la descente de [[gradient]] [[stochastique]].
+L'OPP réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle [[fonction]] objective qui effectue une mise à jour de la région de confiance compatible avec la descente de [[gradient]] [[stochastique]].
 == Français ==
@@ Ligne 9 : / Ligne 9 : @@
 '''Optimisation de stratégie proximale'''
-'''algorithme PPO'''
+'''algorithme OPP'''
+'''OPP'''
 == Anglais ==

« Optimisation de politique proximale » : différence entre les versions