« Optimisation de politique proximale » : différence entre les versions
m (Patrickdrouin a déplacé la page Optimisation de la politique proximale vers Optimisation de politique proximale) |
Aucun résumé des modifications |
||
| Ligne 1 : | Ligne 1 : | ||
== Définition == | == Définition == | ||
L'optimisation de politique proximale ( | L'optimisation de politique proximale (OPP) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés par OpenAI en 2017. | ||
L'OPP réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle [[fonction]] objective qui effectue une mise à jour de la région de confiance compatible avec la descente de [[gradient]] [[stochastique]]. | |||
== Français == | == Français == | ||
| Ligne 9 : | Ligne 9 : | ||
'''Optimisation de stratégie proximale''' | '''Optimisation de stratégie proximale''' | ||
'''algorithme | '''algorithme OPP''' | ||
'''OPP''' | |||
== Anglais == | == Anglais == | ||
Version du 10 mars 2026 à 14:46
Définition
L'optimisation de politique proximale (OPP) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés par OpenAI en 2017.
L'OPP réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle fonction objective qui effectue une mise à jour de la région de confiance compatible avec la descente de gradient stochastique.
Français
Optimisation de politique proximale
Optimisation de stratégie proximale
algorithme OPP
OPP
Anglais
Proximal Policy Optimization
PPO
Sources
Contributeurs: Claude Coulombe, Imane Meziani, Maya Pentsch, Patrick Drouin, wiki





