Group Relative Policy Optimization


en construction

Définition

Algorithme d'apprentissage par renforcement dérivé de l'approche PPO (Optimisation de la Politique Proximale) qui réduit la charge de calcul en évitant l'entraînement d'un autre modèle d'estimation de valeur.

Il génère plusieurs réponses à partir de la politique actuelle pour chaque requête générative, au sein de chaque groupe. Les réponses sont notées et les récompenses sont normalisées par rapport au groupe, éliminant ainsi le besoin d'un critique en estimant les avantages directement à partir des groupes de réponses.

Voir aussi Common Crawl et R-Zero

Français

Politique d'Optimisation Relative par Groupe

Anglais

Group Relative Policy Optimization

GRPO

A variant reinforcement learning (RL) algorithm of Proximal Policy Optimization (PPO) approach that reduces computational overhead by avoiding the training of a separate value estimation model. It generates multiple completions (responses) from the current policy for each prompt, within each group. The completions are scored, and rewards are normalized relative to the group, thus eliminating the need for a critic by estimating advantages directly from groups of responses.

Sources

Source : Arxiv

Source : Arxiv

Source : verl

Contributeurs: Arianne Arel