« DAPO » : différence entre les versions

Dernière version du 4 mars 2026 à 12:45

en construction

Définition

Algorithme d'apprentissage par renforcement qui solidifie les schémas de raisonnement et qui donne également naissance à de nouveaux modes de raisonnement facilitant une bonne résolution des problèmes. L'un de ses avantages est qu'il n'affecte pas de manière significative la durée totale de l'entraînement.

Voir aussi optimisation de la politique proximale et optimisation de la politique relative au groupe

Français

XXXXXXXX

Anglais

DAPO

Decoupled Clip and Dynamic Sampling Policy Optimization

Sources

Source : arxiv

Source : DAPO, GitHub

Source : verl

@@ Ligne 2 : / Ligne 2 : @@
 == Définition ==
-xxxxxxx
+'''[[Algorithme]]''' d''''[[apprentissage par renforcement]]''' qui solidifie les schémas de raisonnement et qui donne également naissance à de nouveaux modes de raisonnement facilitant une ''bonne'' résolution des problèmes. L'un de ses avantages est qu'il n'affecte pas de manière significative la durée totale de l''''[[entraînement]]'''.
+Voir aussi '''[[optimisation de la politique proximale]]''' et '''[[optimisation de la politique relative au groupe]]'''
 == Français ==
 ''' XXXXXXXX'''
-Voir aussi '''[[optimisation de la politique proximale]]''' et '''[[optimisation de la politique relative au groupe]]'''
 == Anglais ==

« DAPO » : différence entre les versions