« Peaufinage par auto-jeu » : différence entre les versions

Dernière version du 19 avril 2026 à 12:36

Définition

Algorithme de peaufinage pour les grands modèles de langues (GML) qui utilise un mécanisme qui lui permet de jouer contre lui-même (self-play mechanism) en utilisant les versions précédentes du modèle.

Voir aussi Optimisation de la politique relative au groupe et Apprentissage par curriculum auto-évolutif

Complément

Cette technique réduit la dépendance vis-à-vis des jeux de données externes ou des modèles enseignants.

Français

peaufinage par auto-jeu

Anglais

self-play fine-tuning

self-play fine tuning

SPIN

Sources

Zhuofan Xu (2025) - Auto-jeu

Source : arxiv

Source : GitHub

Source: verl

Version du 14 avril 2026 à 15:05 (voir la source) Patrickdrouin (discussion \| contributions) Aucun résumé des modifications ← Modification précédente		Dernière version du 19 avril 2026 à 12:36 (voir la source) Pitpitt (discussion \| contributions) Aucun résumé des modifications
Ligne 27 :		Ligne 27 :
	[https://verl.readthedocs.io/en/latest/algo/spin.html Source: verl]		[https://verl.readthedocs.io/en/latest/algo/spin.html Source: verl]

	[[Catégorie:~~Publication~~]]		[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

« Peaufinage par auto-jeu » : différence entre les versions