« Peaufinage par auto-jeu » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
| (Une version intermédiaire par un autre utilisateur non affichée) | |||
| Ligne 5 : | Ligne 5 : | ||
== Complément == | == Complément == | ||
Cette technique réduit la dépendance vis-à-vis des '''[[Jeu de données|jeux de données]]''' externes ou des [[ | Cette technique réduit la dépendance vis-à-vis des '''[[Jeu de données|jeux de données]]''' externes ou des [[Modèle enseignant|modèles enseignants]]. | ||
== Français == | == Français == | ||
| Ligne 27 : | Ligne 27 : | ||
[https://verl.readthedocs.io/en/latest/algo/spin.html Source: verl] | [https://verl.readthedocs.io/en/latest/algo/spin.html Source: verl] | ||
[[Catégorie: | [[Catégorie:GRAND LEXIQUE FRANÇAIS]] | ||
Dernière version du 19 avril 2026 à 12:36
Définition
Algorithme de peaufinage pour les grands modèles de langues (GML) qui utilise un mécanisme qui lui permet de jouer contre lui-même (self-play mechanism) en utilisant les versions précédentes du modèle.
Voir aussi Optimisation de la politique relative au groupe et Apprentissage par curriculum auto-évolutif
Complément
Cette technique réduit la dépendance vis-à-vis des jeux de données externes ou des modèles enseignants.
Français
peaufinage par auto-jeu
Anglais
self-play fine-tuning
self-play fine tuning
SPIN
Sources
Contributeurs: Arianne Arel, Patrick Drouin, wiki





