#REDIRECTION [[Algorithme d'optimisation DAPO]]

Algorithme d'optimisation DAPO

2026-04-21T18:57:46Z

Patrickdrouin : Patrickdrouin a déplacé la page DAPO vers Algorithme d'optimisation DAPO

== Définition ==
'''[[Algorithme]]''' d''''[[apprentissage par renforcement]]''' qui utilise une approche découplée pour augmenter la limite supérieure de la plage de l'échantillonnage dynamique.

Voir aussi '''[[optimisation de la politique proximale]]''', '''[[optimisation de la politique relative au groupe]]''', '''[[échantillonnage des p-meilleurs]]'''

==Complément==
L’échantillonnage dynamique favorise les données apportant un meilleur apprentissage.

L'un de ses avantages est qu'il n'affecte pas de manière significative la durée totale de l''''[[entraînement]]'''.

== Français ==
'''algorithme d'optimisation DAPO'''

'''optimisation de la politique d’échantillonnage dynamique et seuillage découplé'''

'''OPEDD'''

== Anglais ==
''' DAPO'''

''' Decoupled Clip and Dynamic Sampling Policy Optimization'''



== Sources ==
[https://arxiv.org/abs/2503.14476 Source : arxiv]

[https://dapo-sia.github.io/ Source : DAPO, GitHub]

[https://verl.readthedocs.io/en/latest/algo/dapo.html Source : verl]

[[Catégorie:publication]]

2026-04-14T18:41:04Z

Patrickdrouin : Patrickdrouin a déplacé la page Échantillonnage à troncature de masse p vers Échantillonnage des p-meilleurs

#REDIRECTION [[Échantillonnage des p-meilleurs]]

Échantillonnage des p-meilleurs

2026-04-14T18:41:04Z

Patrickdrouin : Patrickdrouin a déplacé la page Échantillonnage à troncature de masse p vers Échantillonnage des p-meilleurs

== Définition ==
Stratégie d'échantillonnage où un modèle génère une distribution de probabilité pour tous les éléments possibles d'un ensemble. On ne conserve que les éléments les plus probables dont la somme des probabilités atteint un seuil ''p'' défini (la ''masse de probabilité'') également appelée ''noyau''.

Les probabilités de ces éléments sont alors normalisées pour que leur somme soit égale à 1 avant le tirage aléatoire.

Voir aussi '''[[échantillonnage à troncature k fixe]]'''

== Compléments ==
Cette stratégie d'échantillonnage est utilisée par les [[grand modèle de langues|grands modèles de langues]] pour choisir aléatoirement un [[segment textuel]] parmi un ensemble de [[segment textuel|segments textuels]].

Alors que l'[[échantillonnage à troncature k fixe]] limite l'échantillon à un nombre ''k'' fixe de mots, l'échantillonnage à troncature de masse p spécifie une probabilité cumulée ''p'' entre 0 et 1 et on échantillonne parmi un nombre variable de [[segment textuel|segments textuels]] dont la somme des probabilités atteint ou dépasse p.

En pratique, l'échantillonnage à troncature de masse p est préféré à l'[[échantillonnage à troncature k fixe]] car il est plus adaptatif.

Notez qu'il est généralement recommandé de spécifier soit la '''[[température]]''', soit le paramètre ''p'', mais pas les deux.

== Français ==
'''Échantillonnage des p-meilleurs'''

''' Échantillonnage à troncature de masse p'''

'''Échantillonnage du noyau'''

'''Échantillonnage par troncature dynamique'''

'''Échantillonnage par seuil de probabilité cumulée'''

'''Échantillonnage top-p'''

== Anglais ==
'''Top-p sampling'''

'''Nucleus sampling'''

''Stochastic decoding strategy for generating sequences form autoregressive probabilistic models that introduces randomness while maintaining quality. The choice of p can significantly influence the generated text. Its core idea is to sample from a smaller, more credible set of tokens at each step (called the nucleus). It is useful when you want more adaptative and context-sensitive text generation. ''

''In practice, top-p sampling is often preferred over top-k because it’s adaptive. It is generally recommended to specify either the temperature or the top_p parameter, but not both.''

== Sources ==
[https://medium.com/thinking-sand/the-top-k-and-top-p-parameters-explained-bfaecc8cd342 Medium - Top-k sampling, Top-p sampling]

[https://en.wikipedia.org/wiki/Top-p_sampling#Top-k_sampling Wikipedia - Top-k sampling]

[https://en.wikipedia.org/wiki/Top-p_sampling Wikipedia - Top-p sampling]

[[Catégorie:Intelligence artificielle]]

{{DEFAULTSORT: echantillonnage des p}}

Patrickdrouin :

==Définition==
Technique utilisée en [[interprétabilité]] de l'[[IA]] pour analyser les états cachés (latents) des [[Grand modèle de langues (GML)|grands modèles de langues]] ([[Grand modèle de langues (GML)|GML]]).

== Compléments ==
L'objectif est de comprendre comment ces modèles encodent les connaissances linguistiques, sémantiques et factuelles.

Cette méthode consiste à entraîner de petits [[Adaptation par modèle auxiliaire|modèles auxiliaires]] ou [[Classificateur|classificateurs]] légers nommés ''sondes'' sur les [[activation|vecteurs d'activation]] du modèle afin de prédire des caractéristiques spécifiques (par exemple, la syntaxe ou la logique).

==Français==
'''sondage d'un grand modèle de langue'''

'''sondage d'un GML'''

'''sonder un grand modèle de langue'''

'''sonder un GML'''

==Anglais==
'''LLM probing'''

==Sources==

[https://hal.science/hal-04912112v1 Ballier et al. (2024) - sonder]

[https://arxiv.org/abs/2502.00817 Lin et al. (2025) - LLM probing]

[[Catégorie:Publication]]