« Projection multijetons » : différence entre les versions
Aucun résumé des modifications |
m (Claude COULOMBE a déplacé la page Multi-Token Projection vers Projection multijetons) |
||
| (Une version intermédiaire par le même utilisateur non affichée) | |||
| Ligne 2 : | Ligne 2 : | ||
== Définition == | == Définition == | ||
Technique qui permet au modèle de prédire plusieurs '''[[ | Technique qui permet au modèle de prédire plusieurs '''[[Jeton textuel|jetons textuels]]''' en un seul passage. Elle permet aussi de planifier et de générer stratégiquement des représentations qui facilitent une prédiction plus précise et potentiellement plus rapide des futurs jetons textuels. Elle est utilisée dans les modèles '''[[DeepSeek]]''' et fonctionne en ajoutant des modules spécialisés qui prédisent non seulement le jeton textuel de base, mais aussi plusieurs jetons textuels à venir dans la séquence. | ||
== Compléments == | == Compléments == | ||
Cette technique est utilisée entre autres par '''[[ChatGPT]]'''-4, '''[[Claude]]''' 3, '''[[LLaMA]]''' 3, '''[[BERT]]'''. | Cette technique est utilisée entre autres par '''[[ChatGPT]]'''-4, '''[[Claude]]''' 3, '''[[LLaMA]]''' 3, '''[[BERT]]'''. | ||
<hr/> | <hr/> | ||
Les applications de la projection de | Les applications de la projection de jetons textuels multiple sont nombreuses. On la retrouve dans les '''[[Robot conversationnel|robots conversationnels]]''', les '''[[Assistant virtuel|assistants virtuels]]''' ainsi qu'en '''[[traduction automatique neuronale]]'''. | ||
<hr/> | <hr/> | ||
Cette technique se repose aussi sur de nombreuses avancées clés, telles que les '''[[Réseau autoattentif|réseaux autoattentifs]]''', les '''[[Modèle autorégressif|modèles autorégressifs]]''', les '''modèles bidirectionnels''', le '''[[peaufinage]]''' et l''''[[apprentissage par renforcement avec rétroaction humaine]]'''. | Cette technique se repose aussi sur de nombreuses avancées clés, telles que les '''[[Réseau autoattentif|réseaux autoattentifs]]''', les '''[[Modèle autorégressif|modèles autorégressifs]]''', les '''modèles bidirectionnels''', le '''[[peaufinage]]''' et l''''[[apprentissage par renforcement avec rétroaction humaine]]'''. | ||
== Français == | == Français == | ||
''' | '''projection multijetons''' | ||
'''projection multi-jetons''' | |||
== Anglais == | == Anglais == | ||
Dernière version du 9 juin 2026 à 15:05
en construction
Définition
Technique qui permet au modèle de prédire plusieurs jetons textuels en un seul passage. Elle permet aussi de planifier et de générer stratégiquement des représentations qui facilitent une prédiction plus précise et potentiellement plus rapide des futurs jetons textuels. Elle est utilisée dans les modèles DeepSeek et fonctionne en ajoutant des modules spécialisés qui prédisent non seulement le jeton textuel de base, mais aussi plusieurs jetons textuels à venir dans la séquence.
Compléments
Cette technique est utilisée entre autres par ChatGPT-4, Claude 3, LLaMA 3, BERT.
Les applications de la projection de jetons textuels multiple sont nombreuses. On la retrouve dans les robots conversationnels, les assistants virtuels ainsi qu'en traduction automatique neuronale.
Cette technique se repose aussi sur de nombreuses avancées clés, telles que les réseaux autoattentifs, les modèles autorégressifs, les modèles bidirectionnels, le peaufinage et l'apprentissage par renforcement avec rétroaction humaine.
Français
projection multijetons
projection multi-jetons
Anglais
Multi-Token Projection
Multiple-Token Projection
MTP
Sources
Contributeurs: Arianne Arel, Claude Coulombe





