Projection multijetons


en construction

Définition

Technique qui permet au modèle de prédire plusieurs jetons textuels en un seul passage. Elle permet aussi de planifier et de générer stratégiquement des représentations qui facilitent une prédiction plus précise et potentiellement plus rapide des futurs jetons textuels. Elle est utilisée dans les modèles DeepSeek et fonctionne en ajoutant des modules spécialisés qui prédisent non seulement le jeton textuel de base, mais aussi plusieurs jetons textuels à venir dans la séquence.

Compléments

Cette technique est utilisée entre autres par ChatGPT-4, Claude 3, LLaMA 3, BERT.


Les applications de la projection de jetons textuels multiple sont nombreuses. On la retrouve dans les robots conversationnels, les assistants virtuels ainsi qu'en traduction automatique neuronale.


Cette technique se repose aussi sur de nombreuses avancées clés, telles que les réseaux autoattentifs, les modèles autorégressifs, les modèles bidirectionnels, le peaufinage et l'apprentissage par renforcement avec rétroaction humaine.

Français

projection multijetons

projection multi-jetons

Anglais

Multi-Token Projection

Multiple-Token Projection

MTP

Sources

Source : arxiv

Source : DataScientest

Source : DeepWiki

Source : Medium

Contributeurs: Arianne Arel, Claude Coulombe