« Jeton textuel » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
| (11 versions intermédiaires par 4 utilisateurs non affichées) | |||
| Ligne 1 : | Ligne 1 : | ||
==Définition== | ==Définition== | ||
En '''[[traitement automatique de la langue naturelle]]''', le | En '''[[traitement automatique de la langue naturelle]]''', le jeton est l'unité de base pour l'analyse de textes produite par un '''[[segmenteur]]''' (en anglais ''tokenizer''). | ||
En [[IA générative]], le jeton textuel (token) est l'unité de base pour mesure le travail d'un [[robot conversationnel génératif]]. | |||
==Compléments== | ==Compléments== | ||
Un | Un jeton textuel peut correspondre à un mot, à une partie de mot, une suite de caractères ou même parfois à une seule lettre ou symbole. | ||
Traditionnellement, en [[Traitement automatique de la langue naturelle|TALN]], les algorithmes travaillaient au niveau du mot ou des unités lexicales, mais depuis l'arrivée des techniques d'apprentissage profond, la segmentation s'effectue plutôt au niveau sous-lexical. Un atout important du traitement sous-lexical est d'éviter les mots ''hors-vocabulaire'', puisqu'on peut plus facilement créer de nouvelles unités lexicales à partir d'éléments sous-lexicaux. | Traditionnellement, en '''[[Traitement automatique de la langue naturelle|TALN]]''', les algorithmes travaillaient au niveau du mot ou des unités lexicales, mais depuis l'arrivée des techniques d'apprentissage profond, la segmentation s'effectue plutôt au niveau sous-lexical. Un atout important du traitement sous-lexical est d'éviter les mots ''hors-vocabulaire'', puisqu'on peut plus facilement créer de nouvelles unités lexicales à partir d'éléments sous-lexicaux. | ||
<hr/> | <hr/> | ||
Attention, on appelle les unités résultant de la segmentation des '''jetons''', mais le terme '''jeton''' est aussi utilisé en cybersécurité et dans les réseaux de communication. | |||
On | <hr/> | ||
Pour la suite du traitement, le jeton résultant est souvent converti en un nombre entier. On dit alors que le jeton est encodé. Le processus inverse, le décodage part de la représentation par un nombre entier vers un jeton. | |||
==Français== | |||
'''jeton textuel''' | |||
'''jeton''' | |||
'''segment textuel''' | |||
'''segment de texte''' | |||
'''segment''' | |||
'''symbole''' | '''symbole''' | ||
| Ligne 29 : | Ligne 33 : | ||
==Anglais== | ==Anglais== | ||
''' | '''token''' | ||
==Sources== | ==Sources== | ||
[https://www.btb.termiumplus.gc.ca/tpv2alpha/alpha-fra.html?lang=fra&i=1&srchtxt=tokenizer&index=alt&codom2nd_wet=1#resultrecs ''Termium - Tokenizer''] | [https://www.btb.termiumplus.gc.ca/tpv2alpha/alpha-fra.html?lang=fra&i=1&srchtxt=tokenizer&index=alt&codom2nd_wet=1#resultrecs ''Termium - Tokenizer''] | ||
[https://www.culture.gouv.fr/content/download/365680/pdf_file/50_termes_cl%C3%A9s_de_l%27IA-2025.pdf?inLanguage=fre-FR&version=2 ''50 termes clés de l'intelligence artificielle'', Ministère de la culture, Commission d'enrichissement de la langue française (2025). - Jeton textuel] | |||
[https://fr.wikipedia.org/wiki/Analyse_lexicale Wikipedia - ''Analyse lexicale''] | [https://fr.wikipedia.org/wiki/Analyse_lexicale Wikipedia - ''Analyse lexicale''] | ||
| Ligne 42 : | Ligne 48 : | ||
[https://en.wikipedia.org/wiki/Lexical_analysis Wikipedia - Lexical Analysis] | [https://en.wikipedia.org/wiki/Lexical_analysis Wikipedia - Lexical Analysis] | ||
[[Catégorie:GRAND LEXIQUE FRANÇAIS]] | [[Catégorie:GRAND LEXIQUE FRANÇAIS]] | ||
Dernière version du 9 juin 2026 à 15:17
Définition
En traitement automatique de la langue naturelle, le jeton est l'unité de base pour l'analyse de textes produite par un segmenteur (en anglais tokenizer).
En IA générative, le jeton textuel (token) est l'unité de base pour mesure le travail d'un robot conversationnel génératif.
Compléments
Un jeton textuel peut correspondre à un mot, à une partie de mot, une suite de caractères ou même parfois à une seule lettre ou symbole.
Traditionnellement, en TALN, les algorithmes travaillaient au niveau du mot ou des unités lexicales, mais depuis l'arrivée des techniques d'apprentissage profond, la segmentation s'effectue plutôt au niveau sous-lexical. Un atout important du traitement sous-lexical est d'éviter les mots hors-vocabulaire, puisqu'on peut plus facilement créer de nouvelles unités lexicales à partir d'éléments sous-lexicaux.
Attention, on appelle les unités résultant de la segmentation des jetons, mais le terme jeton est aussi utilisé en cybersécurité et dans les réseaux de communication.
Pour la suite du traitement, le jeton résultant est souvent converti en un nombre entier. On dit alors que le jeton est encodé. Le processus inverse, le décodage part de la représentation par un nombre entier vers un jeton.
Français
jeton textuel
jeton
segment textuel
segment de texte
symbole
unité sous-lexicale
unité lexicale
partie de mot
Anglais
token
Sources
Overview of Character-Based Models for Natural Language Processing, Adel et al. 2018
Contributeurs: Arianne Arel, Claude Coulombe, Patrick Drouin, wiki





