« Jeton textuel » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
Ligne 1 : Ligne 1 :
==Définition==
==Définition==
En '''[[traitement automatique de la langue naturelle]]''', le segment est l'unité de base pour l'analyse de textes produite par un '''[[segmenteur]]''' (en anglais ''tokenizer'').
En '''[[traitement automatique de la langue naturelle]]''', le jeton est l'unité de base pour l'analyse de textes produite par un '''[[segmenteur]]''' (en anglais ''tokenizer'').


==Compléments==
==Compléments==
Un segment textuel peut correspondre à un mot, à une partie de mot, une suite de caractères ou même parfois à une seule lettre ou symbole.
Un jeton textuel peut correspondre à un mot, à une partie de mot, une suite de caractères ou même parfois à une seule lettre ou symbole.


Traditionnellement, en '''[[Traitement automatique de la langue naturelle|TALN]]''', les algorithmes travaillaient au niveau du mot ou des unités lexicales, mais depuis l'arrivée des techniques d'apprentissage profond, la segmentation s'effectue plutôt au niveau sous-lexical. Un atout important du traitement sous-lexical est d'éviter les mots ''hors-vocabulaire'', puisqu'on peut plus facilement créer de nouvelles unités lexicales à partir d'éléments sous-lexicaux.  
Traditionnellement, en '''[[Traitement automatique de la langue naturelle|TALN]]''', les algorithmes travaillaient au niveau du mot ou des unités lexicales, mais depuis l'arrivée des techniques d'apprentissage profond, la segmentation s'effectue plutôt au niveau sous-lexical. Un atout important du traitement sous-lexical est d'éviter les mots ''hors-vocabulaire'', puisqu'on peut plus facilement créer de nouvelles unités lexicales à partir d'éléments sous-lexicaux.  


<hr/>
<hr/>
Attention, on appelle les unités résultant de la segmentation des '''jetons''', mais le terme '''jeton''' est aussi utilisé en cybersécurité et dans les réseaux de communication.


On appelle aussi les unités résultant de la segmentation des '''jetons''', mais le terme '''jeton''' est plutôt réservé à la cybersécurité et les réseaux de communication.  
<hr/>
Pour la suite du traitement, le jeton résultant est souvent converti en un nombre entier. On dit alors que le jeton est encodé. Le processus inverse, le décodage part de la représentation par un nombre entier vers un jeton.


<hr/>
==Français==
'''jeton textuel'''


Pour la suite du traitement, le segment résultant est souvent converti en un nombre entier. On dit alors que le segment est encodé. Le processus inverse, le décodage part de la représentation par un nombre entier vers un segment de texte.
'''jeton'''


==Français==
'''segment textuel'''
'''segment textuel'''


'''segment de texte'''
'''segment de texte'''
'''jeton textuel'''
'''jeton'''


'''symbole'''
'''symbole'''

Version du 9 juin 2026 à 14:28

Définition

En traitement automatique de la langue naturelle, le jeton est l'unité de base pour l'analyse de textes produite par un segmenteur (en anglais tokenizer).

Compléments

Un jeton textuel peut correspondre à un mot, à une partie de mot, une suite de caractères ou même parfois à une seule lettre ou symbole.

Traditionnellement, en TALN, les algorithmes travaillaient au niveau du mot ou des unités lexicales, mais depuis l'arrivée des techniques d'apprentissage profond, la segmentation s'effectue plutôt au niveau sous-lexical. Un atout important du traitement sous-lexical est d'éviter les mots hors-vocabulaire, puisqu'on peut plus facilement créer de nouvelles unités lexicales à partir d'éléments sous-lexicaux.


Attention, on appelle les unités résultant de la segmentation des jetons, mais le terme jeton est aussi utilisé en cybersécurité et dans les réseaux de communication.


Pour la suite du traitement, le jeton résultant est souvent converti en un nombre entier. On dit alors que le jeton est encodé. Le processus inverse, le décodage part de la représentation par un nombre entier vers un jeton.

Français

jeton textuel

jeton

segment textuel

segment de texte

symbole

unité sous-lexicale

unité lexicale

partie de mot

Anglais

token

Sources

Termium - Tokenizer

50 termes clés de l'intelligence artificielle, Ministère de la culture, Commission d'enrichissement de la langue française (2025). - Jeton textuel

Wikipedia - Analyse lexicale

A unified multilingual handwriting recognition system using multigrams sub-lexical units, Swaileh et al. 2019

Overview of Character-Based Models for Natural Language Processing, Adel et al. 2018

Wikipedia - Lexical Analysis