« Segment » : différence entre les versions
(Page créée avec « ==Définition== En '''traitement automatique de la langue naturelle''', le segment est l'unité de base pour l'analyse de textes produite par un segmenteur (en anglais ''tokenizer''). ==Compléments== Un segment peut correspondre à un mot, à une partie de mot (ou symbole) ou encore une suite de caractères. On appelle aussi les unités résultant de la segmentation des '''jetons''', mais le terme '''jeton''' est plutôt réservé à la cybersécurit... ») |
(Aucune différence)
|
Version du 30 avril 2024 à 14:45
Définition
En traitement automatique de la langue naturelle, le segment est l'unité de base pour l'analyse de textes produite par un segmenteur (en anglais tokenizer).
Compléments
Un segment peut correspondre à un mot, à une partie de mot (ou symbole) ou encore une suite de caractères.
On appelle aussi les unités résultant de la segmentation des jetons, mais le terme jeton est plutôt réservé à la cybersécurité.
Traditionnellement, en TALN, les algorithmes travaillaient au niveau du mot ou des unités lexicales, mais depuis l'arrivée des techniques d'apprentissage profond, la segmentation s'effectue plutôt au niveau sous-lexical. Un atout important du traitement sous-lexicale est d'éviter les mots hors-vocabulaire, puisqu'on peut plus facilement créer de nouvelles unités lexicales à partir d'éléments sous-lexicaux.
Français
segment
symbole
unité sous-lexicale
unité lexicale
partie de mot
Anglais
tokenizer
Sources
Contributeurs: Claude Coulombe, Patrick Drouin, wiki