Segment

Définition

En traitement automatique de la langue naturelle, le segment est l'unité de base pour l'analyse de textes produite par un segmenteur (en anglais tokenizer).

Compléments

Un segment peut correspondre à un mot, à une partie de mot (ou symbole) ou encore une suite de caractères.

On appelle aussi les unités résultant de la segmentation des jetons, mais le terme jeton est plutôt réservé à la cybersécurité.

Traditionnellement, en TALN, les algorithmes travaillaient au niveau du mot ou des unités lexicales, mais depuis l'arrivée des techniques d'apprentissage profond, la segmentation s'effectue plutôt au niveau sous-lexical. Un atout important du traitement sous-lexicale est d'éviter les mots hors-vocabulaire, puisqu'on peut plus facilement créer de nouvelles unités lexicales à partir d'éléments sous-lexicaux.

Français

segment

symbole

unité sous-lexicale

unité lexicale

partie de mot

Anglais

tokenizer

Sources

Termium.