« Segment » : différence entre les versions

Version du 30 avril 2024 à 14:45

Définition

En traitement automatique de la langue naturelle, le segment est l'unité de base pour l'analyse de textes produite par un segmenteur (en anglais tokenizer).

Compléments

Un segment peut correspondre à un mot, à une partie de mot (ou symbole) ou encore une suite de caractères.

On appelle aussi les unités résultant de la segmentation des jetons, mais le terme jeton est plutôt réservé à la cybersécurité.

Traditionnellement, en TALN, les algorithmes travaillaient au niveau du mot ou des unités lexicales, mais depuis l'arrivée des techniques d'apprentissage profond, la segmentation s'effectue plutôt au niveau sous-lexical. Un atout important du traitement sous-lexicale est d'éviter les mots hors-vocabulaire, puisqu'on peut plus facilement créer de nouvelles unités lexicales à partir d'éléments sous-lexicaux.

Français

segment

symbole

unité sous-lexicale

unité lexicale

partie de mot

Anglais

tokenizer

Sources

Termium.