Segment


Révision datée du 30 avril 2024 à 13:45 par Patrickdrouin (discussion | contributions) (Page créée avec « ==Définition== En '''traitement automatique de la langue naturelle''', le segment est l'unité de base pour l'analyse de textes produite par un segmenteur (en anglais ''tokenizer''). ==Compléments== Un segment peut correspondre à un mot, à une partie de mot (ou symbole) ou encore une suite de caractères. On appelle aussi les unités résultant de la segmentation des '''jetons''', mais le terme '''jeton''' est plutôt réservé à la cybersécurit... »)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

Définition

En traitement automatique de la langue naturelle, le segment est l'unité de base pour l'analyse de textes produite par un segmenteur (en anglais tokenizer).

Compléments

Un segment peut correspondre à un mot, à une partie de mot (ou symbole) ou encore une suite de caractères.

On appelle aussi les unités résultant de la segmentation des jetons, mais le terme jeton est plutôt réservé à la cybersécurité.


Traditionnellement, en TALN, les algorithmes travaillaient au niveau du mot ou des unités lexicales, mais depuis l'arrivée des techniques d'apprentissage profond, la segmentation s'effectue plutôt au niveau sous-lexical. Un atout important du traitement sous-lexicale est d'éviter les mots hors-vocabulaire, puisqu'on peut plus facilement créer de nouvelles unités lexicales à partir d'éléments sous-lexicaux.

Français

segment

symbole

unité sous-lexicale

unité lexicale

partie de mot

Anglais

tokenizer

Sources

Termium.