« Segment » : différence entre les versions


(Page créée avec « ==Définition== En '''traitement automatique de la langue naturelle''', le segment est l'unité de base pour l'analyse de textes produite par un segmenteur (en anglais ''tokenizer''). ==Compléments== Un segment peut correspondre à un mot, à une partie de mot (ou symbole) ou encore une suite de caractères. On appelle aussi les unités résultant de la segmentation des '''jetons''', mais le terme '''jeton''' est plutôt réservé à la cybersécurit... »)
 
Aucun résumé des modifications
 
(8 versions intermédiaires par 3 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
==Définition==
==Définition==
En '''[[traitement automatique de la langue naturelle]]''', le segment est l'unité de base pour l'analyse de textes produite par un [[segmenteur]] (en anglais ''tokenizer'').
En '''[[traitement automatique de la langue naturelle]]''', le segment est l'unité de base pour l'analyse de textes produite par un [[segmenteur]] (en anglais ''tokenizer'').
voir aussi '''[[segmenteur]]'''


==Compléments==
==Compléments==
Un segment peut correspondre à un mot, à une partie de mot (ou symbole) ou encore une suite de caractères.  
Un segment peut correspondre à un mot, à une partie de mot (ou symbole) ou encore une suite de caractères.  


On appelle aussi les unités résultant de la segmentation des '''jetons''', mais le terme '''jeton''' est plutôt réservé à la cybersécurité.  
Traditionnellement, en [[Traitement automatique de la langue naturelle|TALN]], les algorithmes travaillaient au niveau du mot ou des unités lexicales, mais depuis l'arrivée des techniques d'apprentissage profond, la segmentation s'effectue plutôt au niveau sous-lexical. Un atout important du traitement sous-lexical est d'éviter les mots ''hors-vocabulaire'', puisqu'on peut plus facilement créer de nouvelles unités lexicales à partir d'éléments sous-lexicaux.  


<hr/>
<hr/>


Traditionnellement, en [[Traitement automatique de la langue naturelle|TALN]], les algorithmes travaillaient au niveau du mot ou des unités lexicales, mais depuis l'arrivée des techniques d'apprentissage profond, la segmentation s'effectue plutôt au niveau sous-lexical. Un atout important du traitement sous-lexicale est d'éviter les mots ''hors-vocabulaire'', puisqu'on peut plus facilement créer de nouvelles unités lexicales à partir d'éléments sous-lexicaux.  
On appelle aussi les unités résultant de la segmentation des '''jetons''', mais le terme '''jeton''' est plutôt réservé à la cybersécurité et les réseaux de communication.  
 
<hr/>
 
Pour la suite du traitement, le segment résultant est souvent converti en un nombre entier. On dit alors que le segment est encodé. Le processus inverse, le décodage part de la représentation par un nombre entier vers un segment de texte.


==Français==
==Français==
Ligne 27 : Ligne 33 :
==Sources==
==Sources==


[https://www.btb.termiumplus.gc.ca/tpv2alpha/alpha-fra.html?lang=fra&i=1&srchtxt=tokenizer&index=alt&codom2nd_wet=1#resultrecs Termium].
[https://www.btb.termiumplus.gc.ca/tpv2alpha/alpha-fra.html?lang=fra&i=1&srchtxt=tokenizer&index=alt&codom2nd_wet=1#resultrecs ''Termium - Tokenizer'']
 
[https://fr.wikipedia.org/wiki/Analyse_lexicale  Wikipedia - ''Analyse lexicale'']
 
[https://www.sciencedirect.com/science/article/pii/S0167865518303271 ''A unified multilingual handwriting recognition system using multigrams sub-lexical units'', Swaileh et al. 2019]
 
[https://link.springer.com/chapter/10.1007/978-3-319-77113-7_1, ''Overview of Character-Based Models for Natural Language Processing'', Adel et al. 2018]
 
[https://en.wikipedia.org/wiki/Lexical_analysis  Wikipedia - Lexical Analysis]
 
 


[[Catégorie:Publication]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

Dernière version du 2 mai 2024 à 09:28

Définition

En traitement automatique de la langue naturelle, le segment est l'unité de base pour l'analyse de textes produite par un segmenteur (en anglais tokenizer).

voir aussi segmenteur

Compléments

Un segment peut correspondre à un mot, à une partie de mot (ou symbole) ou encore une suite de caractères.

Traditionnellement, en TALN, les algorithmes travaillaient au niveau du mot ou des unités lexicales, mais depuis l'arrivée des techniques d'apprentissage profond, la segmentation s'effectue plutôt au niveau sous-lexical. Un atout important du traitement sous-lexical est d'éviter les mots hors-vocabulaire, puisqu'on peut plus facilement créer de nouvelles unités lexicales à partir d'éléments sous-lexicaux.


On appelle aussi les unités résultant de la segmentation des jetons, mais le terme jeton est plutôt réservé à la cybersécurité et les réseaux de communication.


Pour la suite du traitement, le segment résultant est souvent converti en un nombre entier. On dit alors que le segment est encodé. Le processus inverse, le décodage part de la représentation par un nombre entier vers un segment de texte.

Français

segment

symbole

unité sous-lexicale

unité lexicale

partie de mot

Anglais

tokenizer

Sources

Termium - Tokenizer

Wikipedia - Analyse lexicale

A unified multilingual handwriting recognition system using multigrams sub-lexical units, Swaileh et al. 2019

Overview of Character-Based Models for Natural Language Processing, Adel et al. 2018

Wikipedia - Lexical Analysis