« Encodage par paires d'octets » : différence entre les versions


(Page créée avec « == en construction == == Définition == XXXXXXX Voir aussi '''traitement automatique de la langue naturelle''' == Français == ''' XXXXXXX''' == Anglais == ''' Byte Pair Encoding''' ''' BPE''' ''BPE is a simple form of data compression algorithm in which the most common pair of consecutive bytes of data is replaced with a byte that does not occur in that data'' == Source == [https://www.geeksforgeeks.org/byte-pair-encoding-bpe-in-nlp/ Source : Geeks... »)
 
Aucun résumé des modifications
 
(5 versions intermédiaires par un autre utilisateur non affichées)
Ligne 1 : Ligne 1 :
== en construction ==
== Définition ==
L'encodage par paires d'octets est une forme simple d'algorithme de compression de données et l'un des algorithmes de symbolisation de sous-mots les plus utilisés. Il remplace la paire d'octets de données la plus fréquente par un nouvel octet qui n'était pas contenu dans l'ensemble de données initial.


== Définition ==
Dans le '''[[traitement automatique de la langue naturelle]]''', l'encodage par paires d'octets est utilisé pour représenter un large vocabulaire avec un petit ensemble d'unités de sous-mots et les mots les plus courants sont représentés dans le vocabulaire sous la forme d'un seul '''[[segment]]'''.
XXXXXXX
 
Voir aussi '''[[BERT]]''' et '''[[vocabulaire (TAL)]]'''


Voir aussi '''[[traitement automatique de la langue naturelle]]'''
== Compléments ==
Il est utilisé dans toutes les versions '''[[GPT]]''' ainsi que dans RoBERTa, '''[[XML]]''', FlauBERT et plus encore.


== Français ==
== Français ==
''' XXXXXXX'''
''' encodage par paires d'octets'''


== Anglais ==
== Anglais ==
''' Byte Pair Encoding'''
''' byte pair encoding'''


''' BPE'''
''' BPE'''


''BPE is a simple form of data compression algorithm in which the most common pair of consecutive bytes of data is replaced with a byte that does not occur in that data''
''Byte pair encoding is a simple form of data compression algorithms and is one of the most widely used subword-tokenization algorithms. It replaces the most frequent pair of bytes of data with a new byte that was not contained int the initial dataset. In Natural Language Processing, BPE is used to represent large vocabulary with a small set of subword units and most common words are represented in the vocabulary as a single token.''
 
''It is used in all of GPT versions, RoBERTa, XML, FlauBERT and more.''


== Source ==
== Source ==
Ligne 23 : Ligne 28 :


[https://en.wikipedia.org/wiki/Byte_pair_encoding  Source : Wikipedia]
[https://en.wikipedia.org/wiki/Byte_pair_encoding  Source : Wikipedia]
 
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
[[Catégorie:vocabulary]]

Dernière version du 22 novembre 2024 à 18:28

Définition

L'encodage par paires d'octets est une forme simple d'algorithme de compression de données et l'un des algorithmes de symbolisation de sous-mots les plus utilisés. Il remplace la paire d'octets de données la plus fréquente par un nouvel octet qui n'était pas contenu dans l'ensemble de données initial.

Dans le traitement automatique de la langue naturelle, l'encodage par paires d'octets est utilisé pour représenter un large vocabulaire avec un petit ensemble d'unités de sous-mots et les mots les plus courants sont représentés dans le vocabulaire sous la forme d'un seul segment.

Voir aussi BERT et vocabulaire (TAL)

Compléments

Il est utilisé dans toutes les versions GPT ainsi que dans RoBERTa, XML, FlauBERT et plus encore.

Français

encodage par paires d'octets

Anglais

byte pair encoding

BPE

Byte pair encoding is a simple form of data compression algorithms and is one of the most widely used subword-tokenization algorithms. It replaces the most frequent pair of bytes of data with a new byte that was not contained int the initial dataset. In Natural Language Processing, BPE is used to represent large vocabulary with a small set of subword units and most common words are represented in the vocabulary as a single token.

It is used in all of GPT versions, RoBERTa, XML, FlauBERT and more.

Source

Source : Geeks for Geeks

Source : Medium

Source : Wikipedia

Contributeurs: Arianne , wiki