« QLoRA » : différence entre les versions
(Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' QLoRA ''' == Anglais == ''' QLoRA''' QLoRA stands for quantized LoRA (low-rank adaptation). The standard LoRA method modifies a pretrained LLM by adding low-rank matrices to the weights of the model's layers. These matrices are smaller and, therefore, require fewer resources to update during finetuning. In QLoRA, these low-rank matrices are quantized, meaning their numerical precision is... ») |
m (Remplacement de texte : « ↵<small> » par « ==Sources== ») |
||
(5 versions intermédiaires par 2 utilisateurs non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
== | == Définition == | ||
[[Quantification]] des matrices de rang inférieur (voir [[Adaptation par modèle auxiliaire|adaptation par modèle auxiliaire]] ou [[Adaptation par modèle auxiliaire|LoRa]]) par un encodage avec des nombres de plus faible précision. | |||
== | == Compléments == | ||
Par exemple, l'encodage peut se faire avec des entiers à 16 bits ou 8 bits au lieu de 32 bits. | |||
== Français == | == Français == | ||
''' adaptation par modèle auxiliaire quantifiée ''' | |||
''' QLoRA ''' | ''' QLoRA ''' | ||
== Anglais == | == Anglais == | ||
'''quantized low-rank adaptation''' | |||
''' QLoRA''' | ''' QLoRA''' | ||
<!-- | |||
QLoRA stands for quantized LoRA (low-rank adaptation). The standard LoRA method modifies a pretrained LLM by adding low-rank matrices to the weights of the model's layers. These matrices are smaller and, therefore, require fewer resources to update during finetuning. | QLoRA stands for quantized LoRA (low-rank adaptation). The standard LoRA method modifies a pretrained LLM by adding low-rank matrices to the weights of the model's layers. These matrices are smaller and, therefore, require fewer resources to update during finetuning. | ||
In QLoRA, these low-rank matrices are quantized, meaning their numerical precision is reduced. This is done by mapping the continuous range of values in these matrices to a limited set of discrete levels. This process reduces the model's memory footprint and computational demands, as operations on lower-precision numbers are less memory-intensive. | In QLoRA, these low-rank matrices are quantized, meaning their numerical precision is reduced. This is done by mapping the continuous range of values in these matrices to a limited set of discrete levels. This process reduces the model's memory footprint and computational demands, as operations on lower-precision numbers are less memory-intensive. | ||
--> | |||
==Sources== | |||
== Sources == | |||
[https://arxiv.org/abs/2305.14314 Source : arxiv] | [https://arxiv.org/abs/2305.14314 Source : arxiv] | ||
[https://www.tensorflow.org/model_optimization/guide?hl=fr Source : TensorFlow] | |||
[[Catégorie:ENGLISH]] | |||
[[Catégorie:GRAND LEXIQUE FRANÇAIS]] | |||
[[Catégorie: |
Dernière version du 28 janvier 2024 à 11:43
Définition
Quantification des matrices de rang inférieur (voir adaptation par modèle auxiliaire ou LoRa) par un encodage avec des nombres de plus faible précision.
Compléments
Par exemple, l'encodage peut se faire avec des entiers à 16 bits ou 8 bits au lieu de 32 bits.
Français
adaptation par modèle auxiliaire quantifiée
QLoRA
Anglais
quantized low-rank adaptation
QLoRA
Sources
Sources
Contributeurs: Patrick Drouin, wiki