« QLoRA » : différence entre les versions

Dernière version du 28 janvier 2024 à 12:43

Quantification des matrices de rang inférieur (voir adaptation par modèle auxiliaire ou LoRa) par un encodage avec des nombres de plus faible précision.

Par exemple, l'encodage peut se faire avec des entiers à 16 bits ou 8 bits au lieu de 32 bits.

adaptation par modèle auxiliaire quantifiée

QLoRA

quantized low-rank adaptation

QLoRA

@@ Ligne 22 : / Ligne 22 : @@
 -->
-<small>
+==Sources==
 == Sources ==