« Quantification » : différence entre les versions
m (Pitpitt a déplacé la page Quantisation vers Quantification) |
Aucun résumé des modifications |
||
(3 versions intermédiaires par un autre utilisateur non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
== Définition == | == Définition == | ||
Technique de compression d'un réseau neuronal qui permet de réduire sa taille en convertissant les poids et les biais du réseau de leur format original (par exemple 32 bits) à un format de moindre précision (par exemple 16 ou 8 bits). | |||
==Compléments== | |||
L'objectif de la quantification est de réduire la taille d'un modèle, ce qui permet de minimiser la consommation de mémoire et les besoins de calcul pour exécuter l'inférence. Par exemple, pour que le modèle puisse fonctionner sur un téléphone mobile. | |||
<hr/> | |||
La quantification peut réduire la performance d'un modèle. Il y a donc un compromis à faire entre la taille du modèle, son exactitude et le temps d'exécution. | |||
<hr/> | |||
Typiquement, on entraîne le modèle avec un maximum de précision et on utilise la quantification au besoin. | |||
== Français == | == Français == | ||
''' | '''quantification''' | ||
== Anglais == | == Anglais == | ||
''' | '''quantization''' | ||
'''quantisation''' | |||
== Sources == | |||
[https://towardsdatascience.com/quantisation-and-co-reducing-inference-times-on-llms-by-80-671db9349bdb Source : towardsdatascience] | [https://towardsdatascience.com/quantisation-and-co-reducing-inference-times-on-llms-by-80-671db9349bdb Source : towardsdatascience] | ||
Dernière version du 9 janvier 2024 à 19:28
Définition
Technique de compression d'un réseau neuronal qui permet de réduire sa taille en convertissant les poids et les biais du réseau de leur format original (par exemple 32 bits) à un format de moindre précision (par exemple 16 ou 8 bits).
Compléments
L'objectif de la quantification est de réduire la taille d'un modèle, ce qui permet de minimiser la consommation de mémoire et les besoins de calcul pour exécuter l'inférence. Par exemple, pour que le modèle puisse fonctionner sur un téléphone mobile.
La quantification peut réduire la performance d'un modèle. Il y a donc un compromis à faire entre la taille du modèle, son exactitude et le temps d'exécution.
Typiquement, on entraîne le modèle avec un maximum de précision et on utilise la quantification au besoin.
Français
quantification
Anglais
quantization
quantisation
Sources
Contributeurs: Claude Coulombe, Marie Alfaro, wiki