« Quantification » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
 
(6 versions intermédiaires par 3 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
==en construction==
== Définition ==
Technique de compression d'un réseau neuronal qui permet de réduire sa taille en convertissant les poids et les biais du réseau de leur format original (par exemple 32 bits) à un format de moindre précision (par exemple 16 ou 8 bits).


== Définition ==
==Compléments==
XXXXXXXXX
L'objectif de la quantification est de réduire la taille d'un modèle, ce qui permet de minimiser la consommation de mémoire et les besoins de calcul pour exécuter l'inférence. Par exemple, pour que le modèle puisse fonctionner sur un téléphone mobile.
<hr/>
La quantification peut réduire la performance d'un modèle. Il y a donc un compromis à faire entre la taille du modèle, son exactitude et le temps d'exécution.
<hr/>
Typiquement, on entraîne le modèle avec un maximum de précision et on utilise la quantification au besoin.


== Français ==
== Français ==
''' XXXXXXXXX '''
'''quantification'''


== Anglais ==
== Anglais ==
''' Quantisation'''
'''quantization'''


  allows us to reduce the size of our neural networks by converting the network’s weights and biases from their original floating-point format (e.g. 32-bit) to a lower precision format (e.g. 8-bit). The original floating point format can vary depending on several factors such as the model’s architecture and training processes. The ultimate purpose of quantisation is to reduce the size of our model, thereby reducing memory and computational requirements to run inference and train our model. Quantisation can very quickly become fiddly if you are attempting to quantise the models yourself. 
'''quantisation'''
<small>


== Sources ==
[https://towardsdatascience.com/quantisation-and-co-reducing-inference-times-on-llms-by-80-671db9349bdb    Source : towardsdatascience]
[https://towardsdatascience.com/quantisation-and-co-reducing-inference-times-on-llms-by-80-671db9349bdb    Source : towardsdatascience]


[https://www.mathworks.com/discovery/quantization.html    Source : mathworks]
[https://www.mathworks.com/discovery/quantization.html    Source : mathworks]


[[Catégorie:vocabulary]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

Dernière version du 9 janvier 2024 à 19:28

Définition

Technique de compression d'un réseau neuronal qui permet de réduire sa taille en convertissant les poids et les biais du réseau de leur format original (par exemple 32 bits) à un format de moindre précision (par exemple 16 ou 8 bits).

Compléments

L'objectif de la quantification est de réduire la taille d'un modèle, ce qui permet de minimiser la consommation de mémoire et les besoins de calcul pour exécuter l'inférence. Par exemple, pour que le modèle puisse fonctionner sur un téléphone mobile.


La quantification peut réduire la performance d'un modèle. Il y a donc un compromis à faire entre la taille du modèle, son exactitude et le temps d'exécution.


Typiquement, on entraîne le modèle avec un maximum de précision et on utilise la quantification au besoin.

Français

quantification

Anglais

quantization

quantisation

Sources

Source : towardsdatascience

Source : mathworks

Contributeurs: Claude Coulombe, Marie Alfaro, wiki