« Quantification » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
Ligne 1 : Ligne 1 :
==en construction==
== Définition ==
La quantification nous permet de réduire la taille de nos réseaux neuronaux en convertissant les poids et les biais du réseau de leur format original en virgule flottante (par exemple 32 bits) à un format de moindre précision (par exemple 8 bits). Le format original en virgule flottante peut varier en fonction de plusieurs facteurs tels que l'architecture du modèle et les processus de formation. L'objectif ultime de la quantification est de réduire la taille de notre modèle, ce qui permet de réduire la mémoire et les besoins de calcul pour exécuter l'inférence et former notre modèle. La quantification peut très vite devenir compliquée si vous essayez de quantifier les modèles vous-même.


== Définition ==
XXXXXXXXX


== Français ==
== Français ==
''' XXXXXXXXX '''
''' Quantification '''


== Anglais ==
== Anglais ==
''' Quantisation'''
''' Quantisation'''


  allows us to reduce the size of our neural networks by converting the network’s weights and biases from their original floating-point format (e.g. 32-bit) to a lower precision format (e.g. 8-bit). The original floating point format can vary depending on several factors such as the model’s architecture and training processes. The ultimate purpose of quantisation is to reduce the size of our model, thereby reducing memory and computational requirements to run inference and train our model. Quantisation can very quickly become fiddly if you are attempting to quantise the models yourself. 
<small>


[https://towardsdatascience.com/quantisation-and-co-reducing-inference-times-on-llms-by-80-671db9349bdb    Source : towardsdatascience]
[https://towardsdatascience.com/quantisation-and-co-reducing-inference-times-on-llms-by-80-671db9349bdb    Source : towardsdatascience]
Ligne 18 : Ligne 16 :


[[Catégorie:vocabulary]]
[[Catégorie:vocabulary]]
[[Catégorie:publication]]

Version du 17 novembre 2023 à 14:31

Définition

La quantification nous permet de réduire la taille de nos réseaux neuronaux en convertissant les poids et les biais du réseau de leur format original en virgule flottante (par exemple 32 bits) à un format de moindre précision (par exemple 8 bits). Le format original en virgule flottante peut varier en fonction de plusieurs facteurs tels que l'architecture du modèle et les processus de formation. L'objectif ultime de la quantification est de réduire la taille de notre modèle, ce qui permet de réduire la mémoire et les besoins de calcul pour exécuter l'inférence et former notre modèle. La quantification peut très vite devenir compliquée si vous essayez de quantifier les modèles vous-même.


Français

Quantification

Anglais

Quantisation


Source : towardsdatascience

Source : mathworks

Contributeurs: Claude Coulombe, Marie Alfaro, wiki