« Quantification de modèle » : différence entre les versions


(Page créée avec « ==Définition== Technique permettant de réduire l'espace mémoire liés à l'exécution en inférence d'un modèle d'apprentissage (c.-à-d. un réseau de neurones arti... »)
 
m (Remplacement de texte : « ↵<small> » par «  ==Sources== »)
 
(6 versions intermédiaires par 2 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
==Définition==
==Définition==
Technique permettant de réduire l'espace mémoire liés à l'exécution en inférence d'un modèle d'apprentissage (c.-à-d. un [[réseau de neurones artificiels]]) en représentant les paramètres (les poids et les activations) dans une représentation à haute précision (nombres réels à 32 bits) vers une représentation de plus faible précision (entier de 16 ou 8 bits).
Technique permettant de réduire l'espace mémoire liés à l'exécution en inférence d'un modèle d'apprentissage (c.-à-d. un [[réseau de neurones artificiels]]) en représentant les paramètres (les [[Pondération|poids]] et les activations) dans une représentation à haute précision (nombres réels à 32 bits) vers une représentation de plus faible précision (entier de 16 ou 8 bits).


== Compléments ==
== Compléments ==
Il existe des techniques pour compresser un modèle pour qu'il puisse être déployé sur un téléphone intelligent ou des systèmes embarqués sans trop perdre en performance. TensorFlow comporte un outil d'optimisation de modèle pour minimiser l'espace mémoire requis et réduire le temps de calcul de l'inférence.
Il existe des techniques pour compresser un modèle pour qu'il puisse être déployé sur un téléphone intelligent ou des systèmes embarqués sans trop perdre en performance. TensorFlow et PyTorch comportent des outils d'optimisation de modèle pour minimiser l'espace mémoire requis.


TensorFlow optimise un modèle en utilisant principalement trois techniques:
Il existe principalement trois techniques:
 
* La réduction de la précision, qui consiste à réduire la précision des nombres utilisés pour représenter les paramètres d'un modèle;
La quantification qui consiste à réduire la précision des nombres utilisés pour représenter les paramètres d'un modèle;
* L'élagage, qui supprime les paramètres d'un modèle qui ont un impact mineur sur ses prédictions;
L'élagage qui supprime les paramètres d'un modèle qui ont un impact mineur sur ses prédictions;
* Le regroupement, qui fusionne les paramètres de chaque couche d'un modèle en un nombre réduit de paramètres.
Le regroupement qui fusionne les paramètres de chaque couche d'un modèle en un nombre réduit de paramètres.
 
 
 
La réduction du nombre de bits signifie que le modèle résultant nécessite moins d'espace mémoire, consomme moins d'énergie (en théorie) et que des opérations telles que la multiplication matricielle peuvent être effectuées beaucoup plus rapidement avec l'arithmétique entière. Il permet également d'exécuter des modèles sur des appareils embarqués, qui ne prennent parfois en charge que les types de données entiers.
 
 
La quantification est une technique couramment utilisée pour réduire la taille du modèle, même si elle peut parfois entraîner une réduction de la taille du modèle.


==Français==
==Français==
'''quantification de modèle''''
'''quantification de modèle'''
 


==Anglais==
==Anglais==
'''model quantization'''
'''model quantization'''


==Sources==
[https://arxiv.org/pdf/2004.09602.pdf Source: Wu et al. (2020)]
[https://arxiv.org/pdf/2103.13630.pdf Source: Gholami et al. (2021)]


<small>
[https://www.theses.fr/2021UCFAC086.pdf Source: Anthony Berthelier (2021)]


[[Catégorie:Publication]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

Dernière version du 28 janvier 2024 à 11:34

Définition

Technique permettant de réduire l'espace mémoire liés à l'exécution en inférence d'un modèle d'apprentissage (c.-à-d. un réseau de neurones artificiels) en représentant les paramètres (les poids et les activations) dans une représentation à haute précision (nombres réels à 32 bits) vers une représentation de plus faible précision (entier de 16 ou 8 bits).

Compléments

Il existe des techniques pour compresser un modèle pour qu'il puisse être déployé sur un téléphone intelligent ou des systèmes embarqués sans trop perdre en performance. TensorFlow et PyTorch comportent des outils d'optimisation de modèle pour minimiser l'espace mémoire requis.

Il existe principalement trois techniques:

  • La réduction de la précision, qui consiste à réduire la précision des nombres utilisés pour représenter les paramètres d'un modèle;
  • L'élagage, qui supprime les paramètres d'un modèle qui ont un impact mineur sur ses prédictions;
  • Le regroupement, qui fusionne les paramètres de chaque couche d'un modèle en un nombre réduit de paramètres.

Français

quantification de modèle

Anglais

model quantization

Sources

Source: Wu et al. (2020)

Source: Gholami et al. (2021)

Source: Anthony Berthelier (2021)

Contributeurs: Patrick Drouin, wiki