« Quantification de modèle » : différence entre les versions
m (Patrickdrouin a déplacé la page Model quantization vers Quantification de modèle) |
Aucun résumé des modifications |
||
Ligne 1 : | Ligne 1 : | ||
==Définition== | ==Définition== | ||
Technique permettant de réduire l'espace mémoire liés à l'exécution en inférence d'un modèle d'apprentissage (c.-à-d. un [[réseau de neurones artificiels]]) en représentant les paramètres (les poids et les activations) dans une représentation à haute précision (nombres réels à 32 bits) vers une représentation de plus faible précision (entier de 16 ou 8 bits). | Technique permettant de réduire l'espace mémoire liés à l'exécution en inférence d'un modèle d'apprentissage (c.-à-d. un [[réseau de neurones artificiels]]) en représentant les paramètres (les [[Pondération|poids]] et les activations) dans une représentation à haute précision (nombres réels à 32 bits) vers une représentation de plus faible précision (entier de 16 ou 8 bits). | ||
== Compléments == | == Compléments == | ||
Il existe des techniques pour compresser un modèle pour qu'il puisse être déployé sur un téléphone intelligent ou des systèmes embarqués sans trop perdre en performance. TensorFlow | Il existe des techniques pour compresser un modèle pour qu'il puisse être déployé sur un téléphone intelligent ou des systèmes embarqués sans trop perdre en performance. TensorFlow et PyTorch comportent des outils d'optimisation de modèle pour minimiser l'espace mémoire requis. | ||
Il existe principalement trois techniques: | |||
* La réduction de la précision, qui consiste à réduire la précision des nombres utilisés pour représenter les paramètres d'un modèle; | |||
La | * L'élagage, qui supprime les paramètres d'un modèle qui ont un impact mineur sur ses prédictions; | ||
L'élagage qui supprime les paramètres d'un modèle qui ont un impact mineur sur ses prédictions; | * Le regroupement, qui fusionne les paramètres de chaque couche d'un modèle en un nombre réduit de paramètres. | ||
Le regroupement qui fusionne les paramètres de chaque couche d'un modèle en un nombre réduit de paramètres | |||
==Français== | ==Français== | ||
'''quantification de modèle'''' | '''quantification de modèle'''' | ||
==Anglais== | ==Anglais== | ||
'''model quantization''' | '''model quantization''' | ||
<small> | <small> | ||
[[Catégorie:Publication]] | [[Catégorie:Publication]] |
Version du 24 octobre 2023 à 13:15
Définition
Technique permettant de réduire l'espace mémoire liés à l'exécution en inférence d'un modèle d'apprentissage (c.-à-d. un réseau de neurones artificiels) en représentant les paramètres (les poids et les activations) dans une représentation à haute précision (nombres réels à 32 bits) vers une représentation de plus faible précision (entier de 16 ou 8 bits).
Compléments
Il existe des techniques pour compresser un modèle pour qu'il puisse être déployé sur un téléphone intelligent ou des systèmes embarqués sans trop perdre en performance. TensorFlow et PyTorch comportent des outils d'optimisation de modèle pour minimiser l'espace mémoire requis.
Il existe principalement trois techniques:
- La réduction de la précision, qui consiste à réduire la précision des nombres utilisés pour représenter les paramètres d'un modèle;
- L'élagage, qui supprime les paramètres d'un modèle qui ont un impact mineur sur ses prédictions;
- Le regroupement, qui fusionne les paramètres de chaque couche d'un modèle en un nombre réduit de paramètres.
Français
quantification de modèle'
Anglais
model quantization
Contributeurs: Patrick Drouin, wiki