Interprétabilité mécaniste


Révision datée du 31 mars 2026 à 15:01 par Patrickdrouin (discussion | contributions)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

Définition

Sous-domaine de recherche au sein de l'interprétabilité de l'IA qui vise à comprendre le fonctionnement interne des réseaux neuronaux en analysant les mécanismes présents dans leurs calculs.

Compléments

Cette approche cherche à analyser les réseaux neuronaux de la même manière que l'on procède à la rétro-ingénierie des programmes informatiques compilés pour en comprendre le fonctionnement.

Français

interprétabilité mécaniste

Anglais

mechanistic interpretability

Sources

Matthieu Queloz - interprétabilité mécaniste

Wikipedia - mechanistic interpretability

Contributeurs: Patrick Drouin