Interprétabilité mécaniste

Définition

Sous-domaine de recherche au sein de l'interprétabilité de l'IA qui vise à comprendre le fonctionnement interne des réseaux neuronaux en analysant les mécanismes présents dans leurs calculs.

Compléments

Cette approche cherche à analyser les réseaux neuronaux de la même manière que l'on procède à la rétro-ingénierie des programmes informatiques compilés pour en comprendre le fonctionnement.

Français

interprétabilité mécaniste

Anglais

mechanistic interpretability

Sources

Matthieu Queloz - interprétabilité mécaniste

Wikipedia - mechanistic interpretability