Biais

e biais est une des deux erreurs utilisée pour définir la qualité d’un algorithme d’apprentissage (l’autre étant la variance).

Les algorithmes d’apprentissage tentent d’approcher la relation exacte entre des variables d’entrée et de sortie d’un problème, le vrai modèle en quelques sortes. Le modèle utilisé par l’algorithme est plus simple que le problème que l’on cherche à apprendre, il ne permet donc pas de rendre compte de toute sa complexité. On qualifie cette erreur faite dans les hypothèses du modèle de « biais ». Le biais sera d’autant plus faible que le modèle approchera la complexité du problème. Inversement, si le modèle est trop simple, le biais sera très élevé. Par exemple le perceptron est un modèle de classification linéaire trop simple pour des problèmes complexes de classification d’images comme CIFAR1 : il produira un biais très élevé. La nature de l’erreur dépend du type de problème considéré. Par exemple, dans un problème de classification d’images, l’erreur pourra être « le % de fois où le modèle se trompe en choisissant les classes » ; dans le cadre d’un problème de régression, le biais pourrait être une erreur des moindres carrés…

Quoi qu’il en soit, l’erreur totale n’est jamais nulle, ne serait qu’à cause du bruit. Cependant, elle peut être très faible. Ainsi, les derniers algorithmes de deep learning atteignent une erreur de 0,01 % sur des problèmes simples comme MNIST2. On définit aussi parfois le biais comme la « distance » entre le meilleur modèle pouvant être appris par l’algorithme et le vrai modèle. En machine learning, on cherche, en général, un équilibre entre biais et variance, de telle sorte que ces deux erreurs soient à peu près égales. La « régularisation » est une des nombreuses techniques utilisée pour y parvenir.

1 CIFAR est un jeu de données d’images avec 10 classes d’images, communément utilisé par la communauté pour tester des modèles d’apprentissage. 2 MNIST est un jeu de données utilisé en apprentissage automatique pour la reconnaissance de l’écriture manuscrite. Il regroupe 60 000 images d’apprentissage et 10 000 images de test (des chiffres écrits à la main).