Attaque adverse

CYBERSÉCURITÉ

Définition

Technique d’attaque visant à tromper un modèle d’intelligence artificielle en introduisant des perturbations délibérées dans les données d’entrée, afin de provoquer des erreurs de classification ou de prédiction.

Les attaques adverses visent à soumettre des données (requêtes) sournoises ou corrompues à un système d'IA, typiquement un modèle basé sur un réseau de neurones profonds, en phase de production, pour qu'il se comporte d'une manière fautive.

Voir aussi débridage et modèle d'intelligence artificielle

Compléments

Les attaques adverses concernent autant les images, les textes et la voix. Ainsi, on pourrait maquiller un arrêt obligatoire pour qu'il ne soit pas reconnu par le système de vision d'un véhicule autonome et provoquer un accident. De même manière, un individu pourrait porter un masque, un macaron ou une coiffure qui entraverait le fonctionnement d'un système de reconnaissance faciale. un Astucieusement manipulé, un robot conversationnel peut fabuler, écrire des faussetés ou donner accès à des informations autrement interdites. En exploitant un système de synthèse vocale, il est possible de gagner accès à une ressource protégée par un système de reconnaissance vocale.

Une variante d'attaque adverse consiste en une modification imperceptible de l'entrée d’un algorithme, spécifiquement conçue pour provoquer un dysfonctionnement de celui-ci.