« Approche par l'équipe rouge automatique » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
 
Ligne 7 : Ligne 7 :


== Français ==
== Français ==
''' Approche par l'équipe rouge automatique'''
''' approche par l'équipe rouge automatique'''


== Anglais ==
== Anglais ==
''' Automatic red-teaming'''
''' automatic red-teaming'''


''' Automated red-teaming'''
''' automated red-teaming'''


''' Automated red teaming'''
''' automated red teaming'''


''Red-teaming methods that involve using generative artificial intelligence models to attack the target system, such as a large language model chatbot. It aims to generate a large number of examples where an AI behaves incorrectly, often with a particular focus on safety related issues. However, these methods typically struggles to generate attacks that are both diverse and effective.''
''Red-teaming methods that involve using generative artificial intelligence models to attack the target system, such as a large language model chatbot. It aims to generate a large number of examples where an AI behaves incorrectly, often with a particular focus on safety related issues. However, these methods typically struggles to generate attacks that are both diverse and effective.''

Dernière version du 19 mars 2026 à 16:13

Définition

Méthodes d'approche par l'équipe rouge qui consistent à utiliser des modèles d'IA générative pour attaquer le système cible, comme un robot conversationnel d'un grand modèle de langues.

Elles visent à générer un grand nombre d'exemples où une intelligence artificielle se comporte de manière incorrecte, souvent en mettant l'accent sur des questions liées à la sécurité. Cependant, ces méthodes ont généralement du mal à générer des attaques à la fois variées et efficaces.

Voir aussi attaque adverse, débridage et infiltration de requête

Français

approche par l'équipe rouge automatique

Anglais

automatic red-teaming

automated red-teaming

automated red teaming

Red-teaming methods that involve using generative artificial intelligence models to attack the target system, such as a large language model chatbot. It aims to generate a large number of examples where an AI behaves incorrectly, often with a particular focus on safety related issues. However, these methods typically struggles to generate attacks that are both diverse and effective.

Sources

Source : arxiv

Source : Open AI

Source : Open AI paper

Contributeurs: Arianne Arel, wiki