« Approche par l'équipe rouge automatique » : différence entre les versions
m (Arianne a déplacé la page Automatic Red-Teaming vers Approche par l'équipe rouge automatique) |
Aucun résumé des modifications |
||
| Ligne 6 : | Ligne 6 : | ||
Elles visent à générer un grand nombre d'exemples où une '''[[intelligence artificielle]]''' se comporte de manière incorrecte, souvent en mettant l'accent sur des questions liées à la sécurité. Cependant, ces méthodes ont généralement du mal à générer des attaques à la fois variées et efficaces. | Elles visent à générer un grand nombre d'exemples où une '''[[intelligence artificielle]]''' se comporte de manière incorrecte, souvent en mettant l'accent sur des questions liées à la sécurité. Cependant, ces méthodes ont généralement du mal à générer des attaques à la fois variées et efficaces. | ||
Voir aussi '''[[attaque adverse]]''', '''[[débridage]]''' et '''[[ | Voir aussi '''[[attaque adverse]]''', '''[[débridage]]''' et '''[[infiltration de requête]]''' | ||
== Français == | == Français == | ||
| Ligne 27 : | Ligne 27 : | ||
[https://cdn.openai.com/papers/diverse-and-effective-red-teaming.pdf Source : Open AI paper] | [https://cdn.openai.com/papers/diverse-and-effective-red-teaming.pdf Source : Open AI paper] | ||
[[Catégorie: | [[Catégorie:publication]] | ||
Dernière version du 25 février 2026 à 11:53
en construction
Définition
Méthodes d'approche par l'équipe rouge qui consistent à utiliser des modèles d'IA générative pour attaquer le système cible, comme un robot conversationnel d'un grand modèle de langues.
Elles visent à générer un grand nombre d'exemples où une intelligence artificielle se comporte de manière incorrecte, souvent en mettant l'accent sur des questions liées à la sécurité. Cependant, ces méthodes ont généralement du mal à générer des attaques à la fois variées et efficaces.
Voir aussi attaque adverse, débridage et infiltration de requête
Français
Approche par l'équipe rouge automatique
Anglais
Automatic red-teaming
Automated red-teaming
Automated red teaming
Red-teaming methods that involve using generative artificial intelligence models to attack the target system, such as a large language model chatbot. It aims to generate a large number of examples where an AI behaves incorrectly, often with a particular focus on safety related issues. However, these methods typically struggles to generate attacks that are both diverse and effective.
Sources
Contributeurs: Arianne Arel





