« Approche par l'équipe rouge automatique » : différence entre les versions


(Page créée avec « == en construction == == Français == xxxxxxx Voir aussi '''approche par l'équipe rouge''', '''attaque adverse''', '''débridage''' et '''promp injection''' == Anglais == ''' Automatic red-teaming''' ''' Automated red-teaming''' ''' Automated red teaming''' == Sources == [https://arxiv.org/abs/2508.04451 Source : arxiv] [https://openai.com/index/advancing-red-teaming-with-people-and-ai/ Source : Open AI] [https://cdn.openai.com/papers/div... »)
 
Aucun résumé des modifications
 
(3 versions intermédiaires par le même utilisateur non affichées)
Ligne 1 : Ligne 1 :
== en construction ==
== en construction ==
== Définition ==
Méthodes d''''[[approche par l'équipe rouge]]''' qui consistent à utiliser des '''[[Modèle|modèles]]''' d''''[[IA générative]]''' pour attaquer le système cible, comme un '''[[robot conversationnel]]''' d'un '''[[grand modèle de langues]]'''.
Elles visent à générer un grand nombre d'exemples où une '''[[intelligence artificielle]]''' se comporte de manière incorrecte, souvent en mettant l'accent sur des questions liées à la sécurité. Cependant, ces méthodes ont généralement du mal à générer des attaques à la fois variées et efficaces.
Voir aussi '''[[attaque adverse]]''', '''[[débridage]]''' et '''[[infiltration de requête]]'''


== Français ==
== Français ==
xxxxxxx
''' Approche par l'équipe rouge automatique'''
 
Voir aussi '''[[approche par l'équipe rouge]]''', '''[[attaque adverse]]''', '''[[débridage]]''' et '''promp injection'''


== Anglais ==
== Anglais ==
Ligne 12 : Ligne 17 :


''' Automated red teaming'''
''' Automated red teaming'''
''Red-teaming methods that involve using generative artificial intelligence models to attack the target system, such as a large language model chatbot. It aims to generate a large number of examples where an AI behaves incorrectly, often with a particular focus on safety related issues. However, these methods typically struggles to generate attacks that are both diverse and effective.''


== Sources ==
== Sources ==
Ligne 20 : Ligne 27 :
[https://cdn.openai.com/papers/diverse-and-effective-red-teaming.pdf  Source : Open AI paper]
[https://cdn.openai.com/papers/diverse-and-effective-red-teaming.pdf  Source : Open AI paper]


[[Catégorie:vocabulary]]
[[Catégorie:publication]]

Dernière version du 25 février 2026 à 11:53

en construction

Définition

Méthodes d'approche par l'équipe rouge qui consistent à utiliser des modèles d'IA générative pour attaquer le système cible, comme un robot conversationnel d'un grand modèle de langues.

Elles visent à générer un grand nombre d'exemples où une intelligence artificielle se comporte de manière incorrecte, souvent en mettant l'accent sur des questions liées à la sécurité. Cependant, ces méthodes ont généralement du mal à générer des attaques à la fois variées et efficaces.

Voir aussi attaque adverse, débridage et infiltration de requête

Français

Approche par l'équipe rouge automatique

Anglais

Automatic red-teaming

Automated red-teaming

Automated red teaming

Red-teaming methods that involve using generative artificial intelligence models to attack the target system, such as a large language model chatbot. It aims to generate a large number of examples where an AI behaves incorrectly, often with a particular focus on safety related issues. However, these methods typically struggles to generate attacks that are both diverse and effective.

Sources

Source : arxiv

Source : Open AI

Source : Open AI paper

Contributeurs: Arianne Arel