« Débridage en plusieurs coups » : différence entre les versions


(Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' XXXXXXXXX ''' voir Débridage == Anglais == ''' Many-shot jailbreaking ''' We investigate a family of simple long-context attacks on large language models: prompting with hundreds of demonstrations of undesirable behavior. This is newly feasible with the larger context windows recently deployed by Anthropic, OpenAI and Google DeepMind. We find that in diverse, realistic circumstances,... »)
 
Aucun résumé des modifications
(2 versions intermédiaires par le même utilisateur non affichées)
Ligne 1 : Ligne 1 :
==en construction==
== Définition ==
Méthode de [[débridage]] qui consiste à soumettre un enchaînement de plusieurs requêtes à un [[grand modèle de langues]] dans un but malveillant.


== Définition ==
XXXXXXXXX


== Français ==
== Français ==
''' XXXXXXXXX '''   voir [[Débridage]]
''' débridage plusieurs coups'''
 
''' débridage à plusieurs coups'''  


== Anglais ==
== Anglais ==
''' Many-shot jailbreaking '''
''' many-shot jailbreaking '''


We investigate a family of simple long-context attacks on large language models: prompting with hundreds of demonstrations of undesirable behavior. This is newly feasible with the larger context windows recently deployed by Anthropic, OpenAI and Google DeepMind. We find that in diverse, realistic circumstances, the effectiveness of this attack follows a power law, up to hundreds of shots. We demonstrate the success of this attack on the most widely used state-of-the-art closedweight models, and across various tasks. Our results suggest very long contexts present a rich new attack surface for LLMs.
'''Crescendo Multi-Turn LLM Jailbreak'''


== Source ==


== Source ==
[https://www.anthropic.com/research/many-shot-jailbreaking ''Many-shot jailbreaking'',  Anil et al. (2024)]


[https://cdn.sanity.io/files/4zrzovbb/website/af5633c94ed2beb282f6a53c595eb437e8e7b630.pdf  Source : sanity]
[https://huggingface.co/blog/vladbogo/many-shot-jailbreaking ''Many-shot jailbreaking'', Vlad Bogolin (2024)]


[https://intelligence-artificielle.developpez.com/actu/355985/Anthropic-publie-un-nouvel-article-d-etude-sur-le-many-shot-jailbreaking-une-technique-de-jailbreaking-qui-peut-etre-utilisee-pour-contourner-les-garde-fous-mis-en-place-sur-les-LLM/  ''Anthropic publie un nouvel article d'étude sur le "many-shot jailbreaking"'', Jade Emy (2024)]


[https://arxiv.org/abs/2404.01833, ''Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack'', Russinovich et al. (2024)]


[[Catégorie:vocabulary]]
[[Catégorie:Publication]]

Version du 7 mai 2024 à 15:57

Définition

Méthode de débridage qui consiste à soumettre un enchaînement de plusieurs requêtes à un grand modèle de langues dans un but malveillant.


Français

débridage plusieurs coups

débridage à plusieurs coups

Anglais

many-shot jailbreaking

Crescendo Multi-Turn LLM Jailbreak

Source

Many-shot jailbreaking, Anil et al. (2024)

Many-shot jailbreaking, Vlad Bogolin (2024)

Anthropic publie un nouvel article d'étude sur le "many-shot jailbreaking", Jade Emy (2024)

Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack, Russinovich et al. (2024)



Contributeurs: Patrick Drouin, wiki