« Many-shot jailbreaking » : historique des versions


Sélection du diff : cochez les boutons radio des versions à comparer et appuyez sur entrée ou sur le bouton en bas.
Légende : (actu) = différence avec la dernière version, (diff) = différence avec la version précédente, m = modification mineure.

9 avril 2024

  • actudiff 15:169 avril 2024 à 15:16Pitpitt discussion contributions 913 octets +913 Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' XXXXXXXXX ''' voir Débridage == Anglais == ''' Many-shot jailbreaking ''' We investigate a family of simple long-context attacks on large language models: prompting with hundreds of demonstrations of undesirable behavior. This is newly feasible with the larger context windows recently deployed by Anthropic, OpenAI and Google DeepMind. We find that in diverse, realistic circumstances,... »