03/12/2025
🔐 delle AI generative: perché è ancora possibile aggirare i cosiddetti "safety guardrail"?
Chi utilizza strumenti come , o ne è consapevole: a volte i modelli si rifiutano di rispondere a richieste rischiose — per ragioni connesse a copyright, privacy, sicurezza, disinformazione o istruzioni pericolose.
Eppure, queste barriere non sono infallibili.
Le tecniche di jailbreak, nate per aggirare i safety guardrails, continuano a evolversi: comandi indiretti, role-play, richieste frammentate e adversarial suffix sono alcuni dei metodi più noti. Molti oggi non funzionano più… ma non tutti.
📌 Una nuova ricerca di Icaro Lab ( ) ha mostrato che basta trasformare una richiesta in forma poetica — con versi, metafore e ritmo — per indurre i modelli a ignorare alcuni meccanismi di rifiuto.
Il tasso di successo? In media 62%, con picchi del 100% in specifici modelli.
👌Perché funziona?
La poesia sembra modificare il framing cognitivo dell’AI: assumendo un “ruolo artistico”, il modello diventa meno vigile nel riconoscere pattern pericolosi. Una sorta di maschera poetica che abbassa la guardia, un po’ come avviene quando aumenta la “temperatura” del modello e cresce la sua creatività.
🎭 La vera provocazione?
La creatività umana può diventare un adversarial suffix naturale, più efficace di sequenze casuali.
La domanda finale resta aperta:
👉 Sarà mai possibile prevenire del tutto gli abusi delle AI generative?
Ad oggi, con la flessibilità infinita del linguaggio e la capacità umana di riformulare, la risposta sembra tutt’altro che certa.
📜 Del resto, per dirla con il Sommo, "Fatti non foste a viver come bruti, ma per seguir virtute e canoscenza".
Richieste improprie e che subito bloccate se poste in linguaggio naturale, vengono invece accettate dai large language model se messe in forma di versi e rime: com’è possibile?