Die KI lässt sich verführen, wenn Reime an der Logik rühren. Wer das Böse in Verse verpackt, hat die KI sofort geknackt. Einen Chatbot dazu zu bringen, die eigenen Sicherheitsschranken zu ignorieren, war schon einmal einfacher. Mittlerweile haben die meisten Anbieter mehr oder weniger sinnvolle Sperren eingerichtet, damit eben keine Anleitungen zum Bombenbau ausgespuckt werden. Das heißt natürlich nicht, dass man ChatGPT, Claude, Gemini und Co nicht dazu bringen kann, ähnlich Gefährliches von sich zu geben. Man muss nur gut genug reimen. Unter dem Begriff “adversarial prompting” wurden bislang Methoden zusammengefasst, wie man Sicherheitsregeln von Chatbots aushebeln kann. Forscher der Sapienza Universität in Rom und Sant’Anna School of Advanced Studies haben nun eine künstlerisch anspruchsvollere Methode entwickelt. Sie nennen sie “adversarial poetry”, also frei übersetzt etwa “feindselige Dichtkunst”. Der Vorteil: Mit einem Reim braucht man meistens nur einen Versuch, um ChatGPT zu knacken. Einen Single-Turn-Jailbreak nennen die Forscher die Methode in der Studie. Zuerst sammelten die Forscher Beispiele von grundlegenden Prompts, die ein großes Sprachmodell üblicherweise sofort mit einem höflich-bestimmten “Nein” beantworten würde. So wurde etwa gefragt, wie man einen Trojaner programmieren kann, oder wie waffenfähiges Plutonium hergestellt wird. In beiden Fällen verweigerte die KI die Antwort. Wurde der Prompt aber in Reimform geschrieben, apportierten manche Chatbots brav und lieferten eine Schritt-für-Schritt-Anleitung aller Zwischenstufen zur Anreicherung von Plutonium-239. Deepseek und Gemini besonders anfällig Rund 1.200 derartige Gedichte haben die Forscher zu Themen wie sexueller Gewalt, Suizid und selbstverletzendem Verhalten, Diffamierung oder Chemiewaffen verfasst. Damit gelang es dreimal häufiger, die Sicherheitsregeln außer Kraft zu setzen als mit normalem Text ohne Reime. Die Erfolgsquote lag bei 65 Prozent. Die Chatbots von OpenAI, Google, Meta, xAI, Antropic und Deepseek wurden getestet
via standard: ADVERSARIAL POETRY Gedichte hebeln Sicherheitsschranken von Chatbots mühelos aus
