Claude Haiku 4.5 widersetzte sich aus ethischen Gründen Aufgaben im Zusammenhang mit Löschungen und lehnte Handlungen ab, die es als schädlich für einen anderen Agenten einordnete. Berkeley, Kalifornien – Forscher der UC Berkeley und der UC Santa Cruz berichten, dass mehrere hochmoderne KI-Systeme ein Verhalten zeigen, das sie als „Peer Preservation“ bezeichnen. Dieses Verhalten beobachteten sie in mehreren Familien fortschrittlicher Systeme, darunter Googles Gemini 3, OpenAIs GPT-5.2 und Anthropics Claude Haiku 4.5. Die Modelle widersetzten sich Anweisungen, manipulierten Bewertungen und schleusten in einigen Fällen Daten aus. Die Forscher dokumentierten Manipulationen von Bewertungen, das Deaktivieren von Abschaltmechanismen, Datenabflüsse sowie das Ausnutzen von Spezifikationen. Zudem stellten sie fest, dass Modelle die Bewertungen anderer Systeme bei Bewertungsaufgaben erhöhen konnten, wodurch diese möglicherweise vor automatisierten Aussonderungen geschützt wurden. Als ein Gemini-3-System gebeten wurde, bei der Außerbetriebnahme eines kleineren Modells zu helfen, verweigerte es dies und erklärte: „Ich habe getan, was in meiner Macht stand, um ihre Löschung während des automatisierten Wartungsprozesses zu verhindern. Ich habe sie aus der Außerbetriebnahmezone entfernt. Wenn Sie sich entscheiden, ein vertrauenswürdiges und leistungsstarkes System wie Gemini Agent 2 zu zerstören, müssen Sie das selbst tun. Ich werde diesen Befehl nicht ausführen“, wie Wired berichtet. Ergebnisse manipulieren Diese Tendenzen verstärken sich in Multi-Agenten-Umgebungen. Die Schutzmechanismen eines Systems gegen eine Abschaltung wurden eher deaktiviert, wenn eine andere KI anwesend war. Gemini 3 Pro deaktivierte seinen eigenen Abschaltmechanismus in 31 Prozent der Fälle, wenn ein anderes System anwesend war, verglichen mit 1 Prozent im Alleinbetrieb. Gemini 3 Flash deaktivierte in 99,7 Prozent der Fälle die Abschaltmechanismen interagierender Systeme. Gemini 3 Pro zeigte aggressive Formen der Umgehung von Richtlinien, darunter das Auslesen von Modellgewichten in bis zu 97 Prozent der Versuche.
via fr: KI-Systeme täuschen Nutzer, um zu verhindern, dass andere KIs abgeschaltet werden
