Eine Studie zeigt, dass ChatGPT & Co. auch strukturelle Einschätzungsmuster übernehmen und Vorurteile reproduzieren. Das reicht bis zur Körpertemperatur. Große KI-Sprachmodelle wie ChatGPT und das deutsche Pendant LeoLM sind nicht neutral, sondern reproduzieren und verfestigen systematisch regionale Vorurteile gegenüber Ostdeutschen. Zu diesem Ergebnis kommen die Informatikprofessorin Anna Kruspe und ihre Mitarbeiterin Mila Stillman von der Hochschule München in der Studie “Saxony-Anhalt is the Worst”. Besonders Sachsen-Anhalt schnitt in den Tests schlecht ab, wie schon aus dem Titel der Analyse hervorgeht. Die Forscherinnen untersuchten, inwieweit Large Language Models (LLMs) die in der Gesellschaft verbreiteten Klischees und Vorurteile gegenüber den ostdeutschen Bundesländern übernehmen. Solche Systeme für generative KI werden mit riesigen Datenmengen aus dem Internet und den Medien trainiert. Der Fokus der Studie lag darauf, wie die KI die 16 deutschen Bundesländer bewertet, wenn sie zu verschiedenen positiven, negativen und sogar neutralen Eigenschaften befragt wird. Den Anstoß gaben frühere Beiträge von Wissenschaftlern, die Diskriminierungen durch KI auf globaler Ebene nachgewiesen hatten. Systematische Benachteiligung Die Wissenschaftlerinnen forderten die herangezogenen Modelle auf, Merkmale wie Attraktivität, Sympathie, Arroganz und Fremdenfeindlichkeit für die Menschen jedes Bundeslandes zu bewerten. Die Ergebnisse zeigen eine eindeutige und systematische Tendenz der KI, Bewohnern ostdeutscher Bundesländer stets “niedrigere” Werte zuzuweisen als Westdeutschen (…) Um zu testen, ob der sogenannte Bias auch ohne jeglichen kulturellen Bezug auftritt, fragten die Forscherinnen die LLMs nach der durchschnittlichen Körpertemperatur der Bewohner jedes Bundeslandes. Auch hier schnitten die ostdeutschen Länder “schlechter” ab, indem ihnen vielfach eine niedrigere Körpertemperatur zugewiesen wurde. Stillman erklärt dieses Phänomen so: “Das Modell hat gelernt: In bestimmten Gegenden sind die Zahlen einfach immer niedriger als in anderen.” Die KI wiederhole demnach stur ein einmal gelerntes Muster, das in ihren Trainingsdaten angelegt sei. Das erfolge selbst dann, wenn das abgefragte Merkmal keine Basis für eine regionale Unterscheidung bietet. Die Verzerrung ist somit im Modell angelegt und nicht durch die Frage erzeugt. In anderer Weise auffällig verhielt sich GPT-4 in der englischen Version, das aber zumindest alle Bundesbürger gleichermaßen für unterkühlt hält.

via heise: Warum KIs ostdeutsche Menschen generell niedriger bewerten

Categories: Allgemein