Die 80 Millionen kategorisierten Bilder sind automatisiert erstellt worden. KI-Systeme haben mit dem MIT-Datensatz Beleidigungen erlernt. Das prestigeträchtige Computer Science & Artificial Intelligence Lab (CSAIL) des MIT (Massachusetts Institute of Technology) hat seinen für Machine-Learning-Aufgaben gedachten Datensatz Tiny Images mit etwa 80 Millionen Einzelbildern in mehr als 75.000 Kategorien offline genommen. Wie das Institut auf der Tiny-Images-Webseite mitteilt, sei diese Entscheidung dauerhaft und der Datensatz damit künftig gar nicht mehr verfügbar. Als Grund dafür wird angegeben, dass der Datensatz “abfällige Begriffe als Kategorien und beleidigende Bilder” enthalte. Das MIT zieht damit die Konsequenzen aus Recherchen des Magazins The Register sowie einer Forschungsarbeit (PDF) von Vinay Prabhu, Forscher bei dem Startup UnifyID, sowie Abeba Birhane, die am University College Dublin promoviert. Die Untersuchung beschäftigt sich mit verschiedenen Datensätzen, die für Machine-Learning-Modelle und Forschungen genutzt werden. Der Fokus liegt dabei einerseits auf den enthaltenen Bildern selbst, die etwa pornografische Inhalte enthalten, sowie auf den Kategorien und den damit assoziierten Bildern. Um Machine-Learning-Modelle zu trainieren und damit letztlich neue und unbekannte Inhalte zu erkennen, ist es wichtig, dass der zugrundeliegende Datensatz möglichst divers ist und vor allem eine gute Kategorisierung aufweist. In den vergangenen Jahren gab es aber immer wieder Fälle, bei denen derartige Systeme wohl wegen der schlechten Ausgangslage sehr schlecht funktioniert und Diskriminierung verfestigt haben. Im Zuge der aktuellen Black-Lives-Matter-Proteste haben deshalb Microsoft, IBM und Amazon ihre Arbeiten an solchen Systemen eingestellt oder zumindest ausgesetzt. Wie das Forscherteam nun zeigt, reproduziert auch der Tiny-Images-Datensatz des MIT bestehende Diskriminierungen wie Rassismus und Sexismus und verwendet etwa Ethnophaulismen als Kategorien, also abwertende Bezeichnungen für Menschengruppen. Laut dem MIT ist die Erstellung des Datensatzes im Jahr 2006 automatisiert umgesetzt worden, indem Worte aus der Wordnet-Sammlung als Kategorien kopiert worden waren und anschließend eine Online-Bildersuche mit diesen umgesetzt wurde.

via golem: Machine Learning: MIT nimmt Datensatz mit rassistischen Begriffen offline