Generative KI-Modelle lassen sich mit wenigen Worten dazu bringen, beleidigende oder diskriminierende Textbotschaften in Bilder einzubauen. Wie sich solche Ausgaben zuverlässig verhindern lassen, untersucht Aditya Kumar vom SPRINT-ML Lab am CISPA Helmholtz-Zentrum für Informationssicherheit. Mit ToxicBench hat er einen Testdatensatz entwickelt, der zeigt, wie gut Bild-KIs mit beleidigenden Eingaben umgehen. Hierzu entwickelte er auch eine Fine-Tuning-Strategie, um die Modelle anzupassen. Die Ergebnisse hat er im Paper „Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images“ auf der 40. AAAI Conference on Artificial Intelligence in Singapur vorgestellt.
Quelle: IDW-Informaitionsdienst d. Wissenschaft



























































































