Digitalisierung & Technologie, 11. Dezember 2024
Künstliche Intelligenz (KI) bietet uns inzwischen eine ganze Reihe beeindruckende Möglichkeiten, uns in unseren täglichen Arbeitsprozessen zu unterstützen. Doch wie verlässlich sind die Ergebnisse? Was ist dran an den sogenannten „Halluzinationen“, wenn also die KI „Tatsachen“ erfindet, die gar keine sind? Ein hochrelevantes Thema, gerade für Unternehmen, die KI-Systeme in der Analyse ihrer Daten oder im Kundenkontakt einsetzen. Dazu haben wir uns mit unserem Kollegen Nicolas Konnerth, Head of Conversational AI, unterhalten. Wir wollten wissen: Warum liefert die KI faktisch falsche Ergebnisse und wie können sich Userinnen und User davor schützen?
„Die meisten Leute wissen inzwischen, dass KI keine perfekten Ergebnisse liefert.“ Das macht Nicolas Konnerth gleich zu Beginn unseres Gesprächs deutlich, schränkt aber sogleich auch ein: „Was oft unterschätzt wird, ist die Frage, warum KI-Modelle manchmal Dinge erfinden.“ Die Antwort darauf ist simpel: Künstliche Intelligenz arbeitet mit Wahrscheinlichkeiten. Das bedeutet, sie berechnet für jede Aussage in ihrer Antwort eine Wahrscheinlichkeit basierend auf vorhandenen Trainingsdaten – unabhängig davon, ob diese Information richtig oder falsch ist. Genau das kann zu den sogenannten Halluzinationen führen. „Ein KI-Modell wie ChatGPT ist darauf trainiert, das nächstwahrscheinlichste Wort zu generieren, sodass der Text kohärent klingt.“, erläutert Nicolas Konnerth und ergänzt, „Aber das bedeutet eben auch, dass die KI keine Unterscheidung zwischen korrekten und falschen Informationen trifft.“
Je unspezifischer eine Anfrage wird, desto wahrscheinlicher ist es, dass die KI kreativ wird. Nicolas Konnerth führt das Beispiel eines KI-gestützten Chatbots eines Hotels an, der möglicherweise falsche Angaben zu Zimmerverfügbarkeiten macht, weil er nicht auf die aktuellen Daten zugreifen kann. „Das liegt nicht daran, dass die KI ‚schlecht‘ ist, sondern daran, dass sie im Zweifel zum Zeitpunkt der Textgenerierung keinen Zugriff auf aktuelle Daten hatte“, macht er deutlich.
Ein weiteres Problem: KI-Modelle basieren auf Daten, die nicht immer vollständig oder widerspruchsfrei sind. Das führt dazu, dass besonders bei schlecht dokumentierten Themen falsche Antworten entstehen können. „Bei allgemeinen Fragen, die in den Trainingsdaten sehr präsent waren, liefert die KI meist recht verlässliche Antworten. Aber wenn es in die Details geht oder ein Thema selten vorkommt, dann wird es meist schwierig,“ so Konnerth.
Viele Menschen stellen ihre Fragen zu vage. Das erhöht die Wahrscheinlichkeit, dass die KI eine falsche oder ungenaue Antwort gibt, weil sie den Interpretationsspielraum entsprechend kreativ füllt.
Doch nicht nur die Trainingsdaten sind ein Faktor bei der Qualität von KI-Antworten. Auch Userinnen und User tragen entscheidend dazu bei, ob eine Halluzination ausgelöst wird. „Viele Menschen stellen ihre Fragen zu vage“, betont Nicolas Konnerth. „Das erhöht die Wahrscheinlichkeit, dass die KI eine falsche oder ungenaue Antwort gibt, weil sie den Interpretationsspielraum entsprechend kreativ füllt.“ An der Stelle erinnert er sich an ein Beispiel aus seiner Arbeitspraxis: Ein Kollege hatte einmal die Zusammenfassung eines längeren Textes mit zwei unterschiedlichen Modellen getestet. Modell A lieferte eine Aufzählung in Stichpunkten, Modell B einen Fließtext. Für den Kollegen war Modell A besser, weil es seine Erwartung nach einer stichpunktartigen Zusammenfassung besser erfüllte. „Dabei hatte er in seinem Prompt überhaupt nicht angegeben, dass er sich eine Zusammenfassung in Form von Stichpunkten wünscht. Genau solche Missverständnisse führen dazu, dass Nutzer die Qualität von KI-Systemen falsch einschätzen“, unterstreicht Nicolas Konnerth.
Die Qualität der Ausgabe hängt also auch maßgeblich von der Qualität der Eingabe ab – ein Prinzip, das Nicolas als „Prompt-Optimierung“ bezeichnet. „Je klarer die Vorgaben sind, desto präziser ist die Antwort der KI“, sagt er. Man sollte aber nicht nur genau sagen, was man will, sondern der KI auch eine ihre Rolle zuweisen. Ein Beispiel dafür wäre, die KI als „erfahrenen Kommunikationsprofi“ oder „sorgfältigen Kundenservicemitarbeiter“ zu bezeichnen, um spezifischere, hochwertigere Ergebnisse zu erzielen.
Überdies helfen konkrete Anwendungsbeispiele der KI. Nicolas Konnerth rät dazu, im Prompt, also der Handlungsanweisung, einige Positiv- und Negativbeispiele mitzugeben, um klarzumachen, was gewünscht ist und was nicht: „Auf diese Weise kann die KI viel besser einschätzen, was das Ziel ist“, erklärt er.
Neben den technischen Herausforderungen bringen KI-Halluzinationen auch ethische Fragen mit sich. KI-Modelle sind so gut oder aber auch schlecht wie die Daten, die ihnen zugrunde liegen. In diesen können sich gesellschaftliche Vorurteile und Stereotype widerspiegeln. Dann sprechen wir vom so genannten Bias – also der Verzerrung oder sogar systematischen Abweichung von Informationen. Ein Beispiel, das Konnerth zur Verdeutlichung anführt: „Wenn das Modell in seinen Trainingsdaten immer wieder CEOs als weiße Männer mittleren Alters präsentiert bekommt, dann reproduziert es genau dieses Bild.“ Genau da sieht er große Verantwortung sowohl bei den Entwicklern als auch bei den Nutzern und Nutzerinnen von KI. „Wir müssen sicherstellen, dass wir die Daten, mit denen wir die KI trainieren, sorgfältig auswählen und bestehende Stereotype hinterfragen.“ Die meisten Anbieter gehen hier bereits mit gutem Beispiel voran und haben verschiedene Filter- und Sicherheitsmechanismen integriert, um solche Vorurteile in den Datensätzen zu minimieren. „Aber das Problem bleibt natürlich bestehen, solange wir nicht auch unsere eigenen Annahmen hinterfragen“, gibt Konnerth zu bedenken und ergänzt: „Besonders kritisch wird es, wenn KI-Modelle genutzt werden, um politische oder gesellschaftliche Diskussionen zu beeinflussen. Da kann es sehr gefährlich werden, wenn ein Modell suggeriert, es gäbe eine ‚allgemeine Wahrheit‘, die in Wirklichkeit aber nur eine verzerrte Darstellung der Realität ist.“
Ein Lösungsansatz, den Nicolas Konnerth hervorhebt, ist das sogenannte „Human-in-the-Loop“-Konzept. Dabei wird jede von der KI generierte Antwort von einem Menschen geprüft, bevor sie an Kunden weitergegeben wird. „Das minimiert das Risiko, dass falsche Informationen verbreitet werden – besonders in sensiblen Bereichen wie etwa dem Versicherungswesen“, sagt Nicolas und erinnert in diesem Zusammenhang an einen Vorfall aus Kanada: Ein Unternehmen wurde verklagt, weil ein Chatbot eine rechtlich nicht bindende Zusage gemacht hatte, auf die sich ein Kunde aber berief – und den Rechtsstreit schließlich gewann. „Solche Beispiele zeigen, wie wichtig der menschliche Faktor im Umgang mit KI bleibt – zumindest noch zum jetzigen Zeitpunkt“, da ist sich Nicolas Konnerth sicher.
In bestimmten Aufgabenbereichen schneiden einige KI-Systeme interessanterweise mittlerweile besser ab als Menschen. „Eine Studie von OpenAI aus 2023 hat gezeigt, dass ChatGPT beim der amerikanischen Zulassungsprüfung für Anwälte Ergebnisse erzielt hat, die in den oberen zehn Prozent aller Teilnehmenden lagen“, weiß Nicolas Konnerth zu berichten. Er sieht diese Entwicklung differenziert: „Natürlich macht die KI immer noch Fehler. Aber Menschen machen die auch. Die Frage ist da natürlich, ob wir als Gesellschaft irgendwann bereit sind, Fehler von KI-Systemen genauso zu akzeptieren wie menschliche Fehler.“ Eines aber müssen wir uns aus Sicht von Nicolas Konnerth dennoch immer vor Augen führen: „KI-Modelle sind stochastische Papageien. Sie können Inhalte wiedergeben, aber sie verstehen sie nicht.“ Besonders im Bildungssektor müsse man deshalb frühzeitig damit anfangen, schon junge Menschen darin zu schulen, kritisch mit den lernenden Systemen umzugehen und ihre Schwächen zu verstehen.
Unternehmen, die KI effizient einsetzen wollen, rät der Head of Conversational AI bei ERGO Group: „Präzise Fragestellungen sind das A und O. Je genauer ich formuliere, was ich möchte, desto geringer ist die Wahrscheinlichkeit, dass die KI eine falsche Antwort gibt.“ Hilfreich sei es auch, mit klaren Beispielen aus der eigenen Praxis zu arbeiten und der KI so zu zeigen, wie das gewünschte Ergebnis aussehen soll.
Eine andere Möglichkeit, Halluzinationen bei der Nutzung von AI zu vermeiden, ist das „Retrieval-Augmented Generation“-Modell (RAG). „Dabei wird die KI mit einem Wissensfundus ergänzt, aus dem sie lediglich eine Antwort umformulieren kann. Das verhindert, dass die KI sich Dinge einfach ausdenkt“, erklärt Nicolas Konnerth, gibt aber zu bedenken, dass auch diese Methode nicht alle Risiken eliminiert. „Am Ende bleibt die Tatsache bestehen, dass KI immer auf Wahrscheinlichkeiten basiert und deshalb auch mal danebenliegen kann“, lautet sein Fazit.
KI. Ein mächtiges Instrument. Aber eben auch nur so präzise wie die, die es entwerfen und nutzen.
Wir danken Nicolas Konnerth für das Gespräch und seine wertvollen Einblicke.
Ihre Meinung
Wenn Sie uns Ihre Meinung zu diesem Beitrag mitteilen möchten, senden Sie uns bitte eine E-Mail an: next@ergo.de
Weitere Magazin-Beiträge