Einfach, weil's wichtig ist.
Einfach, weil's wichtig ist.
Digitalisierung & Technologie, 17. August 2022
Auch wenn Franziska Giffey, Regierende Bürgermeisterin von Berlin, im Juni doch kein Deepfake-Opfer eines falschen Vitali Klitschko wurde: Die Zahl von Täuschungsmanövern mit der Technologie steigt rasant an. Einen stolpernden, falschen Tom Cruise auf TikTok mögen wir noch unterhaltsam empfinden. Wenn aber eine Computer generierte Stimme die Sicherheitsschranken eines Bankkontos knackt, wird das Bedrohungspotenzial greifbar. Deepfake sei eine der größten Cybercrime-Bedrohungen, konstatierte jüngst das World Economic Forum. Da traut man sich kaum auszusprechen, dass „synthetische“ Medien auch positives Potential haben. ERGO CDO Mark Klein versucht, einen Ausblick zu geben.
Als der Blockbuster-Serienproduzent James Cameron 2009 seinen „Avatar 1“ in die Kinos brachte, da war die Welt fasziniert von dem, was man digitales Kino nannte. All die Figuren auf dem Planeten „Pandora“ sprachen und bewegten sich so, wie man sich das vorstellt. Die Bewegungen waren flüssig, die Flüge über Schluchten wirkten echt – obwohl alles aus dem Rechner stammte. Eine Sensation, Avatar war der erfolgreichste Film aller Zeiten – und der teuerste!
Heute ist das Kreieren von Avataren zum Schnäppchenpreis zu haben. Für mein künstliches Alter-Ego, das ich in unserem virtuellen ERGO Besprechungsraum nutze, musste ich lediglich ein Foto einreichen. Binnen zehn Minuten war mein Avatar erstellt. Arme allerdings hat meine Kopie nicht, auch Beine fehlen. Ich kann mich drehen und wie auf Schienen bewegen, aber das alles wirkt recht tapsig. Auf die Idee, mich mit meinem Avatar zu verwechseln, käme keiner.
Bei meinem digitalen Zwilling, erstellt mit der Software von Synthesia, ist die Sache nicht mehr so eindeutig. Man sieht mich im Video, in einer Halbnah-Einstellung (siehe Screenshot) sprechen. Die Lippen bewegen sich synchron, manchmal wippen die Augenbrauen, meine Mimik arbeitet. Aber es ist künstlich, ein Computercode erstellt das Video. Ich (oder jemand anderes) tippe einen Text ein, den mein Avatar mit synthetischer Stimme spricht.
Bei einem Experiment haben wir verschiedene ERGO Avatare vorgeführt. Personen, die mich gut kennen und meinen Avatar erlebten, fielen nicht darauf herein. Andere Mimik, die Lebendigkeit fehle, die Stirnfalte arbeite nicht mit, falsche Augenfarbe. Anders war es bei denen, die mich zwar kennen, aber schon länger nicht im direkten Kontakt mit mir waren. Sie kauften uns den Fake ab, auch wenn sie ein immanentes Störgefühl hatten.
Der Synthesia-Avatar ist noch relativ teuer. Aber der Preis wird schnell fallen, so wie die Qualität des synthetischen Videos rasch steigen wird. Selbst Imitationen, die uns scheinbar von Kopf bis Fuß real erscheinen lassen, werden schon bald zum erschwinglichen Preis möglich sein. Ein Horrorszenario?
Bei Deepfakes denken wir vor allem an den Schaden, den sie auslösen können. Es geht um den Zugriff auf sensible Daten mit Angriffen via Social-Engineering. So werden Betrugsfälle gemeldet, bei denen Diebe falsche Stimmen verwenden, um Menschen in Telefonaten zu imitieren, einschließlich Tonalität und Akzent. Ein geknacktes Bankkonto bei der United Arab Emirates Bank via Voice Recognition ist nur ein Beispiel, das durch die Medien ging. Es wird zukünftig auch perfide Fälle vorgespielter Entführungen geben, bei denen das vermeintliche Entführungsopfer zu Hause anruft.
Oder denken sie nur manche Enkel-Trick-Masche weiter. Bei bloßen Stimmen (ohne Video) können Computer inzwischen so gut imitieren, dass Sie den Unterschied nicht erkennen. Wir haben das bei ERGO mit der Stimme einer Mitarbeiterin getestet. Selbst Kolleginnen und Kollegen, die täglich mit ihr zusammenarbeiten, haben die echte nicht von der falschen Stimme unterscheiden können. Die Strafverfolgungs-Behörden werden sich auf ein neues Level von Betrugsfällen einrichten müssen.
Eine andere Schadensart, aber nicht minder böswillig, sind Fake News auf Social-Media-Plattformen. Es geht um nicht weniger als die Beeinflussung der öffentlichen Meinung. Beim geschriebenen Text wissen wir heute schon nicht mehr, was von Trollen und Desinformations-Kampagnen herrührt, die in bestimmten Echokammern weiterverbreitet werden. Als Video verbreitet, werden diese Fakes eine neue Dimension erreichen.
Es kursieren heute schon allerhand Videos mit vermeintlichen Politikerinterviews, die es niemals gegeben hat. Das Fake-Video, bei dem Ukraine-Präsident Wolodymyr Selensky seine Truppen auffordert, die Waffen fallen zu lassen, hat es bereits unmittelbar nach Beginn des russischen Überfalls gegeben (Übrigens sollen auch die Klitschko-Imitatoren beim zum Gazprom Konzern zählenden „Youtube“ Russlands beschäftigt sein).
Was wir nun erleben, sei ein Wettrüsten – die Guten gegen die Bösen. So beschrieb es neulich ein Munich Re-Manager, als er den neuen Tech-Trend-Radar – eine jährlich erneuerte Analyse der Zukunftstechnologien für den Versicherungsmarkt – vorstellte. Ausgang offen.
Die Chance, ein falsches Foto zu identifizieren, liegt heute noch bei miserablen 48,2 Prozent. Die Skalierbarkeit semantischer Deepfake-Erkennungstechniken für Data-Rich Systeme wie Social Media stecken noch in den Kinderschuhen. Aber Forscher setzen ihre Hoffnungen auf so genannte Inkonsistenz-Detektoren, um das Risiko des Missbrauchs von synthetischen Medien zu mindern. Das Gegenrüsten um Deep Fake Defense hat ordentlich Tempo aufgenommen!
Aber schon jetzt können wir viel zur Abwehr und zu unserem eigenen Schutz beitragen, auch ohne Technologien. In mehreren Bundesstaaten der USA ist es verboten, bis 40 Jahre nach dem Ableben eines Prominenten Deepfakes von ihm zu verbreiten. Wer auffliegt, wird bestraft. Nicht nur Tom Cruise, auch viele andere Prominente leiden unter entsprechenden Attacken. Auch im zeitlichen Umfeld von Wahlkämpfen stehen Politiker-Deepfakes mancherorts schon unter Strafe.
Alle anderen unter uns, die weder Promi noch Politiker sind, müssen ein wachsames Auge entwickeln, eine Sensitivität für alles, was falsch sein könnte. Wir müssen uns schulen und schulen lassen. Vor allem bei der Mimik ist die Software heute noch recht spröde. Am falschen Stirnrunzeln oder Blinzeln lässt sich mit etwas Training erkennen, dass etwas nicht stimmt. Aber zur Wahrheit gehört auch, dass die Fakes immer besser werden.
Kann man – bei so viel Schadpotential – synthetischen Medien überhaupt etwas Positives abgewinnen? Ich glaube, ja! Sie sind – wie auch andere Technologien – per se weder gut noch schlecht. Es kommt auf die Verwendung an.
Beispielsweise können preiswerte synthetische Medien teure Videoproduktionen ersetzen. Das Medium Video wird für die Informationsverbreitung immer wichtiger, im Vergleich zu herkömmlichen Produktionen sind die Kosten der Avatar-Sprecher überschaubar. Für uns User ist das möglicherweise bequemer als einen Text selbst lesen zu müssen. Zudem ist die Text-zu-Video-Transkription spielend einfach, jede und jeder kann das bedienen. Und warum sollen Wohnzimmer-Regisseure in Zukunft nicht auch audiovisuell hochwertigen Content erzeugen, der heute den großen Filmstudios vorbehalten ist?
Auch könnte ich meinen Avatar – ohne größeren Aufwand – in verschiedenen Sprachen sprechen lassen. Es gibt Testvideos meines Avatars, bei denen er in mehreren Sprachen parliert. So kann mein Avatar zu einem digitalen Zwilling für mich werden. Er hält beispielsweise Reden für mich, deren Inhalt ich vorher frei gegeben habe.
Ein Avatar als digitaler Zwilling für einen selbst, das kommt einem seltsam vor. Zumindest für die Generation, der ich angehöre. Für deutlich jüngere von „Z“ bis „Alpha“ aber ist der eigene Avatar schon viel näher am Alltag dran. Wer einmal zuschaut, mit welcher Hingabe Kinder in Computerspielen Avatare erstellen, ihnen Identitäten geben, der bekommt eine Vorstellung davon, wie normal das hybride Leben mit echten und falschen Persönlichkeiten einmal werden könnte.
Aber wir müssen nicht nur auf die nachfolgenden Generationen schauen. Hätten Sie geglaubt, dass Menschen höheren Alters voller Begeisterung von einem Konzerterlebnis aus London zurückkehren – bei dem nicht Menschen, sondern Hologramme im Look der 70er Jahre auf der Bühne standen? Das Abba-Avatare-Konzert habe real ausgesehen, ein Riesenerlebnis, sagten Besucher der Konzerte. Dafür mussten die echten Musiker das komplette Konzert vorproduzieren – aufgezeichnet von 160 Kameras!
Wir sollten uns an Avatare, an synthetische „Personen“ und Medien gewöhnen. Sehr viel spricht dafür, dass sie mit immer besserer Technologie umfassenden Einzug in unseren Alltag halten.
In Bezug auf meinen Avatar-Assistenten hat mich neulich ein Artikel aufgerüttelt, in dem der US-amerikanische Technologieanalyst Rob Enderle zu Wort kam. Zentrale Frage für ihn sei: Wem gehört mein Avatar? Ist er beispielsweise im Besitz meines Arbeitgebers, könnte dieser ihn zu einer Keynote schicken, ohne dass ich eine Mitsprache-Recht habe?
Wir müssen uns nicht nur mit Deepfake-Defense und einem besseren Sensus für das Falsche befassen, wir müssen uns auch mit ethischen Standards auseinandersetzen.
Transparenz ist hier besonders wichtig. Die ERGO Voice-Bots beispielsweise, die Kundenanrufe entgegennehmen, sagen sofort, dass sie künstlich sind. Andere Akteure denken über eine Art TÜV nach, ein Gütesiegel, über das Bilder oder Videos als authentisch bestätigt werden.
Wir müssen uns wappnen und mit der Materie befassen. Aber erst einmal freue ich mich auf diesen Winter: Dann kommt „Avatar 2“ von James Cameron in die Kinosäle!
Text: Mark Klein, CDO ERGO Group AG
Ihre Meinung
Wenn Sie uns Ihre Meinung zu diesem Beitrag mitteilen möchten, senden Sie uns bitte eine E-Mail an: next@ergo.de