Forschungsprojekt: Avatar übersetzt in Gebärdensprache

- Das Projekt „GIGA Gebärdensprache“ hat erforscht, ob es mithilfe Künstlicher Intelligenz gelingen kann, automatisiert zwischen Deutscher Gebärdensprache (DGS) und Deutsch zu übersetzen. Dazu erfasst eine Smartphone-Kamera die Eingabe in Gebärdensprache. Auch die Kommunikation in der Gegenrichtung wurde erforscht: Der von der KI übersetzte Text des Sprechenden soll per Avatar in einer Smartphone-App in Gebärdensprache dargestellt werden.
- Das Forschungsprojekt ist mittlerweile abgeschlossen und brachte viele Erkenntnisse: Mit Handbewegungen, Gestik, Mimik und Körperhaltung gibt es vier Informationskanäle, die bei der Visualisierung von Gebärdensprache eine Rolle spielen. Deshalb ist die Erfassung des Inputs von Gebärdenden komplex: selbst zwei Kameras reichen dafür oft nicht aus – benötigt wird zum Teil Motion Capturing, wie es sonst für Special-Effects-Produktionen in Hollywood-Filmen zum Einsatz kommt.
- Weitere Erkenntnisse: Bei den Darstellungen via Avatar können Mimik und Gestik kaum zu übertrieben dargestellt werden, um deutlich erkennbar zu sein. Die Aufbereitung der Visualisierung muss auf starken Servern in der Cloud erfolgen. Bei der Aufgabe, die Ergebnisse dieser KI-Berechnungen wieder zurück auf Smartphones und PCs zu transportieren, bewährte sich der 5G-Mobilfunkstandard.
- Nun stellt sich die Frage, wie ein Betrieb der in dem Forschungsprojekt entwickelten Lösungen dauerhaft aussehen könnte. Hierfür suchen die Konsortialpartner ein Betreibermodell, dass die Finanzierung der Cloud-Systeme und aller weiteren benötigten Komponenten nachhaltig sicherstellt.

Wer nicht gehörlos ist und auch keine Betroffenen kennt, dem begegnet Gebärdensprache wohl am ehesten als Einblendung in den Fernseh-Nachrichten. Beschäftigt man sich näher damit, lernt man jedoch schnell: Diese Art der Kommunikation ist höchst komplex und erfordert erfahrene Dolmetscher. Für die Übersetzung von Podcasts, Radio-Interviews, Internet-Videos und ähnlichen Audio-Medien steht sie deshalb so gut wie nie zur Verfügung.

Dies zu ändern war das Ziel des Forschungsprojekts GIGA Gebärdensprache. Hier wurde erforscht, wie es mit Künstlicher Intelligenz möglich wird, automatisierte Übersetzungen von Deutscher Gebärdensprache, kurz DGS, die mit der Kamera eines Smartphones erfasst wird, vorzunehmen. Auch die Kommunikation in der Gegenrichtung wurde erforscht: Der von der KI übersetzte Text des Sprechenden soll per Avatar in einer Smartphone-App in Gebärdensprache dargestellt werden.

Doch bevor diese Vision Realität werden kann, braucht es viel Forschung und nicht zuletzt auch schnelle Netze wie 5G. Wie all dies zusammenspielt, ist Thema der jüngsten Folge unseres Podcasts MobilfunkTalk. Unser Gesprächspartner ist Marcus Veigel, Geschäftsführer der Firma Cynapsis Interactive GmbH – eines der Konsortialpartner beim Projekt GIGA Gebärdensprache.

Interdisziplinäres Forschungsprojekt

Das Forschungsprojekt wurde im Rahmen von 5G.NRW gefördert – der 5G-Förderung des Landes Nordrhein-Westfalen. Untersucht werden sollte, ob die beschriebene Übersetzung zwischen deutscher Sprache und „DGS“ automatisiert erfolgen kann – auf Basis von Machine Learning und mit Zugriff auf leistungsfähige Cloud-Server über das 5G-Mobilfunknetz. Auf dem Smartphone oder dem PC soll so ein Assistenzsystem für Menschen mit Einschränkungen beim Hören zur Verfügung gestellt werden.

In das Projekt brachten mehrere Konsortialpartner ihre jeweilige Expertise ein:

Der Cluster CVMLS (Computer Vision and Machine Learning Systems Group) der Uni Münster war zuständig für die Optimierung des Trainings der für das Projekt realisierten KI-Anwendungen. Ebenfalls an der Universität Münster beheimatet ist das ERCIS (European Research Center for Information Systems). Es zeichnete verantwortlich für die Anforderungsanalyse, die sich vor allem darauf fokussierte, welche Nutzerbedürfnisse und welche Szenarien die entstehende App oder der Avatar auf dem PC erfüllen muss.

Die Humanwissenschaftliche Fakultät der Uni Köln steuerte die linguistische Expertise zur Deutschen Gebärdensprache bei und half somit bei der Umsetzung von DGS als technische Lösung. Ein großer deutscher Mobilfunknetzbetreiber unterstützte mit den benötigten Server- und Cloud-Kapazitäten sowie seiner Expertise zur 5G-Kommunikation zum Beispiel zwischen Smartphone und Cloud.

Die Firma Nexaion, die auch Konsortialführer war, steuerte die App-Programmierung bei, und Cynapsis Interactive das Design der Benutzeroberfläche – die „User Experience“, in der Fachsprache kurz UX.

Viele Lerneffekte von Linguistik bis Technik

Unser Interview-Partner Marcus Veigel berichtet: „Wenn man Menschen erlebt, die in Gebärdensprache kommunizieren, fällt zunächst auf, dass dabei sehr viel mit den Händen passiert. Tatsächlich spielen aber auch Gestik, Mimik und Körperhaltung eine ebenso wichtige Rolle.“ Somit gäbe es bei der Gebärdensprache vier parallele Informationskanäle, die bei der Visualisierung über den Avatar umgesetzt werden mussten.

Auch die Aufgabe, diese parallelen Kommunikationskanäle fürs Training der KI zu erfassen, war herausfordernd: In dem Projekt zeigte sich, dass Kamera-Erfassung, auch mit zwei Kameras, nicht genau genug arbeitete, um alle erforderlichen Nuancen zu registrieren. Schließlich erwarb das Konsortium einen Motion-Capture-Anzug, wie er sonst vorwiegend für die Special-Effects-Produktionen in Hollywood-Filmen zum Einsatz kommt.

Marcus Veigel erläutert eine weitere Erkenntnis des Projekts: „Bei der Wiedergabe von Mimik über den Avatar kam von den Gebärdenden in dem Projekt das Feedback, die Darstellung sei noch viel zu undeutlich. Dann haben wir diese Visualisierung nach unserem Empfinden erheblich übertrieben. Reaktion der Gehörlosen: Da geht noch mehr.“

Das Projekt GIGA Gebärdensprache verfolgt das Ziel, Übersetzungen von deutscher Sprache in Deutsche Gebärdensprache automatisiert vorzunehmen. Hier stellt sich das Projekt selbst in Gebärdensprache vor.

Welche Rolle spielte der Mobilfunkstandard 5G bei der Umsetzung? Neben den hohen Datenraten, die auch die Übertragung größerer Datenmengen ermöglichen, betont Marcus Veigel vor allem die geringen Latenzen, die 5G bietet. Denn die für die Erkennung von Gebärdensprache oder für die Übersetzung erforderlichen KI-Berechnungen würden selbst moderne Smartphones überfordern. Also müssen sie auf leistungsfähigen Servern und „GPUs“ in der Cloud ausgeführt werden. Dann gilt es aber, die Ergebnisse dieser Berechnungen mit möglichst geringer Verzögerung zurück zum Smartphone oder PC zu transportieren. Hier bewährte sich 5G – und ein künftiger 6G-Mobilfunkstandard könnte sich nach Einschätzung von Marcus Veigel hierfür weitere Vorteile bringen.

Nachhaltige Realisation und dauerhafte Finanzierung noch offen

Wann könnte eine Anwendung, wie sie die Zieldefinition des Projekts beschreibt, nun tatsächlich auf den Markt kommen? Als Antwort weist Marcus Veigel darauf hin, dass es sich um Forschungsprojekt handelte, das zudem bereits abgeschlossen sei. Dies habe viele Ergebnisse gebracht, wie eben zum Beispiel die Notwendigkeit, die Darstellungen durch den Avatar auf Cloud-Servern aufzubereiten, oder dass die Erkennung von Eingaben per Gebärdensprache aufwändiger ist als dass sie nur auf einer einfachen Kamera basieren könnte. Auch zum Training der eingesetzten KI gab es viele praktische Erkenntnisse – zum Beispiel, dass Material aus TV-Nachrichtensendungen dafür nicht ausreichte, weil der gebärdende Übersetzer dort immer vor einem blauen Hintergrund steht. In der Praxis sind die Bildhintergründe der Nutzer aber weniger klar definiert. Um das KI-Training so zu erweitern, dass sich diese Herausforderungen lösen lassen, müssten noch viele tausend Gehörlose Test-Input freiwillig zur Verfügung stellen. Damit stelle sich aber auch die Frage, wem die auf diese Weise erzeugten Trainingsdaten am Ende gehören.

Um einen entsprechenden Dienst anbieten zu können, müssen dessen laufende Kosten dauerhaft finanziert sein – insbesondere der Betrieb der Server in der Cloud. Das Konsortium möchte die in dem Projekt gewonnenen Erkenntnisse aber unbedingt in ein praktisches Angebot fließen lassen. Dazu setze es in erster Linie auf institutionelle Förderer – etwa Verbände wie der Landschaftsverband oder Gehörlosen-Organisationen. Aber auch auf Fernsehanstalten oder die Personalabteilungen großer Unternehmen, die ebenfalls Bedarf an der Lösung hätten, könnten sich an der Finanzierung beteiligen. Klar sei aber auch, dass es mit Einmalsponsoring nicht getan sei, sondern dass eine dauerhafte Finanzierung benötigt werde. Hoffnung gebe, dass mittlerweile allgemein anerkannt sei: „Inklusion ist kein ,Nice to have‘, sondern ein ,Must have‘“. Gesucht sei daher ein Betreibermodell, das es möglich macht, den auf Basis der Forschungsergebnisse beabsichtigten Dienst langfristig und nachhaltig zur Verfügung zu stellen.

Veröffentlicht am 05.07.2024

Auf allen wichtigen Podcast-Plattformen vertreten

Das rund 25-minütige Gespräch mit Marcus Veigel haben wir in der neuesten Folge unseres Podcasts MobilfunkTalk veröffentlicht. Sie finden ihn auf allen einschlägigen Podcast-Plattformen.