KI-Assistenz auf dem Prüfstand: Digitale Avatare bei der KI-gestützten Gebärdensprach-Übersetzung

Im Projekt KI-Kompass Inklusiv ist es unser Ziel, über die Potentiale von KI-Assistenz für Menschen mit Behinderungen im Arbeitsleben zu informieren. Dafür erfassen wir mit unserem Monitoring regelmäßig aktuelle Informationen zu entsprechenden Technologien für Menschen mit Behinderungen im Arbeitsleben. Die Ergebnisse können Sie im Technologie-Monitor einsehen.

Zudem zeigen wir bei Informationsveranstaltungen, Schulungen und Beratungen, wie KI-Technologien Menschen mit Behinderungen bei der Arbeit unterstützen können. Dabei stoßen wir neben großem Interesse an und Begeisterung für die Möglichkeiten von KI-gestützter Assistenz auch auf Kritik an vorhandenen KI-Assistenz-Technologien. Dieses konstruktive Feedback ist wichtig für die Weiterentwicklung der Technologien. Besonders, wenn Menschen mit Behinderungen auf Herausforderungen und Verbesserungspotentiale hinweisen.

In diesem Beitrag geht es um die Kritik an digitalen Avataren bei der KI-gestützten Übersetzung von Gebärdensprache.

Kritik an digitalen Avataren bei der KI-gestützten Gebärdensprach-Übersetzung

Im Beitrag „Six difficulties we faced when thinking about a sign language avatar“ der DW Innovation äußern taube Nutzer*innen, dass aktuelle Avatare Gebärden ungenau, unnatürlich und emotionslos wiedergeben. Das führt zu Missverständnissen und verhindert echte Kommunikation.

Im Praxislabor „KI-Forschung und –Entwicklung für berufliche Teilhabe“ im Oktober 2025 sprachen wir mit zwei Fokusgruppen. Eine Fokusgruppe bestand aus Menschen mit Hörbehinderungen. Mit diesen sprachen wir über ihre beruflichen Barrieren, die vorhandenen KI-Assistenztechnologien sowie ihre Wünsche für und Anforderungen an KI-Assistenz. Ein zentrales Thema war die KI-gestützte Gebärdensprach-Übersetzung. Hierbei standen digitale Avatare im Fokus, die zur Ausgabe der Gebärdensprach-Übersetzung genutzt werden. Sie sind das sichtbare Ergebnis der KI-Modelle und stellen die Interaktionsfläche dar.

Im Austausch ist deutlich geworden, dass sich taube Menschen grundsätzlich eine KI-gestützte Lösung zur Übersetzung von Gebärdensprache wünschen oder zumindest vorstellen können. Unter anderem, weil Gebärdensprach-Dolmetschende kurzfristig und außerhalb der Regelarbeitszeit nicht verfügbar oder weit im Voraus ausgebucht sind. Dabei geht es nicht um das Ersetzen von Gebärdensprachdolmetschenden durch KI, sondern um die Nutzung von Avataren als Ergänzung.
Gleichzeitig wird von tauben Menschen die aktuelle Umsetzung kritisiert: Das Mundbild, die Mimik sowie die Grammatik und Ausführung von Gebärden müssen verbessert werden. Zudem muss eine KI-gestützte Gebärdensprach-Übersetzung beachten, dass sich Gebärdensprachen zwischen Regionen und Generationen unterscheiden.

Ein Blick auf die Seite der KI-Forschung und -Entwicklung zeigt, dass die KI-gestützte Gebärdensprach-Übersetzung in Deutschland mit wenigen Ausnahmen klar in Forschungsprojekten stattfindet. Das hat verschiedene Gründe:

1. Gebärdensprache ist eine visuelle, multimodale Sprache. Für die Erkennung von Lautsprache wird Sprache in erster Linie über ein Mikrofon erhoben und mit einem KI-Modell interpretiert. Für die KI-gestützte Erkennung und Übersetzung von Gebärdensprache ist es hingegen notwendig, Video-Daten von Gebärdensprach-Dolmetschenden zum Beispiel über Kamera-Systeme zu erheben und Handbewegungen, Gesichtsausdrücke, Kopfbewegungen und die Körpersprache gemeinsam zu interpretieren.

2. Es existiert eine Vielzahl von Gebärdensprach-Dialekten, bei denen die gleichen Gebärden eine unterschiedliche Bedeutung haben können. Entsprechend sind die technischen Anforderungen hoch. Vor allem an die Leistungsfähigkeit der KI-Modelle und an die Qualität der Trainingsdaten für die Modelle.

3. Derzeit gibt es einen Mangel an Trainingsdaten, also Videos mit Gebärdensprach-Dolmetschung. Grundsätzlich existieren weniger frei verfügbare Videos im Vergleich zu anderen Arten von Daten (z. B. Texte, um Modelle für die Text-Erkennung zu trainieren). Oft handelt es sich dabei um Gebärdensprach-Videos zu Nachrichten oder dem Wetter im öffentlich-rechtlichen Fernsehen. Entsprechend sind die Trainingsdaten wenig divers, sowohl in Bezug auf die Inhalte als auch auf verschiedene Gebärdensprach-Dialekte oder -Varianten. Diese geringere Datenmenge kann aufgrund von Datenschutz-Bestimmungen oft nicht oder nur mit erheblichem Aufwand (z. B. durch das Einholen von Einverständniserklärungen bei jedem Video) zum Training von KI-Modellen genutzt werden.

Die zukünftige Entwicklung der KI-gestützten Gebärdensprach-Übersetzung wird maßgeblich davon abhängen, ob das Problem der Datenknappheit gelöst werden kann. Ein Ansatz ist das Training der KI-Modelle, indem Gebärdensprach-Dolmetschende mit der Motion Capture-Technologie (kurz: MoCap; Verfahren zur digitalen Aufzeichnung von Bewegungen physischer Objekte oder Personen) ausgestattet werden. Dies ist mit Blick auf die notwendige Menge an Trainingsdaten allerdings sehr aufwendig und dadurch wenig skalierbar. Ein denkbarer, aber noch experimenteller Ansatz sind KI-generierte realistische Videos von Gebärdensprach-Dolmetschenden. Diese sollen anschließend für das Training von KI-Modellen zur Erkennung und Übersetzung von Gebärdensprache in Lautsprache genutzt werden können. Die gleichen KI-Modelle könnten zukünftig auch zum Einsatz kommen, um die digitalen Avatare realistischer zu gestalten. Wie auch bei anderen KI-gestützten Assistenztechnologien, die speziell für Menschen mit Behinderungen entwickelt werden, ist es an dieser Stelle jedoch besonders wichtig, Expert*innen in eigener Sache in eben diese Entwicklung einzubeziehen.