zum Hauptinhalt springen
news image

KI-Assistenz auf dem Prüfstand: KI-Spracherkennung und Live-Untertitel

Wir berichten in unseren Beitragsreihe “KI-Assistenz auf dem Prüfstand” über Kritik an KI-Assistenz-Technologien von Menschen mit Behinderungen. Außerdem teilen wir als Projektteam unsere Einschätzung zur Kritik.

Im Projekt KI-Kompass Inklusiv ist es unser Ziel, über die Potentiale von KI-Assistenz für Menschen mit Behinderungen im Arbeitsleben zu informieren. Dafür erfassen wir den aktuellen Stand der KI-Assistenz mit unserem Monitoring. Die Ergebnisse können Sie in unserem Technologie-Monitor einsehen. 

Zudem zeigen wir bei Informationsveranstaltungen, Schulungen und Beratungen, wie KI-Technologien Menschen mit Behinderungen bei der Arbeit unterstützen können. Dabei stoßen wir neben großem Interesse an und Begeisterung für die Möglichkeiten von KI-gestützter Assistenz auch auf Kritik an vorhandenen KI-Assistenz-Technologien. Dieses konstruktive Feedback ist wichtig für die Weiterentwicklung von KI-Assistenz. Besonders wenn Menschen mit Behinderungen auf Herausforderungen und Verbesserungspotentiale hinweisen.

In diesem Beitrag behandeln wir die Kritik an KI-Spracherkennung und Live-Untertiteln.

Kritik an KI-Spracherkennung und automatische Untertitel 

Das National Deaf Center erhält viele Rückmeldungen von gehörlosen Studierenden, dass automatische Untertitel (Automatic Speech Recognition, kurz: ASR) zu viele Fehler enthalten und dadurch Frustration, Mehraufwand und Lernnachteile entstehen. 
(Hier geht es zum Beitrag des National Deaf Center). 

Außerdem berichten Betroffene, dass KI-Spracherkennung Menschen mit Akzent oder anderer Stimmlage diskriminiert, weil diese schlechter erkannt werden. 
(Hier geht es zum Beitrag der Caption Pros).

 

Im Praxislabor „KI-Forschung und –Entwicklung für berufliche Teilhabe“ im Oktober 2025 besprachen wir in einer Fokusgruppe mit Menschen mit Hörbehinderungen ihre beruflichen Barrieren, die vorhandenen KI-Assistenztechnologien sowie ihre Wünsche für und Anforderungen an KI-Assistenz. 

Dabei konnten wir feststellen, dass die Live-Untertitelung für gehörlose Menschen und Menschen mit Schwerhörigkeit wichtige Hilfen sind, um Gesprochenem zu folgen oder Informationen aus Quellen wie Videos aufzunehmen. Gleichzeitig ist auch deutlich geworden, dass KI-Spracherkennung vor allem in folgenden Fällen nicht zuverlässig funktioniert:  

  • Bei atypischer Aussprache zum Beispiel aufgrund einer Behinderung
  • Bei Akzenten und Dialekten 
  • Bei Fachbegriffen und Eigennamen.  

Für Fachbegriffe und Eigennamen wurde der Wunsch geäußert, eine KI-Spracherkennung für den eigenen beruflichen Kontext anpassen zu können. 

In der zweiten Fokusgruppe haben wir KI-Forschenden die Ergebnisse aus der ersten Fokusgruppe vorgestellt und davon ausgehend Forschungs- und Entwicklungsbedarfe zur Verbesserung der Spracherkennung und Live-Transkription diskutiert. Eine Herausforderung stellen zu wenig Trainingsdaten für Dialekte und Akzente sowie atypische (Aus-)Sprache dar, die zum Training der KI-Modelle zur Spracherkennung genutzt werden können. Große Spracherkennungs-Modelle wie Whisper von OpenAI können dies zwar immer besser, aber noch nicht zuverlässig erkennen und in Live-Untertiteln wiedergeben. Zur besseren Erkennung von Fachbegriffen und Eigennamen können vorhandene Spracherkennungs-Modelle auf “Domänen”, also zum Beispiel Branchen oder einzelne Unternehmen, angepasst werden. Beim sogenannten “Fine-Tuning” werden vorhandene Spracherkennungs-Modelle mit domänen-spezifischen Daten trainiert.  

Künftig kann die Spracherkennung durch zwei Entwicklungsrichtungen weiter verbessert werden: 

(1) Aktuell wird an multimodalen KI-Modellen geforscht. Das sind Modelle, die mehr als eine Art von Daten gleichzeitig verarbeiten und diese kombiniert interpretieren können. Am Beispiel der Live-Untertitelung kann das zukünftig bedeuten, dass neben der Verarbeitung von Sprache zusätzlich Bilderkennung zum Lippen lesen zum Einsatz kommen könnte, um eine korrektere Erkennung des gesprochenen Wortes und bessere Live-Untertitelung zu ermöglichen.  

(2) Außerdem wird aktuell erforscht, in welcher Weise Spracherkennungs-Modelle mit großen Sprachmodellen (=Large Language Models, kurz LLM) kombiniert werden können.  Diese Modelle können das richtige Wort aus dem Kontext, also zum Beispiel aus dem gesamten Satz oder mehreren Sätzen, schließen. Offen ist hier jedoch, wie sich dies zum Beispiel auf die Echtzeit-Fähigkeit der Systeme auswirkt. 

Abschließend ist wichtig zu erwähnen, dass es uns Menschen ebenfalls schwerfällt, andere Menschen zuverlässig zu verstehen, die eine atypische Aussprache, Dialekte oder Akzente haben. Auch bei Fachbegriffen und Eigennamen benötigen wir Vorwissen, um diese verstehen oder einordnen zu können.

Ob Live-Transkription oder nicht: eine gute, barrierefreie Kommunikation ist in jedem Fall wichtig. Dazu gehören unter anderem langsames und deutliches Sprechen und das Vermeiden oder Erklären von Fachbegriffen. Das ist vor allem für Menschen mit Hörbehinderungen besonders wichtig, da sowohl sie selbst als auch KI-Spracherkennung als eines ihrer wichtigen Hilfsmittel für die Kommunikation auf verständliche Sprache angewiesen sind.

button arrow

Zurück zur Übersichts-Seite