KI-Assistenz auf dem Prüfstand: KI-Spracherkennung und Live-Untertitel

Im Projekt KI-Kompass Inklusiv ist es unser Ziel, über die Potentiale von KI-Assistenz für Menschen mit Behinderungen im Arbeitsleben zu informieren. Dafür erfassen wir den aktuellen Stand der KI-Assistenz mit unserem Monitoring. Die Ergebnisse können Sie in unserem Technologie-Monitor einsehen.

Zudem zeigen wir bei Informationsveranstaltungen, Schulungen und Beratungen, wie KI-Technologien Menschen mit Behinderungen bei der Arbeit unterstützen können. Dabei stoßen wir neben großem Interesse an und Begeisterung für die Möglichkeiten von KI-gestützter Assistenz auch auf Kritik an vorhandenen KI-Assistenz-Technologien. Dieses konstruktive Feedback ist wichtig für die Weiterentwicklung von KI-Assistenz. Besonders wenn Menschen mit Behinderungen auf Herausforderungen und Verbesserungspotentiale hinweisen.

In diesem Beitrag behandeln wir die Kritik an KI-Spracherkennung und Live-Untertiteln.

Kritik an KI-Spracherkennung und automatische Untertitel

Das National Deaf Center erhält viele Rückmeldungen von gehörlosen Studierenden, dass automatische Untertitel (Automatic Speech Recognition, kurz: ASR) zu viele Fehler enthalten und dadurch Frustration, Mehraufwand und Lernnachteile entstehen.
(Hier geht es zum Beitrag des National Deaf Center).

Außerdem berichten Betroffene, dass KI-Spracherkennung Menschen mit Akzent oder anderer Stimmlage diskriminiert, weil diese schlechter erkannt werden.
(Hier geht es zum Beitrag der Caption Pros).

Im Praxislabor „KI-Forschung und –Entwicklung für berufliche Teilhabe“ im Oktober 2025 besprachen wir in einer Fokusgruppe mit Menschen mit Hörbehinderungen ihre beruflichen Barrieren, die vorhandenen KI-Assistenztechnologien sowie ihre Wünsche für und Anforderungen an KI-Assistenz.

Dabei konnten wir feststellen, dass die Live-Untertitelung für gehörlose Menschen und Menschen mit Schwerhörigkeit wichtige Hilfen sind, um Gesprochenem zu folgen oder Informationen aus Quellen wie Videos aufzunehmen. Gleichzeitig ist auch deutlich geworden, dass KI-Spracherkennung vor allem in folgenden Fällen nicht zuverlässig funktioniert:

Bei atypischer Aussprache zum Beispiel aufgrund einer Behinderung
Bei Akzenten und Dialekten
Bei Fachbegriffen und Eigennamen.

Für Fachbegriffe und Eigennamen wurde der Wunsch geäußert, eine KI-Spracherkennung für den eigenen beruflichen Kontext anpassen zu können.

In der zweiten Fokusgruppe haben wir KI-Forschenden die Ergebnisse aus der ersten Fokusgruppe vorgestellt und davon ausgehend Forschungs- und Entwicklungsbedarfe zur Verbesserung der Spracherkennung und Live-Transkription diskutiert. Eine Herausforderung stellen zu wenig Trainingsdaten für Dialekte und Akzente sowie atypische (Aus-)Sprache dar, die zum Training der KI-Modelle zur Spracherkennung genutzt werden können. Große Spracherkennungs-Modelle wie Whisper von OpenAI können dies zwar immer besser, aber noch nicht zuverlässig erkennen und in Live-Untertiteln wiedergeben. Zur besseren Erkennung von Fachbegriffen und Eigennamen können vorhandene Spracherkennungs-Modelle auf “Domänen”, also zum Beispiel Branchen oder einzelne Unternehmen, angepasst werden. Beim sogenannten “Fine-Tuning” werden vorhandene Spracherkennungs-Modelle mit domänen-spezifischen Daten trainiert.

Künftig kann die Spracherkennung durch zwei Entwicklungsrichtungen weiter verbessert werden:

(1) Aktuell wird an multimodalen KI-Modellen geforscht. Das sind Modelle, die mehr als eine Art von Daten gleichzeitig verarbeiten und diese kombiniert interpretieren können. Am Beispiel der Live-Untertitelung kann das zukünftig bedeuten, dass neben der Verarbeitung von Sprache zusätzlich Bilderkennung zum Lippen lesen zum Einsatz kommen könnte, um eine korrektere Erkennung des gesprochenen Wortes und bessere Live-Untertitelung zu ermöglichen.

(2) Außerdem wird aktuell erforscht, in welcher Weise Spracherkennungs-Modelle mit großen Sprachmodellen (=Large Language Models, kurz LLM) kombiniert werden können. Diese Modelle können das richtige Wort aus dem Kontext, also zum Beispiel aus dem gesamten Satz oder mehreren Sätzen, schließen. Offen ist hier jedoch, wie sich dies zum Beispiel auf die Echtzeit-Fähigkeit der Systeme auswirkt.

Abschließend ist wichtig zu betonen, dass Verständlichkeit eine zentrale Voraussetzung für gelingende Kommunikation ist – sowohl für KI-Spracherkennungssysteme als auch für uns Menschen. Atypische Aussprache, Dialekte oder Akzente stellen für technische Systeme ebenso wie für menschliche Gesprächspartner Herausforderungen in Bezug auf das richtige Verständnis des Gesprochenen dar. Auch bei Fachbegriffen und Eigennamen benötigen wir Vorwissen, um diese verstehen oder einordnen zu können.

Ob Live-Transkription oder nicht: eine gute, barrierefreie Kommunikation ist in jedem Fall wichtig. Dazu gehören unter anderem langsames und deutliches Sprechen und das Vermeiden oder Erklären von Fachbegriffen. Das ist vor allem für Menschen mit Hörbehinderungen besonders wichtig, da sowohl sie selbst als auch KI-Spracherkennung als eines ihrer wichtigen Hilfsmittel für die Kommunikation auf verständliche Sprache angewiesen sind.