Text to Speech?

Text to Speech (kurz TTS) wandelt geschriebenen Text in gesprochene Worte um. Diese Technik findet Anwendung in verschiedensten Bereichen – Sei es als Vorlesetool für Barrierefreiheit oder als witziges Feature einer App. Die Grundidee ist einfach: Ein Computerprogramm liest Text vor, so dass man die Informationen hören kann, ohne sie selbst lesen zu müssen.

Einsatz in Lernmedien bietet sich an

Sei es ein Erklärvideo oder ein vertontes Web Based Training, gesprochenes Wort wertet oft auf und hilft dabei, im Lernkontext mehrere Sinne zu adressieren. Das Potenzial zum Einsatz in Lernmedien ist riesig. Auch könnte man sich Lerntexte vorlesen lassen, wenn es die Situation mal nicht zulässt, zum Lernen zu lesen (z. B. während des Autofahrens oder während man zu Fuß unterwegs ist).

ABER: monotone Roboterstimmen

TTS wird schon über längere Zeit eingesetzt, um vor dem Einsprechen durch Menschen schon Demo-Versionen von Lernmedien vorzubereiten und auch bei der Lokalisierung von gesprochenen Anteilen in Lernmedien hat sich Text to Speech schon als nützlich erwiesen. Lange Zeit war ein großes Hindernis für die breitere Akzeptanz von TTS die Qualität der Sprachausgabe. Frühe TTS-Systeme klangen monoton und unnatürlich, was sie für längere Texte oder anspruchsvolle Lerninhalte ungeeignet machte. Die Roboterartigkeit der Stimmen machte es schwierig, längere Zeit zuzuhören.

Aktuelle Entwicklungen – ein großer Sprung

Der Hype und die mannigfaltigen Entwicklungen im Bereich der generativen KI haben auch dem Thema Text to Speech in den letzten Monaten einen starken „Push“ gegeben. Die Sprachqualität ist deutlich besser, Tonalität und sogar Atmung sind sehr menschennah geworden (ChatGPT in der Handy-App klingt dabei machmal fast gruselig echt, finde ich). Neben der beeindruckend schnellen Verbesserungen der Qualität sinken parallel die Preise, so dass der Einsatz immer einfacher (fachlich, technisch und monetär) wird.

Ein konkretes Beispiel – elevenlabs.io

Nach jahrelanger Arbeit mit verschiedensten TTS-Services, habe ich mit elevenlabs.io einen Dienst gefunden, der mich in der Qualität und Steuerbarkeit von TTS stark beeindruckt hat.

Hier ein Beispiel:

externer Link: Elevenlabs

Zusammengefasst in einem Satz: Da TTS schnell besser und parallel kostengünstiger wird, ist jetzt der richtige Zeitpunkt, sich die Technologie mal wieder genauer anzusehen.