Jeder Artikel der SPIEGEL-Gruppe auch zum Hören

DEV SPIEGEL
4 min readNov 15, 2022

Text-to-Speech — Wie wir unsere Inhalte zugänglicher und alltagstauglicher machen

Kaum ein anderer Medienkanal ist in den vergangenen Jahren so gewachsen wie Audio. Gerade jüngere Nutzer:innen hören überdurchschnittlich viel, und gerade in Form von Podcasts hat Audio
in den vergangenen Jahren bemerkenswert zugelegt. Die scheinbar immer knapper werdende Ressource Zeit war dabei ein wesentlicher Treiber. Selbst wenn im Alltag die volle Aufmerksamkeit mal nicht auf dem Bildschirm liegen kann, etwa beim Sport oder auf dem Weg zur Arbeit, lassen sich Informationen trotzdem konsumieren.

Audio bietet aber auch Personen Zugang zu Nachrichten, die mit herkömmlichen Texten nichts anfangen können, weil sie entweder nicht oder eingeschränkt lesen können. Damit leisten Audioinhalte einen wichtigen Beitrag zum barrierefreien Konsum von Nachrichten.

Aus diesen Gründen hat die SPIEGEL-Gruppe ihr Audio-Angebot in den vergangenen Jahren kontinuierlich ausgebaut. Wir bieten viele Podcasts und vertonen die allermeisten Texte der gedruckten Ausgaben des SPIEGEL und des manager magazins durch echte Sprecher:innen.

Gerade in Zeiten harter Nachrichten ist es noch einmal wichtiger, die neuen technischen Audio-Möglichkeiten auszuschöpfen und den Zugang zu hintergründigem Journalismus zu erleichtern. Deshalb gehen wir nun einen Schritt weiter und vertonen zusätzlich zum bestehenden Angebot alle übrigen geschriebenen Inhalte per Text-to-Speech (TTS). Nicht nur kostenpflichtige, sondern auch freie Artikel werden jetzt als Audiodatei im jeweiligen Artikel auf den Seiten von www.SPIEGEL.de und www.manager-magazin.de zum Hören angeboten.

Workflow: Der Weg vom geschriebenen Artikel zum Audio

Der neue Prozess zur Vertonung ist vollautomatisiert. Von der Veröffentlichung des geschriebenen Artikels bis zur Einbindung des Audios im Artikel vergeht in der Regel weniger als eine Minute. Uns ging es bei dem Projekt um den schnellstmöglichen Zugang zu relevanten Inhalten. Dafür setzen wir auf Amazon Polly als Dienstleister und Omny zur Einbindung der TTS-Audios auf unseren Seiten.

Text-to-Speech-Workflow bei der SPIEGEL-Gruppe

Wird ein Artikel über unser Redaktionssystem veröffentlicht, startet der Workflow automatisch — solange er als Beitrag zum Lesen ausgezeichnet wurde, es also keine Bilderstrecke und kein Video ist, und solange er in deutscher Sprache verfasst wurde. Werden Artikel verändert, werden sie neu vertont, aber, um keine unnötigen Vertonungsressourcen zu blockieren, immer nur dann, wenn eine Änderung der geschriebenen Version auch für Leser:innen sichtbar ist. Eine Änderung der SEO-Überschrift etwa stößt keinen Vertonungsprozess an.

Beim Vertonen wird der Text per API zu Amazon Polly geleitet und dort verarbeitet. Dabei unterscheiden wir zwischen SPIEGEL- und manager-Inhalten: SPIEGEL-Inhalte vertonen wir mit einer männlichen, manager-Inhalte mit einer weiblichen, neuronalen Stimme.

Amazon Polly erstellt nach unseren Vorgaben eine Audiodatei, die an unseren Player-Partner Omny übergeben wird. Dabei wird ein spezielles TTS-Intro bzw. -Outro eingefügt. Über die mitgegebene Artikel-ID werden Audiodatei und Artikel in unserem Redaktionssystem automatisch verbunden und die Audiodatei umgehend im Artikel eingebunden.

Innerhalb kurzer Zeit wird so aus einem Text eine Audiodatei, in unserem Standard-Audioplayer mit allen bekannten Funktionen — von der Einstellung der Abspielgeschwindigkeit über die Playlist-Funktion bis hin zum Download.

Dienstleisterauswahl: Der Weg zum richtigen Vertonungspartner

Die Auswahl eines Vertonungspartners hat einen großen Teil des Projektes eingenommen.
Dabei wurden die drei aktuell größten Anbieter, Microsoft Speech, Amazon Polly und Google Wave, intensiv getestet und bewertet. Bewertungskriterien dabei waren:

  • die Aussprachequalität der zugrundeliegenden KI
  • die Qualität der Stimme
  • der Sprachbogen — also die Erfassung des Satzaufbaus und die sprachlich korrekte Umsetzung des Satzes beispielsweise durch die korrekte Erfassung von Satzzeichen

Bei der Aussprachequalität hat sich als besondere Herausforderung die Aussprache von Namen und Orten gezeigt. In unseren Tests gab es da starke Unterschiede zwischen den Anbietern, und dies war im Endeffekt das ausschlaggebende Kriterium für unsere Entscheidung.

Die Qualität der Stimme und der zugrundeliegende Satzbogen sollen ergänzend zu einer guten Aussprachequalität ein angenehmes Hörerlebnis ermöglichen. Jedoch ist die beste Stimme und der angenehmste Satzbogen unbrauchbar, wenn die Aussprachequalität nicht ausreichend ist. Hier setzte sich nach langen Recherchen und vielen Gesprächen Amazon Polly mit dem aktuell besten Gesamtpaket durch.

Qualitätssicherung: Feedbackworkflow und Lexika — Möglichkeit der Optimierung

Bei der Vertonung von ungefähr 120 Artikeln pro Tag mit rund 580.000 Zeichen und einem teilweise sehr speziellen Vokabular gehen wir davon aus, dass nicht alle Worte auf Anhieb korrekt ausgesprochen werden können. Aus diesem Grund wurde zur Qualitätssicherung ein Feedback-Workflow aufgebaut.

Am Ende jedes TTS-Audios bitten wir unsere Hörer:innen um Feedback. So können unsere Hörer:innen uns unterstützen, Fehler in Zukunft zu vermeiden. Anmerkungen werden zunächst bei unserem Kundenservice QS gefiltert und dann an das Audio-Team der Redaktion weitergegeben. Dieses prüft die Hinweise und nimmt notwendige Anpassungen vor — mit Hilfe eines Lautsprache-Lexikons, das direkt bei Amazon Polly hochgeladen werden kann. So stellen wir sicher, dass wir möglichst viele relevante Probleme schnell und flexibel lösen können.

In den kommenden Wochen werden wir genau verfolgen, wie unsere Nutzer:innen das neue Feature annehmen. Je nach Feedback wollen wir dann die Weiterentwicklung unseres TTS-Angebots lenken.

Dieser Artikel gelesen von der Stimme “Daniel”
Dieser Artikel gelesen von der Stimme “Vicki”

--

--

DEV SPIEGEL

DER SPIEGEL × Devblog. Wie wir unsere Produkte weiterentwickeln, was wir dabei lernen.