Wir sind gerade dabei, Tutorials aufzunehmen. Das heißt also Screen-Recording fürs Video und Sprachaufnahmen für Voiceover. Weil die Tutorials so gut sind, sollen sie auch in mehreren Sprachen zur Verfügung gestellt werden. Was ja schon mal ein paar Fragen aufwirft. Soll das Screen-Recording auch in mehreren Sprachen aufgenommen werden? Reichen da einfache Untertitel für die Sprache? Oder brauchen wir jedes Mal eine eigene Audio-Aufnahme in der jeweiligen Sprache?
Schlussendlich haben wir uns darauf geeinigt, dass das Screen-Recording nur einmal – nämlich in englisch – aufgenommen werden soll, dafür aber eine eigene n Audio-Aufnahme in der jeweiligen Landessprache gemacht wird. Spannend, denn außer deutsch und englisch können wir nichts. Schon gar nicht polnisch.
Aus irgendeinem Grund kam irgendjemand auf die Idee, das Voiceover doch mit Text-to-Speech zu probieren. Da gibt’s andauernd irgendwelche Werbungen in den sozialen Medien dafür und das soll gut sein. Das kommt also davon, wenn die Mitarbeiter nur in Facebook herumhängen anstatt zu Arbeiten. Doch irgendwie gefiel uns die Idee und wir sagten Ok, dann probieren wir das mal aus.
Was gibt’s denn da so?
Die eigentliche Erwartung war, dass wir uns das mal kurz anschauen und dann feststellen, dass es klingt wie die Sprachausgabe von meinem Navi. Abgehakt und künstlich. Doch nach der ersten Recherche waren wir schlauer. Es gibt gratis-Tools und es gibt Tools, die kosten etwas. Alle haben eines gemeinsam: Sie können in verschiedenen Sprachen und mit mehr oder weniger unterschiedlichen Stimmen den Text ausgeben. Und das nicht mal so schlecht. Also nix mit Navi-Stimme.
Technologisch hat sich da nämlich in den letzten Jahren viel getan. Vom einfachen Vorlesen von einzelnen Wörtern – was Text-to-Speech ja eigentlich ist – sind wir inzwischen schon lange weg. Heute sind wir beim Natural Language Processing mit künstlicher Intelligenz. Was heißt, dass die Wörter, je nach Position im Satz und Satzzeichen, anders betont werden. Damit der vorgelesene Text natürlicher wirkt.
Zwei der zahllosen Tools haben wir uns genauer angesehen. Amazon Polly und Lovo.
Amazon Polly
Dank Alexa kennt sich Amazon mit Sprachausgabe aus. Denn die kann das schon ganz gut. Ein Grund, warum wir Amazon Polly ausprobiert haben. Eigentlich soll der Cloud-Dienst die Sprachausgabe von Anwendungen ermöglichen. Doch die Aussage, dass sie Deep Learning und künstliche Intelligenz dazu nutzen, die ausgegebene Sprache natürlich erscheinen zu lassen, hat uns dann doch neugierig gemacht. Und du hast fünf Millionen Zeichen pro Monat kostenlos. Für die ersten zwölf Monate. Das reicht fürs erste.
Bei der Auswahl an Stimmen hast du welche, die einfaches Text-to-Speech machen können. Die sind zwar auch schon gut, klingen aber etwas künstlich. Also so wie dein Navi. Für Voiceover stehen so genannte „Neural Text-to-Speech“ Stimmen zu Verfügung. Die sollen natürlicher klingen.
Kurz gesagt: Amazon Polly ist das, was es ist. Ein Dienst, den du für die Sprachausgabe von Anwendungen verwenden kannst. Ein paar nette Spielereien wie unterschiedliche Betonung von einzelnen Wörtern, Flüstern und so weiter sind schon dabei. Für ein Voiceover ist das aber zu wenig.
Lovo
Das Unternehmen aus Kalifornien nutzt ebenfalls künstliche Intelligenz für die Ausgabe des eingegebenen Textes. Bei LOVO stehen 180 verschiedene Stimmen in 33 Sprachen zur Verfügung. Natürlich gibt’s da bei den zur Verfügung stehenden Sprachen eine unterschiedliche Anzahl an Stimmen. Bei amerikanischem Englisch stehen dir 60 Sprecher zur Verfügung, auf Deutsch aber nur sechs.
Technisch funktioniert das ganze so, dass du deine Texte unlimitiert oft konvertieren kannst, bei der Auswahl der Stimmen und der Anzahl der monatlichen Downloads gibt’s aber je nach Paket Unterschiede. Beim kostenlosen Package kannst du nur die Standard-Stimmen nutzen und drei Downloads pro Monat machen. Außerdem ist es nur für den privaten Gebrauch. Wenn du mehr willst, brauchst du ein kostenpflichtiges Package. Das gibt’s von Starter bis Freelancer. Je größer das Package, desto mehr Downloads hast du pro Monat. Und ab „Personal“ kannst du auch die Premium-Stimmen nehmen.
Wir haben es getestet. Mit dem Free-Account. Das Ergebnis ist auf jeden Fall besser wie bei Amazon Polly. Doch auch hier gibt’s ein paar Einschränkungen. Du kannst zwar auch hier ein paar Dinge wie die Geschwindigkeit verändern, trotzdem klingt es manchmal zu künstlich.
Fazit
Ist Text-to-Speech für Voiceover geeignet? Kommt drauf an. Für E-Learnings, Audiobooks oder Audioguides sicher. Aber für Tutorials oder Werbungen eher weniger. Dafür können sie noch zu wenig. Denn statt einer sonoren, ständig gleichen Stimme brauchst du hier professionelle Sprecher. Denn die können Wörtern durch eine andere Betonung eine neue Bedeutung geben. Das kann Text-to-Speech nicht. Aber die Zeit bleibt ja nicht stehen. Mal schauen, was sich hier in den nächsten Jahren tut.