Es gibt zwei Arten von Menschen auf dieser Welt: diejenigen, die Fernsehsendungen mit Untertiteln ansehen, und diejenigen, die seltsam sind.
Spaß beiseite: Die Bedeutung von Untertiteln für Videos kann nicht unterschätzt werden. Untertitel sind nicht nur wichtig für Gehörlose und Schwerhörige, sondern auch dann, wenn der Ton nicht verfügbar oder nicht deutlich hörbar ist. Vielleicht schauen Sie sich an einem öffentlichen Ort ein Video an und der Ton wird von Umgebungsgeräuschen übertönt. Oder vielleicht verwendet die Person, die im Video spricht, ein Mikrofon, das nicht die beste Qualität hat, oder sie spricht mit einem Akzent oder Dialekt, der dem Betrachter unbekannt ist. Bildunterschriften sind immer eine gute Sache. Leider ist es schwierig, Audio in einem Livestream mit Untertiteln zu versehen.
Bevor wir uns mit dem Problem der Untertitelung von Live-Streams befassen, wollen wir uns ein wenig mit der Semantik befassen. Wussten Sie, dass es einen Unterschied zwischen den Begriffen „Untertitel“ und „Untertitel“ gibt?
Transkription oder Übersetzung des Dialogs, geeignet für den Fall, dass der Ton verfügbar ist, aber nicht verstanden wird (z. B. weil der Benutzer die Sprache der Audiospur der Medienressource nicht versteht). Auf das Video eingeblendet.
Die Spezifikation beschreibt Untertitel als:
Transkription oder Übersetzung des Dialogs, der Soundeffekte, relevanter musikalischer Hinweise und anderer relevanter Audioinformationen, geeignet für den Fall, dass der Ton nicht verfügbar oder nicht klar hörbar ist (z. B. weil er gedämpft ist, von Umgebungsgeräuschen übertönt wird oder weil der Benutzer taub ist). ). Dem Video überlagert; als für Hörgeschädigte geeignet gekennzeichnet.
Das heißt, wenn wir von „Untertiteln“ für Live-Videos sprechen, beziehen wir uns normalerweise auf Untertitel , da Untertitel normalerweise beschreibende Informationen enthalten. Denken Sie an eine Szene in einer Fernsehsendung, in der ein Schauspieler ins Auto steigt, um das Haus zu verlassen, und sich von seinem Ehepartner verabschiedet. Die Überschrift für diese Szene könnte lauten: „Auf Wiedersehen, Schatz. [Automotor startet].“
Wir sind nicht annähernd in der Lage, dass KI-Systeme solche Kontextinformationen für uns beschreiben, daher beschränken wir uns darauf, reine „Speech-to-Text“-Untertitel zu unserem Live-Stream hinzuzufügen; Wir können das mit der folgenden Methode tun.
Hinweis: Sie werden feststellen, dass im Titel und Text dieses Blogbeitrags die Begriffe „Untertitel“ oder „Untertitel“ verwendet werden, obwohl es sich hier eigentlich um Untertitel handelt, die auf den oben genannten Definitionen basieren. Da der Begriff „Untertitel“ leider so häufig missbraucht wird, ist es am sinnvollsten, diesen Begriff falsch zu verwenden, um Entwicklern das Auffinden dieses Blog-Beitrags zu erleichtern und zu erfahren, wie sie diese Funktion zu ihren Live-Streams hinzufügen können. Wissen Sie nur, dass es sich hier eigentlich um Untertitel handelt!
Die Lösung, die wir in diesem Beitrag betrachten, konzentriert sich auf die Übertragung an einen Livestream von Amazon Interactive Video Service (Amazon IVS).
Für diese Demo habe ich mich für die Verwendung des OBS-captions-plugin
von ratwithacompiler entschieden (
Wählen Sie als Nächstes das Zahnradsymbol im Untertitel- Dock aus, um die Einstellungen zu ändern.
Stellen Sie sicher, dass eine Untertitelquelle ausgewählt ist, und ändern Sie die Plugin-Konfiguration entsprechend Ihren Anforderungen. Beispielsweise war das standardmäßige Untertitel-Timeout für mich auf 15.0
Sekunden eingestellt, ich fand jedoch, dass 5.0
Sekunden ein besserer Wert sind.
Sobald Sie Ihre Konfiguration gespeichert und einen neuen Livestream gestartet haben, übernimmt das Plugin die Konvertierung Ihrer Sprache in Text und erstellt die erforderlichen Untertitelinformationen für den Livestream.
Um die Untertiteldaten mit dem Amazon IVS-Player wiederzugeben, können wir einen Ereignis-Listener hinzufügen, der auf das TextCue
Ereignis wartet (
ivsPlayer.addEventListener(IVSPlayer.PlayerEventType.TEXT_CUE, (evt) => { console.log(evt); }
Der oben konfigurierte Handler protokolliert alle eingehenden TextCue
Ereignisse in der Konsole.
Die text
des TextCue
Ereignisses enthält die Beschriftungsdaten.
Mit etwas HTML und CSS können wir die Untertiteldaten als Overlay auf dem <video>
-Element rendern. Diese Implementierung hängt stark von Ihren Anforderungen ab. Sie sollten jedoch berücksichtigen, dass das Overlay nach einem bestimmten Zeitraum ohne Untertiteldaten automatisch ausgeblendet wird.
In diesem Beitrag haben wir untersucht, wie man mit einem OBS-Plugin Sprache in Text umwandelt und diesen Text als Untertiteldaten in einem Amazon IVS-Livestream veröffentlicht.