Có hai loại người trên thế giới này: những người xem các chương trình truyền hình có phụ đề và những người kỳ quặc.
Bỏ qua mọi trò đùa, tầm quan trọng của phụ đề chi tiết cho video không thể bị đánh giá thấp. Ngoài vai trò quan trọng đối với người khiếm thính và nghe kém, phụ đề cũng rất quan trọng khi không có âm thanh hoặc nghe không rõ ràng. Có thể bạn đang xem video ở nơi công cộng và âm thanh bị át bởi tiếng ồn xung quanh. Hoặc có thể người nói trong video đang sử dụng micrô có chất lượng không tốt nhất hoặc nói bằng giọng hoặc phương ngữ không quen thuộc với người xem. Chú thích luôn luôn là một điều tốt. Rất tiếc, việc tạo phụ đề cho âm thanh trong luồng trực tiếp rất phức tạp.
Trước khi chúng ta đi sâu vào vấn đề tạo phụ đề cho luồng trực tiếp, hãy nói một chút về ngữ nghĩa. Bạn có biết rằng có sự khác biệt giữa thuật ngữ phụ đề chi tiết và phụ đề không ?
phiên âm hoặc bản dịch của đoạn hội thoại, phù hợp khi có âm thanh nhưng không hiểu (ví dụ: do người dùng không hiểu ngôn ngữ của bản âm thanh của tài nguyên phương tiện). Phủ lên trên video.
Thông số kỹ thuật mô tả chú thích là:
Phiên âm hoặc bản dịch của đoạn hội thoại, hiệu ứng âm thanh, tín hiệu âm nhạc có liên quan và thông tin âm thanh có liên quan khác, phù hợp khi không có âm thanh hoặc nghe không rõ (ví dụ: do bị tắt tiếng, bị át bởi tiếng ồn xung quanh hoặc do người dùng bị điếc ). Phủ lên video; được dán nhãn là thích hợp cho người khiếm thính.
Điều này có nghĩa là khi nói về "phụ đề chi tiết" cho video trực tiếp, chúng ta thường đề cập đến phụ đề vì phụ đề thường bao gồm thông tin mô tả. Hãy nghĩ về một cảnh trong một chương trình truyền hình khi một diễn viên lên xe rời khỏi nhà và nói lời tạm biệt với người bạn đời của họ. Chú thích cho cảnh này có thể là "Tạm biệt, em yêu. [khởi động động cơ ô tô]."
Chúng tôi gần như không có hệ thống AI mô tả thông tin theo ngữ cảnh như thế này cho chúng tôi, vì vậy chúng tôi bị giới hạn trong việc thêm phụ đề "chuyển lời nói thành văn bản" thuần túy vào luồng trực tiếp của mình; chúng ta có thể làm điều đó bằng cách sử dụng phương pháp dưới đây.
Lưu ý: Bạn sẽ nhận thấy rằng tiêu đề và nội dung của bài đăng trên blog này sử dụng thuật ngữ 'chú thích' hoặc 'chú thích chi tiết' mặc dù những gì chúng ta thực sự đang nói đến ở đây là phụ đề dựa trên các định nghĩa ở trên. Thật không may, vì thuật ngữ 'phụ đề chi tiết' thường bị sử dụng sai nên việc sử dụng thuật ngữ này không đúng cách sẽ hợp lý nhất để giúp các nhà phát triển tìm thấy bài đăng trên blog này và tìm hiểu cách thêm tính năng này vào luồng trực tiếp của họ. Chỉ cần biết rằng những gì chúng ta đang thực sự nói ở đây là phụ đề!
Giải pháp mà chúng tôi xem xét trong bài đăng này tập trung vào việc phát tới luồng trực tiếp Amazon Interactive Video Service (Amazon IVS) từ
Đối với bản trình diễn này, tôi đã chọn sử dụng OBS-captions-plugin
của ratwithacompiler (
Tiếp theo, chọn biểu tượng 'bánh răng' trong thanh Phụ đề để sửa đổi cài đặt.
Đảm bảo rằng Nguồn chú thích được chọn và sửa đổi cấu hình plugin cho phù hợp với nhu cầu của bạn. Ví dụ: Thời gian chờ phụ đề mặc định đối với tôi được đặt thành 15.0
giây, nhưng tôi thấy 5.0
giây là giá trị tốt hơn.
Khi bạn đã lưu cấu hình của mình và bắt đầu một luồng trực tiếp mới, plugin sẽ xử lý chuyển đổi lời nói của bạn thành văn bản và tạo thông tin phụ đề cần thiết cho luồng trực tiếp.
Để phát lại dữ liệu phụ đề bằng trình phát Amazon IVS, chúng ta có thể thêm trình xử lý sự kiện để nghe sự kiện TextCue
(
ivsPlayer.addEventListener(IVSPlayer.PlayerEventType.TEXT_CUE, (evt) => { console.log(evt); }
Trình xử lý như đã định cấu hình ở trên ghi nhật ký tất cả các sự kiện TextCue
đến vào bảng điều khiển.
Thuộc tính text
của sự kiện TextCue
chứa dữ liệu phụ đề.
Với một số HTML và CSS, chúng tôi có thể hiển thị dữ liệu phụ đề dưới dạng lớp phủ trên phần tử <video>
. Việc triển khai này phụ thuộc nhiều vào nhu cầu của bạn, nhưng bạn nên tính đến việc tự động ẩn lớp phủ sau một khoảng thời gian không có dữ liệu phụ đề đã chỉ định.
Trong bài đăng này, chúng tôi đã xem xét cách sử dụng plugin OBS để chuyển lời nói thành văn bản và xuất bản văn bản đó dưới dạng dữ liệu phụ đề trên luồng trực tiếp Amazon IVS.