475 lượt đọc

Cách thêm chú thích chi tiết (CC) vào luồng trực tiếp Amazon IVS

từ tác giả Amazon Interactive Video Service (IVS) 4m2023/05/23

dài quá đọc không nổi

Không thể đánh giá thấp tầm quan trọng của phụ đề chi tiết cho video. Phụ đề rất quan trọng khi không có âm thanh hoặc nghe không rõ ràng. Chúng tôi không gần có hệ thống AI mô tả thông tin theo ngữ cảnh như thế này cho chúng tôi. Thay vào đó, chúng tôi bị giới hạn trong việc thêm phụ đề thuần túy "chuyển giọng nói thành văn bản" vào luồng trực tiếp của mình.

featured image - Cách thêm chú thích chi tiết (CC) vào luồng trực tiếp Amazon IVS

Có hai loại người trên thế giới này: những người xem các chương trình truyền hình có phụ đề và những người kỳ quặc.

Bỏ qua mọi trò đùa, tầm quan trọng của phụ đề chi tiết cho video không thể bị đánh giá thấp. Ngoài vai trò quan trọng đối với người khiếm thính và nghe kém, phụ đề cũng rất quan trọng khi không có âm thanh hoặc nghe không rõ ràng. Có thể bạn đang xem video ở nơi công cộng và âm thanh bị át bởi tiếng ồn xung quanh. Hoặc có thể người nói trong video đang sử dụng micrô có chất lượng không tốt nhất hoặc nói bằng giọng hoặc phương ngữ không quen thuộc với người xem. Chú thích luôn luôn là một điều tốt. Rất tiếc, việc tạo phụ đề cho âm thanh trong luồng trực tiếp rất phức tạp.

Trước khi chúng ta đi sâu vào vấn đề tạo phụ đề cho luồng trực tiếp, hãy nói một chút về ngữ nghĩa. Bạn có biết rằng có sự khác biệt giữa thuật ngữ phụ đề chi tiết và phụ đề không ? thông số kỹ thuật HTML mô tả phụ đề như:

phiên âm hoặc bản dịch của đoạn hội thoại, phù hợp khi có âm thanh nhưng không hiểu (ví dụ: do người dùng không hiểu ngôn ngữ của bản âm thanh của tài nguyên phương tiện). Phủ lên trên video.

Thông số kỹ thuật mô tả chú thích là:

Phiên âm hoặc bản dịch của đoạn hội thoại, hiệu ứng âm thanh, tín hiệu âm nhạc có liên quan và thông tin âm thanh có liên quan khác, phù hợp khi không có âm thanh hoặc nghe không rõ (ví dụ: do bị tắt tiếng, bị át bởi tiếng ồn xung quanh hoặc do người dùng bị điếc ). Phủ lên video; được dán nhãn là thích hợp cho người khiếm thính.

Điều này có nghĩa là khi nói về "phụ đề chi tiết" cho video trực tiếp, chúng ta thường đề cập đến phụ đề vì phụ đề thường bao gồm thông tin mô tả. Hãy nghĩ về một cảnh trong một chương trình truyền hình khi một diễn viên lên xe rời khỏi nhà và nói lời tạm biệt với người bạn đời của họ. Chú thích cho cảnh này có thể là "Tạm biệt, em yêu. [khởi động động cơ ô tô]."

Chúng tôi gần như không có hệ thống AI mô tả thông tin theo ngữ cảnh như thế này cho chúng tôi, vì vậy chúng tôi bị giới hạn trong việc thêm phụ đề "chuyển lời nói thành văn bản" thuần túy vào luồng trực tiếp của mình; chúng ta có thể làm điều đó bằng cách sử dụng phương pháp dưới đây.

Lưu ý: Bạn sẽ nhận thấy rằng tiêu đề và nội dung của bài đăng trên blog này sử dụng thuật ngữ 'chú thích' hoặc 'chú thích chi tiết' mặc dù những gì chúng ta thực sự đang nói đến ở đây là phụ đề dựa trên các định nghĩa ở trên. Thật không may, vì thuật ngữ 'phụ đề chi tiết' thường bị sử dụng sai nên việc sử dụng thuật ngữ này không đúng cách sẽ hợp lý nhất để giúp các nhà phát triển tìm thấy bài đăng trên blog này và tìm hiểu cách thêm tính năng này vào luồng trực tiếp của họ. Chỉ cần biết rằng những gì chúng ta đang thực sự nói ở đây là phụ đề!

Thêm chú thích vào các luồng trực tiếp của Amazon IVS

Giải pháp mà chúng tôi xem xét trong bài đăng này tập trung vào việc phát tới luồng trực tiếp Amazon Interactive Video Service (Amazon IVS) từ Phòng thu OBS . OBS không cung cấp hỗ trợ gốc cho phụ đề, nhưng có một số plugin có thể thực hiện chuyển đổi lời nói thành văn bản cần thiết và xuất bản phụ đề lên luồng RTMP trong Định dạng CEA-708/EIA-608 được Amazon IVS hỗ trợ .

Đối với bản trình diễn này, tôi đã chọn sử dụng OBS-captions-plugin của ratwithacompiler ( GitHub Và trang plugin ). Để bắt đầu với plugin này, tải xuống Và cài đặt nó . Khi bạn đã cài đặt nó trong OBS, hãy chọn Docks và đảm bảo rằng dock Phụ đề được bật.

Tiếp theo, chọn biểu tượng 'bánh răng' trong thanh Phụ đề để sửa đổi cài đặt.

Đảm bảo rằng Nguồn chú thích được chọn và sửa đổi cấu hình plugin cho phù hợp với nhu cầu của bạn. Ví dụ: Thời gian chờ phụ đề mặc định đối với tôi được đặt thành 15.0 giây, nhưng tôi thấy 5.0 giây là giá trị tốt hơn.

Khi bạn đã lưu cấu hình của mình và bắt đầu một luồng trực tiếp mới, plugin sẽ xử lý chuyển đổi lời nói của bạn thành văn bản và tạo thông tin phụ đề cần thiết cho luồng trực tiếp.

Để phát lại dữ liệu phụ đề bằng trình phát Amazon IVS, chúng ta có thể thêm trình xử lý sự kiện để nghe sự kiện TextCue ( tài liệu ).

 ivsPlayer.addEventListener(IVSPlayer.PlayerEventType.TEXT_CUE, (evt) => { console.log(evt); }

Trình xử lý như đã định cấu hình ở trên ghi nhật ký tất cả các sự kiện TextCue đến vào bảng điều khiển.

Thuộc tính text của sự kiện TextCue chứa dữ liệu phụ đề.

Với một số HTML và CSS, chúng tôi có thể hiển thị dữ liệu phụ đề dưới dạng lớp phủ trên phần tử <video> . Việc triển khai này phụ thuộc nhiều vào nhu cầu của bạn, nhưng bạn nên tính đến việc tự động ẩn lớp phủ sau một khoảng thời gian không có dữ liệu phụ đề đã chỉ định.

Bản tóm tắt

Trong bài đăng này, chúng tôi đã xem xét cách sử dụng plugin OBS để chuyển lời nói thành văn bản và xuất bản văn bản đó dưới dạng dữ liệu phụ đề trên luồng trực tiếp Amazon IVS.