Ngăn xếp AI để tạo văn bản thành video

Ratikesh4m2024/01/17

Sử dụng các công cụ AI để tạo nội dung video không chỉ dễ dàng, nhanh chóng mà còn sáng tạo. Trong bài đăng này, chúng ta tìm hiểu cách có thể tạo quy trình chuyển văn bản thành video bằng cách sử dụng các công cụ trong lớp trừu tượng.

featured image - Ngăn xếp AI để tạo văn bản thành video

‘A banner image representing multiple server stack’ Image created by HackerNoon AI Image Generator

Trong thời gian gần đây với sự hình thành của các mô hình ngôn ngữ lớn, một điều mà chúng tôi đang tranh luận gay gắt là liệu nội dung do AI tạo ra như nghệ thuật AI, video AI, v.v. sẽ phá hủy khả năng sáng tạo của người sáng tạo nội dung hay có thể nâng cao chất lượng và hỗ trợ họ. Trong blog trước của tôi, tôi đã nói về cách các công cụ tạo mã AI có thể giúp tăng thêm giá trị cho chu trình phát triển phần mềm, trong bài đăng này tôi sẽ chủ yếu nêu bật cách sử dụng các công cụ AI để tạo nội dung video không chỉ trở nên dễ dàng, nhanh chóng mà còn sáng tạo .

Trước khi hiểu cách người ta có thể tận dụng các mô hình video và hình ảnh hiện tại để tạo ra nội dung sáng tạo và hấp dẫn, điều quan trọng là phải hiểu trạng thái hiện tại trông như thế nào, chúng ta có thể xếp lớp bối cảnh tạo video AI hiện tại như sau:

Các biên tập viên video hiện tại đang cố gắng tích hợp AI vào quy trình làm việc của họ như Adobe, Canva, v.v.
Các công cụ chỉnh sửa video thời đại mới dựa trên AI như Fliki.ai, unscreen.com, synthesia.ai, Hourone.ai, v.v.
Lớp trừu tượng dành riêng cho trường hợp sử dụng duy nhất trong quy trình tạo video, ví dụ: Midjourney giúp tạo hình ảnh chân thực cho video, RunwayML cung cấp nền tảng để chuyển đổi hình ảnh thành video hoặc hình ảnh sang hình ảnh, Did giúp thêm hoạt ảnh vào hình ảnh, v.v.
Lớp mô hình tạo thành nền tảng của toàn bộ cảnh quan, các nhóm phần mềm có thể tận dụng lớp này để tùy chỉnh cho các trường hợp sử dụng của họ.

Khi chúng ta di chuyển lên trên, độ linh hoạt của lớp để tùy chỉnh giảm trong khi tính dễ sử dụng tăng lên, trong bối cảnh của bài viết này, chúng ta sẽ đi sâu để hiểu cách chúng ta có thể sử dụng lớp Trừu tượng trong việc tạo video sáng tạo vì lớp này nằm ở giữa tính linh hoạt và dễ sử dụng và với tư cách là một nghệ sĩ, người ta cần những gì tốt nhất của cả hai thế giới.

Xây dựng quy trình chuyển văn bản thành video

Trước khi tìm hiểu cách tạo quy trình chuyển văn bản thành video bằng cách sử dụng các công cụ trong lớp trừu tượng, điều quan trọng là phải vạch ra các bước để tạo video và những công cụ nào có thể được sử dụng trong mỗi lớp.

Việc tạo văn bản thành video bằng AI bao gồm các bước sau:

1. Tạo cảnh từ tập lệnh bằng lời nhắc GPT

Bước đầu tiên tôi làm là yêu cầu GPT đưa ra kịch bản tiếng Hindi dưới dạng đối thoại giữa các nhân vật có liên quan trong mỗi cảnh.

Đầu vào

đầu ra

2. Tạo hình ảnh từ các cảnh

Đây là bước quan trọng và liên quan đến việc tạo hình ảnh cho cảnh được chia nhỏ từ kịch bản, tất cả đều tập trung vào việc chúng ta có thể thể hiện bản thân một cách sáng tạo như thế nào bằng cách sử dụng các hướng dẫn nhanh chóng của Midjourney , ví dụ bên dưới đề cập đến lời nhắc dành cho Midjourney để tạo một hình ảnh cho một cảnh.

Một phim hoạt hình về cảnh vị thánh Hindu già của Ấn Độ đang nhờ Chúa Cloud giúp đỡ; Chúa mây được nhân cách hóa và có khuôn mặt hạnh phúc, môi trường xung quanh đầy cây cối với mây đen và ánh sáng xung quanh

3. Thêm ảnh động vào ảnh

Trong trường hợp bạn cần thêm hoạt ảnh vào hình ảnh, bạn có thể sử dụng DiD hoặc RunwayML để thêm chuyển động nhân vật và hoạt cảnh cảnh.

4. Tạo giọng nói AI cho cảnh tường thuật

Ở bước này, bạn có thể tạo giọng nói AI cho bài tường thuật bằng cách sử dụng mười một phòng thí nghiệm, nói chung, đây là các mô hình tường thuật Chuyển văn bản thành giọng nói sử dụng phía sau, nghe có vẻ hơi robot nhưng giải quyết được mục đích tạo giọng nói, người ta có thể làm cho nó biểu cảm và chân thực hơn từ mười một phiên bản trả phí của phòng thí nghiệm, đối với câu chuyện này, tôi cần tường thuật bằng giọng nói tiếng Hin-ddi mà văn bản Ai4Bharat chuyển sang tường thuật bằng giọng nói thực hiện rất tốt.

5. Ghép các video clip và đồng bộ hóa giọng nói

Đây là bước cuối cùng và đơn giản nhất để thêm hình ảnh vào trình chỉnh sửa video và đồng bộ hóa giọng nói theo cảnh và dòng thời gian tường thuật. Các công cụ như Canva và Adobe Express thực hiện rất tốt công việc này.

Chi phí sản xuất video thô

Trên đây là phần phân tích đơn giản nhất về cách bạn có thể nhanh chóng tạo video từ văn bản bằng một số công cụ cơ bản, ví dụ của tôi, tôi đã tạo một video dài gần ~ 3 phút với 16 cảnh độc đáo, thú vị là hãy xem thời gian và số tiền tôi đã trả cho tạo video này:

Chi phí giữa hành trình ~ 0,05 USD/hình ảnh - 16*0,05 = 0,8 USD

RunwayML ~ 0,02 USD/hình ảnh - 16*0,02 = 0,32

Canva ~ Miễn phí vì không sử dụng các tạo phẩm cao cấp của họ

Tổng chi phí ~ $1 /video

So sánh nó với các trình chỉnh sửa video AI thế hệ mới như Fliki tính phí gần 28 USD/tháng cho 180 phút tạo, sẽ có giá ~ 0,5 USD cho thời lượng video được đề cập ở trên.

Cần phải gói dịch vụ

Mặc dù chi phí cuối cùng để tạo video trong trình chỉnh sửa video dựa trên AI có vẻ ít hơn so với tổng chi phí phát sinh khi sử dụng các công cụ như Midjourney, RunwayML, v.v., với chi phí tăng thêm, những công cụ này mang lại sự linh hoạt và sáng tạo cho người tạo nội dung video và có thể trợ giúp trong việc tạo ra một số video tuyệt vời có thể so sánh với một cảnh tuyệt vời của phim Hollywood, có vẻ như nếu những công cụ AI này có thể được kết hợp và tích hợp với quy trình làm việc của đại lý video hoặc nhà sản xuất video thì chúng có thể tạo ra giá trị tối đa trong sản xuất video, như Justine Moore, Đối tác @a16z trong chủ đề này cũng phản ánh điều tương tự.

L O A D I N G
. . . comments & more!

About Author

Ratikesh@ratikeshmisra

Techie and creator who loves developing hacks that scale, here to learn and contribute to the tech & startup community

Read my stories