tác giả:
(1) Prerak Gandhi, Khoa Khoa học và Kỹ thuật Máy tính, Viện Công nghệ Ấn Độ Bombay, Mumbai, [email protected], và các tác giả này đã đóng góp như nhau cho công việc này;
(2) Vishal Pramanik, Khoa Khoa học và Kỹ thuật Máy tính, Viện Công nghệ Ấn Độ Bombay, Mumbai, vishalpramanik,[email protected], và các tác giả này đã đóng góp như nhau cho công việc này;
(3) Pushpak Bhattacharyya, Khoa Khoa học và Kỹ thuật Máy tính, Viện Công nghệ Ấn Độ Bombay, Mumbai.
Kể chuyện là huyết mạch của ngành giải trí - phim ảnh, chương trình truyền hình và phim hài độc thoại, tất cả đều cần có câu chuyện. Một kịch bản hay và hấp dẫn là huyết mạch của cách kể chuyện và đòi hỏi sự sáng tạo cũng như đầu tư nguồn lực. Những người viết kịch bản giỏi rất hiếm tìm được và thường làm việc dưới áp lực thời gian rất nặng nề. Do đó, các phương tiện giải trí đang tích cực tìm kiếm sự tự động hóa. Trong bài viết này, chúng tôi trình bày một bàn làm việc viết kịch bản dựa trên AI có tên là KUROSAWA nhằm giải quyết các nhiệm vụ tạo cốt truyện và tạo kịch bản. Việc tạo cốt truyện nhằm mục đích tạo ra một cốt truyện mạch lạc và sáng tạo (600–800 từ) theo gợi ý (15–40 từ). Mặt khác, việc tạo kịch bản sẽ tạo ra một cảnh (200–500 từ) ở định dạng kịch bản từ một mô tả ngắn gọn (15–40 từ). Kurosawa cần dữ liệu để huấn luyện. Chúng tôi sử dụng cấu trúc kể chuyện gồm 4 màn để chú thích tập dữ liệu cốt truyện theo cách thủ công. Chúng tôi tạo một tập dữ liệu gồm 1000 cốt truyện được chú thích thủ công và lời nhắc/cốt truyện tương ứng của chúng cũng như tập dữ liệu tiêu chuẩn vàng gồm 1000 cảnh với bốn yếu tố chính — tiêu đề cảnh, lời thoại hành động, lời thoại và tên nhân vật — được gắn thẻ riêng lẻ. Chúng tôi tinh chỉnh GPT-3 với các bộ dữ liệu trên để tạo ra các cốt truyện và cảnh. Những cốt truyện và cảnh quay này lần đầu tiên được đánh giá và sau đó được các nhà viết kịch bản của nền tảng truyền thông lớn và nổi tiếng ErosNow[1] đánh giá và sử dụng. Chúng tôi phát hành các tập dữ liệu có chú thích và các mô hình được đào tạo trên các tập dữ liệu này làm tiêu chuẩn hoạt động cho việc tạo cốt truyện và kịch bản phim tự động.
Phim ảnh là một trong những nguồn giải trí phổ biến nhất cho mọi người trên toàn thế giới và có thể là phương tiện mạnh mẽ cho giáo dục và nhận thức xã hội. Tác động và tầm ảnh hưởng của ngành công nghiệp điện ảnh có thể được đánh giá từ việc các bộ phim Hollywood đầu tư *Những tác giả này đã đóng góp ngang nhau cho tác phẩm này 1 https://erosnow.com/ 100 triệu đô la và thường tạo ra bộ sưu tập phòng vé hàng tỷ đô la. Bộ phim điện ảnh đầu tiên Vụ cướp tàu vĩ đại, 1903— đen trắng không có âm thanh— được tạo ra vào đầu thế kỷ 20. Kể từ đó, nghệ thuật đã trải qua nhiều lần biến đổi và giờ đây mọi người có thể truy cập ngay vào các bộ phim 4K HD mà họ thích trên bất kỳ thiết bị thông minh nào.
Trong suốt lịch sử điện ảnh, hai trong số những yếu tố góp phần tạo nên thành công bom tấn của một bộ phim là chất lượng cốt truyện và cách kể chuyện. Sức hấp dẫn của phim giảm đi đáng kể nếu người xem thấy cốt truyện quá dễ đoán. Do đó, viết một kịch bản sáng tạo và thú vị là một điều cần thiết và vô cùng khó khăn. Thêm vào đó là những hạn chế về thời gian và ngân sách, đồng thời nhu cầu tự động hóa (ít nhất là một phần) trong quá trình viết kịch bản trở nên rõ ràng.
Việc tạo câu chuyện dựa trên AI đã được sử dụng trước đây. Dựa trên cách giải thích nhận thức phản ánh sự gắn kết của văn bản, mô hình máy tính MEXICA (Pérez và Sharples, 2001) tạo ra các khuôn khổ cho truyện ngắn. BRUTUS (Bringsjord và Ferrucci, 1999) tạo ra những truyện ngắn với những chủ đề định trước như sự phản bội. Với sự xuất hiện của các mô hình máy biến áp được đào tạo trước, việc tạo câu chuyện tự động đã có cơ hội phát triển. Các mẫu máy biến áp như GPT-2 và GPT-3 được sử dụng rộng rãi để tạo văn bản. Những mô hình này đã cho thấy khả năng tạo ra văn bản sáng tạo, mặc dù đôi khi có ảo giác (Zhao và cộng sự, 2020). Văn bản do các mô hình này tạo ra đôi khi cũng thiếu tính mạch lạc và gắn kết. Mặt khác, các mô hình dựa trên mẫu có thể tạo ra văn bản mạch lạc nhưng thiếu tính sáng tạo trong việc tạo ra các nhân vật và sự kiện mới trong cốt truyện (Kale và Rastogi, 2020).
Quá trình tạo phim thường bắt đầu bằng một ý tưởng, sau đó ý tưởng này được sử dụng để tạo ra cốt truyện làm cơ sở để xây dựng kịch bản phim (Hình 1).
Bộ dữ liệu mới là một tính năng quan trọng của bài viết này. Chúng tôi đã nghiên cứu kỹ lưỡng cốt truyện và nội dung của các bộ phim Bollywood và Hollywood. Những âm mưu và lời nhắc như vậy lần lượt được lấy từ Wikipedia[2] và IMDb[3]. Sau đó, các tình tiết sẽ được chú thích bằng cách sử dụng cấu trúc câu chuyện 4 màn - một phần mở rộng của cấu trúc 3 màn nổi tiếng (Field, 1979). Cấu trúc 4 màn và các phương pháp chú thích được giải thích chi tiết lần lượt ở phụ lục A.5 và phần 4.
Chúng tôi giới thiệu bộ dữ liệu gồm 1000 cảnh phim Hollywood và mô tả ngắn gọn về chúng. Các tập lệnh được lấy từ IMSDb[4]. Các cảnh quay được chú thích bằng 4 thành phần chính của một kịch bản: lời thoại, lời thoại hành động, tên nhân vật và lời thoại được mô tả chi tiết tại phụ lục A.4
Chúng tôi giới thiệu một bàn làm việc mà chúng tôi gọi là “Kurosawa”, bao gồm các bộ dữ liệu và một cặp mô hình GPT-3 (Brown và cộng sự, 2020) được tinh chỉnh với các bộ dữ liệu nói trên. Một mô hình GPT-3 tạo ra cốt truyện phim với mô tả ngắn gọn về cốt truyện (15– 40 từ), trong khi mô hình còn lại tạo cảnh dựa trên mô tả ngắn gọn về cảnh được yêu cầu.
Điều quan trọng là chúng tôi đã cung cấp nền tảng “Kurosawa” cho một trong những nền tảng truyền thông lớn nhất tham gia kinh doanh làm phim và chương trình truyền hình, sản xuất nhạc và nhạc phim, v.v.- để giúp người viết kịch bản và nội dung từ các ngành điện ảnh khác nhau tạo ra cốt truyện phim mới.
Đóng góp của chúng tôi trong công việc này như sau:
• Theo hiểu biết tốt nhất của chúng tôi, đây là công trình đầu tiên tạo ra các cảnh phim từ mô tả cảnh.
• Chúng tôi tạo và phát hành công khai hai tập dữ liệu: (a) tập dữ liệu song song gồm 1000 cốt truyện phim và cốt truyện tương ứng, (b) tập dữ liệu song song gồm 1000 cảnh phim và mô tả tương ứng của chúng. Trong (a), chúng tôi liên kết cốt truyện phim có sẵn từ IMDb với cốt truyện phim tương ứng có sẵn từ Wikipedia. Trong (b), chúng tôi liên kết các cảnh phim có sẵn từ IMSDb với các mô tả tương ứng từ IMDb.
• Chúng tôi chú thích các tình tiết phim theo cách thủ công theo cấu trúc 4 màn, là phần mở rộng của cấu trúc 3 màn nổi tiếng (Field, 1979). Các nhà viết kịch bản chuyên nghiệp từ ngành truyền thông và giải trí đã hướng dẫn chúng tôi rất chặt chẽ.
• Chúng tôi chú thích các cảnh phim theo cách thủ công với bốn thành phần chính của một cảnh: lời thoại, lời thoại hành động, tên nhân vật và lời thoại, cùng với một mô tả ngắn về cảnh đó.
• Chúng tôi giới thiệu “Kurosawa”: một bàn làm việc bao gồm nhiều bộ dữ liệu và mô hình có thể hỗ trợ người viết kịch bản và cảnh trong ngành điện ảnh.
Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0 DEED.
[1] https://erosnow.com/
[2] https://www.wikipedia.org/
[3] https://www.imdb.com/
[4] https://www.imsdb.com/