tác giả:
(1) Prerak Gandhi, Khoa Khoa học và Kỹ thuật Máy tính, Viện Công nghệ Ấn Độ Bombay, Mumbai, [email protected], và các tác giả này đã đóng góp như nhau cho công việc này;
(2) Vishal Pramanik, Khoa Khoa học và Kỹ thuật Máy tính, Viện Công nghệ Ấn Độ Bombay, Mumbai, vishalpramanik,[email protected], và các tác giả này đã đóng góp như nhau cho công việc này;
(3) Pushpak Bhattacharyya, Khoa Khoa học và Kỹ thuật Máy tính, Viện Công nghệ Ấn Độ Bombay, Mumbai.
Để tạo cốt truyện phim, chúng tôi đã lấy cốt truyện từ Wikipedia. Lời nhắc cho tác vụ này được lấy từ IMDb. Trong IMDb, lời nhắc này có thể có hai loại. Phần đầu tiên là mô tả ngắn (15–40 từ) về bộ phim, trong khi phần thứ hai là một cốt truyện dài, dao động từ 30–200 từ và chứa nhiều chi tiết hơn về các nhân vật và sự kiện khác nhau của bộ phim. Chúng tôi cũng đã thu thập thể loại của từng bộ phim từ IMDb. Sau đó chúng tôi chia các ô bằng cấu trúc 4 màn. Để tạo cảnh, chúng tôi lấy tập lệnh từ IMSDb và chú thích chúng bằng các thành phần chính của cảnh.
Chúng tôi đã tạo một tập dữ liệu gồm 1000 ô bao gồm cả các ô Bollywood và Hollywood, được trích xuất từ Wikipedia bằng mô-đun wikipedia trong python. Các ô được thu thập trung bình dài khoảng 700 từ.
Chúng tôi chú thích các sơ đồ bằng cách chia thủ công thành 4 phần theo cấu trúc 4 màn được mô tả trong phụ lục A.5. Chúng tôi đặt một thẻ duy nhất ở cuối mỗi màn: 〈một〉 (Màn 1), 〈hai-a〉 (Màn 2 Phần A), 〈hai-b〉 (Màn 2 Phần B) và 〈ba〉 (Màn 3 ) làm dấu phân cách. Một ví dụ về chú thích đồ thị được đưa ra trong phần phụ lục (Hình 6).
Để mang lại một số khả năng kiểm soát cho các cốt truyện do mô hình tạo ra, chúng tôi đã giới thiệu các thể loại phim trong tập dữ liệu cùng với cốt truyện. Chúng tôi nối các thể loại ở đầu cốt truyện. Hình 2 cho thấy sự phân bố của các thể loại trong tập dữ liệu.
Kịch bản phim rất dài. Một bộ phim dài 2 giờ tương ứng với khoảng 30.000 từ. Các mô hình ngôn ngữ được sử dụng để tạo văn bản sáng tạo, như GPT-2 và GPT-3, có giới hạn mã thông báo lần lượt là 1024 và 2048, khiến không thể xử lý toàn bộ tập lệnh trong một lần. Do đó, chúng tôi chia kịch bản thành các cảnh và tạo các mô tả ngắn cho chúng theo cách thủ công. Điều này cho phép huấn luyện các cảnh một cách độc lập thay vì dựa vào bất kỳ cảnh nào trước đó.
Kịch bản phim bao gồm nhiều yếu tố được mô tả trong phụ lục A.4. Các yếu tố khác nhau làm tăng độ khó mà mô hình gặp phải khi học cách phân biệt từng yếu tố. Để vượt qua trở ngại này, chúng tôi gắn thẻ bốn yếu tố chính xuyên suốt kịch bản — lời thoại, lời thoại hành động, lời thoại và tên nhân vật.
Chúng tôi giữ lại bốn yếu tố chính có trong mọi tập lệnh — dòng diễn biến, dòng hành động, tên nhân vật và hội thoại — đồng thời xóa mọi loại thông tin khác như số trang, phần chuyển tiếp hoặc ngày của cảnh. Việc gắn thẻ cho bốn thành phần chính được thực hiện bằng cách sử dụng các thẻ bắt đầu và kết thúc được bao quanh các thành phần, như minh họa bên dưới:
• Dòng Slugline: 〈bsl〉...〈esl〉
• Đường hành động: 〈bal〉...〈eal〉
• Tên nhân vật: 〈bcn〉...〈ecn〉
• Đối thoại:〈bd〉...〈ed〉
Một ví dụ về cảnh được chú thích được thấy trong Hình 3.
Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0 DEED.