paint-brush
"Kurosawa": Trợ lý biên kịch: Bộ dữ liệutừ tác giả@teleplay

"Kurosawa": Trợ lý biên kịch: Bộ dữ liệu

từ tác giả Teleplay Technology 3m2024/05/23
Read on Terminal Reader

dài quá đọc không nổi

Trong bài viết này, các nhà nghiên cứu giới thiệu KUROSAWA, một bàn làm việc viết kịch bản AI để tạo cốt truyện và kịch bản, giải quyết vấn đề tự động hóa trong phương tiện giải trí.
featured image - "Kurosawa": Trợ lý biên kịch: Bộ dữ liệu
Teleplay Technology  HackerNoon profile picture
0-item


tác giả:

(1) Prerak Gandhi, Khoa Khoa học và Kỹ thuật Máy tính, Viện Công nghệ Ấn Độ Bombay, Mumbai, [email protected], và các tác giả này đã đóng góp như nhau cho công việc này;

(2) Vishal Pramanik, Khoa Khoa học và Kỹ thuật Máy tính, Viện Công nghệ Ấn Độ Bombay, Mumbai, vishalpramanik,[email protected], và các tác giả này đã đóng góp như nhau cho công việc này;

(3) Pushpak Bhattacharyya, Khoa Khoa học và Kỹ thuật Máy tính, Viện Công nghệ Ấn Độ Bombay, Mumbai.

Bảng liên kết

4. Bộ dữ liệu

Để tạo cốt truyện phim, chúng tôi đã lấy cốt truyện từ Wikipedia. Lời nhắc cho tác vụ này được lấy từ IMDb. Trong IMDb, lời nhắc này có thể có hai loại. Phần đầu tiên là mô tả ngắn (15–40 từ) về bộ phim, trong khi phần thứ hai là một cốt truyện dài, dao động từ 30–200 từ và chứa nhiều chi tiết hơn về các nhân vật và sự kiện khác nhau của bộ phim. Chúng tôi cũng đã thu thập thể loại của từng bộ phim từ IMDb. Sau đó chúng tôi chia các ô bằng cấu trúc 4 màn. Để tạo cảnh, chúng tôi lấy tập lệnh từ IMSDb và chú thích chúng bằng các thành phần chính của cảnh.

4.1. Tập dữ liệu tạo lô

Chúng tôi đã tạo một tập dữ liệu gồm 1000 ô bao gồm cả các ô Bollywood và Hollywood, được trích xuất từ Wikipedia bằng mô-đun wikipedia trong python. Các ô được thu thập trung bình dài khoảng 700 từ.

4.1.1. Nguyên tắc chú thích

Chúng tôi chú thích các sơ đồ bằng cách chia thủ công thành 4 phần theo cấu trúc 4 màn được mô tả trong phụ lục A.5. Chúng tôi đặt một thẻ duy nhất ở cuối mỗi màn: 〈một〉 (Màn 1), 〈hai-a〉 (Màn 2 Phần A), 〈hai-b〉 (Màn 2 Phần B) và 〈ba〉 (Màn 3 ) làm dấu phân cách. Một ví dụ về chú thích đồ thị được đưa ra trong phần phụ lục (Hình 6).


Hình 2: Phân bổ thể loại trong tập dữ liệu cốt truyện

4.1.2. Thể loại phim

Để mang lại một số khả năng kiểm soát cho các cốt truyện do mô hình tạo ra, chúng tôi đã giới thiệu các thể loại phim trong tập dữ liệu cùng với cốt truyện. Chúng tôi nối các thể loại ở đầu cốt truyện. Hình 2 cho thấy sự phân bố của các thể loại trong tập dữ liệu.

4.2. Bộ dữ liệu tạo cảnh

Kịch bản phim rất dài. Một bộ phim dài 2 giờ tương ứng với khoảng 30.000 từ. Các mô hình ngôn ngữ được sử dụng để tạo văn bản sáng tạo, như GPT-2 và GPT-3, có giới hạn mã thông báo lần lượt là 1024 và 2048, khiến không thể xử lý toàn bộ tập lệnh trong một lần. Do đó, chúng tôi chia kịch bản thành các cảnh và tạo các mô tả ngắn cho chúng theo cách thủ công. Điều này cho phép huấn luyện các cảnh một cách độc lập thay vì dựa vào bất kỳ cảnh nào trước đó.


Kịch bản phim bao gồm nhiều yếu tố được mô tả trong phụ lục A.4. Các yếu tố khác nhau làm tăng độ khó mà mô hình gặp phải khi học cách phân biệt từng yếu tố. Để vượt qua trở ngại này, chúng tôi gắn thẻ bốn yếu tố chính xuyên suốt kịch bản — lời thoại, lời thoại hành động, lời thoại và tên nhân vật.

4.2.1. Nguyên tắc chú thích

Chúng tôi giữ lại bốn yếu tố chính có trong mọi tập lệnh — dòng diễn biến, dòng hành động, tên nhân vật và hội thoại — đồng thời xóa mọi loại thông tin khác như số trang, phần chuyển tiếp hoặc ngày của cảnh. Việc gắn thẻ cho bốn thành phần chính được thực hiện bằng cách sử dụng các thẻ bắt đầu và kết thúc được bao quanh các thành phần, như minh họa bên dưới:


• Dòng Slugline: 〈bsl〉...〈esl〉


• Đường hành động: 〈bal〉...〈eal〉


• Tên nhân vật: 〈bcn〉...〈ecn〉


• Đối thoại:〈bd〉...〈ed〉


Hình 3: Hình ảnh mô tả một phần của cảnh phim với bốn yếu tố chính được chú thích.


Một ví dụ về cảnh được chú thích được thấy trong Hình 3.


Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0 DEED.