paint-brush
"Kurosawa": Trợ lý biên kịch: Phụ lụctừ tác giả@teleplay
111 lượt đọc

"Kurosawa": Trợ lý biên kịch: Phụ lục

từ tác giả Teleplay Technology 5m2024/05/23
Read on Terminal Reader

dài quá đọc không nổi

Trong bài viết này, các nhà nghiên cứu giới thiệu KUROSAWA, một bàn làm việc viết kịch bản AI để tạo cốt truyện và kịch bản, giải quyết vấn đề tự động hóa trong phương tiện giải trí.
featured image - "Kurosawa": Trợ lý biên kịch: Phụ lục
Teleplay Technology  HackerNoon profile picture
0-item

tác giả:

(1) Prerak Gandhi, Khoa Khoa học và Kỹ thuật Máy tính, Viện Công nghệ Ấn Độ Bombay, Mumbai, [email protected], và các tác giả này đã đóng góp như nhau cho công việc này;

(2) Vishal Pramanik, Khoa Khoa học và Kỹ thuật Máy tính, Viện Công nghệ Ấn Độ Bombay, Mumbai, vishalpramanik,[email protected], và các tác giả này đã đóng góp như nhau cho công việc này;

(3) Pushpak Bhattacharyya, Khoa Khoa học và Kỹ thuật Máy tính, Viện Công nghệ Ấn Độ Bombay, Mumbai.

Bảng liên kết

A. Phụ lục

A.1. Cân nhắc về đạo đức

Chúng tôi đã lấy tất cả các tập lệnh từ cơ sở dữ liệu IMDB và IMSDb. Trang web có tuyên bố từ chối trách nhiệm liên quan đến việc sử dụng các tập lệnh của nó để nghiên cứu, bạn có thể tìm thấy tuyên bố này tại liên kết này https://imsdb.com/disclaimer.html. Chúng tôi đã sử dụng kịch bản một cách công bằng và không vi phạm bản quyền.

A.2. Hồ sơ người chú thích

Chúng tôi cần sự trợ giúp của người chú thích bên ngoài trong hai trường hợp: (i) Chú thích Tập lệnh theo cách thủ công và (ii) Tạo cảnh và mô tả của chúng từ tập lệnh. Đối với nhiệm vụ đầu tiên, chúng tôi đã nhận được sự trợ giúp của 10 người chú thích. Độ tuổi của họ dao động từ 21-28 và tất cả đều là người châu Á. Họ đã được cung cấp những hướng dẫn chi tiết kèm theo các ví dụ để chú thích. Ngoài ra còn có các buổi định kỳ để khẳng định sự hiểu biết của họ và giải quyết những nghi ngờ, sai sót của họ. Đối với nhiệm vụ thứ hai, chúng tôi đã nhờ đến sự trợ giúp của hai người chú thích. Cả hai đều là phụ nữ châu Á trong độ tuổi từ 21-23. Cả hai đều được hướng dẫn chi tiết về nhiệm vụ viết cảnh. Một số điểm dữ liệu được chọn ngẫu nhiên và kiểm tra để tìm ra và sửa các lỗi về khái niệm. Những người chú thích có bằng cử nhân và thạc sĩ về STEM và Nghệ thuật.

A.3. Số liệu đánh giá

Các chỉ số đánh giá được mô tả dưới đây:


• Độ phức tạp (PPL): Độ phức tạp là một trong những thước đo phổ biến nhất để đánh giá các mô hình ngôn ngữ. Chúng được tính theo hàm mũ của entropy. Giá trị của PPL càng nhỏ thì văn bản được tạo ra càng trôi chảy.


• BLEU: Định giá ngôn ngữ ngôn ngữ đang được nghiên cứu là một thước đo phổ biến trong nhiều nhiệm vụ NLP, đặc biệt là trong lĩnh vực Dịch máy. Nó đo lường sự chồng chéo giữa đầu ra được tạo ra và dữ liệu tiêu chuẩn vàng. Mặc dù số liệu này không xem xét đến tính sáng tạo của mô hình nhưng chúng ta có thể suy ra sự khác biệt giữa văn bản ứng viên và văn bản tham chiếu bằng BLEU. Chỉ số BLEU càng cao thì càng tốt.


• ROUGE: Nghiên cứu định hướng thu hồi cho việc định giá Gisting E thường được sử dụng để đánh giá việc tóm tắt tự động. Trong trường hợp của chúng tôi, nó đo chuỗi chồng chéo dài nhất giữa các ô được tạo và các ô ban đầu. Chỉ số ROUGE càng cao thì càng tốt.


• N-gram: Chúng tôi đo lường mức độ dư thừa và đa dạng của các cốt truyện phim bằng cách tính toán điểm số n-gram lặp lại và phân biệt.

A.4. Cấu trúc kịch bản

Kịch bản phim hoặc kịch bản phim có hình thức khác với câu chuyện. Kịch bản là một nhóm cảnh. Mỗi cảnh này bao gồm một số thành phần chính được thảo luận dưới đây:


Tiêu đề cảnh/Sluglines- Thành phần này mô tả thời gian và vị trí của cảnh. Có thể coi đây là cảnh quay đầu tiên mà máy ảnh chụp một cảnh mới. Ví dụ: INT. - RESTAURANT - ĐÊM cho biết cảnh bắt đầu bên trong một nhà hàng vào ban đêm. Các dòng Slugline thường được viết bằng chữ in hoa và được căn trái.


Tên nhân vật - chúng được nhắc đến mỗi khi nhân vật chuẩn bị thốt ra một đoạn hội thoại. Tên của mỗi ký tự được viết hoa và căn giữa.


Lời thoại – lời thoại là những lời thoại mà các nhân vật nói. Chúng xuất hiện ngay sau tên nhân vật trong tập lệnh và được căn giữa.


Dòng hành động - dòng hành động mô tả hầu hết mọi thứ về một cảnh. Chúng có thể được mô tả như lời tường thuật của từng kịch bản. Các dòng hành động có thể xuất hiện sau các đoạn hội thoại hoặc dòng slug và được căn trái.


Chuyển tiếp - chuyển tiếp đánh dấu sự thay đổi từ cảnh này sang cảnh tiếp theo. Họ cũng mô tả cách một cảnh kết thúc. Ví dụ: DISSOLVE, FADE và CUT là các từ khóa khác nhau được sử dụng để biểu thị quá trình chuyển đổi. Chúng thường ở dạng chữ hoa và được căn phải.


Hình 8 cho thấy một ví dụ về các thành phần kịch bản.

A.5. Mẫu câu chuyện

Theo thời gian, nhiều mẫu khác nhau đã được phát triển để giúp tạo ra các câu chuyện. Một trong những mẫu nổi tiếng nhất là cấu trúc 3 màn (Field, 1979). Cấu trúc này chia câu chuyện thành bối cảnh, đối đầu và giải quyết. Trong tác phẩm này, chúng tôi đã sử dụng cấu trúc 4 hồi mà chúng tôi sẽ mô tả chi tiết.


Màn 1 - Đây là màn mở đầu/giới thiệu. Nó mô tả tính cách của nhân vật chính và giới thiệu ngắn gọn chủ đề của bộ phim. Hành động kết thúc với việc bắt đầu một hành trình mới của nhân vật chính.


Màn 2A - Do khoảng thời gian rộng lớn của Màn 2, nó có thể được chia thành hai màn. Hành động này thường chứa đựng sự khởi đầu của một câu chuyện tình yêu. Nó cũng khiến khán giả thích thú khi nhân vật chính cố gắng thích nghi với hành trình mới của họ. Cảnh này kết thúc ở điểm giữa của bộ phim, một trong những khoảnh khắc quan trọng của bộ phim, với một cảnh rất tích cực hoặc tiêu cực.


Màn 2B - Màn này thường chứa đựng sự suy sụp của nhân vật chính. Nhân vật phản diện hoặc nhân vật phản diện bắt đầu giành được lợi thế và nhân vật chính mất đi thứ gì đó hoặc ai đó quan trọng. Hành động kết thúc với việc nhân vật chính nhận ra nhiệm vụ mới của họ sau khi chạm tới đáy vực sâu.


Màn 3 – Nhân vật chính đã nhận ra sự thay đổi cần có ở mình và bắt đầu đánh bại nhân vật phản diện trong một trận chung kết gay cấn. Sau đó, bộ phim kết thúc bằng việc cho thấy một sự thay đổi đáng hoan nghênh ở nhân vật chính mà phần đầu còn thiếu.


Hình 6: Ví dụ về chú thích thủ công cốt truyện của phim Âm nhạc của trái tim bằng cấu trúc 4 màn

A.6. Tinh chỉnh GPT-3

GPT-3 đã được OpenAI coi là có sẵn công khai vào năm ngoái (Brown và cộng sự, 2020). Mô hình tốt nhất của nó có thông số 175B, nhiều hơn thông số 2.9B của GPT2. Chúng tôi đã tinh chỉnh nhiều mô hình tạo cốt truyện bằng GPT-3 cùng với mô hình tạo cảnh. Sự kết hợp đa dạng của các mô hình tạo cốt truyện là những gợi ý ngắn hoặc dài và có hoặc không có thể loại. Mô hình GPT-3 và siêu tham số vẫn giữ nguyên cho tất cả các kết hợp trên. Chúng tôi đã tinh chỉnh mô hình GPT-3 Curie cho bốn kỷ nguyên. Để tạo văn bản, GPT-3 cung cấp nhiều siêu tham số khác nhau để điều chỉnh và tiến gần hơn đến kết quả mong muốn của chúng tôi. Để thử nghiệm, chúng tôi đặt các siêu tham số khác như sau: nhiệt độ là 0,7, top-p là 1, hình phạt tần số là 0,1, hình phạt hiện diện là 0,1 và mã thông báo tối đa là 900.


Hình 7: Một ví dụ về một cảnh hoàn chỉnh được tạo ra với một đầu vào ngắn.


Hình 8: Các thành phần của một kịch bản


Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0 DEED.