tác giả:
(1) Prerak Gandhi, Khoa Khoa học và Kỹ thuật Máy tính, Viện Công nghệ Ấn Độ Bombay, Mumbai, [email protected], và các tác giả này đã đóng góp như nhau cho công việc này;
(2) Vishal Pramanik, Khoa Khoa học và Kỹ thuật Máy tính, Viện Công nghệ Ấn Độ Bombay, Mumbai, vishalpramanik,[email protected], và các tác giả này đã đóng góp như nhau cho công việc này;
(3) Pushpak Bhattacharyya, Khoa Khoa học và Kỹ thuật Máy tính, Viện Công nghệ Ấn Độ Bombay, Mumbai.
Chúng tôi trình bày những quan sát và đánh giá của chúng tôi. Bản chất nhiệm vụ của chúng tôi là đánh giá của con người được ưu tiên hơn đánh giá tự động (xét cho cùng thì nó là để tạo kịch bản phim tự động!). Phân tích định tính về các cốt truyện và cảnh do chúng tôi tạo ra dựa trên phản hồi từ 5 nhà viết kịch bản chuyên nghiệp của đối tác trong ngành của chúng tôi, nền tảng truyền thông nổi tiếng.
Bảng 1 hiển thị điểm đánh giá tự động cho nhiều mô hình tạo lô GPT-3.
Chúng tôi đã tiến hành đánh giá con người trên mô hình đầu vào ngắn có chú thích của Hollywood. Việc đánh giá được thực hiện bởi 5 nhóm, 3 người, mỗi nhóm
đã được giao 10 lô đất độc đáo. Xếp hạng được đưa ra cho 5 đặc điểm được trình bày trong Hình 5. Điểm trung bình cho sự lưu loát, sáng tạo, dễ mến, mạch lạc và phù hợp lần lượt là 3,98, 3,29, 2,97, 2,65 và 2,55 . Mức độ trôi chảy gần như 4 là một chỉ số về sức mạnh của GPT-3 với tư cách là một mô hình ngôn ngữ. Tính sáng tạo và khả năng được yêu thích ở mức đáng nể ở mức khoảng 3,0. Điểm BLEU thấp hỗ trợ điểm sáng tạo trung bình (Bảng 1). Hình 5 chỉ ra rằng sự mạch lạc và phù hợp vẫn còn nhiều điều cần cải thiện.
Giá trị MAUVE (Pillutla và cộng sự, 2021) đo lường khoảng cách giữa văn bản thần kinh và văn bản con người. Chúng tôi đã tính riêng điểm MAUVE cho 20 ô và 50 ô. Điểm trung bình có trọng số của điểm MAUVE cho hai thử nghiệm là 0,48 , khá tốt.
Các nhà viết kịch bản chuyên nghiệp từ đối tác trong ngành của chúng tôi đã đưa ra những nhận xét sau:
Âm mưu Hollywood không có chú thích
• Cách xây dựng sáng tạo và thú vị nhưng phần kết lại thiếu mạch lạc.
• Một số nhân vật được giới thiệu ở phần đầu sẽ không bao giờ được nhắc đến nữa.
• Đầu ra không phản ánh được những điểm chính hoặc chủ đề được đề cập trong đầu vào.
Lô Hollywood có chú thích
• Cốt truyện mạch lạc hơn nhiều và kết thúc hợp lý.
• Vẫn còn ảo giác (đặc điểm chung của tất cả các mô hình).
• Các đầu vào dài hơn làm cho các ô chú ý hơn đến các điểm chính.
Các lô Hollywood được chú thích với các thể loại được bao gồm
• Cùng với những điểm trên, hiện nay các cốt truyện được tạo ra đã nghiêng về thể loại hay thể loại phim mà người viết muốn tạo ra hơn.
• Việc bổ sung thể loại mang lại một số quyền kiểm soát đối với loại cốt truyện do mô hình tạo ra.
Cốt truyện Bollywood có chú thích
• Kết quả đầu ra cho thấy sự thiếu mạch lạc ở hai đoạn cuối và sự lặp lại của các ký tự giống nhau trong suốt cốt truyện.
• Diễn biến của cốt truyện không đủ nhanh, tức là cốt truyện không tiến triển nhiều.
• Nhiều đầu ra có chủ đề những năm 1990, trong đó các nhân vật bị tách ra và sau đó tìm thấy nhau. Điều này là do tập dữ liệu bị sai lệch với các ô ít hiện đại hơn.
Chúng tôi đã tinh chỉnh GPT-3 để tạo cảnh bằng tập dữ liệu của mình. Chúng tôi đã tạo ra 10 cảnh bằng cách sử dụng các mô hình được đề cập trong 5.1. Hình 7 trong phần phụ lục. hiển thị một ví dụ về một cảnh được tạo hoàn chỉnh.
Chúng tôi đã tiến hành đánh giá con người trên 10 cảnh do mô hình trên tạo ra. 5 người đã đánh giá các cảnh bằng Thang đo Likert. Bạn có thể xem xếp hạng cho năm đặc điểm trong Hình 5. Điểm trung bình cho sự trôi chảy, tính sáng tạo, tính dễ mến, tính mạch lạc và mức độ liên quan lần lượt là 4,48, 3,9, 3,48, 3,46 và 3,86 . Tất cả các giá trị đều nằm trên dấu trung tính và ngụ ý rằng cảnh được tạo gần với cảnh do con người viết ra.
Trong phần này, chúng tôi phân tích chất lượng của các cảnh do mô hình GPT-3 tạo ra. Phân tích này đã được thực hiện bởi các nhà viết kịch bản chuyên nghiệp của công ty truyền thông nói trên.
• Mô hình tạo ra một cảnh có cấu trúc tốt.
• Nó có thể tạo ra các nhân vật mới và tạo ra các đoạn hội thoại ngay cả khi chúng không quan trọng.
• Những điểm chính của đầu vào có thể được tìm thấy ở đầu ra.
• Có một số dòng bị lặp lại.
• Đầu ra không hoàn toàn mạch lạc.
Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0 DEED.