tác giả:
(1) Pinelopi Papalampidi, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh;
(2) Frank Keller, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh;
(3) Mirella Lapata, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh.
Số liệu đánh giá Công việc trước đây [41] đánh giá hiệu suất của các mô hình nhận dạng TP theo ba số liệu: Thỏa thuận tổng thể (TA), tức là tỷ lệ phần trăm cảnh TP được xác định chính xác, Thỏa thuận một phần (PA), tức là tỷ lệ TP các sự kiện trong đó ít nhất một cảnh tiêu chuẩn vàng được xác định và Khoảng cách (D), tức là khoảng cách tối thiểu về số lượng cảnh giữa nhóm cảnh được dự đoán và tiêu chuẩn vàng cho một TP nhất định, được chuẩn hóa theo độ dài kịch bản. Chúng tôi báo cáo kết quả bằng số liệu thỏa thuận một phần. Chúng tôi không thể sử dụng sự đồng ý hoàn toàn nữa vì chúng tôi đánh giá dựa trên nhãn tiêu chuẩn bạc (chứ không phải vàng) cho các cảnh quay (chứ không phải cảnh) và do đó coi tất cả các cảnh quay trong một cảnh đều quan trọng như nhau. Chúng tôi cũng không sử dụng thước đo khoảng cách vì nó mang lại kết quả rất giống nhau và không giúp phân biệt giữa các biến thể mô hình.
Siêu tham số Tiếp theo công việc trước đó [42], chúng tôi chiếu tất cả các loại tính năng (ví dụ: văn bản, hình ảnh và âm thanh) vào cùng một chiều thấp hơn là 128. Chúng tôi nhận thấy rằng các chiều lớn hơn làm tăng đáng kể số lượng tham số và mang lại kết quả kém hơn có thể do kích thước tập dữ liệu nhỏ.
Chúng tôi bối cảnh hóa các cảnh (liên quan đến kịch bản) và cảnh quay (liên quan đến video) bằng cách sử dụng bộ mã hóa biến áp. Chúng tôi đã thử nghiệm với 2, 3, 4, 5 và 6 lớp trong bộ mã hóa và thu được kết quả tốt nhất với 3 lớp. Đối với kích thước chuyển tiếp nguồn cấp dữ liệu (FF), chúng tôi đã thử nghiệm với cả kích thước tiêu chuẩn là 2.048 và kích thước nhỏ hơn là 1.024 và nhận thấy kích thước trước đây hoạt động tốt hơn. Chúng tôi sử dụng một bộ mã hóa biến áp khác để tính toán cách trình bày cảnh từ một chuỗi các cách trình bày câu đầu vào. Bộ mã hóa này có 4 lớp và 1.024 chiều FF. Cả hai bộ mã hóa đều sử dụng 8 đầu chú ý và 0,3 đầu ra.
Trong quá trình phân tán biểu đồ (tức là lựa chọn các hàng xóm top-k), chúng tôi xem xét các tùy chọn vùng lân cận khác nhau cho các mạng dựa trên cảnh và cảnh quay do độ chi tiết và kích thước khác nhau của chúng. Theo [42], chúng tôi xem xét [1–6] lân cận cho mạng cảnh và chúng tôi tăng kích thước lân cận lên [6–12] cho mạng bắn.
Bài viết này có sẵn trên arxiv theo giấy phép CC BY-SA 4.0 DEED.