tác giả:  (1) Pinelopi Papalampidi, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh;  (2) Frank Keller, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh;  (3) Mirella Lapata, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh.  Bảng liên kết   Tóm tắt và giới thiệu   Công việc có liên quan   Xây dựng vấn đề   Thiết lập thử nghiệm   Kết quả và phân tích   Kết luận và tài liệu tham khảo   A. Chi tiết mẫu   B. Chi tiết thực hiện   C. Kết quả: Nghiên cứu cắt bỏ  B. Chi tiết thực hiện    Công việc trước đây [41] đánh giá hiệu suất của các mô hình nhận dạng TP theo ba số liệu: Thỏa thuận tổng thể (TA), tức là tỷ lệ phần trăm cảnh TP được xác định chính xác, Thỏa thuận một phần (PA), tức là tỷ lệ TP các sự kiện trong đó ít nhất một cảnh tiêu chuẩn vàng được xác định và Khoảng cách (D), tức là khoảng cách tối thiểu về số lượng cảnh giữa nhóm cảnh được dự đoán và tiêu chuẩn vàng cho một TP nhất định, được chuẩn hóa theo độ dài kịch bản. Chúng tôi báo cáo kết quả bằng số liệu thỏa thuận một phần. Chúng tôi không thể sử dụng sự đồng ý hoàn toàn nữa vì chúng tôi đánh giá dựa trên nhãn tiêu chuẩn bạc (chứ không phải vàng) cho các cảnh quay (chứ không phải cảnh) và do đó coi tất cả các cảnh quay trong một cảnh đều quan trọng như nhau. Chúng tôi cũng không sử dụng thước đo khoảng cách vì nó mang lại kết quả rất giống nhau và không giúp phân biệt giữa các biến thể mô hình. Số liệu đánh giá    Tiếp theo công việc trước đó [42], chúng tôi chiếu tất cả các loại tính năng (ví dụ: văn bản, hình ảnh và âm thanh) vào cùng một chiều thấp hơn là 128. Chúng tôi nhận thấy rằng các chiều lớn hơn làm tăng đáng kể số lượng tham số và mang lại kết quả kém hơn có thể do kích thước tập dữ liệu nhỏ. Siêu tham số  Chúng tôi bối cảnh hóa các cảnh (liên quan đến kịch bản) và cảnh quay (liên quan đến video) bằng cách sử dụng bộ mã hóa biến áp. Chúng tôi đã thử nghiệm với 2, 3, 4, 5 và 6 lớp trong bộ mã hóa và thu được kết quả tốt nhất với 3 lớp. Đối với kích thước chuyển tiếp nguồn cấp dữ liệu (FF), chúng tôi đã thử nghiệm với cả kích thước tiêu chuẩn là 2.048 và kích thước nhỏ hơn là 1.024 và nhận thấy kích thước trước đây hoạt động tốt hơn. Chúng tôi sử dụng một bộ mã hóa biến áp khác để tính toán cách trình bày cảnh từ một chuỗi các cách trình bày câu đầu vào. Bộ mã hóa này có 4 lớp và 1.024 chiều FF. Cả hai bộ mã hóa đều sử dụng 8 đầu chú ý và 0,3 đầu ra.  Trong quá trình phân tán biểu đồ (tức là lựa chọn các hàng xóm top-k), chúng tôi xem xét các tùy chọn vùng lân cận khác nhau cho các mạng dựa trên cảnh và cảnh quay do độ chi tiết và kích thước khác nhau của chúng. Theo [42], chúng tôi xem xét [1–6] lân cận cho mạng cảnh và chúng tôi tăng kích thước lân cận lên [6–12] cho mạng bắn.   Bài viết này   theo giấy phép CC BY-SA 4.0 DEED. có sẵn trên arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

Nghe bài viết này bằng Tiếng Anh, đọc bởi robot thông minh của HackerNoon

Tạo đoạn giới thiệu phim thông qua phân tách nhiệm vụ: Chi tiết triển khai

About Author

BÌNH LUẬN

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI

Related Stories

61 Stories To Learn About Polotical Philosophy

85 Stories To Learn About Travel

72 Stories To Learn About Adam Smith

72 Stories To Learn About The Essays Of Adam Smith

61 Stories To Learn About Polotical Philosophy

85 Stories To Learn About Travel

72 Stories To Learn About Adam Smith

72 Stories To Learn About The Essays Of Adam Smith

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps