1,117 lượt đọc

P-HAR: Công nhận hành động của con người khiêu dâm

từ tác giả Civilized Software4m2023/04/17

dài quá đọc không nổi

Nhận dạng hành động của con người đã nổi lên như một lĩnh vực nghiên cứu tích cực trong cộng đồng học sâu. Mục tiêu chính liên quan đến việc xác định và phân loại hành động của con người trong video bằng cách sử dụng nhiều luồng đầu vào, chẳng hạn như dữ liệu video và âm thanh. Các mô hình hiệu quả nhất về hiệu suất bao gồm các kiến trúc dựa trên biến áp cho luồng RGB, PoseC3D cho luồng khung và ResNet101 cho luồng âm thanh.

featured image - P-HAR: Công nhận hành động của con người khiêu dâm

Một ứng dụng cụ thể của công nghệ này nằm trong lĩnh vực nội dung khiêu dâm, vốn đặt ra những thách thức kỹ thuật đặc biệt làm phức tạp quá trình nhận dạng hành động của con người. Các yếu tố như sự thay đổi ánh sáng, che khuất và sự khác biệt đáng kể về góc máy ảnh và kỹ thuật quay phim khiến việc nhận dạng hành động trở nên khó khăn.

Ngay cả khi hai hành động giống hệt nhau, các phối cảnh máy ảnh đa dạng có thể dẫn đến nhầm lẫn trong dự đoán mô hình. Để giải quyết những thách thức này trong lĩnh vực nội dung khiêu dâm, chúng tôi đã sử dụng các kỹ thuật học sâu học từ nhiều luồng đầu vào khác nhau, bao gồm dữ liệu RGB, Skeleton (Pose) và Âm thanh. Các mô hình hiệu quả nhất về hiệu suất và thời gian chạy bao gồm các kiến trúc dựa trên biến áp cho luồng RGB, PoseC3D cho luồng khung và ResNet101 cho luồng âm thanh.

Đầu ra của các mô hình này được kết hợp bằng cách sử dụng phản ứng tổng hợp muộn, trong đó ý nghĩa của mỗi mô hình trong sơ đồ tính điểm cuối cùng là khác nhau. Một chiến lược thay thế có thể liên quan đến việc huấn luyện một mô hình có hai luồng đầu vào đồng thời, chẳng hạn như RGB+bộ xương hoặc RGB+âm thanh, sau đó hợp nhất các kết quả của chúng. Tuy nhiên, cách tiếp cận này không phù hợp do các thuộc tính vốn có của dữ liệu.

Luồng đầu vào âm thanh chỉ hữu ích cho các tác vụ cụ thể, trong khi các tác vụ khác thiếu các đặc điểm âm thanh riêng biệt. Tương tự, mô hình dựa trên khung xương chỉ áp dụng được khi ước tính tư thế vượt qua ngưỡng tin cậy nhất định, điều này khó đạt được đối với một số hành động.

Bằng cách sử dụng kỹ thuật hợp nhất muộn, được trình bày chi tiết trong các phần tiếp theo, chúng tôi đạt được tỷ lệ chính xác ấn tượng là 90% cho hai dự đoán hàng đầu trong số 20 danh mục riêng biệt. Những loại này bao gồm một loạt các hành động và vị trí tình dục.

người mẫu

Luồng đầu vào RGB

Luồng đầu vào chính và đáng tin cậy nhất cho mô hình là các khung RGB. Hai kiến trúc mạnh mẽ nhất trong bối cảnh này là Mạng thần kinh chuyển đổi 3D (3D CNN) và các mô hình dựa trên sự chú ý. Các mô hình dựa trên sự chú ý, đặc biệt là những mô hình sử dụng kiến trúc máy biến áp, hiện được coi là công nghệ tiên tiến nhất trong lĩnh vực này. Do đó, chúng tôi sử dụng kiến trúc dựa trên máy biến áp để đạt được hiệu suất tối ưu. Ngoài ra, mô hình thể hiện khả năng suy luận nhanh, cần khoảng 0,53 giây để xử lý các video clip dài 7 giây.

Luồng đầu vào bộ xương

Ban đầu, bộ xương người được trích xuất bằng cách sử dụng mô hình ước tính tư thế 2D và phát hiện con người. Thông tin bộ xương được trích xuất sau đó được đưa vào PoseC3D, Mạng thần kinh chuyển đổi 3D (3D CNN) được thiết kế đặc biệt để nhận dạng hành động của con người dựa trên bộ xương. Mô hình này cũng được coi là hiện đại nhất trong lĩnh vực này. Ngoài hiệu suất của nó, mô hình PoseC3D thể hiện khả năng suy luận hiệu quả, cần khoảng 3 giây để xử lý các video clip dài 7 giây.

Do các viễn cảnh đầy thách thức gặp phải trong nhiều hành động (ví dụ: không thể trích xuất các tư thế đáng tin cậy sẽ giúp mô hình xác định hành động dùng ngón tay hầu hết thời gian), nhận dạng hành động của con người dựa trên bộ xương được sử dụng một cách có chọn lọc, đặc biệt cho một tập hợp con các hành động, trong đó bao gồm các vị trí quan hệ tình dục

Luồng đầu vào âm thanh

Đối với luồng đầu vào âm thanh, một kiến trúc dựa trên ResNet bắt nguồn từ mô hình SlowFast Nghe nhìn được sử dụng. Cách tiếp cận này được áp dụng cho một nhóm hành động nhỏ hơn so với phương pháp dựa trên bộ khung, chủ yếu là do thông tin hạn chế có sẵn từ góc độ âm thanh để xác định một cách đáng tin cậy các hành động trong miền cụ thể này.

tập dữ liệu

Bộ dữ liệu được lắp ráp rất phong phú và không đồng nhất, kết hợp nhiều loại ghi hình, bao gồm góc nhìn (POV), chuyên nghiệp, nghiệp dư, có hoặc không có người điều khiển máy ảnh chuyên dụng và các môi trường hậu cảnh, cá nhân và phối cảnh máy ảnh khác nhau. Bộ dữ liệu bao gồm khoảng 100 giờ dữ liệu đào tạo trải rộng trên 20 danh mục riêng biệt. Tuy nhiên, một số sự mất cân bằng danh mục đã được quan sát thấy trong tập dữ liệu. Những nỗ lực để giải quyết những sự mất cân bằng này đang được xem xét cho các lần lặp lại bộ dữ liệu trong tương lai.

Ngành kiến trúc

Hình minh họa ở trên cung cấp thông tin tổng quan về quy trình AI được sử dụng trong hệ thống của chúng tôi.

Ban đầu, một mô hình phát hiện NSFW nhẹ được sử dụng để xác định các phân đoạn không phải NSFW của video, cho phép chúng tôi bỏ qua phần còn lại của quy trình cho các phần đó. Cách tiếp cận này không chỉ tăng tốc thời gian suy luận video tổng thể mà còn giảm thiểu các kết quả dương tính giả. Việc chạy các mô hình nhận dạng hành động trên các cảnh quay không liên quan, chẳng hạn như một ngôi nhà hoặc ô tô, là không cần thiết vì chúng không được thiết kế để nhận dạng nội dung đó.

Theo bước sơ bộ này, chúng tôi triển khai mô hình nhận dạng hành động dựa trên RGB nhanh chóng. Tùy thuộc vào hai kết quả hàng đầu từ mô hình này, chúng tôi xác định nên thực hiện mô hình nhận dạng vị trí dựa trên RGB, mô hình nhận dạng hành động dựa trên âm thanh hay mô hình nhận dạng hành động dựa trên bộ xương. Nếu một trong hai dự đoán hàng đầu từ mô hình nhận dạng hành động RGB tương ứng với danh mục vị trí, thì chúng tôi sẽ tiến hành với mô hình nhận dạng vị trí RGB để xác định chính xác vị trí cụ thể.

Sau đó, chúng tôi sử dụng hộp giới hạn và các mô hình tư thế 2D để trích xuất bộ xương người, sau đó được nhập vào mô hình nhận dạng vị trí dựa trên bộ xương. Các kết quả từ mô hình nhận dạng vị trí RGB và mô hình nhận dạng vị trí bộ xương được tích hợp thông qua phản ứng tổng hợp muộn.

Nếu nhóm âm thanh được phát hiện trong hai nhãn trên cùng, thì mô hình nhận dạng hành động dựa trên âm thanh sẽ được thực thi. Kết quả của nó được kết hợp với kết quả của mô hình nhận dạng hành động RGB thông qua phản ứng tổng hợp muộn.

Cuối cùng, chúng tôi phân tích kết quả của các mô hình hành động và vị trí, tạo ra một hoặc hai dự đoán cuối cùng. Ví dụ về những dự đoán như vậy bao gồm các hành động đơn lẻ (ví dụ: Missi***ry), kết hợp vị trí và hành động (ví dụ: Cowgirl & Kissing hoặc Doggy & An*l) hoặc hành động kép (ví dụ: Cunn***ngus & Fing** *ng).