Autoren:  (1) Zhihang Ren, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: peter.zhren@berkeley.edu);  (2) Jefferson Ortega, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: jefferson_ortega@berkeley.edu);  (3) Yifan Wang, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: wyf020803@berkeley.edu);  (4) Zhimin Chen, University of California, Berkeley (E-Mail: zhimin@berkeley.edu);  (5) Yunhui Guo, University of Texas at Dallas (E-Mail: yunhui.guo@utdallas.edu);  (6) Stella X. Yu, University of California, Berkeley und University of Michigan, Ann Arbor (E-Mail: stellayu@umich.edu);  (7) David Whitney, University of California, Berkeley (E-Mail: dwhitney@berkeley.edu).  Linktabelle   Zusammenfassung und Einleitung   Verwandter Wok   VEATIC-Datensatz   Experimente   Diskussion   Abschluss   Mehr über Stimuli   Anmerkungsdetails   Ausreißerverarbeitung   Themenübereinstimmung für alle Videos   Vertrautheits- und Unterhaltungswertungen sowie Referenzen  2. Verwandte Arbeiten  In letzter Zeit sind mehrere Datensätze erschienen, die Einzelbilder mit Gesichts- und Kontextinformationen bereitstellen, wie CAER [33] und EMOTIC [32]. CAER [33] ist ein videobasierter Datensatz, der kategorische Beschriftungen für jedes Videobild enthält, und EMOTIC [32] ist ein bildbasierter Datensatz, der sowohl kategorische Ausdrucksbeschriftungen als auch kontinuierliche Valenz-Erregungs-Dominanz-Bewertungen enthält. Im Gegensatz zu diesen Datensätzen ist unser Datensatz videobasiert und enthält kontinuierliche Valenz- und Erregungsbewertungen. Ein detaillierter Vergleich unseres Datensatzes mit früheren Datensätzen ist in Tabelle 1 zu finden.  Basierend auf verschiedenen Emotionsdatensätzen haben Studien begonnen, sich auf die Frage zu konzentrieren, wie Emotionen automatisch abgeleitet werden können. Menschliche Emotionen können aus vielen Modalitäten abgeleitet werden, wie etwa Audio [70, 68, 65], visuell [40, 54, 55, 37] und Text [68, 22]. Insbesondere bei visuellen Eingaben gibt es drei Hauptaufgaben.   Die Aufgabe der Valenz-Erregungs-Abschätzung zielt darauf ab, die Valenz und Erregung jedes Bildes/Frames vorherzusagen [71, 69, 29, 30]. Die Aufgabe der Ausdruckserkennung konzentriert sich auf die Klassifizierung emotionaler Kategorien jedes Bildes/Frames [66, 57, 67]. Die Aufgabe der Aktionseinheitserkennung (AU) zielt darauf ab, Gesichtsmuskelaktionen aus den Gesichtern jedes Bildes/Frames zu erkennen [25, 56, 35, 64]. Derzeit verlassen sich die meisten vorgeschlagenen Methoden stark auf den Gesichtsbereich, um den emotionalen Zustand abzuleiten. Tatsächlich enthält der Gesichtsbereich umfangreiche Informationen über den emotionalen Zustand des Menschen. Kontextfaktoren liefern jedoch auch wichtige Informationen, die Menschen benötigen, um die emotionalen Zustände anderer richtig abzuleiten und wahrzunehmen [8, 9, 10]. Mehrere Studien [33, 32, 40] haben begonnen, Kontextinformationen als Quelle der Affektableitung einzubeziehen. In dieser Studie haben wir auch sowohl Gesichts- als auch Kontextinformationen übernommen, um die neue Aufgabe zu erfüllen, d. h. die Valenz und Erregung für jedes Video-Frame abzuleiten.  Um die Stimmung einer Person zu erschließen, müssen wir normalerweise mit zeitlichen Informationen von Audiosegmenten, Videobildern oder Wörtern umgehen. Viele Studien [68, 69, 29, 30] begannen, Long Short Term Memory (LSTM) [23], Gated Recurrent Unit (GRU) [11] oder Recurrent Neural Network (RNN) [24, 50] zu verwenden, um die zeitlichen Informationen zu verarbeiten. Mit dem Aufkommen des Visual Transformer (ViT) [14] hat sich die Aufmerksamkeit verlagert. Viele Videoverständnisaufgaben [19, 1, 36] haben ViT zum Verständnis zeitlicher Informationen verwendet und eine hochmoderne Leistung erzielt. Unsere Basismethode hat ViT auch als Werkzeug zur Verarbeitung der zeitlichen Informationen in Videoclips übernommen.  Dieses Dokument ist   . auf Arxiv unter der CC 4.0-Lizenz verfügbar

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

Dieses Audio ist in der Originalsprache der Geschichte produziert!

VEATIC: Videobasiertes Emotions- und Affekt-Tracking im Kontextdatensatz: Verwandte Arbeiten

About Author

KOMMENTARE

Hängeetiketten

DIESER ARTIKEL WURDE VORGESTELLT IN

Related Stories

HackerNoon Decoded 2024: Celebrating Our Management Community!

HackerNoon Decoded 2024: Wir feiern unsere Remote-Work-Community!

HackerNoon's DeFi Writing Contest with SORA Network: XSTUSD Use Cases

HackerNoon Decoded 2024: Celebrating Our Data Science Community!

HackerNoon Decoded 2024: Celebrating Our Management Community!

HackerNoon Decoded 2024: Wir feiern unsere Remote-Work-Community!

HackerNoon's DeFi Writing Contest with SORA Network: XSTUSD Use Cases

HackerNoon Decoded 2024: Celebrating Our Data Science Community!

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps