이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.   저자:  (1) 정지완, 연세대학교 MIR Lab (   ); https://jiwanchung.github.io/  (2) 연세대학교 MIR Lab 유영재 (   ). https://jiwanchung.github.io/  링크 표   초록 및 소개   방법   실험   관련된 일   결론   제한 사항 및 참조   가. 실험 내용   B. 프롬프트 샘플  4. 관련 업무    영화는 명확한 서사 구조를 지닌 장편 영상의 대표적인 예입니다. Gorinskiet al. [7] 영화 장면의 최적 그래프 체인을 찾는 작업으로 짧은 버전의 시나리오를 생성합니다. TRIPOD[23]는 전환점 주석을 포함하는 시나리오 데이터세트입니다. 같은 작품에서는 영화 내러티브의 전환점을 식별하는 자동 모델을 제안합니다. Papalampidiet al. [24]는 나중에 TV 시리즈 CSI를 사용하여 자동 영화 요약에서 전환점의 유용성을 보여줍니다. Lee et al. [15]는 대화 기능 및 변환기 아키텍처를 통해 전환점 식별을 더욱 향상시킵니다. 영화 요약    비디오 질문 답변 작업은 개방형 QA[9]와 다중 선택 문제[28, 29]의 형태로 문헌에서 광범위하게 연구되었습니다. 이 작업을 해결하기 위해 RNN 기반 주의 네트워크[9, 30, 36, 38]부터 메모리 네트워크[12, 22, 27] 및 변환기[4, 6]에 이르기까지 여러 가지 접근 방식이 제안되었습니다. 최근 대규모 비디오 데이터 세트(VideoQA [31], VIOLET [5], MERLOT [33] 및 MERLOT-Reserve [34])에 대해 사전 훈련된 다중 모달 모델은 비디오 질문 답변에서도 유망한 성능을 보여줍니다. 긴 비디오 QA  그러나 장편 영상 QA는 그 중요성에도 불구하고 상대적으로 덜 주목을 받아왔습니다. MovieQA[27]는 일반적으로 2시간에 걸쳐 진행되는 전체 영화에 대한 QA를 공식화합니다. DramaQA [3]는 단일 TV 시리즈를 시각적 맥락으로 사용하고 해결사에게 1분에서 20분 길이의 비디오 클립을 이해하도록 작업합니다.

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

이 오디오는 이야기의 원래 언어로 제작되었습니다!

긴 영상 질문 답변을 위한 요약 후 검색 방법: 관련 연구

About Author

코멘트

태그 걸기

이 기사는 다음에서 발표되었습니다.

Related Stories

포럼에서 피드까지: 소셜 미디어 알고리즘이 디지털 상호작용을 형성하는 방식

AI의 힘을 발휘하세요. 최첨단 기술의 체계적 검토: 개요 및 소개

AI/ML 데이터레이크용 참조 아키텍처 구축을 위한 설계자 가이드

보이지 않는 레이어: 사용자 인터뷰가 대체할 수 없는 자산인 이유

포럼에서 피드까지: 소셜 미디어 알고리즘이 디지털 상호작용을 형성하는 방식

AI의 힘을 발휘하세요. 최첨단 기술의 체계적 검토: 개요 및 소개

AI/ML 데이터레이크용 참조 아키텍처 구축을 위한 설계자 가이드

보이지 않는 레이어: 사용자 인터뷰가 대체할 수 없는 자산인 이유

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps