Cet article est disponible sur arxiv sous licence CC 4.0.   Auteurs:  (1) Jiwan Chung, MIR Lab Yonsei University (   ) ; https://jiwanchung.github.io/  (2) Youngjae Yu, MIR Lab Yonsei University (   ). https://jiwanchung.github.io/  Tableau des liens   Résumé et introduction   Méthode   Expériences   Travaux connexes   Conclusion   Limites et références   A. Détails de l'expérience   B. Échantillons rapides  A. Détails de l'expérience    Long Story Short utilise GPT-3 (paramètres 175B) via l'API OpenAI comme épine dorsale. Une invite moyenne pour résumer un segment vidéo traite ∼ 3 000 jetons, tandis qu'une invite de contrôle qualité prend généralement ∼ 4 000 jetons. Pour CLIPCheck, nous extrayons les fonctionnalités CLIP et calculons la similarité cosinus à l'aide d'un seul GPU NVIDIA A6000 : il faut 0,5 heure pour traiter les images vidéo pour la division de validation MovieQA. Budget de calcul.    . Tous les hyperparamètres sont prédéfinis en analysant un seul échantillon d'entraînement. Pour la recherche narrative, nous utilisons le seuil de similarité de phrase α ≥ 0,5 pour trouver des éléments de l'intrigue lorsque GPT-3 ne génère pas un seul index. Nous utilisons le seuil d'entropie binaire E ′ ≥ 0,4 dans CLIPCheck. Nous exécutons chaque expérience une seule fois, car notre méthode est déterministe et n'est pas sensible au caractère aléatoire lors de l'initialisation. Hyperparamètres    Il existe des annotations de limites de segment prédéfinies pour tous les ensembles de données que nous utilisons dans cet article. De plus, tous les éléments de l'intrigue ont des segments de clip alignés à tour de rôle puisque nous effectuons un résumé sur chaque clip segmenté avec les limites prédéfinies. De plus, avant d'appliquer LSS, nous filtrons les segments de clip qui 1. sont trop courts, 2. n'ont pas de cadre d'image aligné, ou 3. n'ont pas de contexte de texte pour nous assurer que nous pouvons récupérer les segments de clip à l'aide des résumés de tracé. Schéma de segmentation vidéo.    Nous utilisons l'API OpenAI pour accéder au modèle de langage GPT-3. Les fonctionnalités CLIP sont calculées avec les implémentations de Huggingface (https://huggingface.co/docs/transformers/main/en/model_doc/clip). Bibliothèques externes.

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

Cet audio est produit dans la langue originale de l'histoire !

Une méthode de synthèse puis de recherche pour les réponses aux questions vidéo longues dans les détails de l'expérience

About Author

COMMENTAIRES

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS

Related Stories

Croissance des crypto-monnaies : créer des profils d'utilisateurs efficaces

State of the Noonion: Green Clock Strikes Noon

Appuyez pour gagner : Telegram pourrait intégrer les 10 prochains milliards d'utilisateurs de crypto avant Solana

Naviguer sur les eaux : développer des applications RAG de qualité production avec des lacs de données

Croissance des crypto-monnaies : créer des profils d'utilisateurs efficaces

State of the Noonion: Green Clock Strikes Noon

Appuyez pour gagner : Telegram pourrait intégrer les 10 prochains milliards d'utilisateurs de crypto avant Solana

Naviguer sur les eaux : développer des applications RAG de qualité production avec des lacs de données

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps