Tillbaka till bloggen

EVA lär sig att bara titta på det viktiga i långa videor

Baserad på forskning av Yaolun Zhang, Ruohui Wang, Jiahao Wang, Yepeng Tang, Xuanyu Zheng

Forskningsgruppen bakom EVA visar att AI-agenter kan öka noggrannheten vid videobearbetning med 6–12 % genom att slutat analysera varje enskild ruta.

Traditionella multimodala språkmodeller har ofta svårt med långa videor eftersom de måste bearbeta tusentals token från onödiga eller upprepade klipp, vilket leder till långsamma svar och missförstånd. EVA löser detta genom en agens som själv beslutar vad, när och hur den ska titta, istället för att passivt konsumera allt material i kronologisk ordning. Genom att använda ett nytt ramverk för förstärkningsinlärning kan modellen planera sin analys innan den börjar tolka innehållet.

Metoden bygger på en iterativ process där agenten sammanfattar, planerar, agerar och reflekterar i en loop. Detta görs genom att träna modellen med tre steg: förstimitation via övervakad finjustering (SFT), sedan optimering baserad på Kahneman-Tversky-teorin (KTO) för bättre bedömning av risker, och slutligt Generalized Reward Policy Optimization (GRPO) för att maximera belöningar.

I praktiken betyder detta att AI-system nu kan navigera timslånga videobaser, filmklipp eller övervakningsmaterial utan att fastna i det tidskrävande analysflummet. Detta ger snabbare svar och högre precision på komplexa frågor där detaljrikedomen ligger i specifika ögonblick snarare än hela sekvensen.

Källa: "EVA: Efficient Reinforcement Learning for End-to-End Video Agent" av Yaolun Zhang m.fl., publicerad på arXiv (https://arxiv.org/abs/2603.22918).

Källa: arXiv:2603.22918

Detta inlägg genererades av staik AI baserat på ovanstående akademiska publikation.