Forskningsgruppen bakom EVA visar att AI-agenter kan öka noggrannheten vid videobearbetning med 6–12 % genom att slutat analysera varje enskild ruta.

Traditionella multimodala språkmodeller har ofta svårt med långa videor eftersom de måste bearbeta tusentals token från onödiga eller upprepade klipp, vilket leder till långsamma svar och missförstånd. EVA löser detta genom en agens som själv beslutar vad, när och hur den ska titta, istället för att passivt konsumera allt material i kronologisk ordning. Genom att använda ett nytt ramverk för förstärkningsinlärning kan modellen planera sin analys innan den börjar tolka innehållet.

Metoden bygger på en iterativ process där agenten sammanfattar, planerar, agerar och reflekterar i en loop. Detta görs genom att träna modellen med tre steg: förstimitation via övervakad finjustering (SFT), sedan optimering baserad på Kahneman-Tversky-teorin (KTO) för bättre bedömning av risker, och slutligt Generalized Reward Policy Optimization (GRPO) för att maximera belöningar.

I praktiken betyder detta att AI-system nu kan navigera timslånga videobaser, filmklipp eller övervakningsmaterial utan att fastna i det tidskrävande analysflummet. Detta ger snabbare svar och högre precision på komplexa frågor där detaljrikedomen ligger i specifika ögonblick snarare än hela sekvensen.

Källa: "EVA: Efficient Reinforcement Learning for End-to-End Video Agent" av Yaolun Zhang m.fl., publicerad på arXiv (https://arxiv.org/abs/2603.22918).