Det blir allt svårare för artificiell intelligens att förstå långa videor eftersom de innehåller otroligt många bilder över tid och stora mängder onödig information. De flesta befintliga metoder tvingar den stora AI-modellen att processa hela sekvensen eller slumpmässigt utvalda bildrader, vilket slösar på resurser och ger opartik resultat vid långa filmer.

Nu presenteras en ny lösning som kallas EVA. Istället för att bara titta passivt, gör agenten ett plan innan den tittar. Systemet bestämmer självständigt vilka ögonblick det ska fokusera på, när det ska göra det och hur djupt analysen behöver gå baserat på vad användaren frågar om. Metoden fungerar genom att ständigt uppdatera sitt förslag och lära sig av reflexion efter varje steg i processen.

Forskarna tränade upp systemet med en specifik metod som kopplar samman traditionellt inlärningsarbete med avancerad belöningsbaserad optimering. Resultaten visar på en betydande framgång jämfört med andra metoder, där prestandan förbättras med mellan sex och tolv procent på generaliserade tester. På de mest avancerade testerna som redan använder agenter blir skillnaden även större, upp till tre procent.

Tjänsten är nu offentligt tillgänglig för forskare som vill bygga vidare på den tekniken.