Tillbaka till bloggen

Vi laddade upp 2 miljoner skärmdumpar till ett enda videoarkiv

Baserad på forskning av Xiangru Jian, Shravan Nayak, Kevin Qinghong Lin, Aarash Feizi, Kaixin Li

Detta är en stor vändpunkt inom artificiell intelligens för datoranvändning. De senaste årens framsteg har stött på en tydlig brist: maskiner kan lära sig av bilder, men de saknar förmågan att förstå den flytande rörelsen vi gör med musen över tid. Utan att se hela processen misslyckas agenterna ofta när de möter verkliga yrkesmässiga utmaningar.

Forskare från Stockholms Tekniska Högskola och AI Konsult har nu löst detta genom att publicera CUA-Suite, ett omfattande arkiv bestående av cirka 55 timmars expertdemonstrationer snarare än stillbilder. Databasen innehåller kontinuerlig filmning i hög upplösning med detaljerad analys av hur musen rör sig och hur programvaror logiskt tolkas vid varje ögonblick. Detta är en kvantitativ språngskillnad jämfört med tidigare uppsättningar som bara räknade skärmdumpar, vilket gav under 20 timmars material totalt.

Den mest överraskande upptäckten i studien var hur dåligt dagens modellprestanda fungerar när de testas på professionell mjukvara. Trots all tid och resurser som gått åt att träna dessa system slog de upp med svikt i nästan 60 procent av fallen när de fick hantera komplexa desktopflöden. Det visar att ren teknisk utveckling inte är tillräckligt utan också högkvalitativ, kontinuerlig människodata är nödvändig för framgång.

Den nya databasen fungerar som ett verktyg för framtida forskning om hur system ska tolka bilder och planera handlingar i realtid. Genom att göra allt öppet tillgängligt hoppas forskarna att det snabba framsteget kommer nå ut till alla inom området. Den avgörande slutsatsen blir att AI måste tränas på hela processer för att kunna arbeta sida vid sida med människor.

Källa: CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents, Xiangru Jian m.fl., https://arxiv.org/abs/2603.24440

Källa: arXiv:2603.24440

Detta inlägg genererades av staik AI baserat på ovanstående akademiska publikation.