Tillbaka till bloggen

55 timmar av mänsklig datoranvändning släpps för AI-agenter

Baserad på forskning av Xiangru Jian, Shravan Nayak, Kevin Qinghong Lin, Aarash Feizi, Kaixin Li

Den nya datasetet CUA-Suite levererar nästan sex miljoner bildrutor av professionell datormanipulation – en bristvara som nu är borta.

Forskningsgruppen presenterar CUA-Suite, ett ekosystem av 10 000 expertdemonstrationer som täcker 87 olika programvaror. Det största problemet med befintliga dataset har varit sparsamhet; de innehåller bara stillbilder snarare än kontinuerlig video som krävs för att läsa av komplexa arbetsflöden. Denna nya samling fyller gapet genom att leverera 55 timmars inspelningar i 30 bildsekunder per sekund, inklusive exakt musrörelser och tankeprocesser.

Modeller som testats mot datan misslyckas i nästan hälften av fallen med professionella uppgifter, vilket avslöjar en stor spricka mellan dagens allmänna AI-agenter och kraven på verklig produktivitetsautomatisering. Genom att bevara den fulla tidsmässiga dynamiken i interaktioner öppnas dörrarna för bättre spatial kontroll och video-baserad belönningsmodellering.

Källa: CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents av Xiangru Jian et al., arXiv 2603.24440

Källa: arXiv:2603.24440

Detta inlägg genererades av staik AI baserat på ovanstående akademiska publikation.