55 timmar av mänsklig datoranvändning släpps för AI-agenter
Baserad på forskning av Xiangru Jian, Shravan Nayak, Kevin Qinghong Lin, Aarash Feizi, Kaixin Li
Den nya datasetet CUA-Suite levererar nästan sex miljoner bildrutor av professionell datormanipulation – en bristvara som nu är borta.
Forskningsgruppen presenterar CUA-Suite, ett ekosystem av 10 000 expertdemonstrationer som täcker 87 olika programvaror. Det största problemet med befintliga dataset har varit sparsamhet; de innehåller bara stillbilder snarare än kontinuerlig video som krävs för att läsa av komplexa arbetsflöden. Denna nya samling fyller gapet genom att leverera 55 timmars inspelningar i 30 bildsekunder per sekund, inklusive exakt musrörelser och tankeprocesser.
Modeller som testats mot datan misslyckas i nästan hälften av fallen med professionella uppgifter, vilket avslöjar en stor spricka mellan dagens allmänna AI-agenter och kraven på verklig produktivitetsautomatisering. Genom att bevara den fulla tidsmässiga dynamiken i interaktioner öppnas dörrarna för bättre spatial kontroll och video-baserad belönningsmodellering.
Källa: CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents av Xiangru Jian et al., arXiv 2603.24440