Ny research visar att dagens artificiella intelligens helt misslyckas när den ska styra professionell mjukvara, och det beror på att de lärts sig fel. De flesta träningsdata är bara bilder från tidsangivelser, vilket gör att agenten inte förstår rörelselopp eller hur en människa faktiskt navigerar genom ett gränssnitt över tid.

Forskarna har nu lanserat CUA-Suite, en stor dataset som löser problemet genom att innehålla tiotusentals videosekvenser i hög upplösning där mänskliga experter visar hur de använder programvara. Materialet innehåller mer än 6 miljoner bildramar och över femtio timmar av expertkunskap från åttio-sju olika appar, inklusive detaljerade spår för musrörelser och resonemang som är osynliga i vanliga skärmdumpar. Detta skiljer sig markant från befintliga källor som ScaleCUA, som bara innehåller två miljoner statiska bilder motsvarande mindre än tjugo timmar video. Resultatet blir en databas som kan konverteras fullt ut till format som används av nuvarande AI-system utan att förlora någon information om tidsaspekten.

I sina första tester fick grundläggande AI-modeller ett misslyckandegrad på nära sextiota procent när de försökte hantera verkliga arbetsmiljöer, vilket visar att dagens teknik är kraftigt bristfällig för avancerade uppdrag. Den nya dataseten innehåller även specifika provningar och en stor mängd annoterade bilder för att hjälpa forskare utveckla bättre algoritmer för visuell uppfattning och planering. Med öppettillgång till allt data hoppas utvecklarna att bryta igenom de nuvarande begränsningar som hämmar framsteg mot generella datorassistenters.

Källa: Jian et al., CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents, arXiv