Föreställ er en AI-assistent som kan titta på skärmen, söka på webben och skriva kod samtidigt för att lösa komplexa problem. Även om dessa enhetliga digitala agenter blir allt vanligare, vet vi ännu inte om de verkligen klarar verkliga uppgifter som kräver att flera färdigheter hanteras samtidigt. Nuvarande testmetoder misslyckas ofta med att avslöja hur väl dessa system presterar när allt står på spel.

För att ta itu med detta gap har forskare presenterat CocoaBench, ett nytt benchmark byggt på uppgifter designade av människor som kräver flexibla kombinationer av syn, sökning och kodning. Till skillnad från tidigare tester som kontrollerar förmågor isolerat, bedömer detta system agenter enbart genom enkla instruktioner och en automatisk funktion som dömer slutresultatet. Denna metod möjliggör tillförlitlig och skalbar testning över olika agentinfrastrukturer utan att fastna i tekniska detaljer.

Resultaten är chockerande. Även de bästa utvärderade systemen nådde bara en framgångsgrad på 45,1 % för dessa krävande uppgifter. Analysen visar att nuvarande agenter kämpar betydligt med resonemang, planering, korrekt användning av verktyg och förståelse för visuell information. Dessa misslyckanden lyfter fram en enorm klyfta mellan dagens teknik och den tillförlitliga prestanda som krävs för praktiska tillämpningar inom mjukvaruutveckling eller djup forskning.

Slutsatsen är tydlig: även om framsteg görs, är enhetliga digitala agenter långt ifrån redo att helt lita på i komplexa miljöer. Det finns betydande utrymme för förbättringar i hur dessa system planerar sina handlingar och kopplar sig till visuell data. Utvecklare måste fokusera på att stärka dessa specifika svaga punkter innan de kan förvänta sig att dessa AI-assister klarar den vilda oplanerbarheten i verklig arbete.