Vi litar på datorer för att hantera komplexa yrkesmässiga arbetsflöden, men våra mest avancerade AI-agenter har fortfarande svårt att navigera mellan olika program. Ny forskning avslöjar en slående klyfta: medan AI kan behärska isolerade uppgifter, kollapsar den i stor utsträckning när den ombeds samordna arbete över flera applikationer på samma sätt som en mänsklig professionell. Detta är inte bara en mindre bugg; det är en grundläggande barriär för verkligt autonomt arbete.

Forskarna har presenterat WindowsWorld, ett testverktyg (benchmark) utformat för att pröva GUI-agenter i realistiska miljöer med flera applikationer. Till skillnad från tidigare tester som fokuserade på enskilda program, utvärderar denna studie hur väl agenter kan hantera uppgifter över sjutton vanliga skrivbordsapplikationer. Testet omfattar 181 komplexa uppgifter, där nästan 80 procent kräver interaktion med flera program samtidigt. Dessa uppgifter är genererade för att spegla verkliga yrkesaktiviteter, vilket ställer krav på att AI:n växlar kontext, hanterar data och utför flerstegsprocesser utan mänsklig inblandning.

Resultaten är nyktermakande. Ledande stora modeller och agenter uppnådde en framgångsfrekvens på mindre än 21 procent på dessa flersystemsuppgifter, en dramatisk nedgång jämfört med deras prestation på enkla uppgifter i enskilda program. Agenterna fastnade ofta vid tidiga delmål när villkorsstyrd resonemang krävdes över tre eller fler applikationer. Även när de inte misslyckades helt var deras utförande ineffektivt, och de tog ofta betydligt fler steg än en människa skulle gjort. Detta tyder på att nuvarande AI saknar den kontextuella medvetenhet som krävs för verklig yrkesautomation.

Slutsatsen är tydlig: vi är långt ifrån AI som pålitligt kan hantera komplex, plattformöverskridande arbete. Så länge modellerna inte kan samordna sig sömlöst över flera applikationer med mänsklig effektivitet, kommer de att begränsas till enkla, isolerade uppgifter. Vägen till verklig autonomi kräver att man löser problemet med flersamordning, inte bara förbättrar interaktionen med enskilda appar.