AI-agenter lovar att automatisera din inkorg och hantera rutinmässiga livsuppgifter, men kan de verkligen navigera i den kaotiska verkligheten av dagliga online-interaktioner? En ny utvärderingsramverk avslöjar ett markant gap mellan dagens AI-förmågor och de komplexa kraven för verklig webbhantering.

Forskare har presenterat ClawBench, en rigorös testbänk med 153 enkla men krävande uppgifter som människor utför regelbundet i sitt privat- och arbetsliv. Dessa utmaningar täcker 144 levande plattformar inom 15 kategorier, allt från att slutföra köp och boka möten till att skicka in ansökningar om jobb. Till skillnad från tidigare tester som använder statiska sidor i avskilda sandboxer, opererar denna ramverk direkt på produktionswebbsidor för att bevara den fulla komplexiteten och dynamiken i verkliga interaktioner. Ett lättviktigt avlyssningslager fångar och blockerar endast den slutgiltiga inlämningsförfrågan, vilket säkerställer en säker utvärdering utan att orsaka faktiska biverkningar.

Resultaten exponerar en betydande begränsning i dagens teknik. När sju frontmodeller, både proprietära och med öppen källkod, testades klarade de endast en liten del av uppgifterna. Till exempel lyckades Claude Sonnet 4.6 med bara 33,3 % av scenarierna. Denna misslyckandegrad visar att dagens AI fortfarande kämpar med krävande förmågor som att hämta relevant information från användaruppladdade dokument, navigera i flerstegsarbetsflöden över olika plattformar och utföra skrivintensiva operationer såsom att fylla i detaljerade formulär korrekt.

Framsteg på denna benchmark är avgörande för att bygga pålitliga allsysselsättare. Innan AI-agenter konsekvent kan hantera dessa vardagliga aspekter av livet utan ständig mänsklig ingripande, ligger de långt ifrån att ersätta den omfattande stöd vi förväntar oss från framtida digitala hjälpmedel.