Att hitta rätt AI-agent för en specifik uppgift känns som att leta efter en nål i ett höstack, men inte för att nålen är gömd. Den finns där, men vanliga söktjänster levererar tomma lådor. När AI-agenter prolifererar över olika plattformar står vi inför ett kritiskt nytt problem: hur hittar vi faktiskt en som fungerar? Problemet är att en agents verkliga kapacitet inte framgår av dess beskrivning. Den manifesteras först när den körs, vilket gör traditionell textbaserad sökning grundläggande bristfällig för ändamålet.

Forskare har presenterat AgentSearchBench, ett omfattande benchmark byggt på nästan 10 000 verkliga agenter för att studera denna utmaning. De formaliserade agentsökning som ett problem med återvinning och omläggning (reranking), och testade detta mot både exekverbara precisionsfrågor och vaga, högnivåbeskrivningar. Målet var enkelt: se om dagens metoder kan matcha användarens avsikt med en agent som faktiskt levererar resultat. Denna uppställning speglar den kaotiska verkligheten i det "vilda", där agenter kommer från olika leverantörer med inkonsistent dokumentation och oförutsägbara beteenden.

Resultaten avslöjar en slående klyfta. Det finns ett konsekvent gap mellan semantisk likhet – texten som matchar din fråga – och faktisk prestanda. Med andra ord leder de mest relevanta beskrivningarna ofta till agenter som misslyckas med uppgiften. Detta visar på de allvarliga begränsningarna i att lita enbart på textmetadata för upptäcktsförfarande. Om du dömer en agent efter dess CV snarare än dess arbetslivserfarenhet kommer du sannolikt att bli besviken. Studien bevisar att beskrivningsbaserade återvinningsmetoder är otillräckliga för att navigera i detta komplexa ekosystem.

Det finns dock en väg framåt. Genom att inkludera lätta beteendesignaler, såsom exekveringsmedveten provning (execution-aware probing), förbättrade forskarna rangordningskvaliteten avsevärt. Det innebär att det att kontrollera hur en agent faktiskt beter sig under ett testkörning ger betydligt bättre resultat än att läsa dess profil. Lärdomen är tydlig: för att effektivt upptäcka och implementera AI-agenter måste vi sluta titta på texten och börja bevaka handlingen. Framtida söktjänster måste prioritera exekveringssignaler framför semantiska beskrivningar för att överbrygga klyftan mellan löfte och prestation.