Tänk dig att be en AI utföra ett djupgående forskningsprojekt, bara för att den sedan med självsäkerhet uppfinnar källor eller missar avgörande detaljer eftersom internet är för kaotiskt att navigera i. Det nuvarande sättet vi testar dessa kraftfulla "Deep Research Agents" på fångar inte denna verklighet, vilket lämnar oss med en benchmark som ser bra ut på papper men kraschar i verkliga livet.

Forskare har presenterat en ny benchmark kallad DR³-Eval för att åtgärda detta gap. Istället för att lita på statisk, lättillgänglig data använder systemet autentiska användarmaterial och simulerar den röriga komplexiteten hos det öppna webben inom en kontrollerad sandlåda. Det matar in agenter med riktiga dokument blandade med störande brus och irrelevant information, vilket tvingar dem att planera långa forskningsuppgifter som involverar att hitta filer, förstå bilder och generera omfattande rapporter.

Resultaten är slående: även de mest avancerade AI-systemen kämpar betydligt när de stöter på en så realistisk miljö. Utvärderingsramverket avslöjar kritiska misslyckanden i hur dessa agenter hämtar information och kontrollerar hallucinationer, vilket visar att de ofta inte kan skilja mellan fakta och fiktion när datan är brusig. Detta tyder på att även om dessa verktyg kan följa enkla instruktioner, så är deras förmåga att genomföra äkta, tillförlitlig forskning fortfarande skör.

Slutsatsen är tydlig: tills vi testar AI med samma röriga, ostrukturerade verklighet som den kommer stöta på i praktiken, kan vi inte lita på dess slutsatser. Den nya benchmarken erbjuder en nödvändig väg framåt och bevisar att sann intelligens kräver inte bara kunskap, utan också uthålligheten att navigera osäkerhet utan att uppfinna fakta.