Tänk dig en sökagent som inte bara gräver djupare, utan breddar sitt synfält. Dagens multimodala AI-verktyg är smärtsamt långsamma; de bearbetar information bit för bit och fastnar i onödiga loopar. Forskarna har nu presenterat HyperEyes, ett nytt tillvägagångssätt som vänder på spelet genom att söka efter flera svar samtidigt. Här blir hastighet en kärnfunktion, inte en eftertanke.

Systemet slår samman visuell förankring och informationssökning till en enda atomär handling. Istället för att utföra ett verktygsanrop per entitet, skickar HyperEyes ut flera parallella, förankrade frågor. För att träna detta använde forskarna en tvåstegsprocess. Först syntetiserade de data som tvingade modellen att hantera komplexa frågor med flera entiteter. Därefter applicerade de ett förstärkningslärande ramverk med dubbla granularitetsnivåer. Metoden belönar agenten för effektivitet på både ban-nivå – genom att straffa onödiga steg – och token-nivå, genom att korrigera misstag i realtid.

Konflikten är tydlig: befintliga benchmark-mätningar mäter endast noggrannhet och ignorerar den enorma kostnaden för inferens. HyperEyes bevisar att hastighet och precision inte utesluter varandra. Genom att introducera IMEB, en benchmark som utvärderar både förmåga och effektivitet, visar studien hur mycket slöseri som döljer sig i traditionella metoder. Resultatet är en modell som inte bara är smartare, utan betydligt smalnare.

HyperEyes-30B slår de starkaste jämförbara öppna agenterna med 9,9 procentenheter i noggrannhet, samtidigt som den använder 5,3 gånger färre verktygsanropsomgångar. Denna forskning flyttar fokus från att bara hitta svar till att hitta dem effektivt. För användaren innebär det snabbare, mer responsiv AI som respekterar din tid utan att offra kvaliteten.