En ny metod låter lättare modeller förutse komplexa uppgifter, vilket eliminerar onödan väntan på avancerade verktyg innan svaret blir korrekt.

Forskarna vid Stockholms Teknik och AI Konsult presenterar SpecEyes, en ram som adresserar det allvarliga problemet "agentic depth". Detta fenomen uppstår när stora multimodala modeller måste växla mellan att se, tänka och anropa verktyg i stränga sekvenser, vilket skapar ett dödligt flaskhals för systemets hastighet. Genom att använda en lättare modell som "speculativ planerare" kan systemet förutse utfallet av dyra kalkylationer och avsluta dem förtid om de är onödiga, helt utan att offra noggrannhet.

Nyckeln ligger i en så kallad cognitive gating-mekanism som kvantifierar modellens självförtroende för verifiering utan externa referenslabeler. Detta låter systemet skilja mellan säkra gissningar och behov av verktygsanrop direkt på plats. I praktiken innebär detta att den snabba modellen bearbetar flera scenarier parallellt medan den tunga stora modellen hanterar komplexitet, vilket maxerar genomströmningen under belastning.

Resultaten visar en hastighetsökning mellan 1,1 och 3,35 gånger jämfört med befintliga agentic baslinjer, samtidigt som noggrannheten faktiskt ökar med upp till 6,7 procent på flera benchmarks. För utvecklare och systemarkitekter betyder detta att agentic AI nu kan skalas rejält utan att kollapsa under egen komplexitet.

Källa: "SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning" av Haoyu Huang et al. (https://arxiv.org/abs/2603.23483)