Stora språkmodeller blir allt bättre på att lösa komplexa problem, men de fastnar ofta i en onödig tankegångsloop. Istället för att snabbt hitta ett svar genererar dessa AI-system överdrivna mellansteg, vilket slösar bort beräkningsresurser och drar ut på svarstiden. Detta fenomen, känt som "overthinking", gör effektiva problemlösare till pratsamma långdragare som upprepar sig utan att lägga till något värde.

Forskare har identifierat två specifika vanor som driver denna ineffektivitet: oavgörande reflektion, där modellen utför breda men lågimpact-kontroller under hela tankeprocessen, och repetitiv reflektion, där den upprepade gånger omprövar slutsatser som redan är korrekta. För att åtgärda detta utvecklade forskare ett nytt ramverk som kartlägger linjära resonemangskedjor till riktade acykliska grafer för att visualisera beroenden mellan idéer. Denna struktur möjliggör kirurgisk borttagning av svaga grenar som bidrar lite till det slutgiltiga svaret samt klippning av senare kontrolleringsloopar som inte har någon syfte.

Laget tränade modeller med ett specialiserat pipeline som först initialiserade policyer på koncisa spår, sedan finjusterade preferenser för att gynna korrekta men kortare vägar och slutligen optimerade både noggrannhet och bredd med en längdpåstraff. Resultaten var imponerande: genom att klippa bort dessa redundanta reflektioner reducerade metoden antalet resonemangstokens i genomsnitt med 42 procent samtidigt som svarsnoggrannheten bibehölls eller till och med förbättrades.

Slutsatsen är tydlig: smartare AI innebär inte alltid mer prat; ibland handlar det om att veta exakt när man ska sluta tänka och bara leverera lösningen.