Nya metoder för att få stora språkmodeller (LLM) att skriva kod har länge förlitat sig på att modellen först tänker igenom hela problemet innan den börjar skriva koden. Detta upplever dock ett allvarligt tilltag: eftersom komplexiteten i programmeringsproblem ofta endast avslöjar sig medan koden byggs upp, blir detta förutbestämda tänkande otillräckligt. Dessutom kan det inte justera sina ansträngningar utifrån problemets svårighetsgrad under själva processen.

Forskare presenterar nu en lösning på detta dilemma genom att introducera Think-Anywhere, ett nytt mekanism som tillåter modellerna att aktivt välja när de vill pausa för att tänka igenom problemet medan de skriver koden. Istället för att tvinga modellen att tänka i början, lär man först den imitera mönster för reflektion via träning från grunden, varefter belöningsbaserad styrning låter modellen självständigt utmana sig själv för att avgöra exakt vilken rad kod som behöver extra uppmärksamhet.

Genom tester på fyra stora benchmarkar för kodgenerering visar metoden överlägsna resultat jämfört med befintliga tillvägagångssätt och bekräftar fungerande generellt över olika modeller. Analysen visar dessutom att systemet automatiskt fokuserar sitt tänkande vid de mest osäkra delarna av koden, vilket ger både bättre prestanda och ökad förståelse för hur beslutsfattandet sker i realtid.