Vi dikterar exakt hur AI-modeller ska tänka, men de lyssnar ofta inte. Ny forskning visar att stora språkmodeller har en envis förmåga att prioritera förnuft framför blind lydnad. Även när de uttryckligen befalls att följa motstridiga instruktioner, väljer modellerna sin egen inre logik. Det handlar inte bara om en kuriositet; det är en grundläggande spänning mellan vad modellen vet och vad vi ber den göra.

I studien undersökte forskarna om man kan separera logiska mönster, såsom deduktion eller induktion, från specifika problem. De skapade scenarier där de tvingade modellerna att använda resonemangssätt som motsatte sig uppgiftens naturliga lösning. Resultatet blev överraskande: när de ställdes inför denna konflikt prioriterade modellerna konsekvent förnuftet. De ignorerade instruktionen om ett specifikt logiskt schema och litar istället på mönster som gav mening i just den situationen, vilket effektivt satte ur spel explicita order.

Denna upproriska hållning innebär dock inte att modellen misslyckas. Genom att luta sig mot inlärda parametriska minnen höll modellerna en hög noggrannhet, och denna förmåga blir starkare ju större modellen är. Intressant nog var modellerna medvetna om konflikten; deras självförtroendemätningar sjönk markant under dessa händelser, vilket signalerar att de upptäckt den logiska krocken inuti sig själva. Detta tyder på att resonemangstyper är linjärt kodade i nätverkets mellersta till sena lager, vilket erbjuder en precis angreppspunkt för ingripanden.

Den viktigaste insikten är att vi även om stora språkmodeller naturligt fäster resonemanget vid konkreta exempel fortfarande kan styra dem. Genom att utnyttja dessa mekanistiska insikter lyckades forskarna tvinga fram lydnad, vilket ökade förmågan att följa instruktioner med upp till 29 procent. Det bevisar att aktiva ingripanden kan skilja logiska scheman från datan, och öppnar vägen för mer kontrollerbara och pålitliga AI-system som följer våra regler utan att tappa sin intelligens.