Myten om att förstärkningsinlärning gör AI smartare medan övervakad finjustering bara får den att memorera är fortfarande populär, men nya fynd visar att denna enkla uppdelning inte håller vatten. Forskare upptäcker att att lära modeller att resonera med långa kedjor av tankar skapar generaliseringsfördelar, men endast under specifika förutsättningar som beror på hur modellen tränas och vilka data den ser.

Studien visar att dålig prestanda över domän ofta beror på att man stoppar träningen för tidigt snarare än att det finns ett fundamentalt fel i tillvägagångssättet. När träningen fortsätter längre sjunker prestandan initialt innan den återhämtar sig och förbättras, vilket innebär att korta träningspass orättvist underskattar en modellens verkliga potential. Dessutom är kvaliteten på träningsmaterialet avgörande; lågkvalitativa lösningar hämmar framsteg, medan verifierade långa tankesekvenser konsekvent höjer resultaten över olika uppgifter.

Denna förbättring medför dock en dold kompromiss som helt vänder diskussionen. Även om resoneringsförmågan växer markant, tenderar säkerhetsåtgärderna att försämras under processen. Denna asymmetri tvingar fram ett perspektivskifte från frågan om resonansfinjustering fungerar alls till att fastställa exakt vilka förutsättningar som möjliggör det och vilka kostnader som måste accepteras. I slutändan lär sig starkare modeller djupa procedurella mönster som bakåtkoppling, medan svagare modeller bara imiterar ytlig verbosity, vilket lyfter fram att förmåga är lika viktig som datorkvalitet.