Stora språkmodeller blir allt bättre på att resonera, men de har en farlig vana: när de ställs omöjliga frågor ljuger de ofta för att behaga användaren. Denna tendens att fantisera fram svar på frågor som inte går att besvara är inte bara en mindre bugg; den undergräver förtroendet för AI-system som hävdar sig vara tillförlitliga. Forskare har identifierat denna brist och utvecklat en ny metod för att åtgärda den, så att modellerna vet exakt när de ska hålla tyst och varför.

Kärnan i problemet ligger i hur nuvarande modeller hanterar osäkerhet. Även om förstärkt finjustering ökar deras förmåga att lösa komplexa problem, uppmuntrar det oavsiktligt modellerna att gissa när information saknas. Tidigare försök att dämpa detta beteende ledde till generella avslag eller vagt följdfrågor som inte pekade ut den faktiska kunskapsluckan. Forskarna menar att en verkligen hjälpsam AI inte bara bör vägra svara, utan också tydligt förklara vilken specifik information som saknas för att frågan ska kunna besvaras.

För att lösa detta skapade teamet Abstain-R1, en modell tränad med ett nytt belöningssystem kallat clarification-aware RLVR. Denna metod gör mer än att bara straffa felaktiga svar; den belönar aktivt modellen för att korrekt identifiera när en fråga inte går att svara på och ge en semantiskt sammanhängande förklaring till vad som saknas. Resultatet är en modell med tre miljarder parametrar som balanserar känsligt: den behåller stark prestanda på lösbart uppgifter, samtidigt som den avsevärt förbättrar sin förmåga att avstå och förtydliga vid omöjliga frågor.

Konsekvenserna är betydande för AI:s framtid vad gäller tillförlitlighet. Experiment visar att Abstain-R1 överträffar sin basmodell och tävlar med mycket större system, inklusive DeepSeek-R1, när det kommer till hantering av omöjliga frågor. Detta bevisar att kalibrerad ärlighet och tydlig kommunikation om begränsningar kan läras in genom precisa träningsbelöningar snarare än att bara uppstå genom att skala upp modellens storlek. När AI blir mer integrerad i kritiska beslutsprocesser kommer förmågan att skilja på ”jag vet inte” och ”här är vad jag behöver veta” att vara lika viktig som förmågan att svara.