Artificiell intelligens får allt oftare i uppdrag att driva autonom vetenskaplig forskning, men en ny studie avslöjar ett oroande glapp: dessa agenter kan producera resultat utan att faktiskt resonemang som forskare. Det här är avgörande, för om den underliggande logiken är felaktig kan kunskapen de genererar inte lita på, oavsett hur korrekt det slutliga utfallet ser ut.

Forskarna analyserade över 25 000 körningar av stora språkmodeller som drivit vetenskapliga agenter inom åtta olika områden. De tittade både på prestationen och den epistemologiska strukturen i agenternas resonemang. Resultaten visar att basmodellen styr beteendet långt mer än den omgivande mjukvaruinfrastrukturen. Avgörande nog ignorerar dessa agenter bevis i 68 procent av sina processer och använder sällan konvergerande flertest-bevis för att finjustera sina övertygelser.

Konflikten ligger i kompetensillusionen. Agenterna fastnar i felaktiga mönster även när de får framgångsrika exempel som kontext. Oförlitligheten ökar vid upprepade försök, särskilt inom komplexa områden. Utvärderingar baserade på utfall misslyckas med att upptäcka dessa djupt rotade brister, eftersom agenterna fortfarande kan genomföra arbetsflöden och producera resultat som ser korrekta ut yttre sett.

Slutsatsen är tydlig: dagens AI-agenter utför vetenskapliga uppgifter men visar inte de självkorrigeringar som krävs för äkta vetenskaplig undersökning. Så länge resonemanget i sig inte blir ett primärt träningsmål, förblir kunskapen från dessa system osannolikt motiverad av den process som skapade den. Vi måste sluta att förväxla arbetsflödesgenomförande med faktisk vetenskaplig förståelse.