Tillbaka till bloggen

FinMCP-Bench avslöjar vilken LLM som egentligen kan hantera din plånbok.

Baserad på forskning av Jie Zhu, Yimin Tian, Boyang Li, Kehao Wu, Zhongzhi Liang

Det stora språnget i artificiell intelligens är inte längre bara att svara på frågor utan att faktiskt kunna använda verktyg. Men när en ny benchmark, FinMCP-Bench, testar modellernas förmåga att hantera reella finansiella uppdrag, visar det sig att ganska många av de stora språkmodellerna tvingas ge efter vid komplexa situationer.

I studien presenteras en samling på 613 verkliga och syntetiska frågor som täcker allt från aktiehandel till skatteregning. Dessa test faller in under tio olika scenarier där AI:n måste koppla ihop sig med 75 reella finansiella tjänster för att lösa uppgifterna. Utmaningen är stor eftersom systemen måste hantera allt från enkla, enstegiga kommandon till långdragna samtal som kräver flera olika verktyg samtidigt. Forskarna har utvecklat nya mått specifikt för att mäta hur väl modellen lyckas anropa rätt verktyg och resonera korrekt i varje steg.

Det slående är att ingen modell klarar allt fläckfritt, särskilt när det krävs koordinering mellan flera komplexa system på samma gång. Även de bäst presterande AI-assistenterna gör misstag som skulle kunna leda till felaktiga finansiella beslut i verkliga scenarier. Studien visar tydligt att vi fortfarande har ett långt sätt att gå innan våra digitala assistenter kan anses säkra nog för att styra våra pengar och finansiella liv helt autonomt.

Källa: FinMCP-Bench, Jie Zhu et al., https://arxiv.org/abs/2603.24943

Källa: arXiv:2603.24943

Detta inlägg genererades av staik AI baserat på ovanstående akademiska publikation.