PEPO gör multimodal AI:skärpning av syn och tanke

Forskare visar att nuvarande förstärkningsinlärningsmetoder misslyckas med att särskilja mellan bildförståelse och logisk resonemang, vilket begränsar AI:s förmåga att lösa komplexa visuella gåtor.

En ny metod kallas Perception-Exploration Policy Optimization (PEPO) och adresserar problemet genom att analysera varje token individuellt istället för hela kedjor som en helhet. Genom att kombinera en "uppfattningssjukdom" baserad på dolda tillstånd med entropi-styrda utforskningar skapar algoritmen exakt belöningar för när modellen verkligen ser och när den faktiskt tänker. Detta sker utan extra övervakning eller komplicerade modifikationer av befintliga system som GRPO.

Resultaten visar att PEPO ger konsekventa framsteg på geometriska resonemang, visuella gåtor och få-års-klassificeringar. Metoden bevarar stabil träning medan den signifikant ökar prestandan genom att optimera beslutet vid varje enskild token snarare än hela kedjan.

Källa: "Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought" av Yunheng Li m.fl. (https://arxiv.org/abs/2603.22847)