När AI-lärande missar pulsen: Så här fixar vi fysiken bakom motion
Baserad på forskning av Xiangbo Gao, Mingyang Wu, Siyuan Yang, Jiongze Yu, Pardis Taghavi
När nya AI-modeller för video skapar hyperrealistiska bilder av löpande människor eller svävande objekt finns det en dold och allvarlig botten som många inte ser. Även om rörelserna ser flytande ut, saknar modellerna ofta en korrekt inre klocka, vilket leder till att hastigheterna fluktuerar oväntat och känns konstiga för det mänskliga ögat.
Problemet uppstår eftersom de flesta modeller tränas på filmer med helt olika verkliga takter, men tvingas sedan fungera vid en fast bildfrekvens. Detta skapar så kallade kronometriska hallucinationer där rörelsens tempus blir otydligt och okontrollerat. Forskare från Kina har nu utvecklat ett tillvägagångssätt som kallas Visual Chronometer. Istället för att förlita sig på osära filmetadata läser denna metod in själva dynamiken i bilden för att beräkna vad som verkligen kallas fysiska bilder per sekund, eller PhyFPS. Genom att justera den genererade videon efter detta upptäckta takt blir rörelserna mer naturliga och ligger bättre överens med hur vi ser världen i verkligheten.
Utvärderingar visar dock att nuvarande bästa modeller lider av kraftfull missmatch i denna fysiska puls, vilket understryker behovet av nyare tekniker innan AI-genererat video kan användas tillförlitligt. Att fixa den inre tidsmässigheten är nödvändigt för att ge AI-filer verklig fysisk trovärdighet istället för bara visuell trickning.
Källa: "The Pulse of Motion: Measuring Physical Frame Rate from Visual Dynamics" av Xiangbo Gao och medarbetare, https://arxiv.org/abs/2603.14375