Artificiell intelligens kan skapa otroligt realistiska videor, men hur snabbt
Baserad på forskning av Xiangbo Gao, Mingyang Wu, Siyuan Yang, Jiongze Yu, Pardis Taghavi
Även om generativa modeller idag klarar att simulera världen med imponerande visuell kvalitet, saknar de ofta en inre klocka som synkroniserar rörelserna med verklighetens tidsflöde. När träningsdata blandar filmer med helt olika hastigheter i en gemensam standardfrekvens uppstår en så kallad tidsmässig hallucination. Resultatet blir rörelser som känns konstiga, oförutsägbara och obekväma för ögat eftersom de inte följer en konstant fysisk puls.
Forskarna har därför utvecklat en ny metod som kallas Visual Chronometer, vilken direkt läser av den fysiska rörelsehastigheten från bildinnehållet istället för att lita på onödig metadata. Genom två nya testbankar har man bekräftat att ledande system drabbas av allvarliga misskänningar i hur fort objekt rör sig. När den nya tekniken tillämpas blir de genererade videosekvenser betydligt mer naturliga och trovärdiga för människan som tittare.
Den framtida utvecklingen av AI-verklighet kräver att modellerna inte bara lär sig se korrekt, utan också att förstå hur lång tid varje bildtagning tar i relation till omvärlden.
Källa: The Pulse of Motion: Measuring Physical Frame Rate from Visual Dynamics av Xiangbo Gao med flera, https://arxiv.org/abs/2603.14375