Sluta läsa dokument rad för rad: Parallell OCR med diffusion är framtidens standard

Autoregressiva modeller tvingas läsa texten som en lång kedja av misstag, medan ny teknik kan dekodera hela dokumentet parallellt.

Forskarna bakom MinerU-Diffusion visar att dagens system felaktigt behandlar OCR som ett problem som måste lösas sekventiellt, rad för rad eller tecken för tecken. Genom att se uppgiften som en "inverse rendering"-process kan man använda diffusionsmodeller istället. Detta innebär att modellen startar med brus och iterativt skalar ner det till ett rent dokument, vilket eliminerar den tidskrävande beroendekedjan hos traditionella språkmodeller.

Resultatet är en upp till 3,2 gånger snabbare avkodning jämfört med befintliga baslinjer, samtidigt som robustheten förbättras kraftigt vid komplexa layouter, tabeller och formler. I praktiken betyder detta att verktyg för automatiserad dokumenthantering kan analysera hundratals sidor på sekunder istället för minuter, utan att förlora sammanhang i långa sekvenser.

Källa: "MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding" av Hejun Dong m.fl., publicerad på arXiv: https://arxiv.org/abs/2603.22458