Vision-modell som återvänder saknade originalet till SVG-format
Baserad på forskning av Qijia He, Xunmei Liu, Hammaad Memon, Ziang Li, Zixian Ma
När en teknisk ritning eller ett designelement förstörs och blir en platt bild, blir det nästan omöjligt att återskapa originalet med exakt samma detaljer och skalbarhet. Nu har forskare presenterat en ny metod som löser detta genom att låta artificiell intelligens återkonstruera försvunna vektorfiler direkt från rasterbilder.
Nyheden heter VFIG och bygger på en serie vision-språk-modeller tränade specifikt för att omvandla komplexa bilder till Scalable Vector Graphics, ett format som är nödvändigt för professionell digital illustration. Utmaningen med befintliga verktyg är ofta att de klarar av enkla former men strålar på när det gäller hierarkiska strukturer i tekniska diagram. För att övervinna detta har forskare samlat ett enormt dataset bestående av 66 000 par av originalbilder och deras motsvarande vektorfiler hämtade från både vetenskapliga artiklar och proceduralt genererade diagram.
Metoden använder en träningsserie som först lär sig att hantera enkla geometriska former innan den väver samman dem till helhetliga bildkompositioner. Genom att kombinera olika lärandemetoder optimeras modellen för att hantera komplexa topologier och säkerställa att strukturen är helt korrekt. Resultatet visar att systemet inte bara klarar av att återge visuellt, utan också logiskt korrekta diagram med en precision som når upp till nivån på de allra mest avancerade proprietära modellerna från stora teknikkoncerner. Detta innebär att ingen längre behöver manuell inriktning för att få tillbaka originalkvaliteten i ett digitalt utkast.
Källhänvisning: VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models, Qijia He m.fl., https://arxiv.org/abs/2603.24575