Det råder stor brist på träningsdata där artificiell intelligens kan hantera flera visuella referenser samtidigt. Existerande datasets domineras av par med bara en eller två bilder, vilket gör att modeller tappar förmågan när antalet ingångar ökar. Forskare har identifierat denna gap i datan som den främsta anledningen till dålig prestanda vid komplexa uppgifter som att kombinera flera motiv eller skapa scen från olika vinklar.

För att lösa problemet presenteras en massiv ny databas med 400 000 exempel, var och en innehållande upp till tio referensbilder. Dessa har strukturerats i fyra dimensioner som täcker måttjustering, illustrering, rumslig resonemang och tidsutveckling. Förutom datan lanseras även ett nytt testinstrument för att mäta hur väl modeller hanterar dessa komplexa indata. Resultaten visar att träning med denna strukturerade långkontextdata ger betydande förbättringar jämfört med traditionella metoder, medan testerna bekräftar vikten av att kombinera olika uppgiftstyper för att bryta igenom prestandataket.

Denna lösning öppnar dörrar till mer robusta verktyg för berättande illustration och nyvinklad synsyntes utan att modellens intelligens degenererar vid ökad komplexitet. Databasen och benchmarken kommer att släppas offentligt för vidare forskning. Källa: MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data av Zhekai Chen med flera, https://arxiv.org/abs/2603.25319