När artificiell intelligens ska skapa bilder baserat på flera inmatade exempel stöter den ofta på en väggar som fångar upp komplexiteten. Ju fler referensbilder man lägger till i uppdraget, desto sämre blir resultatet hos nuvarande modeller. Orsaken är att dessa system saknar träning på strukturerad data där sambanden mellan många olika bilder samtidigt har lärts ut.

Forskarna bakom studien har hittat på lösningen genom att skapa MacroData, en stor datasetsamling med 400 000 exempel. Varje bild i samlingen kopplas till upp till tio referensbilder och är sorterad efter fyra olika kriterier: anpassning, illustration, rymdförståelse och tidsliga förändringar. För att mäta framgången har de också utvecklat en ny testmetod för att bedöma hur väl AI:n klarar av att förena information från många källor.

Resultaten visar att träning på denna nya datamängd ger betydande förbättringar i hur realistiska och sammanhängande bilder AI:n producerar. Undersökningar bekräftar också att det finns fördelar med att träna upp systemen på flera olika typer av uppgifter samtidigt snarare än isolerat. Slutsatsen är att lösningen på problemet med överlagrade referenser ligger i att ge AI:er tillgång till strukturerad information som tränar dem på att hantera komplexa samband mellan många inmatningar på samma gång.

Källa: MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data, Zhekai Chen et al., https://arxiv.org/abs/2603.25319