Forskare har hittat ett sätt att göra AI:ns förståelse för relationer mellan delar och hela scener markant mer exakt genom hyperbolisk geometri.

En ny modell, UNCHA, löser en vanlig svaghet hos dagens visionsspråkmodeller: de misslyckas ofta med att korrekt bedöma vilka detaljer i en bild som är avgörande för helheten. I stället för att behandla alla delar lika, använder modellen hyperbolisk osäkerhet för att dynamiskt väga upp vad som är väsentligt.

Genom att ge högre osäkerhetsvärden till mindre representativa detaljer och lägre värden till viktiga delar, lär sig systemet själv att prioritera den semantiska strukturen. Detta leder till en mer korrekt ordning av relationer där delar tydligare kopplas till sin helhet.

Praktiskt sett innebär detta att AI:n blir betydligt bättre på nollskattande klassificering och sökningar i komplexa scenarier med flera objekt, utan att behöva tränas om för varje ny bild. Modellen når nu bästa möjliga prestanda på dessa uppgifter jämfört med existerande metoder.

Källa: Hayeon Kim m.fl., "Uncertainty-guided Compositional Alignment...", arXiv.org