Att besvara komplexa forskningsfrågor kräver ofta att man gräver igenom enorma samlingar av dokument för att hitta strukturerad bevisning. Traditionellt innebär detta att manuellt designa ett etikettningssystem och noggrant märka upp varje enskild datapunkt – en process som är långsam och benägen att innehålla mänskliga misstag. Forskare har nu presenterat ScheMatiQ, ett nytt verktyg som ändrar spelet genom att använda stora språkmodeller för att automatiskt bygga dessa system från grunden.

Detta innovativa tillvägagångssätt tar en fråga på naturligt språk och ett textkorpus, och genererar därefter ett anpassat schema samt en databas med underlag i texten. Ett inbyggt webbgränssnitt låter användarna styra extraktionsprocessen och revidera resultaten i realtid, vilket säkerställer noggrannhet utan att kräva djup teknisk kompetens. Systemet effektivt brygger klyftan mellan råtext och strukturerad data redo för omedelbar analys.

Verktyget har redan visat sitt värde inom högt spelade områden som rättsväsende och beräkningsbiologi, där det stödjer verklig analys tillsammans med experter på området. Genom att automatisera vad som tidigare tog veckors manuellt arbete gör ScheMatiQ rigorös dataextraktion tillgänglig för alla med en forskningsfråga. Det står som en kraftfull öppen källkodslösning som inbjuder experter från alla discipliner att tillämpa sina egna data på plattformen.

Slutsatsen är tydlig: hindret mellan att ställa en fråga och få strukturerade svar försvinner snabbt. Med ScheMatiQ tillgängligt öppet för allmänheten kan forskare fokusera på upptäckter snarare än tråkig datapreparation, vilket accelererar framsteg inom både vetenskap och rättsväsende.