Syntex och stora språkmodeller

Syntex och stora språkmodeller: En särskilt attraktiv kombination

Syntex är ett av de verktyg som Microsoft satsar hårt på inom artificiell intelligens (AI), särskilt sedan genombrottet för chatboten ChatGP. Företaget erbjuder ett brett utbud av applikationer och verktyg baserade på AI, OpenAI och Large Language Models (LLM). Syntex är integrerat i Office 365 Cloud, vilket gör att du kan göra alla möjliga smarta saker med dokument utan att behöva skriva programkod.

För företag i den juridiska världen, som t.ex. advokatbyråer, är detta en särskilt attraktiv kombination. Under årens lopp har den här typen av organisationer lagrat ibland hundratusentals dokument, ofta utan att något eller någon fortfarande har full överblick över vad som kan hittas var. Den genomsnittlige advokaten är inte heller någon mjukvaruexpert, och specialiserad mjukvarutalang blir alltmer sällsynt och dyr, så en lättillgänglig och användarvänlig lösning som Syntex kan vara en gudagåva.

En roll för AI: klassificering och extraktion

Så för ett företag som Documentaal, med en kundbas som till stor del kommer från den juridiska världen, är Syntex definitivt intressant att prova. Vi presenterar en fiktiv praktisk situation: från ett bibliotek med flera hundra skannade PDF-dokument som lagras i din SharePoint-miljö vill vi välja ut de kontrakt som härrör från en viss organisation. Av dessa kontrakt vill vi veta vem eller vilka som har undertecknat. I Syntex terminologi kallas detta klassificering och extraktion.

Beroende på organisationens exakta krav och IT-erfarenhet kan det fortfarande krävas en investering i tid för att få Syntex fullt fungerande. Att anlita extern expertis för detta kan vara ett intressant alternativ. Men när Syntex väl är igång kan det även underhållas av andra än IT-proffs. Det är ett stort plus jämfört med kundanpassning.

När det gäller klassificering presterar Syntex mycket rimligt: i vår testuppsättning klassificerades 11 av 12 testade dokument korrekt.

När det gäller extraktion är resultatet sämre: endast tre av 12 signaturer identifieras korrekt. Den algoritm som används under vattnet verkar vara mycket känslig för optiska störningar, t.ex. en fläck på skannerglaset eller en signatur som överlagras på den utskrivna texten. Tyvärr har många människor en benägenhet att placera sin namnteckning på det sättet. Som ett resultat av detta är Syntex resultat i detta test dåligt.

När det gäller handläggningstiden tar Syntex några minuter till en halvtimme, beroende på hur upptagen servern är. Så för ett litet antal dokument är detta ganska lång tid, men det trevliga är att denna tid knappast ökar för större antal. Så du kan arbeta igenom en hel SharePoint-miljö inom en mycket rimlig tid.

Klassificering och extraktion via Python, OpenAI och LLM

I en tidigare blogg beskrevs hur ChatGPT, från OpenAI, kan användas för att låsa upp domänspecifik kunskap. I korthet tillhandahåller du utvald domänkunskap tillsammans med din fråga och OpenAI ger dig vanligtvis ett mycket acceptabelt svar. Samtidigt delar du med dig av din kunskap, i det här fallet ditt dokument, till OpenAI, vilket inte alltid är önskvärt. Därför lanserade Microsoft för några månader sedan sin egen version av OpenAI. Allt du skickar dit stannar i din egen Microsoft-miljö och delas inte med omvärlden.

Det är intressant att undersöka om vi kan göra samma sak med den här metoden som med Syntex: göra en bra klassificering och extrahering. Det krävs lite trial and error för att formulera frågorna på ett sådant sätt att svaren faktiskt är vettiga, men sedan visar sig resultaten vara överraskande bra: av 12 dokument är 12 korrekt klassificerade och av 10 är undertecknaren korrekt igenkänd. Python lider också något av optiska störningar, men i mycket mindre utsträckning: 10 av 12 istället för 3 av 12. Python behöver ungefär 10-20 sekunder per dokument. Så för större antal blir det mycket.

Sammanfattningsvis kan sägas att om din organisation endast behöver klassificera dokument är Syntex ett bra val, särskilt om det handlar om stora mängder. Om extraktion behövs och optiska störningar är inblandade, presterar Python för närvarande ännu bättre. Man kan dock förvänta sig att Syntex teckenigenkänning kommer att förbättras inom kort. Syntex har också fördelen att man inte behöver skriva kod själv, vilket gör verktyget mer användarvänligt.

Vad kan Documentaal göra för dig?

Documentaal har årtionden av erfarenhet av dokumenthanteringssystem och är också hemma i toppmodern AI och stora språkmodeller. Har din organisation också nytta av expertis inom åtkomst till stora mängder dokument? Ta då kontakt med oss! Våra experter använder gärna sin kunskap för att ge dig ännu bättre insikt i all den kunskap som finns lagrad i din organisation.