Syntex en Large Language Models

Syntex en Large Language Models: Een bijzonder aantrekkelijke combinatie

Syntex is een van de tools waarmee Microsoft flink aan de weg timmert op het gebied van artificial intelligence (AI), zeker sinds de doorbraak van haar chatbot ChatGP. Het bedrijf biedt een breed scala aan applicaties en tools op basis van AI, OpenAI en Large Language Models (LLM). Syntex is geïntegreerd in de Office 365 Cloud, zodat je allerlei slimme dingen met documenten kunt doen zonder daarvoor softwarecode te hoeven schrijven.

Voor bijvoorbeeld bedrijven in de juridische wereld, zoals advocatenkantoren, is dat een bijzonder aantrekkelijke combinatie. In dit soort organisaties zijn in de loop der jaren soms wel honderdduizenden documenten opgeslagen, vaak zonder dat iets of iemand nog het volledige overzicht heeft van wat waar te vinden is. De gemiddelde advocaat is ook geen software-expert en gespecialiseerde softwaretalenten worden steeds schaarser en duurder, waardoor een laagdrempelige en gebruiksvriendelijke oplossing als Syntex een uitkomst kan zijn.

Een rol voor AI: classificatie en extractie

Voor een bedrijf als Documentaal, met een klantenkring grotendeels uit de juridische wereld, is Syntex dus zonder meer interessant om een keer uit te proberen. We presenteren u een fictieve praktijksituatie: uit een bibliotheek van enkele honderden ingescande PDF-documenten die in uw SharePoint omgeving opgeslagen zijn, willen we de contracten afkomstig van één bepaalde organisatie eruit pikken. Van die contracten willen we de ondertekenaar(s) weten. In de terminologie van Syntex heet dit classificatie en extractie.

Afhankelijk van de precieze wensen en IT-ervaring van de organisatie kan het nog een investering in tijd vereisen om het Syntex geheel operationeel te krijgen. Wellicht is het een interessante optie zijn om hiervoor externe expertise in te huren. Maar als het eenmaal goed en wel draait, kan Syntex ook door niet-IT professionals worden onderhouden. Dat is een belangrijk pluspunt ten opzichte van maatwerk.

Qua classificatie doet Syntex het heel redelijk: in onze test set werden elf van de twaalf geteste documenten correct geclassificeerd.

Wat extractie betreft zijn de prestaties minder: slechts drie van de twaalf ondertekenaars worden correct herkend. Het algoritme dat onder water wordt gebruikt, blijkt erg gevoelig te zijn voor optische verstoringen, zoals een vlekje op de glasplaat van de scanner of een handtekening die over de geprinte tekst heen is gezet. Helaas hebben veel mensen de onhebbelijkheid hun handtekening wèl zo te zetten. Daardoor vallen de prestaties van Syntex in deze test mager uit.

Qua doorlooptijd is Syntex enkele minuten tot een half uur bezig, afhankelijk van de drukte op de server. Voor een klein aantal documenten is dat dus behoorlijk lang, maar het fijne is dat deze tijd nauwelijks toeneemt voor grotere aantallen. Je kunt dus binnen heel redelijke tijd een complete SharePoint-omgeving doorwerken.

Classificatie en extractie via Python, OpenAI en LLM

In een vorige blog is beschreven hoe ChatGPT, van OpenAI, kan worden gebruikt om domeinspecifieke kennis te ontsluiten. Kort samengevat: je geeft geselecteerde domeinkennis mee met je vraag en OpenAI geeft je doorgaans een zeer acceptabel antwoord terug. Tegelijkertijd deel je je kennis, in dit geval je document, hierbij met OpenAI, wat niet altijd gewenst is. Daarom heeft Microsoft enkele maanden geleden zijn eigen versie van OpenAI gelanceerd. Alles wat je daarheen stuurt blijft binnen uw eigen Microsoft-omgeving en wordt niet met de buitenwereld gedeeld.

Het is interessant om te onderzoeken of we met deze aanpak hetzelfde kunnen doen als met Syntex: een goede classificatie en extractie doen. Het is een beetje trial and error om de vragen zó te formuleren dat de antwoorden daadwerkelijk zinvol zijn, maar dan blijken de resultaten verrassend goed: van de twaalf documenten worden er twaalf correct geclassificeerd en van tien wordt de ondertekenaar correct herkend. Python heeft ook wel een enigszins last van van optische verstoring, maar in veel mindere mate: 10 uit 12 in plaats van 3 uit 12. Python heeft per document ca. 10-20 seconden nodig. Voor grotere aantallen loopt dat dus wel op.

Samenvattend: als uw organisatie alleen documenten hoeft te classificeren is Syntex een goede keuze, zeker als het om grote aantallen gaat. Als er extractie nodig en er sprake is van optische verstoring, presteert Python op dit moment nog beter. Het is echter te verwachten dat de karakterherkenning van Syntex binnenkort verbeterd zal worden. Ook heeft Syntex als voordeel dat je zelf geen code hoeft te schrijven en de tool daarmee gebruikersvriendelijker is.

Wat kan Documentaal voor u betekenen?

Documentaal heeft tientallen jaren ervaring met documentbeheersystemen en is ook thuis in de modernste technieken op het gebied van AI en Large Language Models. Is uw organisatie ook gebaat bij expertise bij het ontsluiten van grote hoeveelheden documenten? Neem dan contact op met ons op! Onze experts zetten hun kennis graag in om u nog beter inzicht te geven in alle kennis die in uw organisatie ligt opgeslagen.