Syntex og store sprogmodeller

Syntex og store sprogmodeller: En særlig attraktiv kombination

Syntex er et af de værktøjer, som Microsoft satser hårdt på inden for kunstig intelligens (AI), især efter gennembruddet med chatbotten ChatGP. Virksomheden tilbyder en bred vifte af applikationer og værktøjer baseret på AI, OpenAI og Large Language Models (LLM). Syntex er integreret i Office 365 Cloud, så du kan gøre alle mulige smarte ting med dokumenter uden at skulle skrive softwarekode.

For virksomheder i den juridiske verden, som f.eks. advokatfirmaer, er dette en særlig attraktiv kombination. I årenes løb har den slags organisationer gemt nogle gange hundredtusindvis af dokumenter, ofte uden at noget eller nogen stadig har det fulde overblik over, hvad der kan findes hvor. Den gennemsnitlige advokat er heller ikke softwareekspert, og specialiserede softwaretalenter bliver mere og mere sjældne og dyre, så en lettilgængelig og brugervenlig løsning som Syntex kan være en gave fra himlen.

En rolle for AI: klassificering og ekstraktion

Så for en virksomhed som Documentaalmed en kundebase, der hovedsageligt kommer fra den juridiske verden, er Syntex derfor bestemt interessant at prøve en gang. Vi præsenterer en fiktiv praktisk situation: Fra et bibliotek med flere hundrede scannede PDF-dokumenter, der er gemt i dit SharePoint-miljø, ønsker vi at vælge de kontrakter, der stammer fra en bestemt organisation. Af disse kontrakter vil vi gerne vide, hvem der har underskrevet dem. I Syntex' terminologi kaldes dette klassificering og udtrækning.

Afhængigt af organisationens præcise krav og IT-erfaring kan det stadig kræve en investering i tid at få Syntex fuldt operationel. Det kan være en interessant mulighed at hyre ekstern ekspertise til dette. Men når det først er oppe at køre, kan Syntex også vedligeholdes af ikke-IT-professionelle. Det er et stort plus i forhold til brugertilpasning.

Med hensyn til klassificering klarer Syntex sig meget fornuftigt: I vores testsæt blev 11 ud af 12 testede dokumenter klassificeret korrekt.

Med hensyn til ekstraktion er præstationen mindre: kun tre ud af 12 signaturer genkendes korrekt. Den algoritme, der bruges under vandet, ser ud til at være meget følsom over for optiske forstyrrelser, såsom en plet på scannerglasset eller en underskrift, der er lagt oven på den trykte tekst. Desværre har mange mennesker en tilbøjelighed til at sætte deres underskrift på den måde. Resultatet er, at Syntex' præstation i denne test er dårlig.

Med hensyn til ekspeditionstid tager Syntex et par minutter til en halv time, afhængigt af hvor travlt der er på serveren. Så for et lille antal dokumenter er dette ret lang tid, men det gode er, at denne tid næppe stiger for større antal. Så du kan arbejde dig igennem et helt SharePoint-miljø inden for en meget rimelig tid.

Klassificering og ekstraktion via Python, OpenAI og LLM

En tidligere blog beskrev, hvordan ChatGPT fra OpenAI kan bruges til at finde domænespecifik viden. Kort sagt leverer du udvalgt domæneviden sammen med din forespørgsel, og OpenAI giver dig normalt et meget acceptabelt svar tilbage. Samtidig deler du dermed din viden, i dette tilfælde dit dokument, med OpenAI, hvilket ikke altid er ønskeligt. Det er derfor, Microsoft lancerede sin egen version af OpenAI for et par måneder siden. Alt, hvad du sender dertil, forbliver i dit eget Microsoft-miljø og bliver ikke delt med omverdenen.

Det er interessant at undersøge, om vi kan gøre det samme med denne tilgang som med Syntex: lave en god klassifikation og ekstraktion. Det kræver lidt trial and error at formulere spørgsmålene på en sådan måde, at svarene faktisk giver mening, men så viser resultaterne sig at være overraskende gode: ud af 12 dokumenter er 12 korrekt klassificeret, og ud af 10 er underskriveren korrekt genkendt. Python lider også lidt under optisk interferens, men i meget mindre grad: 10 ud af 12 i stedet for 3 ud af 12. Python har brug for omkring 10-20 sekunder pr. dokument. Så ved større tal løber det op.

Kort sagt, hvis din organisation kun har brug for at klassificere dokumenter, er Syntex et godt valg, især hvis der er tale om et stort antal. Hvis der er behov for ekstraktion, og der er optisk interferens involveret, klarer Python sig i øjeblikket endnu bedre. Det kan dog forventes, at Syntex' tegngenkendelse snart vil blive forbedret. Syntex har også den fordel, at man ikke selv behøver at skrive kode, hvilket gør værktøjet mere brugervenligt.

Hvad kan Documentaal gøre for dig?

Documentaal har flere årtiers erfaring med dokumenthåndteringssystemer og er også fortrolig med state-of-the-art AI og Large Language Models. Har din organisation også brug for ekspertise i at få adgang til store mængder dokumenter? Så tag kontakt til os! Vores eksperter vil med glæde bruge deres viden til at give dig endnu bedre indsigt i al den viden, der er lagret i din organisation.