Syntex og store språkmodeller

Syntex og store språkmodeller: En spesielt attraktiv kombinasjon

Syntex er et av verktøyene som Microsoft satser hardt på innen kunstig intelligens (AI), særlig etter gjennombruddet med chatboten ChatGP. Selskapet tilbyr et bredt spekter av applikasjoner og verktøy basert på AI, OpenAI og Large Language Models (LLM). Syntex er integrert i Office 365 Cloud, slik at du kan gjøre alle slags smarte ting med dokumenter uten å måtte skrive programvarekode.

For selskaper i den juridiske verdenen, som for eksempel advokatfirmaer, er dette en spesielt attraktiv kombinasjon. I årenes løp har slike organisasjoner lagret hundretusener av dokumenter, ofte uten at noen har full oversikt over hva som finnes hvor. Den jevne advokat er heller ingen programvareekspert, og spesialiserte programvaretalenter blir stadig sjeldnere og dyrere, så en lett tilgjengelig og brukervennlig løsning som Syntex kan være en gavepakke.

En rolle for kunstig intelligens: klassifisering og utvinning

Så for et selskap som Documentaal, med en kundebase som i stor grad kommer fra den juridiske verdenen, er Syntex definitivt interessant å prøve ut. Vi presenterer en fiktiv praktisk situasjon: Fra et bibliotek med flere hundre skannede PDF-dokumenter som er lagret i SharePoint-miljøet ditt, ønsker vi å velge ut de kontraktene som stammer fra én bestemt organisasjon. Av disse kontraktene ønsker vi å vite hvem som har signert dem. I Syntex-terminologi kalles dette klassifisering og uttrekk.

Avhengig av de nøyaktige kravene og organisasjonens IT-erfaring, kan det likevel kreve en viss tidsinvestering å få Syntex fullt operativt. Det kan være interessant å leie inn ekstern ekspertise til dette. Men når Syntex først er oppe og går, kan det også vedlikeholdes av andre enn IT-eksperter. Det er et stort pluss i forhold til spesialtilpasning.

Når det gjelder klassifisering, oppnår Syntex svært gode resultater: I testsettet vårt ble 11 av 12 testede dokumenter klassifisert korrekt.

Når det gjelder ekstraksjon, er resultatene dårligere: Bare tre av 12 signaturer gjenkjennes korrekt. Algoritmen som brukes under vann, ser ut til å være svært følsom for optiske forstyrrelser, for eksempel en flekk på skannerglasset eller en signatur som er lagt oppå den trykte teksten. Dessverre er det mange som har en tendens til å plassere signaturen sin på denne måten. Resultatet er at Syntex' resultater i denne testen er dårlige.

Når det gjelder behandlingstid, tar Syntex noen minutter til en halvtime, avhengig av hvor opptatt serveren er. For et lite antall dokumenter tar det altså ganske lang tid, men det fine er at denne tiden knapt øker for et større antall. Du kan altså jobbe deg gjennom et helt SharePoint-miljø på svært kort tid.

Klassifisering og ekstraksjon via Python, OpenAI og LLM

I en tidligere blogg beskrev vi hvordan ChatGPT fra OpenAI kan brukes til å finne domenespesifikk kunnskap. Kort fortalt oppgir du utvalgt domenekunnskap sammen med spørsmålet ditt, og OpenAI gir deg vanligvis et svært akseptabelt svar. Samtidig deler du dermed kunnskapen din, i dette tilfellet dokumentet ditt, med OpenAI, noe som ikke alltid er ønskelig. Derfor lanserte Microsoft sin egen versjon av OpenAI for noen måneder siden. Alt du sender dit, forblir i ditt eget Microsoft-miljø og deles ikke med omverdenen.

Det er interessant å undersøke om vi kan gjøre det samme med denne tilnærmingen som med Syntex: gjøre en god klassifisering og ekstraksjon. Det krever litt prøving og feiling å formulere spørsmålene på en slik måte at svarene faktisk gir mening, men så viser det seg at resultatene er overraskende gode: Av 12 dokumenter er 12 riktig klassifisert, og av 10 er underskriveren riktig gjenkjent. Python lider også noe av optiske forstyrrelser, men i mye mindre grad: 10 av 12 i stedet for 3 av 12. Python trenger ca. 10-20 sekunder per dokument. Så for større tall blir dette en del.

For å oppsummere: Hvis organisasjonen din kun har behov for å klassifisere dokumenter, er Syntex et godt valg, spesielt hvis det dreier seg om et stort antall dokumenter. Hvis det er behov for ekstraksjon og optisk interferens, er Python foreløpig enda bedre. Det kan imidlertid forventes at Syntex' tegngjenkjenning snart vil bli forbedret. Syntex har også den fordelen at du ikke trenger å skrive kode selv, noe som gjør verktøyet mer brukervennlig.

Hva kan Documentaal gjøre for deg?

Documentaal har flere tiårs erfaring med dokumenthåndteringssystemer og er også hjemme i moderne AI og store språkmodeller. Har din organisasjon også nytte av ekspertise innen tilgang til store mengder dokumenter? Da er det bare å ta kontakt med oss! Ekspertene våre bruker gjerne kunnskapen sin til å gi deg enda bedre innsikt i all kunnskapen som er lagret i organisasjonen din.