siirry pääsisältöön
Syntex ja suuret kielimallit

Syntex ja suuret kielimallit

Syntex ja suuret kielimallit: Erityisen houkutteleva yhdistelmä

Syntex on yksi niistä työkaluista, joita Microsoft ajaa voimakkaasti tekoälyn (AI) alalla, erityisesti sen chatbotin ChatGP:n läpimurron jälkeen. Yritys tarjoaa laajan valikoiman sovelluksia ja työkaluja, jotka perustuvat tekoälyyn, OpenAI:hen ja suuriin kielimalleihin (LLM). Syntex on integroitu Office 365 -pilvipalveluun, minkä ansiosta voit tehdä kaikenlaisia älykkäitä asioita asiakirjojen kanssa ilman, että sinun tarvitsee kirjoittaa ohjelmistokoodia.

Tämä on erityisen houkutteleva yhdistelmä esimerkiksi lakiasiaintoimistojen kaltaisille yrityksille. Vuosien varrella tällaiset organisaatiot ovat tallentaneet joskus satojatuhansia asiakirjoja, usein ilman, että mikään tai kenelläkään olisi vielä täyttä käsitystä siitä, mitä mistäkin löytyy. Keskiverto lakimies ei myöskään ole ohjelmistoasiantuntija, ja ohjelmistojen erikoisosaajat ovat yhä harvinaisempia ja kalliimpia, joten Syntexin kaltainen helposti lähestyttävä ja käyttäjäystävällinen ratkaisu voi olla taivaan lahja.

Tekoälyn rooli: luokittelu ja uuttaminen

Documentaalin kaltaiselle yritykselle, jonka asiakaskunta on suurelta osin juridista alaa, Syntex on ehdottomasti mielenkiintoinen kokeilukohde. Esitämme kuvitteellisen käytännön tilanteen: SharePoint-ympäristöön tallennetusta useiden satojen skannattujen PDF-asiakirjojen kirjastosta halutaan valita tietystä organisaatiosta peräisin olevat sopimukset. Näistä sopimuksista haluamme tietää allekirjoittajan tai allekirjoittajat. Syntexin terminologiassa tätä kutsutaan luokitteluksi ja uuttamiseksi.

Organisaation täsmällisistä vaatimuksista ja tietotekniikkakokemuksesta riippuen Syntexin saaminen täysin toimintakuntoon voi vaatia vielä aikainvestointeja. Ulkopuolisen asiantuntemuksen palkkaaminen tätä varten voi olla mielenkiintoinen vaihtoehto. Mutta kun Syntex on saatu käyttöön, sitä voivat ylläpitää myös muut kuin IT-alan ammattilaiset. Tämä on suuri etu räätälöintiin verrattuna.

Luokittelun osalta Syntex suoriutuu erittäin kohtuullisesti: testijoukossamme 11 testatusta 12 asiakirjasta luokiteltiin oikein.

Louhinnan osalta suorituskyky on heikompi: vain kolme allekirjoitusta 12:sta tunnistetaan oikein. Veden alla käytetty algoritmi näyttää olevan hyvin herkkä optisille häiriöille, kuten skannerin lasin tahralle tai tulostetun tekstin päälle asetetulle allekirjoitukselle. Valitettavasti monilla ihmisillä on taipumusta laittaa allekirjoituksensa näin. Tämän vuoksi Syntexin suorituskyky tässä testissä on heikko.

Syntexin käsittelyaika on muutamasta minuutista puoleen tuntiin riippuen siitä, kuinka kiireinen palvelin on. Pienelle määrälle asiakirjoja tämä on siis melko pitkä aika, mutta hyvä puoli on se, että tämä aika tuskin pitenee, jos asiakirjoja on enemmän. Voit siis käydä läpi koko SharePoint-ympäristön hyvin kohtuullisessa ajassa.

Luokittelu ja uuttaminen Pythonin, OpenAI:n ja LLM:n avulla

Aiemmassa blogissa kuvattiin, miten OpenAI:n ChatGPT:tä voidaan käyttää toimialakohtaisen tietämyksen avaamiseen. Lyhyesti sanottuna, annat kyselysi yhteydessä valittua aluetietoa, ja OpenAI antaa sinulle yleensä erittäin hyväksyttävän vastauksen. Samalla jaat siten tietämyksesi, tässä tapauksessa asiakirjasi, OpenAIn kanssa, mikä ei aina ole toivottavaa. Siksi Microsoft lanseerasi oman versionsa OpenAI:sta muutama kuukausi sitten. Kaikki, mitä lähetät sinne, pysyy omassa Microsoft-ympäristössäsi, eikä sitä jaeta ulkomaailmalle.

On mielenkiintoista tutkia, voimmeko tehdä tällä lähestymistavalla saman kuin Syntexillä: tehdä hyvän luokittelun ja uuttamisen. Vaatii hieman kokeilua ja erehdystä muotoilla kysymykset niin, että vastaukset ovat todella järkeviä, mutta sitten tulokset osoittautuvat yllättävän hyviksi: 12:sta asiakirjasta 12 luokitellaan oikein ja 10:stä tunnistetaan allekirjoittaja oikein. Myös Python kärsii jonkin verran optisista häiriöistä, mutta paljon pienemmässä määrin: 10 12:sta 3:n sijasta 10 12:sta. Python tarvitsee noin 10-20 sekuntia asiakirjaa kohti. Suurempien lukumäärien kohdalla tämä siis kasvaa.

Yhteenvetona voidaan todeta, että jos organisaatiosi tarvitsee vain luokitella asiakirjoja, Syntex on hyvä valinta, varsinkin jos kyseessä on suuri määrä asiakirjoja. Jos tarvitaan uuttamista ja optisia häiriöitä, Python toimii tällä hetkellä vielä paremmin. Voidaan kuitenkin odottaa, että Syntexin merkintunnistusta parannetaan pian. Syntexin etuna on myös se, että sinun ei tarvitse kirjoittaa itse koodia, mikä tekee työkalusta käyttäjäystävällisemmän.

Mitä Documentaal voi tehdä puolestasi?

Documentaalilla on vuosikymmenten kokemus asiakirjahallintajärjestelmistä, ja se on kotonaan myös huipputason tekoälyn ja suurten kielimallien parissa. Hyötyykö myös sinun organisaatiosi asiantuntemuksesta suurten asiakirjamäärien käyttämisessä? Ota sitten yhteyttä meihin! Asiantuntijamme hyödyntävät mielellään osaamistaan, jotta saat entistä paremman käsityksen kaikesta organisaatiossasi olevasta tiedosta.

 

Kees Rinzema

Tietotutkija/tietoanalyytikko Documentaalissa

Ota yhteyttä nyt

Jos sinulla on kysyttävää tuotteistamme ja/tai palveluistamme?
Ota meihin suoraan yhteyttä helposti.

Etunimi
Sukunimi
Sähköposti
Viesti
Lomake on lähetetty onnistuneesti!
Lomakkeen lähettämisessä tapahtui joitakin virheitä. Tarkista kaikki lomakkeen kentät uudelleen.
Takaisin ylös