Vai al contenuto principale
Syntex e modelli linguistici di grandi dimensioni

Syntex e modelli linguistici di grandi dimensioni

Syntex e modello di lingua di grandi dimensioni: Una combinazione particolarmente interessante

Syntex è uno degli strumenti che Microsoft sta spingendo molto nel campo dell'intelligenza artificiale (AI), soprattutto dopo la scoperta del suo chatbot ChatGP. L'azienda offre un'ampia gamma di applicazioni e strumenti basati su AI, OpenAI e modello di lingua di grandi dimensioni (LLM). Syntex è integrato in Office 365 Cloud e consente di fare ogni tipo di operazione intelligente con i documenti senza dover scrivere codice software.

Per le aziende del mondo legale, come ad esempio gli studi legali, si tratta di una combinazione particolarmente interessante. Nel corso degli anni, questo tipo di organizzazioni ha archiviato centinaia di migliaia di documenti, spesso senza che nessuno abbia ancora una visione completa di ciò che si può trovare. L'avvocato medio non è un esperto di software e i talenti specializzati in software stanno diventando sempre più scarsi e costosi, quindi una soluzione accessibile e facile da usare come Syntex può essere una manna dal cielo.

Un ruolo per l'IA: classificazione ed estrazione

Quindi per un'azienda come Documentaal, con una base di clienti in gran parte provenienti dal mondo legale, Syntex è sicuramente interessante da provare. Presentiamo una situazione pratica fittizia: da una libreria di diverse centinaia di documenti PDF scansionati archiviati nel vostro ambiente SharePoint, vogliamo selezionare i contratti provenienti da una particolare organizzazione. Di questi contratti, vogliamo conoscere il firmatario (o i firmatari). Nella terminologia di Syntex, questa operazione si chiama classificazione ed estrazione.

A seconda dei requisiti precisi e dell'esperienza informatica dell'organizzazione, potrebbe essere necessario un investimento di tempo per rendere Syntex pienamente operativo. Un'opzione interessante potrebbe essere quella di ricorrere a competenze esterne. Ma una volta in funzione, Syntex può essere mantenuto anche da professionisti non informatici. Questo è un grande vantaggio rispetto alla personalizzazione.

In termini di classificazione, Syntex si comporta in modo molto ragionevole: nel nostro set di prova, 11 dei 12 documenti testati sono stati classificati correttamente.

In termini di estrazione, le prestazioni sono inferiori: solo tre firme su 12 vengono riconosciute correttamente. L'algoritmo utilizzato sott'acqua sembra essere molto sensibile ai disturbi ottici, come una macchia sul vetro dello scanner o una firma sovrapposta al testo stampato. Purtroppo, molte persone hanno l'abitudine di apporre la propria firma in questo modo. Di conseguenza, le prestazioni di Syntex in questo test sono scarse.

In termini di tempo di risposta, Syntex impiega da pochi minuti a mezz'ora, a seconda di quanto è occupato il server. Quindi, per un numero ridotto di documenti, si tratta di un tempo piuttosto lungo, ma la cosa bella è che questo tempo non aumenta quasi mai per un numero maggiore di documenti. È quindi possibile lavorare su un intero ambiente SharePoint in un tempo molto ragionevole.

Classificazione ed estrazione tramite Python, OpenAI e LLM

In un blog precedente è stato descritto come ChatGPT, di OpenAI, possa essere utilizzato per sbloccare le conoscenze specifiche del dominio. In breve, si fornisce una conoscenza del dominio selezionata insieme alla domanda e OpenAI di solito restituisce una risposta accettabile. Allo stesso tempo, però, si condivide con OpenAI la propria conoscenza, in questo caso il proprio documento, il che non è sempre auspicabile. Per questo motivo Microsoft ha lanciato qualche mese fa la propria versione di OpenAI. Tutto ciò che viene inviato rimane all'interno del proprio ambiente Microsoft e non viene condiviso con il mondo esterno.

È interessante verificare se con questo approccio possiamo ottenere lo stesso risultato di Syntex: una buona classificazione ed estrazione. Ci vogliono un po' di tentativi ed errori per formulare le domande in modo che le risposte abbiano effettivamente senso, ma poi i risultati si rivelano sorprendentemente buoni: su 12 documenti, 12 sono classificati correttamente e su 10 il firmatario è riconosciuto correttamente. Anche Python soffre un po' dell'interferenza ottica, ma in misura molto minore: 10 su 12 invece di 3 su 12. Python ha bisogno di circa 10-20 secondi per documento. Quindi, per numeri più grandi, i conti tornano.

In sintesi, se la vostra organizzazione ha bisogno solo di classificare i documenti, Syntex è una buona scelta, soprattutto se si tratta di un numero elevato di documenti. Se è necessaria l'estrazione e l'interferenza ottica, Python è attualmente ancora più performante. Tuttavia, si prevede che il riconoscimento dei caratteri di Syntex sarà presto migliorato. Syntex ha anche il vantaggio di non dover scrivere codice, rendendo lo strumento più facile da usare.

Cosa può fare Documentaal per voi?

Documentaal vanta un'esperienza pluridecennale nei sistemi di gestione Documentaale e si occupa anche di AI e modello di lingua di grandi dimensioni all'avanguardia. Anche la vostra organizzazione ha bisogno di competenze nell'accesso a grandi volumi di documenti? Allora contattateci! I nostri esperti saranno lieti di mettere a disposizione le loro conoscenze per offrirvi una visione ancora migliore di tutte le conoscenze archiviate nella vostra organizzazione.

 

Kees Rinzema

Scienziato dei dati/Analista dei dati presso Documentaal

Contattare ora

Avete domande sui nostri prodotti e/o servizi?
Contattateci direttamente con facilità.

Nome
Cognome
E-mail
Messaggio
Il modulo è stato inviato con successo!
Si sono verificati degli errori durante l'invio del modulo. Si prega di ricontrollare tutti i campi del modulo.
Torna all'inizio