Aller au contenu principal
Syntex et les grands modèles linguistiques

Syntex et les grands modèles linguistiques

Syntex et modèle de langage de grande taille: Une combinaison particulièrement attrayante

Syntex est l'un des outils que Microsoft met en avant dans le domaine de l'intelligence artificielle (IA), notamment depuis la percée de son chatbot ChatGP. L'entreprise propose une large gamme d'applications et d'outils basés sur l'IA, OpenAI et modèle de langage de grande taille(LLM).  Syntex est intégré à Office 365 Cloud, ce qui vous permet de faire toutes sortes de choses intelligentes avec des documents sans avoir à écrire de code logiciel.

Pour les entreprises du secteur juridique, comme les cabinets d'avocats par exemple, il s'agit d'une combinaison particulièrement attrayante. Au fil des ans, ces organisations ont stocké parfois des centaines de milliers de documents, souvent sans que rien ni personne n'ait encore une vue d'ensemble de ce qui peut être trouvé à tel ou tel endroit. Le juriste moyen n'est pas non plus un expert en logiciels, et les talents spécialisés dans ce domaine deviennent de plus en plus rares et coûteux, de sorte qu'une solution accessible et conviviale comme Syntex peut être une aubaine.

Un rôle pour l'IA : classification et extraction

Pour une entreprise comme Documentaal, dont la clientèle est principalement issue du monde juridique, Syntex est donc certainement intéressant à tester. Nous présentons une situation pratique fictive : à partir d'une bibliothèque de plusieurs centaines de documents PDF scannés stockés dans votre environnement SharePoint, nous voulons sélectionner les contrats émanant d'une organisation particulière. Parmi ces contrats, nous voulons connaître le(s) signataire(s). Dans la terminologie de Syntex, on parle de classification et d'extraction.

En fonction des exigences précises et de l'expérience informatique de l'organisation, un investissement en temps peut être nécessaire pour rendre le Syntex pleinement opérationnel. Il peut être intéressant de faire appel à des experts externes. Mais une fois qu'il est opérationnel, Syntex peut également être entretenu par des personnes qui ne sont pas des professionnels de l'informatique. C'est un atout majeur par rapport à la personnalisation.

En termes de classification, Syntex obtient des résultats très raisonnables : dans notre série de tests, 11 des 12 documents testés ont été classés correctement.

En termes d'extraction, les performances sont moindres : seules trois signatures sur douze sont correctement reconnues. L'algorithme utilisé sous l'eau semble très sensible aux perturbations optiques, telles qu'une tache sur la vitre du scanner ou une signature superposée au texte imprimé. Malheureusement, de nombreuses personnes sont disposées à apposer leur signature de cette manière. Par conséquent, les performances de Syntex dans ce test sont médiocres.

En ce qui concerne le délai d'exécution, Syntex prend de quelques minutes à une demi-heure, en fonction de l'activité du serveur. Pour un petit nombre de documents, c'est donc assez long, mais ce qui est bien, c'est que ce temps n'augmente pratiquement pas pour un plus grand nombre de documents. Vous pouvez donc travailler sur l'ensemble d'un environnement SharePoint dans un délai très raisonnable.

Classification et extraction via Python, OpenAI et LLM

Un blog précédent décrivait comment ChatGPT, d'OpenAI, peut être utilisé pour débloquer des connaissances spécifiques à un domaine. En bref, vous fournissez des connaissances sélectionnées dans le domaine avec votre requête et OpenAI vous donne généralement une réponse très acceptable. En même temps, vous partagez vos connaissances, dans ce cas votre document, avec OpenAI, ce qui n'est pas toujours souhaitable. C'est pourquoi Microsoft a lancé sa propre version d'OpenAI il y a quelques mois. Tout ce que vous y envoyez reste dans votre propre environnement Microsoft et n'est pas partagé avec le monde extérieur.

Il est intéressant de voir si nous pouvons faire la même chose avec cette approche qu'avec Syntex : réaliser une bonne classification et une bonne extraction. Il faut quelques essais et erreurs pour formuler les questions de manière à ce que les réponses aient un sens, mais les résultats s'avèrent étonnamment bons : sur 12 documents, 12 sont correctement classés et sur 10, le signataire est correctement reconnu. Python souffre également des interférences optiques, mais dans une moindre mesure : 10 sur 12 au lieu de 3 sur 12. Python a besoin d'environ 10 à 20 secondes par document. Donc, pour des nombres plus importants, cela s'additionne.

En résumé, si votre organisation n'a besoin que de classer des documents, Syntex est un bon choix, surtout s'il s'agit d'un grand nombre de documents. Si l'extraction est nécessaire et qu'il y a des interférences optiques, Python est encore plus performant. Toutefois, on peut s'attendre à ce que la reconnaissance de caractères de Syntex soit bientôt améliorée. Syntex présente également l'avantage de ne pas devoir écrire de code soi-même, ce qui rend l'outil plus convivial.

Que peut faire Documentaal pour vous ?

Documentaal a des dizaines d'années d'expérience dans les systèmes de gestion de documents et est également à l'aise avec l'IA de pointe et modèle de langage de grande taille. Votre organisation bénéficie-t-elle également d'une expertise en matière d'accès à de grands volumes de documents ? Dans ce cas, prenez contact avec nous ! Nos experts se feront un plaisir d'utiliser leurs connaissances pour vous donner un meilleur aperçu de toutes les connaissances stockées dans votre organisation.

 

Kees Rinzema

Scientifique et analyste de données chez Documentaal

Contact

Si vous avez des questions sur nos produits et/ou services ?
Vous pouvez nous contacter directement en toute simplicité.

Prénom
Nom de famille
Courriel :
Message
Le formulaire a été envoyé avec succès !
Des erreurs se sont produites lors de l'envoi du formulaire. Veuillez vérifier à nouveau tous les champs du formulaire.
Retour au début