Syntex y grandes modelos lingüísticos

Syntex y modelos de lenguaje grandes: Una combinación especialmente atractiva

Syntex es una de las herramientas que Microsoft está impulsando con más fuerza en el campo de la inteligencia artificial (IA), especialmente desde la irrupción de su chatbot ChatGP. La empresa ofrece una amplia gama de aplicaciones y herramientas basadas en IA, OpenAI y modelos de lenguaje grandes (LLM). Syntex está integrado en la nube de Office 365, lo que permite hacer todo tipo de cosas inteligentes con los documentos sin tener que escribir código de software.

Para las empresas del mundo jurídico, como los bufetes de abogados, por ejemplo, se trata de una combinación especialmente atractiva. A lo largo de los años, este tipo de organizaciones han almacenado a veces cientos de miles de documentos, a menudo sin que nada ni nadie tenga aún la visión completa de qué se puede encontrar dónde. El abogado medio tampoco es un experto en software, y el talento especializado en software es cada vez más escaso y caro, por lo que una solución accesible y fácil de usar como Syntex puede ser una bendición.

Un papel para la IA: clasificación y extracción

Así pues, para una empresa como Documentaal, con una clientela procedente en gran medida del mundo jurídico, Syntex resulta sin duda interesante de probar. Presentamos una situación práctica ficticia: de una biblioteca de varios cientos de documentos PDF escaneados almacenados en su entorno SharePoint, queremos seleccionar los contratos procedentes de una organización concreta. De esos contratos, queremos conocer al firmante o firmantes. En la terminología de Syntex, esto se llama clasificación y extracción.

Dependiendo de los requisitos concretos y de la experiencia informática de la organización, puede ser necesario invertir tiempo para que Syntex sea plenamente operativo. Contratar a expertos externos para ello puede ser una opción interesante. Pero una vez en marcha, Syntex también puede ser mantenido por profesionales no informáticos. Es una gran ventaja frente a la personalización.

En términos de clasificación, Syntex obtiene unos resultados muy razonables: en nuestro conjunto de pruebas, 11 de los 12 documentos probados se clasificaron correctamente.

En cuanto a la extracción, el rendimiento es menor: sólo tres de cada 12 firmas se reconocen correctamente. El algoritmo utilizado bajo el agua parece ser muy sensible a las perturbaciones ópticas, como una mancha en el cristal del escáner o una firma superpuesta al texto impreso. Por desgracia, muchas personas tienen la disposición de poner su firma de esa manera. Como resultado, el rendimiento de Syntex en esta prueba es pobre.

En cuanto al tiempo de respuesta, Syntex tarda entre unos minutos y media hora, dependiendo de lo ocupado que esté el servidor. Así que para un pequeño número de documentos, esto es bastante largo, pero lo bueno es que este tiempo apenas aumenta para números más grandes. Así que usted puede trabajar a través de todo un entorno de SharePoint en un tiempo muy razonable.

Clasificación y extracción mediante Python, OpenAI y LLM

En un blog anterior se describía cómo ChatGPT, de OpenAI, puede utilizarse para desbloquear conocimientos específicos del dominio. En pocas palabras, usted proporciona un conocimiento específico del dominio junto con su consulta y OpenAI suele devolverle una respuesta muy aceptable. Al mismo tiempo, usted comparte su conocimiento, en este caso su documento, con OpenAI, lo que no siempre es deseable. Por eso Microsoft lanzó hace unos meses su propia versión de OpenAI. Todo lo que envíes allí se queda dentro de tu propio entorno Microsoft y no se comparte con el mundo exterior.

Es interesante investigar si con este enfoque podemos hacer lo mismo que con Syntex: hacer una buena clasificación y extracción. Hace falta un poco de ensayo y error para formular las preguntas de forma que las respuestas tengan realmente sentido, pero luego los resultados resultan sorprendentemente buenos: de 12 documentos, 12 se clasifican correctamente y de 10 se reconoce correctamente al firmante. Python también sufre un poco de interferencias ópticas, pero en mucha menor medida: 10 de 12 en lugar de 3 de 12. Python necesita unos 10-20 segundos por documento. Así que, para números más grandes, esto sí que suma.

En resumen, si su organización sólo necesita clasificar documentos, Syntex es una buena opción, sobre todo si se trata de grandes cantidades. Si se necesita extracción y hay interferencias ópticas de por medio, Python es aún mejor. Sin embargo, cabe esperar que el reconocimiento de caracteres de Syntex mejore pronto. Syntex también tiene la ventaja de que no es necesario escribir código, lo que hace que la herramienta sea más fácil de usar.

¿Qué puede hacer Documentaal por usted?

Documentaal cuenta con décadas de experiencia en sistemas de gestión de documentos y también está versado en IA de última generación y modelos de lenguaje grandes. ¿Su organización también se beneficia de la experiencia en el acceso a grandes volúmenes de documentos? Póngase en contacto con nosotros. Nuestros expertos estarán encantados de utilizar sus conocimientos para ofrecerle una visión aún mejor de todo el conocimiento almacenado en su organización.