zum Hauptinhalt springen
Syntex und große Sprachmodelle

Syntex und große Sprachmodelle

Syntex und große Sprachmodelle: Eine besonders attraktive Kombination

Syntex ist eines der Tools, die Microsoft im Bereich der künstlichen Intelligenz (KI) stark vorantreibt, insbesondere seit dem Durchbruch seines Chatbots ChatGP. Das Unternehmen bietet eine breite Palette von Anwendungen und Tools, die auf KI, OpenAI und Large Language Models (LLM) basieren. Syntex ist in die Office 365 Cloud integriert und ermöglicht es Ihnen, alle möglichen intelligenten Dinge mit Dokumenten zu tun, ohne dass Sie Softwarecode schreiben müssen.

Für Unternehmen aus dem juristischen Bereich, wie z. B. Anwaltskanzleien, ist dies eine besonders attraktive Kombination. Im Laufe der Jahre haben solche Organisationen manchmal Hunderttausende von Dokumenten gespeichert, ohne dass irgendetwas oder irgendjemand noch den vollen Überblick darüber hatte, was wo zu finden ist. Auch ist der durchschnittliche Anwalt kein Software-Experte, und spezialisierte Software-Talente werden immer rarer und teurer, so dass eine zugängliche und benutzerfreundliche Lösung wie Syntex ein Geschenk des Himmels sein kann.

Eine Rolle für KI: Klassifizierung und Extraktion

Für ein Unternehmen wie Documentaal mit einem Kundenstamm, der größtenteils aus dem juristischen Bereich stammt, ist Syntex also durchaus interessant, um es auszuprobieren. Wir stellen uns eine fiktive praktische Situation vor: Aus einer Bibliothek von mehreren hundert gescannten PDF-Dokumenten, die in Ihrer SharePoint-Umgebung gespeichert sind, möchten wir die Verträge auswählen, die von einer bestimmten Organisation stammen. Von diesen Verträgen möchten wir den/die Unterzeichner kennen. In der Syntex-Terminologie wird dies als Klassifizierung und Extraktion bezeichnet.

Je nach den genauen Anforderungen und der IT-Erfahrung der Organisation kann es immer noch eine gewisse Zeit in Anspruch nehmen, bis Syntex voll einsatzfähig ist. Die Beauftragung externer Experten könnte eine interessante Option sein. Ist Syntex jedoch erst einmal in Betrieb, kann es auch von Nicht-IT-Fachleuten gewartet werden. Das ist ein großer Vorteil gegenüber einer individuellen Anpassung.

In Bezug auf die Klassifizierung schneidet Syntex sehr vernünftig ab: In unserem Testsatz wurden 11 von 12 getesteten Dokumenten richtig klassifiziert.

Bei der Extraktion ist die Leistung geringer: nur drei von 12 Unterschriften werden korrekt erkannt. Der unter Wasser verwendete Algorithmus scheint sehr empfindlich auf optische Störungen zu reagieren, z. B. auf einen Schmutzfleck auf dem Scannerglas oder eine Unterschrift, die den gedruckten Text überlagert. Leider haben viele Menschen die Veranlagung, ihre Unterschrift auf diese Weise zu platzieren. Infolgedessen ist die Leistung von Syntex in diesem Test schlecht.

Die Bearbeitungszeit von Syntex beträgt je nach Auslastung des Servers einige Minuten bis zu einer halben Stunde. Für eine kleine Anzahl von Dokumenten ist dies also recht lang, aber das Schöne ist, dass diese Zeit bei einer größeren Anzahl kaum zunimmt. Sie können also eine ganze SharePoint-Umgebung in einer sehr vernünftigen Zeit durcharbeiten.

Klassifizierung und Extraktion mit Python, OpenAI und LLM

In einem früheren Blog wurde beschrieben, wie ChatGPT von OpenAI verwendet werden kann, um domänenspezifisches Wissen zu erschließen. Kurz gesagt, Sie geben ausgewähltes Domänenwissen zusammen mit Ihrer Anfrage an und OpenAI gibt Ihnen in der Regel eine sehr akzeptable Antwort zurück. Gleichzeitig teilen Sie damit Ihr Wissen, in diesem Fall Ihr Dokument, mit OpenAI, was nicht immer wünschenswert ist. Aus diesem Grund hat Microsoft vor einigen Monaten seine eigene Version von OpenAI gestartet. Alles, was Sie dorthin senden, bleibt in Ihrer eigenen Microsoft-Umgebung und wird nicht mit der Außenwelt geteilt.

Es ist interessant zu untersuchen, ob wir mit diesem Ansatz dasselbe erreichen können wie mit Syntex: eine gute Klassifizierung und Extraktion. Es braucht ein wenig Versuch und Irrtum, um die Fragen so zu formulieren, dass die Antworten tatsächlich Sinn ergeben, aber dann sind die Ergebnisse überraschend gut: von 12 Dokumenten werden 12 richtig klassifiziert und von 10 wird der Unterzeichner richtig erkannt. Auch Python leidet etwas unter der optischen Störung, aber in viel geringerem Ausmaß: 10 von 12 statt 3 von 12. Python braucht etwa 10-20 Sekunden pro Dokument. Bei größeren Zahlen summiert sich das also.

Zusammenfassend lässt sich sagen, dass Syntex eine gute Wahl ist, wenn Ihre Organisation nur Dokumente klassifizieren muss, insbesondere wenn es sich um große Mengen handelt. Wenn eine Extraktion erforderlich ist und optische Interferenzen im Spiel sind, ist Python derzeit sogar noch besser geeignet. Es ist jedoch zu erwarten, dass die Zeichenerkennung von Syntex bald verbessert werden wird. Syntex hat auch den Vorteil, dass man keinen eigenen Code schreiben muss, was das Tool benutzerfreundlicher macht.

Was kann Documentaal für Sie tun?

Documentaal verfügt über jahrzehntelange Erfahrung mit Dokumentenmanagementsystemen und kennt sich auch mit modernster KI und Large Language Models aus. Profitiert auch Ihr Unternehmen von der Expertise beim Zugriff auf große Mengen an Dokumenten? Dann nehmen Sie Kontakt mit uns auf! Unsere Experten setzen ihr Wissen gerne ein, um Ihnen einen noch besseren Einblick in das gesamte in Ihrem Unternehmen gespeicherte Wissen zu verschaffen.

 

Kees Rinzema

Datenwissenschaftler/Datenanalyst bei Documentaal

Jetzt kontaktieren

Haben Sie Fragen zu unseren Produkten und/oder Dienstleistungen?
Bitte kontaktieren Sie uns direkt und unkompliziert.

Vornamen
Nachname
E-Mail
Nachricht
Das Formular wurde erfolgreich abgeschickt!
Beim Absenden des Formulars sind einige Fehler aufgetreten. Bitte überprüfen Sie noch einmal alle Formularfelder.
Zurück zum Anfang