Allzweck-Künstliche Intelligenz bei der SDB-Datenextraktion

One size does not fit all. Auch wenn bei Künstlicher Intelligenz (KI) allerlei versprochen wird, so muss man sich vom Gedanken einer KI-Einheitslösung verabschieden (zumindest aktuell). Nehmen wir das Beispiel der Datenextraktion aus Dokumenten. Rechnungen, Lebensläufe, Produktbeschreibungen und Sicherheitsdatenblätter (SDB) sind abstrakt betrachtet sehr ähnlich. Sie haben aber allesamt einen anderen Aufbau, unterschiedliche Komplexitätsstufen und einen unterschiedlichen Bedeutungsraum. Sie transportieren allesamt auch unterschiedliche Botschaften. Nur mit Fachwissen, speziellen Anpassungen und kontinuierlicher auf die jeweiligen Branchenbedürfnisse zugeschnittene Weiterentwicklung kann hohe Datengenauigkeit sichergestellt werden.

Allzweckplattformen für Künstliche Intelligenz: Warum sie für die Sicherheitsdatenblatt-Datenextraktion ungeeignet sind!

Wenn man die Marketingversprechen der ein oder anderen Mitstreiter ansieht, könnte man denken, die KI-Terminator-Übernahme stünde schon morgen bevor. Ihre magischen KI-Computer haben Zauberkugeln, die Visionen versprechen. Versprechen ist allerdings das einzige Zauberwort, welches hier betont werden sollte. Das steht nämlich über der angepriesenen Technologie.

Unsere wissenschaftlichen Aktivitäten am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) nahmen wir im Jahr 2007 auf. In den vielen Jahren kamen wir zwar in Kontakt mit den wildesten Versprechen aus der KI-Industrie, der Kontakt mit derartigen KI-Zauberkugeln blieb bisher leider aus. Vielleicht haben wir in all der intensiven Forschungszeit einfach nur Pech gehabt. Vielleicht haben wir zu tief in unsere eigenen Computerröhren geschaut. Viel wahrscheinlicher ist jedoch die viel offensichtlichere auf dem Tisch liegende Wahrheit: Es gibt viele Marketingversprechen, es gibt aber keine KI-Zauberkugeln.

Es ist richtig, dass KI-Modelle mit Dokumenten aller Art antrainiert werden können. Diese Modelle bilden eine gute Grundlage für weitere Extraktionsschritte. ABER: Kunden möchten keine experimentellen Softwarelösungen nutzen. Ohne Feintuning bleiben weitere Schritte nicht aus. Dadurch wird der Zweck der KI-Extraktion untergraben.

Die KI muss auf die einzelnen spezifischen Dokumente angepasst werden, damit saubere strukturierte Daten aus Dokumenten extrahiert werden können. Um die strukturelle Verarbeitung allein geht es auch nicht. Die Bedeutung des Inhalts hat Auswirkungen auf die Extraktion. Der Unternehmensname im Lebenslauf ist anders zu verstehen als der Unternehmensname im SDB. Bei der Datenbereitstellung von strukturierten Dokumenten (wie z.B. SDBs) mit Berücksichtigung der semantischen Ebene führt daher kein Weg an den speziellen Anpassungen vorbei. Diese sind in SdbHub standardmäßig integriert.

Es ist nicht überraschend, dass diese KI-Allzweck-Anbieter auf den Zug aufspringen. Die Dokumente scheinen auf den ersten Blick nicht sonderlich komplex auszusehen. Da kann man relativ schnell ein brauchbares Ergebnis produzieren. Aber die Vielfalt der Dokumente macht die benötigte Präzision alles andere als einfach. Dies haben wir selber feststellen müssen, als wir 2016 unsere SonarBox-Plattform auf SDBs angewendet haben. Es hat funktioniert, keine Frage. Auf die Vielfalt der SDBs waren wir damals nicht gefasst gewesen. Diese zeichnet sich vor allem durch viele nicht unter den Teppich zu kehrende sicherheitsrelevante Detailinformationen aus. Ein robuste und spezielle KI-SDB-Extraktion muss darauf gewappnet sein.

Viele der generischen KI-Plattformen liefern Key-Value-Paare aus Sicherheitsdatenblättern. Bei SdbHub stellt dieser Schritt die unterste Aufbereitungsstufe dar. Bis Daten sauber und strukturiert ausgegeben werden können, gibt es zunächst zahlreiche Algorithmen, die die Zuordnung spezifizieren, einordnen und zu den anderen Datenfeldern in Relation setzen müssen. Erst am Ende kann eine Entscheidung getroffen werden, ob dieses Datenelement auch der Erwartung entspricht. Solche komplexen Verarbeitungsschritte sind bei Datumsangaben weniger wichtig. Denken wir hingegen an die Informationen zu Gemischen oder an die Daten aus Abschnitt 14, kommen wir mit einfachen Key-Value-Paaren nicht wirklich weit.