Die diesjährige eSDScom-Konferenz, welche durch den Bundesverband der Deutschen Industrie (BDI) organisiert wird, fand am 24.05. in Berlin statt. Das Motto: Tools and Processes.
Der Wettbewerb
Es gibt einen Wettbewerb zwischen verschiedenen Lösungen. Im Fokus steht die Extraktion von Daten aus PDF-Dateien.
Eine ganz besondere Herausforderung: Für uns unbekannte und ungesehene Sicherheitsdatenblätter (SDB) aus der englischen Sprache zu verarbeiten. Unsere Kernkompetenz lag bis dahin in der Auslesung deutschsprachiger Dokumente. Wir haben es immer wieder mit englischen SDBs zu tun. SdbHub bringt definitiv die Fähigkeiten mit, um diese individuell zu verarbeiten.
Das ist eine perfekte Gelegenheit, um nicht nur SdbHubs Fähigkeiten unter Beweis zu stellen. Der Contest ist ein großer Anreiz für uns als Team, andere Sprachen möchten wir früher oder später sowieso vollends integrieren. Warum also nicht heute schon damit anfangen? Es stellt sich natürlich bei solchen Projekten immer wieder die Frage, ob eine so kurze Zeitspanne überhaupt genügt. Das System sollte englische SDBs zumindest so weit verstehen, sodass die Ergebnisqualität einigermaßen vertretbar ist.
Insgesamt haben wir als Team ca. neun Tage für die initiale Datenextraktion für die englische Sprache investiert. Aufgrund von laufenden Projekt- und Entwicklungstätigkeiten war nicht viel mehr möglich.
Das Ergebnis
Der Tag startet mit diversen, unter anderem auch von ECHA durchgeführten, Vorträgen. Jeder Wettbewerber bekommt schließlich die Möglichkeit, seine Lösung kurz zu präsentieren.
Der Wettbewerb hat nicht das Ziel, einen Gewinner zu küren. Vielmehr geht es darum, das Ökosystem der Konvertierungs-Tools einer breiten Öffentlichkeit zu präsentieren.
Dann kam der große Augenblick. Der von Thomas Janssen (BASF) durchgeführte Wettbewerb startet. Es läuft wie folgt ab:
- Alle Teilnehmer erhalten eine Liste von SDBs per E-Mail.
- Die Teilnehmer haben eine bestimmte Zeit, diese SDBs einzulesen und daraus die Extraktionen bevorzugt in JSON oder XML und zur Not auch in CSV oder EXCEL bereitzustellen.
Einige der übermittelten Datenblätter sind verschlüsselt. SdbHub hat absolut kein Problem damit und gibt eine entsprechende Nichtlesbarkeitsmeldung aus. Da Entschlüsselung nicht unser Fokus ist (das können andere besser), lassen wir die Dokumente links liegen. Üblicherweise sind SDBs nicht verschlüsselt und können von Menschen problemlos geöffnet werden.
Insgesamt sind die in so extrem kurzer Zeit produzierten Ergebnisse mehr als ansehnlich. Die Genauigkeit bei den Datenfeldern, die wir besonders im Auge haben, liegt bei knapp 70 Prozent (um nur eine unserer vielen statistischen Metriken zu nennen). Eine erstaunlich gute Performance, besser als erwartet. Diese ist auch der fortschrittlichen Technologie von SdbHub zu verdanken. Diese ist mit etwas Arbeit auf andere Sprachen übertragbar.
Wichtige Erkenntnisse
- Solche Gelegenheiten geben einem die Möglichkeit, die Technologie über die Grenzen hinaus zu entwickeln und anvisierte Sphären früher zu betreten.
- Wettbewerb erhöht die Innovationsfähigkeit. Wir freuen uns, dass wir nicht die einzigen sind, die in dem Umfeld arbeiten.
- Wir können in sehr kurzer Zeit SdbHub auf neue Sprachen umstellen.
- Die Ergebnisse waren besser als gedacht.
Wir haben die englische Version weiterentwickelt und werden zukünftig auch US-Sicherheitsdaenblätter OSHA konform einlesen können.