Logo der Bayerischen Akademie der Wissenschaften

Neue Potenziale für die digitale Lexikographie des Deutschen

Menu

Aktuelles

Aktuell in Bearbeitung

DWDS-Datentransformation

Das DWDS-Team hat uns freundlicherweise einige vollständige Testdatensätze zur Verfügung gestellt. Aktuell passen wir gerade unseren Transformer auf die DWDS-spezifischen Datenstrukturen an, um die Daten in unser Format überführen zu können.

Erwartete Fertigstellung: Im Laufe des Monats


LexFCS-Endpoint

Bereits im Winter 2025 haben wir der Sächsischen Akademie und dem Team um LexFCS zugesagt, eine Schnitstelle zwischen BDO und LexFCS bereitzustellen. Diese ist intern schon fertiggestellt und wird nun noch getestet.

Erwartete Fertigstellung: Im Laufe des Monats

April 2026

Lexoterm Release I

Alle Daten und Werkzeuge des Pilotprojekts werden auf dem Portal lexoterm.de veröffentlicht. Der erste Meilenstein ist weitestgehend abgeschlossen. 

Hinweis: Aktuell ist der Zugang noch zugriffsbeschränkt - für eine Vorschau gerne Kontakt aufnehmen!

Features:

  • Wörterbuchsuche ist über eine Vielzahl an Wörterbüchern möglich; aktuell sind BWB WBF und DIBS integriert. Die Suche ist flexibel erweiterbar und bietet unter anderem volle Regex-Unterstützung.
  • Die Integration weiterer Wörterbücher zu Testzwecken ist gegenwärtig in Vorbereitung.
  • Eine Werkzeug-Übersicht bietet Zugriff auf verschiedene selbstentwickelte Tools sowie solche von Partnern und Drittanbietern.
  • Für den schnellen Zugriff wurde ein eigenes Datenformat - basierend auf JSON - entwickelt. Aktuell nutzt Lexoterm MongoDB als Datenbank. Das Datenformat ist sowohl darauf ausgelegt, über standardisierte Transformationen Daten aus verschiedensten Wörterbüchern aufzunehmen, wie auch diese wiederum in TEI Lex-0 bereitzustellen.

Siehe auch: Thema "Lexikographie-Portal"


Werkzeug: Morphologische Segmentierung

Dieses Werkzeug segmentiert Wörter und Sätze morphologisch - hilfreich, um Stammformen für die Vorbereitung eines Wörterbucheintrages zu generieren.

https://wbfdemo.lexoterm.de/

Features

  • Vorverarbeitung mit NLTK und HanTa oder wahlweise spaCy
    • Tokenisierung
    • Stoppwort-Erkennung
    • Lemmatisierung
    • Wortarten-Annotation
    • Nur mit spaCy: Syntaktische Analyse (zur Rekonstruktion von trennbaren Verben)
  • Morphologische Analyse mit SMOR

Siehe auch: Thema "KI-gestützte Workflows"

März 2026

Werkzeug: LT Wörterbuch-Konsistenzprüfung

Eine erste Version unseres Tools zur Wörtebruchkonsistenzprüfung ist online:

https://dictconsistency.tools.lexoterm.de/

Dieses Werkzeug bietet verschiedene Möglichkeiten zur Konsistenzprüfung von Wörterbüchern auf XML-Basis. Es funktioniert mit beliebigen XML-Schemata, aber am besten mit TEI-Lex 0.

Features:

  • Upload von Dateien aus einem lokalen Verzeichnis, oder per ZIP.
  • XML/TL0 Validator: Prüfung auf XML-Wohlgeformtheit und TEI-Lex 0 Konformität
  • Strukturanalyse: Die Struktur bereitgestellter XML-Dateien wird analysiert, dargestellt und durchsuchbar gemacht.
  • Tag- und Pfadsuche: Suche nach bestimmten Tags oder Pfaden im XML-Baum, inklusive Wildcards
  • Inhalt / Leere Tags: Suche nach Textinhalten, leeren Tags und Umbrüchen
  • Einmaligkeit: Prüft, ob Tags oder Attribute mehrfach vorkommen
  • Verschachtelung: Prügt auf verschachtelte XML-Elemente
  • LLM-Anfrage: Einzelne oder mehrere XML-Dateien können an ein lokales oder Cloud-LLM gesendet werden. Per Chat-Funktion können Fragen gestellt und Analysen vorgenommen werden.

Siehe auch:  Thema "Konsistenzprüfung"


Werkzeug: LT Sachgruppen-Vorhersage

Inspiriert von einem Tool unserer Kolleg*innen aus der Abteilung Digital Humanities, das Sachgruppen mittels LLM Prompting vorhersagt, haben wir ein Tool getestet, das auf klassische Machine-Learning-Verfahren (ohne LLMs) setzt.

https://sgpredict.tools.lexoterm.de/

Als Basis werden existierender Klassifikationen aus den Wörterbüchern WBF und DIBS als Trainingsdaten verwendet. Diese nutzen die klassische Taxonomie nach Hallig-Wartburg.

Features

  • Training: Neue Modelle können unter Verwendung von Linear SVM, Logistic Regression, Random Forest, XGBoost und Neural Networks trainiert werden. Dabei stehen zahlreiche Parameter und Hyperparameter zur Konfiguration zur Verfügung.
  • Analyse: Übersicht aller trainierten Modelle mit Accuracy, Parametern und Trainingszeiten sowie detaillierten Klassifikationsreports
  • Vorhersage: Klassifizierung/Vorhersage für neue Lemmata (einzeln oder im Batch)
  • Sachgruppen: Auswertung der Trainings- und Prognosedaten pro Sachgruppe. Erlaubt auch Erkenntnisse hinsichtlich der lexikographischen Arbeit

Siehe auch: Thema "KI-gestützte Workflows"