|
The tasks of Leipzig University in this project are to enhance OCR recognition rates by means of rule-based or statistical models as well as document separation, document classification and automated content analysis (relation extraction, network analysis, topic threads, sentiment analysis) through statistical NLP and advanced text mining.
|
|
Das Projekt wird in Kooperation mit dem Helmholtz Forschungszentrum für Umwelt und Gesundheit in München und einem Industriepartner durchgeführt und konzentriert sich auf die Verbesserung von elektronischem und Content-basierten (“semantischem”) Zugang zu papierbasierten Archivunterlagen im Zusammenhang mit einer Lagerstätte für radioaktive Abfälle in Deutschland. Zu den Aufgaben der Universität Leipzig in diesem Projekt zählen die OCR-Optimierung mittels Nachkorrektur mit Hilfe von regelbasierten und statistischen Modellen sowie Dokumententrennung, Dokumentenklassifizierung und automatische Inhaltsanalyse (Relation Extraction, Netzwerkanalyse, Identifikation von Themensträngen, evtl. Sentiment-Analyse u.ä.) durch statistische Sprachverarbeitung und fortgeschrittene Text Mining Methoden.
|