Erstellung von Gazetteers

Eine wichtige Aufgabe bei der Extraktion von Wissen aus unstrukturierten (Text)Daten ist die Erkennung und Klassifikation von Eigennamen (z.B. Donald E. Knuth, Linux, oder Ada). Dabei sind sogenannte Gazetteers, also Listen von Eigennamen einer bestimmten Klasse (z.B. Person, Betriebssystem, Programmiersprache) ein wichtiges Hilfsmittel. Diese lassen sich z.B. aus den in der DBpedia vorliegenden Daten aus der Wikipedia erstellen. Ein solches Verfahren ist in dem wissenschaftlichen Artikel

EAGER: extending automatically gazetteers for entity recognition by O. Gunes, C. Schallhart, T. Furche, J. Lehmann, and A.-C. Ngonga Ngomo. Proceedings of the 3rd Workshop on the People’s Web Meets NLP: Collaboratively Constructed Semantic Resources and their Applications to NLP, page 29-33. Association for Computational Linguistics, (July 2012).

beschrieben. Ziel des Projektes ist die Implementierung des genannten Verfahrens, das Testen auf ausgewählten Datensätzen von DBpedia, sowie die anschließende Anpassung und Verbesserung.

Wenn Sie Interesse am Umgang mit großen Datenmengen und der Anwendung von maschinellen Lernverfahren haben, dann melden Sie sich bei Robert Jäschke.