Bachelor-/Masterarbeit(en) zu Big Data, Machine Learning, Crowdsourcing, Information Extraction, Named Entity Recognition, Entity Linking und Matching

Im Rahmen eines Forschungsprojektes sollen aus einem mehrere Terabyte umfassenden Web-Crawl Webseiten klassifiziert und bestimmte Informationen aus ihnen extrahiert und in einer Wissensbasis gespeichert werden. Dazu müssen zunächst die verschiedenen Klassen von Webseiten (Organisation, Projekt, Person, etc.) identifiziert und eine Grundmenge von Webseiten für einen Trainingsdatensatz klassifiziert werden. Dafür können Methoden des Crowdsourcing verwendet werden, zum Beispiel mittels der freien Plattform PyBossa. Im Anschluß soll mittels Heuristiken sowie maschinellen Lernverfahren eine Klassifikation aller Webseiten erfolgen. Für jede Klasse von Webseiten sollen dann mittels Verfahren aus dem Bereich Informationsextraktion (z.B. Conditional Random Fields, wie sie in MALLET implementiert sind) bestimmte Daten extrahiert werden (bei Organisationen z.B. deren Name, Telefonnummer und Adresse). Diese Daten sollen dann miteinander in Beziehung gesetzt und in einer Wissensbasis abgespeichert werden, so dass man beispielsweise alle Projekte einer Organisation anfragen kann.

Wenn Sie Interesse am Umgang mit großen Datenmengen und der Anwendung von maschinellen Lernverfahren sowie Erfahrungen in einem der im Titel genannten Themenbereiche haben, dann melden Sie sich bei Robert Jäschke.