VIVOcs - Ein Fachcommunity-Portal auf Basis von Tweets und wissenschaftlichen Publikationen von Informatikern

Motivation #

Im Rahmen einer Zusammenarbeit mit dem Open Science Lab der TIB Hannover soll in dieser Masterarbeit prototypisch ein Fachcommunity-Portal entwickelt werden, in dem Informationen aus den Twitter-Streams zahlreicher Informatiker mit ihren traditionellen Publikationslisten verbunden werden. Viele Informatiker sprechen via Twitter informell über neue Publikationen und Themen. Forscherprofile und visualierte Netzwerke zwischen den Forschern mit derartigen Informationen anreichern zu können, verspricht daher neuartige Einblicke in die Dynamik des Fachs, sowohl für die Fachcommunity selbst als auch für Außenstehende. Die TIB wird die Ergebnisse ggf. in die Entwicklung weiterer, ähnlicher Portale einfließen lassen.

Aufgabe #

Ziel dieser Arbeit ist das Aufsetzen und Befüllen eines auf VIVO basierenden Fachcommunity-Portals für die Informatik, welches die folgenden Komponenten miteinander verknüpft:

VIVO, eine offene Semantic-Web-Anwendung, basierend auf Apache Tomcat und MySQL ist die Grundlage des Portals. VIVO hält die Daten vor, bietet Anfrage-, Betrachtungs- und Bearbeitungsmöglichkeiten für Benutzer, sowie eine offene Schnittstelle, auf der andere Anwendungen aufbauen können.
Die Publikationsmetadaten von DBLP, einer digitalen Bibliothek für die Informatik, dienen als Grundlage und Referenz für Informatiker und sollen teilweise in das Portal aufgenommen und synchronisiert werden, ebenso wie die Publikationen von Dagstuhl.
Twitter dient als soziale Plattform für den Austausch zwischen Forschern und die Entdeckung relevanter Inhalte. Dazu sollen die Twitter-Accounts von Informatikern mit den DBLP-Autorendaten im Portal verknüpft werden (diese Teilaufgabe ist prinzipiell bereits gelöst) und darauf aufbauend Mehrwertdienste, z.B. zur Empfehlung relevanter Inhalte, implementiert werden.

Im Rahmen der Arbeit sollen des weiteren eine Reihe von SPARQL-Anfragen implementiert werden, mit denen Gemeinsamkeiten und Unterschiede zwischen Co-Autorschaften und Follower-Beziehenungen bei Twitter ermittelt werden können.

Als weitere Schritte sind angedacht:

Forscher sollen eindeutig über ihre ORCID identifiziert und referenziert werden.
Volltexte (z.B. von arXiv.org) sollen mit den Publikationsmetadaten von DBLP verknüpft werden.
In einem weiteren Schritt sollen die Volltexte mit Hilfe von maschinellen Lernverfahren klassifiziert und mit Linked Open Data von DBpedia thematisch verknüpft werden. (Master)
Des weiteren sollen Verfahren zur Empfehlung und Visualisierung von Forschern und Inhalten für Themenbereiche implementiert und integriert werden. (Master)

Wenn Sie Interesse an Web-Technologien, Linked Open Data, am Umgang mit großen Datenmengen, der Anwendung von maschinellen Lernverfahren sowie Erfahrungen mit Java haben, dann melden Sie sich bei Robert Jäschke.