Themen für Projekt- und Abschlussarbeiten

Hier finden Sie mögliche Themen für Projekt- und Abschlussarbeiten. Sie können eines der Themen (insofern es nicht zwischenzeitlich vergeben wurde) wählen oder als Inspiration für eigene Forschungsfragen nutzen. Gerne können Sie für Ihre Arbeit die Rechen- oder Datenressourcen des IBI nutzen.

Analyse des Zitationsverhaltens in literaturwissenschaftlichen Interpretationen #

Im Rahmen des Schlüsselstellen-Projekts erforschen wir Beziehungen zwischen literarischen Werken und den sie interpretierenden wissenschaftlichen Arbeiten. Dabei lässt sich beobachten, dass sich Interpretationen oft auf die gleichen Stellen in den literarischen Werken beziehen. Dies führt zur Frage, inwiefern Forschende “neue” Stellen in ihren Arbeiten zitieren oder eher auf bereits “bekannte” Stellen zurückgreifen. In diesem Zusammenhang stellt sich auch die Frage nach der “Kenntnis” bereits zitierter Stellen, für die Zitationsbeziehungen zwischen den Interpretationstexten ein Indiz sein könnten. Diese und verwandte Fragestellungen sollen in dieser Arbeit basierend auf einem (bereits aufgearbeiteten) Korpus an Interpretationstexten untersucht werden – siehe dazu die Werksübersicht auf unserer Analyseplattform QuidEx.

Kontakt: Frederik Arnold ()

Wie sehen Webseiten aus, die DOI-Kennzeichnungen mit Bezug auf Datensätze enthalten? #

Ziel des DFG-Projekts Unknown Data ist es, Webseiten zu finden, die Forschungsdaten beschreiben bzw. enthalten und die Metadaten zu den Forschungsdaten zu extrahieren und zugänglich zu machen. Basierend auf einem überschaubaren Korpus an Webseiten soll beispielsweise untersucht werden

  • welche Arten von Seiten es gibt (z.B. Auflistung von Datensätzen, Beschreibung eines Datensatzes, Verweis auf Datensätze, Projektwebseite, Forschungsdatenrepository),
  • welche Arten von Datensätzen sind beschrieben,
  • welche Metadaten zu den Datensätzen bereitgestellt werden und
  • welche Granularitäten die URLs der Webseiten haben.

Der Korpus besteht aus einer Liste kuratierter Websites, die im Rahmen verschiedener Webcrawls identifiziert wurden. Anhand eines existierenden Schemas sollen die Webseiten untersucht (und annotiert) werden. Dabei soll sich kritisch mit dem Schema beschäftigt werden.

Für diese Arbeit sind keine Programmierkenntnisse notwendig, da die Webseiten intellektuell erschlossen werden sollen.

Kontakt: Sebastian Tiesler ()

Forschungsdaten von Abschlussarbeiten am IBI #

Forschungsdaten oder digitale Anhänge sind seit einiger Zeit eine übliche “Beigabe” von Abschlussarbeiten – meist in Form von CD-ROMs oder USB-Sticks. Durch den notwendigen Umzug des IBI-Archivs bietet sich die Möglichkeit, die Datenträger der IBI-Abschlussarbeiten sowie deren zeitliche Entwicklungen zu analysieren, etwa nach den verwendeten Medien, deren Zustand, der Datenlesbarkeit oder den Dateiformaten.

Zuordnung von Szenenbezeichnungen aus Interpretationstexten #

Im Rahmen des Projekts Was ist wichtig? Schlüsselstellen in der Literatur untersuchen wir gemeinsam mit Literaturwissenschaftler:innen Verfahren zum Identifizieren, Extrahieren, Charakterisieren und Analysieren von Schlüsselstellen. Die Abschlussarbeit ist in diesem Themenfeld angesiedelt und beschäftigt sich mit Dramentexten und der Frage, wie sich Szenenbezeichnungen in Interpretationstexten auflösen und der jeweiligen Szene zuordnen lassen. Hierbei kann es sich um Ausdrücke wie “Erkennungsszene” (Anagnorisis) handeln, welche nicht spezifisch für ein Drama sind, oder Bezeichnungen, die nur in einem Drama auftauchen, wie das Parzenlied aus Iphigenie auf Tauris.

Kontakt: Frederik Arnold ()

Begriffliche Modellierung der Granularität von Schlüsselstellen #

Die im Schlüsselstellen-Projekt identifizierten Bezugnahmen zwischen literarischem Werk und zugehörigen Interpretationen lassen sich in unterschiedlichen Feinheiten (“Granularitäten”) betrachten (Segment, Passage, Stelle, Szene, Werk, etc.). Dies hat unter anderem Einfluss auf die (relative) Relevanz der einzelnen Elemente. Ziel dieser Arbeit ist einerseits die begriffliche Klärung und Modellierung dieser Feinheiten sowie andererseits die Analyse der Daten mit Hilfe dieses Modells. Eine mögliche Methode dafür könnte Formale Begriffsanalyse sein, die beispielsweise Zusammenhänge zwischen zitierten und zitierenden Texten darstellen kann und die Granularität mit Hilfe von Skalen integrieren kann.

Kontakt: Robert Jäschke.

Szenenzuordnung in Dramen #

Im Rahmen des Projekts Was ist wichtig? Schlüsselstellen in der Literatur untersuchen wir gemeinsam mit Literaturwissenschaftler:innen Verfahren zum Identifizieren, Extrahieren, Charakterisieren und Analysieren von Schlüsselstellen. Die Abschlussarbeit ist in diesem Themenfeld angesiedelt und beschäftigt sich mit Dramentexten und der Frage, wie eindeutig sich Szenen in Dramen zuordnen lassen, beispielsweise über die Nennung von Charakteren. Wenn beispielsweise in einem Text zu Goethes Faust eine Szene mit Gretchen und Lieschen erwähnt wird, dann lässt sich das auf genau eine Szene einschränken. Zusätzlich kann mit Hilfe digital vorliegender Interpretationstexte untersucht werden, welche Charaktere wie erwähnt werden und wovon dort die Eindeutigkeit der Zuordnung abhängt.

Kontakt: Frederik Arnold ()

Nutzerstudie zur Suche nach Forschungsdaten #

Für das DFG-Projekts Unknown Data suchen wir eine Person, die als Bachelor- oder Masterarbeit eine explorative Nutzerstudie an Informatikerinnen und/oder Sozialwissenschaftlerinnen zum Thema Suche nach Forschungsdaten durchführt. Wir wollen herausfinden, was Wissenschaftler*innen dieser Disziplinen von einer Suchmaschine für Forschungsdaten erwarten, welche Informationen sie benötigen, und wie sie mit existierenden Systemen umgehen. Geplant sind Interviews mit 6 bis 12 Personen. Wir erstellen im Projekt Prototypen, diese können nach Bedarf für die Studie eingesetzt werden.

Betreuung übernimmt Robert Jäschke zusammen mit Dr. Brigitte Mathiak.

Wie sehen Webseiten aus, die Forschungsdaten beschreiben und welche Informationen enthalten sie? #

Ziel des DFG-Projekts Unknown Data ist es, Webseiten zu finden, die Forschungsdaten beschreiben bzw. enthalten und die Metadaten zu den Forschungsdaten zu extrahieren und zugänglich zu machen. Basierend auf einem überschaubaren Korpus an Webseiten soll beispielsweise untersucht werden

  • welche Arten von Seiten es gibt (z.B. Auflistung von Datensätzen, Beschreibung eines Datensatzes, Verweis auf Datensätze, Projektwebseite, Forschungsdatenrepository),
  • welche Arten von Datensätzen sich auf den Seiten finden lassen,
  • welche Metadaten zu den Datensätzen bereitgestellt werden und
  • welche Granularitäten die URLs der Webseiten haben.

Die vorhandene Liste soll dabei um weitere Beispiele ergänzt werden, so dass ein gutes Spektrum an Webseiten vertreten ist. Zudem soll überlegt werden, wie sich die Metadaten zu den Webseiten modellieren lassen bzw. wie diese sinnvoll annotiert / gespeichert werden könnten.

Für diese Arbeit sind keine Programmierkenntnisse notwendig, da die Webseiten intellektuell erschlossen werden sollen.

Web Usage Mining für den Fachinformationsdienst Buch-, Bibliotheks- und Informationswissenschaft #

Der Fachinformationsdienst Buch-, Bibliotheks- und Informationswissenschaft (FID BBI) bietet für die Forschenden dieser Disziplinen einen umfangreichen Katalog zur Recherche an. Um die Bedarfe der Forschenden besser zu verstehen und insbesondere bisher ggf. noch nicht abgedeckte Bedarfe zu entdecken, sollen in dieser Abschlussarbeit mit Hilfe von Web Usage Mining die Suchanfragen an den Katalog untersucht werden. Insbesondere sollen dabei folgende Aspekte analysiert werden: häufige Anfragemuster, Anfragen mit wenigen/keinen Ergebnissen, übliche Suchsessions, Abgleich mit Klassifikationssystemen.

Literatur auf Wikipedia #

Wikipedia ist als Wissensressource in vielen Bereichen nicht mehr wegzudenken. Ein wesentliches Merkmal von Wikipedia ist der Bezug und Verweis auf existierende Quellen. Insbesondere im Bereich der Literatur(wissenschaft) werden dabei häufig auch wörtliche Zitate aus Werken übernommen. Das reicht von kurzen Textstellen bis hin zu ganzen Gedichten. Ziel dieser Arbeit ist die Untersuchung solcher wörtlichen Zitate in literaturwissenschaftlich relevanten Wikipedia-Artikeln. Dies soll ein weiterer Beitrag zum Verständnis des Begriffes Weltliteratur im Kontext von Wikipedia sein.

Die Aufgaben dieser Abschlussarbeit umfassen

  • die Abgrenzung der Artikelmenge,
  • die beispielhafte Erfassung verschiedener Klassen (bspw. im Fliesstext, abgesetzt, als Referenz) und Quellen (z.B. Prosa, Briefe) von Zitationen,
  • die Implementierung von Verfahren zur automatisierten Extraktion und Klassifikation von Zitationen sowie
  • die Analyse der extrahierten Daten.

Dazu sind Erfahrung in der Analyse von Daten sowie Programmierkenntnisse notwendig. Eine Zusammenarbeit mit dem Institut für deutsche Literatur ist möglich

Analysis of Music Datasets extracted from the Web #

As part of the Uncovr project we are trying to find music performances on online video platforms. This problem can be understood as a subset of Music Information Retrieval (MIR). In MIR, objects representing music can either be represented by metadata (e.g., title, artist, genre) or musical content (e.g., audio, lyrics, or sheet music). Within this context, we have a range of interesting topics for bachelor or master theses including but not limited to:

  • Music video classification by metadata
  • Linking music databases from the web
  • Inducing noise to music datasets
  • Evaluating audio-based music version identification models on web data

Feel free to contact us to talk about these topic ideas. Programming skills are not required, but very useful regarding most of the topics.

contact: Simon Hachmeier ()

Twitter nGram-Korpus #

Das Google nGram-Korpus hat vielfältige Einsatzzwecke, auch in der Wissenschaft. Ein analoges Korpus für Twitter existiert bisher anscheinend noch nicht. Ziel dieser Arbeit ist die Konzeption und (idealerweise) Implementierung eines entsprechenden Korpus. Dazu sollen insbesondere Lösungen gefunden werden, um Twitter-eigenen Merkmale wie Hashtags, Links oder Emoticons geeignet abzubilden. Ebenso stellt sich die Frage nach einer geeigneten Tokenisierung sowie Verfahren zur Interpolation fehlender Daten. Diese Arbeit bietet auch das Potential, sich mit großen Datenmengen und den dazugehörigen Technologien auseinanderzusetzen.

Analyse und Visualisierung von Schlüsselstellen #

Im Rahmen des DFG-Projektes Was ist wichtig? Schlüsselstellen in der Literatur untersuchen wir zusammen mit der Literaturwissenschaft Verfahren zum Identifizieren, Extrahieren, Charakterisieren und Analysieren von Schlüsselstellen. Diese Abschlussarbeit ist in diesem Themenfeld angesiedelt. Beispielsweise wäre es möglich, Faktoren wie Textlänge, Überlappung, stilistische Merkmale, Wortarten oder auch zeitliche Einflüsse zu untersuchen und mit der Popularität von Schlüsselstellen abzugleichen. Hilfreich wären auch ansprechende Visualisierungen, wie Sie bereits für Werke von Shakespeare existieren. Idealerweise haben Sie Ihr Zweitfach in den Sprach- und Literaturwissenschaften, aber notwendig ist das nicht. Kenntnisse quantitativer und statistischer Verfahren oder auch Programmierkenntnisse dürften je nach konkreter Fragestellung hilfreich sein. Bitte melden Sie sich bei Interesse bei Frederik Arnold.

Vossian Antonomasia (VA) #

Vossian Antonomasia (or short “Vossanto”) is a stylistic device commonly used in news articles (e.g., “Anna Netrebko, the Julia Roberts of opera” or “the modern Steinway, the Hummer of instruments”). There are already methods to automatically identify occurrences of Vossantos in texts. One method uses a method to filter out false positive appearances with the help of Wikidata. If you are interested in one of the following tasks, contact Michel Schwab:

Method Optimization #

One task of this work is to try out different measures to filter false positives using wikidata information. Programming skills in Python are required.

Visualization and Statistics #

One task would be to visualize and analyze the detected occurences with statistical methods and data visualization tools and improve exploration facilities (e.g., as a web page). Basic statistics skills are required.

Method Adaptation #

One task would be to adapt the methods in a way, that we can extract VA with a different source type than “human” (“the Julia Roberts of opera”), e.g., companies (“Hasselblad, the Mercedes-Benz of camera makers”), locations (“Algarve, the Riviera of Portugal”) or other entity types. Programming skills in Python are required, basic skills in machine learning could be helpful.

Publikationsverhalten von Wissenschaftler*innen #

Ausgangspunkt dieser Themas ist die Frage, wie Wissenschaftler*innen die Zeitschriften bzw. Konferenzen auswählen, auf denen sie publizieren. Naheliegende Kriterien sind Bekanntheit, szientometrische Maße (z.B. der Impactfaktor) oder auch Ranking-Listen (z.B. beim REF oder von ISI). In dieser Arbeit soll untersucht werden, inwiefern Kollaborationsbeziehungen eine Rolle spielen – inwiefern führt beispielsweise die Koautorschaft mit einer neuen Autorin zur Publikation auf einer vorher nicht beachteten Konferenz? Dazu sollen Publikationsmetadaten aus dem Microsoft Academic Graph analysiert werden.

Vergleich von Empfehlungsverfahren #

In every 24-hour period approximately 20,000,000 words of technical information are being recorded. A reader capable of reading 1,000 words per minute would require 1.5 months, reading 8 hours every day, to get through 1 day’s technical output, and at the end of that period, he would have fallen 5.5 years behind in his reading!

Hubert Murray Jr., 1966 (gefunden in DOI:10.1145/197177.197183)

Wissenschaftler sind mit dem Problem konfrontiert, dass in ihrem Spezialgebiet weitaus mehr wissenschaftliche Artikel produziert werden, als sie lesen können. Daher ist es unerlässlich, eine Auswahl zu treffen und sich auf die wesentlichsten Ergebnisse zu konzentrieren.

Empfehlungsverfahren (“Recommender”) können dabei helfen, die relevantesten Artikel zu einem Thema zu finden und dabei das Vorwissen des Forschers in Betracht zu ziehen. Mittlerweile gibt es über 80 Verfahren, die sich nur mit der Empfehlung wissenschaftlicher Fachliteratur beschäftigen. Leider ist es sehr schwierig, ein geeignetes Verfahren aus dieser großen Menge auszuwählen, weil die Evaluationen selten vergleichbar sind und daher unklar ist, welches Verfahren am besten für ein bestimmtes Empfehlungsszenario geeignet ist.

Ziel dieser Masterarbeit ist daher die Implementierung einer Auswahl der besten Verfahren und ihr Vergleich auf repräsentativen Datensätzen. Dazu müssen

  1. die existierenden Verfahren gesichtet und bewertet werden (eine gute Orientierungshilfe bietet dabei diese Übersicht),
  2. geeignete Kandidaten ausgewählt und implementiert werden (dabei ist es sinnvoll, die Autoren zu kontaktieren, um weitere Details bzw. ggf. Referenzimplementierungen zu erhalten),
  3. Datensätze ausgewählt und aufbereitet werden,
  4. ein Evaluierungsverfahren ausgewählt und implementiert werden, und schließlich
  5. die implementierten Verfahren auf den Datensätzen evaluiert werden.

Wenn Sie Interesse am Umgang mit großen Datenmengen und der Anwendung von maschinellen Lernverfahren sowie Programmiererfahrung haben, dann melden Sie sich bei Robert Jäschke.

Ein interaktives BibSonomy-Tutorial zur Spam-Erkennung und Evaluation von semantischen Ähnlichkeitsmaßen #

Themenbeschreibung

Verwendung von freien Lizenzen in der deutschen Forschungslandschaft #

Freie Lizenzen, wie sie seit langem im Umfeld der freien Software üblich sind, werden zunehmend auch für andere Arten von digitalen Artefakten verwendet (z.B. Lernmaterialien, Vortragsfolien, etc.). Ziel dieser Arbeit ist, die Verbreitung freier Lizenzen an deutschen Universitäten zu untersuchen. Welche Lizenzen werden typischerweise für welche Art von Materialien verwendet? Welche Universitäten oder Disziplinen sind Vorreiter bei der Verwendung freier Lizenzen? Wie sieht der zeitliche Verlauf dieser Entwicklung aus? Für die Analyse dieser und verwandter Fragestellungen steht ein longitudinaler Crawl der Webseiten deutscher Forschungseinrichtungen zur Verfügung.

Replicating Twitter Research #

Twitter is a popular subject of research but also still rather new. Therefore, no methodology or framework for analysis has been established. This results in different methodologies and results for papers analysing quite similar research questions or data collections. The goal of this project is to identify, classify, and compare the methodology used by a selection of publications dealing with (roughly) the same research area and then comparing the findings between the papers. This can also involve trying to replicate findings by analysing and comparing actual Twitter data.

Semantic Publishing Data #

This project shall investigate different ways to represent data about publications and researchers using semantic web standards and technologies. Specifically, it shall identify and systematise best practices and standards used by different services and develop a workflow to automatically extract, clean, enrich, and publish metadata about scholarly articles

Emerging Vocabularies in Collaborative Tagging Systems #

A common assumption is that within collaborative tagging (or social bookmarking) systems a joint vocabulary emerges over time. This project shall investigate which studies exist with respect to that topic and how their findings were confirmed. Then, similar and additional experiments shall be performed on data from different tagging systems, trying to replicate (or refuse) findings. One particular aspect of interest is whether a global (within the system) vocabulary emerges or whether this happens only within certain subgroups of users.

Metadata for Research Using Archived Web Pages #

Archiving the web is becoming more and more important also for researchers, since the web as an indispensable part of our society is (and will be) a valuable resource to analyse and understand our history. This project shall analyse which metadata for archived web pages is (typically) available, which metadata could be provided, and which metadata is actually required by different researchers. Therefore, a survey or interviews with researchers relying on/using web archives could be performed.

Profiles of Scholars on Twitter #

Scholars frequently use Twitter for scholarly communication. The goal of this project is to analyse how scholars represent themselves on Twitter, that is, how they curate their profiles, and how they describe themselves.

Comparing DBpedia and WikiData #

While DBpedia extracts data from Wikipedia, Wikidata goes the other way around: it tries to collect data and populate Wikipedia with it. DBpedia was a popular data source for research on Wikipedia. With the immense recent growth of Wikidata the question arises about the extent and quality of its data. The goal of this project is to identify a (small) set of analyses that are based on DBpedia and repeat them with data from Wikidata in order to understand the differences and identify potential pitfalls.

How to build the perfect researcher profile #

There are many services and databases about researchers which contain plenty of information – publications, over projects, research topics, collaborators, and so forth. This project shall identify main data sources and analyse which types of metadata they provide, their quality and coverage, and their accessibility. How could the perfect researcher profile be built with the least effort?