Hier finden Sie mögliche Themen für Projekt- und Abschlussarbeiten. Sie können eines der Themen (insofern es nicht zwischenzeitlich vergeben wurde) wählen oder als Inspiration für eigene Forschungsfragen nutzen. Gerne können Sie für Ihre Arbeit die Rechen- oder Datenressourcen des IBI nutzen.
Nicht alle für die Forschung relevanten Daten sind frei verfügbar, sondern müssen beispielsweise von Verlagen, Meinungsforschungsinstituten oder Archiven erworben werden. Diese Arbeit soll die Rolle der wissenschaftlichen Bibliotheken in Deutschland beim Erwerb und der Kuratierung solcher Daten untersuchen. Welche Prozesse, Erfahrungen und Herausforderungen gibt es dafür und wie sind die Bedarfe der Forschenden? Diese und weitere Fragen sollen in einer Abschlussarbeit untersucht werden.
Welche Hinweise zu konkreten Forschungsdaten lassen sich auf den Webseiten von Forschungsinstitutionen und Forschenden finden? Wie können solche Hinweise gefunden werden und welche Metadaten zu Forschungsdaten werden in welcher Form bereitgestellt? Basierend auf einem vorhandenen Webcrawl sollen Muster zur Identifikation relevanter Webseiten identifiziert und evaluiert werden sowie Analysen zur Beantwortung der eingangs genannten Fragen durchgeführt werden. Der Fokus soll dabei auf den Webseiten der Humboldt-Universität zu Berlin sowie ggf. von dort aus verlinkter Webseiten liegen.
Prüfungs- und Studienordnungen sind auch historisch betrachtet interessante Dokumente des Lehrbetriebes an Hochschulen: Sie dokumentieren beispielsweise Inhalte, Methoden und Regularien von Studiengängen. Ziel dieser Arbeit ist die Entwicklung und Implementierung eines Prozesses zur Identifikation von Prüfungsordnungen im German Academic Web. Die Evaluation des Prozesses kann beispielsweise über einen Abgleich mit den angebotenen Studienfächern der Universitäten erfolgen, über zeitliche Veränderungen, den Umfang der Dokumente sowie inhaltliche Ähnlichkeiten (zwischen Dokumenten und Universitäten), etwa über Clustering. Ein Desiderat der Arbeit könnte ein öffentlich zugängliches Archiv historischer Prüfungsordnungen sein.
Forschende müssen regelmäßig einen Überblick über die von Ihnen publizierten Forschungsbeiträge liefern, beispielsweise in Lebensläufen und Projektberichten oder auf Webseiten. Daher haben sie typischerweise bestimmte Prozesse etabliert, um mit möglichst wenig Aufwand solche Publikationslisten zu erstellen und um neue Beiträge zu ergänzen. Gleichzeitig sind diese Daten auch für andere Zwecke interessant, etwa zum Aufbau einer Hochschulbibliographie. Dabei stellt sich die Frage, wie vorhandene Daten mit möglichst geringem Mehraufwand für die Forschenden erhoben werden können. Das Ziel dieser Arbeit ist daher, zu untersuchen, wie Forschende ihre Literaturreferenzen organisieren, welche Werkzeuge, Prozesse und Workflows sie nutzen und welche Gemeinsamkeiten und Unterschiede es dabei gibt.
Ziel dieser Arbeit ist, die Verwendung und Verlinkung von Blogs in der deutschen Wissenschaftslandschaft zu untersuchen. Dazu sollen in einem longitudinalen Webcrawl (GAW) Hyperlinks zu Blogs sowie Blogwebseiten untersucht werden. Neben der Analyse von URLs sollen auch Anchortexte und Volltexte nach Hinweisen auf Blogs durchsucht werden. Anschließend sollen typische Muster entdeckt und analysiert werden, etwa auf Ebene von Hostnamen, Pfaden, und Anchortexten.
Ansprechpartner:innen sind Catharina Ochsner () und Sebastian Tiesler ()
Um die Wahrscheinlichkeit zu erhöhen, bei einem Webcrawl möglichst viele Seiten mit einer gesuchten Eigenschaft zu finden, können die Zugriffe auf neu entdeckte URLs auf verschiedene Arten priorisiert werden. Um diese Methoden vergleichen zu können, kann ihr Verhalten an den Daten vergangener Erfassungskampagnen untersucht werden.
Ein Ziel dieser Arbeit ist, ein Verfahren zu entwickeln, um solche Strategien auf den Daten des GAW vergleichen zu können. Die für die Bewertung der Ergebnisse notwendigen Kennzahlen müssen erhoben und anhand von kleinen Experimenten als “voraussichtlich zuverlässig” bestätigt werden.
Bei der automatisierten Analyse längerer Texte ist es oft hilfreich, diese vorher in kleinere, inhaltlich zusammenhängende Bereiche zu teilen. Ziel dieser Arbeit ist die Implementierung eines hierarchischen Segmentierungsansatzes und die Evaluation verschiedener Parameter auf ihre Tauglichkeit, einschließlich einem Vergleich mit existierenden Verfahren.
Annotationen spielen in den Geisteswissenschaften, vor allem der Literaturwissenschaft, eine große Rolle bei der Arbeit mit elektronisch vorliegenden Texten. Sie sind insbesondere für das Training maschineller Lernverfahren unverzichtbar. Leider ist die Weitergabe von Annotationen an urheberrechtlich geschützten Texten nicht ohne weiteres möglich, auch wenn die Empfänger:innen selbst eine Lizenz zur Nutzung der Texte besitzen. Ziel dieser Arbeit ist die Entwicklung eines Austauschformats, welches die Weitergabe der Annotationen ermöglicht, ohne die Texte selbst weiterzugeben, und dabei den Empfänger:innen ermöglicht, die selbst erworbenen Texte wieder mit den Annotationen zu verknüpfen. Dabei soll ein einfacher Ansatz auf seine Tauglichkeit untersucht werden und z.B. der Einfluss der Vorverarbeitung der Texte (OCR, manuelle Eingriffe, etc.) auf die Güte untersucht werden.
Insbesondere ältere Daten sind oft in Dateiformaten gespeichert, für die keine freie oder aktuelle Software mehr existiert, um diese Dateiformate zu lesen oder gar zu bearbeiten. Alte und “vergessene” Dateiformate stellen daher eine große Herausforderung für die Archivierung und Zugänglichmachung von digitalen Daten dar. Eine Möglichkeit, solche Daten zugänglich zu machen, ist das Reverse Engineering des Dateiformats verbunden mit Möglichkeiten zur Umwandlung in neuere Formate. Dieser Schritt kann als Teil der Datenarchäologie aufgefasst werden. Zur Unterstützung können vorhandene Werkzeuge (wie z.B. Hexeditoren) genutzt werden. Ziel dieser Arbeit ist, vorhandene Werkzeuge und Workflows zu recherchieren und insbesondere innovative Analysemethoden aus den Bereichen Visualisierung, Statistik und Data Mining zu untersuchen. Ein Schwerpunkt der Arbeit kann auch auf der prototypischen Implementierung einer Auswahl solcher Verfahren liegen.
Im Rahmen des Schlüsselstellen-Projekts erforschen wir Beziehungen zwischen literarischen Werken und den sie interpretierenden wissenschaftlichen Arbeiten. Dabei lässt sich beobachten, dass sich Interpretationen oft auf die gleichen Stellen in den literarischen Werken beziehen. Dies führt zur Frage, inwiefern Forschende “neue” Stellen in ihren Arbeiten zitieren oder eher auf bereits “bekannte” Stellen zurückgreifen. In diesem Zusammenhang stellt sich auch die Frage nach der “Kenntnis” bereits zitierter Stellen, für die Zitationsbeziehungen zwischen den Interpretationstexten ein Indiz sein könnten. Diese und verwandte Fragestellungen sollen in dieser Arbeit basierend auf einem (bereits aufgearbeiteten) Korpus an Interpretationstexten untersucht werden – siehe dazu die Werksübersicht auf unserer Analyseplattform QuidEx.
Kontakt: Frederik Arnold ()
Forschungsdaten oder digitale Anhänge sind seit einiger Zeit eine übliche “Beigabe” von Abschlussarbeiten – meist in Form von CD-ROMs oder USB-Sticks. Durch den notwendigen Umzug des IBI-Archivs bietet sich die Möglichkeit, die Datenträger der IBI-Abschlussarbeiten sowie deren zeitliche Entwicklungen zu analysieren, etwa nach den verwendeten Medien, deren Zustand, der Datenlesbarkeit oder den Dateiformaten.
Im Rahmen des Projekts Was ist wichtig? Schlüsselstellen in der Literatur untersuchen wir gemeinsam mit Literaturwissenschaftler:innen Verfahren zum Identifizieren, Extrahieren, Charakterisieren und Analysieren von Schlüsselstellen. Die Abschlussarbeit ist in diesem Themenfeld angesiedelt und beschäftigt sich mit Dramentexten und der Frage, wie sich Szenenbezeichnungen in Interpretationstexten auflösen und der jeweiligen Szene zuordnen lassen. Hierbei kann es sich um Ausdrücke wie “Erkennungsszene” (Anagnorisis) handeln, welche nicht spezifisch für ein Drama sind, oder Bezeichnungen, die nur in einem Drama auftauchen, wie das Parzenlied aus Iphigenie auf Tauris.
Kontakt: Frederik Arnold ()
Die im Schlüsselstellen-Projekt identifizierten Bezugnahmen zwischen literarischem Werk und zugehörigen Interpretationen lassen sich in unterschiedlichen Feinheiten (“Granularitäten”) betrachten (Segment, Passage, Stelle, Szene, Werk, etc.). Dies hat unter anderem Einfluss auf die (relative) Relevanz der einzelnen Elemente. Ziel dieser Arbeit ist einerseits die begriffliche Klärung und Modellierung dieser Feinheiten sowie andererseits die Analyse der Daten mit Hilfe dieses Modells. Eine mögliche Methode dafür könnte Formale Begriffsanalyse sein, die beispielsweise Zusammenhänge zwischen zitierten und zitierenden Texten darstellen kann und die Granularität mit Hilfe von Skalen integrieren kann.
Kontakt: Robert Jäschke.
Im Rahmen des Projekts Was ist wichtig? Schlüsselstellen in der Literatur untersuchen wir gemeinsam mit Literaturwissenschaftler:innen Verfahren zum Identifizieren, Extrahieren, Charakterisieren und Analysieren von Schlüsselstellen. Die Abschlussarbeit ist in diesem Themenfeld angesiedelt und beschäftigt sich mit Dramentexten und der Frage, wie eindeutig sich Szenen in Dramen zuordnen lassen, beispielsweise über die Nennung von Charakteren. Wenn beispielsweise in einem Text zu Goethes Faust eine Szene mit Gretchen und Lieschen erwähnt wird, dann lässt sich das auf genau eine Szene einschränken. Zusätzlich kann mit Hilfe digital vorliegender Interpretationstexte untersucht werden, welche Charaktere wie erwähnt werden und wovon dort die Eindeutigkeit der Zuordnung abhängt.
Kontakt: Frederik Arnold ()
Für das DFG-Projekts Unknown Data suchen wir eine Person, die als Bachelor- oder Masterarbeit eine explorative Nutzerstudie an Informatikerinnen und/oder Sozialwissenschaftlerinnen zum Thema Suche nach Forschungsdaten durchführt. Wir wollen herausfinden, was Wissenschaftler*innen dieser Disziplinen von einer Suchmaschine für Forschungsdaten erwarten, welche Informationen sie benötigen, und wie sie mit existierenden Systemen umgehen. Geplant sind Interviews mit 6 bis 12 Personen. Wir erstellen im Projekt Prototypen, diese können nach Bedarf für die Studie eingesetzt werden.
Betreuung übernimmt Robert Jäschke zusammen mit Dr. Brigitte Mathiak.
Wikipedia ist als Wissensressource in vielen Bereichen nicht mehr wegzudenken. Ein wesentliches Merkmal von Wikipedia ist der Bezug und Verweis auf existierende Quellen. Insbesondere im Bereich der Literatur(wissenschaft) werden dabei häufig auch wörtliche Zitate aus Werken übernommen. Das reicht von kurzen Textstellen bis hin zu ganzen Gedichten. Ziel dieser Arbeit ist die Untersuchung solcher wörtlichen Zitate in literaturwissenschaftlich relevanten Wikipedia-Artikeln. Dies soll ein weiterer Beitrag zum Verständnis des Begriffes Weltliteratur im Kontext von Wikipedia sein.
Die Aufgaben dieser Abschlussarbeit umfassen
Dazu sind Erfahrung in der Analyse von Daten sowie Programmierkenntnisse notwendig. Eine Zusammenarbeit mit dem Institut für deutsche Literatur ist möglich
As part of the Uncovr project we are trying to find music performances on online video platforms. This problem can be understood as a subset of Music Information Retrieval (MIR). In MIR, objects representing music can either be represented by metadata (e.g., title, artist, genre) or musical content (e.g., audio, lyrics, or sheet music). Within this context, we have a range of interesting topics for bachelor or master theses including but not limited to:
Feel free to contact us to talk about these topic ideas. Programming skills are not required, but very useful regarding most of the topics.
contact: Simon Hachmeier ()
Das Google nGram-Korpus hat vielfältige Einsatzzwecke, auch in der Wissenschaft. Ein analoges Korpus für Twitter existiert bisher anscheinend noch nicht. Ziel dieser Arbeit ist die Konzeption und (idealerweise) Implementierung eines entsprechenden Korpus. Dazu sollen insbesondere Lösungen gefunden werden, um Twitter-eigenen Merkmale wie Hashtags, Links oder Emoticons geeignet abzubilden. Ebenso stellt sich die Frage nach einer geeigneten Tokenisierung sowie Verfahren zur Interpolation fehlender Daten. Diese Arbeit bietet auch das Potential, sich mit großen Datenmengen und den dazugehörigen Technologien auseinanderzusetzen.
Im Rahmen des DFG-Projektes Was ist wichtig? Schlüsselstellen in der Literatur untersuchen wir zusammen mit der Literaturwissenschaft Verfahren zum Identifizieren, Extrahieren, Charakterisieren und Analysieren von Schlüsselstellen. Diese Abschlussarbeit ist in diesem Themenfeld angesiedelt. Beispielsweise wäre es möglich, Faktoren wie Textlänge, Überlappung, stilistische Merkmale, Wortarten oder auch zeitliche Einflüsse zu untersuchen und mit der Popularität von Schlüsselstellen abzugleichen. Hilfreich wären auch ansprechende Visualisierungen, wie Sie bereits für Werke von Shakespeare existieren. Idealerweise haben Sie Ihr Zweitfach in den Sprach- und Literaturwissenschaften, aber notwendig ist das nicht. Kenntnisse quantitativer und statistischer Verfahren oder auch Programmierkenntnisse dürften je nach konkreter Fragestellung hilfreich sein. Bitte melden Sie sich bei Interesse bei Frederik Arnold.
Vossian Antonomasia (or short “Vossanto”) is a stylistic device commonly used in news articles (e.g., “Anna Netrebko, the Julia Roberts of opera” or “the modern Steinway, the Hummer of instruments”). There are already methods to automatically identify occurrences of Vossantos in texts. One method uses a method to filter out false positive appearances with the help of Wikidata.
One task of this work is to try out different measures to filter false positives using Wikidata information. Programming skills in Python are required.
One task would be to visualize and analyze the detected occurences with statistical methods and data visualization tools and improve exploration facilities (e.g., as a web page). Basic statistics skills are required.
One task would be to adapt the methods in a way, that we can extract VA with a different source type than “human” (“the Julia Roberts of opera”), e.g., companies (“Hasselblad, the Mercedes-Benz of camera makers”), locations (“Algarve, the Riviera of Portugal”) or other entity types. Programming skills in Python are required, basic skills in machine learning could be helpful.
In every 24-hour period approximately 20,000,000 words of technical information are being recorded. A reader capable of reading 1,000 words per minute would require 1.5 months, reading 8 hours every day, to get through 1 day’s technical output, and at the end of that period, he would have fallen 5.5 years behind in his reading!
Hubert Murray Jr., 1966 (gefunden in DOI:10.1145/197177.197183)
Wissenschaftler sind mit dem Problem konfrontiert, dass in ihrem Spezialgebiet weitaus mehr wissenschaftliche Artikel produziert werden, als sie lesen können. Daher ist es unerlässlich, eine Auswahl zu treffen und sich auf die wesentlichsten Ergebnisse zu konzentrieren.
Empfehlungsverfahren (“Recommender”) können dabei helfen, die relevantesten Artikel zu einem Thema zu finden und dabei das Vorwissen des Forschers in Betracht zu ziehen. Mittlerweile gibt es über 80 Verfahren, die sich nur mit der Empfehlung wissenschaftlicher Fachliteratur beschäftigen. Leider ist es sehr schwierig, ein geeignetes Verfahren aus dieser großen Menge auszuwählen, weil die Evaluationen selten vergleichbar sind und daher unklar ist, welches Verfahren am besten für ein bestimmtes Empfehlungsszenario geeignet ist.
Ziel dieser Masterarbeit ist daher die Implementierung einer Auswahl der besten Verfahren und ihr Vergleich auf repräsentativen Datensätzen. Dazu müssen
Wenn Sie Interesse am Umgang mit großen Datenmengen und der Anwendung von maschinellen Lernverfahren sowie Programmiererfahrung haben, dann melden Sie sich bei Robert Jäschke.
Freie Lizenzen, wie sie seit langem im Umfeld der freien Software üblich sind, werden zunehmend auch für andere Arten von digitalen Artefakten verwendet (z.B. Lernmaterialien, Vortragsfolien, etc.). Ziel dieser Arbeit ist, die Verbreitung freier Lizenzen an deutschen Universitäten zu untersuchen. Welche Lizenzen werden typischerweise für welche Art von Materialien verwendet? Welche Universitäten oder Disziplinen sind Vorreiter bei der Verwendung freier Lizenzen? Wie sieht der zeitliche Verlauf dieser Entwicklung aus? Für die Analyse dieser und verwandter Fragestellungen steht ein longitudinaler Crawl der Webseiten deutscher Forschungseinrichtungen zur Verfügung.
Twitter is a popular subject of research but also still rather new. Therefore, no methodology or framework for analysis has been established. This results in different methodologies and results for papers analysing quite similar research questions or data collections. The goal of this project is to identify, classify, and compare the methodology used by a selection of publications dealing with (roughly) the same research area and then comparing the findings between the papers. This can also involve trying to replicate findings by analysing and comparing actual Twitter data.
This project shall investigate different ways to represent data about publications and researchers using semantic web standards and technologies. Specifically, it shall identify and systematise best practices and standards used by different services and develop a workflow to automatically extract, clean, enrich, and publish metadata about scholarly articles
A common assumption is that within collaborative tagging (or social bookmarking) systems a joint vocabulary emerges over time. This project shall investigate which studies exist with respect to that topic and how their findings were confirmed. Then, similar and additional experiments shall be performed on data from different tagging systems, trying to replicate (or refuse) findings. One particular aspect of interest is whether a global (within the system) vocabulary emerges or whether this happens only within certain subgroups of users.
Scholars frequently use Twitter for scholarly communication. The goal of this project is to analyse how scholars represent themselves on Twitter, that is, how they curate their profiles, and how they describe themselves.
While DBpedia extracts data from Wikipedia, Wikidata goes the other way around: it tries to collect data and populate Wikipedia with it. DBpedia was a popular data source for research on Wikipedia. With the immense recent growth of Wikidata the question arises about the extent and quality of its data. The goal of this project is to identify a (small) set of analyses that are based on DBpedia and repeat them with data from Wikidata in order to understand the differences and identify potential pitfalls.