Intelligence is all about context, and when computers get better at providing it, they make us smarter. Randall Munroe
Texte enthalten oft Zahlen, die ohne Kontext für Menschen schwer zu verstehen sind, insbesondere, wenn die Zahlen groß und schwer vorzustellen sind. Eine Angabe wie “Von etwa 90.000 Megawatt konventioneller Stromkapazität in Deutschland könnten bis zu 20 Prozent zur Disposition stehen.” (Spiegel) lässt uns im Unklaren darüber, wieviel 90.000 Megawatt sind (es entspricht der Leistung von ca. 60 Kernkraftwerken). Ähnlich verhält es sich mit Jahreszahlen, bei denen uns Kontext oft helfen würde, sie besser einzuordnen. Ein Satz wie “Rubens stand bereits seit 1623 als Diplomat in den Diensten der Erzherzogin Isabella, um zwischen den rivalisierenden Großmächten zu vermitteln.” (Wikipedia) erhält ein ganz anderes Gewicht, wenn man weiß, dass dies in die Zeit des Dreißigjährigen Krieges (1618-1648) fällt.
Dienste wie Wolfram Alpha bieten einem zwar die Möglichkeit, weiteres Wissen über Zahlen zu erhalten, aber der Aufwand, sie beim Lesen eines Textes zu nutzen, ist sehr hoch und der Suchvorgang lenkt vom Lesen ab. Daher ist die Chrome-Erweiterung “Dictionary of Numbers” ein großer Fortschritt, da sie Kontext zu Zahlen direkt in Webseiten integriert und einen Satz wie “The telescope has been criticized for its budget of $200 million.” ergänzt zu “The telescope has been criticized for its budget of $200 million (≈ Mitt Romney net worth).” (xkcd). Leider ist dieser Service derzeit nur auf Englisch verfügbar und funktioniert nicht bei Jahreszahlen.
Ziel dieser Masterarbeit ist daher die Implementierung eines Dictionary of Years - eines Service, der Jahreszahlen in Texten durch Angabe von passenden Ereignissen zur besseren Einordnung dieser Jahreszahlen ergänzt. Dabei muss zunächst ein Korpus mit Ereignissen erstellt und indiziert werden. Dann müssen in Texten Jahreszahlen identifiziert und mit der Umgebung des Textes in Beziehung gesetzt werden. Die Auswahl passender Vergleichsereignisse stellt dann die eigentliche Herausforderung dar, da zu einem Jahr sehr viele Ereignisse gefunden werden können. Hierbei muss
Weitere Herausforderungen beschreibt der Autor der Chrome-Erweiterung Glen Chiacchieri in seinem Blog.
Die entwickelten Verfahren sollen prototypisch in einer Webanwendung mit REST-Schnittstelle sowie einem dazugehörigen Add-On für einen Webbrowser (vorzugsweise Firefox) implementiert werden. Dabei sollen zur Geschwindigkeitssteigerung Technologien wie SuggestTree zum Einsatz kommen.
Wenn Sie Interesse am Umgang mit großen Datenmengen und der Anwendung von maschinellen Lernverfahren sowie Erfahrungen mit Java und Interesse an der Web-Programmierung haben, dann melden Sie sich bei Robert Jäschke.