Projekt-/Bachelor-Thema Verarbeitung großer Datenmengen mit Hadoop

Hadoop ist ein Java-Framework zur Implementierung von verteilten Berechnungen für sehr große Datenmengen (bis in den Petabyte-Bereich). Es basiert auf dem von Google entwickelten MapReduce-Verfahren.

Ziel dieser Arbeit ist

die Installation, Konfiguration und das Testen von Hadoop auf speziell dafür konfigurierter Hardware (ein Clustersystem mit insgesamt 80 CPU-Kernen und 200TB Festplattenplatz),
das Entwickeln, Implementieren, Testen und Dokumentieren einer Arbeitsumgebung zur einfachen Analyse großer Datenmengen, die einem Unix-typische Shell-Werkzeuge wie sort, grep, awk, etc. zur Verfügung stellt.
ggf. die Integration bzw. Implementierung weiterer Verfahren, wie z.B. PageRank.

Voraussetzung für dieses Projekt sind gute Programmierkenntnisse in Java sowie die Fähigkeit und Bereitschaft, sich in existierende Programm-Bibliotheken und Frameworks einzuarbeiten.