Projekt-/Bachelor-Thema Verarbeitung großer Datenmengen mit Hadoop

Hadoop ist ein Java-Framework zur Implementierung von verteilten Berechnungen für sehr große Datenmengen (bis in den Petabyte-Bereich). Es basiert auf dem von Google entwickelten MapReduce-Verfahren.

Ziel dieser Arbeit ist

  • die Installation, Konfiguration und das Testen von Hadoop auf speziell dafür konfigurierter Hardware (ein Clustersystem mit insgesamt 80 CPU-Kernen und 200TB Festplattenplatz),
  • das Entwickeln, Implementieren, Testen und Dokumentieren einer Arbeitsumgebung zur einfachen Analyse großer Datenmengen, die einem Unix-typische Shell-Werkzeuge wie sort, grep, awk, etc. zur Verfügung stellt.
  • ggf. die Integration bzw. Implementierung weiterer Verfahren, wie z.B. PageRank.

Voraussetzung für dieses Projekt sind gute Programmierkenntnisse in Java sowie die Fähigkeit und Bereitschaft, sich in existierende Programm-Bibliotheken und Frameworks einzuarbeiten.