Projekt-/Bachelor-Thema Verarbeitung großer Datenmengen mit Hadoop
Hadoop ist ein Java-Framework zur
Implementierung von verteilten Berechnungen für sehr große Datenmengen
(bis in den Petabyte-Bereich). Es basiert auf dem von Google
entwickelten
MapReduce-Verfahren.
Ziel dieser Arbeit ist
- die Installation, Konfiguration und das Testen von Hadoop auf
speziell dafür konfigurierter Hardware (ein Clustersystem mit
insgesamt 80 CPU-Kernen und 200TB Festplattenplatz),
- das Entwickeln, Implementieren, Testen und Dokumentieren einer
Arbeitsumgebung zur einfachen Analyse großer Datenmengen, die einem
Unix-typische Shell-Werkzeuge wie
sort
, grep
, awk
, etc. zur
Verfügung stellt.
- ggf. die Integration bzw. Implementierung weiterer Verfahren, wie
z.B. PageRank.
Voraussetzung für dieses Projekt sind gute Programmierkenntnisse in
Java sowie die Fähigkeit und Bereitschaft, sich in existierende
Programm-Bibliotheken und Frameworks einzuarbeiten.