Klassifikation von Webseiten

Suchmaschinen crawlen das Web und indexieren die gefundenen Webseiten. Je mehr die Suchmaschine dabei über die Webseiten weiß, desto besser kann sie die Ergebnisse für Suchanfragen berechnen. Ein Hilfsmittel dabei ist die Klassifikation von Webseiten in verschiedene Kategorien wie z.B. Person, Produkt, Firma, Blogeintrag, etc.

Ziel dieser Arbeit ist die Implementierung und Erweiterung eines vielversprechenden neuen Ansatzes zur Klassifikation von Webseiten. Der Ansatz fokussiert auf die Erkennung von persönlichen Webseiten von Wissenschaftlern. Zum einen soll das Verfahren für die verteilte Berechnung auf sehr großen Datenmengen (im Terabyte-Bereich) implementiert und getestet werden. Zum anderen soll untersucht werden, inwiefern sich die Ideen auf andere Kategorien von Webseiten (z.B. Institut, Vorlesung, etc.) übertragen lassen.

Kontakt: Robert Jäschke