Kollaborative Verschlagwortungssysteme wie z.B. unser eigenes System BibSonomy sind beliebte Ziele von Webspam, d.h. Webseitenbetreiber versuchen dort Links zu ihren Webseiten zu platzieren, um ihr Ranking in Suchmaschinen (siehe Suchmaschinenoptimierung und PageRank) zu verbessern und mehr Besucher auf ihre Webseite zu locken. Meist mit dem Ziel, höhere Einnahmen durch Werbung oder Produktverkäufe zu erzielen. Das Einstellen von Links mit diesem Ziel wird von den meisten Systemen untersagt - dennoch halten sich sehr viele Benutzer nicht daran. Das Ziel von Spamentdeckung ist daher, derartige Links zu identifizieren und aus dem System zu entfernen.
Im Rahmen der ECML PKDD Discovery Challenge 2008 wurden mehrere Ansätze zur Entdeckung von Webspam untersucht und auf einem großen Datensatz von BibSonomy getestet. Schließlich wurde ein Framework zur Spamklassifikation entwickelt und in BibSonomy integriert. Die verwendeten Verfahren basieren auf Forschungsergebnissen des BibSonomy-Teams (siehe diese Publikationen und vor allem The Anti-Social Tagger - Detecting Spam in Social Bookmarking Systems).
Ziel dieser Arbeit ist eine Verbesserung des bestehenden Systems sowohl auf der algorithmischen als auch auf der Implementierungs-Ebene. Dabei sollen insbesondere folgende Aufgaben gelöst werden:
Voraussetzung sind neben Kenntnissen in den Bereichen Wissensentdeckung und maschinelles Lernen auch erweiterte Programmierkenntnisse in Java sowie die Fähigkeit und Bereitschaft, sich in existierende Programm-Bibliotheken und Frameworks einzuarbeiten. Wenn Sie Interesse am Umgang mit großen Datenmengen und der Anwendung von maschinellen Lernverfahren haben, dann melden Sie sich bei Robert Jäschke.