Bachelor Thesis

Optimiertes Web Crawling

Ihre Website wurde bzw. wird für eine Bachelorarbeit am Institut für Bibliotheks- und Informationswissenschaft zum Thema "Optimiertes Web Crawling" am Lehrstuhl für Information Processing and Analytics und Lehrstuhl für Information Retrieval von einem auf Heritrix basierten Web Crawler, ähnlich dieses Projektes, besucht.

Dieser auch vom Internet Archive genutzte Crawler wird für 7 Tage in unterschiedlichen Konfigurationen Ihre Website crawlen und dabei sowohl eine Verzögerung zur Verhinderung einer Serverüberlastung beachten als auch die Robots.txt respektieren.

Obwohl einige Heuristiken einen Aufruf dynamisch erzeugter unendlicher Linkmengen verhindern sollten, kann es passieren, dass sich der Crawler in diesen verliert. In diesem Fall benachrichtigen Sie mich bitte über das Kontaktformular.