Haben Sie Fragen zu den SEOkicks Webcrawlern?
Herzlich Willkommen auf der Webcrawler-Informationsseite von SEOkicks.de, der Backlink Datenbank der Jobkicks SLU. Nähere Informationen hierzu finden Sie auch auf der Website http://www.seokicks.de.
Die SEOkicks Webcrawler durchsuchen das Internet gezielt nach Inhalten zur Weiterverarbeitung. Sollten Sie Probleme mit einem der Webcrawler haben, bietet Ihnen diese Webseite die nötige Hilfe zur Lösung Ihres Problems. Selbstverständlich können Sie auch jederzeit persönlich mit uns in Kontakt treten und uns Ihr Anliegen per E-Mail an info@seokicks.de schildern.
Die häufigsten Fragen
Was ist bzw. macht ein Webcrawler?
Wie steuere ich die Zugriffe von Webcrawlern auf meiner Webseite?
Was ist ein User Agent und wo finde
ich ihn?
Wird die Stabilität oder Sicherheit meiner Website durch die SEOkicks Webcrawler gefährdet?
Es passieren allerhand ungeplante
Dinge auf meiner Webseite
Kann der SEOkicks Webcrawler eine
Schadsoftware enthalten?
FAQ
Was ist bzw. macht ein Webcrawler?
Ein Webcrawler (auch kurz Crawler, Spider, Bot oder Robot genannt) ist ein Computerprogramm,
das automatisch das World Wide Web nach Webseiten durchsucht. Der Crawler gelangt
dabei über sog. Hyperlinks von einer Webseite zur nächsten. Findet der Crawler auf
einer Webseite weitere Hyperlinks zu noch nicht von ihm besuchten Webseiten, so
werden diese Links gespeichert und zu einem späteren Zeitpunkt zum Besuch der Webseiten
verwendet.
Der SEOkicks Crawler durchsucht Websites gezielt nach externen Verlinkungen zu anderen Domains und erfasst
diese inkl. Linktext und Linkattributen in einer Datenbank. Websitebetreiber haben über die
SEOkicks Website die Möglichkeit gezielt abzufragen, von welchen Websites eine
Internetseite Verlinkungen erhält. So kann z.B. für die eigene Website ermittelt werden, welche
Websites dorthin verlinkt.
Wie steuere ich die Zugriffe von Webcrawlern auf meiner Webseite?
Über den "Robots Exclusion Standard" ist es jedem Webseiten-Betreiber möglich, den Zugriff eines Crawlers auf die eigenen Webseiten zu beeinflussen. Dabei ist festgelegt, dass ein Crawler zuerst die Datei "robots.txt" von einem Webserver lädt und auswertet. Über die darin enthaltenen Regeln kann ein Crawler von bestimmten Webseiten-Bereichen ferngehalten oder auch von der gesamten Domain ausgesperrt werden.
Eine genauere Erklärung des Robots Exclusion Standards und dem Umgang mit "robots.txt" Dateien
sowie praktische Beispiele finden Sie unter wikipedia: Robots Exclusion Standard.
Auf Motoricerca.info
können Sie Ihre robots.txt-Datei auf Konformität
mit dem Robots Exclusion Standard kostenlos überprüfen lassen.
Die Anweisungen in "robots.txt" Dateien stellen keinen garantierten Schutz
einer Webseite vor dem Zugriff durch Crawler dar, da es sich um keinen verpflichtenden
Reggeln handelt. Die SEOkicks Webcrawler sind jedoch auf freiwilliger
Basis so konfiguriert, dass gängige Anweisungen wie die Sperrung einzelner Dateien
oder Verzeicnisse sowie auch die Sperrung der gesamten Domain berücksichtigt werden.
Möchten Sie die komplette Webseite oder Teile davon sicher vor ausnahmslose jedem Crawler schützen,
so empiehlt sich der Schutz der Seite durch User-Kennung und Passwort.
Was ist ein User Agent und wo finde ich ihn?
Unter einem User Agent versteht man ein Client-Programm, das mit einem Netzwerkdienst verwendet werden kann, z.B. auch ein Webcrawler. Solche Client-Programme übertragen in den meisten Fällen ihren Namen an den angefragten Server. Sie finden die User-Agent Kennungen in den Logfiles Ihres Webservers. Eine Zeile aus dem Logfile könnte folgendes Aussehen haben:
35.118.50.204 - - [21/Aug/2014:09:15:22 +0200] "GET /index.html
HTTP/1.0" 200 123088 "http://www.google.de/search?q=foobar"
"Mozilla/5.0 (compatible; SEOkicks;
+https://www.seokicks.de/robot.html) "
Die SEOkicks Webcrawler verwenden entsprechend dem Beispiel den User-Agent "SEOkicks",
alle durch die SEOkicks Webcrawler veranlassten Zugriffe können darüber durch Sie
eindeutig zugeordnet und nachvollzogen werden.
Wird die Stabilität oder Sicherheit meiner Website durch die SEOkicks Webcrawler gefährdet?
Um Beeinträchtigungen auf die Stabilität und Performance Ihrer Internetpräsenzen zu verhindern,
sind die SEOkicks Webcrawler so konfiguriert, dass zwischen zwei Seitenabrufen stets eine
Pause von mindestens 1 Sekunde eingehalten wird. Antwortet Ihr Webserver sehr langsam auf
Zugriffe des Crawlers, so führt dies automatisch zu einer Verlängerung der Pause zwischen
zwei Zugriffen. Die durch die SEOkicks Crawler entstehende Last ist demnach nicht größer als bei
einem menschlichen Besucher. Abhängig von der Anzahl der vorhandenen Seiten kann sich die Crawling-Phase,
bedingt durch die Mindestpausen zwischen zwei Zugriffe, jedoch über längere Zeiträume erstrecken.
Ein "Hacken" Ihrer Seite, d.h. das Einbrechen in eigentlich passwortgeschützte Bereiche
Ihrer Webseite, ist den SEOkicks Crawlern generell nicht möglich. Ein Zugriff auf vermeintlich
geschützte Seiten durch den Crawler deutet darauf hin, dass es einen direkten,
nicht passwortgeschützten Link auf diesen Bereich gibt, über welchen der Crawler
Zugang gefunden hat.
Es passieren allerhand ungeplante Dinge auf meiner Webseite
Sollten durch das einfache Verfolgen von Links beispielsweise Warenkörbe gefüllt oder Gästebucheinträge abgesendet werden, so ist das ein Zeichen für Schwächen Ihrer Webanwendung. Ein leeres Formular sollte z.B. nicht ohne Weiteres abgeschickt werden können und Aktionen wie das Versenden von Emails auslösen. Zudem stellen die SEOkicks Crawler nur sog. "GET"- aber keine "POST"-Requests, dies sollte aus technischer Sicht immer dazu führen, dass nur Daten der Website gelesen, aber keine Daten an diese übermittelt werden.
Bitte beachten Sie unbedingt, dass eine nicht ausreichend abgesicherte Webanwendung auch für jeden Besucher auf Ihrer Seite die Möglichkeit der Datenveränderung bietet. Es handelt sich in dem Sinne um eine Sicherheitslücke Ihrer Webseite, die Sie in Ihrem eigenen Interesse schnell beseitigen sollten.
Kann der SEOkicks Webcrawler eine Schadsoftware enthalten?
Nein, die SEOkicks Crawler sind nicht in der Lage, auf Ihren Servern irgendeine Art von Schadsoftware zu installieren.