Backlink Checker mit eigener Datenbasis

SEOkicks sammelt mit eigenen Crawlern fortlaufend Linkdaten und stellt diese per Website, CSV-Export und API zur Verfügung. Der aktuelle Index umfasst mehr als 200 Mrd. Linkdatensätze.

Frischer Backlinkindex Part 1 & neue Funktionen sind online

Geschrieben von Torsten Rückert am 30.03.2012

Nach größeren Umbauten ist gerade der erste Teil unserer neuen Backlinkdaten online gegangen. Der Datenbestand hat sich im Vergleich zum letzten Index von 10 Mrd. Backlinkdaten nur geringfügig auf 11 Mrd. Datensätze vergrößert, wobei es sich dabei zu 100% um neu erhobene Daten handelt.

Mit dem heutigen Update gehen nicht nur neue Daten live, es hat sich intern auch die gesamte Struktur der Datenhaltung geändert wodurch beispielsweise die Erhebung von IP-Adressen, DomainRank, IP-POP und Netz-Pop (ClassC) sowie eine sinnvollere Sortierung der Backlinkdaten nach deren Wertigkeit ermöglicht wird. Ebsenso weisen sämtliche Linktexte nun ein sauberes UTF8-Encoding auf, egal mit welchem Zeichensatz sie auf der gecrawlten Website codiert waren. Bei einigen Zeichensätzen kam es hier in der Vergangenheit noch zu Problemen.

Wegen der sehr tiefgehenden Änderungen mussten wir in den letzten Wochen das alte und neue System (inkl. der Datenbanken) parallel betreiben was zu einer sehr knappen Ressourcenlage bei unserer Hardware geführt hat. Dies kann mitunter trotz des schon jetzt größeren neuen Index dazu führen, dass für einzelne Domains ungewöhnlich wenig Backlinkdaten aufgefürt werden. Das kann speziell auch deshalb passieren, weil sich im neuen Index deutlich mehr Daten für internationale Domains aus dem nicht deutschsprachigen Raum befinden.

Sobald das System umgestellt ist (was mit Erscheinen dieses Posts der Fall ist) nehmen wir alle alten Daten offline und fangen unverzüglich an den zweiten Teil des Index-Updates vorzubereiten. Bitte wundert Euch daher nicht, wenn sich die Anzahl der aufgeführten Backlinks für einige Domains ungewöhnlich stark reduziert hat. Innerhalb von etwa 2 Wochen steht wieder der vollständige Datenbestand bereit, bereits in einer Woche folgt schon das erste Update.

Update 09.04.2012: Heute ist der Index um 2 Mrd. Linkdaten gewachsen. Auf „kleinere“ Updates dieser Art werden wir künftig vorranging über unseren Twitter-Account verweisen.


Kommentare (32):

Timo
Freitag, 30. März 2012 um 12:45

Ich finde Eure Entwicklung wirklich beachtlich! Vielen dank für die Mühe.

Eine Frage zu API:
Ab wann wird man per API voraussichtlich auf die Netz-Pop zugreifen können?

Freitag, 30. März 2012 um 13:11

Das sollte sich zeitnah ergänzen lassen, ich denke innerhalb der nächsten 2-3 Tage.

Timo
Freitag, 30. März 2012 um 13:58

Super, danke für die Info!

Freitag, 30. März 2012 um 15:18

Na, so doll ist die Software nicht, denn es werden bei weitem nicht alle Verlinkungen gefunden, die auf meine Seite führen z. B. von http://www.ks-mediendesign.de/ oder http://www.officeservice-knapp.de/Profil_G.Knapp.htm und diversen Kommentaren und Netzwerke
Ich schneide sogar schlechter ab, als vor der „Verbesserung“.
Merkwürdig.

Freitag, 30. März 2012 um 16:57

Ganz so merkwürdig ist das nicht, den Grund dafür findest Du bereits in dem Beitrag den Du hier kommentiert hast. Wie schon geschrieben stehen die Daten in etwa zwei Wochen wieder vollständig zur Verfügung bzw. werden es dann sogar deutlich mehr Datensätze sein. In Summe ist das schon jetzt der Fall.

Die beiden von Dir genannten Domains verlinken zudem übrigens nicht auf Deine Seite, zumindest nicht in Form eines für Suchmaschinen erkannbaren Links. Die erste Seite setzt scheinbar komplett auf Flash, bei der zweiten Seite taucht Dein Domainname im HTML-Quelltext ausschließlich innerhalb eines JavaScripts auf.

Erpel
Freitag, 30. März 2012 um 22:10

Zunächst einmal ein Lob: toller Service!

Was ich mich jedoch frage: Wieso gibt es nur alle paar Wochen ein Update und nicht sozusagen „durchgehend“? Der Index könnte doch fortlaufend erweitert werden. Oder müssen die neuen Daten quasi erst einem Review-Prozess unterzogen werden?

Viele Grüße.

Freitag, 30. März 2012 um 22:37

Das liegt daran, dass wir uns noch mitten in der Entwicklung befinden und es ständig Anpassungen und Erweiterungen gibt. SEOkicks ist daher in jedem Fall noch als „Beta“ zu betrachten, wir haben es nur nicht so gelabelt weil das inzwischen einfach zu abgedroschen ist 😉

Das Ziel ist natürlich in jedem Fall ein absolut regelmäßiger Prozess auf einem deutlich höheren quantitativen Niveau als es derzeit noch der Fall ist.

Samstag, 31. März 2012 um 19:44

Danke für die Info. Aber wenn ich mir die Links bei Alexa ansehe – natürlich sind auch einige irrelevant, dann wundere ich mich doch, dass z. B. einige hier nicht auftauchen wie z. B.
gutefrage.net/frage/hallo–welchen-stundenlohn-kann-ich-als–selbst-buerodienstleister-berechnen-
Und viele mehr.

Mal sehen, wie es in zwei Wochen aussieht. Ihr macht Euch ja auch viel Arbeit, das dauert eben auch.

Und danke für die Erklärung warum die beiden genannten nirgends auftauchen.

Michael Proft
Dienstag, 3. April 2012 um 12:50

Hallo,

Erstmal vielen Dank für den tollen Service. Allerdings kommen seit dem Update Datensätze öfters vor. So werden die Links im unteren Bereich der 1. Seite auch auf den Seite 2,3,4 etc. gelistet.

Dienstag, 3. April 2012 um 20:58

Vermutlich passiert das nicht unter „Verlinkende Domains“ sondern direkt unter „Links“, richtig? Das wäre damit zu erklären, dass Du ggf. von der identischen Seite Links auf verschiedene Unterseiten Deiner Domain erhältst. Leider zeigen wir die Linkziele aktuell noch nicht mit auf der Website an (falls jemand einen guten Layout-Vorschlag dafür hat, immer her damit 😉 ), allerdings lässt sich das schnell über den CSV-Export prüfen. Dort ist neben der verlinkenden URL auch immer das Linkziel mit aufgeführt.

Samstag, 7. April 2012 um 10:31

Danke für eueren Tollen Service, euer Software wird immmer besser, danke macht weiter so

Dienstag, 10. April 2012 um 16:55

Ich bin erst heute und ganz zufällig auf seokicks.de gestoßen und bin vom Umfang der aktuellen Version beeindruckt. Noch reichen die gecrawlt Daten aus meiner Sicht nicht an die Kauftools heran, aber ein starker Wettbewerb nützt und allen und ihr seid auf dem richtigen Weg. Ich bin gespannt auf die kommenden Updates!

Mittwoch, 11. April 2012 um 17:56

Hallo SEOkicks,

im neuen Update vom 09.04.2012 sind zum Teil die Domains inklusive der Links doppelt enthalten, mit gleicher IP.

Gruß
hansen

Mittwoch, 11. April 2012 um 20:05

Das Warten hat sich gelohnt.
Vielen Dank für Eure Arbeit und den verbesserten Service! Sobald Updates in kürzeren und regelmäßigen Abständen kommen werden, bleiben keine Wünsche offen.

Alles Gute für die Zukunft!

ARCHonauts

Mittwoch, 11. April 2012 um 20:52

Danke für das positive Feedback!

hansen: Das Links doppelt erfasst werden ist nahezu ausgeschlossen, bitte in diesem Zusammenhang unseren Kommentar vom 3. April 2012 beachten. Vermutlich zeigen die Links auf verschiedene Linkziele der gleichen Domain, im Zweifel kannst Du aber gerne ein Beispiel nennen, damit wir das explizit prüfen können.

hansen
Donnerstag, 12. April 2012 um 09:09

Hallo Seokicks,

habe Dir das Beispiel per E-Mail an info@seokicks.de geschickt.
Sorry, hätte ich gleich machen sollen, kannst aber meinen Beitrag auch löschen.

Gruß
hansen

Donnerstag, 12. April 2012 um 13:13

Vielen Dank, damit hast du uns tatsächlich auf einen Darstellungsfehler aufmerksam gemacht, der inzwischen bereits behoben ist.

Timo: Inzwischen kann man auch per API auf Netz- und IP-POP zugreifen, sorry für die verspätete Rückmeldung.

Donnerstag, 12. April 2012 um 22:56

Ich kenne euren Dienst aus dem Abakus und verfolge das seit dieser Zeit, ich muss sagen ihr werdet immer besser. Inzwischen nutze ich euren Dienst recht oft, weiter so und vielen dank.

Sind sicher viele Server was ihr da braucht.

Gruss aus Regensburg

Freitag, 13. April 2012 um 00:53

Da habt ihr echt gute Arbeit geleistet. Ich hoffe allerdings, das mit den kommenden Updates der Bestand noch ein bissle ergänzt wird, denn selbst mit dem letzten Update schneide ich noch schlechter ab, wie vor der Umstellung. Trotzdem danke für eure Mühe, denn nun ist alles wesentlich übersichtlicher.
Danke schön.

Freitag, 20. April 2012 um 00:31

Sehr tolles Tool und nach der Schließung des Yahoo Siteexplorers eine echte Alternative zu kostenpflichtigen Anbieter.

Ich habe auf meinem Blog mal ein kleines PHP-Scipt inkl. Quellcode veröffentlicht, der den Umgang mit der API erklärt: http://www.catmoney.de/backlinks-finden-alternative-zum-yahoo-siteexplorer/

Macht weiter so!

Viele Grüße
Andreas

Mittwoch, 25. April 2012 um 19:32

Gerade gab es wieder ein etwas größeres Update, weitere werden folgen 🙂

Sonntag, 29. April 2012 um 20:11

Großes Kompliment für die Performance und euer Tool und ein herzliches dankeschön. Damit spare ich mir 100 Euro für ein Zusatzmodul in meiner Seo-Suite. Und mit den daten kann sehr gut was anfangen. Dickes Lob und ich werde euch „natürlich“ verlinken 😉

Peter P.
Donnerstag, 10. Mai 2012 um 10:41

Hallo SEOKicks,
Ich bin durch meine Access-Logs auf Euch aufmerksam geworden.
Frage: Kann es sein, dass Ihr auch Links mit rel=“nofollow“ crawlt? Ich fände es besser, wenn Ihr das nicht machen würdet, das Attribut hat ja schon eine gewisse Daseinsberechtigung.
VG und Danke,
Peter

Donnerstag, 10. Mai 2012 um 14:33

Das nofollow-Attribut ist dazu gedacht Links zu entwerten, d.h. entsprechend markierte Links werden von Suchmaschinen nicht (oder zumindest anders) zur Berechnung der Linkpopularität der verlinkten Seite herangezogen.

Das Attribut war aber nie als Crawling-Regel gedacht, hierzu sollte möglichst eine robots.txt Datei verwendet werden. Der diesem Prinzip zugrunde liegende Robots Exclusion Standard wird von uns eingehalten.

Peter P.
Donnerstag, 10. Mai 2012 um 15:12

Ich denke nicht, dass dies der ursprüngliche Sinn und Zweck von rel=nofollow ist. Das ist eher das, was Google und SEO im Laufe der Zeit daraus gemacht haben.

Aber selbst Google sagt: „Mithilfe von „nofollow“ können Webmaster Suchmaschinen die Anweisung erteilen, einzelne oder alle Links auf einer Seite nicht zu verfolgen. “
http://support.google.com/webmasters/bin/answer.py?hl=de&answer=96569

W3C sagt: „A value of „NOFOLLOW“ allows the page to be indexed, but no links from the page are explored (this may be useful if the page is a free entry point into pay-per-view content, for example.“
http://www.w3.org/Search/9605-Indexing-Workshop/ReportOutcomes/Spidering.txt

Donnerstag, 10. Mai 2012 um 15:40

rel=“nofollow“ ist eine Erfindung von Google 😉

Vor etwa 7 Jahren bekam Google immer mehr Probleme damit, dass durch Kommentarspam z.B. in Blogs die eigene Relevanzsuche recht erfolgreich manipuliert werden konnte. Daraufhin hat Google rel=“nofollow“ eingeführt und darum gebeten, dass Links denen man nicht blind vertraut – wie eben Links aus Blogkommentaren heraus – damit versehen werden sollen, um diese dann bei der Relevanzberechnung ignorieren zu können.

Andere Suchmaschinen haben diese Interpretation des neuen Google-Attributs rel=“nofollow“ dann relativ schnell übernommen um auch die eigene Relevanzsuche zu verbessern, speziell Microsoft war hiermit damals sehr schnell.

Da rel=“nofollow“ aber zu keinerlei offiziellem Standard gehört ist es nun schwer zu entscheiden, wie man in Bezug auf das eigene Crawling damit umgehen soll. Die eigentliche Absicht von Google war ganz klar die Entwertung von Links, also gibt es keinen offensichtlichen Grund, wieso solche Links nicht dennoch verfolgt werden sollten. Beispielsweise Microsoft (Bing) verfolgt diese Links ebenfalls und das Verfolgen dieser Links zum Aufspüren von Backlinks macht ja auch durchaus Sinn. Google selbst verfolgt entsprechend markierte Links hingegen tatsächlich (offiziell/überwiegend) nicht.

Wie schon geschrieben gibt es mit dem Robots Exclusion Standard eine Methode um ganz klar zu definieren welcher Bot welche Seitenbereiche abrufen darf. Hierbei geht es nicht um die Entwertung irgendwelcher Links sondern um explizite Spidervorschriften die wir dementsprechend strikt befolgen.

Peter P.
Donnerstag, 10. Mai 2012 um 18:37

Danke, wieder was gelernt – diese Version war mir neu. Interessant, dass Google selbst sich dann bei obigem Link ganz anders ausdrückt. Naja, evtl. einfach ein Übersetzungsfehler 😉
Vor diesem Hintergrund habt Ihr natürlich recht.
Danke für die detaillierte Ausführung.

Samstag, 12. Mai 2012 um 19:53

War heute zum ersten Mal hier und bin beeindruckt, was Eure Suche alles ergeben hat. Ein tolles Tool. Danke!

Peter P.
Freitag, 18. Mai 2012 um 13:19

Hallo SEOKicks,

Eine Frage hätte ich noch: auf Eure Anregung hin haben wir unsere robots.txt erweitert, aber kann es sein, dass Euer Crawler dabei keine Wildcards unterstützt? Wie bei Google beschrieben http://support.google.com/webmasters/bin/answer.py?hl=de&answer=156449, z.B.

Disallow: /privat*/

Hintergrund: Eure Requests sammeln bei uns täglich viele Tausende 500-Responses, was natürlich weder in unserem noch in Euren Interesse ist.

Viele Grüße und Danke,
Peter

Montag, 21. Mai 2012 um 09:37

Fällt mir gerade auf, wie kann man nur Deutsche Seiten crawlen? Hält sich euer Crawler an die Sprachangaben? Ich betreibe ja recht viele Seiten international, und da wäre es schön wenn ich auch die Querverlinkung untereinander sehe..

Montag, 21. Mai 2012 um 10:26

Wir haben den Robots Exclusion Standard („robots.txt“) 1:1 implementiert, Wildcards sind darin nicht vorgesehen. Scheinbar geht Google hier einen eigenen Weg, der nicht dem eigentlichen Standard entspricht.

Zur Sprache: Wir crawlen auch internationale Seiten, das lässt sich bei Analysen ausländischer Domains leicht nachzuvollziehen. Allerdings liegt unser Fokus auf Domains aus dem deutschen Sprachraum, d.h. hierzu liefern wir in der Regel deutlich bessere/umfangreichere Daten.

Peter P.
Mittwoch, 23. Mai 2012 um 09:36

Richtig, die Wildcards sind eine Erweiterung von Google. Meines Erachtens eine sinnvolle, der Robots Exclusion Standard ist in Zeiten dynamischer Websites evtl. nicht mehr das alleinige Maß der Dinge – eine statische Abbildung dynamisch erzeugter URLs kann’s ja nicht sein, das würde manche robots.txt schnell auf mehrere MB aufblasen.

Ich fände es sinnvoll, wenn Ihr eine Möglichkeit für Wildcards bieten würdet, idealerweise die, die schon halbwegs verbreitet ist.
Wie gesagt, dass Ihr bei uns täglich durch tausende Fehlerseiten krabbeln müsst, ist sowohl für euren Bot als auch für unsere Webserver unnötige Arbeit.

Kommentar schreiben: