Geschrieben von Torsten Rückert am 22.04.2013
Die SEOkicks Datenbank umfasst seit heute mehr als 42. Mrd Linkdatensätze, die sich sowohl per Website als auch per kostenloser Backlink API abfragen lassen. Beides ist grundsätzlich ohne Anmeldung möglich, API-Abfragen erfolgen aber unter Angabe des Parameters appID. Eine simple Abfrage von Domain-, Link-, Netz- und IP-Pop sollte in etwa wie folgt aussehen:
http://www.seokicks.de/SEOkicksService/V1/inlinkData?appid=SEOkicksDemo&query=www.spiegel.de
Leider empfängt die API derzeit täglich mehrere Mio. Abfragen, bei denen der Parameter appID nicht wie in der Doku angegeben gesetzt wird. Dort heißt es hierzu:
“appID: Bitte den eigenen Firmennamen (wenn eindeutig) oder die eigene Domain angeben, damit wir den Request eindeutig zuordnen können.”
Ich möchte daher alle API Nutzer bitten die eigene Implementierung zu prüfen und die genutzte appID ggf. zu korrigieren. Oft werden 100.000+ Abfragen/Tag von der gleichen IP-Adresse durchgeführt, wobei als appID wahlweise “12345″ o.ä. oder die abzufragende Domain gesetzt wird. Insbesondere bei kommerziellen Nutzern, die die API z.T. in sehr großem Umfang nutzen, ist es sehr schade, wenn bewusst versucht wird die Nutzung zu verschleiern.
Glücklicherweise gibt es aber gerade unter den kommerziellen Nutzern auch einige, die die API nicht nur korrekt einsetzen, sondern die SEOkicks Monat für Monat finanziell unterstützen und damit den Betrieb und die Weiterentwicklung gewährleisten. Danke dafür an jeden von Euch!
Geschrieben von Torsten Rückert am 22.01.2013
Das Neue Jahr fing turbulent an und startete fast unmittelbar mit dem Anruf eines Münchner Polizeibeamten. Grund: Bei der Staatsanwaltschaft ist per Rechtsanwalt ein Antrag auf Strafanzeige gegen den Inhaber verschiedener IP-Adressen (alles SEOkicks Webcrawler) eingegangen, da über diese IPs Warenkörbe in mehreren Online-Shops seiner Mandantin gefüllt wurden, ohne dass es am Ende zu einer Bestellung kam. Hierdurch sieht die Klägerin den Tatbestand einer Nachstellung im Sinne des § 238 StGB sowie der Computersabotage im Sinne des § 303b StGB als erfüllt.
Natürlich ist es absolut verständlich, dass von Webcrawlern gefüllte Warenkörbe zumindest lästig sein können, speziell wenn sich das – wie ebenfalls angegeben – negativ auf die Performance des Shops auswirkt. Der sofortige Gang zum Anwalt ist dennoch unverständlich: Die SEOkicks Webcrawler senden generell keine Formulare ab, offenbar führte im aktuellen Fall also schon der reine Aufruf interner Links dazu, dass Produkte in den Warenkorb gelegt wurden. Diese Links wurden zudem wohl nicht per robots.txt Datei gesperrt, denn auch diese Anweisungen werden von unseren Crawlern berücksichtigt.
Der richtige und zum Glück absolut übliche Weg zur Vermeidung solcher Probleme besteht darin, zum Befüllen von Warenkörbern erst gar keine Links zu nutzen, oder die Zielseite zumindest per robots.txt Datei zu sperren und hierdurch automatisierte Aufrufe zu unterbinden. Auch die vollständige Sperrung unserer Crawler für eine gesamten Domain wäre mit nur 2 kurzen Einträgen in der robots.txt schnell erledigt gewesen. Gerne hätten wir das der Klägerin vorab erklärt und damit beiden Seiten Zeit und Kosten erspart. Stattdessen haben wir nun den ermittelnden Behörden die Hintergründe dargelegt und bekamen auch schon signalisiert, dass die Angelegenheit damit erledigt sei.
Absolut unverständlich ist zudem, wieso die Staatsanwaltschaft gebeten wurde den “Täter” über die geloggten IP-Adressen zu ermitteln. Die SEOkicks-Crawler hinterlassen bei jedem Seitenabruf ihren Namen als User-Agent in den Access-Logs der besuchten Domain und zusätzlich auch noch einen Verweis auf unsere Webcralwer Infoseite. Dort wird u.a. explizit das Problem “Es werden große Warenkörbe gefüllt oder leere Bestellungen ausgelöst?” aufgeführt.
Sollte noch jemand Probleme jedweder Art mit den SEOkicks Crawlern haben: Bitte nicht gleich Strafanzeige stellen, sondern einfach anrufen oder eine kurze Mail schreiben. Um unsere Crawler vollständig zu blocken genügt es bereits folgenden Eintrag in die eigene robots.txt Datei aufzunehmen:
User-agent: SEOkicks-Robot
Disallow: /
Als Folge würden wir neue externe Verlinkungen der nicht mehr gecrawlten Domains dann allerdings nicht mehr erkennen und diese in unserer Backlinkrecherche entsprechend auch nicht als Linkquelle aufführen. Potenzielle Kooperationspartner oder Interessenten an einem Linktausch/-kauf werden über SEOkicks also in diesem Fall nicht mehr auf die für uns gesperrte Domain aufmerksam.
Wir crawlen täglich übrigens weit über 100 Mio. Websites, ohne dass es bisher je zu größeren Beschwerden kam. Probleme mit unseren Crawlen sind daher grundsätzlich eher ein Indiz für Schwächen der eigenen Website – was wohl auch im aktuell Fall der Grund war. Trotzdem sind wir für jeden Hinweis dankbar, der zu einer weiteren Optimierung unserer Systeme beitragen kann.
Geschrieben von Torsten Rückert am 27.08.2012
Neben dem Backlinkcheck auf unserer Website bieten wir seit langem auch eine ebenfalls kostenlose API, die sich extrem großer Beliebtheit erfreut. Inzwischen verarbeiten wir mehrere Mio. API-Request pro Stunde und leiten unsere Daten an diverse deutschsprachige aber auch viele internationale SEO-Tools weiter.
Da der Umgang mit APIs nicht jedermanns Sache ist stellen wir Euch heute eine kostenlose Domainliste mit den 1 Mio. meistverlinkten Domains zum Download bereit. Die Liste ist absteigend nach Domainpop sortiert, enthält zu jeder Domain aber auch die Link-, Netz- (ClassC), und IP-Pop.
Download-Link: Top 1 Mio. Domains (CSV, 42 MB)
Bei Interesse stellen wir ggf. auch größere Exporte bereit, kommt dazu gerne auf uns zu. Verschiede SEO-Toolanbieter werden von uns regelmäßig mit unlimiterten Listen versorgt, auch hier freuen wir uns über weitere Partnerschaften.
Wir hoffen die Daten sind für Euch interessant, Feedback ist wie immer willkommen.
Geschrieben von Torsten Rückert am 23.08.2012
Nachdem die letzten Wochen wieder für zahlreiche Detailverbesserungen im Hintergrund genutzt wurden hat die Newsdichte leider etwas abgenommen. Dennoch sollen einige Punkte nicht unerwähnt bleiben:
Indexgröße: Nicht jedes Index-Update ist eine Newsmeldung wert, in Summe hat sich aber wieder einiges getan. Stand heute umfasst die Datenbank knapp über 38 Mrd. Linkdatensätze. Neben der reinen Datenbankgröße rückt daher nun zunehmend die Aktualisierungsfrequenz in den Fokus und soll künftig ebenfalls noch deutlich gesteigert werden.
Chrome Extension: Michael Jentsch hat auf Basis unserer Backlink-API eine kleine aber feine Chrome Extension entwickelt und stellt diese kostenfrei im Chrome Web Store zur Verfügung. Die Extension gibt Auskunft über Domain-, Link-, Netz- und IP-Pop der besuchten Domains.
Vollgas Grillen: Unter diesem Motto hat das Affiliate Team von Jochen Schweizer vor einigen Wochen (mal wieder!) ein super Event auf die Beine gestellt. Neben perfektem Wetter und spannenden Kart-Rennen gab es auch noch ein ordentliches Barbecue und viele interessante Gespräche. Daher an dieser Stelle nochmal ein großes Dankeschön an die Veranstalter!
Geschrieben von Torsten Rückert am 12.07.2012
Wir analysieren regelmäßig anhand verschiedener Kriterien, wie sich unser Datenbestand im Detail zusammensetzt. Spannend ist dabei immer auch die Frage für welche Top Level Domains unser Backlinkchecker wie viele Datensätze ausliefern kann.
Eine aktuelle Übersicht der 20 stärksten TLDs kann im Folgenden eingesehen werden. Die Auswertung bezieht sich auf den heute aktuellen Stand unserer Datenbank mit gut 27 Mrd. Backlinkdaten.
Top 20 TLD Liste
| # | TLD | Backlinks |
| 1 | com | 11.662.279.992 |
| 2 | de | 5.713.325.223 |
| 3 | org | 1.419.031.326 |
| 4 | net | 1.211.827.582 |
| 5 | pl | 772.922.113 |
| 6 | nl | 735.995.850 |
| 7 | it | 623.874.315 |
| 8 | fr | 579.712.333 |
| 9 | ch | 443.435.667 |
| 10 | at | 364.244.779 |
| 11 | info | 281.194.715 |
| 12 | co.uk | 252.040.186 |
| 13 | eu | 203.425.727 |
| 14 | us | 171.719.145 |
| 15 | ru | 147.198.762 |
| 16 | es | 132.925.613 |
| 17 | edu | 131.692.459 |
| 18 | cz | 100.823.793 |
| 19 | be | 85.482.264 |
| 20 | sk | 78.215.239 |
Im Vergleich zu früheren Datenständen hat sich hier bereits sehr viel getan und es ist bereits anhand der Zahlen erkennbar, dass wir nun deutlich stärker international crawlen.
In den nächsten Wochen erweitern wir unsere regelmäßigen Crawlingläufe um viele weitere nationale und internationale Domains, so dass es hier sicher noch die eine oder andere größere Verschiebung sowie einen allgemeinen Sprung nach vorne geben wird.
Bei Interesse veröffentlichen wir zu einem späteren Zeitpunkt gerne ein Update mit frischen Zahlen.
Geschrieben von Torsten Rückert am 28.06.2012
In den letzen Wochen wurden wieder zahlreiche interne Optimierungen vorgenommen, u.a. crawlen wir nun deutlich internationaler. Das gerade erfolgte Datenupdate liefert Zugriff auf 27 Mrd. Backlinks.
Es hat also wieder einen etwas größeren Sprung gegeben, wobei es sich hierbei um die erste von drei Erweiterungsstufen handelt. Die nächste Stufe wird bereits in den nächsten Wochen folgen und sowohl für deutsprachige Websites als auch für internationale einen weiteren Schwung frischer Daten mit sich bringen.
Wer noch etwas mehr über SEOkicks erfahren möchte findet bei Tobias Fox ein aktuelles Interview mit einigen weiterführenden Informationen und Hintergründen.
Geschrieben von Torsten Rückert am 14.05.2012
In den letzten Wochen gab es immer wieder kleinere Datenupdates, das heutige Update fällt nun wieder etwas größer aus. Insgesamt umfasst unsere Datenbank jetzt gut 15,5 Mrd. frische Backlinkdaten die unsere Crawler in den letzten Tagen und Wochen erhoben haben.
Außerdem gab es erneut mehrere Hardware-Upgrades mit denen wir die Voraussetzung für ein noch stärkeres Wachstum geschaffen haben. Durch zusätzliche Crawler und mehr Speicherplatz sind wir nun in der Lage mind. 50 Mrd. Datensätze vorzuhalten. Hierzu sind zunächst noch einige softwareseitige Änderungen nötig, in den nächsten Wochen und Monaten ist aber in jedem Fall weiterhin mit einem deutlichen Wachstum zu rechnen.
Wir möchten uns an dieser Stelle auch für das zahlreiche positive Feedback bedanken, das wir per Mail und über die Kommentarfunktion erhalten haben! Der SEOkicks Backlinkchecker ist vor einigen Monaten mit 300 Mio. Datensätzen und deutlich weniger Funktionen als Proof-of-Concept gestartet. Euer positives Feedback hat uns immer wieder motiviert noch mehr zu geben und wir sind selbst schon sehr gespannt auf die nächsten Daten- und Funktionsupdates.
Viel Spaß mit den frischen Daten!
Geschrieben von Torsten Rückert am 30.03.2012
Nach größeren Umbauten ist gerade der erste Teil unserer neuen Backlinkdaten online gegangen. Der Datenbestand hat sich im Vergleich zum letzten Index von 10 Mrd. Backlinkdaten nur geringfügig auf 11 Mrd. Datensätze vergrößert, wobei es sich dabei zu 100% um neu erhobene Daten handelt.
Mit dem heutigen Update gehen nicht nur neue Daten live, es hat sich intern auch die gesamte Struktur der Datenhaltung geändert wodurch beispielsweise die Erhebung von IP-Adressen, DomainRank, IP-POP und Netz-Pop (ClassC) sowie eine sinnvollere Sortierung der Backlinkdaten nach deren Wertigkeit ermöglicht wird. Ebsenso weisen sämtliche Linktexte nun ein sauberes UTF8-Encoding auf, egal mit welchem Zeichensatz sie auf der gecrawlten Website codiert waren. Bei einigen Zeichensätzen kam es hier in der Vergangenheit noch zu Problemen.
Wegen der sehr tiefgehenden Änderungen mussten wir in den letzten Wochen das alte und neue System (inkl. der Datenbanken) parallel betreiben was zu einer sehr knappen Ressourcenlage bei unserer Hardware geführt hat. Dies kann mitunter trotz des schon jetzt größeren neuen Index dazu führen, dass für einzelne Domains ungewöhnlich wenig Backlinkdaten aufgefürt werden. Das kann speziell auch deshalb passieren, weil sich im neuen Index deutlich mehr Daten für internationale Domains aus dem nicht deutschsprachigen Raum befinden.
Sobald das System umgestellt ist (was mit Erscheinen dieses Posts der Fall ist) nehmen wir alle alten Daten offline und fangen unverzüglich an den zweiten Teil des Index-Updates vorzubereiten. Bitte wundert Euch daher nicht, wenn sich die Anzahl der aufgeführten Backlinks für einige Domains ungewöhnlich stark reduziert hat. Innerhalb von etwa 2 Wochen steht wieder der vollständige Datenbestand bereit, bereits in einer Woche folgt schon das erste Update.
Update 09.04.2012: Heute ist der Index um 2 Mrd. Linkdaten gewachsen. Auf “kleinere” Updates dieser Art werden wir künftig vorranging über unseren Twitter-Account verweisen.
Geschrieben von Torsten Rückert am 02.03.2012
Heute vor genau einem Monat gab es bei SEOkicks das letzte große Index-Update. Seitdem ist auf den ersten Blick nicht viel passiert. Da dieser Eindruck trügt möchten wir an dieser Stelle kurz auf einige Themen eingehen, an denen bei uns in den letzten Wochen gearbeitet wurde.
Anchortexte:
Bisher gab es z.B. bei kyrillischen Linktexten teilweise Kodierungsprobleme, zu sehen z.B. bei den Linktexten für das russische Online-Kontaktnetzwerk odnoklassniki.ru. Wir haben unsere Encoding-Routinen daher stark überarbeitet und überführen nun sämtliche Zeichensätze sauber zu UTF-8. Darstellungsfehler bei Linktexten egal welcher Domain gehören damit ab dem nächsten Index-Update der Vergangenheit an.
Änderung bei Verlinkungen von Subdomains:
Bisher werden Links von Subdomains als extern gewertet, beispielsweise Links von forum.spiegel.de zu www.spiegel.de. Da solche Links bei den meisten Analysen nicht benötigt werden haben wir uns dazu entschieden sie künftig nicht mehr zu berücksichtigen. Zum einen können wir die hierdurch freiwerdenden Ressourcen für die Erfassung von potenziell interessanteren Links nutzen, zum anderen macht es unsere Zahlen vergleichbarer mit denen anderer Backlink-Tools, die diese Links überwiegend ebenfalls nicht berücksichtigen.
Sortierung gefundener Links nach deren Wert
Bisher werden die neuesten Links zu Beginn der Trefferliste gezeigt, in Zukunft erfolgt die Sortierung nach DomainRank. Links von besonders starken Domains werden also weiter vorne angezeigt als Links von schwächeren Domains. Der DomainRank ist zunächst ein Wert zwischen 1 und 15, an der genauen Berechnung (und je nach Feedback auch an der Skala) wird es künftig sicher noch Optimierungen geben, der Wert ist also als “beta” zu betrachten. In unseren Tests hat die erste Version jedoch schon einen sehr guten Eindruck hinterlassen und die Sortierung der Trefferliste scheint deutlich interessanter und aussagekräftiger zu gelingen als bisher.
Mehr Rechenleistung
SEOkicks wird bereits seit Beginn mit dem Fokus auf höchstmögliche Effizienz entwickelt, um den Betrieb bei deutlich geringeren Kosten zu ermöglichen, als es bisher am Markt möglich war. Dennoch gilt am Ende die Formel “Mehr/Schnellere Hardware -> Schnellere Indexgenerierung bzw. mehr Daten”. Wir haben daher unsere Crawling-Kapazitäten erweitert um künftig deutlich schneller Updates bereitstellen zu können bzw. um in kurzer Zeit mehr Daten zu generieren.
Neben den genannten Themen gab es zudem viele Detailänderungen die sich z.B. positiv auf die Performance unserer API auswirken. Bedingt durch die vielen Anpassungen mussten wir unsere Crawling-Läufe jedoch leider z.T. für längere Zeit aussetzen, das nächste Index-Update wird daher erst in voraussichtlich 1-2 Wochen online gehen. Ihr dürft aber schon jetzt gespannt auf die neuen Daten sein, wir selbst sind es!
Geschrieben von Torsten Rückert am 02.02.2012
Soeben ist erneut ein neuer Backlink-Index online gegangen, erstmals wurde damit die Marke von 10 Mrd. Links geknackt. In den nächsten Tagen folgen einige Anpassungen an der Art der Datenhaltung, die zunächst eine weitere Vergrößerung der Backlink-Datenbank auf etwa 15 Mrd. Backlinkdaten nach sich ziehen werden. Sämtliche dieser Daten werden in den nächsten Wochen komplett neu gecrawlt.
Wir gehen davon aus, dass uns in wenigen Monaten nochmals ein deutlicher Sprung gelingen wird, das nächste größerer Ziel liegt bei mind. 50 Mrd. Backlinkdaten, weitere Vergrößerungen sind ebenfalls schon jetzt geplant.
Weil die Pflege des Datums (“Erstverlinkung”) bedingt durch Änderungen an der Datenhaltung nicht immer möglich war, planen wir aktuell das Datum künftig zu entfernen und die Sortierung standardmäßig nach einem neuen Index vorzunehmen, der die Stärke des Backlinks ausdrücken wird. Wir hoffen diese Änderung ist in Eurem Sinne, da die Datumspflege generell auch einige zusätzliche Last (und Speicherplatz) belegt, die künftig für die Vergrößerung der Linkdatenbank genutzt werden soll.
Um künftig immer auf dem Laufenden zu sein gibt es ab sofort auch einen SEOkicks Twitter-Account. Anders als im Blog werden wir dort auch kleinere Anpassungen und die immer wieder stattfindenden kleineren Index-Aktualisierungen verkündigen.
Folgt uns!