Backlink Checker mit eigener Datenbasis

SEOkicks sammelt mit eigenen Crawlern fortlaufend Linkdaten und stellt diese per Website, CSV-Export und API zur Verfügung. Der aktuelle Index umfasst mehr als 200 Mrd. Linkdatensätze.

Erweiterung der Backlink API

Geschrieben von Torsten Rückert am 21.12.2020

Die SEOkicks Backlink API erlaubt schon länger den automatisierten Zugriff auf unsere Backlinkdaten, um diese in eigene Tools, Browser-Erweiterungen oder Excel-Tabellen zu übernehmen. Auf vielfachen Wunsch hin wurden die Funktionen nun nochmals stark erweitert:

  • Zugriff auf Linkziele
  • Zugriff auf Linktexte
  • Zugriff auf die zuletzt gefundenen Links
  • Reverse IP Suche

Die Reverse IP Suche ist ein Nebenprodukt und liefert zu einer beliebigen IP-Adresse alle Domains, die beim Crawling auf die angegebene IP verwiesen haben. Diese Funktion ist auch schon länger in unsere eigene Website integriert, so liefert die Reverse IP Suche für 91.198.174.192 aktuelle beispielsweise knapp 2.000 Subdomains, die von Wikipedia genutzt werden.

Details zu allen Funktionen finden sich in der Backlink API Doku. Feedback und weitere Wünsche nehmen wir wie immer gerne entgegen und möchten uns an dieser Stelle nochmals ausdrücklich für das zahlreiche Feedback der letzten Monate und Jahre bedanken, ohne das es viele kleine und größere Anpassungen und Erweiterungen sicher nicht gegeben hätte.

Übrigens sind für die API Nutzung nicht zwingend Programmierkenntnisse erforderlich, über den SEOkicks Connector innerhalb der SeoTools for Excel lassen sich die SEOkicks Daten direkt per Mausklick in eigene Excel Tabellen integrieren und aktualisieren.

Wir hoffen die API Neuerungen werden fleißig genutzt und wünschen viel Spaß und Erfolg bei der Anbindung.

0 Kommentare

Linkaufbau: URLs gezielt neu crawlen

Geschrieben von Torsten Rückert am 02.07.2020

SEOkicks ist inzwischen seit mehreren Jahren am Markt und die Crawling-Kapazitäten werden schon von Beginn an fortlaufend ausgebaut, damit neue Links möglichst schnell gefunden und über das Frontend bzw. per API zugänglich sind. Aufgrund der enormen Größe des Internets sowie einzelner Websites muss dabei algorithmisch entschieden werden, welche Seiten zu welchem Zeitpunkt abgerufen werden.

Unsere Nutzer haben ein Interesse daran, dass neue Links möglichst schnell gefunden werden, Website-Betreibern ist es hingegen wichtig, dass wir nicht zu viele Seiten einer Domain innerhalb kurzer Zeit crawlen und dadurch zu viele Ressourcen beanspruchen.

Wir haben unsere Algorithmen darauf ausgerichtet diesen Spagat bestmöglich zu vollziehen und jede einzelne Domain individuell zu bewerten und in sinnvollen Intervallen und Tiefen zu crawlen. Insbesondere bei nachträglich auf bestehenden Seiten eingefügten Links kann es dabei jedoch prinzipbedingt zu Verzögerungen bei der Erfassung durch unsere Crawler kommen.

Um über SEOkicks dennoch immer einen aktuellen und umfassenden Überblick zu erhalten bzw. auch um Endkunden neu aufgebaute Links transparent zugänglich zu machen, können dem SEOkicks Crawler ab sofort gezielt URLs übermittelt werden, die zeitnah auf neue Verlinkungen untersucht werden sollen.

Hierzu gibt es innerhalb des eigenen Nutzerkontos den neuen Menüpunkt „URLs crawlen“, unter dem sich die zu crawlenden Adressen mit wenigen Klicks als Liste übermitteln lassen. Dort neu aufgefundene Links werden innerhalb von 12 Stunden in die SEOkicks Datenbank übernommen.

Dieses Feature wurde in der Vergangenheit mehrfach von unseren Nutzern angefragt und in den letzten Wochen im Rahmen einer closed Beta bereits von einigen Agenturen produktiv genutzt, wodurch schon einige zehntausend neue Links erfasst werden konnten.

Das wesentliche Ziel von SEOkicks ist und bleibt natürlich die Erkennung neuer, unbekannter Verlinkungen. Dennoch war nachvollziehbar, dass es frustrierend sein kann, wenn bekannte Links nicht dargestellt werden und es hierdurch im Agentur-Alltag auch zu kritischen Nachfragen durch Endkunden kommt. Beides sollte sich durch die neue Funktionalität erledigt haben.

Abschließend noch ein Tipp: Nachdem alle bisher noch nicht erkannten Links ergänzt wurden, bietet es sich an einen E-Mail Alert zu aktivieren, der wahlweise täglich, wöchentlich oder monatlich auf alle weiteren neu entdeckten Links hinweist.

3 Kommentare

Mit versteckten Links auf starken Domains lassen sich bei Google beständige Platz 1 Rankings für hart umkämpfte Keywords erzielen. Im Folgenden zeigen wir an einem aktuellen Fallbeispiel auf, wie die Websites großer Firmen, Vereine, Behörden und Gemeinden dabei helfen ein dauerhaftes Platz 1 Ranking für „Viagra kaufen“ zu erhalten – und warum es niemand merkt.

Die Kollegen von onma.de wurden darauf aufmerksam, dass die Domain toppotenzmittel.de derzeit bei Google auf Platz 1 für das Keyword „Viagra kaufen“ rankt, sich über die SEOkicks Backlinkanalyse aber nur eine handvoll kaum bedeutsamer Backlinks für diese Domain finden lässt. Für solch ein Money Keyword schien das Platz 1 Ranking kaum möglich zu sein, daher machten wir uns gemeinsam auf die Suche nach der Ursache – und wurden fündig.

Der zunächst etwas enttäuschende Grund: Es wird offenbar eine Sicherheitslücke in TYPO3 ausgenutzt, um hunderte Websites zu haken und dort unbemerkt eigene Codes einzuschleusen. Überraschend ist allerdings wie viele prominente Websites großer Firmen, Behörden, Vereine und Gemeinden unter den Opfern sind, mit welchen Tricks die Links zu toppotenzmittel.de vor ihrer Entdeckung geschützt werden und wie gut das seit vielen Monaten funktioniert.

Stand jetzt bringt die gezielte Suche versteckte Verlinkungen von mehr als 150 Domains hervor, darunter von den Websites der Amadeus FiRe AG, des Deutschen Roten Kreuz oder der Stadtverwaltung Gotha. Die Methodik ist dabei immer identisch. Als Bespiel dient uns die Domain schulsport-nrw.de, betrieben von der Landesstelle für den Schulsport NRW der Bezierksregierung Düsseldorf.

Für den normalen Besucher nahezu unsichtbar, wird auf der Unterseite https://www.schulsport-nrw.de/home.html der folgende Abschnitt (inkl. Link) eingefügt:

„Der wahre Durchbruch in der Medizin ist Viagra-Pillen. Kontaktieren Sie uns unter toppotenzmittel.de! Lieferung auf Ihre Anfrage.“

Damit weder die Betreiber noch die Besucher auf den offensichtlichen Hack aufmerksam werden, ist die Verlinkung tief im Code versteckt. Gefunden haben wir den relevanten Schadcode bei schulsport-nrw.de in der jquery-2.1.4.min.js, die vom Angreifer um diesen Abschnitt erweitert wurde:

function site() {

    if (window.location.pathname !== window.indexPage ||
window.location.search !== '') { return; } var find = '<h1 class="csc-firstHeader">News</h1>' , pastePosition = 1 , add = '.egarfnA erhI fua gnurefeiL !>a/<
ed.lettimznetoppot>"/ed.lettimznetoppot//:sptth"
=ferh a< retnu snu eiS nereitkatnoK .nelliP-argaiV tsi nizideM
red ni hcurbhcruD erhaw reD'; var t = ''; for (var i = add.length - 1; i >= 0; i--) { t = String(t + add[i]) } add = t; if (/google/i.test(navigator.userAgent)) { var result = (pastePosition > 0) ? find + add :
add + find document.body.innerHTML = document.body.innerHTML.
replace(find, result); } } ; var indexPage = '/home.html'; document.addEventListener("DOMContentLoaded", site);

Was hier passiert: Es wird auf bewusst umständliche Weise auf der Unterseite /home.html nach dem Codeabschnitt <h1 class=“csc-firstHeader“>News</h1> gesucht, der durch diesen Code ergänzt wird:

Der wahre Durchbruch in der Medizin ist Viagra-Pillen. Kontaktieren Sie uns unter <a href=“https://toppotenzmittel.de/“>toppotenzmittel.de</a>! Lieferung auf Ihre Anfrage.

Die Platzierung des Codes findet jedoch nur statt, wenn der UserAgent das Wort „google“ (etwa googlebot) enthält.gotha

Insgesamt werden gleich 3 Maßnahmen ergriffen, um den Link bestmöglich zu verstecken:
– Der Link wird per JavaScript über eine externe Datei erzeugt, ist also im direkten HTML-Code der Seite nicht sichbar
– Linktext inkl. Domain werden im Code rückwärts geschrieben (z. B. „/ed.lettimznetoppot//:sptth“ statt https://toppotenzmittel.de)
– Der Link wird, abhängig vom verwendeten Browser („Cloaking“), nur den verschiedenen Googlebots angezeigt (if (/google/i.test(navigator.userAgent)))

Auffällig ist zudem, dass sehr individuell vorgegangen wird. Bei schulsport-nrw.de befindet sich der Schadecode z. B. in der auch vorher existierende Datei jquery-2.1.4.min.js, während bei anderen gehackten Domains völlig andere .js Dateien genutzt werden, je nach Verfügbarkeit.

Da es sich bei allen auf diese Weise infizierten Domains um TYPO3 Installationen handelt, scheint es sich um ein TYPO3-spzifisches Sicherheitsproblem zu handeln. Problematisch hierbei ist, dass ein Sicherheitspatch allein ggf. keinen Einfluss auf die schon kompromitierten Dateien hat und diese nachträglich gezielt manuell aufgesprürt und bereinigt werden müssen. Ein sinnvolles Suchmuster hierfür wäre:

/google/i.test(navigator.userAgent)

Es wird jedem TYPO3 Nutzer dringend dazu geraten die eigene Website auf entsprechende unerwünschte Änderungen, auch in externen Scripten, zu überprüfen.

Wie beständig die auf diese Weise erzielten Rankings sind, zeigt ein Blick in die metric.tools (Affiliate Link). Demnach schaffte die Domain toppotenzmittel.de es im März 2019 erstmals in die Top 20 für „viagra kaufen“, ist seit Juni 2019 durchgehend in den Top 10 und seit November 2019 auf Platz 1.

metric.tools Analyse

Eine größere Liste gehackter Domains, die auf toppotenzmittel.de verlinken, lässt sich über eine einfache Google-Suche nach „toppotenzmittel.de“ (inkl. Anführungszeichen) finden. Neben den beständigen Rankings beweisen leider auch die Google-Snippets, dass die versteckten Links von Google erkannt und berücksichtigt werden. Auch 2020 erweisen sich Blackhat Techniken zurückliegender Jahrzente damit weiterhin als erschreckend erfolgreich.

8 Kommentare
Nächste Seite »