Plagiate der eigenen Webseite aufspüren

Nachdem ich in letzter Zeit immer öfter, mehr oder weniger per Zufall, über vollständige Kopien einzelner meiner Beiträge gestolpert bin habe ich mich nun etwas tiefer mit dem Thema beschäftigt.

Vorweg, ich und das trifft vermutlich auf viele andere Autoren ebenfalls zu, habe absolut nichts dagegen, wenn jemand auf seiner Webseite einen kurzen Teaser zu einem Beitrag verfasst und dann auf den eigentlichen Artikel verlinkt. Im Gegenteil, das Internet und die Bewertung von Artikeln in den Suchtreffern von Suchmaschinen hängen u. a. von genau solchen Verlinkungen ab und sind daher jederzeit willkommen.

Leider gibt es jedoch auch Mitmenschen die aus Unwissenheit oder aber aus Vorsatz ganze Artikel via Copy & Paste auf Ihre Seite kopieren und z. T. sogar ohne Referenz zum Ursprungsartikel als eigenes Werk ausgeben. Dieses Verhalten hat leider einige Nachteile, insbesondere für den Autor der den Beitrag mit viel Arbeit erstellt hat:

1. Suchmaschinen haben für doppelte Webseiten (double content) kein Verständnis und können natürlich auch nicht entscheiden wer der legitime Autor des Inhalts ist. Daher werden in der Regel alle Seiten bei der Anzeige der Suchergebnisse  bestraft.

2. Viele Webseiten finanzieren die Kosten für das Hosting und z. B. der getesteten Soft- und Hardware durch Werbebanner auf der Webseite. Werden diese seltener angezeigt bzw. angeklickt, fließt (noch) weniger Geld und der Autor muss noch mehr aus eigener Tasche zahlen.

Die ganzen moralischen und rechtlichen Aspekte lasse ich jetzt mal aussen vor…

Um entsprechende Plagiate meiner Webseite finden zu können habe ich mir einige Dienste die es dazu gibt angesehen und habe mich nach einigen Testläufen dazu entschlossen bei PlagSpotter alle meine Artikel (227) für etwas mehr als 10 € prüfen zu lassen. Das Ergebnis sieht dabei absolut nicht gut aus. Für einen großen Teil der Seiten wurden Plagiate im roten Bereich (mehr als 50% des Inhalts) entdeckt:

image_thumb2-1754005

Schaut man jedoch in die Detailansicht, so wird das ganze wieder relativiert:

image_thumb3-1040182

… ich kann gut damit leben, dass mein Slogan (ist ein Zitat) auf mehreren Seiten vorkommt und ich kann auch gut damit leben, dass andere WordPress verwenden und daher die entsprechenden Textbausteine wie “Dieser Beitrag wurde unter abgelegt und mit verschlagwortet” verwenden. Wie der Scanner hier auf einen content match von 45% kommt ist mir nicht wirklich klar. Zudem scheint es Probleme mit der Darstellung von Umlauten zu geben (wohl noch nie was von Unicode gehört…):

image_thumb4-6520933

Da WordPress ein sehr verbreitetes Blogsystem ist, hätte ich auch erwartet, dass der Scanner hier etwas differenzierter vorgeht und z. B. den Inhaltsbereich eines Beitrages von den Kommentaren unterscheiden kann. Bei tatsächlichen Duplikaten habe ich nämlich in einem mir bekannten Beispiel nur eine Trefferquote von unter 10% – die Seite kopiert jedoch tatsächlich meinen ganzen Artikel, allerdings ohne die unzähligen Kommentare darunter…

Alles in allem hat mich das Tool leider nicht überzeugen können. Werde wohl weiterhin von Hand das Web und meine Logs nach Plagiaten durchsuchen müssen. Schade.