Viele Dienste im Web nutzen die Möglichkeiten, das Surfverhalten zu verfolgen, zu analysieren und die gesammelten Daten zu versilbern. Die dabei entstehenden Nutzerprofile sind inzwischen sehr aussagekräftig. Wie das Wall Street Journal in einer
Analyse beschreibt, können das Einkommen, Alter, politische Orientierung, die Wahrscheinlichkeit einer Kreditrückzahlung und weitere Daten der Surfer eingeschätzt werden. Ein Online-Versand von Brautkleidern möchte bspw. gezielt Frauen im Alter von 24-30 Jahren ansprechen, die verlobt sind. Das ist möglich.
Es geht aber längst nicht nur um die Einblendung von Werbung.
Sarah Downey warnt vor wachsenden realen Schäden durch das Online-Tracking. Die gesammelten Informationen können den Abschluss von Versicherungen oder Arbeitsverträgen beeinflussen, sie können zur
Preisdiskriminierung genutzt werden usw.
Techniken zum Tracking des Surfverhaltens
Das Surfverhalten liefert die meisten Informationen über unsere Vorlieben. Dabei werden folgende Techniken eingesetzt:
- Cookies sind noch immer das am häufigsten eingesetzte Mittel, um Surfer zu markieren und über mehrere Webseiten zu verfolgen.
- Flash-Cookies werden seit 2005 verwendet, um gelöschte Tracking-Cookies wiederherzustellen. Sie sind unabhängig vom Browser und funktionieren auch, wenn man verschiedene Browser oder Browserprofile für spurenarmes Surfen und Fun-Surfen nutzt.
- HTML-Wanzen (sogenannte Webbugs) sind 1x1-Pixel große transparente Bildchen, die in den HTML-Code einer Webseite eingebettet werden. Sie sind für den Nutzer unsichtbar. Beim Laden einer Webseite werden sie von einem externen Server geladen und hinterlassen Einträge in den Logdaten. Außerdem können sie Cookies transportieren.
- EverCookie Techniken nutzen moderne HTML5 Techniken wie DomStorage, ETags aus dem Cache und andere Techniken, um den Surfer zu markieren und später anhand dieser Markierungen wiederzuerkennen. Der polnische Informatiker Samy Kamkar hat eine Webseite zur Demonstration von EverCookie Techniken erarbeitet. 38% der populären Webseiten nutzen bereits verschiedene EverCookie Techniken (Stand: Okt. 2012).
- Browser Fingerprinting nutzt verschiedene Merkmale des Browsers wie z.B. Browserversion, installierte Schriftarten, Bildschirmgröße, bevorzugte Sprachen und weitere mit Javascript auslesbare Daten, um einen Fingerprint zu berechnet. Dieser Fingerprint ist für viele Surfer eindeutig. Das Projekt Panopticlick der EFF.org zeigte, dass mehr als 80% der Surfer damit eindeutig erkennbar sind. Die Erkennungsrate stieg auf 94%, wenn Flash- oder Java-Applets zusätzlich genutzt werden konnten. Die Firma Bluecave nutzt ausschließlich Browser Fingerprinting und protzt mit 30% besseren Ergebnissen als Cookie-basierte Techniken. Andere Trackingfirmen (z.B. Google, Multicounter) nutzen diese Informationen zusätzlich zu Cookies oder EverCookies zur Verbesserung der Erkennungsraten.
Die Tracking-Elemente können in die Webseiten eingebettet werden (First-Party Content). Sie können von externen Servern nachgeladen werden (Third-Party Content). Außerdem werden sie durch Einblendungen von Werbebanner transportiert oder durch die Like-Buttons der Social Networks.
Für die Auswertung werden nicht nur die Informationen zur besuchten Webseite genutzt. Besonders aussagekräftig sind die Klicks auf Werbung. S. Guha von Microsoft und B. Cheng sowie P. Francis vom Max-Planck-Institut für Software Systeme habe ein Paper veröffentlicht, wie man
homosexuelle Männer anhand der Klicks auf Werbung erkennen kann. Das Verfahren kann für verschiedene Fragestellungen angepasst werden. Die
Klicks auf Facebook Like Buttons können in der gleichen Weise ausgewertet werden. Forscher der Universität Cambridge (Großbritannien) konnten bei einer Untersuchung die sexuelle Orientierung und politische Einstellung der Nutzer anhand der Klicks auf Like Buttons vorhersagen. Damit verrät man möglicherweise mehr private Informationen, als man eigentlich veröffentlichen möchte.
Tracking von E-Mails und Newslettern
Die Markierung von E-Mail Newslettern ist weit verbreitet. Es geht dabei darum, das Öffnen der E-Mails zu beobachten und die Klicks auf Links in den Newslettern zu verfolgen.
- Wie beim Tracking des Surfverhaltens werden kleine 1x1 Pixel große Bildchen in die E-Mail eingebettet, die beim Lesen im HTML-Format von einem externen Server geladen werden. Durch eine indivuelle, nutzerspezifische URL kann die Wanze eindeutig einer E-Mail Adresse zugeordnet werden. Ein Beispiel aus dem Newsletter von Paysafecard, das einen externen Trackingservice nutzt:
<IMG src="http://links.mkt3907.com/open/log/43.../1/0">
Easyjet kann selbst zählen und baut folgende Wanze in seine Newsletter ein:
<IMG src="http://mail.easyjet.com/log/bEAS001/mH9..."
height=0 width=0 border=0>
Bei kommerziellen E-Mail Newslettern kann man fast sicher davon ausgehen, dass sie Wanzen enthalten. Ich habe diese Trackingelemente in so gut wie allen kommerziellen Newslettern von PayPal.com, Easyjet, AirBerlin, Paysafecard, UKash usw. gefunden. Einzige Ausnahme war bisher die Firma Softmaker.
Es wird aber nicht nur im kommerziellen Bereich verwendet. Auch die CDU Brandenburg markierte ihre Newsletter über einen längeren Zeitraum, um zu überprüfen, wann und wo sie gelesen wurden. ACCESS Now und Abgeordnetenwatch.de sind weitere Bespiele.
- Die Links in den E-Mails führen oft nicht direkt zum Ziel. Sie werden über einen Trackingservice geleitet, der jeden Klick individuell für jede Empfängeradresse protokolliert und danach zur richtigen Seite weiterleitet. Als Bespiel soll ein Link aus dem Paysafecard Newsletter dienen, der zu einem Gewinnspiel auf der Paysafecard Webseite führen soll:
<a href="http://links.mkt3907.com/ctt?kn=28&ms=3N..."> Gewinne Preise im Wert von 10.000 Euro</a>
Tracking von Dokumenten (z.B. Word, PDF)
Die Firma ReadNotify bietet einen Service, der Word-Dokumente und PDF-Dateien mit speziellen unsichtbaren Elementen versieht. Diese werden beim Öffnen des Dokumentes vom Server der Firma nachgeladen und erlauben somit eine Kontrolle, wer wann welches Dokument öffnet. Via Geo-Location ermittelt ReadNotify auch den ungefähren Standort des Lesers.