Die Techniken der Datensammler

Viele Dienste im Web nutzen die Möglichkeiten, das Surfverhalten zu verfolgen, zu analysieren und die gesammelten Daten zu versilbern. Die dabei entstehenden Nutzerprofile sind inzwischen sehr aussagekräftig. Wie das Wall Street Journal in einer Analyse beschreibt, können das Einkommen, Alter, politische Orientierung und weitere persönliche Daten der Surfer eingeschätzt werden oder die Wahrscheinlichkeit einer Kreditrückzahlung. Hauptsächlich werden diese Daten für Werbung genutzt. Ein Online-Versand von Brautkleidern möchte Frauen im Alter von 24-30 Jahren ansprechen, die verlobt sind. Das ist heute möglich.

Es geht aber längst nicht nur um die Einblendung von Werbung. Sarah Downey warnt vor wachsenden realen Schäden durch das Online-Tracking. Die gesammelten Informationen können den Abschluss von Versicherungen und Arbeitsverträgen beeinflussen oder sie können zur Preisdiskriminierung genutzt werden. Ganz einfaches Beispiel: das US-Reiseportal Orbitz bietet z.B. Surfern mit MacOS Hotelzimmer an, die 20-30 Dollar teuerer sind, als die Zimmer der Windows Nutzern angeboten werden.

Techniken zum Tracking des Surfverhaltens

Das Surfverhalten liefert die meisten Informationen über unsere Vorlieben. Dabei werden folgende Techniken eingesetzt:

  • Cookies sind noch immer das am häufigsten eingesetzte Mittel, um Surfer zu markieren und über mehrere Webseiten zu verfolgen.
  • Flash-Cookies werden seit 2005 verwendet, um gelöschte Tracking-Cookies wiederherzustellen. Sie sind unabhängig vom Browser und funktionieren auch, wenn man verschiedene Browser oder Browserprofile für spurenarmes Surfen und Fun-Surfen nutzt.
  • HTML-Wanzen (sogenannte Webbugs) sind 1×1-Pixel große transparente Bildchen, die in den HTML-Code einer Webseite eingebettet werden. Sie sind für den Nutzer unsichtbar. Beim Laden einer Webseite werden sie von einem externen Server geladen und hinterlassen Einträge in den Logdaten. Außerdem können sie Cookies transportieren.
  • EverCookies nutzen moderne HTML5 Techniken wie DomStorage, ETags aus dem Cache und andere Techniken, um den Surfer zu markieren und später anhand dieser Markierungen wiederzuerkennen. Der polnische Informatiker Samy Kamkar hat eine Webseite zur Demonstration von EverCookie Techniken4 erarbeitet. 38% der populären Webseiten nutzen bereits verschiedene EverCookie Techniken.
  • Browser Fingerprinting nutzt verschiedene Merkmale des Browsers wie z.B. Browserversion, installierte Schriftarten, Bildschirmgröße, bevorzugte Sprachen und weitere mit Javascript auslesbare Daten, um einen Fingerprint zu berechnet. Dieser Fingerprint ist für viele Surfer eindeutig. Das Projekt Panopticlick der EFF.org zeigte, dass mehr als 80% der Surfer damit eindeutig erkennbar sind. Die Erkennungsrate stieg auf 94%, wenn Flash- oder Java-Applets zusätzlich genutzt werden konnten. Die Firma Bluecava nutzt ausschließlich Browser Fingerprinting und protzt mit 30% besseren Ergebnissen als Cookie-basierte Techniken. Andere Trackingfirmen (z.B. Google, Multicounter) nutzen diese Informationen zusätzlich, um die Erkennungsraten zu verbessern.

Die Tracking-Elemente können in die Webseiten eingebettet werden (First-Party Content) oder sie können von externen Servern nachgeladen werden (Third-Party Content). Außerdem werden sie durch Einblendungen von Werbebanner transportiert oder durch die Like-Buttons der Social Networks. Für die Auswertung werden nicht nur die Informationen zur besuchten Webseite genutzt. Besonders aussagekräftig sind die Klicks auf Werbung. S. Guha von Microsoft und B. Cheng sowie P. Francis vom Max-Planck-Institut für Software Systeme habe ein Paper veröffentlicht, wie man homosexuelle Männer anhand der Klicks auf Werbung erkennen kann. Das Verfahren kann für verschiedene Fragestellungen angepasst werden. Die Klicks auf Facebook Like Buttons können in der gleichen Weise ausgewertet werden. Forscher der Universität Cambridge (Großbritannien) konnten bei einer Untersuchung die sexuelle Orientierung und politische Einstellung der Nutzer anhand der Klicks auf Like Buttons vorhersagen. Damit verrät man möglicherweise mehr private Informationen, als man eigentlich veröffentlichen möchte.

Tracking von E-Mail Newslettern

Die Markierung von E-Mail Newslettern ist weit verbreitet. Es geht dabei darum, das Öffnen der E-Mails zu beobachten und die Klicks auf Links in den Newslettern zu verfolgen. Wie beim Tracking des Surfverhaltens werden kleine 1×1 Pixel große Bildchen in die E-Mail eingebettet, die beim Lesen im HTML-Format von einem externen Server geladen werden. Durch eine individuelle, nutzerspezifische URL kann die Wanze eindeutig einer E-Mail Adresse zugeordnet werden. Ein Beispiel aus dem E-Mail Newsletter von Paysafecard, das einen externen Trackingservice nutzt:

<IMG src=“http://links.mkt3907.com/open/log/43…/1/0″>
 

Easyjet.com kann offenbar die Aufrufe seiner Newsletter selbst zählen und auswerten. In den E-Mails mit Informationen zu gebuchten Flügen findet man folgende kleine Wanze am Ende der Mail:

<IMG src=“http://mail.easyjet.com/log/bEAS001/mH9…“ height=0 width=0 border=0>
 

In man fast sicher davon ausgehen, dass sie Wanzen enthalten. Ich habe diese Trackingelemente in so gut wie allen kommerziellen Newslettern von PayPal.com, Easyjet, Air- Berlin, Paysafecard, UKash usw. gefunden. Einzige Ausnahme war bisher die Firma Softmaker. Es wird aber nicht nur im kommerziellen Bereich verwendet. Die CDU Brandenburg markierte ihre Newsletter über einen längeren Zeitraum, um zu überprüfen, wann und wo sie gelesen wurden. ACCESS Now und Abgeordnetenwatch sind weitere Bespiele. Die Links in den E-Mails führen oft nicht direkt zum Ziel. Sie werden über einen Trackingservice geleitet, der jeden Klick individuell für jede Empfängeradresse protokolliert und danach zur richtigen Seite weiterleitet. Als Bespiel soll ein Link aus dem Paysafecard Newsletter dienen, der zu einem Gewinnspiel auf der Paysafecard Webseite führen soll:

<a href=“http://links.mkt3907.com/ctt?kn=28&ms=3N…“> Gewinne Preise im Wert von 10.000 Euro</a>
  

Tracking von Dokumenten (PDF, Word usw.)

Die Firma ReadNotify bietet einen Service, der Word-Dokumente und PDF- Dateien mit speziellen unsichtbaren Elementen versieht. Diese werden beim Öffnen des Dokumentes vom Server der Firma nachgeladen und erlauben somit eine Kontrolle, wer wann welches Dokument öffnet. Via Geolocation ermittelt ReadNotify auch den ungefähren Standort des Lesers.

Tendenzen beim Tracking des Surfverhaltens

Obwohl 80% der Internetnutzer das Tracking des Surfverhaltens ablehnen, wird es stetig weiter ausgebaut. Dabei sind folgende Tendenzen erkennbar:

Mehr Trackingelemente werden auf den Webseiten eingesetzt. Das Projekt Web Privacy Census der University of California verfolgt seit mehreren Jahren die Entwicklung und dokumentiert einen stetigen Anstieg von Trackingelementen bei den meistbesuchten Webseiten (Top-100, Top-1000 und Top-25.000). Als Beispiel soll die Anzahl der Cookies dienen, die beim Besuch der 100 populärsten Webseiten gesetzt werden (ohne Login, nur beim Betrachten der Webseiten):

Anzahl der Cookies
2009: 3.602
2011: 5.675
2012: 6.485

84% der Cookies stammen dabei von Drittseiten. Die Daten werden an mehr als 600 Server übertragen.

Das Projekt registriert eine überproprtionale Zunahme schwer blockier- barer Trackingfeatures (EverCookies). Immer mehr Webseiten verwen- den HTML5 DomStorage, IE_userdata oder ETags aus dem Cache für die Verfolgung des Surfverhaltens. Für die meistbesuchten Webseiten wur- den folgende Zahlen zur Nutzung von EverCookies ermittelt:

Nutzung von EverCookies
2011 19% der Webseiten
2012 (Mai) 34% der Webseiten
2012 (Okt.) 38% der Webseiten

Flash-Cookies (LSOs) werden seltener eingesetzt. Diese Technik befindet sich auf dem absteigenden Ast. Im Oktober 2012 setzten nur noch 11% der populären Webseiten Flash-Cookies ein. Dabei handelt es sich überwiegend um Webseiten mit Flash-Videos. Youporn.com speichert persönliche Preferenzen beispielsweise in Flash-Cookies.

Durch den Aufkauf kleinerer Anbieter durch die Großen der Branche erfolgt eine Marktbereinigung. Es bilden sich sogenannte Tracking- Familien, die die Daten untereinander austauschen und somit eine große Reichweite bei der Beobachtung des Surfverhaltens haben. Die größten Tracking-Familien sind:

(a) Die Google-Familie ist unangefochten die Nummer Eins. 44% der weltweiten Umsätze in der Onlinewerbung werden durch diese Gruppe erzielt. Das Google Imperium hat in den letzten Jahren die Firmen YouTube, DoubleClick mit falkad.net, FeedBurner, Springs, Adscape, AdMob, Teracent, Invite Media, Admeld, Adelphic, Wildfire Interactive u.a.m. aufgekauft. Die folgende Tabelle zeigt, wie das Google Imperium dadurch seine Präsenz auf den 1000 populärsten Webseiten in den letzten Jahren ausbauen konnte:

Trackingelemente der Google-Familie
2005 auf 7% der Webseiten
2006 auf 16% der Webseiten
2008 auf 55% der Webseiten
2009 auf 80% der Webseiten
2012 auf 97% der Webseiten

(b) Auf den Plätzen 2-4 folgen die Tracking-Familien von Microsoft (u.a. mit den Trackingdiensten atdmt.com, adbureau.com, aquantive.com), die Yahoo! Familie (mit den Trackingdiensten adrevolver, yieldmanager, overture) und die AOL-Familie (mit adsonar.com, tacoda.net, advertising.com) mit einem Marktanteil von jeweils 3-8%.

(c) Die im Februar 2013 vereinbarten Kooperation von Facebook mit den bisher eigenständigen Trackingdiensten BlueKai und Epsilon bildet den Kern einer neuen bedeutenden Tracking Familie.

Die Beobachtung des Surfverhaltens und der Online-Einkäufe liefert nur ein unvollständiges Bild unserer Interessen. Durch Einbeziehung von Daten aus dem realen Leben sollen die Profile verbessert werden.

• Im Februar 2013 hat Facebook eine Kooperation mit den Datenhändlern Axciom und Datalogix bekannt gegeben. Diese Firmen werten umfangreiche Daten aus der realen Welt aus (Kreditkartenzahlungen, Rabattkarten usw.). Damit sollen die Werbeeinblendung bei Facebook individueller und zielgerichteter auf die Interessen der Mitglieder zugeschnitten werden.

• PayPal.com will sein Bezahlsystem auch offline anbieten und verspricht den teilnehmenden Geschäften, dass sie mehr über die Vorlieben ihrer Kunden erfahren werden. Natürlich wird auch PayPal.com mehr über die realen Interessen der Kunden erfahren.

Alle Datensammlungen wecken natürlich Begehrlichkeiten bei den Geheimdiensten und Strafverfolgern. Leider ist wenig Konkretes darüber bekannt. Bei der Anhörung des US Senate Commerce Committee zu den Probleme von Online-Trackings im Juni 2012 sagte B. Liodice als Vertreter der Werbeindustrie, dass das Tracking das Surfverhaltens der Internetnutzer für die Sicherheit der USA wichtig und notwendig ist.

Die EFF.org kommentierte:

In yesterday’s Senate hearing, we heard the advertising industry admit that their near-ubiquitous online tracking program is being used for issues that are the purview of law enforcement.

Damian Paderta
Damian Paderta
Webgeograph & Digitalberater