Viele Dienste im Web nutzen die Möglichkeiten, das Surfverhalten und unsere Kommunikation zu verfolgen, zu analysieren und die gesammelten Daten zu versilbern. Die dabei entstehenden Nutzerprofile sind inzwischen sehr aussagekräftig. Es können das Einkommen, Alter, Zufriedenheit mit dem Job, politische Orientierung, Wahrscheinlichkeit einer Kreditrückzahlung, erotische Liebesbeziehungen und sexuelle Vorlieben, Schwangerschaften u.a.m. eingeschätzt werden. Ein Online-Versand von Brautkleidern möchte bspw. gezielt Frauen im Alter von 24-30 Jahren ansprechen, die verlobt sind. Ein Anbieter von hochwertiger Babyausstattung möchte gezielt finanziell gutsituierte Schwangere ansprechen. Das und vieles mehr ist heute schon möglich.
Es geht aber längst nicht nur um die Einblendung von Werbung. Die gesammelten Informationen können den Abschluss von Versicherungen oder Arbeitsverträgen beeinflussen, sie können zur
Preisdiskriminierung genutzt werden ... usw.
Techniken zum Tracking des Surfverhaltens
Das Surfverhalten liefert die meisten Informationen über unsere Vorlieben. Dabei werden folgende Techniken eingesetzt:
Cookies sind noch immer das am häufigsten eingesetzte Mittel, um Browser zu markieren und das Surfverhalten zu verfolgen.
Blockieren der Cookies für Drittseiten schützt nur teilweise vor dem Tracking. Die Datensammler haben Methoden entwickelt, um Tracking Cookies als First-Party Content zu platzieren. Studien zeigen, dass es 160 Trackingdienste gibt, die mehr als 40% des Surfverhaltens verfolgen können, wenn das Setzen von Cookies für Drittseiten möglich ist. Wenn man Cookies von Drittseiten verbietet, dann können noch 44 Trackingdienste mehr als 40% des Surfverhaltens verfolgen. Dazu zählen:
- Google Analytics, Chartbeat.com oder AudienceScience.com schreiben die Tracking Cookies mit Javascipt als First-Party Content.
- WebTrekk nutzt DNS-Aliases, um eigene Server als Subdomain der aufgerufenen Webseite zu deklarieren und sich First-Party Status zu erschleichen.
- Yahoo! Web Analytics protzt auf der eigenen Website damit, dass sie ebenfalls ihre Tracking Cookies als First-Party Content einsetzen können.
Mit diesen First-Party Cookies wird das Surfverhalten innerhalb einer Website beobachtet. Zusätzlich werden weitere Methoden eingesetzt, die eine Verknüpfung der gesammelten Daten über mehrere Webseiten hinweg ermöglichen. WebTrekk nutzt dafür z. B. Browser Fingerprinting (siehe unten).
- HTML-Wanzen (sogenannte Webbugs) sind 1x1-Pixel große transparente Bildchen, die in den HTML-Code einer Webseite eingebettet werden. Sie sind für den Nutzer unsichtbar. Beim Laden einer Webseite werden sie von einem externen Server geladen und hinterlassen Einträge in den Logdaten. Außerdem können sie Cookies setzen.
Werbung und Like Buttons werden einerseits wie HTML-Wanzen verwendet. Außerdem verrät man mit Klicks auf Werbung oder "Like Buttons" mehr private Informationen, als man eigentlich veröffentlichen möchte. Man kann beispielsweise homosexuelle Männer anhand der Klicks auf Werbung erkennen. Das Verfahren kann für viele Fragestellungen angepasst werden. Die Klicks auf Facebook Like Buttons können in der gleichen Weise ausgewertet werden. Forscher der Universität Cambridge konnten die sexuelle Orientierung und politische Einstellung der Surfer anhand der Klicks auf "Like Buttons" vorhersagen.
Immer häufiger nutzen Kriminelle die großen Werbenetzwerke, um mit ihrer Schadsoftware möglichst viele Rechner anzugreifen. Kriminelle kaufen passende Werbeplätze und lassen bösartige Werbebanner ausliefern oder locken die Surfer mit Anzeigen auf Malware Webseiten. Diese Angriffe werden als Malvertising bezeichnet (abgeleitet von "malicious advertising") und nehmen derzeit stark zu. Die Sicherheitexperten von Cyphort registrierten 2015 einen Anstieg von 325% und erwarten eine Fortsetzung dieses Trends für 2016.
- EverCookie Techniken nutzen moderne HTML5 Techniken wie DomStorage, ETags aus dem Cache u.a. als Ersatz für Cookies, um den Surfer zu markieren und später anhand dieser Markierungen wiederzuerkennen. Der polnische Informatiker Samy Kamkar hat eine Webseite zur Demonstration von EverCookie Techniken erarbeitet. 38% der populären Webseiten nutzen bereits verschiedene EverCookie Techniken (Stand: Okt. 2012).
Browser Fingerprinting nutzt verschiedene Merkmale des Browsers wie z. B. Browserversion, installierte Schriftarten, Bildschirmgröße, bevorzugte Sprachen und weitere Daten, um einen Fingerprint zu berechnen. Dieser Fingerprint ist für viele Surfer eindeutig. Die Projekte Panopticlick der EFF.org oder AmIUnique? demonstrieren es.
Für das Fingerprinting des Browsers werden verschiedene Techniken eingesetzt:
- HTTP-Header: Es werden die Informationen ausgewertet, die der Browser bei jedem Aufruf sendet (Sprache, Browsername und -version, Betriebssystem und -version, unterstützte Zeichensätze, Dateitypen, Kodierungen).
- Javascript basiert: Informationen werden per Javascript ausgelesen (installierte Schriftarten, Bildschirmgröße, Größe des Browserfensters).
Canvas basiert: In einem HTML5 Canvas Element wird ein Text gerendert und das Ergebnis via Javascript als Bild ausgelesen und ein Hash über alle Pixel als individuelles Merkmal berechnet. Das Ergebnis unterscheidet sich von Browser zu Browser aufgrund installierter Schriften, Software für das Rendering usw. Das Tracking-Verfahren wurde 2012 in dem wiss. Paper Perfect Pixel beschrieben.
Mittels Canvas Font Fingerprinting können die installierten Schriftarten ermittelt werden. Das Verfahren wurde 2016 in dem OpenWPM Paper (PDF) beschrieben.
- Plug-in basiert: Informationen werden per Flash- oder Java-Plugin ausgelesen (Schriftarten, Betriebssystem, Kernel Version, Multi-Monitor Setups, Bildschirm).
- Add-on basiert: Durch Seiteneffekte werden evtl. vorhandene Browser Add-ons analysiert (NoScript Whitelist, AdBlock Blacklist, fehlerhaftes User-Agent Spoofing). Browserleaks.com demonstriert einige Möglichkeiten.
- Hardware basiert: Informationen über die Hardware des genutzten Rechners werden gesammelt (Vibrator-API, Zugriff auf Mikrofon und Webcam, Performance der Grafikhardware oder Fingerprinting der Audio Hardware).
Verschiedene Studien wie Dusting the Web for Fingerprinters (2013), The web never forgets (2014) der KU Leuven (Belgien) und OpenWPN (2016) der Princeton University haben nachgewiesen, das Fingerprinting für das Tracking genutzt wird. Mit dem FP-Insector haben US-amerikanische Forscher 2020 nachgewiesen, dass das Browserfingerprinting als Trackingtechnik bei fast einem Viertel der Top 10.000 Webseiten eingesetzt wird, insbesondere bei News und Shopping Webseiten.
- Die Firma Bluecava nutzt ausschließlich Browser Fingerprinting und protzt mit 30% besseren Ergebnissen als Cookie-basierte Techniken.
- Die Firma Zanox.com nutzt den Fingerprint des Browsers, wenn Cookies gelöscht oder per Browser-Einstellung blockiert werden.
- Die Firma WebTrekk berechnet eine Fingerprint auf Grundlage von Geolocation anhand der IP-Adresse, Bildschirmgröße und Farbtiefe des Monitors, innere Größe des Browserfensters, bevorzugte Sprache, User-Agent des Browsers, Version des Betriebssystems sowie Einstellungen für Java, Javascript und Cookies (AN/AUS).
- Multicounter nutzen den Fingerprint zusätzlich zu Cookies oder EverCookies zur Verbesserung der Erkennungsraten.
- Die Firma Anonymizer Inc. verwendet Browser Fingerprinting auf sämtlichen Webseiten, verschweigt es aber im Privacy Statement. (Eine seltsame Auffassung für jemanden, der Anonymität verkaufen will.)
- Yahoo! Web Analytics nutzt Javascript Tracking Code, der auch Informationen des Browsers auswertet, wenn Cookies blockiert werden. (Das ist nur eine andere Formulierung für Fingerprinting des Browsers.)
- Canvas Fingerprinting wird von den Trackindiensten doubleverify.com, lijit.com, alicdn.com und anderen genutzt. Auf 14.371 Webseiten waren Trackingscripte mit Canvas Fingerprinting eingebunden. (Stand: 2016)
- AudioContext Fingerprinting wurde bei drei Trackingdiensten nachgewiesen, die jedoch nur einen sehr geringe Reichweite haben und nur auf wenigen Webseiten eingebunden sind.
- Die Reichweitenmessung von Computerbild.de verwendet zur Wiedererkennung von Computersystemen alternativ entweder ein Cookie, ein HTML5Storage Object oder eine anonyme Signatur, die aus verschiedenen automatisch übertragenen Informationen Ihres Browsers erstellt wird. (O-Ton Computerbild.de)
- ...
Da Browser Fingerprinting keine Markierungen einsetzt, die man löschen könnte, ist eine Verteidigung besonders schwer realisierbar. Wichtigste Verteidigunsmaßnahmen sind das Blockieren von Javascript (vor allem für Drittseiten), blockieren von Flash und die Nutzung von AdBlock, um Tracking-Scripte im First-Party Kontext zu blockieren.
Keystroke Biometrics verwendet das Schreibverhalten der Nutzer auf der Tastatur als Identifizierungsmerkmal. Der HTML5 Standard definiert eine API, um auf Tastaturereignisse reagieren zu können. In Firefox 38.0 wurden erste Teile der API standardmäßig aktiviert. In Kombination mit hochgenauen Timern können Webapplikationen das Schreibverhalten der Surfer in Webformularen analysieren und als biometrischen Login verwenden (z. B. von der Firma KeyTrac angeboten) oder als Trackingfeature.
Mit Windows 10 hat Microsoft begonnen, das Schreibverhalten der Anwender im Hintergrund durch das Betriebssystem analysieren zu lassen und die erstellten biometrischen Profile an die Firma BehavioSec zu senden, die mit der DARPA und Microsoft kooperiert. Laut Eigenwerbung kann BehavioSec 99% der Nutzer korrekt erkennen. Die dabei entstehenden umfangreiche Sammlung der biometrischen Profile kann zukünftig zum Tracking und zur Deanonymisierung genutzt werden.
- Wischen, Tippen, Zoomen sind die üblichen Gesten für die Bedienung der Touchscreens auf Smartphones. Ein australisches Forschungsteam präsentiert auf der PETS 2018 das Paper Quantifying the Uniqueness of Touch Gestures for Tracking (PDF), in dem gezeigt wird, dass diese Touchgesten individuell unterschiedlich sind und für die Wiedererkennung von Smartphone Nutzern geeignet sind.
Im Vergleich zu üblichen Tracking-Mechanismen, z. B. basierend auf Cookies, Browser-Fingerprints, Browser-User-Agents, Log-Ins und IP-Adressen, gibt es mehrere Faktoren, die das Tracking basierend auf Touch-Informationen potenziell riskanter machen. Während die anderen Mechanismen virtuelle Identitäten wie Online-Profile tracken, birgt touch-based tracking das Potenzial, die eigentliche (physische) Person am Gerät zu tracken und zu identifizieren.
Die Touch-Daten können über APIs von allen Smartphone Apps ausgelesen werden.
Tracking von E-Mails und Newslettern
Die Markierung von E-Mail Newslettern ist weit verbreitet. Es geht dabei darum, das Öffnen der E-Mails zu beobachten und die Klicks auf Links in den Newslettern zu verfolgen.
Wie beim Tracking des Surfverhaltens werden kleine 1x1 Pixel große Bildchen in die E-Mail eingebettet, die beim Lesen im HTML-Format von einem externen Server geladen werden. Durch eine individuelle, nutzerspezifische URL kann die Wanze eindeutig einer E-Mail Adresse zugeordnet werden. Der Absender erkennt, wann die E-Mails gelesen wurden und unter welcher IP-Adresse die Empfänger online sind.
Beispiel aus dem Newsletter von Paysafecard mit einem externen Trackingservice:
<IMG src="http://links.mkt3907.com/open/log/43.../1/0">
Easyjet kann selbst zählen und baut folgende Wanze in seine Newsletter ein:
<IMG src="http://mail.easyjet.com/log/bEAS001/mH9..."
height=0 width=0 border=0>
Auch der Anonymisierungsdienst ZenMate will seine Premium Kunden beobachten. Diese Wanze findet man nicht nur in den Newslettern sondern auch in Zahlungsbestätigungen usw.
<IMG width="1px" height="1px" alt="" src="http=://email.zenmate.com/o/eJwVyzEOwjAMBdDTkI0qiePYHXIW9N24EAkoKh04PvD215tHSjWM=....">
Bei kommerziellen E-Mail Newslettern kann man fast sicher davon ausgehen, dass sie Wanzen enthalten. Ich habe diese Trackingelemente in so gut wie allen kommerziellen Newslettern von PayPal.com, Easyjet, AirBerlin, Paysafecard, UKash usw. gefunden. Einzige Ausnahme war bisher die Firma Softmaker.
Es wird aber nicht nur im kommerziellen Bereich verwendet. Auch die CDU Brandenburg markierte ihre Newsletter über einen längeren Zeitraum, um zu überprüfen, wann und wo sie gelesen wurden. ACCESS Now und Abgeordnetenwatch.de sind weitere Beispiele.
- Neben kleinen Bildern können weitere HTML-Elemente wie CSS Stylesheets, Media Dateien oder Link Prefetching in einer E-Mail genutzt werden. Der E-Mail Privacy Test zeigt eine umfangreiche Liste. Diese Elemente werden "in the wild" aber kaum genutzt.
- Die Links in den E-Mails führen oft nicht direkt zum Ziel. Sie werden über einen Trackingservice geleitet, der jeden Klick individuell für jede Empfängeradresse protokolliert und danach zur richtigen Seite weiterleitet. Als Bespiel soll ein Link aus dem Paysafecard Newsletter dienen, der zu einem Gewinnspiel auf der Paysafecard Webseite führen soll:
<a href="http://links.mkt3907.com/ctt?kn=28&ms=3N..."> Gewinne Preise im Wert von 10.000 Euro</a>
Als Schutzmaßnahme gegen dieses Tracking sollte man Mails in Plain Text lesen.
Tracking von Dokumenten (z. B. Word, PDF)
Die Firma ReadNotify bietet beispielsweise einen Service, der Office Dokumente und PDFs mit speziellen unsichtbaren Elementen versieht. Diese werden beim Öffnen des Dokumentes vom Server der Firma nachgeladen und erlauben somit eine Kontrolle, wer wann welches Dokument öffnet. Via Geo-Location ermittelt ReadNotify auch den ungefähren Standort des Lesers.
Aus der Werbung von ReadNotify:
What will you tell me about my tracked documents and PDF's?
We not only let you know when your document or PDF was opened, but we will also endeavor to let you know:
- Date, time, location, ISP, etc regarding each reading
- Recipient / reader details
- When applicable, details showing when your document was Printed out (on paper) or Saved (a copy made to disk)
- Details on whether or not it was forwarded (and where possible; to whom)
- Which pages of your PDF were read
- Length of time read
- How many times it was opened and re-opened (with optional instant notifications each time)