Privatsphäre: Ein Prozess in Big Data

Big Data und Privatsphäre

Der Diskurs über Fragen der Privatsphäre im Bereich der sozialen Medien ist so alt wie diese selbst. Die immer wiederkehrende Empörung über die Veröffentlichungspraktiken persönlicher Bilder und Daten von Kindern und Jugendlichen dürften Vielen bekannt sein. Auf der anderen Seite sind die Bedenken gegenüber staatlichen Organen und privatwirtschaftlichen Unternehmen spätestens seitden Snowden-Enthüllungen größer, als die Angst vor Cyberkriminalität wie z.B., Identitätsdiebstahl, Phishing, etc.

Datenschutzrechtliche Bedenken im Internet sind nicht neu. Was ist gegenwärtig also großartig anders? Big Data macht den Unterschied. Seit Jahrhunderten werden Daten auf unterschiedlichster Weise erhoben, verarbeitet und gespeichert. In den vergangenen Jahrzehnten hat das Internet eine Explosion an Daten und Anwendungen verstärkt. Die Daten sind der Nährboden im Web. Es werden große Anstrengungen unternommen, um sinnvolle Anwendungen für diese Daten zu entwickeln. Wenn wir über Privatsphäre und Öffentlichkeit im digitalen Zeitalter sprechen wollen, müssen wir die Praxis um Big Data kennen. Wir kommen nicht umhin, darüber zu reden, wie Daten produziert, gespeichert, geteilt, gebraucht und aggregiert werden. Datenschutz und Privatsphäre sind komplett mit Big Data verwoben.

Es ist ein Zeitalter angebrochen, in denen Daten zwar billig sind, deren sinnstiftende und verantwortungsvolle Verwendung sich aber noch im Prozess des Austarierens befindet. Viele Unternehmen sitzen auf Terabytes von Daten über menschliche Interaktionen und fragen sich, was sie mit all den Daten die sie besitzen, eigentlich anstellen können. Eine ethische und methodische Annäherung an das Thema Big Data kann uns einen Rahmen bieten, innerhalb dessen wir uns systematisch bewegen können, ohne uns vor Neuerungen zu verschließen.

Perspektivwechsel

Ich bin Geograph und deshalb mit der Darstellung von Karten vertraut. Es faszinierte mich, verschiedene Datenquellen zu verknüpfen und diese darzustellen um neue Erkenntnisse zu gewinnen. Die aufgedeckten Muster können scheinbar Geschichten erzählen. Ich habe aber auch schnell verstanden, dass diese Muster mehr Fragen aufwerfen können, als hilfreiche Antworten zu liefern. Mit dieser Einsicht begann ich kritisch zu reflektieren, was Big Data eigentlich in der Lage ist, über das menschliche Verhalten auszusagen – und was nicht.

Für SozialwissenschaftlerInnen ist Erhebung valide Daten immer eine Herausforderung. Historisch gesehen war das Sammeln von Daten immer schwierig, zeitaufwändig und ressourcenintensiv. Ein Großteil der Begeisterung um Big Data ergibt sich aus der Möglichkeit, mit einfachen Mitteln Zugang zu großen Datenmengen per einfachen Mausklick zu erhalten. Leider wird in dieser Aufregung eine kritische Analyse dessen, was diese Daten eigentlich sind und was sie bedeuten, schnell vergessen.

Viele nähern sich Big Data aus einer mathematischen-informationstechnischen Perspektive, aber es ist absolut entscheidend,, zu verstehen, dass sie mit Daten über Menschen zu tun haben. Das ist der Punkt, wo eine sozialwissenschaftliche Theorie und Analyse weiterhelfen kann, weitere Schichten dieses Sachverhaltes zu aufzudecken. SozialwissenschaftlerInnen sind der Sammlung, Verarbeitung und Analyse von sozialen Daten in der Praxis  geübt. Die Analyse ist eng mit ihren Methoden verbunden. Mit Hilfe sozialwissenschaftlicher Denkweise möchte ich fünf Punkte im Umgang mit Big Data diskutieren.

Mehr = besser?

Qualität ist wichtiger als Quantität. Um die Qualität beurteilen zu können, müssen die Grenzen bzw. die Beschränktheit der Daten bekannt sein. Eine der wichtigsten Punkte bei der Arbeit mit Daten ist die Wahl der Stichproben. Die Stichprobe ist entscheidend für alle Sozialwissenschaften. Die Auswahl der Stichprobe hat bereits Auswirkung der gewünschten Aussage. Sollen Aussagen repräsentativ sein, sollten Stichproben zufällig entnommen werden. Gilt es jedoch Aussagen über eine Topologie zu treffen, steht die Vielfalt statt der Repräsentativität im Mittelpunkt des Interesses.

Idealerweise wäre der Zugriff auf die Daten der gesamten Bevölkerung möglich, so dass die gewählte Stichprobe sinnvoll ausgewählt werden könnte. Historisch betrachtet kommt es äußerst selten vor, dass Forscher einen vollständigen Zugang zu Daten zu erhalten. Deshalb haben WissenschaftlerInnen versucht, sich dieser Erfassung der Gesamtmenge an Daten methodisch bestmöglich zu nähern.

Big Data eröffnet die Möglichkeit auf ganze Datensätze zuzugreifen. Aber Big Data ist nicht immer ein ganzer Datensatz. Manchmal ist es eher eine quantitative Ansammlung verschiedener fragmentierter Daten, als der erhoffte gesamte Umfang. Twitter hat alle Tweets. Aber die meisten AnalystInnen haben nicht alle Tweets. Im besten Fall haben sie alle öffentlichen Tweets. Wahrscheinlicher jedoch ist es, dass sie den Stream der Tweets aus der öffentlichen Timeline haben. Diese Tweets sind nicht einmal zufällig.

Nicht selten argumentieren WissenschaftlerInnen damit, dass ihre Probe gültig ist, weil sie Millionen von Tweets berücksichtigt haben, ohne jedoch darauf zu achten, was diese Tweets eigentlich sind. Big Data und die Grundgesamtheit der Daten sind nicht das Gleiche. Wenn man versucht, aktuelle Tendenzen von Tweets zu verstehen und dabei vernachlässigt, dass z.B. Twitter alle Tweets, die problematische Wörter enthalten entfernt, wird die Analyse falsch sein, egal wie viele Tweets untersucht wurden.

Eine gute Auswahl der Stichprobe bedeutet aber auch, Ausschau nach Verzerrungen zu halten. Sind bestimmte Gruppen von Menschen eher unter- oder überrepräsentiert? Wenn ja, was bedeutet das? Wir gehen einmal davon aus, dass jeder öffentliche Tweet  der von uns jemals auf Twitter verschickt wurde auch veröffentlicht wurde. Wenn wir nun eine Stichprobe nach dem Zufallsprinzip entnehmen, ist dies keine zufällige Stichprobe von Twitter-Usern, sondern eine zufällige Stichprobe von öffentlichen Tweets. Das ist ganz einfach: Die Frequenz von Tweets unterscheidet sich stark von Account zu Account, so dass eine zufällige Stichprobe User mit einer hohen Zahl an Tweets überrepräsentiert dargestellt werden. Nehmen wir an, wir können alle Twitter-Accounts ermitteln und erhalten eine zufällige Stichprobe. Aber auch diese Stichprobe enthält nicht die Twitter-User sondern die Twitter-Accounts. Viele User bedienen mehrere Twitter-Accounts. Einige haben keinen Twitter-Account aber lesen regelmäßig Twitter. Ich sollte also meine Daten gut kennen. Nur weil eine Datenmenge Millionen von Datensätzen enthält, muss sie noch lange nicht repräsentativ sein.

Von Birnen und Äpfeln

Dies bringt uns zu der zweiten Kernfrage: Nicht alle Daten sind gleich. Wegen des Umfangs von Big Data, glauben viele, die damit arbeiten, dass es die besten Daten sind die es da draußen gibt. Diejenigen, die denken, Big Data macht andere Ansätze der Datenerhebung unnötig, versetzen  mich in Erstaunen. Diese Ansicht stammt aus dem Irrglauben,  Big Data seien „reine“ Daten. Big Data ist wertvoll, aber es hat seine Grenzen – es kann nur bestimmte Dinge offenbaren.

Dieses Problem lässt sich immer wieder im Zusammenhang mit sozialen Netzwerken feststellen. Menschen aus den unterschiedlichsten Disziplinen analysieren Soziale Netzwerke mit vielfältigen methodischen und analytischen Ansätzen. Aber es ist fatal, wenn man glaubt, dass diese Daten von Facebook oder Twitter stammen,  „valider“ seien, als die von SoziologInnen gesammelten Daten. Zwar gibt es äußerst wertvolle Netzwerkdaten, aber es gibt  auch höchst unterschiedliche Netzwerke. Und diese Unterschiede gilt es zu verstehen.

Historisch gesehen, waren es einzig die SoziologInnen, die an sozialen Netzwerken interessiert waren. Diese Daten über soziale Netzwerke wurden durch Umfragen, Interviews, Beobachtungen und Experimenten gesammelt. Mit Hilfe dieser Daten, wurden Theorien aufgestellt, um die persönlichen Netzwerke der Menschen verstehen zu können.

Big Data beinhaltet zwei neue Arten von sozialen Netzwerken abgeleitete Daten: artikulierte Daten aus  sozialen Netzwerken und verhaltensbasierte Daten aus sozialen Netzwerken. Artikulierte Daten aus sozialen Netzwerken sind bsplw. öffentlichen Äußerungen in sozialen Netzwerken wie Facebook. Verhaltensbasierte Daten aus sozialen Netzwerken beinhalten u.a. Kommunikationsmuster und Geolokalisierungen. Jedes dieser Netzwerke ist außerordentlich interessant, aber sie sind NICHT das Gleiche wie das, was SoziologInnen in der Vergangenheit erhoben haben.

Nicht alle Freunde in der eigenen Kontaktliste werden gemocht oder sind einem überhaupt wirklich bekannt. Weiterhin bedeutet es nicht, dass mit diesen Personen überhaupt kommuniziert wird. Wenn alle Verbindungen zu einer Kante im Netzwerk führen, muss man sich die Frage stellen: Was bedeutet diese Kante? Zudem stellt sich die Frage, warum nicht alle Netzwerkpunkte abgebildet sind? Entweder weil diese Personen nicht relevant sind oder weil sie einfach nicht in diesem Netzwerk angemeldet sind. Es ist nicht möglich die Freundesliste von Facebook zu analysieren und zu sagen: Ich habe anhand der Freundesliste von Facebook das soziale Netzwerk der Person XYZ untersucht. Nein – lediglich das Facebook-Netzwerk wurde untersucht.

Es ist eine gute Idee, um Theorien über persönliche Netzwerke zu überprüfen und zu sehen, wie sie zu den verhaltensbasierten und artikulierten Daten passen. Wir haben bereits gesehen, dass es Ähnlichkeiten gibt. Jedoch kann man nicht davon ausgehen, dass irgendetwas nur deshalb fehlerhaft oder scheinbar inkonsistent ist, nur weil es in diesen Daten Unterschiede gibt. Betrachten wir z.B. das Merkmal der Stärke von Beziehungen.  Die Person, die ich auf meiner Top-Freundesliste auf Facebook habe, mag vielleicht nicht mein bester Freund sein. Vielmehr kann ich sie aus verschiedenen anderen Gründen hinzugefügt haben. Ich kann viel mehr Zeit mit meinen MitarbeiterInnen als mit meiner Mutter verbringen, aber das bedeutet nicht, dass meine Mutter weniger wichtig ist. Die Stärke einer Beziehung durch die Frequenz oder Länge der Konversation trifft nicht den Punkt: Die Intensität einer Beziehung ist ein Gedankenmodell von Relevanz, Verlässlichkeit und Abhängigkeit.

Daten sind nicht generisch. Sie sprechen nicht für sich, nur weil sie sich modellieren, darstellen oder berechnen lassen. Man muss die Bedeutung der Daten erkennen, bevor eine Aussage über deren Gehalt gemacht werden kann. Nicht alle Daten sind deshalb, weil sie sich gleich darstellen und verarbeiten lassen.

Wie und Warum?

Niemand liebt Big Data mehr als das Marketing und niemand missversteht Big Data mehr als Marketer. Sie tun dies, weil sie denken, dass Fragen zum „Was“, Fragen zum „Warum“ beantworten könnten. Ein Beispiel ist die scheinbar große Beliebtheit von Marken wie Coca Cola. Ob nun die Marke, das Getränk, die Fanpage gefällt oder mit dem Klick ein selbstreferentielles Statement  abgegeben wurde, lässt sich mit diesen Daten nicht beantworten.

Die Analyse der Datenspuren aus menschlichen Interaktionen ist eine extrem wichtige Forschungsaufgabe. Aber es ist nur der erste Schritt zum Verständnis der gesellschaftlichen Dynamik. Die Daten können so komplex und „intelligent“ wie möglich kombiniert und berechnet werden bis der Superrechner anfängt zu qualmen. Ersetzen kann er das Gespräch zu den Menschen nicht um herauszufinden, warum sie etwas in welcher Form tun und warum nicht. Wer mit Big-Daten arbeiten will, muss verstehen, welche Fragen beantwortet werden können und welche nicht. Die Projektion von „Warum“ in das „Was“ aufgrund der eigenen Annahmen ist methodisch unverantwortlich. Man kann sich durch alle möglichen Annahmen motivieren lassen und sie als Anfangspunkt der Forschung stellen, aber wenn Behauptungen aufgrund der Daten aufgestellt werden, sollte man wissen was eigentlich gemessen wurde.

Vorsicht bei Schlussfolgerungen

Jeder Akt der Datenanalyse enthält eine Interpretation. Es ist ein Irrglaube, dass qualitative Forschung Narratives interpretiert und quantitative Forschung dagegen Fakten produziert. Sie alle interpretieren Daten. Als Informatiker begonnen haben, in den Sozialwissenschaften zu arbeiten, waren sie zu der Überzeugung gekommen, dass sie im Feld der Tatsachen operieren und außerhalb der Interpretation. Zwar ist es möglich ein mathematisches Modell zu bauen was eindeutig und inhärent ist, aber in dem Moment, an dem der Versuch des Verstehens unternommen wird, betritt man den interpretativen Bereich. Das Design der Datenerhebung ist ein ebenso das Resultat einer Interpretation und manchmal auch ein Zeugnis einer Weltanschauung.

Fehlinterpretationen werden sehr gut veranschaulicht, wenn Menschen versuchen Ergebnisse in Systemen zu implementieren. Ein gutes Beispiel hierfür ist als Friendster beschloss, Robin Dunbars Arbeit umzusetzen. Bei der Analyse von Klatsch-und Tratsch-Praktiken beim Menschen fand Dunbar heraus, dass Menschen max. 150 Beziehungen gleichzeitig pflegen können. Mit anderen Worten: Die maximale Größe eines persönlichen Netzwerkes einer Person, kann an jedem Punkt in ihrem Leben höchstens 150 betragen. Leider hatte Friendster irrtümlich angenommen, dass die Menschen ihre persönlichen Netzwerke auf der Website nachbilden, und deshalb niemand mehr als 150 Freunde in der Liste haben würde. Also haben sie diese gekappt. Ups…

Die Interpretation ist der delikateste Teil einer Datenanalyse. Unabhängig vom Umfang der Daten, wenn wir nicht verstehen wo die Grenzen ihrer Aussagekraft sind und eigene Vorurteile nicht reflektieren, werden sie mit großer Wahrscheinlichkeit falsch interpretiert werden. Gerade deshalb sind SozialwissenschaftlerInnen so besessen von ihren Methoden. Wenn wir Big Data verstehen wollen, müssen wir erst mit dem Verständnis der dahinterliegenden methodischen Prozesse beginnen, die in der Analyse sozialer Daten stecken.

Alles ist erlaubt? Alles?

Die Frage nach der Privatsphäre entstammt unserer kollektiven Besessenheit mit Big Data. Die Verzerrungen und Fehlinterpretationen aufgrund der Analyse und Nutzung von Big Data beeinflussen das alltägliche Leben vieler Menschen. Die Unschärferelation gilt jedoch nicht nur in der Physik. Je mehr versucht wird zu formalisieren und soziale Interaktionen zu modellieren, desto stärker wird das Gleichgewicht zwischen diesen Punkten gestört. Die Tendenz, soziale Daten als abstrakte Einheit statt als Simulation zu behandeln, kann Fehlschlüsse nach sich ziehen. Wenn wir nicht verstehen, was die Daten bedeuten oder woher sie stammen, ist dies höchst problematisch. Wenn Funktionen basierend auf Fehlinterpretationen implementiert werden, können sie sogar Menschen gefährden.

Helen Nissenbaum proklamiert seit langem, dass Datenschutz und Privatsphäre nur über jeweiligen Kontext zu begreifen ist. Das gilt auch für Big Data. Methodik ist die Gestaltung des Kontextes, in dem Daten gesammelt, aggregiert und analysiert werden. Es geht darum, eine bestmögliche Einschätzung darüber zu erhalten, wie das eigene Wirken eben die Leute beeinflusst, die unsere Daten gebrauchen oder überwachen“. Deshalb ergibt sich die Notwendigkeit an diesem Punkt über Ethik zu sprechen.

Unsere kollektive Obsession von Big Data führt uns zu der größten methodischen Gefahrenzone: Nur weil Daten zugänglich sind, bedeutet dies nicht, dass es ethisch vertretbar ist diese weiterzuverarbeiten!

Mit Erschrecken stelle ich fest, dass diejenigen, die leidenschaftlich über Big Data sprechen und sich das Recht nehmen, Daten zu Sammeln, Zusammenzufassen und zu Analysieren, sich bedenkenlos mit der Formel: „Wenn es möglich ist, ist es auch fair“ aus ihrer Verantwortung ziehen. Um zu diesem Punkt zu gelangen, haben wir den Begriff „Öffentlich“ im Sinne von „für jedermann zugänglich unter allen Bedingungen jederzeit und für jeden Zweck“, pervertiert.  Inhalte werden fragmentiert und aus dem Zusammenhang gerissen, um sie als Datenschatz zu deklarieren. Dieses Handeln wird im Nachhinein dadurch die Tatsache gerechtfertigt, dass man als Erster Zugang zu diesen hatte. Diese Haltung wirft einige ethische Probleme auf.

Was bedeutet Privatsphäre?

Privatsphäre bedeutet weder zwingend totale Kontrolle über seine Daten auszuüben, noch in deren Besitz zu sein. Es geht vielmehr um ein kollektives Verständnis einer sozialen Situation und der Grenzen, die damit einhergehen. Mit anderen Worten, es geht um die Kontrolle dieser Situation. Es geht um das Verstehen von Öffentlichkeit und zu wissen, wie weit Informationen fließen dürfen. Es geht um Vertrauen in die Menschen, die Verortung und den Kontext von Inhalten. Menschen suchen Privatsphäre, so dass sie sich verwundbar machen, um etwas zu erhalten: persönliche Betreuung, Wissen, Freundschaft, etc. Die Menschen fühlen sich in ihrer Privatsphäre verletzt, wenn ihre Erwartungen nicht eingehalten werden. Wenn z.B. eine Person etwas veröffentlicht, das nicht dazu bestimmt war, geteilt zu werden. Vertrauen macht einen wesentlichen Teil der Privatsphäre aus.

Das Verständnis des Zusammenhangs geht nicht nur um das Verstehen von Öffentlichkeit. Es geht auch um das Verständnis der Umwelt. So wie die Menschen einander vertrauen, vertrauen sie auch der physischen Umgebung. Sie beschuldigen die Architektur dieser Umgebung, wenn sie fühlen, hintergangen worden zu sein. Betrachten wir den Satz „Diese Wände haben Ohren“. Die Formulierung macht deutlich, wie Menschen die Umgebung verantwortlich machen, wenn sie nicht in die Lage versetzt werden, einen verschleierten Kontext  richtig zu interpretieren.

Betrachten wir dies im Hinblick auf das Murren über Facebooks Umgang mit dem Datenschutz. Der Kern der Herausforderung  ist, dass Menschen glauben, dass sie den Kontext, in dem sie tätig sind, zu verstehen und beeinflussen können.  Wenn sie denken, dass der Kontext destabilisiert wurde, sind sie enttäuscht und geben die Schuld der Technologie.

Big Data sind keine beliebigen Daten, es können Daten über das Leben von Menschen sein. Daten, die durch ihre Interaktionen mit anderen Daten, die sie normalerweise nicht sehen, geschweige denn davon wissen, werden mit Dritten geteilt. Die Gier nach Daten, die im NSA-Skandal gipfelte, droht unsere soziale Situationen zu destabilisieren und wir müssen überlegen, was dies bedeuten kann.

Sicherheit durch Obskurität

Die Menschen tun viele Dinge im öffentlichen Raum, die nicht aufgezeichnet werden. Sie haben Gespräche in Parks, schwimmen im Meer und radeln im Wald. Wie sie im öffentlichen Raum agieren, hängt von dem Kontext ab und wie sie ihn einstufen. Sie gehen davon aus, das dass was sie in der Öffentlichkeit tun vergänglich ist und dass niemand, außer einem sehr beschränkten Kreis von Menschen,  Zeuge ihrer Taten ist. Technologien verändern diese Gleichung. Überwachungskameras erfassen VerkehrsteilnehmerInnen, Handys werden geortet, Kameras erfassen den Spaziergang im Park und unser Kaufverhalten wird ebenso mitgezeichnet. Wenn Leute wissen, dass sie gerade aufgezeichnet werden, ändern sie ihr Verhalten.  Warum? Weil die Technologien, die sie aufzeichnen die Situation verändern. Dennoch agieren die Menschen weiterhin wie gewohnt und die Technik tritt in den Hintergrund.

Menschen verlassen sich bei Begegnungen mit sozialen Systemen auf ihre Interpretation des Kontextes. Die meisten würden es als obskur empfinden, permanent aufgezeichnet zu werden.
Die Menschen brauchen Kontext um zu verstehen und sie benötigen ein Gefühl für einzuhaltende Grenzen. Selbst in öffentlichen Situationen, gehen Menschen anderen aus dem Weg, sie ignorieren sie, um in einer öffentlichen Interaktion, nicht in ihre Privatsphäre einzudringen. Der Soziologe Erving Goffman bezeichnet dies als „höfliche Gleichgültigkeit“. Wir könnten jeden anstarren, der an uns vorbei geht, aber wir tun es nicht. Deshalb gestatten wir anderen Menschen eine gewisse Form der Obskurität. Was macht das Internet so anders? Warum ist es okay angestarrt zu werden, nur weil es technisch möglich ist?

Nicht alle öffentlich zugänglichen Daten soll veröffentlicht werden

Nicht wenige Menschen stellen ihre Kontaktdaten ins Netz, weil sie die Möglichkeit kontaktiert zu werden vereinfachen wollen. Einige hoffen, dass ihr Inhalt eine weite Streuung findet, andere legen mehr Wert darauf, dass sie nur von bestimmten Personen konsumiert werden. Sie wollen diese Daten nicht verheimlichen, sondern sie im passenden Kontext veröffentlicht sehen. Öffentliches Zugänglichmachen von persönlichen Daten bedeutet nicht zwingend, dass diese in einem beliebigen Kontext aggregiert, geteilt oder auf irgendeine Art skaliert werden sollen.

Paparazzi können Prominenten dass Leben zur Hölle machen. Sie argumentieren, dass sie das Recht auf eine Aufnahme haben und diese Personen  „in der Öffentlichkeit“ stehen. Ein Ergebnis dieses Selbstverständnisses ist, dass Prominente sehr häufig zurückgezogen leben, zu Hause bleiben, wo sie nicht belästigt werden können oder aktiv nach Schutz suchen, wenn sie das Haus verlassen.

Wenn wir damit argumentieren, jegliche persönliche Daten, die öffentlich zugänglich sind, in irgendeiner Weise zu Nutzen, dann sprechen wir uns dafür aus, unsere Person in einen beliebigen Kontext setzen lassen zu dürfen. Diese Praxis ist auf viele Erotik-Seiten Praxis. Dort werden bevorzugt Bilder von jungen Frauen aus sozialen Netzwerken zur Werbung eingesetzt. Natürlich ohne das Einverständnis der dort abgebildeten Personen.

Das Aggregieren und Verteilen von Daten außerhalb des Kontextes ist eine Verletzung der Privatsphäre

Wie ich bereits erwähnt habe: Der Kontext entscheidet. Es gibt zwei Arten von Inhalten von Big Data, die in diesem Zusammenhang relevant sind: Das, was ausdrücklich geteilt wurde und das, was implizit abgeleitet wird. Es gibt eine interessante Parallele zum Soziologe Erving Goffman der den Unterschied zwischen dem was mitgeteilt wird und dem wie es mitgeteilt wurde, beschreibt. Wenn Menschen etwas ausdrücklich teilen, beurteilen sie die Situation und den Kontext und entscheiden dann, was sie bereit sind zu teilen. Wenn sie implizite Inhalte produzieren, erleben sie zwar die Situation, ohne sich ihr  aber  unbedingt bewusst zu sein. Der Kontext ist entscheidend. Er gibt den erzeugten Daten ihre Bedeutung und spiegelt die Erwartungen der Menschen.

Wenn Inhalte explizit oder implizit produziert und aus dem Zusammenhang genommen werden, kann es soziale Normen verletzen. Wenn Inhalte ohne ihre Zustimmung verteilt oder aggregiert, verletzen wir eine solche soziale Norm. Auf einer bestimmten Ebene, wissen wir das. Das ist der Grund, warum wir Menschen Verträge in Form von Nutzungsbedingungen anbieten, wohlwissend dass sie diese nicht lesen werden und damit wir rechtlich abgesichert, wenn wir die die kontextuelle Integrität dieser Daten aufheben. Das mag legal sein, aber ist es ethisch vertretbar? Ist es gesund? Was sind die Konsequenzen?

Privatsphäre – nicht Zugriffskontrolle

Wenn wir über Datenschutz in der Fachwelt sprechen, fällt es schwer, eine basale, nahe liegende Frage zu beantworten: Wie kann man Privatsphäre herstellen? Der Diskurs über das Verständnis von öffentlichen und privaten Inhalten hat eine lange Tradition. Diesen Diskurs möchte ich auf zwei Aspekte herunterbrechen: Privatsphäre und Zugang. Datei-Berechtigungen bestimmen wer auf eben diese Datei zugreifen kann und wer nicht. Bei der Privatsphäre geht es um das Verständnis der sozialen Bedingungen und wie diese zu regeln sind. Die Beschränkung des Zugangs kann ein Mechanismus sein, um Privatsphäre zu gewährleisten.  Aber das ist nicht Privatsphäre an sich. Datenschutz-Einstellungen sind nicht Privatsphäre-Einstellungen, sie sind Einstellungen zu Eingabehilfen. Privatsphäre- oder Datenschutz-Einstellungen sollten eine Definition der Situation beinhalten und diese eindeutig verständlich machen.

Soziale Normen können sich ändern und tun dies auch. Das bedeutet aber nicht, dass die Privatsphäre als solche als antiquierte Tugend auf der Müllhalde der Geschichte landen sollte. Menschen setzen  sich für ihre Privatsphäre aktiv ein. Sie haben auch das Recht in die Öffentlichkeit zu gehen und gesehen zu werden. Die Technik hat ihnen neue Möglichkeiten eröffnet, ihnen eine Stimme zu geben. Sie haben ein Recht auf die Nutzung der Technologie um in der Öffentlichkeit in Erscheinung zu treten. Technologien helfen dabei effektiver zu sein. Es ist jedoch außerordentlich schwer zwischen öffentlich zugänglichen Daten, die weit verbreitet werden sollen und Daten die einfach zugänglich sein sollen, zu unterscheiden. Es ist schwer, zwischen personenbezogenen Daten die für soziale Zwecke genutzt werden und  zwischen Daten die für die Selbstvermarktung genutzt werden, zu unterscheiden. Kurz: man sieht es ihnen nicht an.

Blicken wir auf unsere methodische Vexierfrage mit Big Data zurück: Nicht alle Daten sind gleich geschaffen und es ist wirklich schwer, vernünftige Interpretationen von oben herab zu treffen, ohne das Verständnis des Kontextes, in dem Inhalte erstellt und gemeinsam genutzt wurden, zu machen. Wer Daten als willkürliche Bytes betrachtet, wird kurz über lang in Schwierigkeiten geraten. Nun stecken wir in einer ethischen Vexierfrage fest: Akzeptieren wir die Kosten der freizügigen Behandlung von personenbezogenen Daten im Netz oder kümmern wir uns zuerst um diejenigen die besonders schutzlos sind?

Die Social-APIs sind spannend und bieten viele Möglichkeiten. Facebook ist eines der faszinierendsten Big Data-Pools. Es enthält eine noch nie dagewesene Anzahl digitaler Spuren menschlichen Verhaltens rund um den Globus und ist aktuell das umfangreichste und populärste soziale Netzwerk der Welt. Gleichzeitig ist aber auch ein Spiel mit dem Feuer. Ein Großteil der Daten, die öffentlich zugänglich sind, wurden nicht dafür erstellt, um in anderem Kontext verwendet zu werden. Die Unterscheidung zwischen dem, was veröffentlicht werden soll und was nicht, ist im Grunde unmöglich. BenutzerInnen  bewegen sich in Facebook in verschiedenen Rollen: als Individuen oder als Gruppe. Die Summe ihrer verhaltensbasierten Daten unterscheiden diese Rollen nicht. Menschen sind zwar sehr erfreut wenn sie Informationen über ihre Freunde erhalten, aber ihnen ist gar nicht bewusst, wie sehr sie  mit ihrem Verhalten dazu beitragen, was ihre Freunde sehen. Dies schafft anspruchsvolle ethische Fragen, die nicht leicht zu entwirren sind.

Die Menschen wollen keine Privatsphäre, wenn sie etwas zu verbergen haben. Sie verstecken sich, weil sie die Privatsphäre erhalten wollen. Sie suchen die Privatsphäre, weil sie soziale Wesen sind, die den Kontext verstehen und Informationen entsprechend zu verwalten verstehen. Sie suchen die Privatsphäre, weil sie sozial angemessen sein wollen. Andere versuchen unterzutauchen, was angesichts neuer Technologien immer schwieriger werden wird.

Technologie schafft viele Arten von neuen Mechanismen, durch die wir in die Öffentlichkeit gehen können um uns zu engagieren, Inhalte zu teilen und uns zu kontaktieren. Sie schafft faszinierende neue Möglichkeiten für die Forschung um Zugriff auf Daten zu erhalten. Aber diese Vorteile sind nicht ohne Komplikationen. Es ist einfach, zu den Extremen zu schwingen, und über den Vorteil neuer Technologien zu fabulieren, den Fortschritt zu predigen oder einfach alles zu verteufeln. Aber wir wissen, dass die Realität viel komplizierter ist. Die Vor- und Nachteile sind eng miteinander verflochten. Herauszufinden, wie  diese Gratwanderung zwischen Privatsphäre und Öffentlichkeit praktisch aussehen kann, wird eine entscheidende Herausforderung unserer Zeit sein.

Technischer Wandel braucht gesellschaftlichen Fortschritt

Larry Lessig  veröffentlichte in seinem wegweisenden Buch „Code“ eine These, in der er argumentierte, dass technischer  Wandel  von vier Faktoren bestimmt wird: Dem Markt, dem Recht, soziale Normen und Architektur bzw. Code. Die Änderungen, die wir mit Blick auf Privatsphäre und Öffentlichkeit haben wurden dank der Änderungen an der Code-Architektur vollbracht. Es ist heute möglich, Dinge zu tun, die zuvor nicht denkbar waren. Wie ich versucht habe darzulegen, sind soziale Normen eher chaotisch und nicht entferntesten stabil.

Daten über Menschen können nicht unpolitisch betrachtet werden. Mehr als eine Frage des Verbots oder der grenzenlosen Freiheit ist die Balance der alten Vorstellung und eine Neudefinition sozialer Normen nötig. Als Gemeinschaft, ist das WWW die Heimat von zahlreichen Normierungsgremien, Big Data-WissenschaftlerInnen und EntwicklerInnen. Sie haben die technischen und organisatorischen Werkzeuge in der Hand, um die Zukunft des Codes zu formen. Dennoch kann man nicht einfach davon ausgehen, dass soziale Normen über Nacht verschwinden. Big Data spricht nicht aus sich selbst heraus. Big Data wird von Menschen gemacht. Menschen erzeugen Daten in einem Kontext und für einen bestimmten Zweck. Nur weil es technisch möglich ist, allerlei Dinge mit den Daten zu tun, bedeutet es nicht, dass sie frei von Konsequenzen für die Menschen sind, die diese generiert haben.

Datenschutz wird nie in Nullen und Einsen codiert werden können. Es wird immer ein sozialer Prozess sein, ein mehrdeutiger und ambivalenter politischer Diskurs. Die Herausforderung besteht darin, Systeme zu entwickeln und Analysen zu schaffen, die die komplexen Möglichkeiten ausbalancieren in denen Menschen über diese Systeme verhandeln, bei weitestgehender Autonomie des Individuums und gleichzeitiger gesellschaftlicher Verantwortung.

Damian Paderta
Damian Paderta
Webgeograph & Digitalberater