Open Data und Künstliche Intelligenz

19. Dezember 2019

Inhaltsverzeichnis

Neu? Nicht neu?
Treibstoff: Trainingsdaten
Künstliche Intelligenz als Risiko
Big Data als Basis
Fallstricke: Datenschutz & Diskriminierung
Open Data Hubs benötigt
Offene Daten als Motor für KI
Mehr als nur Offenheit
Offene Dateninfrastrukturen als Vorraussetzung für KI

Neu? Nicht neu?

Obwohl das Konzept der Künstliche Intelligenz (KI) seit Jahrzehnten existiert, erlebt die Disziplin einen neuen Frühling, mit einem Anstieg der Forschung und Entwicklung, der durch die Kombination aus einer höheren Datenverfügbarkeit und kostengünstigeren, leistungsfähigeren Computern ausgelöst wird.

Viele laufende Diskussionen verwenden KI als Abkürzung für maschinelles Lernen, obwohl KI ein breiteres Feld ist, das viele andere Schwerpunktbereiche umfasst. KI bedeutet schlicht, dass Maschinen Aufgaben übernehmen, für deren Erfüllung bisher menschliche Intelligenz erforderlich war. Mittlerweile stehen hunderte verschiedener maschineller Lernmethoden und -algorithmen zur Verfügung, von denen einige auf bestimmte Problemzonen und andere eher allgemeine Anwendungen spezialisiert sind. Deep Learning Modelle nutzen enorme Rechenleistung, um geschichtete Lernsysteme mit einer vom menschlichen Gehirn inspirierten Struktur zu entwickeln.

Im Laufe der Zeit passt sich ein maschineller Lernalgorithmus an, um auch ohne explizite Anweisungen, die alle Schritte vom Eingang bis zum Ausgang abdecken, die gewünschte Ausgabe besser zu liefern. Streng genommen kann hier nicht von Algorithmen gesprochen werden, da keine eindeutige Handlungsvorschrift besteht. In diesem Text wird der Begriff “KI” dennoch weiter verwendet – auch wenn Machine Learning, Deep Learning, und andere an der Stelle passender wären. An andere Stelle habe ich mir über die eine verbesserte Kommunikationen über Künstliche Intelligenz Gedanken gemacht.

Treibstoff: Trainingsdaten

KI-Anwendungen können heute bereits eine breite Palette an Fähigkeiten aufweisen: wie z.B. die Optimierung von Prozessabläufen; Mustererkennung, Vorhersagen und Hypothesentests, Natürliche Sprachverarbeitung und maschinelle Übersetzungen. Die KI-Modelle, die diese Aufgaben ausführen, benötigen oft riesige Datenmengen und erzeugen diese gleichzeitig auch selbst. In manchen Fällen bilden offene Datensätze (Open Data) die Basis für die Entwicklung von KI-Systemen.

Die KI ist darauf angewiesen, Algorithmen auf die Daten anzuwenden. Ein Algorithmus ist einfach eine Reihe von Anweisungen, die eine Eingabe aufnehmen und eine Art Ausgabe erzeugen können. Einige Algorithmen werden manuell geschrieben. In solchen Fällen sollte es theoretisch möglich sein, den Algorithmus zu lesen und einen nachvollziehbaren Weg vom Eingang zum Ausgang zu verfolgen. Viele moderne Algorithmen basieren aber auch auf dem maschinellen Lernen (Machine Learning), einem Prozess, bei dem die Ausgabe des Algorithmus „trainiert“ wird, indem wiederholt Daten zugeführt und an seinen Ergebnissen gemessen werden.

KI-Systeme erwerben ihre “Intelligenz”, indem sie Daten verwenden, um zu verstehen, wie frühere Probleme gelöst wurden, und wenden dieses Lernen auf die Entscheidungsfindung an. Die Verfügbarkeit von qualitativen Daten ist entscheidend für das effektive Lernen und Funktionieren von KI-Systemen. Daten sind also der Treibstoff, der die KI antreibt.

Für Deep Learning benötigen Maschinen ein umfangreiches Trainingsset. Neben der Methodenauswahl und -abstimmung hängt die Qualität eines maschinell lernenden Modells vor allem von drei Dingen ab:

der Menge der verfügbaren Trainingsdaten
der Qualität der Trainings- und Eingabedaten und
der Menge der für den Bau des Modells verwendeten Rechenleistung.

Obwohl Daten die Basis jeder Software bilden, übersteigt das Interesse an KI bei weitem das Interesse an offenen Daten (Open Data). Zahlreiche Regierungen entwickeln Strategien und Finanzierungsprogramme, um die Entwicklung von KI zu fördern und nationale Wettbewerbsvorteile zu erlangen. Die Bestrebungen in Richtung mehr Open Data sind in Deutschland dagegen weitaus schwächer ausgebildet. Selbst auf der größten und ambitioniertesten deutschen Plattform zur Vernetzung und Bewerbung von KI ist von offenen Daten seltsamerweise kaum die Rede.

Künstliche Intelligenz als Risiko

„Künstliche Intelligenz wird gefährlicher sein als Kernkraft“, so lauteten die Schlagzeilen, mit dem die Medien im August 2014 das Sommerloch füllten. In jedem Fall wird mit diesen populistischen Ankündigungen eine klare Botschaft zuteil: Technologische Eliten beginnen fortan, die Herrschaft mithilfe der KI explizit für sich zu beanspruchen. Die Vorstellung von KI-Systeme lösen deshalb dunkle wie bunte Phantasien in uns aus: Prädiktive Anwendungen von Algorithmen des maschinellen Lernens üben dabei eine besondere Anziehungskraft aus. Anstatt nur Daten zu visualisieren, die der Mensch interpretieren kann, verspricht die algorithmische Analyse die Konstruktion von Modellen, die Muster finden und damit zukünftige Entscheidung übernehmen. Solche prädiktiven Modelle können Daten liefern, die bei der Entscheidungsfindung z.B. im Gesundheitswesen hilfreich sein können. Die vielleicht am weitesten verbreiteten prädiktiven KI-Anwendungen, beziehen sich jedoch auf die prädiktive Polizeiarbeit – mit einigen Problemen.

Trotz der vielen sinnvollen Anwendungsgebiete bereitet KI speziell auch in Deutschland vielen Menschen Sorgen: zum Beispiel durch Verzerrung und Ausgrenzung von Personen durch datengestützte Entscheidungssysteme, den Verlust von Arbeitsplätzen durch Automatisierung, die Zentralisierung der Macht und des Wohlstands, die Überwachung durch Massendatenerfassung, “versteckte” Umweltschäden und die Sicherheit von KI-Systemen.

In Thailand werden Open Data und KI bereits in mehreren Bereichen eingesetzt. Beispielsweise analysiert eine Kundensupport-Plattform Daten über eine KI die Mitarbeitern hilft, Vorfälle in Echtzeit zu überwachen, Informationen auszutauschen und der Regierung Vorschläge zu unterbreiten. So berichtete ein Artikel darüber, wie Open Data and KI eine wichtige Rolle bei der Behebung der in der thailändischen Justiz vorherrschenden Probleme spielen kann. Was davon vorbild- und was zweifelhaft ist, bedarf einer gesellschaftlichen Diskussion. Die Annahme, dass man dieses Thema aussitzen oder einfach ablehnen könne, ist dagegen keine einnehmbare Position.

Big Data als Basis

Die größten KI-Anwendungen greifen heute auf große Datenmengen zurück, die von privaten Unternehmen gesammelt wurden. Diese Unternehmen sind in der Lage, die Daten auf ihre Bedürfnisse im Bereich des Maschinenlernens zuzuschneiden, indem sie täglich Millionen von Eingaben aus Benutzer- und Kundeninteraktionen sammeln.

Allerdings sind die Daten, die produziert und an die KI-Systeme weitergegeben werden, oft unvollständig, verzerrt oder von schlechter Qualität. Wenn KI-Algorithmen nicht so konzipiert sind, dass sie wissen, dass sie unvollkommene Daten erhalten, und Maßnahmen ergreifen, um dies zu berücksichtigen, werden schlechte Daten den Lernprozess untergraben und die Ergebnisse von KI-Systemen verzerren. Dies kann zu verheerenden und oft diskriminierenden Folgen führen, zumal die KI zunehmend dazu genutzt wird, Entscheidungen in wichtigen Bereichen unseres Lebens zu treffen.

Fallstricke: Datenschutz & Diskriminierung

Die potenzielle Macht der KI und die ungleiche Verteilung des Zugangs zu ihr, stellt die umstrittene Idee in Frage, die Öffnung von Daten demokratisiere unweigerlich das Spielfeld für gesellschaftlichen Diskurs, Innovation oder soziales Handeln. Die Fähigkeit von Maschinen, Verbindungen zwischen Datensätzen herzustellen, erhöht die Bedeutung von Datenschutzbedenken und wirft neue ethische Fragen bei der Veröffentlichung von Daten auf, ebenso wie die Sorge, dass KI-Systeme Gefahr laufen, Vorurteile und Diskriminierungsmuster systematisch zu verstärken.

Muster der sozialen Ausgrenzung können sich verstärken, wenn Verzerrungen in den Daten, auf denen Maschinen-Lernmodelle trainiert werden, sich dann in den Ergebnissen ihres Betriebs widerspiegeln. Wenn die Datensätze, mit denen diese Modelle trainiert werden, dagegen offen sind, kann sowohl untersucht werden, ob bestimmte Menschengruppen in den Daten unterrepräsentiert sind, als auch, ob bestimmte Felder fehlen oder mit verzerrten Klassifikationen erhoben wurden.

Diese Algorithmen neigen oft dazu, persönliche Daten als Trainingssätze zu verwenden. Die Fähigkeit der KI-Algorithmen, Muster zu erkennen, macht sie auch sehr effektiv bei der Reidentifizierung von personenbezogenen Daten in „anonymisierten“ Datensätzen, was erhebliche Bedenken hinsichtlich der Privatsphäre des Einzelnen und von Gruppen hervorruft.

“Bessere” Daten sind ein Weg, um diesen Risiken zu begegnen. Das Anbieten von Daten unter einer offenen Lizenz (d.h. einer Lizenz, die es ermöglicht, dass Daten von Allen für jeden Zweck frei verwendet, verändert und weitergegeben werden können) ist eine weitere effektive Strategie zur Erreichung von Qualität.

Angesichts vieler Anwendungen von KI, die Entscheidungen über Einzelpersonen beinhalten, gibt es jedoch in vielen Fällen unvermeidlich schwierige Herausforderungen für den Datenschutz, die bewältigt werden müssen. KI-Systemen die unterschiedliche Datenbanken, die bisher frei von personenbezogenen Daten waren, können in Daten verschnitten werden die einen Personenbezug aufweisen. Viele moderne Anwendungen von KI arbeiten mit personenbezogenen Daten innerhalb von Unternehmen und nicht aus öffentlichen Daten, was zu einer aktiven Debatte über die Notwendigkeit einer verbesserten Datenverwaltung geführt hat, auch durch eine stärkere Forderung des Dateneigentums, Datensouveränität und der Regulierung von KI-Nutzung.

Ein genauerer Blick zeigt zahlreiche Fälle, in denen Elemente von Algorithmen des maschinellen Lernens angewendet werden, um wirtschaftlichen und gesellschaftlichen Wert aus offenen Datensätzen zu gewinnen oder einfach nur weiter zu forschen. Darüber hinaus gibt es Anzeichen dafür, dass Regierungen zunehmend den wichtigen Zusammenhang zwischen offenen Daten und der Entwicklung von KI erkennen, insbesondere für Länder ohne große datenschürfende Unternehmen.

Daten aus dem globalen Süden werden extrahiert und von großen Unternehmen aus dem Norden monopolisiert, der den globalen Süden in eine Position des Verbrauchers und nicht des Technologieproduzenten verwandelt. Dieser Datenextraktivismus ist im Zusammenhang von Machine Learning besonders eklatant. Zwei Studien der Web Foundation zeigen sowohl die Risiken als auch die Chancen auf und untersuchen, wie sich KI und Algorithmen auf Länder mit niedrigem und mittlerem Einkommen auswirken. Wenn Modelle Schlüsselvariablen nicht berücksichtigen, hat die Bereitstellung neuer offener Datensätze zur Schließung dieser Lücke das Potenzial, KI-Anwendungen zu verbessern.

Dies ist besonders relevant im internationalen Entwicklungskontext, in dem die Gefahr besteht, dass Modelle, die für die in den entwickelten Volkswirtschaften verfügbaren Daten optimiert sind, auf Entwicklungsländer angewendet werden, in denen ein im Vergleich zu den Industrienationen weitaus geringerer Datenfluss ihre Wirksamkeit erheblich beeinträchtigt. Dies hat zu einer Suche nach Strategien geführt, um die positiven Ergebnisse von KI zu fördern und gleichzeitig die potenziellen Gefahren zu mildern. Offene Daten spielen in diesem Zusammenhang eine Schlüsselrolle.

Open Data Hubs benötigt

Angesichts der Probleme, die verzerrte Daten verursachen können, erläutert eine Studie der Universität Pretoria die großen politischen Probleme, die mit der Datenbereitstellung und der Unzulänglichkeit von Daten über marginalisierte Gemeinschaften verbunden sind. Die Studie legt nahe, dass zur Bewältigung dieser Herausforderungen erhebliche Veränderungen an den staatlichen Daten-Ökosystemen notwendig sind. Deshalb sind Anstrengungen zur Öffnung von Daten aus öffentlich finanzierten akademischen Einrichtungen und zur Förderung des Austauschs nicht geschützter Daten aus dem Privatsektor erforderlich.

Die Frage, wie man privatwirtschaftliche Akteure zur gemeinsamen Nutzung ihrer Daten anregen oder ihnen regulatorische Vorgaben machen kann, wird im Rahmen der KI immer wichtiger. “Mehr Daten” bedeutet auch die Nutzung überproportional “großer Technologie”, die bisher nur große Unternehmen nutzen (können). Dies birgt die Gefahr, dass dieser spannende neue Sektor von den großen digitalen Plattformen dominiert wird, die derzeit auch das Netz dominieren. Dies wird den Wettbewerb und die Innovationsfähigkeit beeinträchtigen. Es wird die Vielfalt der Problemlösungsansätzen verringern, auf die KI-Lösungen angewandt werden können. Es wird die Energie und die frischen Ideen ersticken, die Startups und KMU´s mit sich bringen.

Solange nur große Unternehmen sowohl über die Rechenkapazitäten als auch über den Zugang zu proprietären Datensätzen verfügen, um sie mit offenen Daten zu kombinieren, ist es wahrscheinlich, dass Open Data nur einen weiteren Wettbewerbsvorteil ausschließlich für sie bietet. Dies kann zu Monopol- und Wettbewerbsproblemen führen, die neue regulatorische Maßnahmen erfordern. Eine sich abzeichnende freiwillige Lösung, die geeignet ist, wenn es sich bei den betreffenden Daten um wirtschaftlich sensible Informationen oder personenbezogene Daten handeln könnte, besteht in der Schaffung von Datatrust: praktische und rechtliche Mechanismen für den Austausch von Datensätzen und die Unterstützung der Datennutzung, die die betroffenen Personen schützen und eine gute Datenverwaltung gewährleisten können.

Derartige Bestrebungen stellen laufen allerdings Gefahr, die Verpflichtungen zur Offenheit staatlicher Stellen zu verwässern. Für Andere stellt sie eine notwendige Entwicklung dar, da sie anerkennt, dass die Verschiebung des Gleichgewichts von Markt- und Regierungsmacht, die durch Daten geschaffen wird, eine wesentlich breitere Palette von Ansätzen für die Offenheit und gemeinsame Nutzung von Daten erfordert.

Offene Daten als Motor für KI

Wie bereits erwähnt, können offene Daten das Potenzial des Machine Learning erschließen. Der Grund dafür ist einfach, dass die Einbeziehung externer Daten dazu beitragen kann, Modelle zu verbessern oder neue Muster zu entdecken.

In den letzten Jahren haben Regierungen und Stadtverwaltungen offene Datenportale eingerichtet, um Daten für die Bürger zugänglich zu machen. Städte wie Barcelona, Paris oder Berlin verfügen über ein Open Data Portal, aber auch auch Länderebene werden Portale gelauncht wie z.B. in Frankreich, Malaysia oder Costa Rica.

Viele Ideen, um große Mengen an Regierungsdatensätzen zur Beschleunigung der KI-Forschung und zur Förderung der Nutzung offener Datenstandards freizugeben, finden sich in einem Bericht der UK Royal Society aus dem Jahr 2017. Dieser fordert „weitere Anstrengungen zur Verbesserung der Verfügbarkeit und Nutzbarkeit von Daten des öffentlichen Sektors“ , um „offene Daten für maschinelles Lernen“ bereitzustellen. Offene Daten werden richtigerweise als eine Ressource angesehen, die Regierungen nutzen können, um Hindernisse für den Zugang zur KI-Forschung abzubauen und die heimische KI-Wirtschaft bei der Entwicklung zu unterstützen.

Grundbücher werden beispielsweise häufig als zuverlässige Quelle für den Abgleich von Daten aus unstrukturierten Dokumenten und Anmeldungen verwendet. Während diese Argumente für offene Daten jedoch in einer Reihe von KI-fokussierten Strategiepapieren erscheinen, gibt es weniger Belege dafür, dass Open Data-Communitys das politische Engagement und die Verpflichtungen rund um die KI als zusätzliches „Verkaufsgespräch“ genutzt haben, um das nachlassende Engagement der Open Data-Initiativen zu überwinden.

Mehr als nur Offenheit

Neben der Erkenntnis einiger Länder und Unternehmen, dass offene Daten als zentrale Ressource für KI-Innovationen gelten, gibt es auch die Einsicht, dass es sich dabei nicht allein um die Freigabe vorhandener Daten geht. Potenzielle Nutzer*innen offener Daten sind oft nur an einer bestimmten Tatsache interessiert. Aber sie wissen oft nicht, wie man die passenden offene Daten findet. In einigen Fällen haben machine learning-orientierte Ansätze das Potenzial, die Sprachbarrieren für die Nutzung globaler offener Datensätze zu überwinden, die Zugänglichkeit offener Daten zu verbessern und eine stärkere Einbeziehung in die Arbeit z.B. an SDGs zu unterstützen.

Zugang zu Daten ist eine notwendige, aber nicht ausreichende Voraussetzung für Innovationen. Für manche bedeutet die Offenheit für Algorithmen und KI nicht nur offene Daten, sondern auch Open Source Software. Während viele KI-Frameworks jedoch als Open-Source-Software verfügbar sind, trägt der Zugriff auf komplexen Quellcode oft wenig dazu bei, die Überprüfung des Algorithmus anhand der erwarteten Ergebnisse zu unterstützen. Wenn ein Modell zumindest teilweise auf proprietäre oder sensible Daten trainiert wurde, können Copyright- oder Datenschutzprobleme die weitere Entwicklung bremsen.

Gegenwärtig basieren die meisten KI-zentrierten Innovationen auf einem Geschäftsmodell, bei dem Trainingsdaten als geschütztes geistiges Eigentum betrachtet und KI-Systeme im Allgemeinen als undurchschaubare „Black Boxes“ – also ohne Kenntnis ihrer internen Funktionsweise – bereitgestellt werden. Dies ist problematisch: eine solche Homogenität des Geschäftsmodells kann einen abschreckenden Effekt auf die Innovation haben und einen florierenden KI-Sektor zum Stillstand bringen.

Algorithmen können verwendet werden, um offene Daten auf eine Weise zu analysieren, die für eine manuelle Analyse viel zu zeitaufwendig ist. Geeignete Algorithmen können Muster finden, Entscheidungen unterstützen und Aktionen auf der Grundlage des Inhalts offener Datensätze informieren. Algorithmen und Machine Learning-Modelle könnten selbst als offene Daten ausgegeben werden und Innovation vorantreiben.

Open Data kann neue Potenziale in Projekten der Künstlichen Intelligenz erschließen und helfen, Probleme auf eine neue Art zu lösen. Darüber hinaus ist diese Kombination keine triviale Aufgabe, die Open Data-Unternehmungen erfüllen müssen, um die Wiederverwendbarkeit der Daten zu gewährleisten.

Offene Dateninfrastrukturen als Vorraussetzung für KI

Wenn KI-Systeme die Welt verändern sollen, müssen wir die Möglichkeit haben, sie zu gestalten. Eine breitere Gruppe von Menschen sollte Zugang zu Datensätzen haben, die für den Aufbau und Einsatz von KI-Technologien notwendig sind.

Eine Möglichkeit, mehr Daten zur Verfügung zu stellen und die Datenqualität zu verbessern, besteht darin, Regierungen, die Algorithmen und KI-Systeme für die Erbringung öffentlicher Dienstleistungen einsetzen, dazu zu bringen, die Daten, auf die sich diese Systeme stützen, zu öffnen. Alle verwendeten nicht persönlich identifizierbaren Datensätze sollten in offenen Formaten oder/und per API freigegeben werden. Offene Daten können als Input für maschinenlernende Modelle sein, und diese Modelle können unstrukturierte Informationen in strukturierte offene Daten umwandeln.

Es gibt keinen Grund anzunehmen, dass die Ergebnisse dadurch per se ethisch oder gerecht sein werden. Umso wichtiger ist es, Dateninfrastrukturen durch ihre Öffnung in den Blickpunkt zu rücken und aktiv an der Schaffung gerechterer und offener Dateninfrastrukturen im Hinblick auf die Datensätze, Standards und Governance, aus denen sie bestehen, zu arbeiten.

Wenn Datensätze als zu kritisch für die Freigabe bewertet werden, sollten geeignete Metadaten bereitgestellt werden. Die Eröffnung von Schlüsseldatensätzen wird dazu beitragen, potenzielle Verzerrungen zu erkennen, mehr Wettbewerb zwischen potenziellen Dienstleistern zu führen, bessere öffentliche Dienste zu gewährleisten und das Vertrauen der Bürger*innen in staatliche Organe zu stärken. Es sollte eine Datenwirtschaft geschaffen werden, in der Rechte und Verantwortlichkeiten angemessen verteilt sind und in der Individuen mehr Kontrolle über die Nutzung und den Austausch von Daten erhalten.

Da Regierungen Algorithmen und KI-Systeme zur Verbesserung der Leistungserbringung einführen, sollten Maßnahmen ergreifen werden, um sicherzustellen, dass dies auf transparente Weise geschieht, die den Bürger*innen die Gewissheit gibt, dass diese Systeme faire Ergebnisse und gleichzeitig qualitativ hochwertigere Dienstleistungen erbringen. Die Bereitstellung der zugrunde liegenden Daten ist ein erster Schritt zum öffentlichen Verständnis dafür, wie öffentlich-rechtliche KI-Systeme Entscheidungen treffen. Es besteht die Gefahr, dass Open Data als Infrastrukturarbeit angesehen wird, die erforderlich ist, um den Rohstoff für die KI bereitzustellen, und nicht als ein eigenständiger Tätigkeitsbereich, mit einer viel breiteren Rolle.

Die Lösung dieser Probleme erfordert eine engere Zusammenarbeit zwischen der KI- und der Open Data Community, sowie staatlichen Akteuren und zivilgesellschaftlichen Institutionen. Staatliche Einrichtungen sollten hochwertige repräsentativen Daten freigeben, um sicherzustellen, dass die Trainingsdaten keine Verzerrungen aufweisen oder diesen bewusst entgegengesteuert wird.

Die Öffnung von Datensätzen kann dazu beitragen, potenzielle Verzerrungen innerhalb der Datensätze zu identifizieren, zu mehr Wettbewerb zwischen potenziellen Dienstleistern zu führen, bessere öffentliche Dienstleistungen zu gewährleisten und das Vertrauen der Bürger in die Regierung zu stärken.

Daneben stehen die drei B´s – Breitband – Bildung – Bewusstsein in Deutschland an: Der Breitbandausbau ist essentiell um Upstream- als auch des Downstream-Kapazitäten erhöhen. Eine fächerübergreifende Bildung zu mehr Datenkompetenz und eine angstbefreite und kritische Debatte um den Einsatz der Technologien sind weitere Voraussetzung für eine sachgerechte und faire Debatte. Noch können wir diesen Prozess mitgestalten.

Damian Paderta

Webgeograph & Digitalberater