Wie komme ich an Daten?

Es ist nicht einfach, die passenden Daten zu einem bestimmten Thema zu finden, die a) einfach auffindbar b) einfach weiterverarbeitbar c) vertrauenswürdig d) aktuell und vor allem e) kostenlos sind.

Die hier aufgeführten Webseiten sind ein guter Anfang, um sich vom flachen Ufer ins tiefe Datenmeer zu wagen. Die Auflistung folgt keiner Ordnung.

Datenportale

  • Dataportals.org – eine Liste von weltweiten Open Data Portalen. Ein guter Startpunkt um Datensammlungen weltweit zu erkunden.
  • EU Data Portal – das EU Data Portal in der Betaversion.
  • European Union Open Data Portal – dem EU Data Portal ähnlich, enthält die Sammlung zu verschiedenen europäischen Datenportalen.
  • Data.gov.uk – das Hauptportal vom Vereinigten Königreich. Enthält sehr viele Datensätze über Verwaltungshandeln.
  • Data.gov – die US-Variante zu Data.gov.uk.
  • Open Corporates – die weltweit größte Datensammlung zu Unternehmen.
  • WikiLeaks – das bekannte Whistblower-Portal mit einer Menge unveröffentlichter bzw. bearbeiteter Daten.
  • World Bank – das Datenportal der Weltbank mit umfangreichen Open Data-Ressourcen.
  • UN Data Portal – ein leicht verständliches Portal mit Daten die nach Land und Themen sortiert werden können.
  • UNHCR Data Portal – das Portal bietet vor allem Daten zur Flüchtlingskrisen. Rohdaten sind ebenfalls erhältlich.
  • World Health Organisation Data – das Portal bietet eine umfangreiche Datenquelle, Karten und Berichte sowie Statistiken an.
  • Google Public Data Explorer – mit dem Google Public Data Explorer können große Datensätze einfach durchsucht und visualisiert werden.
  • Google Trends  –  der Dienst listet auf, welche Suchbegriffe von Nutzern der Suchmaschine Google wie oft seit 2004 eingegeben wurden.
  • Google Finance  – Echtzeit-Dienst für Wirtschafts- und Finanznachrichten von Google.
  • Google Books Ngrams  – der Dienst untersucht mittels Data Mining, wie häufig in Publikationen ausgesuchte Wortfolgen vorkommen.
  • GetTheData.org – Forum wo eine Community nach Datensätzen gefragt werden kann.
  • WhatDoTheyKnow.com – über diese Seite können Informationsanfragen an zentrale staatliche Behörden gestellt werden.
  • Amazon Public Data Sets – Amazon hostet verschiedene öffentliche Datensätze, auf die jeder kostenlos zugreifen darf.
  • DBpedia – DBpedia German stellt die strukturierten Informationen der deutschsprachigen Wikipedia frei zur Verfügung.
  • Wikipedia – die bekannteste und größte Wissensdatenbank der Welt.
  • TIGER – Geodaten vom US Census Bureau in Public domain.
  • OpenStreetMap – die Wikipedia der Geodaten.
  • BBBike – Benutzerdefinierte Extrakte von OpenStreetMap
  • Geocommons – offene Plattform für Geodaten und für jedermann kostenfrei zugänglich.
  • Flickr Shapefiles – Geodaten die von Flickr-Usern erstellt wurden.
  • UNdata – Umfangreiches Portal (Daten, API, Metadaten etc.) der Vereinten Nationen.
  • World Health Organization – Daten der Weltgesundheitsorganisation WHO.
  • OECD data – Zugang zu enormen Datenbeständen der Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD).
  • Census Bureau – umfangreiches Portal der Bundesbehörde United States Census Bureau aus den USA.
  • Follow the Money – das einzig freie, überparteiliche, nachprüfbare Archiv mit Beiträgen zu politischen Kampagnen in allen 50 US-Staaten.
  • OpenSecrets – ein Portal für mehr Transparenz in der USA-Politk mit zahlreichen Tools.
  • MAPlight – ein Portal mit Daten zu Finanzströmen des öffentlichen Sektors in Kanada und USA. Ein Projekt von open Secrets.org
  • New York Times – Datensammlung mit starken APIs.
  • Guardian Datablog – stellt viele offene Daten mitteils Google Spreadsheets bereit.
  • US Census Bureau  – eine enorme Sammlung an Daten über Bevölkerung, Geodaten und Bildung aus den USA.
  • CIA World Factbook  – das CIA World Factbook liefert detaillierte Länderinformationen zu 267 Ländern der Erde.
  • kleine Anfragen – Diese Seite sammelt kleine Anfragen* der Landesparlamente und des Bundestages.
  • The World Atlas of Language Structures – Spezielles Portal mit Daten zu grammatikalischen Eigenschaften
  • Healthdata.gov  – ein Datenportal aus dem USA-Gesundheitsbereich aus über 125 Jahren.
  • NASA’S DATA PORTAL – das Open Data Portal der NAS mit Rohdaten, APIs und Möglichkeiten zur Visualisierung.
  • open NASA – noch ein vorbildliches Portal der NASA.
  • NHS Health and Social Care Information Centre  – Portal des britischen Gesundheitssektors
  • openweathermap – Wetterdaten per API kostenlos abrufbar
  • Facebook Graph  – auch wenn viele personenbezogene Daten auf Facebook privat sind. Viele sind es auch nicht und per API zu finden.
  • Gapminder  – das von Google aufgekaufte Unternehmen stellt Datensätze u.a. der WHO und Weltbank zur Verfügung.
  • National Centers for Environmental Information – das weltweit größte Archiv für Wetterdaten.
  • Million Song Data Set  – Metadaten von Millionen Songs und Musikstücken. Teil des Amazon Web Services.
  • openall.info – Linkliste von OpenData-Portalen weltweit.
  • Statista – für den deutschsprachigen Raum relevantes Datenportal mit wenig kostenfreien Daten.
  • Datafloq – Vermittlerportal für Big Data-Interessierte (in der Suche können Unternehmen gefiltert werden die Freemium-Modelle anbieten)
  • mapzen – Geodaten, extrahiert aus OpenStreetMap in vielen verschieden Formaten
  • GeoFabrik – Geodaten, extrahiert aus OpenStreetMap
  • Quandl – Suchmaschine für Daten
  • Zanran – Suchmaschine für Daten und Statistiken
  • GovData – last and least: das bundesweite Open Data Portal Deutschlands.
  • Awesome Public Datasets – Sehr umfangreiche Liste von Open Data auf GitHub

Google Search

Ein weitere Möglichkeit an Daten besteht darin in Google Search mit folgenden Abkürzungen suchen:

  • Filetype:CSV and filetype:XLS für Tabellen
  • Filetype:shp für Geodaten
  • Filetype: MDB, filetype: SQL, filetype:DB für Datenbankenauszüge
  • Filetype:pdf – Beispiel: site:Adidas-group.com filetype:pdf
  • inurl:downloads filetype:xls, findet nicht nur Dokumente von Organisationen und Unternehmen die veröffentlicht wurden sondern auch intern getielt wurden.
  • Data scraping einer Webseite. Mithilfe dieses Snippets:
    =importhtml(“Quelladresse“;”table“;n

    importhtml: Spreadsheet-Befehl zum Importieren von html-Daten –
    Quelladresse: URL
    table: Angabe dass eine Tabelle importiert wird
    n: Gibt an, welche Tabelle importiert werden soll (z.B: “1″ für die erste Tabelle, “2″ für die zweite Tabelle, usw.)

Foca

Foca ist ein Metadaten-Extraktionstool um diverse Dokumentenformate wie .doc, .pdf, ppt, odt, xls und jpg herunterzuladen und zu analysieren. Es genügt, die Domain und die zu analysierenden Dateitypen anzugeben. Damit füttert Foca die Suchmaschinen Google, Bing und Exalead, übernimmt die Ergebnisse in eine Liste und startet dann mit dem Herunterladen der gefundenen Dokumente.

-> zu Foca

Viel Spaß beim Stöbern!

Damian Paderta
Damian Paderta
Webgeograph & Digitalberater