blog.atwork.at

news and infos about microsoft, technology, cloud and more

EU-Portal for Open Data

Die Europäische Kommission hat vor kurzem ohne große Ankündigung die Beta-Version des EU-Portals für Open Data vorgestellt. Das Portal soll einen öffentlichen und einheitlichen Zugang zu gesammelten Statistikdaten der EU bieten. Der offizielle Start ist für Januar 2013 geplant, siehe auch Artikel in heise.de: EU-Kommission startet Betaversion des Open-Data-Portals

Das Portal ist unter der Adresse http://open-data.europa.eu/open-data/ erreichbar.

eu-open-data-portal

Bei Öffnen von Data kann nach verschiedenen Statistikdaten gesucht werden. Derzeit, mit Stand Ende Dezember 2012, liegen im Portal 5811 Datasets vor.

eu-open-data-portal-publishers

Wenn man sich die Publishers ansieht, stellt man sofort fest, dass fast alle Daten von Eurostat bereitgestellt werden.

eurostat

Eurostat hat ihren Sitz in Luxemburg und erhebt selbst keine Daten, sondern sammelt Daten der Statistikbehörden der EU-Mitgliedstaaten. Diese liefern Daten für Handel, Landwirtschaft, Umwelt, Wasser, Regionen und vieles mehr. Die meisten Daten liegen als downloadbares ZIP in verschiedenen Formaten (DFT, SDMX-ML, TSV) vor.

Für Datenabfragen existiert ein Endpoint (siehe http://open-data.europa.eu/open-data/linked-data), der Virtuoso SPARQL Query Editor unter http://open-data.europa.eu/open-data/sparql. Dieser kann Abfragen durchführen und Daten in verschiedenen Formaten liefern: als HTML, Spreadsheet, XML, JSON, CSV, usw. Die Abfragen verwenden die Data CATalog vocabulary-Spezifikationen (DCAT ist ein RDF Vokabular für die einheitliche Verwendung von Abfragen aller Datenkataloge), siehe http://www.w3.org/TR/vocab-dcat/.

Die Licence Policy informiert über die Verwendung dieser Daten, für die meisten Inhalte gilt:

Sofern nicht anders angegeben, ist das Herunterladen und die Vervielfältigung von Eurostat-Daten bzw. -Dokumenten für den persönlichen Gebrauch oder zur anderweitigen nicht gewerblichen oder gewerblichen Verbreitung gestattet, wenn Eurostat als Quelle genannt wird, sowie vorbehaltlich der im Folgenden genannten Ausnahmen/Bedingungen...” (mehr).

Die Analyse der vorhandenen Daten gestaltet sich allerdings zeitaufwändig - die Daten sind zwar grundsätzlich selbstbeschreibend, aber eine Analyse ist erforderlich.

 eurostat-data

In meinem Versuch mit Total Greenhouse Gas Emissions” sieht es so aus, dass Daten in File#1 (ten00072.sdmx.xml) vorhanden sind und in File#2 (ten00072.dsd.xml) eine Definition der Felder. In diesem Beispiel sind die Werte im Feld OBS_VALUE relevant. In File#2 finden sich dann Informationen, dass das Feld OBS_VALUE für Observation Value” steht. Mit etwas Suche findet man auch die Beschreibung der verwendeten Einheit (unit 1000T sind Tausend Tonnen):

eurostat-data-unit

Diese Information konsolidiert ergeben zum Beispiel: In Österreich wurden im Jahr 1999 satte 80.254 Tausend Tonnen Treibhausgase emittiert. Im letzten Jahr der Statistik, im Jahr 2010, waren es 84.594 Tausend Tonnen, also fast 5 Millionen Tonnen mehr. In Deutschland waren es im Jahr 2010 936.544 Tausend Tonnen (also fast 1 Milliarde Tonnen), etwas mehr als das Zehnfache von Österreich. Das entspricht in etwa auch der zehnfachen Bevölkerungsanzahl. In den letzten 11 Jahren wurden in Österreich mit etwa 1 Milliarde Tonnen etwas mehr Treibhausgase ausgestoßen, als in einem Jahr in Deutschland. In der gesamten EU über 11 Jahre sind das 60.385.872 Tausend Tonnen. Eindrucksvolle Zahlen.

Grundsätzlich ist es eine tolle Sache, dass immer mehr öffentliche Daten verfügbar gemacht werden, so kann die Open-Data-Idee von Interessierten genutzt werden. Die Einarbeitung in die Daten ist aus meiner Sicht allerdings mit größerem Zeitaufwand verbunden. Wenn man daraus dann eine vernünftige App zur Visualisierung oder zur Verknüpfung von Daten baut, profitieren jedoch viele Anwender davon. Die Spielwiese für Developer ist eröffnet.

Loading