• Imprimeix

Què són les dades obertes

Les dades obertes (open data en anglès) són conjunts de dades produïdes o recopilades per organismes públics que les administracions públiques posen a disposició de la ciutadania perquè les puguin utilitzar lliurement de manera senzilla i còmoda.

Les dades obertes tenen un gran valor potencial i són essencials per a la transparència de les administracions públiques, l’eficiència i la igualtat d’oportunitats a l’hora de crear riquesa.

El principal objectiu de l’obertura de dades és posar a disposició de la societat i fer públiques les dades que gestiona l’Administració, de manera que qualsevol persona o organització pugui utilitzar-les. Amb aquest servei, les administracions augmenten la transparència, ja que el ciutadà accedeix a una visió real de la prestació de serveis. A més, la reutilització de dades obertes per part d’empreses, entitats, associacions i ciutadania en general permet l’elaboració de nous productes i serveis que aporten valor, innovació, coneixement i oportunitats de negoci.

Les llicències i els termes d’ús de les dades obertes estan sotmeses a les lleis de reutilització de la informació del sector públic, i en alguns casos poden tenir llicències de propietat intel·lectual, tot i que es tendeix a obrir-les sense condicions, sempre que es mantinguin sense manipular i amb la citació obligatòria de la font i de la seva darrera actualització. Per a més informació, podeu consultar l’apartat Termes d’ús i llicències.

 

Perquè les dades obertes compleixin la seva finalitat han de ser:

 1. Públiques: no han d’estar subjectes a cap tipus de privacitat, seguretat o qualsevol altre tipus de restricció, excepte les que, per llei, estiguin subjectes a restriccions.

 2. Detallades: han de ser les mateixes dades primàries i originals, sense processar (el que es coneix com a dades en brut). S’ha d’informar de com s’ha obtingut la informació i on es troben els documents primaris; d’aquesta manera la persona usuària pot comprovar que és un procés transparent i que les dades no s’han manipulat.

 3. Actualitzades: han d’estar a disposició de la ciutadania amb la freqüència necessària perquè no perdin el seu valor i siguin sempre precises i actuals. S’ha de donar prioritat a aquelles dades la utilitat de les quals depèn del factor temps.

 4. Accessibles: han de ser accessibles per al nombre d’usuaris més gran possible, de manera que no hi hagi restriccions pel propòsit d’ús ni barreres, com ara la necessitat de sol·licitar formalment la informació ni fer qualsevol altre tràmit.

 5. Automatitzades: han d’estar disponibles en formats electrònics d’ús generalitzat i estructurades perquè puguin ser processades automàticament en qualsevol ordinador.

 6. Sense registre: han de ser obertes per a tothom, sense la necessitat d’haver de registrar-se prèviament per a poder consultar-les.

 7. Format obert: no poden tenir propietari ni dependre d’una empresa determinada i han d’estar lliures de restriccions d’ús legals i econòmiques.

 8. Lliures: l’ús de les dades no ha d’estar sotmès a cap tipus de regulació que en restringeixi la reutilització. Per tant, les dades han d’estar lliures de drets, patents, copyright i no estar subjectes a drets de privacitat ni de seguretat o normes.

Amb el desenvolupament de la societat de la informació, les dades obertes són una eina d’informació molt valuosa que proporciona avantatges tant per a la ciutadania i les empreses com per a la mateixa Administració, que pot millorar la seva eficiència gràcies a una capacitat més gran d’interoperabilitat.

Oferir dades obertes és un exercici de transparència informativa que permet que la ciutadania tingui informació sobre les accions i serveis de l’Administració i sobre la gestió que es fa dels recursos públics.

Beneficis per a la ciutadania: informació

 1. Estableix un diàleg actiu, participatiu i bidireccional entre Govern i ciutadans, principi fonamental del Govern obert.
 2. Obre la possibilitat de crear nous serveis socials que millorin la vida de la ciutadania.
 3. Promou una participació democràtica de la ciutadania.

Beneficis per a les empreses: generar riquesa

 1. Possibilita la creació de valor econòmic, ja que genera nous serveis i aplicacions web a partir de les dades lliures.
 2. Possibilita l’obertura d’un nou mercat basat en continguts digitals.
 3. Possibilita l’obtenció de beneficis amb informació pública.

Beneficis per a les administracions: transparència

 1. Promou un ús intel·ligent i eficaç dels recursos.
 2. Genera un Govern transparent que aporta un grau més alt de confiança.
 3. Facilita la interoperabilitat entre les diferents administracions.

El terme dataset, procedent de l’anglès, es refereix a un conjunt de dades, habitualment estructurades, que s’han utilitzat per a construir una informació publicada en catàlegs de dades o bé es mostren d’una manera independent.

Les dades en brut s’organitzen en datasets per a poder ser indexades i localitzades més fàcilment; per a aconseguir això, s’utilitzen diferents camps que defineixen el grup de dades com ara la descripció, la freqüència d’actualització, el format o la llicència d’ús, entre d’altres.

Actualment, el Portal de dades obertes de la Generalitat de Catalunya integra datasets organitzats en diversos formats, categories i fonts de dades que permeten a la ciutadania disposar d’un gran ventall de dades diferents. Es poden utilitzar dades molt diverses dels diferents organismes de la Generalitat: dades geogràfiques, meteorològiques, estadístiques, econòmiques, administratives, turístiques, jurídiques, de mobilitat, entre d’altres.

Què és un dataset?

Un format reutilitzable és un format estructurat, obert i que no té propietaris, per exemple, un CSV o XML. Són formats de dades dissenyats perquè d’altres programes o aplicacions en puguin fer ús, per exemple, per a analitzar-los, creuar-los amb d’altres fonts de dades, o crear-ne visualitzacions en gràfics o mapes.

Al contrari d’aquests, tindríem formats de dades com el PDF, dissenyats per a la consulta de dades i informació, però que no en permeten la reutilització de manera senzilla.

La Llei 19/2014, del 29 de desembre, de transparència, accés a la informació pública i bon govern, estableix que tota la informació del sector públic s’ha de lliurar d’una manera clara, estructurada i en format reutilitzable, per tal de permetre la interoperabilitat, millorar la transparència i la simplificació documental.

Què és un format reutilitzable?

Els datasets disponibles a la plataforma de dades obertes es poden exportar en múltiples formats. A continuació es detallen breument:

Format

Descripció

CSV / TSV

És un format obert, senzill i d’ús molt estès per a representar dades tabulades. Aquests fitxers es poden obrir tant amb editors de text (Bloc de notes de Windows, MS Word) com amb editors de full de càlcul (MS Excel, OpenOffice Calc, etc.). Les dades s’estructuren en columnes separades per un caràcter determinat (generalment el separador és una coma o un punt i coma per als CSV, i tabulació per als TSV). Totes les files tenen els mateixos camps, i al final de cada fila hi ha un salt de línia. A més, es disposa de les opcions d’exportació CSV for Excel i CSV for Excel (Europa). Aquestes opcions estan formatades de manera que quan s’obren amb MS Excel, el programa interpreta el separador i mostra les columnes de manera separada, facilitant-ne la lectura. Més informació a http://tools.ietf.org/html/rfc4180.

JSON

Format lleuger d’intercanvi de dades entre aplicacions informàtiques. Ofereix senzillesa a les màquines en la generació i interpretació de les dades. Està basat en un subconjunt del llenguatge de programació JavaScript, adequat per a la programació per part del client. Més informació a http://json.org/json-es.html.

XML

Format obert que permet representar les dades de forma estructurada i jeràrquica mitjançant etiquetes. És un llenguatge dissenyat per a facilitar la reutilització de les dades mitjançant altres programes o aplicacions. Més informació a https://www.w3.org/TR/2006/REC-xml11-20060816/.

RDF-XML

RDF és una especificació per a estructurar les dades en tripletes, en la forma subjecte-atribut-valor, que permet incorporar informació semàntica a les dades. RDF és una especificació abstracta i no es limita a un format concret. En la plataforma de dades obertes, es poden descarregar fitxers RDF serialitzats com a XML. Més informació a https://www.w3.org/TR/REC-rdf-syntax/.

RSS

És un format del llenguatge XML que permet la distribució de continguts de pàgines web. Facilita la publicació d’informació actualitzada als usuaris subscrits a la font RSS sense necessitat d’usar un navegador, utilitzant un programari especialitzat en aquest format.

 

En el cas de datasets que contenen dades geogràfiques, addicionalment als formats esmentats anteriorment, també es poden exportar en els formats específics següents per a la representació de dades geogràfiques:

 

Format

Descripció

KML/KMZ

El format KML és una notació específica de XML per a la representació de dades geogràfiques. Els fitxers KML permeten representar diverses geometries (punts, polígons, models 3D, etc.) expressades en latitud, longitud i, opcionalment, altitud. Es poden distribuir també agrupats en un ZIP (anomenat KMZ) i poden contenir altres recursos com descripcions o imatges associades als elements geogràfics. Es poden obrir i processar amb programari que implementi KML i KMZ, com és el cas de Google Earth. Més informació a https://developers.google.com/kml/documentation/kmlreference.

SHP

Shapefile és un format propietari de dades espacials d’ús molt estès per a l’intercanvi d’informació geogràfica entre sistemes d’informació geogràfica (SIG). És un format vectorial d’emmagatzematge digital on es guarda la localització d’elements geogràfics i els atributs associats a aquest, però sense capacitat per a emmagatzemar informació topològica. El generen diversos fitxers (mínim tres), i té tres tipus d’extensions: .shp, .shx i .dbf. Més informació a http://www.esri.com/library/whitepapers/pdfs/shapefile.pdf.

GeoJSON

El format GeoJSON és un format obert per a representar diferents estructures de dades geogràfiques conjuntament amb atributs no geogràfics, basant-se en el format JSON. Més informació a http://geojson.org/geojson-spec.html.

Original

Aquesta opció permet la descàrrega del fitxer en el mateix format en què va ser carregat a la plataforma de dades obertes.

Les dades obertes es poden utilitzar per a qualsevol tipus de finalitat: per exemple, faciliten consultar informació sobre diferents temàtiques i construir aplicacions, en especial programari i formes de visualització, que utilitzen la informació lliure com a font.

Entre d’altres usos, es poden realitzar estudis estadístics socioeconòmics, que a posteriori seran utilitzats per moltes empreses amb propòsits d’anàlisi de mercats i avaluació de risc comercial, màrqueting i vendes.

Els periodistes de dades utilitzen les dades obertes com a matèria prima en comptes d’altres fonts d’informació, i treballen en l’anàlisi crítica de la informació, amb l’objectiu d’oferir representacions de la informació comprensibles i molt intuïtives.

Què es pot fer amb aquestes dades?

Al Portal de dades obertes es poden trobar datasets d’un gran ventall d’àmbits temàtics i tipologies de format.

Per tal de classificar els conjunts de dades per àmbits temàtics, s’han identificat un seguit de categories. Les categories són úniques per cada conjunt de dades i s’han elaborat a partir de les categories determinades en la Norma Tècnica d’Interoperabilitat de Reutilització de recursos de la informació (https://www.boe.es/boe/dias/2013/03/04/pdfs/BOE-A-2013-2380.pdf), d’àmbit estatal. Es tracta de categories habitualment emprades en múltiples portals de referència com 060, EUGO, INE, EUROSTAT, WORLD BANK o OECD. La Norma Tècnica d’Interoperabilitat de Reutilització de recursos de la informació preveu les categories següents:

Categoria

Àmbits temàtics

Ciència i tecnologia

Inclou innovació, recerca, R+D+I, telecomunicacions, internet, i societat de la informació

Comerç

Inclou comerç i consum

Cultura i oci

Inclou temps lliure i activitats lúdiques

Demografia

Inclou immigració i emigració, família, dones, infància, gent gran i padró

Economia

Inclou deute, moneda, banca i finances

Educació

Inclou escoles, educació i activitats de formació

Energia

Inclou energies renovables

Esport

Inclou instal·lacions esportives, federacions i competicions

Habitatge

Inclou mercat immobiliari i habitatge

Hisenda

Inclou impostos

Indústria

Inclou mineria

Legislació i justícia

Inclou registres

Medi ambient

Inclou meteorologia, geografia i conservació de la fauna i flora

Medi rural i pesca

Inclou agricultura, ramaderia, pesca i silvicultura

Salut

Inclou sanitat i serveis hospitalaris

Sector públic

Inclou pressupostos, organigrama institucional, legislació interna i funció pública

Seguretat

Inclou protecció civil i defensa

Societat i benestar

Inclou participació ciutadana, marginació, envelliment actiu, dependència, jubilació, assegurances i pensions, prestacions i subvencions

Transport

Inclou transport, comunicacions i trànsit

Treball

Inclou treball i mercat laboral

Turisme

Inclou allotjaments, hostaleria i gastronomia

Urbanisme i infraestructures

Inclou construcció, infraestructures, equipaments públics i sanejament públic

 

Addicionalment, es va afegir la categoria «Memòria» per incloure-hi tots aquells conjunts de dades que fan referència a la memòria històrica del país.

Complementàriament, els conjunts de dades tenen assignades etiquetes o paraules clau. Les etiquetes són més nombroses que les categories i normalment cada conjunt de dades té més d’una etiqueta assignada, per tal de facilitar les opcions de cerca.

Per altra banda, els conjunts de dades publicats al Portal es poden trobar en diverses classes de format, o tipus de vista. A l’hora de cercar conjunts de dades en el catàleg, el tipus de vista permet filtrar segons les tipologies de formats en què es troben els conjunts de dades. Cal tenir en compte que el tipus de vista no respon a formats concrets sinó a tipologies de format (enllaços, arxius tabulars, arxius amb informació geoespacial, etc.), que al seu torn, poden trobar-se en diferents formats. A continuació es descriu en què consisteix cada tipus de vista:

Tipus de vista

Descripció del conjunt de dades

Arxius i documents

Arxius que es troben publicats a la plataforma de dades obertes però que aquest no interpreta com a informació estructurada. Es troben en el format original de la font de dades.

Conjunts de dades

Arxius tabulars estructurats on les columnes són els camps d’informació i cada fila és una dada. Es poden descarregar com a CSV, CSV for Excel, CSV for Excel (Europa), JSON, RDF, RSS, TSV for Excel i XML.

Mapes

Arxius amb informació geoespacial. Es poden descarregar amb dades geoespacials com a KML, KMZ, SHP, original i GeoJSON; i sense dades geoespacials o amb dades d’una capa específica com a CSV i JSON.

Conjunts de dades externs

A través de la plataforma s’accedeix a l’enllaç o enllaços a la font de les dades, que es troba en d’altres webs o aplicacions corporatives de la Generalitat de Catalunya.

Vistes amb filtres

Consisteixen en conjunts de dades filtrades a partir d’un conjunt de dades original publicat a la plataforma de dades obertes. L’usuari les pot filtrar i descarregar en els mateixos formats que el conjunt de dades original.

Gràfics

Es tracta de visualitzacions gràfiques de conjunts de dades publicats a la plataforma de dades obertes. L’usuari les pot filtrar i descarregar en els mateixos formats que el conjunt de dades original.