• Imprimir

¿Qué son los datos abiertos?

Los datos abiertos (open data en inglés) son conjuntos de datos producidos o recopilados por organismos que las administraciones públicas ponen a disposición de la ciudadanía para que las puedan utilizar libremente de manera sencilla y cómoda.

Los datos abiertos tienen un gran valor potencial y son esenciales para la transparencia de las administraciones públicas, la eficiencia y la igualdad de oportunidades a la hora de crear riqueza.

El principal objetivo de la apertura de datos es poner a disposición de la sociedad y hacer públicos los datos que gestiona la administración, por lo que cualquier persona u organización pueda utilizarlas. Con este servicio, las administraciones aumentan la transparencia ya que el ciudadano accede a una visión real de la prestación de servicios. Además, la reutilización de datos abiertos por parte de empresas, entidades, asociaciones y ciudadanía en general permite la elaboración de nuevos productos y servicios que aportan valor, innovación, conocimiento y oportunidades de negocio.

Las licencias y los términos de uso de los datos abiertos están sometidas a las leyes de reutilización de la información del sector público, y en algunos casos pueden tener licencias de propiedad intelectual, aunque se tiende a abrirlas sin condiciones, siempre que se mantengan sin manipular y con la obligatoria citación de la fuente y de su última actualización. Para más información puede consultar el apartado términos de uso y licencias.

Para que los datos abiertos cumplan su finalidad deben ser:

1. Públicos: no deben estar sujetos a ningún tipo de privacidad, seguridad o cualquier otro tipo de restricción, excepto los que, por ley, estén sujetos a restricciones.

2. Detallados: deben ser los mismos datos primarios y originales, sin procesar (lo que se conoce como datos en bruto). Se informará de cómo se ha obtenido la información y dónde se encuentran los documentos primarios; de esta manera el usuario puede comprobar que es un proceso transparente y no se ha manipulado el dato primario.

3. Actualizados: deben estar a disposición de la ciudadanía con la frecuencia necesaria para que no pierdan su valor y sean siempre precisos y actuales. Se dará prioridad a aquellos datos cuya utilidad depende del factor tiempo

4. Accesibles: deben ser accesibles para el mayor número de usuarios posible, de manera que no haya restricciones por el propósito de uso ni barreras, tales como la necesidad de solicitar formalmente la información ni hacer cualquier otro trámite.

5. Automatizados: deben estar disponibles en formatos electrónicos de uso generalizado y estructurados para que puedan ser procesados automáticamente en cualquier ordenador.

6. Sin registro: deben ser abiertos para todos, sin la necesidad de tener que registrarse previamente para poder consultarlos.

7. Formato abierto: no pueden tener propietario ni depender de una empresa determinada y deben estar libres de restricciones legales y económicas de uso.

8. Libres: el uso de los datos no debe estar sometido a ningún tipo de regulación que restrinja su reutilización. Por lo tanto, los datos deben estar libres de derechos, patentes, copyright y no estar sujetos a derechos de privacidad ni de seguridad o normas.

Con el desarrollo de la sociedad de la información, los datos abiertos son una herramienta de información muy valiosa que proporciona ventajas tanto para la ciudadanía y las empresas como para la propia Administración, que puede mejorar su eficiencia ya que facilitan la interoperabilidad.

Ofrecer datos abiertos es un ejercicio de transparencia informativa que permite que la ciudadanía tenga información sobre las acciones y servicios de la administración y sobre la gestión que hace de los recursos públicos.

Beneficios para la ciudadanía: información

  1. Establece un diálogo activo, participativo y bidireccional entre gobierno y ciudadanos, principio fundamental del gobierno abierto.
  2. Abre la posibilidad de crear nuevos servicios sociales que mejoren la vida de la ciudadanía.
  3. Promueve una participación democrática de la ciudadanía.

Beneficios para las empresas: generar riqueza

  1. Posibilita la creación de valor económico ya que genera nuevos servicios y aplicaciones web a partir de los datos libres.
  2. Posibilita la apertura de un nuevo mercado basado en contenidos digitales.
  3. Posibilita la obtención de beneficios con información pública.

Beneficios para las administraciones: transparencia

  1. Promueve un uso inteligente y eficaz de los recursos.
  2. Genera un gobierno transparente que aporta un mayor grado de confianza.
  3. Facilita la interoperabilidad entre las diferentes administraciones.

El término dataset, procedente del inglés, se refiere a un conjunto de datos habitualmente estructurados que se han utilizado para construir una información publicada en catálogos de datos o bien se muestran de una manera independiente.

Los datos en bruto se organizan en datasets para poder ser más fácilmente clasificables y localizados; para lograr esto, se utilizan diferentes campos que definen el grupo de datos como la descripción, la frecuencia de actualización, el formato o la licencia de uso, entre otros.

Actualmente, el Portal de datos abiertos de la Generalidad de Cataluña integra datasets organizados en diversos formatos, categorías y fuentes de datos que permiten a la ciudadanía disponer de un gran abanico de datos diferentes. Se pueden utilizar datos muy diversos de los diferentes organismos de la Generalidad: datos geográficos, meteorológicos, estadísticas económicas, administrativas, turísticas, jurídicas, de movilidad, etc.

¿Qué es un dataset?

Un formato reutilizable es un formato estructurado, abierto y que no tiene propietarios, por ejemplo, CSV o XML. Son formatos de datos diseñados para que otros programas o aplicaciones puedan hacer uso, por ejemplo, para analizarlos, cruzarlos con otras fuentes de datos, o crear visualizaciones en gráficos o mapas.

Al contrario de estos, tendríamos formatos de datos como el PDF, diseñados para la consulta de datos e información, pero que no permite su reutilización de manera sencilla.

La Ley 19/2014, del 29 de diciembre, de transparencia, acceso a la información pública y buen gobierno, establece que toda la información del sector público se debe entregar de una manera clara, estructurada y en formato reutilizable, para permitir la interoperabilidad, mejorar la transparencia y la simplificación documental.

 

¿Qué es un formato reutilizable?

Los datasets disponibles en la plataforma de datos abiertos se pueden exportar a múltiples formatos. A continuación se detallan brevemente:

Formato

Descripción

CSV/TSV

Es un formato abierto, sencillo y de uso muy extendido para representar datos tabulados. Estos archivos se pueden abrir tanto con editores de texto (Bloc de notas de Windows, MS Word) como con editores de hoja de cálculo (MS Excel, OpenOffice Calc, etc.). Los datos se estructuran en columnas separadas por un carácter determinado (generalmente el separador es una coma o un punto y coma para los CSV, y tabulación para los TSV). Todas las filas tienen los mismos campos, y al final de cada fila hay un salto de línea. Además, se dispone de las opciones de exportación CSV for Excel y CSV for Excel (Europa). Estas opciones están formateadas de manera que cuando se abren con MS Excel, el programa interpreta el separador y muestra las columnas de manera separada, facilitando la lectura. Más información en http://tools.ietf.org/html/rfc4180.

JSON

Formato ligero de intercambio de datos entre aplicaciones informáticas. Ofrece sencillez en las máquinas en la generación e interpretación de los datos. Está basado en un subconjunto del lenguaje de programación JavaScript, adecuado para la programación por parte del cliente. Más información en http://json.org/json-es.html

XML

Formato abierto que permite representar los datos de forma estructurada y jerárquica mediante etiquetas. Es un lenguaje diseñado para facilitar la reutilización de los datos mediante otros programas o aplicaciones. Más información en https://www.w3.org/TR/2006/REC-xml11-20060816/.

RDF-XML

Es una especificación para estructurar los datos en tripletas, en la forma sujeto-atributo-valor, que permite incorporar información semántica a los datos. RDF es una especificación abstracta y no se limita a un formato concreto. En la plataforma de datos abiertos, se pueden descargar archivos RDF serializados como XML. Más información en https://www.w3.org/TR/REC-rdf-syntax/.

RSS

Es un formato del lenguaje XML que permite la distribución de contenidos de páginas web. Facilita la publicación de información actualizada a los usuarios suscritos a la fuente RSS sin necesidad de usar un navegador, utilizando un software especializado en este formato.

 

En el caso de datasets que contienen datos geográficos, adicionalmente a los formatos mencionados arriba, también se pueden exportar en los siguientes formatos específicos para la representación de datos geográficos:

Formato

Descripción

KML/KMZ

El formato KML es una notación específica de XML para la representación de datos geográficos. Permiten representar diversas geometrías (puntos, polígonos, modelos 3D, etc.) expresadas en latitud, longitud y, opcionalmente, altitud. Se pueden distribuir también agrupados en un ZIP (llamado KMZ) y pueden contener otros recursos como descripciones o imágenes asociadas a los elementos geográficos. Se pueden abrir y procesar con software que implemente KML y KML, como es el caso de Google Earth. Más información en https://developers.google.com/kml/documentation/kmlreference.

SHP

Es un formato propietario de datos espaciales de uso muy extendido para el intercambio de información geográfica entre Sistemas de Información Geográfica (GIS). Es un formato vectorial de almacenamiento digital donde se guarda la localización de elementos geográficos y los atributos asociados a este, pero sin capacidad para almacenar información topológica. Lo generan varios archivos, mínimo tres, y tiene tres tipos de extensiones: .shp, .shx y .dbf. Más información en http://www.esri.com/library/whitepapers/pdfs/shapefile.pdf.

GeoJSON

El formato GeoJSON es un formato abierto para representar diferentes estructuras de datos geográficos conjuntamente con atributos no geográficos, basándose en el formato JSON. Más información en http://geojson.org/geojson-spec.html.

Original

Esta opción permite la descarga del archivo en el mismo formato en que fue cargado en la plataforma de datos abiertos.

Los datos abiertos se pueden utilizar para cualquier tipo de finalidad: por ejemplo, facilitan consultar información sobre diferentes temáticas, construir aplicaciones, en especial software y formas de visualización, que utilizan la información libre como fuente.

Entre otros usos se pueden realizar estudios estadísticos socioeconómicos, que a posteriori serán utilizados por las empresas con propósitos de análisis de mercados y evaluación de riesgo comercial, marketing y ventas.

Los periodistas de datos utilizan los datos abiertos como materia prima en lugar de otras fuentes de información, y trabajan en el análisis crítico de la información, con el objetivo de ofrecer representaciones de la información comprensibles e intuitivas.

¿Qué se puede hacer con estos datos?

En el Portal de datos abiertos se puede encontrar un gran abanico de datasets de ámbitos temáticos y tipologías de formato diversos.

Con el fin de clasificar los conjuntos de datos por ámbitos temáticos, se han identificado una serie de categorías. Las categorías son únicas para cada conjunto de datos y se han elaborado en base a las categorías determinadas en la Norma Técnica de Interoperabilidad de reutilización de recursos de la información https://www.boe.es/boe/dias/2013/03/04/pdfs/BOE-A-2013-2380.pdf, de ámbito estatal.

Se trata de categorías comúnmente utilizadas en múltiples portales de referencia como 060, EUGO, INE, EUROSTAT, WORLD BANK, o OECD. La Norma Técnica de Interoperabilidad de reutilización de recursos de la información prevé las siguientes categorías:

 

Categoría

Ámbitos temáticos

Ciencia y tecnología

Incluye innovación, investigación, I + D + I, telecomunicaciones, internet, y sociedad de la información

Comercio

Incluye comercio y consumo

Cultura y ocio

Incluye tiempo libre y actividades lúdicas

Demografía

Incluye inmigración y emigración, familia, mujeres, infancia, personas mayores, y padrón

Economía

Incluye deuda, moneda, banca, y finanzas

Educación

Incluye escuelas, educación, y actividades de formación

Energía

Incluye energías renovables

Deporte

Incluye instalaciones deportivas, federaciones, y competiciones

Vivienda

Incluye mercado inmobiliario y vivienda

Hacienda

Incluye impuestos

Industria

Incluye minería

Legislación y justicia

Incluye registros

Medio ambiente

Incluye meteorología, geografía, y conservación de la fauna y flora

Medio rural y pesca

Incluye agricultura, ganadería, pesca, y silvicultura

Salud

Incluye sanidad y servicios hospitalarios

Sector público

Incluye presupuestos, organigrama institucional, legislación interna, y función pública

Seguridad

Incluye protección civil y defensa

Sociedad y bienestar

Incluye participación ciudadana, marginación, envejecimiento activo, dependencia, jubilación, seguros y pensiones, prestaciones, y subvenciones

Transporte

Incluye transporte, comunicaciones, y tráfico

Trabajo

Incluye trabajo y mercado laboral

Turismo

Incluye alojamiento, hostelería, y gastronomía

Urbanismo e infraestructuras

Incluye construcción, infraestructuras, equipamientos públicos, y saneamiento público

 

Posteriormente se añadió la categoría de Memoria para incluir todos aquellos conjuntos de datos que hacen referencia a la memoria histórica del país.

Los conjuntos de datos tienen por otra parte asignadas etiquetas o palabras clave; son más numerosas que las categorías y normalmente cada conjunto de datos tiene más de una etiqueta asignada, a fin de facilitar las opciones de búsqueda.

Por otro lado, los conjuntos de datos publicados en el portal se pueden encontrar en varias clases de formato o tipo de vista. Además de buscar conjuntos de datos en el catálogo, el tipo de vista permite filtrar según las tipologías de formatos en que se encuentran los conjuntos de datos. Hay que tener en cuenta que el tipo de vista no responde a formatos concretos sino a tipologías de formato (enlaces, archivos tabulares, archivos con información geoespacial, etc.), que a su vez, pueden encontrarse en diferentes formatos. A continuación se describe en qué consiste cada tipo de vista:

 

Tipo de vista

Descripción del conjunto de datos

Archivos y documentos

 

Archivos que se encuentran publicados en la plataforma de datos abiertos pero esta no interpreta como información estructurada. Se encuentran en el formato original de la fuente de datos.

Conjuntos de datos

Archivos tabulares estructurados en que las columnas son los campos de información y cada fila es un dato. Se pueden descargar como CSV, CSV for Excel, CSV for Excel (Europe), JSON, RDF, RSS, TSV for Excel, y XML.

Mapas

Archivos con información geoespacial. Se pueden descargar con datos geoespaciales como KML, KMZ, SHP, Original, y GeoJSON; y sin datos geoespaciales o con datos de una capa específica como CSV y JSON.

Conjuntos de datos externos  

A través de la plataforma se accede al enlace o enlaces a la fuente de los datos, que se encuentra en otros webs o aplicaciones corporativas de la Generalidad de Cataluña.

Vistas con filtros  

Consiste en conjuntos de datos filtrados a partir de un conjunto de datos original publicado en la plataforma de datos abiertos. El usuario las puede filtrar y descargar en los mismos formatos que el conjunto de datos original.

Gráficos

Se trata de visualizaciones gráficas de conjuntos de datos publicados en la plataforma de datos abiertos. El usuario las puede filtrar y descargar en los mismos formatos que el conjunto de datos original.