La democratización de datos como palanca de mejores soluciones basadas en datos

11.05.2020

En las últimas semanas hemos visto en las noticias la creciente relevancia que se concede a los datos y a los algoritmos que se aplican a tales datos. En particular, con la crisis que actualmente absorbe nuestra actualidad, es decir, la pandemia del COVID-19. Asistimos día a día a la monitorización de la evolución de la pandemia a través de modelos cuantitativos para prever la propagación del virus. Tal seguimiento y su análisis permiten que avancemos en diferentes “fases de la desescalada”, que se adopten diferentes medidas, que se permita mayor o menor libertad de movimiento, etc. Sin embargo, observamos que este es un proceso que continuamente se pone en entredicho. Aunque a menudo hay un trasfondo político en las críticas, lo cierto es que el problema en sí mismo radica en la naturaleza de los propios datos y la manera en que las personas los recogemos, amoldamos y procesamos. Han sido varias las circunstancias que han hecho que los datos que hemos recopilado e intentado interpretar para ayudarnos en la toma de decisiones, no han sido “suficientemente buenos”, es decir, de la calidad que hubiéramos deseado. Algunos ejemplos de los problemas asociados a los datos que manejamos son: “no se contabilizan del mismo modo”, el “reporte de datos los fines de semana se demora”, algunas autonomías sólo “cuentan las defunciones en hospitales”, etc.

En conclusión, es evidente que recoger, homogeneizar, modelar, simular o experimentar con los datos es un importante desafío. Eso explica el surgimiento de la disciplina de la Ciencia de los Datos, para hacer referencia a la necesidad de afrontar la complejidad que entraña la recogida, procesado y actuación sobre las conclusiones derivadas de los datos de diferente naturaleza (estructurados provenientes de bases de datos o no estructurados provenientes de redes sociales).

Poner en práctica procesos de análisis de datos para la toma de decisiones implica no sólo capturar y acceder a los datos, sino además conseguir que estos tengan suficiente calidad para ser utilizables. Tal como indica el principio Garbage-In-Garbage-Out[1] la salida de un algoritmo, o cualquier función del procesamiento de información, es solo tan buena como la calidad de la entrada que recibe. Consecuentemente, en el origen de los datos a menudo radica el principal problema. En el caso del estado español, relativo al COVID-19, tales datos vienen de diferentes comunidades autónomas, cada cual con sus procesos de recogida, que han tenido que uniformar siguiendo las directrices de las autoridades sanitarias a nivel estatal. Se puede intentar culpar a muchos: a las comunidades autónomas, al Gobierno central, a los que recogen la información, a los científicos de datos que los procesan y generan las “curvas de la pandemia”. Pero con todo, la propia naturaleza de los datos es la única culpable de no poder interpretar datos más veraces con mayor precisión.

El “poder de los datos” es cada vez más patente. Llevamos desde el principio del siglo hablando de la necesidad de tener datos abiertos, de que las administraciones públicas deben mejorar la transparencia y promover incluso la innovación, abriendo datos sobre los procesos y servicios que gestionan. Muchos indican que el “petróleo del siglo XXI son los datos”, prueba fehaciente de ello es que cinco de las empresas más grandes del planeta deben una gran parte de su negocio al uso que dan a los datos personales de sus usuarios en los diferentes servicios que ofertan. Estamos hablando de empresas como Amazon, Apple, Microsoft, Google o Facebook. Por otro lado, se está incidiendo mucho en la necesidad en Europa de promocionar la “Economía de los Datos” dando valor a los datos que recogen nuestras empresas en sus procesos productivos o los servicios que prestan, pues en muchas ocasiones no se valorizan. Con todo, independientemente de si hablamos de datos públicos, personales o industriales, es primordial que preservemos, controlemos y valoremos los datos. La gobernanza y el control de soberanía de los datos (términos asociados comúnmente a la democracia) son cada vez más relevantes para regular el uso, consumo y explotación de este nuevo “petróleo del siglo XXI”.

Centrándonos en cómo los datos pueden ayudarnos a resolver problemas de gran relevancia social y económica, como es la crisis del COVID-19 actual, veamos cuáles son las barreras que hemos de superar y qué mecanismos han ido emergiendo para abordarlas. La transparencia (apertura) es un atributo estrechamente ligado a la gobernanza (control y explotación) y la democratización (acceso y consumo) de los datos. Como resultado, desde 2016 grupos de expertos internacionales acuñaron el concepto FAIR data (o “datos justos”) a través de un artículo en la prestigiosa revista Nature[2]. Asimismo, instituciones internacionales como la Comisión Europea inciden en la importancia de liberar datos que nos puedan ayudar a catalizar la investigación. Bajo el paraguas FAIR se recogen un conjunto de directrices dirigidas a la gestión y administración de datos científicos. El propósito del concepto “datos justos” es proporcionar un conjunto de principios para mejorar la capacidad de encontrar y facilitar la accesibilidad, la interoperabilidad y la reutilización de los activos digitales. Los principios de FAIR hacen hincapié en la capacidad de actuación de las máquinas (es decir, la capacidad de los sistemas informáticos para encontrar (find), acceder (access), interoperar (interoperate) y reutilizar (reuse) datos sin intervención humana o con una intervención humana mínima), porque los seres humanos dependen cada vez más del apoyo informático para tratar los datos como resultado del aumento del volumen, la complejidad y la velocidad de creación de los datos.

Publicar datos abiertos para facilitar su tratamiento y la investigación a través del concepto FAIR es, en consecuencia, necesario, pero no es condición suficiente para que se puedan aprovechar por la comunidad científica y la sociedad en general. Es, por lo tanto, fundamental centrarnos en la mejora continua de los datos. Tal mejora es tarea no solo de aquellos que aportan datos sino también de aquellos que los consumen. Intervienen en este proceso de mejora algoritmos o procesos informáticos que detectan incoherencias, resuelven errores, y que, a menudo, requieren la intervención de humanos que moderan y validan las correcciones e incoherencias encontradas en los datos. En resumen, no es suficiente que los datos sean abiertos y “justos”, deben ser además de “alta calidad”, para facilitar su procesamiento y dar lugar a visualizaciones e interpretaciones entendibles no sólo por científicos de datos, sino por la ciudadanía en general. Solo así podremos avanzar hacia la “democratización de los datos”.

Por otro lado, también necesitamos reflexionar sobre los algoritmos que aplicamos a tales datos. La iniciativa OPAL – Open Algorithms for better decisions[3] – pretende liberar el potencial de los datos privados para el bienestar público. Tiene como objetivo servir como un facilitador de confianza para liberar el potencial de los datos recolectados por organizaciones privadas, trayendo el código a los datos a través de algoritmos abiertos y sistemas tecnológicos y de gobernanza seguros y justos, para mejorar las decisiones que apoyen los objetivos de desarrollo sostenible en el mundo. El poder desatado por los datos y su tratamiento ha hecho que la manera de aproximarse a datos y algoritmos, con la ayuda de la inteligencia artificial y —más en concreto— del aprendizaje automático (machine learning), haya pasado de una primera intención analítica (usar algoritmos para entender qué dicen los datos) a una intención predictiva (anticipar) y, finalmente, a una acción claramente prescriptiva (orientar la conducta de millones de personas mediante lo que se ha averiguado de ellas y de su contexto, utilizando para ello modelos predictivos y clasificatorios). Esto está causando en ocasiones el abuso de poder y la asimetría de capacidades de captación de datos, de su tratamiento, interpretación y decisión. Un punto común a las diversas variantes de este consenso es la exigencia de transparencia. La transparencia de datos y de algoritmos[4] implica la capacidad de saber qué datos se utilizan, cómo se utilizan, quiénes los utilizan, para qué los utilizan y cómo se llega a partir de los datos a tomar las decisiones que afectan a la esfera vital de quien reclama esta transparencia. En conclusión, datos más democráticos tienen que estar ligados a algoritmos (procesos) de análisis más transparentes, que permitan la explicación de las conclusiones generadas.

Finalmente, quiero cerrar este artículo mencionando otra temática de candente actualidad y que está generando mucha controversia, ya que puede amenazar un “uso democrático de los datos personales”: la introducción de aplicaciones por los gobiernos para rastrear los contactos sociales[5], con el objeto de hacer frente a la pandemia del coronavirus. La idea de estas aplicaciones es recabar y poner a disposición de las autoridades sanitarias en todo el mundo, datos de movilidad y de contactos entre individuos que permitan hacer un mejor seguimiento y predicción de las infecciones de COVID-19. China, Taiwán y Corea del Sur están ya usando este tipo de aplicativos. Sin embargo, estos aplicativos plantean serias dudas acerca de la privacidad de la información de los usuarios, algo que Apple y Google, proveedores conjuntos de una interfaz programática (API) para facilitar el desarrollo de tales aplicaciones móviles en dispositivos iOS o Android, dicen haber sido capaces de mitigar mediante el uso de Bluetooth y el carácter “voluntario” de los programas. Ante esta tesitura, muchos centros de investigación internacionales están reclamando la instauración de soluciones basadas en blockchain (totalmente descentralizadas, sin control central gubernamental) que garanticen la privacidad de los usuarios, les permitan ser conscientes de cuándo han entrado en contacto con infectados y deban por tanto guardar cuarentena, pero al mismo tiempo impidan que se tomen medidas sancionadoras contra ellos. Las soluciones basadas en blockchain pueden resolver los acuciantes problemas relativos a la soberanía y gobernanza de nuestros propios datos personales.

Como vemos la “democratización de los datos” puede ser observada desde diferentes prismas y es indudablemente multiespectral. No obstante, es innegable su relevancia e importancia en nuestra cotidianeidad, para poder ayudar a través de soluciones digitales a resolver los desafíos a los que nos enfrentamos día a día.

[1] www.semantics3.com/blog/thoughts-on-the-gigo-principle-in-machine-learning-4fbd3af43dc4/

[2] www.nature.com/articles/sdata201618

[3] www.opalproject.org

[4] bid.ub.edu/es/41/sanguesa.htm

[5] www.20minutos.es/noticia/4246904/0/apple-y-google-revelan-como-seran-las-aplicaciones-para-rastrear-en-el-movil-contactos-con-covid-19/

Imagen: Jan Alexander, Pixabay

La afectación del sistema nervioso por el covid-19