Big Data

¿Qué es el big data?

El “big data” o macrodatos son también datos, pero que involucran cantidades mucho más grandes de los que usualmente pueden manejarse con una computadora personal o una base de datos tradicional. No son inmensos sólo en volumen, sino que además crecen exponencialmente con el tiempo. Son tan grandes y complejos que ninguna de las herramientas tradicionales de manejo de datos puede almacenarlos o procesarlos eficientemente. Si tiene una cantidad de datos a la cual puede procesar en su computadora o la base de datos de su servidor acostumbrado sin que se cuelguen, entonces probablemente no está trabajando con “big data”.

¿Cómo funciona el big data?

El campo del big data fue evolucionado a medida que la capacidad de la tecnología para captar constantemente información se disparaba. Usualmente se los capta en tiempo real y sin que ningún ser humano los ingrese a una base de datos: en otras palabras, son captados “pasivamente” por dispositivos digitales.

La internet brinda oportunidades infinitas para recoger información, que va de la llamada metainformación o metadatos (ubicación geográfica, dirección de IP, hora, etc.) a información más detallada acerca del comportamiento de los usuarios. Ésta a menudo proviene de medios sociales en línea o del comportamiento de compras con tarjetas de crédito. Las cookies son una de las principales formas en que los navegadores de internet pueden recoger información acerca de los usuarios: son esencialmente pequeños pedazos de datos guardados en ellos, o pequeños retazos de memoria acerca de algo que ha hecho en una página. (Para mayor información sobre las cookies visite este recurso).

También se pueden armar conjuntos de datos a partir de la Internet de las cosas, lo que involucra sensores conectados a otros dispositivos y redes. Por ejemplo, los semáforos equipados con sensores pueden recoger información del tráfico que luego se analizará para optimizar su flujo. La recolección de datos a través de sensores es un elemento común de la infraestructura de una ciudad inteligente.

*Trabajadoras del cuidado de salud en Indonesia. El uso del big data puede mejorar los sistemas de salud e informar sus políticas públicas. Crédito de la fotografía: cortesía de USAID EMAS.*

El big data puede también constar de datos médicos o científicos como la información del ADN, u otra relacionada con brotes epidémicos. Esto podría ser útil para las organizaciones humanitarias y de desarrollo. Por ejemplo, para entender mejor la enfermedad y predecir futuros brotes, UNICEF combinó datos provenientes de varias fuentes durante el brote del ébola en África occidental entre 2014 y 2016, entre ellos cálculos demográficos, información sobre viajes aéreos, cálculos de movilidad regional a partir de registros de teléfonos celulares y los lugares etiquetados en las redes sociales, datos sobre la temperatura, y los datos de casos de los informes de la OMS.

El big data es creado y usado por diversos actores. En las sociedades movidas por datos, se alienta a la mayoría de los actores (el sector privado, los gobiernos y otras organizaciones) a que recojan y analicen datos para observar patrones y tendencias, midan el éxito o el fracaso, optimicen sus procesos en pos de la eficiencia, etc. No todos los actores crearán ellos mismos los conjuntos de datos; a menudo recogerán datos públicamente disponibles o incluso se los comprarán a compañías especializadas. Por ejemplo, en la industria de la publicidad, los brókers de información (data brokers) se especializan en recolectar y procesar información acerca de los usuarios de internet, la que luego venden a los publicistas. Otros actores crearán sus propios conjuntos de datos, como las compañías eléctricas, ferroviarias o de vehículos compartidos, y los gobiernos. Los datos están en todos lados y son numerosos los actores capaces de recogerlos inteligentemente y analizarlos.

Inicio

¿De qué modo es relevante el big data para el espacio cívico y la democracia?

En Tanzania, una plataforma de código abierto permite al gobierno y las instituciones financieras registrar todas las transacciones de tierra y crear un conjunto de datos completo. Crédito de la fotografía: Riaz Jahanpour para USAID / Digital Development Communications.

Los analistas están encontrando formas de convertir el big data en un valioso recurso para la planificación y toma de decisiones, desde predecir elecciones presidenciales hasta ayudar a los pequeños agricultores a enfrentar el cambio climático o predecir brotes epidémicos. El big data es capaz de darle a la sociedad civil poderosas percepciones y la capacidad para compartir información vital. Las herramientas del big data han sido aplicadas recientemente en el espacio cívico en varias formas interesantes, por ejemplo para:

monitorear elecciones y apoyar a gobiernos abiertos (comenzando en Kenia con Ushahidi en 2008)
monitorear epidemias como el ébola en Sierra Leona y otros países del África occidental
seguir las muertes relacionadas con conflictos en todo el mundo
entender el impacto de los sistemas de ID sobre los refugiados en Italia
medir y predecir el éxito y la distribución agrícolas en Latinoamérica
avanzar en nuevos descubrimientos en genética y el tratamiento del cáncer
usar los sistemas de información geográfica (aplicaciones de mapeo de SIG) en una serie de contextos, entre ellos la planificación del crecimiento urbano y la sostenibilidad del flujo de tráfico, tal como lo hiciera el Banco Mundial en diversos países de Asia del Sur y Oriental, África y el Caribe

El uso del big data que se recoge, procesa y analiza para mejorar los sistemas de salud o la sostenibilidad ambiental, por ejemplo, puede en definitiva beneficiar enormemente a las personas y a la sociedad. Varias preocupaciones y advertencias han surgido, sin embargo, con respecto a su uso. Priman las preocupaciones por la privacidad y la seguridad puesto que el big data a menudo se capta sin que seamos conscientes y se le usa en formas a las cuales podríamos no haber consentido, y a veces se le vende varias veces a través de una cadena de distintas compañías con las cuales jamás hemos interactuado, exponiendo así los datos a riesgos de seguridad tales como su filtración. Es crucial que tengamos en cuenta que los datos anónimos pueden también usarse para “reidentificar” a las personas representadas en el conjunto de datos —se alcanza un 85% de exactitud usando apenas el código postal, el género y la fecha de nacimiento—, lo que posiblemente los pone en riesgo (véase más adelante el examen de la “reidentificación”).

Hay también poderosos desequilibrios (divisorias) entre quiénes están representados en los datos y quiénes tienen el poder para usarlos. Los que logran extraer valor al big data son a menudo grandes compañías u otros actores que cuentan con los medios financieros y la capacidad para recoger (a veces comprar), analizar y entender los datos.

Esto quiere decir que las personas y grupos cuya información es colocada en los conjuntos de datos (compradores cuyos datos de su tarjeta de crédito son procesados, usuarios de internet cuyos clics quedan registrados en una página web) en general no se benefician con los datos que han dado. Por ejemplo, los que se refieren a qué artículos adquieren los compradores en una tienda, se usan muy probablemente para maximizar las utilidades antes que para ayudarles con sus decisiones de compra. La forma extractiva en que los datos son tomados de comportamientos individuales y usados para lucrar ha sido llamada “capitalismo de vigilancia“, y hay quienes piensan que está minando la autonomía personal y erosionando la democracia.

Debemos también considerar la calidad de los conjuntos de datos, puesto que quienes los usan podrían no saber dónde o cómo fueron recogidos, procesados o integrados con otros datos. Y cuando el big data se guarda y transmite, las preocupaciones de seguridad se multiplican debido al creciente número de máquinas, servicios y socios involucrados. Es asimismo importante tener en cuenta que los grandes conjuntos de datos no son en sí mismos inherentemente útiles, pero lo son conjuntamente con la capacidad para analizarlos y extraer información de ellos empleando avanzados algoritmos, modelos estadísticos, etc.

Por último pero no menos importante, es que hay cruciales consideraciones a tener en cuenta con respecto a la protección de los derechos fundamentales de aquellos cuya información aparece en los conjuntos de datos. La información sensible, que permite o podría permitir identificar personas, podría ser utilizada por otras partes o con otros fines fuera de los deseados, en detrimento de las personas involucradas. Esto se explora a continuación en la sección Riesgos, así como en los restantes manuales.

Protegiendo el anonimato de quienes figuran en el conjunto de datos

Todo aquel que haya investigado en las ciencias sociales o médicas debiera estar familiarizado con la idea de que cuando se recogen datos sobre sujetos humanos, es importante proteger su identidad para que así no enfrenten consecuencias negativas por haber estado involucrados con la investigación, como por ejemplo que se sepa que tienen una enfermedad particular, que votaron de tal o cual modo, que participan de un comportamiento estigmatizado, etc. (Véase el recurso Protección de los datos). Las formas tradicionales de proteger la identidad —retirando cierta información identificadora, o sólo reportando estadísticas agregadas— pueden y debieran también usarse cuando se manejan los grandes conjuntos de datos para así ayudar a proteger a quienes figuran en ellos. También pueden esconderse los datos de múltiples modos para proteger la privacidad: los métodos incluyen la encriptación (codificación), tokenización y el enmascaramiento de los datos. Talend identificó las fortalezas y las debilidades de las estrategias primarias con que esconder los datos usando estos métodos.

La posibilidad de que se dé la reidentificación es uno de los más grandes peligros involucrados en el uso de grandes conjuntos de datos: establecer la identidad real de las personas en el conjunto, incluso cuando su información personal ha sido escondida o retirada. Para dar una idea de cuán fácil sería identificar a las personas en un gran conjunto de datos, un estudio halló que usando apenas tres campos de información —el código postal, el género y la fecha de nacimiento— se podía identificar al 87% de los estadounidenses individualmente, y luego conectar su identidad a bases de datos públicamente disponibles que contienen historiales médicos. Con más puntos de datos, los investigadores demostraron la capacidad casi perfecta de identificar a las personas de un conjunto: con cuatro piezas aleatorias de los datos en los registros de las tarjetas de crédito se podría alcanzar una tasa de identificación de casi 90%, y los investigadores lograron identificar personas con 99.98% de precisión usando 15 puntos de datos.

Diez reglas simples para la investigación responsable de big data, tomadas de un paper del mismo nombre de Zook, Barocas, Boyd, Crawford, Keller, Gangadharan, et al, 2017

Reconozca que los datos son personas y que pueden hacer daño. La mayoría de los datos representan a personas o las afectan. Simplemente partir del supuesto de que todos los datos son personas hasta que se demuestre lo contrario, pone en primer plano la dificultad que hay para disociar los datos de personas específicas.
Reconozca que la privacidad es algo más que un valor binario. La privacidad podría ser más o menos importante para las personas a medida que pasan por distintos contextos y situaciones. Ver los datos en bruto de alguien podría tener distintas implicaciones para su privacidad que si vemos un solo registro. La privacidad podría ser importante para grupos de personas (digamos, por sector demográfico) así como para particulares.
Cuide la reidentificación de sus datos. Sea consciente de que datos al parecer inocuos e inesperados, como el uso de la batería del celular, podrían usarse para reidentificarlos. Planee para asegurarse de que la forma en que comparte y reporta los datos reduce el riesgo de que las personas puedan ser identificadas.
Practique un compartir datos que sea ético. Podría haber ocasiones en que los participantes en su conjunto de datos esperan que usted los comparta (por ejemplo, con otros investigadores médicos que buscan una cura), y otros en que confían en que no lo haga. Sea consciente de que otros datos identificadores de sus participantes podrían ser recogidos, vendidos o compartidos en otro lugar, y que combinarlos con los suyos podría identificarlos individualmente. Tenga claro cómo y cuándo compartirá los datos y sea responsable por la protección de la privacidad de las personas cuyos datos recoge.
Tenga en cuenta las fortalezas y limitaciones de sus datos; grande no quiere decir mejor automáticamente. Entienda de dónde viene su gran conjunto de datos y cómo podría evolucionar en el tiempo. No sobreestime sus hallazgos y reconozca que podrían ser desordenados o tener significados múltiples.
Debata las duras opciones éticas. Hable con sus colegas acerca de estas preocupaciones éticas. Siga el trabajo de organizaciones profesionales para mantenerse al día con estos motivos de preocupación.
Diseñe un código de conducta para su organización, comunidad de investigadores o industria, e involucre a sus pares en su creación, para así asegurar la inclusión de perspectivas inesperadas o subrepresentadas.
Diseñe sus datos y sistemas para que sean auditables. Esto fortalece la calidad de su investigación y servicios, así como para dar una advertencia temprana de los usos problemáticos dados a los datos.
Aborde las consecuencias más amplias de los datos y las prácticas de análisis. Cuando planee su colección de big data, tenga en cuenta la igualdad social, el impacto medioambiental de su procesamiento y otros impactos que haya sobre toda la sociedad.
Sepa cuándo romper estas normas. Teniendo al debate, el código de conducta y la auditabilidad como guías, considere que en el caso de una emergencia de salud pública u otro desastre podría ser posible que haya razones para dejas las normas de lado.

Consiguiendo el consentimiento informado

Quienes proporcionan sus datos podrían no ser conscientes en ese entonces de que éstos podrían ser vendidos posteriormente a brókeres de información, quienes a su vez podrían luego revenderlos.

Infortunadamente, los formularios de consentimiento de privacidad de los datos son en general difíciles de leer para la persona media, incluso después de la ampliación de las salvaguardas de la privacidad tras el Reglamento General de Protección de Datos (GRPD ) Los términos y condiciones de uso (documentos de ToS) son tan notoriamente difíciles de leer, que un cineasta incluso hizo un documental sobre el tema. Los investigadores que han estudiado las políticas de los términos de servicio y privacidad hallaron que los usuarios por lo general los aceptan sin leer porque son demasiado largos y complejos. De otro lado, los que necesitan acceder a una plataforma o servicio por razones personales (por ejemplo, para mantenerse en contacto con un pariente) o para su subsistencia (para entregar sus productos a los consumidores) podrían no poder simplemente rechazar los ToS cuando no cuentan con una alternativa viable o inmediata.

Se viene efectuando un trabajo importante para intentar proteger a los usuarios de las plataformas y servicios de estos tipos de situaciones abusivas de compartir datos. Por ejemplo, el Usable Privacy and Security Laboratory de Carnegie Mellon (CUPS) ha diseñado mejores prácticas para informar a los usuarios acerca de cómo podrían usarse sus datos. Esto ha tomado la forma de
“etiquetas de nutrición” de privacidad de los datos similares a las etiquetas de nutrición alimenticia especificadas por la FDA, y que tienen como base las evidencias.

*En Chipata, Zambia, una vecina extrae agua de un pozo. El big data ofrece valiosa información para el diseño de soluciones al cambio climático. Crédito de la fotografía: Sandra Coburn.*

Inicio

Oportunidades

El big data puede tener impactos positivos cuando se usa para promover la democracia, los derechos humanos y los temas de gobernanza. Lea a continuación cómo aprender a pensar de modo más eficaz y seguro acerca del big data en su trabajo.

Mayor conocimiento

Los grandes conjuntos de datos presentan parte de la información más rica y exhaustiva con que se ha contado en toda la historia humana. Los investigadores que los usan tienen acceso a información de una población enorme. Esto puede ser mucho más útil y conveniente que los datos autorreportados o los que fueron recogidos por estudios observacionales de difícil logística. Un trade-off importante se da entre la riqueza del conocimiento ganado mediante datos autorreportados o recolectados con sumo cuidado, contra la capacidad para generalizar los conocimientos obtenidos a partir del big data. Este último, al que se recoge de las actividades en redes sociales o por sensores, podría también permitir la medición en tiempo real de una actividad a gran escala. Lo que se obtiene del big data es sumamente importante en el campo de la logística. Por ejemplo, el Servicio Postal de los Estados Unidos recoge datos de todas sus entregas de paquetes usando GPS y vastas redes de sensores y otros métodos de seguimiento, y luego los procesa con algoritmos especializados. Esto les permite optimizar sus entregas para la sostenibilidad medioambiental.

Mayor acceso a los datos

Hacer que los grandes conjuntos de datos sean públicamente disponibles podría comenzar a cerrar las brechas en el acceso a los datos. Fuera de algunos conjuntos de datos públicos, el big data usualmente termina siendo propiedad de corporaciones, universidades y otras grandes organizaciones. Aunque los datos producidos son acerca de personas individuales y su comunidad, dichas personas y comunidades podrían no tener el dinero o la capacidad técnica para acceder a ellos y hacer un uso productivo de los mismos. Esto genera el riesgo de que las brechas digitales empeoren.

Los datos públicamente disponibles han ayudado a las comunidades, entre otras cosas, a entender la corrupción gubernamental, asuntos municipales, abusos de los derechos humanos y crisis de salud, y actuar en conformidad a ello. Pero una vez más resulta particularmente importante asegurar, cuando los datos se hagan públicos, una sólida privacidad para aquellos cuyos datos figuran en el conjunto de datos. El trabajo del proyecto Our Data Bodies brinda una guía adicional sobre cómo tratar a las comunidades cuyos datos figuran en estos conjuntos. Los materiales de sus talleres podrían apoyar la comprensión y participación de la comunidad en la toma de decisiones éticas acerca de la recolección y procesamiento de datos, y de cómo monitorear y auditar las prácticas seguidas con ellos.

Inicio

Riesgos

El uso de tecnologías emergentes para recoger datos también puede crear riesgos en los programas de la sociedad civil. Lea a continuación cómo discernir los posibles peligros asociados con la recolección del big data y su uso en el trabajo de DRG, así como de qué modos mitigar las consecuencias involuntarias y voluntarias.

Vigilancia

Dado el potencial para la reidentificación, así como la naturaleza y los objetivos de algunos usos dados al big data, corremos el riesgo de que las personas incluidas en un conjunto de datos sean sometidas a vigilancia por los gobiernos, los cuerpos policiales o las corporaciones. Esto podría poner en peligro los derechos fundamentales y la seguridad de quienes figuran en el conjunto de datos.

El gobierno chino es criticado constantemente por la vigilancia invasiva de sus ciudadanos mediante la recolección y procesamiento del big data. Más específicamente se le ha criticado por su sistema de ranking social de los ciudadanos sobre la base de sus redes sociales, datos de compras y educativos, así como por la recolección recolección revelaciones aque Edward Snowden hiciera acerca de la recolección y uso de datos de redes sociales y otros más por parte de la Agencia de Seguridad Nacional de los EE.UU., fue una de las primeras advertencias públicas acerca del potencial que el big data tiene para la vigilancia. También son motivo de preocupación las sociedades involucradas en el desarrollo del sistema de ID biométrico de la India, una tecnología cuyos productores están ansiosos por venderla a otros países. En los Estados Unidos, los defensores de la privacidad han manifestado su preocupación por las compañías y gobiernos que adquieren datos a escala acerca de los estudiantes usando los dispositivos que sus centros educativos les dan, preocupación esta que también debiera ser planteada en cualquier contexto internacional en que se dan laptops o celulares a los alumnos.

Debemos enfatizar que la preocupación por la vigilancia no queda limitada a las instituciones que originalmente recogieron los datos, trátese de gobiernos o de corporaciones. Es posible, cuando los datos son vendidos o combinados con otros conjuntos de datos, que otros actores, desde estafadores por correo electrónico a parejas abusivas, accedan a los datos y sigan, exploten o dañen de algún otro modo a las personas que figuran en el conjunto de datos.

Preocupación por la seguridad de los datos

El big data presenta retos significativos para la seguridad porque se le recoge, limpia y combina a través de largos y complejos pipelines de software y almacenaje. Estos retos se multiplican cada vez que los datos son compartidos entre muchas organizaciones. Todo flujo de datos que llega en tiempo real (por ejemplo, información acerca de personas que ingresan a un hospital) necesitará ser protegido específicamente de su manipulación, alteración o vigilancia. Es importante asegurarse de que se destinen suficientes recursos a la seguridad, puesto que los datos pueden constituir un riesgo significativo para la privacidad y la seguridad de quienes están incluidos en estos conjuntos, y son sumamente valiosos para los delincuentes.

Las herramientas de seguridad existentes para páginas web no bastan para cubrir todo el pipeline del big data. Se necesitan grandes inversiones en personal e infraestructura para brindar una cobertura de seguridad apropiada y responder a las filtraciones de datos. E infortunadamente en la industria faltan los especialistas en big data, en particular el personal de seguridad familiarizado con los retos singulares que éste presenta. Los sensores de la Internet de las cosas constituyen un riesgo particular cuando forman parte de un pipeline de recolección de datos; estos dispositivos son notorios por contar con seguridad deficiente. Por ejemplo, un actor malicioso podría fácilmente introducir sensores falsos en la red, o rellenar el pipeline de recolección con datos basura para así hacer que su recolección de datos sea inútil.

Expectativas exageradas de precisión y objetividad

Las compañías de big data y sus promotores a menudo afirman que éste puede ser más objetivo o preciso que los datos reunidos de modo tradicional, supuestamente porque el juicio humano no interviene y porque la escala a la cual se le reúne es más rica. Este cuadro resta importancia al hecho que los algoritmos y el código informático también aplica el juicio humano a los datos, lo que incluye sesgos y datos que podrían ser excluidos accidentalmente. Además, la interpretación humana es siempre necesaria para encontrarle el sentido a los patrones del big data, de modo tal que las pretensiones de objetividad debieran, una vez más, tomarse con un saludable escepticismo.

Para evitar caer en la trampa de asumir que el big data es “mejor”, es importante que hagamos preguntas acerca de los métodos de recolección de datos, los algoritmos involucrados en el procesamiento y los supuestos o inferencias de los recolectores/programadores de los datos y sus análisis. Por ejemplo, los datos acerca de la cercanía de dos teléfonos celulares le dicen que dos personas estuvieron cerca la una de la otra, pero sólo la interpretación humana podría decirle por qué razón lo estaban. La forma en que un analista interpreta dicha cercanía podría diferir de lo que las personas que tienen los celulares podrían decirle. Por ejemplo, este es un gran reto cuando usamos los teléfonos para “rastrear contactos” en epidemiología. Durante la crisis sanitaria del COVID-19, fueron muchos los países que se apresuraron en construir apps para celulares que rastrearan los contactos. Sus fines y funcionamiento precisos varían ampliamente (al igual que su efectividad), pero vale la pena indicar que las principales empresas tecnológicas prefirieron referirse a ellas como apps para “notificar el riesgo de exposición” antes que como de rastreo de contactos: esto se debe a que sólo pueden decir si se ha estado cerca de alguien con coronavirus, no si se lo ha contraído o no.

Malinterpretación

Hay dificultades a la hora de interpretar y extraer conclusiones, al igual que sucede con todos los datos. Dado que el big data a menudo es captado y analizado en tiempo real, podría ser particularmente débil al proporcionar el contexto histórico de los patrones actuales que está resaltando. Todo aquel que analice big data debiera asimismo considerar cuál o cuáles fueron sus fuentes, si los datos fueron combinados con otros conjuntos de datos, y cómo se les limpió. La limpieza se refiere al proceso de corregir o retirar los datos imprecisos o que no son pertinentes. Esto es de particular importancia en el caso de los datos de las redes sociales, que pueden tener un montón de “ruido” (información extra), y que por ende casi siempre son limpiados.

Inicio

Preguntas

Hágase estas preguntas si está intentando entender las implicaciones que el big data tiene en su entorno laboral, o si está considerando algunos de sus aspectos como parte de su programación de DRG:

¿Recoger big data es el enfoque correcto para la pregunta que está intentando responder? ¿Cómo podría su pregunta responderse de distinto modo usando entrevistas, estudios históricos o concentrándose más bien en la significación estadística?
¿Ya cuenta con estos datos o son éstos accesibles públicamente? ¿Es realmente necesario que los adquiera por su cuenta?
¿Cuál es su plan para hacer que resulte imposible identificar a las personas mediante sus datos en el conjunto de datos? Si éstos provienen de otra fuente, ¿qué tipo de desanonimización ha efectuado ya?
¿Cómo podría alguien hacer más para que las personas sean más identificables cuando usted publique sus datos y hallazgos? ¿Qué pasos puede tomar para reducir el riesgo de que sean identificados?
¿Cuál es su plan para conseguir el consentimiento de aquellos cuyos datos está recogiendo? ¿Cómo hará para asegurarse de que su documento de consentimiento les sea fácil de entender?
Si sus datos provienen de otra organización, ¿cómo buscó ésta el consentimiento? ¿Dicho consentimiento incluía el que otras organizaciones pudieran usar los datos?
Si está recibiendo los datos de alguna otra organización, ¿cuál fue su fuente? ¿Quién los recogió y qué estaban intentando lograr?
¿Qué sabe de la calidad de estos datos? ¿Alguien los está inspeccionando en busca de errores? De ser así, ¿cómo? ¿Las herramientas de recolección fallaron en algún punto, o sospecha acaso que podría haber algunas imprecisiones o errores?
¿Estos datos han sido integrados con otros conjuntos de datos? Si se usaron datos para llenar vacíos, ¿cómo se logró esto?
¿Cuál es el plan de seguridad de principio a fin para los datos que está captando o usando? ¿Está involucrado algún tercero cuyas propuestas de seguridad deba entender?

Inicio

Estudios de caso

Habitante de aldea en Tanzania. La analítica del big data puede precisar estrategias que funcionan con pequeños agricultores. Crédito de la fotografía: Riaz Jahanpour para USAID / Digital Development Communications.

Big Data para la agricultura climáticamente inteligente

Big Data para la agricultura climáticamente inteligente

“Los científicos del Centro Internacional de Agricultura Tropical (CIAT) han aplicado herramientas de big data para precisar estrategias que funcionen con pequeños agricultores en un clima cambiante…. Los investigadores aplicaron analítica del big data a los registros agrícolas y del clima en Colombia, revelando así de qué modo su variación impacta en el rendimiento del arroz. Estos análisis identifican las variedades de arroz más productivas y el momento de la siembra para lugares específicos y predicciones estacionales. Las recomendaciones podrían potencialmente elevar el rendimiento de 1 a 3 toneladas por hectárea. Las herramientas funcionan dondequiera que se cuente con los datos, y actualmente vienen siendo ampliadas en Colombia, Argentina, Nicaragua, Perú y Uruguay”.

Dispositivos entregados por centros educativos y privacidad de los alumnos

Dispositivos entregados por centros educativos y privacidad de los alumnos, en particular las Mejores Prácticas para la sección de compañías de tecnología educativa.

“Los alumnos vienen usando tecnología en el aula a un ritmo sin precedentes…. Las laptops de los alumnos y los servicios educativos a menudo están disponibles a precios fuertemente reducidos, y a veces son incluso gratuitas. Vienen, sin embargo, con costos reales y preguntas éticas no resueltas. A lo largo de la investigación efectuada por EFF durante los últimos dos años, hallaron que los servicios tecnológicos educativos a menudo recogen mucha más información sobre los niños de lo necesario, y que la guardan por tiempo indefinido. Esta información con implicaciones para la privacidad va más allá de la información personalmente identificable (PII), como el nombre y la fecha de nacimiento, y puede incluir el historial y los términos de búsqueda, los datos de ubicación, las listas de contacto e información conductual… Todo esto a menudo sucede sin el conocimiento o el consentimiento de los alumnos y su familia”.

El big data y las ciudades florecientes: innovaciones en la analítica para construir espacios urbanos sostenibles, resilientes, equitativos y vivibles.

El big data y las ciudades florecientes: innovaciones en la analítica para construir espacios urbanos sostenibles, resilientes, equitativos y vivibles.

Este paper incluye estudios de caso de big data usado para seguir cambios en la urbanización, la congestión del tráfico y el crimen en las ciudades. “[L]a aplicación innovadora de tecnologías geoespaciales y de sensores, así como la penetración de la tecnología telefónica móvil están proporcionando una recolección de datos sin precedentes. Estos datos pueden ser analizados para muchos fines, entre ellos hacer un seguimiento de la población y la movilidad, las inversiones del sector privado y la transparencia de los gobiernos federal y local”.

Combatiendo el ébola en Sierra Leona: compartir datos para mejorar la respuesta a la crisis.

Combatiendo el ébola en Sierra Leona: compartir datos para mejorar la respuesta a la crisis.

“Los datos y la información tienen un papel importante que desempeñar en la lucha no sólo contra el ébola, sino más en general contra una variedad de crisis natural u obra del hombre. Sin embargo, para maximizar dicho potencial es esencial fomentar el lado de la oferta de las iniciativas de datos abiertos, esto es, asegurar la disponibilidad de suficiente información de alta calidad. Esto podría resultar particularmente difícil cuando no hay una política clara que empuje a los actores a cumplir y que fije estándares claros de la calidad y el formato de los datos. Las etapas iniciales de los esfuerzos por tener datos abiertos pueden resultar caóticas y a veces redundantes, en particular durante una crisis. Aunque difícil en tiempos de crisis, mejorar la coordinación entre múltiples actores que trabajan hacia metas similares podría ayudar a reducir la redundancia y conducir a esfuerzos que son más grandes que la suma de sus partes.

Rastreando las muertes relacionadas con conflictos: un panorama preliminar de los sistemas de monitoreo.

Rastreando las muertes relacionadas con conflictos: un panorama preliminar de los sistemas de monitoreo.

“En el marco de la Agenda para el Desarrollo Sostenible 2030 de las Naciones Unidas, los Estados se han comprometido a hacer el seguimiento del número de personas muertas en conflictos armados y a desagregar los datos por sexo, edad y causa, siguiendo el Indicador 16 de los Objetivos de Desarrollo Sostenible (ODS). No hay, sin embargo, ningún consenso internacional en las definiciones, métodos o estándares a usar en la generación de los datos. Es más, los sistemas de monitoreo manejados por las organizaciones internacionales y la sociedad civil difieren en lo que respecta a su cobertura temática, concentración geográfica y nivel de desagregación”.

Equilibrando la utilidad de los datos con la confidencialidad en el censo de los EE.UU.

Balancing data utility and confidentiality in the US census (Equilibrando la utilidad de los datos con la confidencialidad en el censo de los EE.UU.)

Describe cómo el censo está usando una privacidad diferencial para proteger los datos de los encuestados. “A medida que la Oficina del Censo se prepara para enumerar la población de los Estados Unidos en 2020, su dirección ha anunciado que efectuará cambios significativos en los cuadros estadísticos que la oficina piensa publicar. Dados los adelantos en la ciencia de la computación y la amplia disponibilidad de datos comerciales, las técnicas que la oficina ha empleado históricamente para proteger la confidencialidad de puntos de datos individuales ya no pueden resistir a los nuevos enfoques de reconstrucción y reidentificación de datos confidenciales. … [L]as investigaciones llevadas a cabo por la Oficina del Censo han mostrado que ahora es posible reconstruir información y reidentificar a un número considerable de personas a partir de cuadros estadísticos públicamente disponibles. Las viejas protecciones de la privacidad de los datos simplemente ya no funcionan. Por ende, la dirección de la Oficina del Censo ha aceptado que no puede conservar su actual método y esperará a 2030 para efectuar cambios; ha decidido invertir en un nuevo enfoque para garantizar la privacidad, que transformará significativamente la forma en que la oficina produce estadísticas”.

Inicio

Referencias

A continuación aparecen las referencias citadas en este recurso.

Andrejevic, Mark, (2014). The Big Data Divide. International Journal of Communication 8, pp. 1673–1689.
Bhatt, Vikas, (2020). The Significance of Data Cleansing In Big Data. Aithority.
Center for Tropical Agriculture (CIAT), (2015). Big data for climate-smart agriculture. CGIAR/CCAFS.
Cylab Usable Privacy and Security Laboratory (CUPS), (n.d.). Privacy Nutrition Labels. Carnegie Mellon University.
Gebhart, Gennie, (2017). Spying on Students: School-Issued Devices and Student Privacy. Electronic Frontier Foundation (EFF).
Gellman, Barton, (2020). Inside the NSA’s Secret Tool for Mapping Your Social Network. Wired.
Grauer, Yael, (2018). What Are ‘Data Brokers,’ and Why Are They Scooping Up Information About You?
Hvistendahl, Mara, (2017). Inside China’s Vast New Experiment in Social Ranking. Wired.
Laidler, John, (2019). High tech is watching you. The Harvard Gazette.
Lomas, Natasha, (2019). Researchers spotlight the lie of ‘anonymous’ data. Tech Crunch.
Montjoye, Yves-Alexandre, et al., (2015). Unique in the shopping mall: On the reidentifiability of credit card metadata. Science 347(6221), pp. 536-539.
Panday, Jyoti, (2018). Can India’s Biometric Identity Program Aadhaar Be Fixed? Electronic Frontier Foundation (EFF).
Sweeney, Latanya, (2002). k-Anonymity: A model for protecting privacy. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 10 (.5)
Talend, (n.d.). What is Data Obfuscation?
The World Bank. (2017). Big data and thriving cities.
Wlosik, Michal & Michael Sweeney, (n.d.). What’s the Difference Between First-Party and Third-Party Cookies?
Zook, Matthew, et al., (2017).Ten simple rules for responsible big data research. PLOS Computational Biology.

Recursos adicionales

Barocas, Solon et al. (2014). Data and civil rights technology primer. Data & Society.
Berman, Gabrielle et al. (2018). Ethical considerations when using geospatial technologies for evidence generation. UNICEF: las tecnologías geoespaciales han transformado la forma en que visualizamos y entendemos los fenómenos sociales y los entornos físicos. Este documento examina los beneficios, riesgos y consideraciones éticas cuando se generan evidencias usando tecnologías geoespaciales.
Boyd, Danah & Kate Crawford. (2011). Six Provocations for Big Data.
Boyd, Danah, Keller, Emily F. & Bonnie Tijerina. (2016). Supporting Ethical Data Research: An Exploratory Study of Emerging Issues in Big Data and Technical Research. Data & Society: incluye un examen del consentimiento informado y el almacenaje seguro de los datos.
Cranor, Lorrie. (2012). Necessary But Not Sufficient: Standardized Mechanisms for Privacy Notice and Choice: este estudio brinda un panorama de los problemas de las políticas de privacidad existentes tal como fueron presentadas a los usuarios, revisa las ideas detrás de la notificación, la opción y el empoderamiento de los usuarios como mecanismos de protección de la privacidad, y sugiere direcciones para mejoras.
Cyphers, Bennett & Gennie Gebhart. (2019). Behind the One-Way Mirror: A Deep Dive into the Technology of Corporate Surveillance. EFF: antecedentes de cómo es que las corporaciones recogen nuestros datos, los combinan con otros conjuntos y se los venden mutuamente.
Data and Society: : “manuales” sobre datos y derechos civiles en distintas áreas temáticas como Finanzas del consumidor, Justicia criminal, Educación, Empleo, Salud y Vivienda.
Data Privacy Project: incluye recursos con que apoyar a bibliotecarios, educadores y miembros de la comunidad para que comprendan cómo es que sus datos se usan y transfieren.
Garfinkle, Simson. (2015). NIST guidance on de-identification of personal information.
Garfinkle, Simson. (2016). NIST guidance on de-identifying government data sets.
Global Health Sites Mapping Project: Health Sites es una iniciativa para construir un open data commons de datos sobre instalaciones de salud con OpenStreetMap.
GSM Association. (2014). GSMA guidelines on the protection of privacy in the use of mobile phone data for responding to the Ebola outbreak: este documento esboza, en términos generales, los estándares de privacidad que los operadores de telefonía móvil aplicarán cuando se usen los datos de los celulares de los suscriptores, en estas circunstancias excepcionales, para responder al brote del ébola.
Humanitarian Data Exchange: encuentre, comparta y use datos humanitarios en un solo lugar, accionado por UNOCHA.
Humanitarian Tracker’s reports sobre el uso de grandes conjuntos de datos para seguir los abusos de los derechos humanos y mapear crisis.
Marr, Bernard. (2015). A brief history of data. World Economic Forum.
Metcalf, Jacob. (2016). Big Data Analytics and Revision of the Common Rule. Communications of the Association for Computing Machinery 59(7): contiene una guía acerca de la evolución de los estándares éticos para el estudio de sujetos humanos, a la luz de las preocupaciones provocadas por el big data.
(2013). Public bodies regularly releasing personal information by accident in Excel files. mySociety: cuando los funcionarios de los organismos públicos sueltan información por la FOI que creen haber anonimizado, importan información personalmente identificable y se hace un intento de resumirla de modo anónimo, a menudo usando tablas dinámicas o cuadros.
Nugroho, Rininita Putri et al. (2015). A comparison of national open data policies: Lessons learned. Transforming Government, 9(3): brinda un exhaustivo marco comparativo transnacional con que comparar políticas de datos abiertos de distintos países y derivar lecciones para el diseño de dichas políticas.
Onuoha, Mimi. (2017). What it takes to truly delete data. FiveThirtyEight.
Open Data Institute. (2018). Guide to Open Data Standards: los estándares abiertos para los datos son acuerdos reutilizables que facilitan a la gente y las organizaciones el publicar, acceder, compartir y usar datos de mejor calidad. Esta guía ayuda a la gente y a las organizaciones a crear, diseñar y adoptar estándares abiertos para los datos.
Our Data Bodies: proyecto que incluye materiales y actividades con que hablar con las comunidades acerca de cómo se usan sus datos, y estudios de caso de su trabajo.
Responsible Data Project: un foro comunitario “para que quienes usan datos en el cambio y la promoción social diseñen enfoques prácticos con los cuales abordar los retos éticos, legales, sociales y relacionados con la privacidad a los que se enfrentan. [Ellos] identifican las consecuencias involuntarias del uso de datos en este tipo de trabajo, y juntan a la gente para crear soluciones”. El proyecto brinda una lista de recursos para quienes buscan hacer un uso responsable del big data y cuenta con una lista de correos.
Technology Association of Grantmakers. (2019). Cybersecurity Essentials for Philanthropy Series: busca reducir el riesgo de su organización con prácticas y sugerencias compartidas por organizaciones filantrópicas de toda Norteamérica.
The Electronic Frontier Foundation’s Who Has Your Face: una herramienta que mantiene un registro de las organizaciones gubernamentales estadounidenses que tienen fotos de rostros.
UN Global Pulse: la organización de big data de la ONU.
(2019). Center for Humanitarian Data – Data Responsibility Guidelines: ofrece una serie de principios, procesos y herramientas que apoyan el manejo seguro, ético y efectivo de los datos en las respuestas humanitarias.
(2019). Guidance Note: Data Incident Management: sin un lenguaje compartido y un claro enfoque con que abordar el manejo de los incidentes de datos, las organizaciones humanitarias corren el riesgo de exacerbar vulnerabilidades ya existentes así como crear otras nuevas, lo cual podría generar efectos adversos para los pueblos afectados así como para los cooperantes. Esta Guidance Note ayuda a abordar estos vacíos en la comprensión y la práctica.
(2019). Guidance Note: Statistical Disclosure Control: además de un panorama de qué es SDC y qué herramientas están disponibles, esta Guidance Note esboza cómo es que el Centro viene usando este proceso para mitigar los riesgos de los conjuntos de datos compartidos en HDX (la plataforma abierta de OCAH-ONU, Intercambio de Datos Humanitarios).
Ur, Blase & Yang Wang. (2013). A Cross-Cultural Framework for Protecting User Privacy in Online Social Media.
Usable Privacy Project: una asociación de Carnegie Mellon y otras universidades que contiene buena información sobre prestar apoyo al consentimiento informado de los usuarios, lo que incluye lineamientos para presentaciones ejemplares de políticas de privacidad, “etiquetas de nutrición” de la privacidad de los datos, y un video que resume los problemas de las políticas de privacidad existentes.
 (2019). Considerations for Using Data Responsibly: ofrece al personal de USAID y los socios locales un marco para la identificación y comprensión de los riesgos asociados con los datos de desarrollo. Journey to Self-Reliance, de USAID, incluye el prestar apoyo a los países para que construyan su propia capacidad tecnológica y estén listos, asumiendo la propiedad de sus datos y el ser responsables por su seguridad.
Ushahidi’s blog posts, específicamente los que se refieren on big data.
Ward, Amy, Sample, Forster, Chantal & Karen Graham. (2019). Funder’s Guide: Supporting Cybersecurity with Non-Profit Partners and Grantees: esta guía responde dos preguntas: ¿cómo pueden las fundaciones apoyar mejor la ciberseguridad entre las organizaciones sin fines de lucro y los beneficiarios? ¿Y cuál es la responsabilidad que las agencias donantes tienen para la ciberseguridad del sector?