La anonimización de datos sensibles de los conjuntos de datos de investigación busca proteger los derechos y la privacidad de las personas, así como también preservar la integridad ética de la investigación. La exclusión de los datos garantiza que cierta información personal identificable no sea revelada, lo cual es esencial para dar cumplimiento a la Ley de Protección de Datos Personales (Ley 25.326).
Este proceso implica una evaluación previa de los conjuntos de datos de investigación por parte de los investigadores/as ya que de esa manera se podrán identificar aquella información sensible que integran los datos y aplicar las técnicas de anonimización adecuadas. Esto requiere que, en un primer lugar, el equipo de investigación conozca sus datos y los desidentifique, es decir eliminen todos aquellos identificadores directos que contienen información privada ya sean:
- Datos personales: Información de cualquier tipo referida a personas físicas o de existencia ideal determinadas o determinables.
- Datos sensibles: Datos personales que revelan origen racial y étnico, opiniones políticas, convicciones religiosas, filosóficas o morales, afiliación sindical e información referente a la salud o a la vida sexual.
Una vez identificados los datos deben aplicar las técnicas de anonimización adecuadas, calcular el riesgo de los datos de investigación ya modificados y finalmente, gestionar los riesgos de identificación y divulgación, puesto que los detalles del proceso de anonimización, los parámetros utilizados y los controles también deben registrarse claramente para futuras consultas. Cabe destacar que esta documentación debe conservarse de forma segura, ya que la revelación de los parámetros puede facilitar la reidentificación y la revelación de los datos anonimizados.
A continuación se describen algunas técnicas a tener en cuenta para el proceso de anonimización de los datos de investigación, así como también las herramientas más reconocidas para llevar adelante esta práctica.
Supresión
- Descripción: Eliminar completamente ciertos valores o registros que contienen información sensible.
- Ejemplo: Borrar nombres, direcciones o cualquier otro identificador directo de un conjunto de datos
Generalización
- Descripción: Sustituir valores específicos por rangos o categorías más amplias.
- Ejemplo: Convertir fechas de nacimiento exactas en rangos de edad. Por ejemplo 40-49 en lugar de 44.
Pseudonimización
- Descripción: Reemplazar identificadores directos con pseudónimos o códigos.
- Ejemplo: Sustituir nombres de personas por códigos únicos. Por ejemplo “ID123” en lugar de “Perez, Juan”.
Perturbación
- Descripción: Alterar ligeramente los valores de los datos para proteger la privacidad.
- Ejemplo: Añadir ruido aleatorio a los ingresos o edades.
Agregación
- Descripción: Combinar datos de varios individuos en grupos o categorías.
- Ejemplo: Reportar datos a nivel de grupo. Por ejemplo el promedio de ingresos por región en lugar de a nivel individual.
Microagregación
- Descripción: Agrupar valores similares y reemplazarlos por la media de esos grupos.
- Ejemplo: Agrupar edades cercanas y reemplazarlas por la media del grupo. Por ejemplo reemplazar edades 42, 43, y 44 con 44.
K-anonimato
- Descripción: Asegurar que cada registro no sea distinguible de al menos k-1 otros registros.
- Ejemplo: Modificar los datos para que cada combinación de atributos cuasi-identificadores aparezca al menos k veces.
L-diversidad
- Descripción: Garantizar que en cada grupo k-anónimo haya al menos l valores “bien representados” para los atributos sensibles.
- Ejemplo: Si se usa k-anonimato para sueldos, asegurar que en cada grupo k-anónimo haya una diversidad significativa de valores.
T-closeness
- Descripción: Asegurar que la distribución de un atributo sensible en cualquier grupo k-anónimo sea similar a la distribución global del atributo.
- Ejemplo: Ajustar los datos de manera que la distribución de sueldos en cada grupo sea similar a la distribución general de sueldos en el conjunto de datos.
Privacidad Diferencial
- Descripción: Añadir ruido a las consultas de datos para asegurar que los resultados sean prácticamente los mismos, independientemente de si cualquier individuo está en el conjunto de datos.
- Ejemplo: Ajustar respuestas a consultas estadísticas sobre un conjunto de datos para que no revelen la presencia o ausencia de cualquier individuo.
Herramientas para la anonimización de los Datos de Investigación
Amnesia
Amnesia es una herramienta de código abierto desarrollada por OpenAIRE diseñada para anonimizar datos tabulares con información identificable y transformar identificadores secundarios como fechas de nacimiento y códigos postales para garantizar la privacidad. La plataforma utiliza técnicas como k-anonimato y l-diversidad. Se encuentra disponible la demo de forma gratuita para su descarga a través del sitio oficial.
ARX (Data Anonymization Tool)
ARX es una herramienta de código abierto diseñada para ofrecer escalabilidad y facilidad de uso. Soporta diversas técnicas de anonimización, métodos para analizar la calidad de los datos y riesgos de identificación. Además de tener una interfaz gráfica intuitiva es compatible con modelos de privacidad como k-anonimato, l-diversidad, t-closeness y privacidad diferencial. Si bien ARX no tiene una demo en línea específica, su interfaz gráfica y documentación extensiva permiten a los usuarios probar y entender cómo funciona la herramienta una vez que la descargan e instalan.
sdcMicro
sdcMicro es una herramienta de código abierto diseñada para la anonimización de microdatos, ideal para datos censales y de encuestas. Ofrece métodos como supresión, recodificación, perturbación y generación de microdatos sintéticos. Se trata de una colección de funciones, datos y documentación que amplía las capacidades básicas del lenguaje de programación R. Los paquetes permiten a los usuarios añadir nuevas funcionalidades a R sin tener que escribir código desde cero.
Cabe destacar que sdcMicro no ofrece una demo en línea específica, pero su interfaz gráfica y la documentación presentada permiten a los usuarios familiarizarse con la herramienta y probar sus funcionalidades.
ARGUS (Anti Re-identification General Utility System)
La herramienta de código abierto utiliza una amplia gama de diferentes métodos de anonimización estadística, como la recodificación global (agrupación de categorías), la supresión local, la aleatorización, la adición de ruido, la micro agregación, la codificación superior e inferior. También se puede utilizar para generar datos sintéticos. ARGUS permite la descarga de su software a través de su sitio web.
https://research.cbs.nl/casc/mu.htm
Como se mencionó anteriormente, la anonimización de datos de investigación requiere de un análisis exhaustivo de su contenido previo al autoarchivo en el Banco de Datos de SIGEVA. Seguir adecuadamente las técnicas de anonimización permite que el conjunto de datos continúe su ciclo de vida hasta su procesamiento y finalmente su publicación y posible reutilización en el Repositorio de Datos de Investigación del CONICET.
Bibliografía:
ARX – Data Anonymization Tool: A comprehensive software for privacy-preserving microdata publishing. (s. f.). https://arx.deidentifier.org/
Biblioguias: Gestión de datos de investigación: Anonimización de los datos. (s. f.). https://biblioguias.cepal.org/c.php?g=495473&p=4961125
Congreso de la Nación Argentina. (2000). Ley de Protección de los Datos Personales, Ley 25.326. Boletín Oficial, 2 de noviembre de 2000. https://www.argentina.gob.ar/normativa/nacional/ley-25326-2000-64790
Discover Amnesia – Anonymity for your data. (2020, 8 diciembre). OpenAIRE. https://www.openaire.eu/discover-amnesia-anonymity-for-your-data
GitHub: ARX-deidentifier/arx. (s. f.). GitHub. https://github.com/arx-deidentifier/arx
Personal Data Protection Commission Singapore. (2022). Guía básica de anonimización (Agencia española de protección de datos, Trad.; Agencia española de protección de datos). https://www.aepd.es/documento/guia-basica-anonimizacion.pdf
SDC with sdcMicro in R: Setting Up Your Data and more — SDC Practice Guide documentation. (s. f.). https://sdcpractice.readthedocs.io/en/latest/sdcMicro.html
Statistical Disclosure Control Methods for Anonymization of Data and Risk Estimation. (s. f.). https://sdctools.github.io/sdcMicro/