¿Cómo anonimizar archivos de audio en conjuntos de datos de investigación?

 

Compartir los datos de investigación a la comunidad científica implica un trabajo de análisis de la información, siendo la anonimización uno de los puntos fundamentales previo al autoarchivo en el Banco de Datos del SIGEVA. Llevar a cabo una entrevista, una serie de observaciones de campo o pruebas fonéticas o lingüísticas trae consigo como material crudo archivos de audio. Los cuales contienen datos primarios que no solamente fundamentan la investigación llevada a cabo por un equipo de investigación, sino que también son un aporte a la ciencia que puede generar nuevo conocimiento.

En la nota Datos de investigación: el proceso de anonimizar se hizo hincapié en las técnicas a tener en cuenta para el proceso de anonimización de los datos de investigación, así como también las herramientas más reconocidas para llevar adelante esta práctica.

La anonimización de los archivos de audio es vital para la preservación de la identidad de la personas involucradas aún si no se mencionan nombres en concreto. Por tal motivo, el cumplimiento a la Ley de Protección de Datos Personales (Ley 25.326) tiene un peso que obliga a los investigadores/as a cumplir con la normativa. Esto también involucra la ética profesional en la  investigación y los acuerdos de consentimiento que garantizan el anonimato, especialmente en estudios con datos sensibles.

Herramientas para la anonimización de audios

  • Audacity: Es un programa de código abierto y de una interfaz gráfica simple que permite la grabación, edición y procesamiento de múltiples formatos de audio. Entre algunas de sus características admite la alteración del tono y la velocidad de la voz. Asimismo, los audios pueden ser distorsionados mediante filtros de tal manera que el sonido sea irreconocible.
  • Pratt: Es un software de código abierto y gratuito especializado en análisis fonético y manipulación de sonido. Es ampliamente utilizado en investigaciones en lingüística, fonética y procesamiento del habla. La plataforma permite modificar la frecuencia y el espectro de la voz.
  • FFmpeg: es una herramienta gratuita y de código abierto que permite la edición de archivos de audio sea cual sea su formato. Entre sus características destacadas se encuentran las de modificar la velocidad de reproducción y alterar la voz de los audios, así como también convertir el resultado final en diferentes formatos.

Anonimizar audios no solamente protege la identidad de los involucrados en el proyecto de investigación, sino que también garantiza el cumplimiento de normativas, la seguridad en la publicación de datos y la reutilización de la información por la comunidad científica en futuras investigaciones.

La anonimización en imágenes en los conjuntos de datos de investigación

 

La anonimización en los conjuntos de datos de investigación es una de las instancias más importantes a tener en cuenta por un equipo de investigación antes de autoarchivar su conjunto de datos en el Banco de Datos del SIGEVA. Este proceso protege los derechos y la privacidad de los participantes, así como también preserva la integridad ética de una investigación. Por tal motivo, la Ley de Protección de Datos Personales (Ley 25.326) es vital para fortalecer el compromiso ético de los investigadores/as. Además, contribuye a consolidar la confianza en el uso de los datos compartidos en el repositorio.

En la nota Datos de investigación: el proceso de anonimizar se hizo hincapié en las técnicas a tener en cuenta para el proceso de anonimización de los datos de investigación, así como también las herramientas más reconocidas para llevar adelante esta práctica.

En el caso de las imágenes, la anonimización es fundamental cuando se trabaja con fotografías y videos que presentan personas o información que puedan ser identificables. Por tal motivo es fundamental la eliminación o distorsión de los mismos ya sea a través del método de desenfoque o pixelado. Esto permite que los datos visuales puedan ser publicados y reutilizados posteriormente en una nueva investigación.

Herramientas de anonimización en imágenes

GIMP (GNU Image Manipulation Program): es un programa de código abierto que permite desenfocar o pixelar imágenes de manera manual.

Facepixelizer: es una herramienta online que detecta y desenfoca automáticamente rostros.

DeepPrivacy: Un proyecto de código abierto que genera caras sintéticas sobre las reales para mantener la privacidad. Funciona para fotografías y videos.

Pixellate It: Herramienta web que permite pixelar imágenes con un enfoque directo en áreas seleccionadas.

La anonimización adecuada de los conjuntos de datos de investigación es una fase fundamental para proteger la privacidad y confidencialidad de quienes participen en una investigación. En este contexto, las imágenes son uno de sus componentes más utilizados para compartir los datos primarios y requieren especial atención para evitar la identificación de las personas involucradas en el proyecto. Por tal motivo, si el objetivo es anonimizar imágenes o videos con contenido sensible es importante verificar las especificaciones de cada  herramienta para evitar riesgos de seguridad.

Datos de Investigación: el proceso de anonimizar

 

La anonimización de datos sensibles de los conjuntos de datos de investigación busca proteger los derechos y la privacidad de las personas, así como también preservar la integridad ética de la investigación. La exclusión de los datos garantiza que cierta información personal identificable no sea revelada, lo cual es esencial para dar cumplimiento a la Ley de Protección de Datos Personales (Ley 25.326).

Este proceso implica una evaluación previa de los conjuntos de datos de investigación por parte de los investigadores/as ya que de esa manera se podrán identificar aquella información sensible que integran los datos y aplicar las técnicas de anonimización adecuadas. Esto requiere que, en un primer lugar, el equipo de investigación conozca sus datos y los desidentifique, es decir eliminen todos aquellos identificadores directos que contienen información privada ya sean:

  • Datos personales: Información de cualquier tipo referida a personas físicas o de existencia ideal determinadas o determinables.
  • Datos sensibles: Datos personales que revelan origen racial y étnico, opiniones políticas, convicciones religiosas, filosóficas o morales, afiliación sindical e información referente a la salud o a la vida sexual.

Una vez identificados los datos deben aplicar las técnicas de anonimización adecuadas, calcular el riesgo de los datos de investigación ya modificados y finalmente, gestionar los riesgos de identificación y divulgación, puesto que los detalles del proceso de anonimización, los parámetros utilizados y los controles también deben registrarse claramente para futuras consultas. Cabe destacar que esta documentación debe conservarse de forma segura, ya que la revelación de los parámetros puede facilitar la reidentificación y la revelación de los datos anonimizados.

A continuación se describen algunas técnicas a tener en cuenta para el proceso de anonimización de los datos de investigación, así como también las herramientas más reconocidas para llevar adelante esta práctica.

Supresión

  • Descripción: Eliminar completamente ciertos valores o registros que contienen información sensible.
  • Ejemplo: Borrar nombres, direcciones o cualquier otro identificador directo de un conjunto de datos

Generalización

  • Descripción: Sustituir valores específicos por rangos o categorías más amplias.
  • Ejemplo: Convertir fechas de nacimiento exactas en rangos de edad. Por ejemplo 40-49 en lugar de 44.

Pseudonimización

  • Descripción: Reemplazar identificadores directos con pseudónimos o códigos.
  • Ejemplo: Sustituir nombres de personas por códigos únicos. Por ejemplo “ID123” en lugar de “Perez, Juan”.

Perturbación

  • Descripción: Alterar ligeramente los valores de los datos para proteger la privacidad.
  • Ejemplo: Añadir ruido aleatorio a los ingresos o edades.

Agregación

  • Descripción: Combinar datos de varios individuos en grupos o categorías.
  • Ejemplo: Reportar datos a nivel de grupo. Por ejemplo el promedio de ingresos por región en lugar de a nivel individual.

Microagregación

  • Descripción: Agrupar valores similares y reemplazarlos por la media de esos grupos.
  • Ejemplo: Agrupar edades cercanas y reemplazarlas por la media del grupo. Por ejemplo reemplazar edades 42, 43, y 44 con 44.

K-anonimato

  • Descripción: Asegurar que cada registro no sea distinguible de al menos k-1 otros registros.
  • Ejemplo: Modificar los datos para que cada combinación de atributos cuasi-identificadores aparezca al menos k veces.

L-diversidad

  • Descripción: Garantizar que en cada grupo k-anónimo haya al menos l valores “bien representados” para los atributos sensibles.
  • Ejemplo: Si se usa k-anonimato para sueldos, asegurar que en cada grupo k-anónimo haya una diversidad significativa de valores.

T-closeness

  • Descripción: Asegurar que la distribución de un atributo sensible en cualquier grupo k-anónimo sea similar a la distribución global del atributo.
  • Ejemplo: Ajustar los datos de manera que la distribución de sueldos en cada grupo sea similar a la distribución general de sueldos en el conjunto de datos.

Privacidad Diferencial

  • Descripción: Añadir ruido a las consultas de datos para asegurar que los resultados sean prácticamente los mismos, independientemente de si cualquier individuo está en el conjunto de datos.
  • Ejemplo: Ajustar respuestas a consultas estadísticas sobre un conjunto de datos para que no revelen la presencia o ausencia de cualquier individuo.

Herramientas para la anonimización de los Datos de Investigación

Amnesia

Amnesia es una herramienta de código abierto desarrollada por OpenAIRE diseñada para anonimizar datos tabulares con información identificable y transformar identificadores secundarios como fechas de nacimiento y códigos postales para garantizar la privacidad. La plataforma utiliza técnicas como k-anonimato y l-diversidad. Se encuentra disponible la demo de forma gratuita para su descarga a través del sitio oficial.

ARX (Data Anonymization Tool)

ARX es una herramienta de código abierto diseñada para ofrecer escalabilidad y facilidad de uso. Soporta diversas técnicas de anonimización, métodos para analizar la calidad de los datos y riesgos de identificación. Además de tener una interfaz gráfica intuitiva es compatible con modelos de privacidad como k-anonimato, l-diversidad, t-closeness y privacidad diferencial. Si bien ARX no tiene una demo en línea específica, su interfaz gráfica y documentación extensiva permiten a los usuarios probar y entender cómo funciona la herramienta una vez que la descargan e instalan.

sdcMicro

sdcMicro es una herramienta de código abierto diseñada para la anonimización de microdatos, ideal para datos censales y de encuestas. Ofrece métodos como supresión, recodificación, perturbación y generación de microdatos sintéticos. Se trata de una colección de funciones, datos y documentación que amplía las capacidades básicas del lenguaje de programación R. Los paquetes permiten a los usuarios añadir nuevas funcionalidades a R sin tener que escribir código desde cero.

Cabe destacar que sdcMicro no ofrece una demo en línea específica, pero su interfaz gráfica y la documentación presentada permiten a los usuarios familiarizarse con la herramienta y probar sus funcionalidades.

ARGUS (Anti Re-identification General Utility System)

La herramienta de código abierto utiliza una amplia gama de diferentes métodos de anonimización estadística, como la recodificación global (agrupación de categorías), la supresión local, la aleatorización, la adición de ruido, la micro agregación, la codificación superior e inferior. También se puede utilizar para generar datos sintéticos. ARGUS permite la descarga de su software a través de su sitio web.

https://research.cbs.nl/casc/mu.htm 

Como se mencionó anteriormente, la anonimización de datos de investigación requiere de un análisis exhaustivo de su contenido previo al autoarchivo en el Banco de Datos de SIGEVA. Seguir adecuadamente las técnicas de anonimización permite que el conjunto de datos continúe su ciclo de vida hasta su procesamiento y finalmente su publicación y posible reutilización en el Repositorio de Datos de Investigación del CONICET.

 


 

Bibliografía:

ARX. (s. f.). ARX – Data Anonymization Tool: A comprehensive software for privacy-preserving microdata publishinghttps://arx.deidentifier.org/

Comisión Económica para América Latina y el Caribe (CEPAL). (s. f.). Gestión de datos de investigación: Anonimización de los datos. https://biblioguias.cepal.org/c.php?g=495473&p=4961125

Congreso de la Nación Argentina. (2000). Ley de Protección de los Datos Personales, Ley 25.326. Boletín Oficial de la República Argentina, 2 de noviembre de 2000. https://www.argentina.gob.ar/normativa/nacional/ley-25326-2000-64790

OpenAIRE. (2020, 8 de diciembre). Discover Amnesia – Anonymity for your data.  https://www.openaire.eu/discover-amnesia-anonymity-for-your-data

GitHub. (s. f.). ARX-deidentifier/arxhttps://github.com/arx-deidentifier/arx

Personal Data Protection Commission Singapore. (2022). Guía básica de anonimización (Agencia Española de Protección de Datos, Trad.).  https://www.aepd.es/documento/guia-basica-anonimizacion.pdf

SDC Practice Guide. (s. f.). SDC with sdcMicro in R: Setting Up Your Data and morehttps://sdcpractice.readthedocs.io/en/latest/sdcMicro.html

Templ, M., Meindl, B., Kowarik, A., & Chen, S. (s. f.). Statistical Disclosure Control Methods for Anonymization of Data and Risk Estimationhttps://sdctools.github.io/sdcMicro/