¿Cómo anonimizar archivos de audio en conjuntos de datos de investigación?

Los archivos de audio en un conjunto de datos de investigación son una de las fuentes más utilizadas para recopilar información, pero su difusión requiere de medidas para llevar a cabo la anonimización y así proteger la identidad de los participantes.

Publicado el 27 de marzo de 2025

Compartir los datos de investigación a la comunidad científica implica un trabajo de análisis de la información, siendo la anonimización uno de los puntos fundamentales previo al autoarchivo en el Banco de Datos del SIGEVA. Llevar a cabo una entrevista, una serie de observaciones de campo o pruebas fonéticas o lingüísticas trae consigo como material crudo archivos de audio. Los cuales contienen datos primarios que no solamente fundamentan la investigación llevada a cabo por un equipo de investigación, sino que también son un aporte a la ciencia que puede generar nuevo conocimiento.

En la nota Datos de investigación: el proceso de anonimizar se hizo hincapié en las técnicas a tener en cuenta para el proceso de anonimización de los datos de investigación, así como también las herramientas más reconocidas para llevar adelante esta práctica.

La anonimización de los archivos de audio es vital para la preservación de la identidad de la personas involucradas aún si no se mencionan nombres en concreto. Por tal motivo, el cumplimiento a la Ley de Protección de Datos Personales (Ley 25.326) tiene un peso que obliga a los investigadores/as a cumplir con la normativa. Esto también involucra la ética profesional en la investigación y los acuerdos de consentimiento que garantizan el anonimato, especialmente en estudios con datos sensibles.

Herramientas para la anonimización de audios

Audacity: Es un programa de código abierto y de una interfaz gráfica simple que permite la grabación, edición y procesamiento de múltiples formatos de audio. Entre algunas de sus características admite la alteración del tono y la velocidad de la voz. Asimismo, los audios pueden ser distorsionados mediante filtros de tal manera que el sonido sea irreconocible.
Pratt: Es un software de código abierto y gratuito especializado en análisis fonético y manipulación de sonido. Es ampliamente utilizado en investigaciones en lingüística, fonética y procesamiento del habla. La plataforma permite modificar la frecuencia y el espectro de la voz.
FFmpeg: es una herramienta gratuita y de código abierto que permite la edición de archivos de audio sea cual sea su formato. Entre sus características destacadas se encuentran las de modificar la velocidad de reproducción y alterar la voz de los audios, así como también convertir el resultado final en diferentes formatos.

Anonimizar audios no solamente protege la identidad de los involucrados en el proyecto de investigación, sino que también garantiza el cumplimiento de normativas, la seguridad en la publicación de datos y la reutilización de la información por la comunidad científica en futuras investigaciones.