Reconocimiento, transparencia y visibilidad: la importancia de citar datos de investigación

 

Durante los últimos años, los datos de investigación han cobrado protagonismo en el mundo de la ciencia abierta. Su adecuado autoarchivo y publicación favorecen la visibilidad, transparencia y la reproducibilidad de los datos, lo que a su vez impulsa la colaboración científica para generar nuevo conocimiento. Por este motivo, para que los datos de investigación sean plenamente reconocidos es importante que sean citados correctamente. La citación de los datos no sólo otorga el crédito correspondiente al equipo de investigación, sino también amplía su visibilidad y su impacto, siendo este último uno de los beneficios más destacados para la comunidad científica.

¿Por qué es importante citar los datos de investigación?

Reconocimiento: La citación permite distinguir el trabajo de los investigadores que recolectaron y proporcionaron los datos de investigación. Esto posibilita dar crédito a los autores originales por su trabajo.

Transparencia y reutilización:  Al citar correctamente los datos, se facilita que otros investigadores comprendan su origen, los reutilicen en nuevos estudios y validen los resultados de investigaciones previas. Esto contribuye a la reproducibilidad de los estudios y al crecimiento del conocimiento científico basado en evidencia.

Impacto y visibilidad: Los datos citados pueden ser rastreados a través de métricas bibliométricas, lo que contribuye a medir su uso y relevancia dentro de la comunidad científica. Además, plataformas como Google Dataset Search permiten indexar y localizar conjuntos de datos publicados en repositorios abiertos, facilitando su descubrimiento y acceso por parte de investigadores de todo el mundo.

Conozca más en La indexación en el RI CONICET Digital: Google, BASE y otros

Entre otras ventajas, citar los datos de investigación también implica:

Facilitar la interoperabilidad y el enlace entre publicaciones: La correcta citación de datos permite vincularlos con artículos, libros u otras producciones científicas, facilitando su integración entre diferentes proyectos relacionados.

El Repositorio de Datos de Investigación del CONICET preserva los conjuntos de datos colectados o producidos en cualquier actividad científica por la comunidad del Consejo Nacional de Investigaciones Científicas y Técnicas para su consulta libre y gratuita. Al depositar datos en el repositorio, los investigadores obtienen un DOI (Handle), lo que facilita su citación formal en artículos u otras producciones científicas.

El repositorio garantiza:

  • La citación del conjunto de datos en la ficha del ítem publicado.
  • La asignación de un identificador persistente (Handle).
  • La visibilidad y accesibilidad a través de buscadores y plataformas de indexación.

Citar los datos de investigación debe considerarse una práctica fundamental en la comunidad científica. Las mismas deben recibir el mismo reconocimiento en el ámbito académico que las de publicaciones y otros resultados de investigación, ya que en muchas disciplinas no basta con el artículo por sí solo: es importante también compartir los datos crudos de los proyectos de investigación para un intercambio fructífero de datos.

¿Cómo citar datos de investigación?

Para citar datos de investigación correctamente, es necesario seguir las normas de citación académica que se usen en la disciplina. Generalmente, las citas incluyen:

  • Autor(es) o institución responsable
  • Año de publicación
  • Título del conjunto de datos
  • Versión (si aplica)
  • Editorial o repositorio donde está almacenado
  • DOI o URL de acceso

Ejemplos en diferentes estilos de citación:

APA (7ª edición)

Autor(es). (Año). Título del conjunto de datos (Versión) [Conjunto de datos]. Nombre del Repositorio. DOI/URL

Ejemplo:
Pérez, M., & Gómez, L. (2023). Conjunto de datos sobre temperaturas globales (Versión 2.0) [Conjunto de datos]. CONICET. http://hdl.handle.net/xxxx

Chicago (17ª edición)

Autor(es). Año. Título del conjunto de datos. Versión. Repositorio. DOI/URL.

Ejemplo:
Pérez, María, y Lucas Gómez. 2023. Conjunto de datos sobre temperaturas globales, Versión 2.0. CONICET. http://hdl.handle.net/xxxx

MLA (9ª edición)

Autor(es). Título del conjunto de datos. Año, Versión, Repositorio, DOI/URL.

Ejemplo:
Pérez, María, y Lucas Gómez. Conjunto de datos sobre temperaturas globales. 2023, Versión 2.0, CONICET, http://hdl.handle.net/xxxx

Conozca más sobre la citación de datos de investigación en:


Bibliografía

European Union. (s.f.). Data citation: Guide to best practice. Data.europa.eu. https://data.europa.eu/en/academy/data-citation-guide-best-practice

Digital Curation Centre. (s.f.). How to cite datasets and link to publications. https://www.dcc.ac.uk/guidance/how-guides/cite-datasets

Datos de investigación y la obligatoriedad en el Repositorio de Datos de Investigación del CONICET

 

Los datos de investigación son el elemento primordial para la creación de nuevo conocimiento ya que permiten la verificación de los resultados y la reutilización en un nuevo proyecto original. Se trata de toda aquella información recopilada, observada o creada por un equipo de investigación.

En este marco, el Repositorio de Datos de Investigación del CONICET establece la obligatoriedad del depósito de datos a partir de la sanción de la Ley 26.899 de Repositorios Digitales Institucionales de Acceso Abierto en 2013, su aplicación ha evolucionado de manera más sistemática, consolidándose como una plataforma clave para garantizar el acceso abierto y la preservación de datos científicos.

La obligatoriedad de depositar los datos de investigación derivados de proyectos financiados con fondos públicos también se establece en la ley, aunque la implementación ha sido más gradual. Se alienta a que los investigadores/as autoarchiven de manera retrospectiva los datos que fueron generados durante su carrera, priorizando los datos más recientes y avanzando progresivamente hacia los más antiguos.

¿Cuál es la legislación con respecto a los datos de investigación?

Esta medida busca garantizar la preservación a largo plazo, su difusión a través de un identificador persistente (DOI/Handle) y su reutilización por parte de la comunidad científica. De esta manera los datos de investigación publicados contribuyen a la visibilidad y al mayor impacto de la investigación.

Celebramos la finalización del Programa de Capacitación sobre Datos de Investigación 2024

 

El Programa de Capacitación sobre Datos de Investigación se posicionó como uno de los recursos claves para los investigadores/as, becarios/as y el personal de apoyo del CONICET. Realizado en tres ediciones a lo largo del año, en abril, agosto y noviembre, los encuentros dieron lugar a profundizar temas esenciales y a responder las preguntas más frecuentes de la comunidad. Entre las cuales se destacan ¿Qué son y qué no son datos de investigación? ¿Cuáles son los formatos aceptados? ¿Cuáles son los tipos de licencia y acceso disponibles? Siendo el Autoarchivo en el Banco de Datos en SIGEVA la atracción principal de la capacitación.

Más de 6000 investigadores y becarios participaron en las tres ediciones, lo que permitió fortalecer significativamente las capacidades para una gestión adecuada de los conjuntos de datos de investigación. Por otro lado, los participantes expresaron un interés particular en profundizar en temas de ética, anonimización y  privacidad de los datos. Lo que nos motivó a desarrollar recursos específicos que aborden estas inquietudes. Como resultado hemos incorporado en el Repositorio de Datos de Investigación, las Preguntas Frecuentes | FAQs Una sección nueva dentro de la plataforma en donde nos explayamos sobre algunas temáticas recurrentes entre la comunidad científica.

Como parte de los recursos disponibles para la consulta, también se encuentran las grabaciones de los encuentros organizados en capítulos para facilitar la visualización del contenido.

Programa de Capacitación sobre Datos de Investigación

Otros materiales disponibles:

Datos de Investigación: la importancia de un título descriptivo en la creación de un conjunto de datos de investigación

 

La elaboración de un título descriptivo para un conjunto de datos de investigación es una instancia fundamental en el armado de set de datos ya que sirve como la primera impresión que la comunidad científica tendrá del contenido. Un título detallado  facilita la comprensión del objetivo del conjunto de datos y su potencial aplicación, lo cual a su vez permite la localización y la recuperación por parte de los investigadores/as interesados en la temática. De esa manera, el impacto de la investigación se verá reflejado en el aumento de la visibilidad, consulta o reutilización entre los interesados .

Un set de datos no solamente se puede recuperar a través del Repositorio de Datos de Investigación del CONICET o Dataset Search de Google, sino también mediante otros motores de búsqueda especializados ya sean OpenAire o Base (Bielefeld Academic Search Engine).

Algunos elementos a tener en cuenta a la hora de redactar un título descriptivo son:

Contexto y alcance: El título debe reflejar con precisión el contenido y el alcance del set de datos. Es importante especificar el tipo de datos que contiene el adjunto, la muestra estudiada, el período de tiempo, y cualquier característica que sea importante destacar.

Evitar generalizaciones o redundancias: Un título con poca información puede confundir a los usuarios o reducir la visibilidad del set de datos en búsquedas específicas. Asimismo, deben evitarse términos como «dataset, set de datos, datos recolectados».

Facilitar la indexación: La correcta selección de palabras claves deben integrarse en el título para asegurar que el set de datos sea fácilmente localizable a través de motores de búsqueda y bases de datos académicas.

Considerar a la audiencia: Es importante tener en cuenta que un título debe ser lo suficientemente claro para que cualquier investigador/a en la disciplina comprenda de qué trata el set de datos. Dependiendo del campo de investigación, puede ser necesario utilizar vocabulario específico que la comunidad científica reconozca y entienda.

Ejemplos de títulos descriptivos:

  • Cartografía e imágenes de las zonas críticas de la inundación en Santa Fe en el año 2003 
  • Relevamiento de asentamientos populares en la ciudad de Buenos Aires, 2020-2022
  • Restos arqueológicos guaraníes en el río Uruguay
  • Resultados de encuestas sobre hábitos alimentarios en adolescentes de escuelas secundarias en la región de Buenos Aires, 2018-2022

Confeccionar un buen título para un conjunto de datos es un paso crucial que requiere la misma atención y precisión que el resto del proyecto de investigación. Un título bien elaborado no solo mejora la accesibilidad y el impacto del set de datos, sino que también asegura que el trabajo del investigador/a sea correctamente representado y aprovechado por la comunidad científica.

Datos de Investigación: formatos aceptados para la publicación de un conjunto de datos

 

El Repositorio de Datos de Investigación del CONICET ofrece un espacio centralizado donde los investigadores pueden depositar conjuntos de datos organizados por áreas de conocimiento, facilitando su acceso y promoviendo la transparencia y la colaboración en la comunidad científica. El formato de los archivos debe reunir ciertas características que son esenciales  para garantizar la accesibilidad, la preservación, la reutilización de los datos y la colaboración entre los investigadores/as.

Aunque la selección del formato queda limitada tanto al procesamiento de los datos como a su lectura es preciso  también tener en cuenta una serie de consideraciones en función de la investigación y los estándares de la disciplina. De esta manera los datos compartidos estarán a disposición de la comunidad científica de forma libre, abierta y gratuita para su reutilización.

Conozca más en el videotutorial ¿Cómo crear un set de datos?

Los datos de investigación y los principios FAIR

Los principios FAIR (por sus siglas en inglés, Findable, Accessible, Interoperable, Reusable) recomiendan utilizar formatos de archivo que faciliten la búsqueda, acceso, interoperabilidad y reutilización de los datos:

Esto no implica que absolutamente todos los datos deban de tener el mismo nivel de apertura ni que todos los datos de todas las disciplinas sigan las mismas reglas.

Se recomienda que para la preservación de los datos, los formatos cumplan las siguientes características:

  • No propietarios (es decir de uso abierto y compartido).
  • Estándares abiertos y documentados.
  • Utilizados comúnmente dentro de la comunidad de investigación.
  • Transmitidos mediante formas de representación estándar (ASCII, Unicode).
  • No encriptados (que no estén codificado o cifrado para proteger su contenido).
  • Sin compresión.

Por consiguiente, para los datos de investigación que sigan los principios FAIR se sugieren los siguientes formatos:

Datos tabulares

  • CSV (Comma-Separated Values): .csv
  • TSV (Tab-Separated Values): .tsv
  • XLS (con precaución): .xlsx

Datos textuales

  • Plain text: .txt
  • XML (eXtensible Markup Language): .xml
  • JSON (JavaScript Object Notation): .json
  • HTML (HyperText Markup Language): .html

Datos numéricos

  • HDF5 (Hierarchical Data Format version 5): .h5
  • NetCDF (Network Common Data Form): .nc

Datos geoespaciales

  • GeoJSON: .geojson
  • Shapefile: .shp
  • KML (Keyhole Markup Language): .kml

Datos de imágenes

  • TIFF (Tagged Image File Format): .tiff, .tif
  • PNG (Portable Network Graphics): .png
  • JPEG (Joint Photographic Experts Group): .jpeg, .jpg

Datos audio-visuales

  • WAV (Waveform Audio File Format): .wav
  • MP3 (MPEG Audio Layer III): .mp3
  • MP4 (MPEG-4 Part 14): .mp4

Datos estructurados

  • RDF (Resource Description Framework): .rdf
  • SPARQL (SPARQL Protocol and RDF Query Language): .sparql

Cabe destacar que los conjuntos de datos no pueden contener archivos con formatos ejecutables debido a razones de seguridad, puesto que pueden contener malware, virus u otros tipos de software maliciosos que pueden comprometer la seguridad de los sistemas donde se ejecuten. Asimismo, este tipo de formato pone en peligro la integridad y la autenticidad de los datos ya que la información puede ser alterada. Los formatos ejecutables pueden no ser compatibles con todos los sistemas operativos, lo cual imposibilita la accesibilidad.  Además impiden el mantenimiento y el control de las versiones del conjunto generando dificultades de reproducibilidad en la investigación.

Tipos de formatos por áreas de conocimientos

En lo que se refiere a los tipos de formato por área de conocimiento, es importante tener en cuenta que cada disciplina puede tener sus propios estándares y formatos de archivo recomendados. Por lo tanto, se sugiere que los investigadores/as se informen sobre los estándares y requisitos de su área de estudio para asegurarse de elegir formatos comunes y sustentables al campo disciplinar al que se está trabajando.

Ciencias sociales y humanidades

  • CSV: común para datos tabulares como catálogos y registros.
  • XLS: usado para datos tabulares con múltiples hojas.
  • XML: para la codificación de datos estructurados.

Ciencias médicas y de la salud

  • CSV: para datos tabulares, como registros de pacientes.
  • XLS: usado para datos tabulares complejos.
  • DICOM: formato para imágenes médicas.
  • FHIR: estándar para datos de salud.
  • CDA/HL7: para estructurar datos clínicos.

Ciencias exactas y naturales

  • CSV: utilizado para datos tabulares, como observaciones y mediciones.
  • HDF5: para almacenamiento y organización de grandes volúmenes de datos.
  • NetCDF: usado en ciencias del clima y meteorología.
  • TXT: utilizado para datos simples y archivos de texto sin formato.
  • MOL/MOL2/SDF: formatos para estructuras químicas.
  • FASTA: para secuencias de ácido nucleico.
  • GenBank: utilizado en secuencias de nucleótidos.
  • XLS: datos tabulares con múltiples hojas.
  • Shapefile: para datos geoespaciales.
  • GeoTIFF: para datos de imágenes georreferenciadas.

Ciencias agrícolas

  • CSV: datos tabulares de campo, como mediciones de rendimiento, datos de suelo y clima.
  • XLS: utilizado para datos tabulares complejos, permitiendo múltiples hojas y análisis integrados.
  • TXT: para datos simples y archivos de texto sin formato.
  • Shapefile: formato estándar para datos geoespaciales, ampliamente utilizado en sistemas de información geográfica (SIG).
  • KML: Para datos geoespaciales, utilizado principalmente en Google Earth.
  • GeoTIFF: Para datos de imágenes georreferenciadas, como mapas de uso del suelo.
  • XML: Para datos estructurados y jerárquicos, como catálogos de especies y bases de datos agronómicas.

Ingeniería y tecnologías

  • CSV: Para datos tabulares, como resultados de encuestas topográficas.
  • XLS: Para datos tabulares complejos y análisis de proyectos.
  • STL: Modelos de impresión 3D.
  • XML: Para datos jerárquicos y configuraciones.
  • HDF5: Para almacenamiento y análisis de grandes volúmenes de datos de procesos.

Así como los principios FAIR establecen criterios para la preservación y la divulgación de los datos de investigación, la Open Science Foundation también enfatiza en la importancia de elegir formatos de datos que faciliten la transparencia, la accesibilidad y la reutilización de los datos de investigación.

Para comprobar si los datos cumplen con los principios FAIR existen herramientas que pueden brindar un análisis sobre el conjunto de datos:

FAIR-Aware

FAIR Data Self Assessment Tool

De esta manera el investigador/a garantiza que el conjunto de datos de investigación que, luego será autoarchivado en el Banco de Datos de SIGEVA, cumpla con las pautas necesarias para ser accesible y reutilizable por la comunidad científica.


Bibliografía

Comisión Económica para América Latina y el Caribe (CEPAL). (s. f.). Formatos abiertos y cerrados. https://biblioguias.cepal.org/gestion-de-datos-de-investigacion/formatos

GO FAIR. (s. f.). FAIR principles. https://www.go-fair.org/go-fair-initiative

Ministerio para la Transformación Digital y de la Función Pública. (s. f.). Principios FAIR: Buenas prácticas para la gestión y administración de datos científicos. https://datos.gob.es/es/noticia/principios-fair-buenas-practicas-para-la-gestion-y-administracion-de-datos-cientificos

Open Knowledge Foundation. (s. f.). Formato de archivos. Open Data Handbook. https://opendatahandbook.org/guide/es/appendices/file-formats/

Repositorio Institucional CONICET Digital. (2021). Guía para autoarchivar un conjunto de datos de investigación en el Banco de Datos del SIGEVA. https://ri.conicet.gov.ar/wp/wp-content/uploads/2021/12/Guia-Formulario-de-datos-en-SIGEVA.pdf

Secretaría de Innovación Pública. (s. f.). Guía para la publicación de datos en formatos abiertos. https://datosgobar.github.io/paquete-apertura-datos/guia_abiertos/#formatos-abiertos-de-archivos

Sixto Costoya, A., Aleixandre Benavent, R., Vidal Infer, A., Lucas Domínguez, R., & Castelló Cogollos, L. (2019). Data sharing: Qué son y cómo se pueden compartir los datos de investigación. Manual de recomendación para gestores de la información (Sociedad Española de Documentación e Información Científica, Vol. 7). https://www.sedic.es/wp-content/uploads/2020/01/Data_Sharing-DEF.pdf

Universidad de Oviedo. (s. f.). Semana OA 2023: ¿Qué hacemos con los datos de investigación? Datos FAIR y PGD. https://accesoabiertouniovi.wordpress.com/2023/10/25/semana-oa-2023-que-hacemos-con-los-datos-de-investigacion-datos-fair-y-pgd/

Universidad Pablo de Olavide. (s. f.). Gestión de datos de investigación: Formatos. Guías y Tutoriales de la Biblioteca CRAI. https://guiasbib.upo.es/gestion_datos_de_investigacion/Formatos

Datos de Investigación: el proceso de anonimizar

 

La anonimización de datos sensibles de los conjuntos de datos de investigación busca proteger los derechos y la privacidad de las personas, así como también preservar la integridad ética de la investigación. La exclusión de los datos garantiza que cierta información personal identificable no sea revelada, lo cual es esencial para dar cumplimiento a la Ley de Protección de Datos Personales (Ley 25.326).

Este proceso implica una evaluación previa de los conjuntos de datos de investigación por parte de los investigadores/as ya que de esa manera se podrán identificar aquella información sensible que integran los datos y aplicar las técnicas de anonimización adecuadas. Esto requiere que, en un primer lugar, el equipo de investigación conozca sus datos y los desidentifique, es decir eliminen todos aquellos identificadores directos que contienen información privada ya sean:

  • Datos personales: Información de cualquier tipo referida a personas físicas o de existencia ideal determinadas o determinables.
  • Datos sensibles: Datos personales que revelan origen racial y étnico, opiniones políticas, convicciones religiosas, filosóficas o morales, afiliación sindical e información referente a la salud o a la vida sexual.

Una vez identificados los datos deben aplicar las técnicas de anonimización adecuadas, calcular el riesgo de los datos de investigación ya modificados y finalmente, gestionar los riesgos de identificación y divulgación, puesto que los detalles del proceso de anonimización, los parámetros utilizados y los controles también deben registrarse claramente para futuras consultas. Cabe destacar que esta documentación debe conservarse de forma segura, ya que la revelación de los parámetros puede facilitar la reidentificación y la revelación de los datos anonimizados.

A continuación se describen algunas técnicas a tener en cuenta para el proceso de anonimización de los datos de investigación, así como también las herramientas más reconocidas para llevar adelante esta práctica.

Supresión

  • Descripción: Eliminar completamente ciertos valores o registros que contienen información sensible.
  • Ejemplo: Borrar nombres, direcciones o cualquier otro identificador directo de un conjunto de datos

Generalización

  • Descripción: Sustituir valores específicos por rangos o categorías más amplias.
  • Ejemplo: Convertir fechas de nacimiento exactas en rangos de edad. Por ejemplo 40-49 en lugar de 44.

Pseudonimización

  • Descripción: Reemplazar identificadores directos con pseudónimos o códigos.
  • Ejemplo: Sustituir nombres de personas por códigos únicos. Por ejemplo “ID123” en lugar de “Perez, Juan”.

Perturbación

  • Descripción: Alterar ligeramente los valores de los datos para proteger la privacidad.
  • Ejemplo: Añadir ruido aleatorio a los ingresos o edades.

Agregación

  • Descripción: Combinar datos de varios individuos en grupos o categorías.
  • Ejemplo: Reportar datos a nivel de grupo. Por ejemplo el promedio de ingresos por región en lugar de a nivel individual.

Microagregación

  • Descripción: Agrupar valores similares y reemplazarlos por la media de esos grupos.
  • Ejemplo: Agrupar edades cercanas y reemplazarlas por la media del grupo. Por ejemplo reemplazar edades 42, 43, y 44 con 44.

K-anonimato

  • Descripción: Asegurar que cada registro no sea distinguible de al menos k-1 otros registros.
  • Ejemplo: Modificar los datos para que cada combinación de atributos cuasi-identificadores aparezca al menos k veces.

L-diversidad

  • Descripción: Garantizar que en cada grupo k-anónimo haya al menos l valores “bien representados” para los atributos sensibles.
  • Ejemplo: Si se usa k-anonimato para sueldos, asegurar que en cada grupo k-anónimo haya una diversidad significativa de valores.

T-closeness

  • Descripción: Asegurar que la distribución de un atributo sensible en cualquier grupo k-anónimo sea similar a la distribución global del atributo.
  • Ejemplo: Ajustar los datos de manera que la distribución de sueldos en cada grupo sea similar a la distribución general de sueldos en el conjunto de datos.

Privacidad Diferencial

  • Descripción: Añadir ruido a las consultas de datos para asegurar que los resultados sean prácticamente los mismos, independientemente de si cualquier individuo está en el conjunto de datos.
  • Ejemplo: Ajustar respuestas a consultas estadísticas sobre un conjunto de datos para que no revelen la presencia o ausencia de cualquier individuo.

Herramientas para la anonimización de los Datos de Investigación

Amnesia

Amnesia es una herramienta de código abierto desarrollada por OpenAIRE diseñada para anonimizar datos tabulares con información identificable y transformar identificadores secundarios como fechas de nacimiento y códigos postales para garantizar la privacidad. La plataforma utiliza técnicas como k-anonimato y l-diversidad. Se encuentra disponible la demo de forma gratuita para su descarga a través del sitio oficial.

ARX (Data Anonymization Tool)

ARX es una herramienta de código abierto diseñada para ofrecer escalabilidad y facilidad de uso. Soporta diversas técnicas de anonimización, métodos para analizar la calidad de los datos y riesgos de identificación. Además de tener una interfaz gráfica intuitiva es compatible con modelos de privacidad como k-anonimato, l-diversidad, t-closeness y privacidad diferencial. Si bien ARX no tiene una demo en línea específica, su interfaz gráfica y documentación extensiva permiten a los usuarios probar y entender cómo funciona la herramienta una vez que la descargan e instalan.

sdcMicro

sdcMicro es una herramienta de código abierto diseñada para la anonimización de microdatos, ideal para datos censales y de encuestas. Ofrece métodos como supresión, recodificación, perturbación y generación de microdatos sintéticos. Se trata de una colección de funciones, datos y documentación que amplía las capacidades básicas del lenguaje de programación R. Los paquetes permiten a los usuarios añadir nuevas funcionalidades a R sin tener que escribir código desde cero.

Cabe destacar que sdcMicro no ofrece una demo en línea específica, pero su interfaz gráfica y la documentación presentada permiten a los usuarios familiarizarse con la herramienta y probar sus funcionalidades.

ARGUS (Anti Re-identification General Utility System)

La herramienta de código abierto utiliza una amplia gama de diferentes métodos de anonimización estadística, como la recodificación global (agrupación de categorías), la supresión local, la aleatorización, la adición de ruido, la micro agregación, la codificación superior e inferior. También se puede utilizar para generar datos sintéticos. ARGUS permite la descarga de su software a través de su sitio web.

https://research.cbs.nl/casc/mu.htm 

Como se mencionó anteriormente, la anonimización de datos de investigación requiere de un análisis exhaustivo de su contenido previo al autoarchivo en el Banco de Datos de SIGEVA. Seguir adecuadamente las técnicas de anonimización permite que el conjunto de datos continúe su ciclo de vida hasta su procesamiento y finalmente su publicación y posible reutilización en el Repositorio de Datos de Investigación del CONICET.

 


 

Bibliografía:

ARX. (s. f.). ARX – Data Anonymization Tool: A comprehensive software for privacy-preserving microdata publishinghttps://arx.deidentifier.org/

Comisión Económica para América Latina y el Caribe (CEPAL). (s. f.). Gestión de datos de investigación: Anonimización de los datos. https://biblioguias.cepal.org/c.php?g=495473&p=4961125

Congreso de la Nación Argentina. (2000). Ley de Protección de los Datos Personales, Ley 25.326. Boletín Oficial de la República Argentina, 2 de noviembre de 2000. https://www.argentina.gob.ar/normativa/nacional/ley-25326-2000-64790

OpenAIRE. (2020, 8 de diciembre). Discover Amnesia – Anonymity for your data.  https://www.openaire.eu/discover-amnesia-anonymity-for-your-data

GitHub. (s. f.). ARX-deidentifier/arxhttps://github.com/arx-deidentifier/arx

Personal Data Protection Commission Singapore. (2022). Guía básica de anonimización (Agencia Española de Protección de Datos, Trad.).  https://www.aepd.es/documento/guia-basica-anonimizacion.pdf

SDC Practice Guide. (s. f.). SDC with sdcMicro in R: Setting Up Your Data and morehttps://sdcpractice.readthedocs.io/en/latest/sdcMicro.html

Templ, M., Meindl, B., Kowarik, A., & Chen, S. (s. f.). Statistical Disclosure Control Methods for Anonymization of Data and Risk Estimationhttps://sdctools.github.io/sdcMicro/

Datos de Investigación: ¿Por qué compartir los datos de investigación implica un avance hacia la ciencia abierta?

 

El movimiento de la ciencia abierta a nivel mundial impulsa a la comunidad científica al progreso y a promover la innovación, siendo el acceso y la transparencia los elementos fundamentales para llevar adelante la causa. La apertura de los datos de investigación obtenidos durante el desarrollo de las investigaciones tiene como uno de sus beneficios el de la reutilización por parte de otros investigadores/as. Esto implica que los investigadores/as deben asegurarse de mantener la integridad y accesibilidad de los datos, no solo para su propio beneficio, sino también para que puedan ser compartidos con otros.

Beneficios a la hora de compartir datos de investigación

  • Maximiza el impacto de la investigación

Cuando los conjuntos de datos de investigación están disponibles para su descarga, se amplía el alcance de la investigación. Esto permite que otros investigadores/as puedan desarrollar nuevo conocimiento a través de los hallazgos ya existentes. De esta forma se acelera el ritmo de la innovación.

  • Promueve la transparencia 

Una vez que los datos de investigación se encuentran accesibles, los investigadores/as que hacen uno de los mismos se encuentran con la posibilidad de revisar y validar los métodos y técnicas utilizados para recopilar y analizar los datos. Esta transparencia contribuye a mantener altos estándares de integridad científica y por consiguiente, evita prácticas relacionadas al fraude o el sesgo selectivo.

  • Fomenta la reproducibilidad y la verificabilidad

Compartir los datos puede ayudar a otros investigadores/as a replicar los resultados y comprobar la validez de las conclusiones. Esto es especialmente en investigaciones que tengan implicaciones importantes en la toma de decisiones en salud pública, políticas gubernamentales, entre otras. De esta manera se fortalece la confianza en la comunidad investigadora.

  • Permite la reutilización y la colaboración entre la comunidad científica

Al compartir datos de investigación, se abren nuevas oportunidades para la reutilización ya que pueden ser aprovechados en contextos diferentes a los originales. Esto conduce a la generación de nuevos conocimientos en diferentes campos interdisciplinarios. Asimismo, la reutilización fomenta la colaboración entre investigadores alrededor del mundo, puesto que se eliminan las barreras al acceso a la información.

La disponibilidad de conjuntos de datos de investigación en el Repositorio de Datos de Investigación CONICET Digital es esencial para avanzar hacia una ciencia abierta y más colaborativa. La colección, que contiene más de mil conjuntos de datos de investigación, coloca a CONICET como uno de los organismos referentes en esta temática. Permitiendo a la comunidad científica la creación de nuevas y futuras investigaciones.

Capacitación: Datos de Investigación 2024

 

En línea con el lanzamiento del Repositorio de Datos de Investigación,  el Repositorio Institucional CONICET Digital presenta la Capacitación sobre Datos de Investigación 2024 diseñada para directores, vicedirectores, investigadores, becarios, personal de apoyo del CONICET e integrantes de la Red Federal de Curadores, con el objetivo de explorar en profundidad la temática de Datos de Investigación. Además, el encuentro sincrónico abordará las preguntas más comunes sobre este tópico:

  • ¿Qué son y qué no son los datos de investigación?
  • ¿Cómo obtener un HANDLE (también conocido como DOI)?
  • ¿Cómo reutilizar y citar los datos de investigación?

Asimismo, se hará un recorrido  por el formulario de Datos de Investigación  del Banco de Datos del SIGEVA para conocer sus funcionalidades y características principales al momento de autoarchivar un set de datos.

¿Cómo participar?

La capacitación tendrá lugar en tres encuentros optativos durante  los meses de abril, agosto y noviembre. La misma tendrá un tiempo de duración de 2 hs y será transmitida a través de streaming en YouTube. Días previos al encuentro se enviará el formulario de inscripción por SINE a la comunidad CONICET en general. Al recibirlo, se invita a los interesados a completar el formulario en donde encontrarán de manera detallada la fecha y el horario en el cual que se desarrollará la capacitación. Cabe destacar que momentos previos al encuentro se enviará a todos los participantes el enlace a la capacitación.


Conozca más sobre los Datos de Investigación en:

Para más información escriba a repodatos@conicet.gov.ar 

Semana de Datos Abiertos

 

Todos los años a nivel global y liderado por la Open Knowledge Foundation (OKFN) se lleva adelante la Semana de Datos Abiertos (Open Data Week). Este evento tiene el objetivo de impulsar a las organizaciones a realizar alguna iniciativa con el propósito de resaltar los beneficios y utilidades de los datos abiertos. Así como también incentivar la adopción de políticas de datos abiertos en el ámbito gubernamental, empresarial y la sociedad civil, lo que facilitará la evaluación del avance hacia el cumplimiento de los Objetivos de Desarrollo Sostenible para el año 2030.

Este año desde la Secretaría de Innovación, Ciencia y Tecnología, a cargo de Alejandro Cosentino, se realizaron las Jornadas de Datos Abiertos en el Centro Cultural de la Ciencia. Allí se desarrollaron paneles, actividades y talleres prácticos en donde se plantearon diferentes estrategias en materia de gestión de datos en el sector público. Siendo la transformación de los datos abiertos en una política pública, la definición de nuevos estándares para la publicación de datos y la importancia de contar con datos que tengan un propósito para ser abiertos y sean considerados de alto valor, los temas más destacados de las jornadas.

Asimismo, durante el evento se le dio importancia al uso de licencias abiertas para el más amplio aprovechamiento de los datos públicos. Generando así un debate significativo entre los especialistas del tema. De esta manera y en base a los talleres como espacios de intercambio de ideas se incentiva al desarrollo de mejores servicios y políticas públicas eficaces para la adopción de datos abiertos en el ámbito gubernamental.

Como parte de estas acciones, desde el RI CONICET Digital seguimos acortando la brecha entre la ciencia y la sociedad, creando posibilidades que generen mayor equidad en el acceso a los contenidos. El lanzamiento del  Repositorio de Datos de Investigación con más de 1.000 registros a disposición de la comunidad científica y el público en general refleja nuestro compromiso con el avance del conocimiento y la ciencia abierta.

Para más información consulte la Jornada de Datos Abiertos 

Lanzamiento del Repositorio de Datos de Investigación

 

CONICET presenta el Repositorio de Datos de Investigación de acceso abierto centralizado en el almacenamiento, la preservación y la difusión de datos de investigación, facilitando el acceso y la reutilización de la información científica creada y autoarchivada en el Banco de Datos del SIGEVA por investigadores/as, becarios/as y personal de apoyo del organismo.

El sitio especializado en datos de investigación alberga mil sets que cuentan con un identificador persistente (HANDLE*) para difundir y compartir con las editoriales u otros colegas.

La publicación de sets de datos de investigación conlleva múltiples beneficios, entre ellos:

  • Vincular datos con publicaciones: centralizar y vincular, en los casos que aplique, los conjuntos de datos de investigación con su producción científico tecnológica.
  • Más citaciones: facilita la recuperación de los sets de datos para que éstos sean reutilizables, amplificando la posibilidad de citación y reaprovechamiento.
  • Más difusión: los sets de datos son indexados por motores de búsqueda y cosechados por otros sistemas o repositorios.
  • Preservación segura y a largo plazo: los sets de datos de investigación quedan almacenados y resguardados de manera centralizada, en un solo lugar, pudiendo cada investigador/a crear un perfil único de acceso con su producción científica y sus datos de investigación.
  • Estadísticas: posibilidad de consultar indicadores de impacto o métricas alternativas sobre la actividad de las publicaciones y datos en un solo espacio.

Por otra parte, la plataforma digital presenta un diseño funcional que permite navegar entre áreas de conocimiento. Asimismo, el sitio alberga diferentes tipos de recursos para conocer más sobre los datos de investigación, siendo los videotutoriales el material principal para aprender sobre qué son y qué no son datos de investigación, para qué necesitamos de ellos, cuál es la normativa que los regula, las características de los conjuntos de datos con sus ejemplos, cómo es el ciclo de publicación , entre otras temáticas desarrolladas.

Además, la plataforma cuenta con una sección de Novedades en donde se publicarán noticias, herramientas y recomendaciones para continuar afianzando las buenas prácticas en función de los conjuntos de datos de investigación.

Últimas noticias

Datos de Investigación: conocé las cinco razones por las cuales todavía no publicamos un set de datos 

Datos de Investigación: ¿Cómo obtener el DOI/Handle?

Datos de Investigación: Tipos de acceso y licencias

La disponibilidad de conjuntos de datos en el Repositorio de Datos de Investigación CONICET Digital es esencial para impulsar el avance del conocimiento y afianzar las iniciativas en pro de la Ciencia Abierta no solo a nivel nacional sino también a nivel global, siendo CONICET una de las entidades referentes en el desarrollo de la ciencia y la tecnología.


*Identificador persistente que permite que los conjuntos de datos u otros objetos digitales puedan ser identificados, representados y utilizados, facilitando el reuso, la citación y la socialización de las producciones científicas y/o académicas.