Datos de Investigación: el proceso de anonimizar

 

La anonimización de datos sensibles de los conjuntos de datos de investigación busca proteger los derechos y la privacidad de las personas, así como también preservar la integridad ética de la investigación. La exclusión de los datos garantiza que cierta información personal identificable no sea revelada, lo cual es esencial para dar cumplimiento a la Ley de Protección de Datos Personales (Ley 25.326).

Este proceso implica una evaluación previa de los conjuntos de datos de investigación por parte de los investigadores/as ya que de esa manera se podrán identificar aquella información sensible que integran los datos y aplicar las técnicas de anonimización adecuadas. Esto requiere que, en un primer lugar, el equipo de investigación conozca sus datos y los desidentifique, es decir eliminen todos aquellos identificadores directos que contienen información privada ya sean:

  • Datos personales: Información de cualquier tipo referida a personas físicas o de existencia ideal determinadas o determinables.
  • Datos sensibles: Datos personales que revelan origen racial y étnico, opiniones políticas, convicciones religiosas, filosóficas o morales, afiliación sindical e información referente a la salud o a la vida sexual.

Una vez identificados los datos deben aplicar las técnicas de anonimización adecuadas, calcular el riesgo de los datos de investigación ya modificados y finalmente, gestionar los riesgos de identificación y divulgación, puesto que los detalles del proceso de anonimización, los parámetros utilizados y los controles también deben registrarse claramente para futuras consultas. Cabe destacar que esta documentación debe conservarse de forma segura, ya que la revelación de los parámetros puede facilitar la reidentificación y la revelación de los datos anonimizados.

A continuación se describen algunas técnicas a tener en cuenta para el proceso de anonimización de los datos de investigación, así como también las herramientas más reconocidas para llevar adelante esta práctica.

Supresión

  • Descripción: Eliminar completamente ciertos valores o registros que contienen información sensible.
  • Ejemplo: Borrar nombres, direcciones o cualquier otro identificador directo de un conjunto de datos

Generalización

  • Descripción: Sustituir valores específicos por rangos o categorías más amplias.
  • Ejemplo: Convertir fechas de nacimiento exactas en rangos de edad. Por ejemplo 40-49 en lugar de 44.

Pseudonimización

  • Descripción: Reemplazar identificadores directos con pseudónimos o códigos.
  • Ejemplo: Sustituir nombres de personas por códigos únicos. Por ejemplo “ID123” en lugar de “Perez, Juan”.

Perturbación

  • Descripción: Alterar ligeramente los valores de los datos para proteger la privacidad.
  • Ejemplo: Añadir ruido aleatorio a los ingresos o edades.

Agregación

  • Descripción: Combinar datos de varios individuos en grupos o categorías.
  • Ejemplo: Reportar datos a nivel de grupo. Por ejemplo el promedio de ingresos por región en lugar de a nivel individual.

Microagregación

  • Descripción: Agrupar valores similares y reemplazarlos por la media de esos grupos.
  • Ejemplo: Agrupar edades cercanas y reemplazarlas por la media del grupo. Por ejemplo reemplazar edades 42, 43, y 44 con 44.

K-anonimato

  • Descripción: Asegurar que cada registro no sea distinguible de al menos k-1 otros registros.
  • Ejemplo: Modificar los datos para que cada combinación de atributos cuasi-identificadores aparezca al menos k veces.

L-diversidad

  • Descripción: Garantizar que en cada grupo k-anónimo haya al menos l valores “bien representados” para los atributos sensibles.
  • Ejemplo: Si se usa k-anonimato para sueldos, asegurar que en cada grupo k-anónimo haya una diversidad significativa de valores.

T-closeness

  • Descripción: Asegurar que la distribución de un atributo sensible en cualquier grupo k-anónimo sea similar a la distribución global del atributo.
  • Ejemplo: Ajustar los datos de manera que la distribución de sueldos en cada grupo sea similar a la distribución general de sueldos en el conjunto de datos.

Privacidad Diferencial

  • Descripción: Añadir ruido a las consultas de datos para asegurar que los resultados sean prácticamente los mismos, independientemente de si cualquier individuo está en el conjunto de datos.
  • Ejemplo: Ajustar respuestas a consultas estadísticas sobre un conjunto de datos para que no revelen la presencia o ausencia de cualquier individuo.

Herramientas para la anonimización de los Datos de Investigación

Amnesia

Amnesia es una herramienta de código abierto desarrollada por OpenAIRE diseñada para anonimizar datos tabulares con información identificable y transformar identificadores secundarios como fechas de nacimiento y códigos postales para garantizar la privacidad. La plataforma utiliza técnicas como k-anonimato y l-diversidad. Se encuentra disponible la demo de forma gratuita para su descarga a través del sitio oficial.

ARX (Data Anonymization Tool)

ARX es una herramienta de código abierto diseñada para ofrecer escalabilidad y facilidad de uso. Soporta diversas técnicas de anonimización, métodos para analizar la calidad de los datos y riesgos de identificación. Además de tener una interfaz gráfica intuitiva es compatible con modelos de privacidad como k-anonimato, l-diversidad, t-closeness y privacidad diferencial. Si bien ARX no tiene una demo en línea específica, su interfaz gráfica y documentación extensiva permiten a los usuarios probar y entender cómo funciona la herramienta una vez que la descargan e instalan.

sdcMicro

sdcMicro es una herramienta de código abierto diseñada para la anonimización de microdatos, ideal para datos censales y de encuestas. Ofrece métodos como supresión, recodificación, perturbación y generación de microdatos sintéticos. Se trata de una colección de funciones, datos y documentación que amplía las capacidades básicas del lenguaje de programación R. Los paquetes permiten a los usuarios añadir nuevas funcionalidades a R sin tener que escribir código desde cero.

Cabe destacar que sdcMicro no ofrece una demo en línea específica, pero su interfaz gráfica y la documentación presentada permiten a los usuarios familiarizarse con la herramienta y probar sus funcionalidades.

ARGUS (Anti Re-identification General Utility System)

La herramienta de código abierto utiliza una amplia gama de diferentes métodos de anonimización estadística, como la recodificación global (agrupación de categorías), la supresión local, la aleatorización, la adición de ruido, la micro agregación, la codificación superior e inferior. También se puede utilizar para generar datos sintéticos. ARGUS permite la descarga de su software a través de su sitio web.

https://research.cbs.nl/casc/mu.htm 

Como se mencionó anteriormente, la anonimización de datos de investigación requiere de un análisis exhaustivo de su contenido previo al autoarchivo en el Banco de Datos de SIGEVA. Seguir adecuadamente las técnicas de anonimización permite que el conjunto de datos continúe su ciclo de vida hasta su procesamiento y finalmente su publicación y posible reutilización en el Repositorio de Datos de Investigación del CONICET.

 


 

Bibliografía:

ARX – Data Anonymization Tool: A comprehensive software for privacy-preserving microdata publishing. (s. f.). https://arx.deidentifier.org/ 

Biblioguias: Gestión de datos de investigación: Anonimización de los datos. (s. f.). https://biblioguias.cepal.org/c.php?g=495473&p=4961125

Congreso de la Nación Argentina. (2000). Ley de Protección de los Datos Personales, Ley 25.326. Boletín Oficial, 2 de noviembre de 2000. https://www.argentina.gob.ar/normativa/nacional/ley-25326-2000-64790

Discover Amnesia – Anonymity for your data. (2020, 8 diciembre). OpenAIRE. https://www.openaire.eu/discover-amnesia-anonymity-for-your-data

GitHub: ARX-deidentifier/arx. (s. f.). GitHub. https://github.com/arx-deidentifier/arx 

Personal Data Protection Commission Singapore. (2022). Guía básica de anonimización (Agencia española de protección de datos, Trad.; Agencia española de protección de datos). https://www.aepd.es/documento/guia-basica-anonimizacion.pdf

SDC with sdcMicro in R: Setting Up Your Data and more — SDC Practice Guide  documentation. (s. f.). https://sdcpractice.readthedocs.io/en/latest/sdcMicro.html

Statistical Disclosure Control Methods for Anonymization of Data and Risk Estimation. (s. f.). https://sdctools.github.io/sdcMicro/

Datos de Investigación: ¿Por qué compartir los datos de investigación implica un avance hacia la ciencia abierta?

 

El movimiento de la ciencia abierta a nivel mundial impulsa a la comunidad científica al progreso y a promover la innovación, siendo el acceso y la transparencia los elementos fundamentales para llevar adelante la causa. La apertura de los datos de investigación obtenidos durante el desarrollo de las investigaciones tiene como uno de sus beneficios el de la reutilización por parte de otros investigadores/as. Esto implica que los investigadores/as deben asegurarse de mantener la integridad y accesibilidad de los datos, no solo para su propio beneficio, sino también para que puedan ser compartidos con otros.

Beneficios a la hora de compartir datos de investigación

  • Maximiza el impacto de la investigación

Cuando los conjuntos de datos de investigación están disponibles para su descarga, se amplía el alcance de la investigación. Esto permite que otros investigadores/as puedan desarrollar nuevo conocimiento a través de los hallazgos ya existentes. De esta forma se acelera el ritmo de la innovación.

  • Promueve la transparencia 

Una vez que los datos de investigación se encuentran accesibles, los investigadores/as que hacen uno de los mismos se encuentran con la posibilidad de revisar y validar los métodos y técnicas utilizados para recopilar y analizar los datos. Esta transparencia contribuye a mantener altos estándares de integridad científica y por consiguiente, evita prácticas relacionadas al fraude o el sesgo selectivo.

  • Fomenta la reproducibilidad y la verificabilidad

Compartir los datos puede ayudar a otros investigadores/as a replicar los resultados y comprobar la validez de las conclusiones. Esto es especialmente en investigaciones que tengan implicaciones importantes en la toma de decisiones en salud pública, políticas gubernamentales, entre otras. De esta manera se fortalece la confianza en la comunidad investigadora.

  • Permite la reutilización y la colaboración entre la comunidad científica

Al compartir datos de investigación, se abren nuevas oportunidades para la reutilización ya que pueden ser aprovechados en contextos diferentes a los originales. Esto conduce a la generación de nuevos conocimientos en diferentes campos interdisciplinarios. Asimismo, la reutilización fomenta la colaboración entre investigadores alrededor del mundo, puesto que se eliminan las barreras al acceso a la información.

La disponibilidad de conjuntos de datos de investigación en el Repositorio de Datos de Investigación CONICET Digital es esencial para avanzar hacia una ciencia abierta y más colaborativa. La colección, que contiene más de mil conjuntos de datos de investigación, coloca a CONICET como uno de los organismos referentes en esta temática. Permitiendo a la comunidad científica la creación de nuevas y futuras investigaciones.

Lanzamiento del Repositorio de Datos de Investigación

 

CONICET presenta el Repositorio de Datos de Investigación de acceso abierto centralizado en el almacenamiento, la preservación y la difusión de datos de investigación, facilitando el acceso y la reutilización de la información científica creada y autoarchivada en el Banco de Datos del SIGEVA por investigadores/as, becarios/as y personal de apoyo del organismo.

El sitio especializado en datos de investigación alberga mil sets que cuentan con un identificador persistente (HANDLE*) para difundir y compartir con las editoriales u otros colegas.

La publicación de sets de datos de investigación conlleva múltiples beneficios, entre ellos:

  • Vincular datos con publicaciones: centralizar y vincular, en los casos que aplique, los conjuntos de datos de investigación con su producción científico tecnológica.
  • Más citaciones: facilita la recuperación de los sets de datos para que éstos sean reutilizables, amplificando la posibilidad de citación y reaprovechamiento.
  • Más difusión: los sets de datos son indexados por motores de búsqueda y cosechados por otros sistemas o repositorios.
  • Preservación segura y a largo plazo: los sets de datos de investigación quedan almacenados y resguardados de manera centralizada, en un solo lugar, pudiendo cada investigador/a crear un perfil único de acceso con su producción científica y sus datos de investigación.
  • Estadísticas: posibilidad de consultar indicadores de impacto o métricas alternativas sobre la actividad de las publicaciones y datos en un solo espacio.

Por otra parte, la plataforma digital presenta un diseño funcional que permite navegar entre áreas de conocimiento. Asimismo, el sitio alberga diferentes tipos de recursos para conocer más sobre los datos de investigación, siendo los videotutoriales el material principal para aprender sobre qué son y qué no son datos de investigación, para qué necesitamos de ellos, cuál es la normativa que los regula, las características de los conjuntos de datos con sus ejemplos, cómo es el ciclo de publicación , entre otras temáticas desarrolladas.

Además, la plataforma cuenta con una sección de Novedades en donde se publicarán noticias, herramientas y recomendaciones para continuar afianzando las buenas prácticas en función de los conjuntos de datos de investigación.

Últimas noticias

Datos de Investigación: conocé las cinco razones por las cuales todavía no publicamos un set de datos 

Datos de Investigación: ¿Cómo obtener el DOI/Handle?

Datos de Investigación: Tipos de acceso y licencias

La disponibilidad de conjuntos de datos en el Repositorio de Datos de Investigación CONICET Digital es esencial para impulsar el avance del conocimiento y afianzar las iniciativas en pro de la Ciencia Abierta no solo a nivel nacional sino también a nivel global, siendo CONICET una de las entidades referentes en el desarrollo de la ciencia y la tecnología.


*Identificador persistente que permite que los conjuntos de datos u otros objetos digitales puedan ser identificados, representados y utilizados, facilitando el reuso, la citación y la socialización de las producciones científicas y/o académicas.

Datos de Investigación: tipos de acceso y licencias

 

Depositar los datos de investigación en el Banco de Datos del SIGEVA implica que los autores/as indiquen el nivel de acceso o visibilidad de los archivos. Este proceso busca mantener la integridad y seguridad de los datos, al tiempo que se fomenta la difusión responsable de la investigación en cumplimiento con la Ley 25.326 relacionada a la protección de los datos personales y/o sensibles.

Niveles de acceso en el Banco de Datos del SIGEVA:

  • Acceso abierto: Los archivos y los metadatos estarán disponibles en el RI para su libre consulta.
  • Acceso restringido: Los metadatos podrán ser consultados en el RI, pero los archivos adjuntos no podrán ser descargados para su reutilización. Los archivos sólo podrán ser solicitados a sus autores/as a través de un formulario web disponible en la misma ficha del registro en el RI.
  • Acceso embargado: Los metadatos podrán ser consultados en el RI, pero los archivos se encontrarán embargados hasta la fecha que especifique los/las autores/as es decir, no podrán ser consultados por los usuarios. En cambio, los metadatos estarán disponibles en el repositorio. Una vez que pase la fecha seleccionada, los archivos cambiarán automáticamente el tipo de acceso a abiertos y serán de libre consulta en el RI.

Por otro lado, el Repositorio Institucional CONICET Digital promueve la disponibilidad de los datos de investigación a través de licencias abiertas. Las licencias Creative Commons son un conjunto de herramientas que ofrecen a los autores/as  la posibilidad de compartir y reutilizar su trabajo de manera segura, adaptable y sencilla.

  • Licencia de Dedicación de Dominio Público: Permite una cesión de derechos completa a Dominio Público.
  • Licencia de atribución de Open Data Commons: Admite a los usuarios compartir, utilizar y construir sobre datos que se han puesto a disposición del público.
  • Licencia de Reconocimiento – No Comercial – Compartir igual: Concede compartir de manera No comercial y utilizando la misma licencia.

Cabe destacar que a la hora de procesar los sets de datos de investigación, la Oficina Técnica del RI no modifica el acceso ni las licencias. De esta manera, teniendo en cuenta los tipos de acceso en el Banco de Datos y las licencias de uso seleccionadas por los autores/as de los datos de investigación se busca facilitar la difusión de los mismos, asegurando su adecuada atribución y uso. Este enfoque busca estimular la transparencia y fomentar la colaboración entre la comunidad científica.

Conozca las Políticas del RI CONICET Digital haciendo clic aquí 
Para más información acceda al videotutorial ¿Cómo reutilizar y citar una Colección de Datos de Investigación?

Datos de investigación: ¿Cómo obtengo un DOI/HANDLE?

 

Los DOI/HANDLES son identificadores persistentes que permiten que los conjuntos de datos u otros objetos digitales puedan ser identificados, representados y utilizados, facilitando el reuso, la citación y la socialización de las producciones científicas y/o académicas. Cabe destacar que en el RI CONICET Digital utilizamos el identificador persistente HANDLE. Su obtención se logra una vez que el set de datos completa el Ciclo de depósito, el cual comienza en el Banco de Datos del SIGEVA y finaliza con la publicación en el Repositorio Institucional  CONICET Digital.

Los investigadores/as, becarios/as y personal de apoyo del CONICET podrán compartir el HANDLE con las editoriales u otros colegas, y a su vez podrán obtenerlo desde la ficha del ítem publicado en el apartado Identificador del recurso.

Solicitud express de publicación de un set de datos

El seguimiento personalizado de un set de datos lo lleva a cabo la Oficina Técnica del Repositorio Institucional CONICET Digital cuando los investigadores/as, becarios/as y personal de apoyo del CONICET solicitan la publicación inmediata de un set de datos debido a que la editorial de la revista en donde desean publicar, solicita el HANDLE de los datos de investigación alojados en el repositorio. A raíz de este motivo es que, luego de que los datos de investigación fueron depositados en el Banco de Datos del SIGEVA curamos y aceleramos su publicación en el repositorio para la inmediata reutilización y citación por la comunidad científica.

Para más información sobre la publicación express de un set de datos escribanos a repodatos@conicet.gov.ar

La publicación de datos de investigación se encuentra en auge a nivel mundial siendo uno de los recursos más visibilizados durante el último periodo. El Repositorio Institucional CONICET Digital cuenta con una colección de mil sets de datos de investigación que puede ser consultada de manera libre y gratuita por la comunidad científica y el público en general.

Para conocer el paso a paso del autoarchivo de un conjunto de datos en el Banco de Datos del SIGEVA  puede acceder a:

Datos de investigación: conocé las cinco razones por las cuales todavía no publicamos un set de datos

Desde el año 2022 el Repositorio Institucional CONICET Digital cuenta con una plataforma para preservar los datos de investigación colectados o producidos en cualquier actividad científica por la Comunidad CONICET. En la actualidad la colección cuenta con casi mil sets de datos de investigación que invitan a la comunidad científica a facilitar nuevas y futuras investigaciones.

Continuar acortando la brecha al conocimiento y seguir en el camino de la #CienciaAbierta implica adoptar las buenas prácticas en el autoarchivo de sets de datos de investigación en el Banco de datos de SIGEVA, sin embargo no todos los sets cumplen en primera instancia, con lo requerido para ser publicados en el RI CONICET Digital.

Cinco razones por las cuales todavía no publicamos un set de datos

1. Autoarchivo de publicaciones que no son datos

Un set de datos de investigación no puede incluir en sus adjuntos productos finales, es decir documentos elaborados que presentan información ya procesada ya sean artículos, libros, capítulos de libros, eventos o tesis. Por otra parte no pueden incluirse manuscritos o borradores. Cada uno de esos documentos deben ser autoarchivados en la sección/apartado correspondiente del Banco de Datos SIGEVA. De esa manera serán procesados y publicados en el Repositorio.

A su vez no forman parte de un set de datos aquellos gráficos, esquemas, cuadros, figuras surgidas a partir de la interpretación subjetiva de la recolección o producción de datos de investigación, estos insumos son parte del resultado o comprensión de su análisis.

2. Titulo poco descriptivo

Uno de los requerimientos más importantes en un set de datos es que debe contener un título descriptivo, es decir, un título que represente el contenido de manera clara y concisa, así como también su propósito y el alcance del conjunto de datos. Agregar mayor contexto facilita la recuperación del set por parte de los usuarios. De esta manera, el impacto de la investigación se verá reflejado en el aumento de la visibilidad. Un set de datos puede recuperarse no solamente a través del Repositorio Institucional CONICET Digital o Google, sino también mediante otros motores de búsqueda.

Se recomienda:

  • Evitar los títulos genéricos y/o redundantes (por ejemplo no incluir Dataset, Set de datos, Datos recolectados)
  • No utilizar mayúsculas si no es necesario
  • Separar título y subtítulo con dos puntos ‘:’
  • No incluir punto final

3. Formato (extensión de archivo) incorrecto

El formato de los archivos de un set de datos de investigación puede variar según el campo de estudio y los estándares o requisitos establecidos por las organizaciones que promueven la gestión y el intercambio de datos de investigación. NO se admiten .exe por políticas de ciberseguridad.

Algunos de los formatos de archivo más comunes en diferentes áreas de conocimiento podrían ser:

  • Para Ciencias sociales y humanidades: es común el uso de formatos como CSV, Excel, SPSS y STATA. También se puede utilizar el formato XML (Lenguaje de Marcado Extensible) para la codificación de datos estructurados.
  • En Ciencias de la salud: es común el uso de formatos como DICOM , CDA y HL7, que se utilizan para compartir datos médicos y clínicos.
  • Para Biología y ciencias naturales: en estas áreas, es común el uso de formatos como FASTA (Formato de Secuencia de Ácido Nucleico), GenBank (Formato de Archivo de Secuencia de Nucleótidos) y TIFF (Formato de Archivo de Imagen con Información de Etiqueta).

Es importante tener en cuenta que cada disciplina puede tener sus propios estándares y formatos de archivo recomendados. Por lo tanto, es recomendable que se informen sobre los estándares y requisitos de su área de estudio para asegurarse de elegir formatos comunes y sustentables al campo disciplinar al que se está trabajando.

Por otra parte, se recomienda que para la preservación de los datos, los formatos sean:

  • No propietarios (es decir de uso abierto y compartido)
  • Estándares abiertos y documentados
  • Utilizados comúnmente dentro de la comunidad de investigación
  • Transmitidos mediante formas de representación estándar (ASCII, Unicode)
  • No encriptados (es decir que no esté codificado o cifrado para proteger su contenido)
  • Sin compresión

Para los datos de investigación que sigan los principios FAIR (encontrable, accesible, interoperable y reutilizable), se recomiendan los siguientes formatos:

  • Contenedores: TAR, GZIP, ZIP
  • Bases de datos: XML, CSV, JSON
  • Geoespacial: SHP, DBF, GeoTIFF, NetCDF
  • Video: MPEG, AVI, MXF, MKV
  • Sonido: WAVE, AIFF, MP3, MXF FLAC
  • Estadísticas: DTA, POR, SAS, SAV
  • Imágenes: TIFF, JPEG 2000, PDF, DNG, GIF, BMP, SVG
  • Datos tabulares: CSV, TXT
  • Texto: XML, PDF / A, HTML, JSON, TXT, RTF
  • Archivo web: WARC

4. Anonimización incompleta

La publicación de un set de datos en el Repositorio Institucional CONICET Digital requiere de anonimizar toda información sensible y/o personal que pudiera estar visible en los archivos adjuntos (Ley. 25.326). Es responsabilidad de los autores/as proceder con esta intervención como así también seleccionar el tipo de acceso que estos documentos tendrán al momento de su publicación.

5. Falta de respuesta de los autores/as

Desde el RI CONICET Digital nos hemos comunicado con los autores/as a través de emails para informales que sus sets de datos requieren modificaciones en su Banco de Datos para ser procesados y publicados en la colección de datos de investigación. Los emails contenían información detallada sobre los cambios a realizar de tal manera que si los autores/as no llevan a cabo los cambios solicitados, el set de datos queda imposibilitado para continuar su curso hasta la publicación.

Desde el Repositorio Institucional CONICET Digital los invitamos a consultar los recursos que tenemos a disposición para conocer más sobre los sets de datos de investigación:

Consultas a: repodatos@conicet.gov.ar 

Videotutoriales para autoarchivar Datos de Investigación

Desde el Repositorio Institucional CONICET Digital presentamos una guía de videotutoriales para el autoarchivo de Datos de Investigación en la sección Datos de Investigación — Videotutoriales de nuestro sitio web y en nuestro canal de Youtube CONICET Digital. La misma tiene como objetivo brindar información sobre cómo depositar en el Banco de Datos de SIGEVA los conjuntos de Datos de Investigación generados o recolectados en el marco de una investigación para su depósito final en acceso abierto o embargado en el RI CONICET Digital.

La guía busca responder las preguntas más frecuentes de los investigadores y las investigadoras del CONICET permitiéndoles seleccionar específicamente la duda que deseen resolver. Además cuenta con algunos ejemplos de Datos de Investigación según las disciplinas científicas.

  • ¿Qué es y qué no es un Set de Datos de Investigación?
  • Ejemplos de Sets de Datos de Investigación
  • ¿Para qué autoarchivar un set de Datos de Investigación?
  • ¿Cómo crear un Set de Datos?
  • ¿Cómo autoarchivar en el Banco de Datos del SIGEVA?
  • ¿Cómo administrar la participación de los demás autores/as del autoarchivo del Set de Datos?
  • ¿Cómo es el ciclo de publicación de un Set de Datos para obtener un doi/handle?
  • ¿Cómo reutilizar y citar una colección de Datos de Investigación?
  • ¿Cómo puedo aprender más sobre la gestión de Datos de Investigación?

Estos videos se suman a los distintos recursos disponibles para aprender más sobre Datos de Investigación.

Gestión de datos de investigación: del autoarchivo en SIGEVA CONICET al Repositorio Institucional

El día 29 de marzo realizamos un Webinar sobre la Gestión de Datos de Investigación en CONICET, al mismo asistieron más de 500 participantes, entre ellos:  investigadores/as, becarios/as, personal de apoyo a la investigación, personal de gestión y miembros de la Red Federal de Curadores del RI CONICET Digital.

Los contenidos se organizaron en dos grandes bloques, el primero estuvo enfocado en el alcance y contexto de la gestión de datos en CONICET, sobre todo en los aspectos relativos a la legislación y normativa: Ley 26.899, la Res. 753/16 y la Res. 2325/21 “2da. Versión de las Políticas de Acceso Abierto del RI CONICET Digital” y a la optimización de recursos basada en la posibilidad de su reutilización. Dentro de esta primera parte también se mostró el flujo de tareas completo que abarca desde el Autoarchivo en el Banco de Datos del SIGEVA CONICET hasta el depósito en el Repositorio Institucional CONICET Digital.

Finalizando la primera etapa del webinar, mostramos en vivo cómo utilizar el nuevo formulario del Banco de Datos que cuenta con nuevas características como la edición compartida, el carácter único del registro, notificaciones e historial de cambios.

El último bloque de este Taller estuvo enfocado al procesamiento del conjunto de datos en la plataforma de curatoría del Repositorio Institucional donde se realizan algunas verificaciones sobre metadatos para resguardar su interoperabilidad.

Te invitamos a ver el webinar grabado aquí

También podés consultar el tutorial del autoarchivo de datos de investigación en el Banco de Datos del SIGEVA CONICET aquí o si preferís podés seguir el paso a paso en el Manual

No olvides leer la ayuda contextual en el mismo formulario que te irá orientando en cada campo.

Si tenés más consultas podés escribirnos a la cuenta del repositorio de datos, haciendo clic aquí.

El CONICET implementa una plataforma para la preservación de sus datos de investigación

Con el objetivo de avanzar en el cumplimiento de la Ley 26.899/13 “Repositorios digitales institucionales de acceso abierto”, el Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET) -a través de la Gerencia de Organización y Sistemas- implementó una plataforma para preservar los datos de investigación colectados o producidos en cualquier actividad científica por la Comunidad CONICET.

Esta implementación tiene múltiples beneficios para investigadores/as, becarios/as y personal de apoyo. Por un lado, permitirá centralizar y vincular, en los casos que aplique, los conjuntos de datos de investigación con la producción científico tecnológica y, por el otro, facilitará su recuperación para que éstos sean reutilizables. Además, quedarán almacenados y resguardados en un solo lugar pudiendo crear un perfil de su producción científica y datos de investigación donde referirse a través de un único acceso. También, se obtendrá por cada set de datos un identificador persistente (handle) el cual será el link que se podrá utilizar tanto para compartir el acceso como para realizar las citaciones bibliográficas.

La plataforma se encuentra integrada por el Banco de Datos del Sistema Integral de Gestión y Evaluación (SIGEVA) y el flujo de depósito del Repositorio Institucional CONICET Digital.

El autoarchivo de este tipo de recursos se podrá realizar de forma unificada y colaborativa a través de un nuevo formulario del Banco de Datos del SIGEVA, diseñado para abarcar los conjuntos de datos provenientes de cualquier disciplina científica.

El nuevo formulario reúne funcionalidades novedosas que facilitarán tanto la carga como el procesamiento para su posterior disponibilidad en el Repositorio CONICET Digital. Cuenta con validaciones y controles que preservan la descripción según estándares predefinidos, una ayuda contextual para aclarar consultas rápidamente y un nuevo componente* para determinar las coordenadas geográficas en donde se crearon o recolectaron los datos de investigación.

La reutilización de los datos de investigación quedará sujeta a los resguardos pertinentes tanto de derechos como de licencias de uso. Siempre y cuando los datos estén aptos para su reutilización una vez depositados en el Repositorio CONICET Digital, los mismos podrán ser indexados por motores de búsqueda y cosechados por otros sistemas o repositorios. Además, el Repositorio recibe actualmente más de 1 millón de visitas al mes, lo que amplifica la posibilidad de citación y reaprovechamiento.

Para ver el manual para autoarchivar datos de investigación en el Banco de Datos del SIGEVA haga click aquí.

Este desarrollo es una nueva acción concreta hacia la Ciencia Abierta** y el avance en el cumplimiento de la Ley 26.899/13 “Repositorios digitales institucionales de acceso abierto” y su reglamentación Res. 753/16.

Para implementar el depósito y reutilización de los datos de investigación provenientes de las actividades científicas se han actualizado las Políticas del Repositorio Institucional CONICET Digital aprobadas por la RD Nro. 2325/21.

Consultas a repodatos@conicet.gov.ar