Datos de Investigación: la importancia de un título descriptivo en la creación de un conjunto de datos de investigación

 

La elaboración de un título descriptivo para un conjunto de datos de investigación es una instancia fundamental en el armado de set de datos ya que sirve como la primera impresión que la comunidad científica tendrá del contenido. Un título detallado  facilita la comprensión del objetivo del conjunto de datos y su potencial aplicación, lo cual a su vez permite la localización y la recuperación por parte de los investigadores/as interesados en la temática. De esa manera, el impacto de la investigación se verá reflejado en el aumento de la visibilidad, consulta o reutilización entre los interesados .

Un set de datos no solamente se puede recuperar a través del Repositorio de Datos de Investigación del CONICET o Dataset Search de Google, sino también mediante otros motores de búsqueda especializados ya sean OpenAire o Base (Bielefeld Academic Search Engine).

Algunos elementos a tener en cuenta a la hora de redactar un título descriptivo son:

Contexto y alcance: El título debe reflejar con precisión el contenido y el alcance del set de datos. Es importante especificar el tipo de datos que contiene el adjunto, la muestra estudiada, el período de tiempo, y cualquier característica que sea importante destacar.

Evitar generalizaciones o redundancias: Un título con poca información puede confundir a los usuarios o reducir la visibilidad del set de datos en búsquedas específicas. Asimismo, deben evitarse términos como «dataset, set de datos, datos recolectados».

Facilitar la indexación: La correcta selección de palabras claves deben integrarse en el título para asegurar que el set de datos sea fácilmente localizable a través de motores de búsqueda y bases de datos académicas.

Considerar a la audiencia: Es importante tener en cuenta que un título debe ser lo suficientemente claro para que cualquier investigador/a en la disciplina comprenda de qué trata el set de datos. Dependiendo del campo de investigación, puede ser necesario utilizar vocabulario específico que la comunidad científica reconozca y entienda.

Ejemplos de títulos descriptivos:

  • Cartografía e imágenes de las zonas críticas de la inundación en Santa Fe en el año 2003 
  • Relevamiento de asentamientos populares en la ciudad de Buenos Aires, 2020-2022
  • Restos arqueológicos guaraníes en el río Uruguay
  • Resultados de encuestas sobre hábitos alimentarios en adolescentes de escuelas secundarias en la región de Buenos Aires, 2018-2022

Confeccionar un buen título para un conjunto de datos es un paso crucial que requiere la misma atención y precisión que el resto del proyecto de investigación. Un título bien elaborado no solo mejora la accesibilidad y el impacto del set de datos, sino que también asegura que el trabajo del investigador/a sea correctamente representado y aprovechado por la comunidad científica.

Datos de Investigación: formatos aceptados para la publicación de un conjunto de datos

 

El Repositorio de Datos de Investigación del CONICET ofrece un espacio centralizado donde los investigadores pueden depositar conjuntos de datos organizados por áreas de conocimiento, facilitando su acceso y promoviendo la transparencia y la colaboración en la comunidad científica. El formato de los archivos debe reunir ciertas características que son esenciales  para garantizar la accesibilidad, la preservación, la reutilización de los datos y la colaboración entre los investigadores/as.

Aunque la selección del formato queda limitada tanto al procesamiento de los datos como a su lectura es preciso  también tener en cuenta una serie de consideraciones en función de la investigación y los estándares de la disciplina. De esta manera los datos compartidos estarán a disposición de la comunidad científica de forma libre, abierta y gratuita para su reutilización.

Conozca más en el videotutorial ¿Cómo crear un set de datos?

Los datos de investigación y los principios FAIR

Los principios FAIR (por sus siglas en inglés, Findable, Accessible, Interoperable, Reusable) recomiendan utilizar formatos de archivo que faciliten la búsqueda, acceso, interoperabilidad y reutilización de los datos:

Esto no implica que absolutamente todos los datos deban de tener el mismo nivel de apertura ni que todos los datos de todas las disciplinas sigan las mismas reglas.

Se recomienda que para la preservación de los datos, los formatos cumplan las siguientes características:

  • No propietarios (es decir de uso abierto y compartido).
  • Estándares abiertos y documentados.
  • Utilizados comúnmente dentro de la comunidad de investigación.
  • Transmitidos mediante formas de representación estándar (ASCII, Unicode).
  • No encriptados (que no estén codificado o cifrado para proteger su contenido).
  • Sin compresión.

Por consiguiente, para los datos de investigación que sigan los principios FAIR se sugieren los siguientes formatos:

Datos tabulares

  • CSV (Comma-Separated Values): .csv
  • TSV (Tab-Separated Values): .tsv
  • XLS (con precaución): .xlsx

Datos textuales

  • Plain text: .txt
  • XML (eXtensible Markup Language): .xml
  • JSON (JavaScript Object Notation): .json
  • HTML (HyperText Markup Language): .html

Datos numéricos

  • HDF5 (Hierarchical Data Format version 5): .h5
  • NetCDF (Network Common Data Form): .nc

Datos geoespaciales

  • GeoJSON: .geojson
  • Shapefile: .shp
  • KML (Keyhole Markup Language): .kml

Datos de imágenes

  • TIFF (Tagged Image File Format): .tiff, .tif
  • PNG (Portable Network Graphics): .png
  • JPEG (Joint Photographic Experts Group): .jpeg, .jpg

Datos audio-visuales

  • WAV (Waveform Audio File Format): .wav
  • MP3 (MPEG Audio Layer III): .mp3
  • MP4 (MPEG-4 Part 14): .mp4

Datos estructurados

  • RDF (Resource Description Framework): .rdf
  • SPARQL (SPARQL Protocol and RDF Query Language): .sparql

Cabe destacar que los conjuntos de datos no pueden contener archivos con formatos ejecutables debido a razones de seguridad, puesto que pueden contener malware, virus u otros tipos de software maliciosos que pueden comprometer la seguridad de los sistemas donde se ejecuten. Asimismo, este tipo de formato pone en peligro la integridad y la autenticidad de los datos ya que la información puede ser alterada. Los formatos ejecutables pueden no ser compatibles con todos los sistemas operativos, lo cual imposibilita la accesibilidad.  Además impiden el mantenimiento y el control de las versiones del conjunto generando dificultades de reproducibilidad en la investigación.

Tipos de formatos por áreas de conocimientos

En lo que se refiere a los tipos de formato por área de conocimiento, es importante tener en cuenta que cada disciplina puede tener sus propios estándares y formatos de archivo recomendados. Por lo tanto, se sugiere que los investigadores/as se informen sobre los estándares y requisitos de su área de estudio para asegurarse de elegir formatos comunes y sustentables al campo disciplinar al que se está trabajando.

Ciencias sociales y humanidades

  • CSV: común para datos tabulares como catálogos y registros.
  • XLS: usado para datos tabulares con múltiples hojas.
  • XML: para la codificación de datos estructurados.

Ciencias médicas y de la salud

  • CSV: para datos tabulares, como registros de pacientes.
  • XLS: usado para datos tabulares complejos.
  • DICOM: formato para imágenes médicas.
  • FHIR: estándar para datos de salud.
  • CDA/HL7: para estructurar datos clínicos.

Ciencias exactas y naturales

  • CSV: utilizado para datos tabulares, como observaciones y mediciones.
  • HDF5: para almacenamiento y organización de grandes volúmenes de datos.
  • NetCDF: usado en ciencias del clima y meteorología.
  • TXT: utilizado para datos simples y archivos de texto sin formato.
  • MOL/MOL2/SDF: formatos para estructuras químicas.
  • FASTA: para secuencias de ácido nucleico.
  • GenBank: utilizado en secuencias de nucleótidos.
  • XLS: datos tabulares con múltiples hojas.
  • Shapefile: para datos geoespaciales.
  • GeoTIFF: para datos de imágenes georreferenciadas.

Ciencias agrícolas

  • CSV: datos tabulares de campo, como mediciones de rendimiento, datos de suelo y clima.
  • XLS: utilizado para datos tabulares complejos, permitiendo múltiples hojas y análisis integrados.
  • TXT: para datos simples y archivos de texto sin formato.
  • Shapefile: formato estándar para datos geoespaciales, ampliamente utilizado en sistemas de información geográfica (SIG).
  • KML: Para datos geoespaciales, utilizado principalmente en Google Earth.
  • GeoTIFF: Para datos de imágenes georreferenciadas, como mapas de uso del suelo.
  • XML: Para datos estructurados y jerárquicos, como catálogos de especies y bases de datos agronómicas.

Ingeniería y tecnologías

  • CSV: Para datos tabulares, como resultados de encuestas topográficas.
  • XLS: Para datos tabulares complejos y análisis de proyectos.
  • STL: Modelos de impresión 3D.
  • XML: Para datos jerárquicos y configuraciones.
  • HDF5: Para almacenamiento y análisis de grandes volúmenes de datos de procesos.

Así como los principios FAIR establecen criterios para la preservación y la divulgación de los datos de investigación, la Open Science Foundation también enfatiza en la importancia de elegir formatos de datos que faciliten la transparencia, la accesibilidad y la reutilización de los datos de investigación.

Para comprobar si los datos cumplen con los principios FAIR existen herramientas que pueden brindar un análisis sobre el conjunto de datos:

FAIR-Aware

FAIR Data Self Assessment Tool

De esta manera el investigador/a garantiza que el conjunto de datos de investigación que, luego será autoarchivado en el Banco de Datos de SIGEVA, cumpla con las pautas necesarias para ser accesible y reutilizable por la comunidad científica.

Bibliografía

CEPAL. (s. f.). Formatos abiertos y cerrados. Biblioguías. https://biblioguias.cepal.org/gestion-de-datos-de-investigacion/formatos

Go Fair. (s. f.). Fair principles. https://www.go-fair.org/go-fair-initiative 

Ministerio para la transformación digital y de la función pública. (s. f.). Principios FAIR: Buenas prácticas para la gestión y administración de datos científicos. datos.gob.es. https://datos.gob.es/es/noticia/principios-fair-buenas-practicas-para-la-gestion-y-administracion-de-datos-cientificos 

Open knowledge. (s. f.). Formato de archivos. Open Data Handbook. https://opendatahandbook.org/guide/es/appendices/file-formats/ 

Repositorio Institucional CONICET Digital. (2021). Guía para autoarchivar un conjunto de datos de investigación en el Banco de Datos del SIGEVA. https://ri.conicet.gov.ar/wp/wp-content/uploads/2021/12/Guia-Formulario-de-datos-en-SIGEVA.pdf 

Secretaría de Innovación Pública. (s. f.). Guía para la publicación de datos en formatos abiertos. datos.gob.ar. https://datosgobar.github.io/paquete-apertura-datos/guia_abiertos/#formatos-abiertos-de-archivos 

Sixto Costoya, A., Aleixandre Benavent, R., Vidal Infer, A., Lucas Domínguez, R., & Castelló Cogollos, L. (2019). Data sharing: Qué son y cómo se pueden compartir los datos de investigación. Manual de recomendación para gestores de la información (Sociedad Española de Documentación e Información Científica, Vol. 7). https://www.sedic.es/wp-content/uploads/2020/01/Data_Sharing-DEF.pdf 

Universidad de Oviedo. (s. f.). Semana OA 2023: ¿Qué hacemos con los datos de investigación? Datos FAIR y PGD. Difunde UniOvi. https://accesoabiertouniovi.wordpress.com/2023/10/25/semana-oa-2023-que-hacemos-con-los-datos-de-investigacion-datos-fair-y-pgd/ 

Universidad Pablo de Olavide. (s. f.). Gestión de datos de investigación: Formatos. Guías y Tutoriales de la Biblioteca CRAI. https://guiasbib.upo.es/gestion_datos_de_investigacion/Formatos  

Datos de Investigación: el proceso de anonimizar

 

La anonimización de datos sensibles de los conjuntos de datos de investigación busca proteger los derechos y la privacidad de las personas, así como también preservar la integridad ética de la investigación. La exclusión de los datos garantiza que cierta información personal identificable no sea revelada, lo cual es esencial para dar cumplimiento a la Ley de Protección de Datos Personales (Ley 25.326).

Este proceso implica una evaluación previa de los conjuntos de datos de investigación por parte de los investigadores/as ya que de esa manera se podrán identificar aquella información sensible que integran los datos y aplicar las técnicas de anonimización adecuadas. Esto requiere que, en un primer lugar, el equipo de investigación conozca sus datos y los desidentifique, es decir eliminen todos aquellos identificadores directos que contienen información privada ya sean:

  • Datos personales: Información de cualquier tipo referida a personas físicas o de existencia ideal determinadas o determinables.
  • Datos sensibles: Datos personales que revelan origen racial y étnico, opiniones políticas, convicciones religiosas, filosóficas o morales, afiliación sindical e información referente a la salud o a la vida sexual.

Una vez identificados los datos deben aplicar las técnicas de anonimización adecuadas, calcular el riesgo de los datos de investigación ya modificados y finalmente, gestionar los riesgos de identificación y divulgación, puesto que los detalles del proceso de anonimización, los parámetros utilizados y los controles también deben registrarse claramente para futuras consultas. Cabe destacar que esta documentación debe conservarse de forma segura, ya que la revelación de los parámetros puede facilitar la reidentificación y la revelación de los datos anonimizados.

A continuación se describen algunas técnicas a tener en cuenta para el proceso de anonimización de los datos de investigación, así como también las herramientas más reconocidas para llevar adelante esta práctica.

Supresión

  • Descripción: Eliminar completamente ciertos valores o registros que contienen información sensible.
  • Ejemplo: Borrar nombres, direcciones o cualquier otro identificador directo de un conjunto de datos

Generalización

  • Descripción: Sustituir valores específicos por rangos o categorías más amplias.
  • Ejemplo: Convertir fechas de nacimiento exactas en rangos de edad. Por ejemplo 40-49 en lugar de 44.

Pseudonimización

  • Descripción: Reemplazar identificadores directos con pseudónimos o códigos.
  • Ejemplo: Sustituir nombres de personas por códigos únicos. Por ejemplo “ID123” en lugar de “Perez, Juan”.

Perturbación

  • Descripción: Alterar ligeramente los valores de los datos para proteger la privacidad.
  • Ejemplo: Añadir ruido aleatorio a los ingresos o edades.

Agregación

  • Descripción: Combinar datos de varios individuos en grupos o categorías.
  • Ejemplo: Reportar datos a nivel de grupo. Por ejemplo el promedio de ingresos por región en lugar de a nivel individual.

Microagregación

  • Descripción: Agrupar valores similares y reemplazarlos por la media de esos grupos.
  • Ejemplo: Agrupar edades cercanas y reemplazarlas por la media del grupo. Por ejemplo reemplazar edades 42, 43, y 44 con 44.

K-anonimato

  • Descripción: Asegurar que cada registro no sea distinguible de al menos k-1 otros registros.
  • Ejemplo: Modificar los datos para que cada combinación de atributos cuasi-identificadores aparezca al menos k veces.

L-diversidad

  • Descripción: Garantizar que en cada grupo k-anónimo haya al menos l valores “bien representados” para los atributos sensibles.
  • Ejemplo: Si se usa k-anonimato para sueldos, asegurar que en cada grupo k-anónimo haya una diversidad significativa de valores.

T-closeness

  • Descripción: Asegurar que la distribución de un atributo sensible en cualquier grupo k-anónimo sea similar a la distribución global del atributo.
  • Ejemplo: Ajustar los datos de manera que la distribución de sueldos en cada grupo sea similar a la distribución general de sueldos en el conjunto de datos.

Privacidad Diferencial

  • Descripción: Añadir ruido a las consultas de datos para asegurar que los resultados sean prácticamente los mismos, independientemente de si cualquier individuo está en el conjunto de datos.
  • Ejemplo: Ajustar respuestas a consultas estadísticas sobre un conjunto de datos para que no revelen la presencia o ausencia de cualquier individuo.

Herramientas para la anonimización de los Datos de Investigación

Amnesia

Amnesia es una herramienta de código abierto desarrollada por OpenAIRE diseñada para anonimizar datos tabulares con información identificable y transformar identificadores secundarios como fechas de nacimiento y códigos postales para garantizar la privacidad. La plataforma utiliza técnicas como k-anonimato y l-diversidad. Se encuentra disponible la demo de forma gratuita para su descarga a través del sitio oficial.

ARX (Data Anonymization Tool)

ARX es una herramienta de código abierto diseñada para ofrecer escalabilidad y facilidad de uso. Soporta diversas técnicas de anonimización, métodos para analizar la calidad de los datos y riesgos de identificación. Además de tener una interfaz gráfica intuitiva es compatible con modelos de privacidad como k-anonimato, l-diversidad, t-closeness y privacidad diferencial. Si bien ARX no tiene una demo en línea específica, su interfaz gráfica y documentación extensiva permiten a los usuarios probar y entender cómo funciona la herramienta una vez que la descargan e instalan.

sdcMicro

sdcMicro es una herramienta de código abierto diseñada para la anonimización de microdatos, ideal para datos censales y de encuestas. Ofrece métodos como supresión, recodificación, perturbación y generación de microdatos sintéticos. Se trata de una colección de funciones, datos y documentación que amplía las capacidades básicas del lenguaje de programación R. Los paquetes permiten a los usuarios añadir nuevas funcionalidades a R sin tener que escribir código desde cero.

Cabe destacar que sdcMicro no ofrece una demo en línea específica, pero su interfaz gráfica y la documentación presentada permiten a los usuarios familiarizarse con la herramienta y probar sus funcionalidades.

ARGUS (Anti Re-identification General Utility System)

La herramienta de código abierto utiliza una amplia gama de diferentes métodos de anonimización estadística, como la recodificación global (agrupación de categorías), la supresión local, la aleatorización, la adición de ruido, la micro agregación, la codificación superior e inferior. También se puede utilizar para generar datos sintéticos. ARGUS permite la descarga de su software a través de su sitio web.

https://research.cbs.nl/casc/mu.htm 

Como se mencionó anteriormente, la anonimización de datos de investigación requiere de un análisis exhaustivo de su contenido previo al autoarchivo en el Banco de Datos de SIGEVA. Seguir adecuadamente las técnicas de anonimización permite que el conjunto de datos continúe su ciclo de vida hasta su procesamiento y finalmente su publicación y posible reutilización en el Repositorio de Datos de Investigación del CONICET.

 


 

Bibliografía:

ARX – Data Anonymization Tool: A comprehensive software for privacy-preserving microdata publishing. (s. f.). https://arx.deidentifier.org/ 

Biblioguias: Gestión de datos de investigación: Anonimización de los datos. (s. f.). https://biblioguias.cepal.org/c.php?g=495473&p=4961125

Congreso de la Nación Argentina. (2000). Ley de Protección de los Datos Personales, Ley 25.326. Boletín Oficial, 2 de noviembre de 2000. https://www.argentina.gob.ar/normativa/nacional/ley-25326-2000-64790

Discover Amnesia – Anonymity for your data. (2020, 8 diciembre). OpenAIRE. https://www.openaire.eu/discover-amnesia-anonymity-for-your-data

GitHub: ARX-deidentifier/arx. (s. f.). GitHub. https://github.com/arx-deidentifier/arx 

Personal Data Protection Commission Singapore. (2022). Guía básica de anonimización (Agencia española de protección de datos, Trad.; Agencia española de protección de datos). https://www.aepd.es/documento/guia-basica-anonimizacion.pdf

SDC with sdcMicro in R: Setting Up Your Data and more — SDC Practice Guide  documentation. (s. f.). https://sdcpractice.readthedocs.io/en/latest/sdcMicro.html

Statistical Disclosure Control Methods for Anonymization of Data and Risk Estimation. (s. f.). https://sdctools.github.io/sdcMicro/

Datos de Investigación: ¿Por qué compartir los datos de investigación implica un avance hacia la ciencia abierta?

 

El movimiento de la ciencia abierta a nivel mundial impulsa a la comunidad científica al progreso y a promover la innovación, siendo el acceso y la transparencia los elementos fundamentales para llevar adelante la causa. La apertura de los datos de investigación obtenidos durante el desarrollo de las investigaciones tiene como uno de sus beneficios el de la reutilización por parte de otros investigadores/as. Esto implica que los investigadores/as deben asegurarse de mantener la integridad y accesibilidad de los datos, no solo para su propio beneficio, sino también para que puedan ser compartidos con otros.

Beneficios a la hora de compartir datos de investigación

  • Maximiza el impacto de la investigación

Cuando los conjuntos de datos de investigación están disponibles para su descarga, se amplía el alcance de la investigación. Esto permite que otros investigadores/as puedan desarrollar nuevo conocimiento a través de los hallazgos ya existentes. De esta forma se acelera el ritmo de la innovación.

  • Promueve la transparencia 

Una vez que los datos de investigación se encuentran accesibles, los investigadores/as que hacen uno de los mismos se encuentran con la posibilidad de revisar y validar los métodos y técnicas utilizados para recopilar y analizar los datos. Esta transparencia contribuye a mantener altos estándares de integridad científica y por consiguiente, evita prácticas relacionadas al fraude o el sesgo selectivo.

  • Fomenta la reproducibilidad y la verificabilidad

Compartir los datos puede ayudar a otros investigadores/as a replicar los resultados y comprobar la validez de las conclusiones. Esto es especialmente en investigaciones que tengan implicaciones importantes en la toma de decisiones en salud pública, políticas gubernamentales, entre otras. De esta manera se fortalece la confianza en la comunidad investigadora.

  • Permite la reutilización y la colaboración entre la comunidad científica

Al compartir datos de investigación, se abren nuevas oportunidades para la reutilización ya que pueden ser aprovechados en contextos diferentes a los originales. Esto conduce a la generación de nuevos conocimientos en diferentes campos interdisciplinarios. Asimismo, la reutilización fomenta la colaboración entre investigadores alrededor del mundo, puesto que se eliminan las barreras al acceso a la información.

La disponibilidad de conjuntos de datos de investigación en el Repositorio de Datos de Investigación CONICET Digital es esencial para avanzar hacia una ciencia abierta y más colaborativa. La colección, que contiene más de mil conjuntos de datos de investigación, coloca a CONICET como uno de los organismos referentes en esta temática. Permitiendo a la comunidad científica la creación de nuevas y futuras investigaciones.

Capacitación: Datos de Investigación 2024

 

En línea con el lanzamiento del Repositorio de Datos de Investigación,  el Repositorio Institucional CONICET Digital presenta la Capacitación sobre Datos de Investigación 2024 diseñada para directores, vicedirectores, investigadores, becarios, personal de apoyo del CONICET e integrantes de la Red Federal de Curadores, con el objetivo de explorar en profundidad la temática de Datos de Investigación. Además, el encuentro sincrónico abordará las preguntas más comunes sobre este tópico:

  • ¿Qué son y qué no son los datos de investigación?
  • ¿Cómo obtener un HANDLE (también conocido como DOI)?
  • ¿Cómo reutilizar y citar los datos de investigación?

Asimismo, se hará un recorrido  por el formulario de Datos de Investigación  del Banco de Datos del SIGEVA para conocer sus funcionalidades y características principales al momento de autoarchivar un set de datos.

¿Cómo participar?

La capacitación tendrá lugar en tres encuentros optativos durante  los meses de abril, agosto y noviembre. La misma tendrá un tiempo de duración de 2 hs y será transmitida a través de streaming a través de YouTube. Días previos al encuentro se enviará el formulario de inscripción por SINE a la comunidad CONICET en general. Al recibirlo, se invita a los interesados a completar el formulario en donde encontrarán de manera detallada la fecha y el horario en el cual que se desarrollará la capacitación. Cabe destacar que una hora antes del encuentro se enviará a todos los participantes el enlace a la capacitación.


Conozca más sobre los Datos de Investigación en:

Para más información escriba a repodatos@conicet.gov.ar 

Semana de Datos Abiertos

 

Todos los años a nivel global y liderado por la Open Knowledge Foundation (OKFN) se lleva adelante la Semana de Datos Abiertos (Open Data Week). Este evento tiene el objetivo de impulsar a las organizaciones a realizar alguna iniciativa con el propósito de resaltar los beneficios y utilidades de los datos abiertos. Así como también incentivar la adopción de políticas de datos abiertos en el ámbito gubernamental, empresarial y la sociedad civil, lo que facilitará la evaluación del avance hacia el cumplimiento de los Objetivos de Desarrollo Sostenible para el año 2030.

Este año desde la Secretaría de Innovación, Ciencia y Tecnología, a cargo de Alejandro Cosentino, se realizaron las Jornadas de Datos Abiertos en el Centro Cultural de la Ciencia. Allí se desarrollaron paneles, actividades y talleres prácticos en donde se plantearon diferentes estrategias en materia de gestión de datos en el sector público. Siendo la transformación de los datos abiertos en una política pública, la definición de nuevos estándares para la publicación de datos y la importancia de contar con datos que tengan un propósito para ser abiertos y sean considerados de alto valor, los temas más destacados de las jornadas.

Asimismo, durante el evento se le dio importancia al uso de licencias abiertas para el más amplio aprovechamiento de los datos públicos. Generando así un debate significativo entre los especialistas del tema. De esta manera y en base a los talleres como espacios de intercambio de ideas se incentiva al desarrollo de mejores servicios y políticas públicas eficaces para la adopción de datos abiertos en el ámbito gubernamental.

Como parte de estas acciones, desde el RI CONICET Digital seguimos acortando la brecha entre la ciencia y la sociedad, creando posibilidades que generen mayor equidad en el acceso a los contenidos. El lanzamiento del  Repositorio de Datos de Investigación con más de 1.000 registros a disposición de la comunidad científica y el público en general refleja nuestro compromiso con el avance del conocimiento y la ciencia abierta.

Para más información consulte la Jornada de Datos Abiertos 

Lanzamiento del Repositorio de Datos de Investigación

 

CONICET presenta el Repositorio de Datos de Investigación de acceso abierto centralizado en el almacenamiento, la preservación y la difusión de datos de investigación, facilitando el acceso y la reutilización de la información científica creada y autoarchivada en el Banco de Datos del SIGEVA por investigadores/as, becarios/as y personal de apoyo del organismo.

El sitio especializado en datos de investigación alberga mil sets que cuentan con un identificador persistente (HANDLE*) para difundir y compartir con las editoriales u otros colegas.

La publicación de sets de datos de investigación conlleva múltiples beneficios, entre ellos:

  • Vincular datos con publicaciones: centralizar y vincular, en los casos que aplique, los conjuntos de datos de investigación con su producción científico tecnológica.
  • Más citaciones: facilita la recuperación de los sets de datos para que éstos sean reutilizables, amplificando la posibilidad de citación y reaprovechamiento.
  • Más difusión: los sets de datos son indexados por motores de búsqueda y cosechados por otros sistemas o repositorios.
  • Preservación segura y a largo plazo: los sets de datos de investigación quedan almacenados y resguardados de manera centralizada, en un solo lugar, pudiendo cada investigador/a crear un perfil único de acceso con su producción científica y sus datos de investigación.
  • Estadísticas: posibilidad de consultar indicadores de impacto o métricas alternativas sobre la actividad de las publicaciones y datos en un solo espacio.

Por otra parte, la plataforma digital presenta un diseño funcional que permite navegar entre áreas de conocimiento. Asimismo, el sitio alberga diferentes tipos de recursos para conocer más sobre los datos de investigación, siendo los videotutoriales el material principal para aprender sobre qué son y qué no son datos de investigación, para qué necesitamos de ellos, cuál es la normativa que los regula, las características de los conjuntos de datos con sus ejemplos, cómo es el ciclo de publicación , entre otras temáticas desarrolladas.

Además, la plataforma cuenta con una sección de Novedades en donde se publicarán noticias, herramientas y recomendaciones para continuar afianzando las buenas prácticas en función de los conjuntos de datos de investigación.

Últimas noticias

Datos de Investigación: conocé las cinco razones por las cuales todavía no publicamos un set de datos 

Datos de Investigación: ¿Cómo obtener el DOI/Handle?

Datos de Investigación: Tipos de acceso y licencias

La disponibilidad de conjuntos de datos en el Repositorio de Datos de Investigación CONICET Digital es esencial para impulsar el avance del conocimiento y afianzar las iniciativas en pro de la Ciencia Abierta no solo a nivel nacional sino también a nivel global, siendo CONICET una de las entidades referentes en el desarrollo de la ciencia y la tecnología.


*Identificador persistente que permite que los conjuntos de datos u otros objetos digitales puedan ser identificados, representados y utilizados, facilitando el reuso, la citación y la socialización de las producciones científicas y/o académicas.

Datos de Investigación: tipos de acceso y licencias

 

Depositar los datos de investigación en el Banco de Datos del SIGEVA implica que los autores/as indiquen el nivel de acceso o visibilidad de los archivos. Este proceso busca mantener la integridad y seguridad de los datos, al tiempo que se fomenta la difusión responsable de la investigación en cumplimiento con la Ley 25.326 relacionada a la protección de los datos personales y/o sensibles.

Niveles de acceso en el Banco de Datos del SIGEVA:

  • Acceso abierto: Los archivos y los metadatos estarán disponibles en el RI para su libre consulta.
  • Acceso restringido: Los metadatos podrán ser consultados en el RI, pero los archivos adjuntos no podrán ser descargados para su reutilización. Los archivos sólo podrán ser solicitados a sus autores/as a través de un formulario web disponible en la misma ficha del registro en el RI.
  • Acceso embargado: Los metadatos podrán ser consultados en el RI, pero los archivos se encontrarán embargados hasta la fecha que especifique los/las autores/as es decir, no podrán ser consultados por los usuarios. En cambio, los metadatos estarán disponibles en el repositorio. Una vez que pase la fecha seleccionada, los archivos cambiarán automáticamente el tipo de acceso a abiertos y serán de libre consulta en el RI.

Por otro lado, el Repositorio Institucional CONICET Digital promueve la disponibilidad de los datos de investigación a través de licencias abiertas. Las licencias Creative Commons son un conjunto de herramientas que ofrecen a los autores/as  la posibilidad de compartir y reutilizar su trabajo de manera segura, adaptable y sencilla.

  • Licencia de Dedicación de Dominio Público: Permite una cesión de derechos completa a Dominio Público.
  • Licencia de atribución de Open Data Commons: Admite a los usuarios compartir, utilizar y construir sobre datos que se han puesto a disposición del público.
  • Licencia de Reconocimiento – No Comercial – Compartir igual: Concede compartir de manera No comercial y utilizando la misma licencia.

Cabe destacar que a la hora de procesar los sets de datos de investigación, la Oficina Técnica del RI no modifica el acceso ni las licencias. De esta manera, teniendo en cuenta los tipos de acceso en el Banco de Datos y las licencias de uso seleccionadas por los autores/as de los datos de investigación se busca facilitar la difusión de los mismos, asegurando su adecuada atribución y uso. Este enfoque busca estimular la transparencia y fomentar la colaboración entre la comunidad científica.

Conozca las Políticas del RI CONICET Digital haciendo clic aquí 
Para más información acceda al videotutorial ¿Cómo reutilizar y citar una Colección de Datos de Investigación?

Datos de investigación: ¿Cómo obtengo un DOI/HANDLE?

 

Los DOI/HANDLES son identificadores persistentes que permiten que los conjuntos de datos u otros objetos digitales puedan ser identificados, representados y utilizados, facilitando el reuso, la citación y la socialización de las producciones científicas y/o académicas. Cabe destacar que en el RI CONICET Digital utilizamos el identificador persistente HANDLE. Su obtención se logra una vez que el set de datos completa el Ciclo de depósito, el cual comienza en el Banco de Datos del SIGEVA y finaliza con la publicación en el Repositorio Institucional  CONICET Digital.

Los investigadores/as, becarios/as y personal de apoyo del CONICET podrán compartir el HANDLE con las editoriales u otros colegas, y a su vez podrán obtenerlo desde la ficha del ítem publicado en el apartado Identificador del recurso.

Solicitud express de publicación de un set de datos

El seguimiento personalizado de un set de datos lo lleva a cabo la Oficina Técnica del Repositorio Institucional CONICET Digital cuando los investigadores/as, becarios/as y personal de apoyo del CONICET solicitan la publicación inmediata de un set de datos debido a que la editorial de la revista en donde desean publicar, solicita el HANDLE de los datos de investigación alojados en el repositorio. A raíz de este motivo es que, luego de que los datos de investigación fueron depositados en el Banco de Datos del SIGEVA curamos y aceleramos su publicación en el repositorio para la inmediata reutilización y citación por la comunidad científica.

Para más información sobre la publicación express de un set de datos escribanos a repodatos@conicet.gov.ar

La publicación de datos de investigación se encuentra en auge a nivel mundial siendo uno de los recursos más visibilizados durante el último periodo. El Repositorio Institucional CONICET Digital cuenta con una colección de mil sets de datos de investigación que puede ser consultada de manera libre y gratuita por la comunidad científica y el público en general.

Para conocer el paso a paso del autoarchivo de un conjunto de datos en el Banco de Datos del SIGEVA  puede acceder a:

Datos de investigación: conocé las cinco razones por las cuales todavía no publicamos un set de datos

Desde el año 2022 el Repositorio Institucional CONICET Digital cuenta con una plataforma para preservar los datos de investigación colectados o producidos en cualquier actividad científica por la Comunidad CONICET. En la actualidad la colección cuenta con casi mil sets de datos de investigación que invitan a la comunidad científica a facilitar nuevas y futuras investigaciones.

Continuar acortando la brecha al conocimiento y seguir en el camino de la #CienciaAbierta implica adoptar las buenas prácticas en el autoarchivo de sets de datos de investigación en el Banco de datos de SIGEVA, sin embargo no todos los sets cumplen en primera instancia, con lo requerido para ser publicados en el RI CONICET Digital.

Cinco razones por las cuales todavía no publicamos un set de datos

1. Autoarchivo de publicaciones que no son datos

Un set de datos de investigación no puede incluir en sus adjuntos productos finales, es decir documentos elaborados que presentan información ya procesada ya sean artículos, libros, capítulos de libros, eventos o tesis. Por otra parte no pueden incluirse manuscritos o borradores. Cada uno de esos documentos deben ser autoarchivados en la sección/apartado correspondiente del Banco de Datos SIGEVA. De esa manera serán procesados y publicados en el Repositorio.

A su vez no forman parte de un set de datos aquellos gráficos, esquemas, cuadros, figuras surgidas a partir de la interpretación subjetiva de la recolección o producción de datos de investigación, estos insumos son parte del resultado o comprensión de su análisis.

2. Titulo poco descriptivo

Uno de los requerimientos más importantes en un set de datos es que debe contener un título descriptivo, es decir, un título que represente el contenido de manera clara y concisa, así como también su propósito y el alcance del conjunto de datos. Agregar mayor contexto facilita la recuperación del set por parte de los usuarios. De esta manera, el impacto de la investigación se verá reflejado en el aumento de la visibilidad. Un set de datos puede recuperarse no solamente a través del Repositorio Institucional CONICET Digital o Google, sino también mediante otros motores de búsqueda.

Se recomienda:

  • Evitar los títulos genéricos y/o redundantes (por ejemplo no incluir Dataset, Set de datos, Datos recolectados)
  • No utilizar mayúsculas si no es necesario
  • Separar título y subtítulo con dos puntos ‘:’
  • No incluir punto final

3. Formato (extensión de archivo) incorrecto

El formato de los archivos de un set de datos de investigación puede variar según el campo de estudio y los estándares o requisitos establecidos por las organizaciones que promueven la gestión y el intercambio de datos de investigación. NO se admiten .exe por políticas de ciberseguridad.

Algunos de los formatos de archivo más comunes en diferentes áreas de conocimiento podrían ser:

  • Para Ciencias sociales y humanidades: es común el uso de formatos como CSV, Excel, SPSS y STATA. También se puede utilizar el formato XML (Lenguaje de Marcado Extensible) para la codificación de datos estructurados.
  • En Ciencias de la salud: es común el uso de formatos como DICOM , CDA y HL7, que se utilizan para compartir datos médicos y clínicos.
  • Para Biología y ciencias naturales: en estas áreas, es común el uso de formatos como FASTA (Formato de Secuencia de Ácido Nucleico), GenBank (Formato de Archivo de Secuencia de Nucleótidos) y TIFF (Formato de Archivo de Imagen con Información de Etiqueta).

Es importante tener en cuenta que cada disciplina puede tener sus propios estándares y formatos de archivo recomendados. Por lo tanto, es recomendable que se informen sobre los estándares y requisitos de su área de estudio para asegurarse de elegir formatos comunes y sustentables al campo disciplinar al que se está trabajando.

Por otra parte, se recomienda que para la preservación de los datos, los formatos sean:

  • No propietarios (es decir de uso abierto y compartido)
  • Estándares abiertos y documentados
  • Utilizados comúnmente dentro de la comunidad de investigación
  • Transmitidos mediante formas de representación estándar (ASCII, Unicode)
  • No encriptados (es decir que no esté codificado o cifrado para proteger su contenido)
  • Sin compresión

Para los datos de investigación que sigan los principios FAIR (encontrable, accesible, interoperable y reutilizable), se recomiendan los siguientes formatos:

  • Contenedores: TAR, GZIP, ZIP
  • Bases de datos: XML, CSV, JSON
  • Geoespacial: SHP, DBF, GeoTIFF, NetCDF
  • Video: MPEG, AVI, MXF, MKV
  • Sonido: WAVE, AIFF, MP3, MXF FLAC
  • Estadísticas: DTA, POR, SAS, SAV
  • Imágenes: TIFF, JPEG 2000, PDF, DNG, GIF, BMP, SVG
  • Datos tabulares: CSV, TXT
  • Texto: XML, PDF / A, HTML, JSON, TXT, RTF
  • Archivo web: WARC

4. Anonimización incompleta

La publicación de un set de datos en el Repositorio Institucional CONICET Digital requiere de anonimizar toda información sensible y/o personal que pudiera estar visible en los archivos adjuntos (Ley. 25.326). Es responsabilidad de los autores/as proceder con esta intervención como así también seleccionar el tipo de acceso que estos documentos tendrán al momento de su publicación.

5. Falta de respuesta de los autores/as

Desde el RI CONICET Digital nos hemos comunicado con los autores/as a través de emails para informales que sus sets de datos requieren modificaciones en su Banco de Datos para ser procesados y publicados en la colección de datos de investigación. Los emails contenían información detallada sobre los cambios a realizar de tal manera que si los autores/as no llevan a cabo los cambios solicitados, el set de datos queda imposibilitado para continuar su curso hasta la publicación.

Desde el Repositorio Institucional CONICET Digital los invitamos a consultar los recursos que tenemos a disposición para conocer más sobre los sets de datos de investigación:

Consultas a: repodatos@conicet.gov.ar