Datos de Investigación: formatos aceptados para la publicación de un conjunto de datos

La siguiente guía describe las prácticas óptimas para su preservación de acuerdo a los principios FAIR y los formatos recomendados para compartir datos de investigación según el área de conocimiento.


Formato de set

 

El Repositorio de Datos de Investigación del CONICET ofrece un espacio centralizado donde los investigadores pueden depositar conjuntos de datos organizados por áreas de conocimiento, facilitando su acceso y promoviendo la transparencia y la colaboración en la comunidad científica. El formato de los archivos debe reunir ciertas características que son esenciales  para garantizar la accesibilidad, la preservación, la reutilización de los datos y la colaboración entre los investigadores/as.

Aunque la selección del formato queda limitada tanto al procesamiento de los datos como a su lectura es preciso  también tener en cuenta una serie de consideraciones en función de la investigación y los estándares de la disciplina. De esta manera los datos compartidos estarán a disposición de la comunidad científica de forma libre, abierta y gratuita para su reutilización.

Conozca más en el videotutorial ¿Cómo crear un set de datos?

Los datos de investigación y los principios FAIR

Los principios FAIR (por sus siglas en inglés, Findable, Accessible, Interoperable, Reusable) recomiendan utilizar formatos de archivo que faciliten la búsqueda, acceso, interoperabilidad y reutilización de los datos:

Esto no implica que absolutamente todos los datos deban de tener el mismo nivel de apertura ni que todos los datos de todas las disciplinas sigan las mismas reglas.

Se recomienda que para la preservación de los datos, los formatos cumplan las siguientes características:

  • No propietarios (es decir de uso abierto y compartido).
  • Estándares abiertos y documentados.
  • Utilizados comúnmente dentro de la comunidad de investigación.
  • Transmitidos mediante formas de representación estándar (ASCII, Unicode).
  • No encriptados (que no estén codificado o cifrado para proteger su contenido).
  • Sin compresión.

Por consiguiente, para los datos de investigación que sigan los principios FAIR se sugieren los siguientes formatos:

Datos tabulares

  • CSV (Comma-Separated Values): .csv
  • TSV (Tab-Separated Values): .tsv
  • XLS (con precaución): .xlsx

Datos textuales

  • Plain text: .txt
  • XML (eXtensible Markup Language): .xml
  • JSON (JavaScript Object Notation): .json
  • HTML (HyperText Markup Language): .html

Datos numéricos

  • HDF5 (Hierarchical Data Format version 5): .h5
  • NetCDF (Network Common Data Form): .nc

Datos geoespaciales

  • GeoJSON: .geojson
  • Shapefile: .shp
  • KML (Keyhole Markup Language): .kml

Datos de imágenes

  • TIFF (Tagged Image File Format): .tiff, .tif
  • PNG (Portable Network Graphics): .png
  • JPEG (Joint Photographic Experts Group): .jpeg, .jpg

Datos audio-visuales

  • WAV (Waveform Audio File Format): .wav
  • MP3 (MPEG Audio Layer III): .mp3
  • MP4 (MPEG-4 Part 14): .mp4

Datos estructurados

  • RDF (Resource Description Framework): .rdf
  • SPARQL (SPARQL Protocol and RDF Query Language): .sparql

Cabe destacar que los conjuntos de datos no pueden contener archivos con formatos ejecutables debido a razones de seguridad, puesto que pueden contener malware, virus u otros tipos de software maliciosos que pueden comprometer la seguridad de los sistemas donde se ejecuten. Asimismo, este tipo de formato pone en peligro la integridad y la autenticidad de los datos ya que la información puede ser alterada. Los formatos ejecutables pueden no ser compatibles con todos los sistemas operativos, lo cual imposibilita la accesibilidad.  Además impiden el mantenimiento y el control de las versiones del conjunto generando dificultades de reproducibilidad en la investigación.

Tipos de formatos por áreas de conocimientos

En lo que se refiere a los tipos de formato por área de conocimiento, es importante tener en cuenta que cada disciplina puede tener sus propios estándares y formatos de archivo recomendados. Por lo tanto, se sugiere que los investigadores/as se informen sobre los estándares y requisitos de su área de estudio para asegurarse de elegir formatos comunes y sustentables al campo disciplinar al que se está trabajando.

Ciencias sociales y humanidades

  • CSV: común para datos tabulares como catálogos y registros.
  • XLS: usado para datos tabulares con múltiples hojas.
  • XML: para la codificación de datos estructurados.

Ciencias médicas y de la salud

  • CSV: para datos tabulares, como registros de pacientes.
  • XLS: usado para datos tabulares complejos.
  • DICOM: formato para imágenes médicas.
  • FHIR: estándar para datos de salud.
  • CDA/HL7: para estructurar datos clínicos.

Ciencias exactas y naturales

  • CSV: utilizado para datos tabulares, como observaciones y mediciones.
  • HDF5: para almacenamiento y organización de grandes volúmenes de datos.
  • NetCDF: usado en ciencias del clima y meteorología.
  • TXT: utilizado para datos simples y archivos de texto sin formato.
  • MOL/MOL2/SDF: formatos para estructuras químicas.
  • FASTA: para secuencias de ácido nucleico.
  • GenBank: utilizado en secuencias de nucleótidos.
  • XLS: datos tabulares con múltiples hojas.
  • Shapefile: para datos geoespaciales.
  • GeoTIFF: para datos de imágenes georreferenciadas.

Ciencias agrícolas

  • CSV: datos tabulares de campo, como mediciones de rendimiento, datos de suelo y clima.
  • XLS: utilizado para datos tabulares complejos, permitiendo múltiples hojas y análisis integrados.
  • TXT: para datos simples y archivos de texto sin formato.
  • Shapefile: formato estándar para datos geoespaciales, ampliamente utilizado en sistemas de información geográfica (SIG).
  • KML: Para datos geoespaciales, utilizado principalmente en Google Earth.
  • GeoTIFF: Para datos de imágenes georreferenciadas, como mapas de uso del suelo.
  • XML: Para datos estructurados y jerárquicos, como catálogos de especies y bases de datos agronómicas.

Ingeniería y tecnologías

  • CSV: Para datos tabulares, como resultados de encuestas topográficas.
  • XLS: Para datos tabulares complejos y análisis de proyectos.
  • STL: Modelos de impresión 3D.
  • XML: Para datos jerárquicos y configuraciones.
  • HDF5: Para almacenamiento y análisis de grandes volúmenes de datos de procesos.

Así como los principios FAIR establecen criterios para la preservación y la divulgación de los datos de investigación, la Open Science Foundation también enfatiza en la importancia de elegir formatos de datos que faciliten la transparencia, la accesibilidad y la reutilización de los datos de investigación.

Para comprobar si los datos cumplen con los principios FAIR existen herramientas que pueden brindar un análisis sobre el conjunto de datos:

FAIR-Aware

FAIR Data Self Assessment Tool

De esta manera el investigador/a garantiza que el conjunto de datos de investigación que, luego será autoarchivado en el Banco de Datos de SIGEVA, cumpla con las pautas necesarias para ser accesible y reutilizable por la comunidad científica.

Bibliografía

CEPAL. (s. f.). Formatos abiertos y cerrados. Biblioguías. https://biblioguias.cepal.org/gestion-de-datos-de-investigacion/formatos

Go Fair. (s. f.). Fair principles. https://www.go-fair.org/go-fair-initiative 

Ministerio para la transformación digital y de la función pública. (s. f.). Principios FAIR: Buenas prácticas para la gestión y administración de datos científicos. datos.gob.es. https://datos.gob.es/es/noticia/principios-fair-buenas-practicas-para-la-gestion-y-administracion-de-datos-cientificos 

Open knowledge. (s. f.). Formato de archivos. Open Data Handbook. https://opendatahandbook.org/guide/es/appendices/file-formats/ 

Repositorio Institucional CONICET Digital. (2021). Guía para autoarchivar un conjunto de datos de investigación en el Banco de Datos del SIGEVA. https://ri.conicet.gov.ar/wp/wp-content/uploads/2021/12/Guia-Formulario-de-datos-en-SIGEVA.pdf 

Secretaría de Innovación Pública. (s. f.). Guía para la publicación de datos en formatos abiertos. datos.gob.ar. https://datosgobar.github.io/paquete-apertura-datos/guia_abiertos/#formatos-abiertos-de-archivos 

Sixto Costoya, A., Aleixandre Benavent, R., Vidal Infer, A., Lucas Domínguez, R., & Castelló Cogollos, L. (2019). Data sharing: Qué son y cómo se pueden compartir los datos de investigación. Manual de recomendación para gestores de la información (Sociedad Española de Documentación e Información Científica, Vol. 7). https://www.sedic.es/wp-content/uploads/2020/01/Data_Sharing-DEF.pdf 

Universidad de Oviedo. (s. f.). Semana OA 2023: ¿Qué hacemos con los datos de investigación? Datos FAIR y PGD. Difunde UniOvi. https://accesoabiertouniovi.wordpress.com/2023/10/25/semana-oa-2023-que-hacemos-con-los-datos-de-investigacion-datos-fair-y-pgd/ 

Universidad Pablo de Olavide. (s. f.). Gestión de datos de investigación: Formatos. Guías y Tutoriales de la Biblioteca CRAI. https://guiasbib.upo.es/gestion_datos_de_investigacion/Formatos