Repositorio Institucional
Repositorio Institucional
CONICET Digital
Datos de
Investigación
  • EXPLORAR
    • AUTORES
    • DISCIPLINAS
    • COMUNIDADES
    • TODO
  • Ayuda
    • Qué son y qué no son los Datos de Investigación
    • Cómo obtener un DOI/Handle
    • Cómo reutilizar y citar los Datos de Investigación
    • Preguntas frecuentes | FAQs
    • Contacto
  • Novedades
    • Noticias
    • Boletines
  • Acerca de
JavaScript is disabled for your browser. Some features of this site may not work without it.
  • METADATOS
  • CONDICIONES DE USO
  • ARCHIVOS
  • ITEMS RELACIONADOS
  • ESTADISTICAS
 
 
Datos de investigación

Bibliographic references extracted from doctoral theses in psychology in Argentina, 2008–2025

Autores: Moreno Cruseño, Christian IsaiasIcon
Colaboradores: Piñeda, Maria AndreaIcon ; Klappenbach, Hugo Alberto ArturoIcon
Publicador: Consejo Nacional de Investigaciones Científicas y Técnicas
Fecha de depósito: 28/04/2026
Fecha de recolección: 01/01/2025
Clasificación temática:
Psicología

Resumen

Este conjunto de datos contiene 30.603 referencias bibliográficas extraídas de 117 tesis doctorales en psicología defendidas en tres universidades argentinas entre 2008 y 2025: Universidad Nacional de La Plata, Universidad Nacional de Córdoba y Universidad Nacional de Mar del Plata. La unidad principal de análisis es la referencia bibliográfica individual. Cada registro se vincula con su tesis de origen mediante el campo `thesis_id` y posee un identificador único de referencia (`ref_uid`). La versión depositada corresponde a una base core auditable, con nombres de columnas en inglés y documentación bilingüe. Conserva las variables indispensables para análisis bibliométricos, análisis de tipo documental, análisis de revistas e indexación, análisis con indicadores básicos de SCImago y auditoría de calidad. Las referencias fueron recuperadas desde documentos PDF de texto completo mediante un flujo semiautomatizado que incluyó detección de secciones bibliográficas, segmentación de referencias, parsing bibliográfico, clasificación del tipo documental, normalización de revistas y autores, recuperación de DOI, enriquecimiento con fuentes de indexación y auditoría de calidad. El dataset puede reutilizarse para análisis bibliométricos, estudios sobre formación doctoral, análisis de citas, circulación de revistas y editoriales, literatura gris, procesamiento de lenguaje natural, minería de textos y análisis de redes. El conjunto de datos no debe interpretarse como una representación completa de la psicología argentina ni de toda la producción doctoral del país. Su alcance se limita a tesis doctorales disponibles en repositorios institucionales de tres universidades argentinas. Las capas de indexación deben interpretarse como enriquecimientos adicionales (se utiizaron diversas fuentes públicas para tales fines) y no como una representación exhaustiva de todas las posibles fuentes de indexación.

Información de Series

Este conjunto de datos reúne 30.603 referencias bibliográficas extraídas de 117 tesis doctorales en psicología defendidas en tres universidades argentinas entre 2008 y 2025: Universidad Nacional de La Plata, Universidad Nacional de Córdoba y Universidad Nacional de Mar del Plata. El objetivo del dataset es poner a disposición una capa de información bibliográfica usualmente no estructurada: las referencias citadas dentro de tesis doctorales. Las referencias fueron extraídas, segmentadas, normalizadas, clasificadas por tipo documental y enriquecidas con información sobre revistas, editoriales, DOI e indexación. El recurso permite analizar prácticas de citación, tipos de documentos utilizados en la formación doctoral, circulación de revistas y editoriales, presencia de literatura regional e internacional, y vínculos entre referencias y metadatos de tesis.

Información Técnica

El conjunto de datos se distribuye en formato CSV codificado en UTF-8. La unidad principal de análisis es la referencia bibliográfica individual. Cada referencia posee un identificador único (`ref_uid`) y se vincula con la tesis de origen mediante el campo `id_tesis`. La publicación incluye tres archivos principales: 1. `referencias_bibliograficas_core_v8_4_4.csv`: base principal de referencias, con campos finales limpios y reutilizables. 2. `referencias_bibliograficas_enriquecidas_v8_4_4.csv`: base técnica ampliada, con variables de auditoría, trazabilidad y enriquecimiento. 3. `metadatos_tesis_contexto_v8_4_4.csv`: base de metadatos de las tesis, vinculable mediante `id_tesis`. También se incluyen archivos de documentación: README, diccionario de variables, reporte de calidad, notas de procesamiento y licencia. Versión del dataset: v8.4.4. Codificación recomendada: UTF-8. Licencia sugerida: CC BY 4.0.

Métodos

El dataset fue construido mediante un flujo semiautomatizado de procesamiento de documentos PDF de texto completo. En primer lugar, se recuperaron tesis doctorales disponibles en repositorios institucionales. Luego se realizó la extracción de texto completo desde los PDF y la detección de las secciones bibliográficas mediante reglas basadas en encabezados como “Referencias”, “Bibliografía” y variantes equivalentes. Posteriormente, los bloques de referencias fueron normalizados para reducir ruido producido por la conversión desde PDF, incluyendo saltos de línea, encabezados, pies de página, numeración y separaciones irregulares. Las referencias individuales fueron segmentadas, reconstruidas y procesadas para extraer campos bibliográficos como autoría, año, título, DOI, fuente, revista o editorial. Cada referencia fue clasificada por tipo documental, incluyendo artículos de revista, libros, capítulos de libro, tesis, materiales web, informes, manuales, ponencias y otros documentos. Las revistas fueron normalizadas y enriquecidas con información de indexación proveniente de capas como Scopus, SCImago, Latindex, SciELO, DOAJ, CAICYT/Núcleo Básico y circuitos locales de psicología. El dataset fue sometido a auditorías sucesivas para detectar duplicados, multirreferencias, errores de segmentación, DOI contaminados entre referencias consecutivas, falsos positivos de revistas, problemas de homonimia en DOAJ, clasificación errónea de capítulos como artículos, y variantes de autoría. Las correcciones fueron aplicadas mediante procedimientos trazables y conservando indicadores de calidad.
Palabras clave: bibliometría; tesis doctorales; psicología; referencias bibliográficas; ciencia abierta, procesamiento de lenguaje natural; minería de textos; extracción de referencias; metadatos bibliográficos; repositorios institucionales
Alcance geográfico
.

Alcance geográfico

.
Identificador del recurso
URI: http://hdl.handle.net/11336/286048
Colecciones
Datos de Investigación(SEDE CENTRAL)
Datos de Investigación de SEDE CENTRAL
Citación
Moreno Cruseño, Christian Isaias; (2026): Bibliographic references extracted from doctoral theses in psychology in Argentina, 2008–2025. Consejo Nacional de Investigaciones Científicas y Técnicas. (dataset). http://hdl.handle.net/11336/286048
Condiciones de uso
Las buenas prácticas científicas esperan que se otorgue el crédito adecuado mediante una citación. Utilice un formato de citación y aplique estas normas de reutilización.
info:eu-repo/semantics/openAccess
Excepto donde se diga explícitamente, este item se publica bajo la siguiente descripción: Creative Commons Attribution 2.5 Unported (CC BY 2.5)
Compartir
Archivos del conjunto de datos
Archivo
Notas de uso
Tamaño
 
variables_dictionary.csv
  Más
6.165Kb
  Descarga
dataset_V1.csv
  Más
19.14Mb
  Descarga
README_dataset_v1.txt
  Más
5.506Kb
  Descarga
 
 
Descargar todo
  Descargar solo metadatos (JSON)   Descargar solo metadatos (XML)
 
Preparando la descarga
 

Ver el registro completo

Enviar por e-mail
Separar cada destinatario (hasta 5) con punto y coma.
  • Facebook
  • X Conicet Digital
  • Instagram
  • YouTube
  • Sound Cloud
  • LinkedIn

Los contenidos del CONICET están licenciados bajo Creative Commons Reconocimiento 2.5 Argentina License

https://www.conicet.gov.ar/ - CONICET

Explorar

  • Autores
  • Disciplinas
  • Comunidades
  • Todo

Ayuda

  • Qué son y qué no son los Datos de Investigación
  • Cómo obtener un DOI/Handle
  • Cómo reutilizar y citar los Datos de Investigación
  • Preguntas frecuentes | FAQs
  • Contacto

Novedades

  • Noticias
  • Boletines

Acerca de

Godoy Cruz 2290 (C1425FQB) CABA – República Argentina – Tel: +5411 4899-5400 repositorio@conicet.gov.ar
TÉRMINOS Y CONDICIONES