Resumen
Este conjunto de datos contiene 30.603 referencias bibliográficas extraídas de 117 tesis doctorales en psicología defendidas en tres universidades argentinas entre 2008 y 2025: Universidad Nacional de La Plata, Universidad Nacional de Córdoba y Universidad Nacional de Mar del Plata.
La unidad principal de análisis es la referencia bibliográfica individual. Cada registro se vincula con su tesis de origen mediante el campo `thesis_id` y posee un identificador único de referencia (`ref_uid`).
La versión depositada corresponde a una base core auditable, con nombres de columnas en inglés y documentación bilingüe. Conserva las variables indispensables para análisis bibliométricos, análisis de tipo documental, análisis de revistas e indexación, análisis con indicadores básicos de SCImago y auditoría de calidad.
Las referencias fueron recuperadas desde documentos PDF de texto completo mediante un flujo semiautomatizado que incluyó detección de secciones bibliográficas, segmentación de referencias, parsing bibliográfico, clasificación del tipo documental, normalización de revistas y autores, recuperación de DOI, enriquecimiento con fuentes de indexación y auditoría de calidad.
El dataset puede reutilizarse para análisis bibliométricos, estudios sobre formación doctoral, análisis de citas, circulación de revistas y editoriales, literatura gris, procesamiento de lenguaje natural, minería de textos y análisis de redes.
El conjunto de datos no debe interpretarse como una representación completa de la psicología argentina ni de toda la producción doctoral del país. Su alcance se limita a tesis doctorales disponibles en repositorios institucionales de tres universidades argentinas. Las capas de indexación deben interpretarse como enriquecimientos adicionales (se utiizaron diversas fuentes públicas para tales fines) y no como una representación exhaustiva de todas las posibles fuentes de indexación.
Información de Series
Este conjunto de datos reúne 30.603 referencias bibliográficas extraídas de 117 tesis doctorales en psicología defendidas en tres universidades argentinas entre 2008 y 2025: Universidad Nacional de La Plata, Universidad Nacional de Córdoba y Universidad Nacional de Mar del Plata.
El objetivo del dataset es poner a disposición una capa de información bibliográfica usualmente no estructurada: las referencias citadas dentro de tesis doctorales. Las referencias fueron extraídas, segmentadas, normalizadas, clasificadas por tipo documental y enriquecidas con información sobre revistas, editoriales, DOI e indexación.
El recurso permite analizar prácticas de citación, tipos de documentos utilizados en la formación doctoral, circulación de revistas y editoriales, presencia de literatura regional e internacional, y vínculos entre referencias y metadatos de tesis.
Información Técnica
El conjunto de datos se distribuye en formato CSV codificado en UTF-8. La unidad principal de análisis es la referencia bibliográfica individual. Cada referencia posee un identificador único (`ref_uid`) y se vincula con la tesis de origen mediante el campo `id_tesis`.
La publicación incluye tres archivos principales:
1. `referencias_bibliograficas_core_v8_4_4.csv`: base principal de referencias, con campos finales limpios y reutilizables.
2. `referencias_bibliograficas_enriquecidas_v8_4_4.csv`: base técnica ampliada, con variables de auditoría, trazabilidad y enriquecimiento.
3. `metadatos_tesis_contexto_v8_4_4.csv`: base de metadatos de las tesis, vinculable mediante `id_tesis`.
También se incluyen archivos de documentación: README, diccionario de variables, reporte de calidad, notas de procesamiento y licencia.
Versión del dataset: v8.4.4.
Codificación recomendada: UTF-8.
Licencia sugerida: CC BY 4.0.
Métodos
El dataset fue construido mediante un flujo semiautomatizado de procesamiento de documentos PDF de texto completo. En primer lugar, se recuperaron tesis doctorales disponibles en repositorios institucionales. Luego se realizó la extracción de texto completo desde los PDF y la detección de las secciones bibliográficas mediante reglas basadas en encabezados como “Referencias”, “Bibliografía” y variantes equivalentes.
Posteriormente, los bloques de referencias fueron normalizados para reducir ruido producido por la conversión desde PDF, incluyendo saltos de línea, encabezados, pies de página, numeración y separaciones irregulares. Las referencias individuales fueron segmentadas, reconstruidas y procesadas para extraer campos bibliográficos como autoría, año, título, DOI, fuente, revista o editorial.
Cada referencia fue clasificada por tipo documental, incluyendo artículos de revista, libros, capítulos de libro, tesis, materiales web, informes, manuales, ponencias y otros documentos. Las revistas fueron normalizadas y enriquecidas con información de indexación proveniente de capas como Scopus, SCImago, Latindex, SciELO, DOAJ, CAICYT/Núcleo Básico y circuitos locales de psicología.
El dataset fue sometido a auditorías sucesivas para detectar duplicados, multirreferencias, errores de segmentación, DOI contaminados entre referencias consecutivas, falsos positivos de revistas, problemas de homonimia en DOAJ, clasificación errónea de capítulos como artículos, y variantes de autoría. Las correcciones fueron aplicadas mediante procedimientos trazables y conservando indicadores de calidad.