Mostrar el registro sencillo del ítem
dc.date.available
2026-04-28T12:26:31Z
dc.identifier.citation
Moreno Cruseño, Christian Isaias; (2026): Bibliographic references extracted from doctoral theses in psychology in Argentina, 2008–2025. Consejo Nacional de Investigaciones Científicas y Técnicas. (dataset). http://hdl.handle.net/11336/286048
dc.identifier.uri
http://hdl.handle.net/11336/286048
dc.description.abstract
Este conjunto de datos contiene 30.603 referencias bibliográficas extraídas de 117 tesis doctorales en psicología defendidas en tres universidades argentinas entre 2008 y 2025: Universidad Nacional de La Plata, Universidad Nacional de Córdoba y Universidad Nacional de Mar del Plata.
La unidad principal de análisis es la referencia bibliográfica individual. Cada registro se vincula con su tesis de origen mediante el campo `thesis_id` y posee un identificador único de referencia (`ref_uid`).
La versión depositada corresponde a una base core auditable, con nombres de columnas en inglés y documentación bilingüe. Conserva las variables indispensables para análisis bibliométricos, análisis de tipo documental, análisis de revistas e indexación, análisis con indicadores básicos de SCImago y auditoría de calidad.
Las referencias fueron recuperadas desde documentos PDF de texto completo mediante un flujo semiautomatizado que incluyó detección de secciones bibliográficas, segmentación de referencias, parsing bibliográfico, clasificación del tipo documental, normalización de revistas y autores, recuperación de DOI, enriquecimiento con fuentes de indexación y auditoría de calidad.
El dataset puede reutilizarse para análisis bibliométricos, estudios sobre formación doctoral, análisis de citas, circulación de revistas y editoriales, literatura gris, procesamiento de lenguaje natural, minería de textos y análisis de redes.
El conjunto de datos no debe interpretarse como una representación completa de la psicología argentina ni de toda la producción doctoral del país. Su alcance se limita a tesis doctorales disponibles en repositorios institucionales de tres universidades argentinas. Las capas de indexación deben interpretarse como enriquecimientos adicionales (se utiizaron diversas fuentes públicas para tales fines) y no como una representación exhaustiva de todas las posibles fuentes de indexación.
dc.rights
info:eu-repo/semantics/openAccess
dc.rights.uri
https://creativecommons.org/licenses/by/2.5/ar/
dc.title
Bibliographic references extracted from doctoral theses in psychology in Argentina, 2008–2025
dc.type
dataset
dc.date.updated
2026-04-28T09:36:09Z
dc.description.fil
Fil: Moreno Cruseño, Christian Isaias. Universidad Nacional de San Luis. Facultad de Psicologia. Instituto de Ciencias Computacionales, Cognitivas, Psicológicas y Sociales.; Argentina
dc.datacite.PublicationYear
2026
dc.datacite.Creator
Moreno Cruseño, Christian Isaias
dc.datacite.affiliation
Universidad Nacional de San Luis. Facultad de Psicologia. Instituto de Ciencias Computacionales, Cognitivas, Psicológicas y Sociales.
dc.datacite.affiliation
Universidad Nacional de San Luis. Facultad de Psicologia. Instituto de Ciencias Computacionales, Cognitivas, Psicológicas y Sociales.
dc.datacite.affiliation
Universidad Nacional de San Luis. Facultad de Psicologia. Instituto de Ciencias Computacionales, Cognitivas, Psicológicas y Sociales.
dc.datacite.publisher
Consejo Nacional de Investigaciones Científicas y Técnicas
dc.datacite.subject
Psicología
dc.datacite.subject
Psicología
dc.datacite.subject
CIENCIAS SOCIALES
dc.datacite.ContributorType
RelatedPerson
dc.datacite.ContributorType
RelatedPerson
dc.datacite.ContributorName
Piñeda, Maria Andrea
dc.datacite.ContributorName
Klappenbach, Hugo Alberto Arturo
dc.datacite.date
01/01/2025
dc.datacite.DateType
Recolectado
dc.datacite.language
spa
dc.datacite.AlternateIdentifierType
info:eu-repo/semantics/altIdentifier/doi/10.5281/zenodo.19746406
dc.datacite.version
8.4
dc.datacite.description
Este conjunto de datos reúne 30.603 referencias bibliográficas extraídas de 117 tesis doctorales en psicología defendidas en tres universidades argentinas entre 2008 y 2025: Universidad Nacional de La Plata, Universidad Nacional de Córdoba y Universidad Nacional de Mar del Plata.
El objetivo del dataset es poner a disposición una capa de información bibliográfica usualmente no estructurada: las referencias citadas dentro de tesis doctorales. Las referencias fueron extraídas, segmentadas, normalizadas, clasificadas por tipo documental y enriquecidas con información sobre revistas, editoriales, DOI e indexación.
El recurso permite analizar prácticas de citación, tipos de documentos utilizados en la formación doctoral, circulación de revistas y editoriales, presencia de literatura regional e internacional, y vínculos entre referencias y metadatos de tesis.
dc.datacite.description
El conjunto de datos se distribuye en formato CSV codificado en UTF-8. La unidad principal de análisis es la referencia bibliográfica individual. Cada referencia posee un identificador único (`ref_uid`) y se vincula con la tesis de origen mediante el campo `id_tesis`.
La publicación incluye tres archivos principales:
1. `referencias_bibliograficas_core_v8_4_4.csv`: base principal de referencias, con campos finales limpios y reutilizables.
2. `referencias_bibliograficas_enriquecidas_v8_4_4.csv`: base técnica ampliada, con variables de auditoría, trazabilidad y enriquecimiento.
3. `metadatos_tesis_contexto_v8_4_4.csv`: base de metadatos de las tesis, vinculable mediante `id_tesis`.
También se incluyen archivos de documentación: README, diccionario de variables, reporte de calidad, notas de procesamiento y licencia.
Versión del dataset: v8.4.4.
Codificación recomendada: UTF-8.
Licencia sugerida: CC BY 4.0.
dc.datacite.description
El dataset fue construido mediante un flujo semiautomatizado de procesamiento de documentos PDF de texto completo. En primer lugar, se recuperaron tesis doctorales disponibles en repositorios institucionales. Luego se realizó la extracción de texto completo desde los PDF y la detección de las secciones bibliográficas mediante reglas basadas en encabezados como “Referencias”, “Bibliografía” y variantes equivalentes.
Posteriormente, los bloques de referencias fueron normalizados para reducir ruido producido por la conversión desde PDF, incluyendo saltos de línea, encabezados, pies de página, numeración y separaciones irregulares. Las referencias individuales fueron segmentadas, reconstruidas y procesadas para extraer campos bibliográficos como autoría, año, título, DOI, fuente, revista o editorial.
Cada referencia fue clasificada por tipo documental, incluyendo artículos de revista, libros, capítulos de libro, tesis, materiales web, informes, manuales, ponencias y otros documentos. Las revistas fueron normalizadas y enriquecidas con información de indexación proveniente de capas como Scopus, SCImago, Latindex, SciELO, DOAJ, CAICYT/Núcleo Básico y circuitos locales de psicología.
El dataset fue sometido a auditorías sucesivas para detectar duplicados, multirreferencias, errores de segmentación, DOI contaminados entre referencias consecutivas, falsos positivos de revistas, problemas de homonimia en DOAJ, clasificación errónea de capítulos como artículos, y variantes de autoría. Las correcciones fueron aplicadas mediante procedimientos trazables y conservando indicadores de calidad.
dc.datacite.DescriptionType
Información de Series
dc.datacite.DescriptionType
Información Técnica
dc.datacite.DescriptionType
Métodos
dc.subject.keyword
bibliometría; tesis doctorales; psicología; referencias bibliográficas; ciencia abierta
dc.subject.keyword
procesamiento de lenguaje natural; minería de textos; extracción de referencias; metadatos bibliográficos; repositorios institucionales
dc.datacite.resourceTypeGeneral
dataset
dc.conicet.datoinvestigacionid
33445
dc.datacite.geolocation
Argentina
dc.datacite.formatedDate
2025
Archivos del conjunto de datos
Archivo
Notas de uso
Tamaño