Dataset Title / Título del conjunto de datos ============================================ Bibliographic references extracted from doctoral theses in psychology in Argentina, 2008–2025 Referencias bibliográficas extraídas de tesis doctorales en psicología en Argentina, 2008–2025 File / Archivo -------------- dataset_v1.csv Version / Versión ----------------- v1.1 — DOAJ coverage correction applied (see Changelog). v1.1 — corrección de cobertura DOAJ aplicada (ver Changelog). Description / Descripción ------------------------- EN: This file is the auditable, self-contained version of the dataset of bibliographic references extracted from doctoral theses in psychology in Argentina. It retains the variables that are essential for bibliometric analyses, document-type analyses, journal/indexing analyses, quality control, and traceability auditing. It includes the four basic Scimago indicators (SJR, h-index, country, quartile) because they are core variables of any journal-level impact and indexing analysis. ES: Este archivo es la versión auditable y autocontenida del dataset de referencias bibliográficas extraídas de tesis doctorales en psicología en Argentina. Conserva las variables indispensables para análisis bibliométricos, análisis de tipo documental, análisis de revistas e indexación, control de calidad y auditoría de trazabilidad. Incluye los cuatro indicadores Scimago básicos (SJR, índice H, país, cuartil) por ser variables centrales de cualquier análisis de impacto e indexación a nivel de revista. Unit of analysis / Unidad de análisis ------------------------------------- EN: Individual bibliographic reference. ES: La referencia bibliográfica individual. Size / Tamaño ------------- Rows / Filas: 30,603 Columns / Columnas: 33 Unique theses / Tesis únicas: 117 Institutions / Instituciones: UNLP (n=73), UNC (n=23), UNMdP (n=21) Period / Período: 2008–2025 Variable naming / Convención de nombres --------------------------------------- EN: Column names are in English using snake_case for international accessibility. A bilingual variable dictionary is provided in `variables_dictionary_v1.csv` with mappings between original Spanish names and the current English names, plus descriptions in both languages. ES: Los nombres de columnas están en inglés con snake_case para mayor accesibilidad internacional. Se incluye un diccionario bilingüe (`variables_dictionary_v1.csv`) con el mapeo entre los nombres originales en español y los actuales en inglés, además de descripciones en ambos idiomas. Reduction criterion / Criterio de reducción ------------------------------------------- EN: The variables retained are necessary for: 1. Identifying the thesis and the reference (5 columns); 2. Analyzing authorship, title, year, DOI (6 columns); 3. Classifying document type and identifying journal/publisher (3 columns); 4. Evaluating indexing layers (8 columns); 5. Analyzing journal-level impact via Scimago (4 columns); 6. Auditing quality, multi-references, real duplicates, and corrections (7 columns). ES: Se conservaron las variables necesarias para los seis grupos descritos arriba (identificación, análisis bibliográfico, revistas, indexación, Scimago, calidad y auditoría). Scimago coverage / Cobertura Scimago ------------------------------------ EN: 10,611 references (34.7%) are indexed in Scimago. The four scimago_* columns and `in_scimago` are coherent. ES: 10.611 referencias (34,7%) están indexadas en Scimago. DOAJ coverage / Cobertura DOAJ (v1.1) ------------------------------------- EN: 2,371 references (13.8% of the journal layer; 7.7% of the corpus) are indexed in DOAJ after correction using fuzzy matching ≥96%. ES: 2.371 referencias (13,8% de la capa de revistas; 7,7% del corpus) están indexadas en DOAJ tras corrección. Quality assurance / Control de calidad (v1.1) --------------------------------------------- - Total rows / Filas totales: 30,603 - Total columns / Columnas totales: 33 - Unique theses / Tesis únicas: 117 - Duplicated ref_uid / ref_uid duplicados: 0 - Empty raw_citation / cita_cruda vacía: 0 - Empty title / título vacío: 1 - Empty year / año vacío: 51 - DOI present / DOI presentes: 6,875 - Journal references / Refs de revista: 17,227 - Journal flagged but unnamed: 0 - Non-journal with journal name: 0 - Residual multi-references: 0 - Real duplicates in thesis: 2 Indexation coverage of the journal layer (n=17,227) --------------------------------------------------- - Scopus: 12,554 (72.9%) - SCImago: 10,611 (61.6%) - Latindex: 2,876 (16.7%) - DOAJ: 2,371 (13.8%) - SciELO: 85 (0.5%) - CAICYT Núcleo Básico: 569 (3.3%) - Local psychology circuit: 264 (1.5%) - Not in any layer: 2,831 (16.4%) Recommended use / Uso recomendado --------------------------------- EN: This dataset supports bibliometric and NLP analyses of doctoral training, citation practices, and knowledge circulation. ES: Este dataset permite análisis bibliométricos y de NLP sobre formación doctoral, prácticas de citación y circulación del conocimiento. Limitations / Limitaciones -------------------------- EN: The dataset represents a delimited corpus of theses from three Argentine universities and should not be generalized to the entire country. ES: El dataset representa un corpus delimitado y no la totalidad del país. Integrity verification / Verificación de integridad --------------------------------------------------- MD5 hash (v1.1): 162b235db177477ab5d03f2a414e8730 License / Licencia ------------------ CC BY 4.0 Author / Autora --------------- Chris Moreno CONICET, Argentina