Resumen
Este corpus de datos se construyó con el objetivo de realizar pruebas perceptuales de identificación de consonantes. Los estímulos consistentes en logatomos vocal-consonante-vocal (VCV), presentados bajo diversas condiciones experimentales, incluyendo contaminación de señales acústicas y alteración de propiedades temporales. Las señales de audio de los estímulos se extrajeron del corpus utilizado en Torres et al. (2021), que consiste en un conjunto de oraciones especialmente construidas para el estudio de perturbaciones del contorno de F0 asociadas a las realizaciones de las consonantes. Los estímulos consisten en secuencias VCV que presentan el fono [a] como contexto vocálico y consonantes variables, incluyendo [β, ð, ɤ, ʧ, ʓ, f, k, p, s, t, x]. Cada logatomo VCV se integró originalmente en un contexto SVCVS, donde S es uno de los fonemas [a, e, i, o, u, j, \omega, m, n, l], para garantizar la continuidad del contorno de F0. Además, se requirieron tres contextos de acentuación léxica con respecto a la sílaba que contiene la consonante (C): átona; tónica; y sílaba siguiente a la tónica, para lograr tres pendientes en el contorno F0: plana; ascendente; y descendente, respectivamente. Para cada uno de los tres patrones, se extrajeron tres muestras de las oraciones del corpus, lo que produjo nueve muestras para cada consonante (C). Los bordes de los segmentos de audio extraídos se refinaron utilizando una media ventana de Hamming de 30 ms para garantizar transiciones más suaves. Las oraciones portadoras de estímulos se procesaron para generar estímulos sin perturbaciones del contorno F0 antes de la extracción del segmento de audio. Se estimó el contorno F0 de las oraciones originales y, posteriormente, se utilizó el algoritmo descrito en Torres et al. (2021) para generar un nuevo contorno F0 sin las perturbaciones. Finalmente, se utilizó el programa Praat con valores de opción predeterminados para reemplazar el contorno F0 mediante resíntesis. Para mitigar los posibles efectos de este proceso, también se resintetizaron las oraciones originales. Se generaron dos subconjuntos adicionales a partir del conjunto de estímulos inicial para considerar las condiciones perceptuales adversas: enmascaramiento de ruido y alteración acústica del estímulo original. Para generar el primero, se añadió ruido de habla modulado (MSSN) con tres niveles de relación señal-ruido (SNR): 0 dB (MSSN 0 dB), 5 dB (MSSN 5 dB) y 10 dB (MSSN 10 dB), siguiendo el algoritmo descrito en Gurlekian et al. (2008). Para generar el segundo conjunto de estímulos en condiciones desfavorables, se incrementó la velocidad del habla en un 10 % (Vel. x 10), un 30 % (Vel. x 30) y un 50 % (Vel. x 50) en comparación con el original. Para este último, se utilizó el programa Praat. El corpus de estímulos generado consta de 1386 elementos: 11 consonantes, cada una representada por 3 muestras, con 2 condiciones de perturbación de contorno F0 y 3 condiciones de pendiente de contorno F0, considerando el valor original de 1, los niveles de ruido de la relación señal-ruido de 3 y la velocidad de habla de 3. El software y las instrucciones para ejecutar estas pruebas de escucha están disponibles a través de los autores. Gurlekian, J. A., Babnik, E., & Torres, H. M. (2008). Desarrollo de una prueba de inteligibilidad de habla en ambientes ruidosos para niños en edad escolar. Rev. Logop. Foniatr. Audiol., 28(3), 138–148, https://doi.org/10.1016/S0214-4603(08)70052-4 Torres, H. M., Güemes, M., Gurlekian, J. A., & Evin, D. A. (2021). F0 perturbation due to articulatory movements: Filtering, characterization and applications. IEEE ACM Trans. Audio Speech Lang. Process., 29, 1977–1986, https://doi.org/10.1109/TASLP.2021.3082671