Repositorio Institucional
Repositorio Institucional
CONICET Digital
Datos de
Investigación
  • EXPLORAR
    • AUTORES
    • DISCIPLINAS
    • COMUNIDADES
    • TODO
  • Ayuda
    • Qué son y qué no son los Datos de Investigación
    • Cómo obtener un DOI/Handle
    • Cómo reutilizar y citar los Datos de Investigación
    • Preguntas frecuentes | FAQs
    • Contacto
  • Novedades
    • Noticias
    • Boletines
  • Acerca de
JavaScript is disabled for your browser. Some features of this site may not work without it.
  • METADATOS
  • CONDICIONES DE USO
  • ARCHIVOS
  • ITEMS RELACIONADOS
  • ESTADISTICAS
 
 
Datos de investigación

Contextualized Hate Speech

Autores: Pérez, Juan ManuelIcon ; Cotik, Viviana EricaIcon ; Luque, Franco MartínIcon ; Moro, Agustín; Serrati, Pablo SantiagoIcon ; Miguel, Paula GabrielaIcon ; Debandi, NataliaIcon ; Gravano, AgustinIcon ; Zayat, DemianIcon
Publicador: Consejo Nacional de Investigaciones Científicas y Técnicas
Fecha de depósito: 16/05/2024
Fecha de recolección: 01/03/2020-31/05/2021
Clasificación temática:
Ciencias de la Computación

Resumen

Resultados de un estudio sobre detección del discurso de odio en redes sociales, desde una perspectiva interdisciplinaria, abordando el discurso de odio tanto cuantitativa como cualitativamente, durante el marco temporal de la pandemia de COVID-19. Se construyó un corpus original en la variante "rioplatense" del español centrado en el discurso de odio asociado a la pandemia de COVID-19. Una muestra de este corpus fue anotada manualmente utilizando pautas cuidadosamente diseñadas. Los experimentos de clasificación realizados, utilizando técnicas de aprendizaje automático basadas en transformadores de última generación muestran evidencia de que agregar información contextual mejora el rendimiento de la detección del discurso de odio para dos tareas propuestas: predicción binaria y de múltiples etiquetas, aumentando su Macro F1 en 4,2 y 5,5. puntos, respectivamente. Estos resultados resaltan la importancia del uso de información contextual en la detección del discurso de odio, en este caso las noticias que dieron lugar a los comantarios en la red social Twitter. Código, modelos y corpus están disponibles para futuras investigaciones.

Información Técnica

Este conjunto de datos es una colección de tweets que se publicaron en respuesta a artículos de cinco medios de comunicación argentinos específicos: Clarín, Infobae, La Nación, Perfil y Crónica, durante 2020-2021. Los comentarios fueron analizados en busca de discurso de odio contra ocho grupos o características diferentes: contra las mujeres, contenido racista, odio de clase, contra personas LGBTQ+, contra la apariencia física, contra personas con discapacidad, contra delincuentes y por razones políticas. Todos los datos están en catellano rioplatense. Cada comentario está etiquetado con las siguientes variables. Descripción de la etiqueta HATEFUL ¿Contiene discurso de odio (HS)? WOMEN ¿Esto va en contra de las mujeres? LGBTI ¿Esto va en contra de las personas LGBTI? RACISM ¿Es este un mensaje racista? CLASS ¿Es este un mensaje clasista? POLITICS ¿Este HS se debe a ideología política? DISABLED ¿Este HS está dirigido a personas discapacitadas? APPEARANCE ¿Este HS va contra las personas por su apariencia? (por ejemplo, avergonzar a la grasa) CRIMINAL ¿Este HS es contra delincuentes o personas en conflicto con la ley? Hay una etiqueta adicional CALLS, que representa si un comentario es un llamado a la acción violenta o no. Si el mensaje es odioso, ¿este mensaje llama a la acción (posiblemente violenta)? Las etiquetas HATEFUL y CALLS se binarizan por mayoría simple; las variables de característica o categoría se ponen en 1 si al menos un anotador las marcó como tal.
Palabras clave: NLP, CLASIFICACIÓN DE TEXTO, DETECCIÓN DE DISCURSO DE ODIO, CORPUS ANOTADO EN ESPAÑOL
Alcance geográfico
.

Alcance geográfico

.
Identificador del recurso
URI: http://hdl.handle.net/11336/235509
Colecciones
Datos de Investigación(CCT - CORDOBA)
Datos de Investigación de CTRO.CIENTIFICO TECNOL.CONICET - CORDOBA
Datos de Investigación(CCT - PATAGONIA CONFLUENCIA)
Datos de Investigación de CTRO.CIENTIFICO TECNOL.CONICET - PATAGONIA CONFLUENCIA
Datos de Investigación(OCA CIUDAD UNIVERSITARIA)
Datos de Investigación de OFICINA DE COORDINACION ADMINISTRATIVA CIUDAD UNIVERSITARIA
Datos de Investigación(SEDE CENTRAL)
Datos de Investigación de SEDE CENTRAL
Citación
Pérez, Juan Manuel; Cotik, Viviana Erica; Luque, Franco Martín; Moro, Agustín; Serrati, Pablo Santiago; Miguel, Paula Gabriela; Debandi, Natalia; Gravano, Agustin; (2024): Contextualized Hate Speech. Consejo Nacional de Investigaciones Científicas y Técnicas. (dataset). http://hdl.handle.net/11336/235509
Condiciones de uso
Las buenas prácticas científicas esperan que se otorgue el crédito adecuado mediante una citación. Utilice un formato de citación y aplique estas normas de reutilización.
info:eu-repo/semantics/openAccess
Excepto donde se diga explícitamente, este item se publica bajo la siguiente descripción: Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Unported (CC BY-NC-SA 2.5)
Compartir
Archivos del conjunto de datos
Archivo
Notas de uso
Tamaño
 
contextualized_hate_speech_DATA.zip
  Más
112.8Mb
  Descarga
 
 
Descargar todo
  Descargar solo metadatos (JSON)   Descargar solo metadatos (XML)
 
Preparando la descarga
 

Ver el registro completo

Publicaciones relacionadas

  • Artículo Assessing the Impact of Contextual Information in Hate Speech Detection
    Pérez, Juan Manuel ; Luque, Franco Martín ; Zayat, Demian; Kondratzky, Martin; Moro, Agustín; Serrati, Pablo Santiago ; Zajac, Joaquin ; Miguel, Paula Gabriela ; Debandi, Natalia ; Gravano, Agustin ; Cotik, Viviana Erica (Institute of Electrical and Electronics Engineers, 2023-03)
  • A study of Hate Speech in Social Media during the COVID-19 outbreak

Enviar por e-mail
Separar cada destinatario (hasta 5) con punto y coma.
  • Facebook
  • X Conicet Digital
  • Instagram
  • YouTube
  • Sound Cloud
  • LinkedIn

Los contenidos del CONICET están licenciados bajo Creative Commons Reconocimiento 2.5 Argentina License

https://www.conicet.gov.ar/ - CONICET

Explorar

  • Autores
  • Disciplinas
  • Comunidades
  • Todo

Ayuda

  • Qué son y qué no son los Datos de Investigación
  • Cómo obtener un DOI/Handle
  • Cómo reutilizar y citar los Datos de Investigación
  • Preguntas frecuentes | FAQs
  • Contacto

Novedades

  • Noticias
  • Boletines

Acerca de

Godoy Cruz 2290 (C1425FQB) CABA – República Argentina – Tel: +5411 4899-5400 repositorio@conicet.gov.ar
TÉRMINOS Y CONDICIONES