Mostrar el registro sencillo del ítem
dc.date.available
2022-07-18T17:23:42Z
dc.identifier.citation
Przybiła, Piotr; Soto, Axel Juan; (2022): News Style Corpus v2. Consejo Nacional de Investigaciones Científicas y Técnicas. (dataset). http://hdl.handle.net/11336/162377
dc.identifier.uri
http://hdl.handle.net/11336/162377
dc.description.abstract
El corpus utilizado en esta investigación contiene 95.900 documentos de 199 fuentes. News Style Corpus v2 se basa en un corpus anterior (https://github.com/piotrmp/fakestyle), utilizando el trabajo de PolitiFact (https://www.politifact.com/punditfact/article/2017/apr/20/politifacts-guide-fake-news-websites-and-what-they/) y Pew Research Center (https://www.journalism.org/2014/10/21/political-polarization-media-habits/) para evaluaciones de credibilidad en función de su origen. Esta versión refina la anterior mediante la extracción de texto sin formato a través de la biblioteca unfluff (https://github.com/ageitgey/node-unfluff) y la eliminación de documentos con contenido insuficiente.
dc.rights
info:eu-repo/semantics/openAccess
dc.rights.uri
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
dc.title
News Style Corpus v2
dc.type
dataset
dc.date.updated
2022-07-11T19:32:24Z
dc.description.fil
Fil: Przybiła, Piotr. Polish Academy of Sciences; Argentina
dc.description.fil
Fil: Soto, Axel Juan. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; Argentina
dc.datacite.PublicationYear
2022
dc.datacite.Creator
Przybiła, Piotr
dc.datacite.Creator
Soto, Axel Juan
dc.datacite.affiliation
Polish Academy of Sciences
dc.datacite.affiliation
Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación
dc.datacite.affiliation
Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación
dc.datacite.publisher
Consejo Nacional de Investigaciones Científicas y Técnicas
dc.datacite.subject
Ciencias de la Computación
dc.datacite.subject
Ciencias de la Computación e Información
dc.datacite.subject
CIENCIAS NATURALES Y EXACTAS
dc.datacite.date
11/06/2021
dc.datacite.DateType
Creado
dc.datacite.language
eng
dc.datacite.AlternateIdentifierType
info:eu-repo/semantics/altIdentifier/url/https://github.com/piotrmp/credibilator
dc.datacite.version
1.0
dc.datacite.description
El tsv compartido junto con el código provisto ( https://github.com/piotrmp/credibilator/tree/master/NewsStyleCorpus2) contiene la información necesaria para recuperar las páginas que conforman el corpus usando el archivo de WayBackMachine. En particular el .tsv contiene todos los documentos del corpus, cada uno con el sitio web (dominio) del que proviene y su etiqueta de credibilidad, la URL de la página original y la dirección bajo la cual el documento está disponible actualmente en el archivo de WayBackMachine.
dc.datacite.DescriptionType
Información Técnica
dc.datacite.FundingReference
PPN/PPO/2018/1/00006
dc.datacite.FundingReference
2017-0007
dc.datacite.FundingReference
447
dc.datacite.FunderName
POLISH NATIONAL AGENCY FOR ACADEMIC EXCHANGE
dc.datacite.FunderName
Google Limited Liability Company (google Llc)
dc.datacite.FunderName
Ministerio de Ciencia, Tecnología e Innovación Productiva
dc.datacite.FunderName
POZNAN SUPERCOMPUTING AND NETWORKING CENTER
dc.relationtype.isSourceOf
https://ri.conicet.gov.ar/handle/11336/137736
dc.subject.keyword
Visual analytics
dc.subject.keyword
Credibility
dc.subject.keyword
Text classification
dc.subject.keyword
Fake news
dc.subject.keyword
Natural language processing
dc.datacite.resourceTypeGeneral
dataset
dc.conicet.datoinvestigacionid
1836
dc.datacite.awardTitle
Polish returns
dc.datacite.awardTitle
Google Latin American Research Awards
dc.datacite.awardTitle
PIDRI-PRH
dc.datacite.awardTitle
Computing grant
dc.conicet.justificacion
Datos provenientes de sitios web
dc.datacite.formatedDate
2021
Archivos del conjunto de datos
Archivo
Notas de uso
Tamaño