Repositorio Institucional
Repositorio Institucional
CONICET Digital
Datos de
Investigación
  • EXPLORAR
    • AUTORES
    • DISCIPLINAS
    • COMUNIDADES
    • TODO
  • Ayuda
    • Qué son y qué no son los Datos de Investigación
    • Cómo obtener un DOI/Handle
    • Cómo reutilizar y citar los Datos de Investigación
    • Preguntas frecuentes | FAQs
    • Contacto
  • Novedades
    • Noticias
    • Boletines
  • Acerca de
JavaScript is disabled for your browser. Some features of this site may not work without it.
  • METADATOS
  • CONDICIONES DE USO
  • ARCHIVOS
  • ITEMS RELACIONADOS
  • ESTADISTICAS
 
 
Datos de investigación

Datasets used in the benchmarking exercise by SOMOC and iRAPCA

Autores: Alberca, Lucas NicolásIcon ; Bellera, Carolina LeticiaIcon ; Prada Gori, Denis NihuelIcon ; Llanos, ManuelIcon ; Talevi, AlanIcon
Publicador: Consejo Nacional de Investigaciones Científicas y Técnicas
Fecha de depósito: 09/09/2024
Fecha de recolección: 01/03/2021-31/07/2021
Clasificación temática:
Otras Ciencias Químicas

Resumen

Two open-source in-house methodologies for clustering of small molecules are presented: iterative Random subspace Principal Component Analysis clustering (iRaPCA), an iterative approach based on feature bagging, dimensionality reduction, and K-means optimization; and Silhouette Optimized Molecular Clustering (SOMoC), which combines molecular fingerprints with the Uniform Manifold Approximation and Projection (UMAP) and Gaussian Mixture Model algorithm (GMM). In a benchmarking exercise, the performance of both clustering methods has been examined across 29 datasets containing between 100 and 5000 small molecules, comparing these results with those given by two other well-known clustering methods, Ward and Butina. iRaPCA and SOMoC consistently showed the best performance across these 29 datasets, both in terms of within-cluster and between-cluster distances.

Métodos

The datasets were compiled from various repositories, are represented in SMILES notation and have been curated and standardized.
Palabras clave: CLUSTERING, SMALL MOLECULES, BENCHMARKING, DATASETS, CHEMINFORMATICS, MEDICINAL CHEMISTRY
Alcance geográfico
.

Alcance geográfico

.
Identificador del recurso
URI: http://hdl.handle.net/11336/243803
Colecciones
Datos de Investigación(CCT - LA PLATA)
Datos de Investigación de CTRO.CIENTIFICO TECNOL.CONICET - LA PLATA
Datos de Investigación(INGEBI)
Datos de Investigación de INST.DE INVEST.EN ING.GENETICA Y BIOL.MOLECULAR "DR. HECTOR N TORRES"
Citación
Alberca, Lucas Nicolás; Bellera, Carolina Leticia; Prada Gori, Denis Nihuel; Llanos, Manuel; Talevi, Alan; (2024): Datasets used in the benchmarking exercise by SOMOC and iRAPCA. Consejo Nacional de Investigaciones Científicas y Técnicas. (dataset). http://hdl.handle.net/11336/243803
Condiciones de uso
Las buenas prácticas científicas esperan que se otorgue el crédito adecuado mediante una citación. Utilice un formato de citación y aplique estas normas de reutilización.
info:eu-repo/semantics/openAccess
Excepto donde se diga explícitamente, este item se publica bajo la siguiente descripción: Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Unported (CC BY-NC-SA 2.5)
Compartir
Archivos del conjunto de datos
Archivo
Notas de uso
Tamaño
 
ci2c00265_si_003.zip
.csv files of datasets  Más
498.4Kb
  Descarga
 
 
Descargar todo
  Descargar solo metadatos (JSON)   Descargar solo metadatos (XML)
 
Preparando la descarga
 

Ver el registro completo

Publicaciones relacionadas

  • Artículo iRaPCA and SOMoC: Development and Validation of Web Applications for New Approaches for the Clustering of Small Molecules
    Prada Gori, Denis Nihuel ; Llanos, Manuel ; Bellera, Carolina Leticia ; Talevi, Alan ; Alberca, Lucas Nicolás (American Chemical Society, 2022-06)

Enviar por e-mail
Separar cada destinatario (hasta 5) con punto y coma.
  • Facebook
  • X Conicet Digital
  • Instagram
  • YouTube
  • Sound Cloud
  • LinkedIn

Los contenidos del CONICET están licenciados bajo Creative Commons Reconocimiento 2.5 Argentina License

https://www.conicet.gov.ar/ - CONICET

Explorar

  • Autores
  • Disciplinas
  • Comunidades
  • Todo

Ayuda

  • Qué son y qué no son los Datos de Investigación
  • Cómo obtener un DOI/Handle
  • Cómo reutilizar y citar los Datos de Investigación
  • Preguntas frecuentes | FAQs
  • Contacto

Novedades

  • Noticias
  • Boletines

Acerca de

Godoy Cruz 2290 (C1425FQB) CABA – República Argentina – Tel: +5411 4899-5400 repositorio@conicet.gov.ar
TÉRMINOS Y CONDICIONES