Skip to content

SoReL-20M, 20 millones de muestras de malware inocuas para su estudio

Sophos y ReversingLabs han lanzado recientemente una ingente base de datos de muestras de malware, conteniendo nada más y nada menos que 20 millones de elementos «desarmados», lo que encantará seguro a muchos investigadores. Su nombre es SoReL-20M.

Dicha base de datos incluye un enorme conjunto, de lo más variado, cuidadosamente catalogado y con metadatos relevantes, que además podría ser utilizado para alimentar a motores de Machine Learning, como los que utlizan las diversas soluciones de seguridad y EDR existentes en el mercado.

En otro artículo ya hablaba sobre malware, en concreto sobre sitios donde podemos conseguir muestras de malware de forma abierta o gratuita. Te recomiendo revisarlos también.

10 millones de muestras de malware y más

Los modelos de aprendizaje de los componentes de machine learning se enfrentan, normalmente, al reto de contar con subconjuntos de datos lo suficientemente grandes (por tanto, representativos) que además estén bien conformados, para poder usarlos como base.

SoReL-20M se considera el primer conjunto a «escala productiva» de conjunto de datos de malware que se hace público en internet, y su objetivo no es otro que facilitar dicha labor.

Al contrario que con el reconocimiento de imágenes o el procesamiento de lenguaje natural, la parte de seguridad ha experimentado mucha menos actividad y un ratio de mejora algo peor. Un motivo para esto es que simplemente faltan mecanismos a gran escala, estandarizados y realistas que puedan ser probados y obtenidos por un amplio número de usuarios, desde investigadores independientes en laboratorios, hasta grupos corporativos grandes.

Sophos

Por supuesto hay otra lectura, como siempre, ye sque la disponibilidad de cara al público de conjuntos de entrenamiento como SoReL-20M podría, además, dar ventaja a atacantes para diseñar nuevas amenazas.

Eso sí, Sophos apunta, con cierta razón, que los atacantes peligrosos de verdad (estados, grupos de hackers expertos en APT) probablemente ya cuentan con acceso a datasets y recursos similares.

De hecho, por eso apuntan que es necesario proveer a los investigadores de estos recursos, precisamente para poner al «blue team» a la altura de sus adversarios. Estos conjuntos contienen características obtenidas dede el conjunto de datos EMBER 2.0 y ofrecen cosas como:

  • Binarios
  • Metadatos de detección
  • Etiquetas

Microsoft LightGBM y recursos PyTorch

Este conjunto de expertos ha liberado también otros repositorios en GitHub.

El primero de ellos es Light Gradient Boosting Machine. Este recurso persigue, mediante la entrega de un conjunto de modelos pre-entrenados en estos datos, agilizar y mejorar el análisis de los millones de componentes del índice.

El segundo recurso al que se hace referencia, es un conjunto de modelos igualmente entrenados, basados en PyTorch. Se trata de un framework de machine learning que acelera la puesta en producción de prototipos.

El conjunto de recursos es el siguiente:

SOREL database:

s3://sorel-20m/09-DEC-2020/processed-data/

Modelos LightGBM

s3://sorel-20m/09-DC-2020/lightGBM-features/

Más información en Reversing Labs

deweloper View All

Trabajo como consultor de ciberseguridad y me gusta lo que hago. Aficionado a la informática / tecnología en general, me gusta compartir con la gente lo poco que sé. También soy aficionado al deporte y los videojuegos.

Deja un comentario