El sistema RETVec detecta spam a una tasa un 38 % mayor que el filtro anterior de Gmail y al mismo tiempo reduce la cantidad de falsos positivos.
Google ha actualizado silenciosamente Gmail con un nuevo filtro de spam que, según la compañía, hace un mejor trabajo al detectar mensajes basura y correos electrónicos de phishing.
El nuevo filtro de spam se basa en un “RETVec”, un vectorizador de texto recientemente desarrollado que puede asignar palabras a vectores o representaciones numéricas. Los desarrolladores han utilizado durante mucho tiempo la vectorización de texto para ayudar a los modelos informáticos a interpretar y clasificar el lenguaje humano, incluso si un correo electrónico puede ser spam o no.
El problema es que los modelos actuales de clasificación de texto todavía pueden tener dificultades para identificar estafas y ataques de phishing. Esto se debe a que los ciberdelincuentes están creando contenido para eludir las defensas, por ejemplo, utilizando caracteres no latinos para crear enlaces a marcas de renombre. Además, los modelos de clasificación de texto pueden requerir «diccionarios grandes» y recursos informáticos para señalar el contenido malicioso o comprender los errores tipográficos, escribieron los investigadores de la compañía en un artículo.
En respuesta, Google desarrolló RETVec, que está capacitado para detectar y comprender manipulaciones a nivel de caracteres, incluidos errores tipográficos en un fragmento de texto, al tiempo que reduce el costo informático.
«Las incorporaciones de RETVec se entrenan mediante el aprendizaje de métricas por pares, lo que garantiza que las palabras que contienen errores tipográficos se incrusten cerca de la palabra original», escribieron los investigadores de Google.
Durante el año pasado, Google también probó RETVec dentro de los sistemas de la empresa «para evaluar su utilidad y descubrió que es muy eficaz para aplicaciones de seguridad y anti-abuso», escribió la compañía en una publicación de blog. Los resultados muestran que RETVec mejoró la detección de spam en un 38 % con respecto al filtro anterior de Gmail.
Al mismo tiempo, RETVec redujo la tasa de falsos positivos en un 19 % y utilizó un 83 % menos de recursos informáticos. Esto ha convertido el «implementación de RETVec en una de las mayores actualizaciones de defensa de los últimos años», añade Google. El mismo sistema funciona en más de 100 idiomas, incluido el inglés.
“Debido a su novedosa arquitectura, RETVec funciona de inmediato en todos los idiomas y en todos los caracteres UTF-8 sin necesidad de preprocesamiento de texto, lo que lo convierte en el candidato ideal para la clasificación de texto en dispositivos, web e implementaciones a gran escala”, dice la compañía.
Además, Google ha hecho que RETVec sea de código abierto, permitiendo a otros desarrolladores incorporar también el sistema como clasificador de texto.