La detección de spam de Gmail ha recibido sus "mayores mejoras de defensa en los últimos años"

En la interminable lucha contra el spam en el correo electrónico, Gmail ha desarrollado un nuevo método que, al mejorar la identificación de textos, aumenta la detección en un 38%.

Para evadir el algoritmo de categorización de texto de Gmail, los spammers frecuentemente emplean "manipulaciones de texto adversarias", como caracteres invisibles, homoglifos (que se parecen a letras reales) y relleno de palabras clave. Vectorizador de texto resistente y eficiente, o RETVec, es la respuesta de Google. Este método, que admite "todos los idiomas y todos los caracteres UTF-8 sin necesidad de preprocesamiento de texto", "ayuda a los modelos a lograr un rendimiento de clasificación de última generación y reduce drásticamente el costo computacional", según la metodología de código abierto de Google Research. Debido a esto, es perfecto para aplicaciones en línea, en dispositivos y otras aplicaciones a gran escala:

Para dispositivos móviles y de vanguardia, los modelos entrenados con RETVec se pueden traducir fácilmente a TFLite gracias a una implementación nativa en TensorFlow Text. Es posible que vea una página de demostración que ejecuta un modelo basado en RETVec y obtenga nuestra implementación de capa TensorflowJS en Github para la implementación de modelos de aplicaciones web. Modelos que detectan material malicioso, como intentos de phishing.

Si bien redujo el consumo de TPU (en un 83%), la tasa de falsos positivos (en un 19,4%) y la tasa de detección de spam (por encima de la línea base en un 38%), RETVec ha mejorado el rendimiento de Gmail.

Las mejoras en RETVec se logran mediante el uso de un modelo de incrustación de palabras liviano con aproximadamente 200k parámetros, lo que nos permite disminuir el tamaño del modelo Transformer mientras mantenemos o mejoramos el rendimiento. Además, es capaz de dividir eficientemente el cálculo entre el host y la TPU, lo que es bueno tanto para la red como para la memoria.

"Hemos probado exhaustivamente RETVec" durante el año pasado, según Google, y "hemos descubierto que es muy eficaz para aplicaciones de seguridad y anti-abuso".