Nvidia advierte vulnerabilidad Rowhammer en GPUs sin ECC. Investigadores de Toronto demostraron que una sola GPU A6000 puede perder datos e incluso reducir drásticamente la precisión de IA sin ECC activo.

Un recordatorio alarmante: Rowhammer llega a las GPUs de Nvidia
Los clásicos ataques Rowhammer, siempre asociados a la memoria RAM de CPU, ahora han cruzado a las GPUs. Investigadores de la University of Toronto demostraron que una GPU Nvidia A6000 con GDDR6 y ECC desactivado puede ser explotada para alterar bits de memoria, reduciendo la precisión de modelos de IA de un 80 % a apenas 0,1 %—casi la aniquilación del modelo.
Este exploit, bautizado como GPUHammer, no solo pone en riesgo precisión en cálculos de AI, también abre una vía para ataques en entornos compartidos como nubes o laboratorios de investigación, donde una GPU comprometida podría alterar proyectos de terceros sin ser detectada .
¿Cómo funciona GPUHammer?
- Rowhammer crea «bit flips» activando repetidamente líneas específicas de memoria, provocando que celdas adyacentes cambien de estado.
- En CPUs esto es conocido; el hallazgo clave es que el mismo efecto es reproducible en memoria GDDR6 de GPU sin ECC habilitado.
- En pruebas, con una GPU A6000 y cuatro bancos de memoria perturbados, se lograron cambios críticos en los pesos de IA .
Nvidia responde: activa ECC o quítate de en medio
Ante el hallazgo, Nvidia ha emitido un aviso: activar el System-Level ECC en GPUs de gama profesional como Blackwell, Hopper, Ada, Ampere, Turing o Volta es esencial para evitar esta vulnerabilidad.
Modelos más recientes con On-Die ECC (GDDR7 o HBM3) están protegidos automáticamente.
La compañía advierte que habilitar ECC puede afectar rendimiento ML hasta un 10 % y reducir capacidad de memoria entre 6–7 % . Pero la mayoría de organizaciones no pueden permitirse perder datos críticos o comprometer seguridad por un pequeño impacto en velocidad.

¿Qué implicaciones tiene?
- Modelos de IA y ML: en entornos compartidos, un atacante puede alterar silenciosamente modelos sin dejar huella.
- Centro de datos y nubes: GPUs no protegidas podrían propagar corrupción de datos entre clientes.
- Investigación y HPC: resultados de cómputo científico pueden verse falseados.
- En escenarios con GPUs públicas o compartidas, el riesgo es latente si ECC está desactivado o si no se supervisan los logs de errores .
Recomendaciones para proteger tu infraestructura
- Activa ECC en GPUs de gama alta y profesionales.
- Monitorea logs de errores ECC y escapes frecuentes.
- Revisa arquitecturas ML distribuidas en la nube para aislar workloads.
- Adopta GPUs con On-Die ECC por defecto (GDDR7, HBM3).
- Considera mitigaciones software como TRR o incremento de refresh, aunque en GPUs son menos efectivas.
Conclusión
El descubrimiento de GPUHammer confirma que Rowhammer no es solo cosa de CPUs: las GPUs con memoria no protegida pueden ser manipuladas a nivel de hardware de forma silenciosa y devastadora para la precisión de modelos de inteligencia artificial.
Aunque Nvidia cuenta con contramedidas (ECC), el impacto real depende de la disciplina de los administradores y el diseño de sistemas. Si no activas ECC, estás permitiendo un ataque que puede desmantelar tu infraestructura de IA digitalmente, sin ruido y sin aviso.
Este hallazgo debería ser el tsunami que sacuda a la industria: no más GPUs sin ECC en producción. La integridad de la IA está en juego.