De “geheugenmuur” vormt een bedreiging voor het tempo van AI: meer HBM, meer flash en minder ongebruikte GPU’s

Durante años, de la misma forma que se explicaba la infraestructura para Inteligencia Artificial como “falta de GPUs”, en 2026 esa narrativa empieza a cambiar. Una gráfica ampliamente difundida entre círculos técnicos e inversores muestra dos curvas que se separan como unas tijeras: mientras el tamaño de los modelos crece de manera casi exponencial, la memoria disponible por acelerador avanza a un ritmo mucho más moderado. El resultado en cualquier centro de datos es el mismo: si la GPU no recibe datos a la velocidad adecuada, su potencial queda infrautilizado, incluso con hardware de última generación.

Esta tensión se resume en un concepto cada vez más presente en artículos académicos y blogs especializados: “muralla de memoria”. No se trata solo de una “falta de memoria”, sino del conjunto de capacidad, ancho de banda y latencia necesarios para mover datos entre la lógica de cálculo y los distintos niveles de memoria (desde cachés on-chip hasta HBM o DRAM). En modelos tipo transformer —sobre todo en inferencia—, la memoria y su ancho de banda pueden convertirse en el factor determinante frente al cómputo puro, impactando directamente en coste, consumo y latencia.

De la era del cómputo a la era de alimentar al acelerador

La industria ya había experimentado algo similar en la computación tradicional: CPUs cada vez más rápidas esperando que la RAM suministrara datos. En IA, la historia se repite, pero a escala industrial. A medida que los modelos crecen, también aumentan los requisitos para mover parámetros, activaciones, embeddings y, en inferencia, las cachés internas que mantienen el contexto. Cuando ese “tren de datos” no llega a tiempo, el acelerador pasa parte de su ciclo en espera.

En ese contexto, las inversiones comienzan a desplazarse: no basta con instalar más GPUs; también hay que diseñar sistemas capaces de mantenerlas ocupadas, con memoria más cercana, más ancha y con mayor capacidad utilizable. Por eso, las discusiones técnicas están llenas de siglas que antes eran casi invisibles para el público general: HBM, CXL, jerarquías de memoria más complejas y arquitecturas que intentan reducir el coste de “mover bytes” frente a “hacer operaciones”.

HBM y DDR5: la memoria vuelve a ser protagonista en el diseño

La High Bandwidth Memory (HBM) se ha convertido en símbolo de esta nueva etapa porque aborda el problema en su punto más sensible: ancho de banda por vatio y cercanía física al chip. Los propios fabricantes de memoria posicionan sus gama más avanzada como la “alimentación” necesaria para entrenamiento de modelos exigentes, reservando DDR5 para escalabilidad y coste en configuraciones más generales. En su documentación técnica, Micron Technology destaca HBM3E y DDR5 para cargas de entrenamiento y propone módulos de expansión basados en CXL como vía para ampliar la capacidad más allá de los canales directos, cuando el problema es el “tamaño total” del dataset o del modelo.

Esta estrategia refleja una idea cada vez más aceptada: el futuro cercano no consiste en elegir “una sola memoria”, sino en mezclar capas (HBM para velocidad, DDR para volumen y extensiones tipo CXL para crecer sin reconstruir toda la plataforma). En la práctica, esto se traduce en racks más complejos y una mayor dependencia de la cadena de suministro de memoria avanzada.

El otro gran protagonista: el almacenamiento rápido y los checkpoints en memoria flash

El debate no se limita a la HBM. Los flujos de entrenamiento y servicio de grandes modelos dependen de checkpoints, datasets masivos y almacenamiento local de alto rendimiento para evitar que el clúster se convierta en una máquina de “esperar al disco”. Por ello, el mercado está viendo un crecimiento en NAND y SSD empresariales, impulsado no solo por capacidad, sino por rendimiento sostenido y latencias predecibles.

En este contexto, la relevancia de SanDisk ha resurgido con fuerza tras su separación corporativa, completada el 24 de febrero de 2025, cuando empezó a cotizar como compañía independiente bajo el ticker SNDK. Diversos medios financieros relacionan el incremento en ingresos y beneficios con la demanda por IA y la presión en la oferta, incluso señalando contratos plurianuales y precios más firmes para garantizar el suministro.

Desde la perspectiva tecnológica, la lectura es pragmática: cuanto más crecen los modelos, más se profesionaliza el “trasfondo” del entrenamiento y la inferencia. La IA no solo vive en el chip; existe en todo el pipeline, desde memorias de alta velocidad hasta almacenamiento que sostiene datasets, checkpoints y artefactos de despliegue.

Micron, inversión y capacidad: la memoria como apuesta industrial

La presión no solo se refleja en el catálogo de productos, sino también en grandes inversiones. En enero de 2026, Reuters informó que Micron planea invertir 24 mil millones de dólares en una nueva planta de fabricación en Singapur, para atender la escasez global de memoria impulsada por el auge de aplicaciones de IA y cargas “data-centric”. La misma fuente señala que Singapur concentra la mayor parte de su producción de memoria flash y que la compañía cuenta allí con una planta avanzada de empaquetado para HBM valorada en 7 mil millones de dólares, con producción prevista a partir de 2027.

Más allá de los detalles geográficos, el mensaje es claro: la memoria se está convirtiendo en un componente estratégico, no solo un accesorio. Cuando la industria entra en esa dinámica, el impacto se extiende a todo: disponibilidad, precios, tiempos de entrega y decisiones arquitectónicas en los centros de datos.

Hiperescalares y el coste de mantener GPUs “con hambre cero”

Los grandes operadores de nube —Google, Amazon, Meta y Microsoft— compiten por entrenar y desplegar modelos cada vez más exigentes. La narrativa habitual centra la atención en compras masivas de aceleradores de NVIDIA, pero en la práctica, el reto es sostener una “fábrica” donde los chips estén ocupados la mayor parte del tiempo.

En esta analogía, la “pared de memoria” funciona como metáfora: la industria celebra modelos cada vez mayores (incluidas estimaciones no oficiales atribuidas a OpenAI), pero, al mismo tiempo, el hardware necesita más memoria y ancho de banda para que ese tamaño sea utilizable con eficiencia. Si el sistema no alimenta adecuadamente, la solución no siempre pasa por “comprar más GPU”, sino por incrementar la memoria por acelerador, mejorar la red interna y optimizar el flujo de datos.

La próxima ola: arquitectura, no solo potencia bruta

El cambio más interesante en esta etapa es que la innovación se está desplazando hacia la arquitectura del sistema: cómo se distribuyen los parámetros, cómo se gestiona la caché en inferencia, cómo se reduce el tráfico de memoria y cómo se mueve menos información para obtener el mismo resultado. La “pared de memoria” no se rompe con una sola pieza, sino con un conjunto: HBM más avanzado, mejores interconexiones, almacenamiento local rápido y diseños que aceptan que “mover datos” es el nuevo lujo.

En el corto plazo, la consecuencia más visible será que los centros de datos de IA serán más caros y complejos, pero también más eficientes. Y en ese camino, la memoria—HBM y flash—deja de ser un complemento para convertirse en el elemento central que determina si un clúster rinde al 30% o alcanza su verdadero potencial.


Preguntas frecuentes

¿Qué significa exactamente “muralla de memoria” en modelos de lenguaje y por qué afecta tanto a la inferencia?
La “muralla de memoria” describe el punto en el que el rendimiento de un modelo se limita por capacidad, latencia o ancho de banda de memoria, más que por la capacidad de cálculo. En inferencia, mantener y mover datos de contexto y estructuras internas puede convertir la memoria en el cuello de botella principal.

¿HBM3E es imprescindible o DDR5 sigue siendo válida para cargas de IA?
HBM3E se reserva para escenarios donde se busca máximo ancho de banda y eficiencia energética en entrenamiento avanzado. DDR5 continúa siendo muy útil por coste y escalabilidad, especialmente en configuraciones donde la capacidad total pesa más que el rendimiento máximo.

¿Qué papel juega la memoria flash (SSD/NVMe) en centros de datos de IA?
La memoria flash es clave para almacenamiento rápido de datasets, checkpoints y operaciones de E/S sostenido. Un sistema de almacenamiento lento puede frenar pipelines de entrenamiento y despliegue, incluso con GPUs potentes.

¿Cómo encaja CXL en la estrategia para superar la falta de memoria en servidores de IA?
CXL permite ampliar la capacidad de memoria de forma más flexible que los canales tradicionales, ofreciendo una vía para escalar volumen cuando ya no basta con incrementar el ancho de banda, sino que se necesita mayor capacidad total para datos y modelos.

vía: Twitter

Scroll naar boven