Durante años, RDMA (Acceso Directo a Memoria Remota) ha sido sinónimo de supercomputación y centros de datos: redes capaces de transferir datos entre memorias de forma directa, con una sobrecarga mínima y latencias que, en el mundo del HPC, marcan la diferencia entre un clúster eficiente y uno que “se ahoga” en el stack de red. Ahora, Apple ha dado un paso innovador habilitando RDMA sobre Thunderbolt 5 en macOS 26.2. La propia compañía vincula esta tecnología a casos de uso como la inferencia distribuida de IA.
En teoría, la promesa es muy potente: conectar varios Macs por Thunderbolt 5 y reducir drásticamente la latencia en la comunicación en comparación con enfoques tradicionales basados en TCP/IP. Sin embargo, las primeras experiencias de usuarios que han estado experimentando con esta función indican que, aunque el potencial existe, el camino todavía presenta obstáculos.
¿Qué es RDMA y por qué es importante (cuando realmente marca la diferencia)?
RDMA permite que dos máquinas intercambien datos sin que la CPU tenga que copiar buffers constantemente y sin pasar por gran parte de la infraestructura del sistema operativo. Esto reduce la latencia y libera recursos de CPU para tareas más útiles, como computación o uso de GPU.
En entornos de centros de datos, RDMA suele asociarse a InfiniBand o a variantes sobre Ethernet como RoCE. En el caso de Apple, el giro está en el medio físico: Thunderbolt 5, una interconexión diseñada para altas tasas de transferencia en periféricos, almacenamiento externo o docks… que ahora se está utilizando como un enlace de baja latencia entre hosts.
Además, Thunderbolt 5 duplica el ancho de banda de Thunderbolt 4 (80 Gb/s bidireccionales) y contempla modos de “boost” asimétricos para ciertos escenarios.
Clave: MLX y el backend “JACCL”
El elemento técnico que ha despertado interés (de manera positiva) es que la documentación de MLX, el framework de Apple para machine learning, ya incluye un backend de comunicación llamado JACCL, diseñado para aprovechar RDMA sobre Thunderbolt. Según la propia Apple, este backend permite latencias hasta una orden de magnitud menores en comparación con otras alternativas, como el backend en anillo (“ring”).
En palabras sencillas: Apple no está implementando RDMA “por hobby”; está incluyendo una pieza para que el machine learning distribuido en local —con varios Macs— tenga sentido más allá de experiencias aisladas.
No basta con activar: se requiere recuperación
El primer desafío cultural para quienes piensan en “clúster” como algo automatizable es que, hoy en día, no se puede activar de forma remota, ni siquiera con sudo desde SSH. Según la guía de MLX, el proceso exige entrar en macOS Recovery, abrir Terminal y ejecutar:
rdma_ctl enable
Luego, reiniciar el sistema.
Para verificar, la propia documentación recomienda usar ibv_devices, lo que revela otra capa interesante: Apple está exponiendo interfaces compatibles con el ecosistema de “verbs” de RDMA (muy habitual en HPC).
La topología es clave: JACCL requiere una malla totalmente conectada
El segundo factor crucial —y que más condiciona el universo de “hobby clusters” en Macs— es que JACCL solo soporta topologías completamente conectadas (full mesh). Es decir, un cable Thunderbolt entre cada par de nodos.
En un clúster de 4 nodos, esto es factible. Sin embargo, a medida que aumenta el número de nodos, el cableado crece rápidamente. Además, actualmente no existe un equivalente claro a un “switch Thunderbolt 5” orientado a estos despliegues, lo que complica escalar sin convertir el rack en un nido de cables y puntos de fallo potenciales.
Resumen práctico: cómo crece el cableado en full mesh
| Número de nodos | Enlaces directos necesarios | Reflexión práctica |
|---|---|---|
| 2 | 1 | Muy sencillo |
| 3 | 3 | Se forma el “triángulo” |
| 4 | 6 | Aún manejable |
| 5 | 10 | Empieza a ser complejo |
| 7 | 21 | El cableado se convierte en un proyecto |
El límite práctico: M4 Max vs M3 Ultra
La restricción de puertos no es menor, ya que en full mesh, cada nodo requiere N−1 enlaces. Actualmente, los Mac Studio ofrecen configuraciones con M4 Max y M3 Ultra, con diferentes cantidades de puertos Thunderbolt 5 según el modelo.
En la práctica, esto se traduce en una regla sencilla que ya se ha comprobado en pruebas reales:
- M4 Max (menos puertos): el máximo para una malla completa sin inventar es generalmente 5 nodos.
- M3 Ultra (más puertos): permite 7 nodos en full mesh (cada uno necesita 6 enlaces).
¿Por qué la CPU puede llegar al 900 %? Caso del Thunderbolt Bridge
Uno de los comportamientos reportados en pruebas tempranas es el agotamiento de CPU y red cuando el sistema entra en estados de reenvío o puente poco comunes. La documentación de MLX es clara: aunque RDMA sobre Thunderbolt no utiliza TCP/IP, sí es necesario deshabilitar el función de Thunderbolt Bridge, además de configurar redes locales aisladas por enlace.
Esto encaja con patrones típicos en topologías en malla: mantener interfaces puente activas puede generar bucles, tormentas de tráfico o reenvíos inesperados. Como resultado, se producen picos de CPU, tráfico excesivo y, en el peor escenario, la sensación de que “la red colapsa”, requiriendo volver a entrar en macOS Recovery para solucionarlo.
“No hay documentación” (o no la había donde uno esperaba)
Una queja frecuente de quienes prueban esta función es la dispersión y contradicción en la documentación y las respuestas en foros y comunidades. Es comprensible: es una capacidad nueva, con requisitos específicos (Recovery, topología estricta, redes aisladas, puente desactivado) y herramientas que todavía no forman parte del conocimiento general.
En este sentido, proyectos comunitarios como Exo han experimentado con clústeres de Macs y RDMA, y algunos tests publicados muestran mejoras significativas en la latencia en acceso y uso de memoria distribuida en comparación con configuraciones previas.
¿Qué puede hacer hoy un equipo técnico (sin promesas vacías)?
Más allá de la demo, existe un checklist realista para desarrolladores y administradores que quieran explorar RDMA sobre Thunderbolt 5 sin perder un fin de semana:
- Separar “entorno de laboratorio” de “producción”: asume que aún está en fase inicial.
- Planificar la topología: si se desea JACCL, desde el principio, con malla completa.
- Asegurar acceso local: activar requiere Recovery; si se rompe la conectividad, será necesario acceder a la consola.
- Configurar SSH y sudo sin contraseña para facilitar automatizaciones (MLX lo asume en sus flujos con
mlx.launch). - Desactivar Thunderbolt Bridge y aislar enlaces: como condición previa, no como ajuste final.
- Monitorizar efectos laterales: servicios como Control Universal o Compartir Pantalla pueden aumentar la carga de CPU y red, por lo que conviene aislar variables para identificar posibles conflictos.
Análisis estratégico: Apple apuesta por el “clúster personal” para IA
Apple está impulsando una visión concreta: ampliar la memoria y capacidad de cálculo de varios Macs para tareas que anteriormente requerían centros de datos o estaciones con GPU muy potentes. La vinculación de esta tecnología con MLX y la inferencia distribuida no es casual; responde a una estrategia clara.
La parte incómoda es que, por ahora, el salto requiere mentalidad de HPC: topologías estrictas, configuraciones precisas y alta tolerancia a fallos. Pero incluso con esos desafíos, el mensaje principal es contundente: RDMA ya no es solo “cosa del datacenter”. Apple lo está llevando hacia el escritorio… aunque, por ahora, con casco y rodilleras.
