¿Qué es la red del centro de datos de IA?

¿Qué es la red del centro de datos de IA?

Las redes del centro de datos de IA se refieren a la estructura de redes del centro de datos que permite la inteligencia artificial (IA). Admite la escalabilidad de red, el rendimiento y los requisitos de baja latencia de las cargas de trabajo de IA y aprendizaje automático (ML), que son particularmente exigentes en la fase de capacitación de IA. 

En las redes iniciales de computación de alto rendimiento (HPC) y capacitación de IA, InfiniBand, una tecnología de red patentada de alta velocidad y baja latencia, adquirió popularidad inicialmente por su comunicación rápida y eficiente entre servidores y sistemas de almacenamiento. Hoy, la alternativa abierta es Ethernet, que está ganando una tracción significativa en el mercado de redes del centro de datos de IA y se espera que se convierta en la tecnología dominante.

Hay múltiples razones para la creciente adopción de Ethernet, pero las operaciones y el costo se distinguen. El grupo de talentos de profesionales de red que pueden construir y operar una red Ethernet en comparación con una red InfiniBand patentada es masivo y hay una amplia gama de herramientas disponibles para administrar dichas redes en comparación con la tecnología InfiniBand, que se obtiene principalmente a través de Nvidia.

 

¿Qué requisitos basados en la IA se abordan con las redes del centro de datos de IA?

La IA generativa está demostrando ser una tecnología transformadora en todo el mundo. La IA generativa y los modelos grandes del centro de datos de aprendizaje profundo en general traen nuevos requisitos de red del centro de datos de IA. Hay tres fases para desarrollar un modelo de IA:

  • Fase 1: Preparación de datos: recopilar y seleccionar los conjuntos de datos para ingresarlos en el modelo de IA.
  • Fase 2: Capacitación de IA: entrenar un modelo de IA para que realice una tarea específica al exponerlo a grandes cantidades de datos. Durante esta fase, el modelo de IA aprende patrones y relaciones dentro de los datos de capacitación para desarrollar sinapsis virtuales para imitar la inteligencia.
  • Fase 3: Inferencia de IA: operar en un entorno del mundo real para hacer predicciones o decisiones basadas en datos nuevos y no vistos.

La fase 3 generalmente es compatible con las redes de centros de datos y de nube existentes. Sin embargo, la fase 2 (capacitación de IA) requiere extensos recursos de datos y computación para admitir su proceso iterativo en el que el modelo de IA aprende de los datos recopilados continuamente para refinar sus parámetros. Las unidades de procesamiento gráfico (GPU) son adecuadas para las cargas de trabajo de aprendizaje e inferencia de IA, pero deben trabajar en clústeres para ser eficientes. Escalar los clústeres mejora la eficiencia del modelo de IA, pero también aumenta el costo, por lo que es crítico usar las redes del centro de datos de IA que no impidan la eficiencia del clúster.

Muchos, incluso decenas de miles de servidores de GPU (con costos que exceden los $ 400 000 por servidor en 2023), deben estar conectados para entrenar modelos grandes. Como resultado, optimizar el tiempo de finalización del trabajo y minimizar o eliminar la latencia de cola (una condición en la que las cargas de trabajo de IA atípicas ralentizan la finalización de todo el trabajo de IA) son claves para optimizar el retorno de la inversión de GPU. En este caso de uso, la red del centro de datos de IA debe ser 100% confiable y no causar degradaciones de eficiencia en el grupo.   

 

¿Cómo funciona la red del centro de datos de IA?

Aunque los servidores del centro de datos de IA costosos generalmente impulsan el costo general de los centros de datos de IA, las redes del centro de datos de IA son críticas porque se requiere una red de alto rendimiento para maximizar la utilización de GPU. Ethernet es una tecnología abierta y probada que es la más adecuada para ofrecer esta solución implementada en una arquitectura de red de centro de datos mejorada para IA. Las mejoras incluyen la administración de congestión, el equilibrio de carga y la latencia minimizada para optimizar el tiempo de finalización del trabajo (JCT). Finalmente, la administración y la automatización simplificadas garantizan la confiabilidad y el rendimiento continuo.

Diseño de estructura

Se pueden usar varios diseños de estructura en las redes del centro de datos de IA; sin embargo, se recomienda una estructura Clos no bloqueante para optimizar el marco de capacitación. Estas estructuras se construyen usando una velocidad de red consistente de 400 Gbps (que se mueve a 800 Gbps) de la NIC a la hoja y a través del spine. Se puede usar una estructura no bloqueante de dos capas y tres etapas o una estructura no bloqueante de tres capas y cinco etapas dependiendo del tamaño del modelo y la escala de GPU.

Control de flujo y prevención de congestión

Además de la capacidad de la estructura, las consideraciones de diseño adicionales aumentan la confiabilidad y la eficiencia de la estructura general. Estas consideraciones incluyen interconexiones de estructura de tamaño adecuado con el número óptimo de enlaces y la capacidad de detectar y corregir los desequilibrios de flujo para evitar la congestión y la pérdida de paquetes. La notificación de congestión explícita (ECN) con la notificación de congestión cuantificada del centro de datos (DCQCN) más el control de flujo basado en prioridades resuelven los desequilibrios de flujo para garantizar una transmisión sin pérdidas.

Para reducir la congestión, el equilibrio de carga dinámico y adaptativo se implementa en el conmutador. El equilibrio de carga dinámico redistribuye los flujos localmente en el conmutador para distribuirlos de manera uniforme. Los monitores de equilibrio de carga adaptativos que reenvían tablas de flujo y de siguiente salto para identificar desequilibrios y dirigir el tráfico lejos de las rutas congestionadas.

Cuando no se evita la congestión, ECN ofrece una notificación temprana a las aplicaciones. Durante estos períodos, las spine-leaf actualizan los paquetes con capacidad ECN para notificar a los remitentes de la congestión, lo que hace que los remitentes ralenticen la transmisión para evitar caídas de paquetes en tránsito. Si los puntos finales no reaccionan a tiempo, el control de flujo basado en prioridades (PFC) permite que los receptores Ethernet compartan la retroalimentación con los remitentes en la disponibilidad del búfer. Finalmente, durante los períodos de congestión, las spine-leaf pueden pausar o acelerar el tráfico en enlaces específicas para reducir la congestión y evitar caídas de paquetes, lo que permite transmisiones sin pérdidas para clases de tráfico específicos.

Escala y rendimiento

Ethernet surgió como solución estándar abierta para manejar los rigores de la computación de alto rendimiento y las aplicaciones de IA. Evolucionó con el tiempo (incluida la progresión actual a 800 GbE y el puente de centro de datos (DCB)) para ser más rápido, más confiable y escalable, lo que lo convierte en la opción preferida para manejar los requisitos de alta transferencia de datos y baja latencia necesarios para las aplicaciones de IA de misión crítica.

Automatizaciσn

La automatización es la pieza final para una solución de redes del centro de datos de IA efectiva, aunque no toda la automatización se crea igual. Para el valor completo, el software de automatización debe ofrecer operaciones que prioricen la experiencia. Se usa en el diseño, el despliegue y la administración del centro de datos de IA de forma continua. Automatiza y valida el ciclo de vida de red del centro de datos de IA desde el día 0 hasta el día 2+. Esto da como resultado diseños e implementaciones de centros de datos de IA repetibles y validados continuamente que no solo eliminan el error humano, sino que también aprovechan la telemetría y los datos de flujo para optimizar el rendimiento, facilitar la solución de problemas proactiva y evitar interrupciones.   

 

La solución de redes del centro de datos de IA de Juniper se basa en décadas de experiencia de red e innovaciones de AIOps

La solución de redes del centro de datos de IA de Juniper se basa en nuestras décadas de experiencia de redes y las innovaciones de AIOps para redondear las soluciones de redes del centro de datos de IA abiertas, rápidas y fáciles de administrar. Estas estructuras no bloqueantes y escalables de alta capacidad ofrecen el rendimiento de IA más alto, el tiempo de finalización del trabajo más rápido y la utilización de GPU más eficiente. La solución de redes del centro de datos de IA de Juniper aprovecha tres pilares arquitectónicos fundamentales:

  • Rendimiento masivamente escalable: para optimizar el tiempo de finalización del trabajo y, por lo tanto, la eficiencia de la GPU
  • Apertura estándar de la industria: extender las tecnologías de centro de datos existentes con ecosistemas impulsados por la industria que promueven la innovación y reducen los costos a largo plazo
  • Operaciones que priorizan la experiencia: automatizar y simplificar el diseño, el despliegue y las operaciones del centro de datos de IA para estructuras de back-end, front-end y almacenamiento

Estos pilares son compatibles con:

  • Un diseño de red de centro de datos de IA de alta capacidad y sin pérdidas que aprovecha una estructura Clos no bloqueante, la topología más versátil para optimizar los marcos de capacitación de IA
  • Conmutadores y enrutadores de alto rendimiento, incluidos los enrutadores de la serie PTX de Juniper, basados en Juniper Express Silicon para el spine o súper spine, y los conmutadores de la serie QFX, basados en los ASIC Tomahawk de Broadcom como conmutadores leaf que ofrecen conectividad de servidor de IA
  • Eficiencia de la estructura con control de flujo y prevención de colisiones
  • Escala y rendimiento Ethernet basados en estándares y con 800 GbE
  • Automatización extensa que usa el software de redes basadas en la intención de Juniper Apstra® para automatizar y validar el ciclo de vida de red del centro de datos de IA desde el día 0 hasta el día 2+

 

Preguntas frecuentes de redes del centro de datos de IA

¿Qué problemas resuelven las redes del centro de datos de IA?

Las redes del centro de datos de IA resuelven los requisitos de rendimiento de la IA generativa y los modelos de IA de aprendizaje profundo de gran tamaño en general. Sin embargo, la fase 2 (capacitación de IA) requiere extensos recursos de datos y computación para admitir su proceso iterativo en el que el modelo de IA aprende de los datos recopilados continuamente para refinar sus parámetros. Las unidades de procesamiento gráfico (GPU) son adecuadas para las cargas de trabajo de aprendizaje e inferencia de IA, pero deben trabajar en clústeres para ser eficientes. Escalar los grupos mejora la eficiencia del modelo de IA, pero también aumenta el costo, por lo que es crítico usar las redes del centro de datos de IA que no impidan la eficiencia del grupo.

Muchos, incluso decenas de miles de servidores de GPU (con costos que exceden los $ 400 000 por servidor en 2023), deben estar conectados para entrenar modelos grandes. Como resultado, maximizar el tiempo de finalización del trabajo y minimizar o eliminar la latencia de cola (una condición en la que las cargas de trabajo de IA atípicas ralentizan la finalización de todo el trabajo de IA) son claves para optimizar el retorno de la inversión de GPU. En este caso de uso, la red del centro de datos de IA debe ser 100% confiable y no causar degradaciones de eficiencia en el grupo.   

¿Cuáles son las ventajas de Ethernet sobre InfiniBand para las redes del centro de datos de IA?

En las redes iniciales de computación de alto rendimiento (HPC) y capacitación de IA, InfiniBand, una tecnología de red patentada de alta velocidad y baja latencia, adquirió popularidad inicialmente por su comunicación rápida y eficiente entre servidores y sistemas de almacenamiento. Hoy, la alternativa abierta es Ethernet, que está ganando una tracción significativa en el mercado de redes del centro de datos de IA moderno y se espera que se convierta en la tecnología dominante.

Si bien las tecnologías patentadas como InfiniBand pueden traer avances e innovación, tienen primas de cobro costosas que no permiten que los mercados competitivos de oferta y demanda puedan regular los costos. Además, el grupo de talentos de profesionales de red que pueden construir y operar una red Ethernet en comparación con una red InfiniBand patentada es masivo y hay una amplia gama de herramientas disponibles para administrar dichas redes en comparación con la tecnología InfiniBand, que se obtiene principalmente a través de Nvidia.

Junto a IP, Ethernet es la tecnología de redes más adoptada del mundo. Ethernet ha evolucionado para ser más rápido, más confiable y escalable, lo que lo hace preferido para manejar los requisitos de alto transferencia de datos y baja latencia de las aplicaciones de IA. La progresión a 800 GbE y las mejoras de Ethernet de puente de centro de datos (DCB) permiten una transmisión de datos de alta capacidad, baja latencia y sin pérdidas, lo que hace que las estructuras Ethernet sean altamente deseables para el tráfico de IA de alta prioridad y cruciales para sus objetivos.

¿Qué soluciones de redes del centro de datos basadas en IA ofrece Juniper?

La solución de redes del centro de datos de IA de Juniper ofrece un diseño de red de centro de datos de IA de alta capacidad y sin pérdidas que usa una estructura Clos no bloqueante, la topología más versátil para optimizar los marcos de capacitación de IA. La solución aprovecha los conmutadores y enrutadores Ethernet basados en estándares abiertos de alto rendimiento con interfaces de hasta 800 GbE. Además, utiliza el software de redes basadas en la intención de Juniper Apstra para automatizar y validar el ciclo de vida de red del centro de datos de IA desde el día 0 hasta el día 2+.