banner
Hogar / Noticias / IA generativa y el futuro de los centros de datos: Parte VI
Noticias

IA generativa y el futuro de los centros de datos: Parte VI

Jul 18, 2023Jul 18, 2023

El director ejecutivo de DE-CIX explica cómo deben adaptarse los centros de datos

En el número 48 de DCD>Magazine publicamos un artículo destacado sobre la IA generativa y su impacto en la infraestructura digital. Si ha encontrado su camino directamente aquí, es posible que desee comenzar por el principio: IA generativa: exageración, oportunidades y el futuro de los centros de datos // Parte I: Los modelos

Así como el silicio está siendo llevado al límite para manejar enormes modelos de IA, las redes y la arquitectura de los centros de datos enfrentan desafíos.

"Con estos grandes sistemas, pase lo que pase, no puedes colocarlos en un solo chip, incluso si eres Cerebras", dijo Dylan Patel de SemiAnalysis. “Bueno, ¿cómo conecto todos estos chips divididos? Si son 100 es manejable, pero si son miles o decenas de miles, entonces estás empezando a tener verdaderas dificultades, y Nvidia está implementando precisamente eso. Podría decirse que son ellos o Broadcom los que tienen las mejores redes del mundo”.

Pero las empresas de la nube también se están implicando cada vez más. Tienen los recursos para construir sus propios equipos de red y topologías para soportar grupos de computación en crecimiento.

Amazon Web Services ha implementado clústeres de hasta 20.000 GPU, con tarjetas de red Nitro especialmente diseñadas por AWS. "Y desplegaremos múltiples clústeres", afirmó Chetan Kapoor, de la empresa. “Esa es una de las cosas que creo que diferencia a AWS en este espacio en particular. Aprovechamos nuestra tecnología Nitro para tener nuestros propios adaptadores de red, a los que llamamos Adaptadores de Tejido Elástico”.

La empresa está en proceso de implementar su segunda generación de EFA. "Y también estamos en el proceso de aumentar el ancho de banda por nodo, alrededor de 8 veces entre A100 y H100", dijo. "Vamos a llegar a 3200 Gbps, por nodo".

En Google, un ambicioso esfuerzo de varios años para renovar las redes de su enorme flota de centros de datos está comenzando a dar frutos.

La compañía ha comenzado a implementar la tecnología de conmutación óptica personalizada Mission Apollo a una escala nunca antes vista en un centro de datos.

Las redes de centros de datos tradicionales utilizan una configuración de columna y hoja, donde las computadoras se conectan a conmutadores en la parte superior del rack (hojas), que luego se conectan a la columna, que consta de conmutadores de paquetes electrónicos. El Proyecto Apollo reemplaza la columna vertebral con interconexiones completamente ópticas que redirigen los rayos de luz con espejos.

"Las necesidades de ancho de banda para la capacitación y, en cierta escala, para la inferencia, son simplemente enormes", dijo Amin Vahdat de Google.

Nuestra característica más importante hasta la fecha analiza la próxima ola de informática

Apollo ha permitido a la empresa crear “topologías de red que se ajustan más estrechamente a los patrones de comunicación de estos algoritmos de entrenamiento”, dijo. "Hemos establecido redes especializadas y dedicadas para distribuir parámetros entre los chips, donde enormes cantidades de ancho de banda se producen de forma sincrónica y en tiempo real".

Esto tiene múltiples beneficios, afirmó. A esta escala, los chips o bastidores individuales fallan con regularidad, y "un interruptor de circuito óptico es bastante conveniente para reconfigurarlo en respuesta, porque ahora mis patrones de comunicación coinciden con la topología lógica de mi malla", dijo.

“Puedo decirle a mi interruptor de circuito óptico, 've a tomar otros chips de otro lugar, reconfigura el interruptor de circuito óptico para enchufar esos chips en el orificio que falta y luego continúa'. No es necesario reiniciar todo el cálculo o, en el peor de los casos, empezar desde cero”.

Apollo también ayuda a implementar capacidad de manera flexible. El TPUv4 de la empresa se amplía hasta bloques de 4.096 chips. "Si programo 256 aquí, 64 allá, 128 aquí, otros 512 allá, de repente voy a crear algunos agujeros, donde tengo un montón de 64 bloques de chips disponibles".

En una arquitectura de red tradicional, si un cliente quisiera 512 de esos chips no podría usarlos. “Si no tuviera un interruptor de circuito óptico, estaría hundido y tendría que esperar a que terminaran algunos trabajos”, dijo Vahdat. "Ya están ocupando partes de mi malla y no tengo un 512 contiguo aunque tenga 1.024 chips disponibles".

Pero con el interruptor del circuito óptico, la empresa puede “conectar las piezas correctas para crear una hermosa malla de 512 nodos que es lógicamente contigua. Por lo tanto, separar la topología lógica de la física es súper poderoso".

Si la IA generativa se convierte en una carga de trabajo importante, entonces todos los centros de datos del mundo podrían verse obligados a reconstruir su red, dijo Ivo Ivanov, director ejecutivo del intercambio de Internet DE-CIX. “Hay tres conjuntos críticos de servicios que vemos: 1) Intercambio de nube, es decir, conectividad directa a nubes individuales, 2) Interconexión directa entre diferentes nubes utilizadas por la empresa y 3) Peering para interconexión directa con otras redes de usuarios finales y clientes. .”

Argumentó: "Si estos servicios son fundamentales para crear el entorno que la IA generativa necesita en términos de infraestructura, entonces cada operador de centro de datos hoy necesita tener una solución para una plataforma de interconexión".

Ese servicio de red preparado para el futuro tiene que ser fluido, afirmó: “Si los operadores de centros de datos no ofrecen esto a sus clientes hoy y en el futuro, simplemente se reducirán a operadores de armarios para servidores”.

Aprenda de los operadores de centros de datos del mañana en la siguiente y última parte.