
Este pasado lunes nos despertamos en el mercado con el lanzamiento del modelo de IA DeepSeek-R1 por parte del laboratorio chino DeepSeek, el cual ha generado debate debido a su eficiencia en el entrenamiento, utilizando una fracción del poder de cómputo en comparación con otros modelos de la competencia como el o1 de OpenAI o el Llama-3 de Meta. Los análisis a los que tenemos acceso todavía no tienen claro las implicaciones a corto y largo plazo para los fabricantes de hardware de IA, especialmente AMD y NVIDIA, y el impacto en la industria del internet en general. El modelo de Deepseek está generando la idea de menor necesidad de GPUs y poder de cómputo para alcanzar las mismas metas que otros LLM.
Dentro de los puntos clave, vemos que DeepSeek-R1 es un modelo de razonamiento de código abierto que, según se informa, alcanza niveles de rendimiento similares al modelo o1 de OpenAI en algunas pruebas (matemáticas, codificación), pero con un costo de entrenamiento significativamente menor. El modelo se entrenó con un presupuesto de seis millones de dólares (2.000 GPUs durante dos meses o aproximadamente tres millones de horas de GPU), en comparación con los 30 millones de horas de GPU utilizadas por Llama-3 de Meta.
Esto algunos lo ponen en duda; el coste ha sido mayor. Y llama mucho la atención que los precios de uso de DeepSeek-R1 son significativamente más bajos que los de OpenAI o1 (entre 13 y 107 veces menos). DeepSeek es 100% propiedad de High-Flyer, un fondo cuantitativo impulsado por IA en China, creado en abril de 2023.
En cuanto al impacto en el hardware de IA, a corto plazo, podría haber presión sobre los proveedores de GPU como NVDA/AMD, por la menor necesidad de cómputo para entrenar DeepSeek-R1. Mientras que a largo plazo, no se espera un gran cambio en la demanda de cómputo y se ve el avance de DeepSeek como una aceleración en el ritmo de la IA e incluso un despliegue más rápido de la IA.
Reacción del mercado
El mercado ha adoptado una primera respuesta ‘vendiendo’ semiconductores, centros de datos, electrificación y ‘comprando’ compañías de internet por su potencial menor coste de inversión futura.
La eficiencia de DeepSeek podría generar dudas sobre el retorno de la inversión en IA y llevar a una reevaluación de las necesidades de energía de computación, lo que podría causar una caída en el CAPEX de IA en 2026. En cualquier caso, DeepSeek depende de la tecnología de Nvidia NVLINK y CUDA.

La IA china DeepSeek. / ShutterStock
Otro sector afectado es la Industria de Internet. No vemos un impacto a largo plazo en el gasto de los centros de datos de IA, ya que los participantes en la carrera por la AGI seguirán buscando tanto poder de cómputo como sea posible. Es positivo para los proveedores de servicios en la nube (CSPs) ya que no necesitarán gastar tanto en CAPEX; potencialmente neutral o positivo para los centros de datos si el volumen de datos se mantiene o aumenta con menores costos de CAPEX; también positivo para el software si ayuda a acelerar el ROI de la IA; posiblemente positivo para los nombres de internet chinos como Alibaba y Tencent, ya que DeepSeek parece haber construido un modelo eficiente utilizando H800s.
Respecto a la competencia y estrategia. La arquitectura de DeepSeek (MoE + MLA) y su estrategia de código abierto podrían acelerar la innovación en toda la industria. La eficiencia del modelo de DeepSeek es un fuerte argumento a favor de enfocarse en el ROI de la IA.
Estrategias del inversor
El inversor puede: 1) seguir de cerca los comunicados de AMD, NVIDIA y otras compañías tecnológicas como ASML, TSMC o Intel en los próximos días y semanas; 2) evaluar el impacto potencial de las estrategias de eficiencia de DeepSeek en los planes de gasto en computación de los grandes jugadores de la IA; 3) estar atento a la evolución del mercado de hardware para IA y los cambios en las demandas tecnológicas; y 4) también considerar un enfoque cauteloso hacia los fabricantes de hardware de IA a corto plazo, mientras se evalúa el impacto a largo plazo del desarrollo de DeepSeek.
Por otro lado, es interesante comentar las principales conclusiones del exjefe de investigación de AWS. La primera es que DeepSeek es un acelerador para la adopción de la IA a largo plazo, y no una oportunidad para reducir el gasto de capital. Se espera que la reducción en el coste de la inferencia impulse una adopción más amplia y rápida de la IA, lo que aumentará la demanda a medida que más empresas desarrollen e implementen la IA.

El fundador de DeepSeek, Liang Wenfeng. / L. O.
La segunda, la innovación de DeepSeek no cambiará los planes de gasto de capital de los hyperscalers. La construcción de un centro de datos es una inversión a 10 años, y los planes de gasto a largo plazo no se ven afectados por las mejoras en la eficiencia del modelo de IA. Cualquier capacidad de entrenamiento de IA que se libere debido a la eficiencia de DeepSeek se utilizará de inmediato para generar ingresos por inferencia.
También destacó que el gasto de seis millones de dólares no refleja el coste total de desarrollo. El coste de desarrollar un modelo base supera los 100 millones de dólares. Y además, los hiperescaladores integrarán la innovación de Deep Seek en sus modelos base en pocos meses y así ofrecer inferencia a un coste similar al de DeepSeek.
Todo esto ha pasado esta semana, y es muy reciente para conclusiones tecnológicas y bursátiles. Los mercados cayeron con fuerza el lunes, pero han recuperado bien, y hay que dejar pasar el tiempo para ver las implicaciones que tendrá todo esto.
Suscríbete para seguir leyendo