A comienzos de este siglo, las mayores empresas de internet estaban al borde del colapso. El uso de sistemas de bases de datos tradicionales unido al enorme conjunto de datos que manejaban les obligaba a comprar servidores más y más grandes y caros para poder gestionar su creciente base de usuarios. Sistemas que sólo compañías grandes se podían permitir y que suponían una barrera de entrada a nuevos competidores.
Entonces llegó Google y encontró formas de llevar a cabo las mismas tareas empleando datos guardados en miles de servidores mucho más pequeños y asequibles usando algoritmos distribuidos. Un avance clave que, sin embargo, describió en artículos científicos que permitieron a las demás empresas de internet aprovecharlos para poder crecer sin miedo y sin pagar un impuesto revolucionario a Oracle y otras compañías similares.
Algo similar, solo que a una escala aún mayor, es lo que está sucediendo con DeepSeek. Esta empresa china, que no podía acceder por las sanciones y su elevado coste a los chips especializados de Nvidia de última generaciíon que usan para entrenar sus modelos casi todos los actores del mercado de inteligencia artificial (OpenAI, Anthropic, Microsoft, Meta, X, etc.), decidió experimentar con técnicas nuevas más optimizadas para tratar de alcanzar los mismos resultados a un precio mucho menor. La estimación es que el coste computacional es 45 veces menor que el que estaban empleando los gigantes norteamericanos. Si el coste de entrenar un modelo ya superaba los cien millones de dólares, DeepSeek lo ha logrado con sólo cinco. Y empleando chips de Nvidia de menor potencia creados para el mercado chino antes de que el Gobierno de Biden restringiera aún más las exportaciones.
Además, al igual que hizo Google en su día, DeepSeek ha publicado cómo lo ha hecho, de modo que los expertos del ramo llevan unos días muy relajados, con jornadas reducidas y sin ningún temor por sus empleos, intentando replicar sus resultados a menor escala.
Cómo funcionan los ChatGPT
Todas las inteligencias artificiales con las que podemos conversar, como ChatGPT, Grok o Gemini, son modelos extensos de lenguaje (LLM, por sus siglas en inglés). Están basados en principios teóricos bastante antiguos, como son las redes neuronales, imitación matemática de lo que hacen las neuronas en nuestro cerebro, que cuando las estudiaba yo en la carrera ya tenían décadas de investigación a sus espaldas que arrancaron en los años 60. Además de diversas innovaciones en su entrenamiento, especialmente la arquitectura de transformadores inventada en Google y publicada en 2017, la principal novedad que ha permitido la explosión de la IA estos últimos años es que la potencia de cómputo y la capacidad de memoria han permitido entrenarlas con una cantidad de datos sin precedentes. Hasta el extremo de que Elon Musk reconoció hace semanas que ya no había más datos disponibles creados por el hombre con que alimentarlas.
Se las entrena con prácticamente todo el conocimiento escrito que posee la humanidad, que en primer lugar transforman en tokens, que son las partículas de conocimiento más pequeñas con las que trabaja la IA y que en el caso de los modelos de lenguaje son esencialmente palabras. A esos tokens se les asigna un índice numérico, que es con lo que trabajan en realidad las redes neuronales. Lo que hace el entrenamiento es modificar las conexiones entre las neuronas artificiales, que se denominan “parámetros”, de modo que pueda reconocer patrones y responder de forma “inteligente” a ellos. Es un proceso largo y caro; se estima que los últimos modelos necesitan meses y más de cien millones de dólares.
En cambio, una vez entrenado, al modelo le cuesta relativamente poco en comparación poder contestarnos, un proceso al que se llama inferencia. De hecho, si descargamos en nuestro ordenador modelos alimentados con relativamente pocos datos, de modo que no ocupen demasiada memoria, una tarjeta gráfica potente puede permitirnos tener una inteligencia artificial funcionando en nuestro ordenador.
Qué hace DeepSeek distinto
DeepSeek ha hecho de la necesidad virtud. Al no disponer de hardware como para seguir el mismo camino que los gigantes norteamericanos, optimizaron siguiendo varias vías, todas ellas enfocadas a un uso mucho menor de recursos a costa de perder un poco de calidad en la respuesta:
- Mientras que la mayoría de los modelos son monolíticos, de modo que para obtener respuestas sobre el tema que sea necesitamos tener disponible en todo momento el modelo entero, DeepSeek lo divide en una serie de “expertos” con conocimiento especializado que prácticamente no se solapan entre sí y es capaz de derivar la pregunta al experto adecuado, que es el único que necesita ser usado en ese momento. Eso reduce los requisitos, sobre todo de memoria, sobre todo durante la inferencia, facilitando que pueda ser empleado en ordenadores con menos recursos y, en un futuro, seguramente en móviles.
- Todos los modelos disponen de un almacén donde se guardan los tokens y su valor numérico asociado, el índice. DeepSeek ha logrado reducir ese almacén, lo que reduce la memoria necesaria tanto en el entrenamiento como en la inferencia. El modo de hacerlo, además, es esencialmente dedicando más atención a los tokens más útiles, lo cual puede lograr una mejora de calidad además de mejorar la eficiencia.
- Los parámetros, esas conexiones entre las neuronas, usan números reales con precisión de sólo 8 bits frente al estándar de 32 bits, lo que reduce el coste de memoria y cómputo durante el entrenamiento, pero también la precisión. La empresa china ha logrado reducir esa pérdida de precisión con distintas técnicas hasta lograr que sea aceptable.
- Normalmente, los modelos infieren las respuestas token a token, es decir, palabra a palabra. DeepSeek logra predecir varios tokens seguidos a la vez, mejorando la calidad de la inferencia y reduciendo el esfuerzo de producir una respuesta completa.
Todas estas mejoras y algunas técnicas más le han permitido a DeepSeek, según asegura la empresa, una eficiencia tan grande que pone esta tecnología al alcance de empresas más modestas y rompe la exclusiva de los gigantes de internet que la tenían hasta ahora por ser los únicos con el capital necesario. Capital que se ha visto reducido por el desplome bursátil que han sufrido.
Por qué puede ser mejor no usarlo
Las razones para no emplear DeepSeek son las mismas por las que no conviene utilizar ningún producto chino: la censura y la obtención de datos para el Gobierno comunista de China. La censura respecto a la dictadura es evidente cuando se le pregunta cualquier cosa mínimamente sensible sobre la política y la historia reciente del país, negándose a decir nada sobre Tiananmen el Gran Salto Adelante o lo que hace Xi Jinping. Numerosos usuarios han podido ver cómo empieza a responder a preguntas de este tipo hasta que llega un punto donde salta el filtro y la borra para ofrecer una respuesta genérica sobre que está fuera de su ámbito.
En esto, es cierto, tampoco se diferencia de los modelos de las grandes empresas norteamericanas, conocidas por su censura woke, llevada hasta el extremo por Google, que a base de forzar la “diversidad” y la “inclusión”, cuando pedías que te generara una imagen de un nazi, te creaba una foto de un negro o un asiático con el uniforme diseñado por Hugo Boss.
El verdadero peligro está en que, como hacen todas las demás empresas de inteligencia artificial, identifica a los usuarios y guarda todas las interacciones, incluyendo los patrones de tecleo de caracteres cuando estamos conversando con DeepSeek. Esto se hace, en principio, con el objetivo de alimentar al modelo con ellas para mejorar las respuestas, pero al igual que sucede con todas las empresas chinas de internet, tiene la obligación de compartir todos esos datos con la dictadura.
Para un uso casual que no requiera de pago, DeepSeek V3 es comparable, pero no necesariamente mejor que ChatGPT o cualquier otro modelo similar. Sus innovaciones están debajo del capó, pero no implican una mejor respuesta a no ser que elijas el botón de “DeepThink R1” para acceder al modelo capaz de “razonar”, similar al modelo o1 de pago de ChatGPT. Por otro lado, sus mejoras no tardarán en ser imitadas por sus competidores occidentales y, quien sabe, tras las elecciones que ganó Trump quizá empiecen a abandonar las capas de ideología progre que imponen a sus modelos. Por soñar que no quede.