Singapur.- Toma un equipo de jóvenes ingenieros chinos, contratados por un jefe que desdeña la experiencia. Agrega algunos atajos de programación astutos y una laguna en las reglas estadounidenses que les permitió obtener chips avanzados.
Ésa es la fórmula que utilizó DeepSeek de China para sorprender al mundo con sus programas de inteligencia artificial.
La creencia popular sostenía que desarrollar una IA líder requería montones de chips computacionales caros y de vanguardia, y que las empresas chinas tendrían problemas para competir porque no podían conseguir esos chips. DeepSeek desafió esas predicciones con un ingenio que condujo a un baño de sangre de un millón de millones de dólares en Wall Street y está impulsando a Silicon Valley a reconsiderar su enfoque.
La compañía china también ha dado una llamada de atención a Washington, dijo el Presidente Trump, cuya Administración decidirá en los próximos meses qué hacer respecto a las políticas de la era Biden que limitan el acceso de China a los mejores chips para IA.
Liang Wenfeng, el líder de DeepSeek, construyó su empresa en el centro tecnológico de Hangzhou, la misma ciudad donde tiene su sede el gigante tecnológico Alibaba. La empresa de IA surgió de un fondo de cobertura cofundado por Liang que utiliza inteligencia artificial para encontrar operaciones rentables en los mercados financieros.
En una entrevista con una publicación china en el 2023, Liang señaló que la mayoría de los puestos técnicos estaban ocupados por recién graduados o personas con uno o dos años de experiencia.
La experiencia, dijo, era un obstáculo potencial. "Al hacer algo, las personas con experiencia te dirán sin dudarlo que debes hacerlo de esta manera, pero las personas sin experiencia tendrán que explorar repetidamente y pensar seriamente cómo hacerlo, y luego encontrar una solución que se adapte a la situación real actual", declaró Liang.
Lo que se les ocurrió ahora está siendo estudiado por los mejores y más brillantes de Silicon Valley.
Hasta hace poco, los modelos pioneros de IA que yacen detrás de programas como ChatGPT, de OpenAI, fueron entrenados con una vasta compilación de texto, imágenes y otros datos. Emplearon algoritmos especializados para encontrar patrones que un chatbot podría utilizar para mantener una conversación.
La táctica de DeepSeek fue reducir el procesamiento de datos necesario para entrenar los modelos, utilizando algunos inventos propios y técnicas adoptadas por empresas chinas de IA con limitaciones similares.
Imagina las versiones anteriores de ChatGPT como un bibliotecario que ha leído todos los libros en la biblioteca, dijo Lennart Heim, que investiga la IA en el grupo de expertos Rand. Cuando se le hace una pregunta, da una respuesta con base en los muchos libros que ha leído.
Este proceso requiere mucho tiempo y es costoso. Se necesitan chips computacionales ávidos de electricidad para leer esos libros.
DeepSeek adoptó otro enfoque. Su bibliotecario no ha leído todos los libros, pero está capacitado para buscar el libro correcto para la respuesta después de que se le hace una pregunta.
A esto se suma otra técnica, llamada "mezcla de expertos". En lugar de intentar encontrar un bibliotecario que pueda dominar las preguntas sobre cualquier tema, DeepSeek y algunos otros desarrolladores de IA hacen algo parecido a delegar preguntas a una lista de expertos en campos específicos, como ficción, publicaciones periódicas y cocina. Cada experto necesita menos entrenamiento, aliviando la demanda a los chips para hacer todo al mismo tiempo.
El enfoque de DeepSeek requiere menos tiempo y energía antes de formular la pregunta, pero utiliza más tiempo y energía al responder. Con todo esto, dijo Heim, los atajos de DeepSeek le ayudan a entrenar IA a una fracción del costo de los modelos de la competencia.
"La ingeniería tiene que ver con limitaciones", escribió Pat Gelsinger, ex director ejecutivo de Intel, en X. "Los ingenieros chinos tenían recursos limitados y tuvieron que encontrar soluciones creativas".
El ingenio explica sólo una parte del éxito de DeepSeek.
La otra parte es la accidentada introducción de los controles de exportación de Estados Unidos, que dieron a DeepSeek una ventana para comprar potentes chips estadounidenses.
En el 2022, la Administración Biden implementó controles sobre los chips exportados a China. Las empresas estadounidenses que querían vender a China primero necesitaban estrangular una función del chip llamada ancho de banda de interconexión, que se refiere a la velocidad a la que se transfieren los datos.
En respuesta, Nvidia, el diseñador líder mundial de chips de IA, ideó un nuevo producto para China que cumplía con este parámetro, pero lo compensaba manteniendo un alto desempeño de otras maneras. Esto resultó en un chip que algunos analistas dijeron era casi tan potente como el mejor chip de Nvidia en ese momento.
Los funcionarios estadounidenses se quejaron en público y en privado que aunque Nvidia no violó la ley, sí violó su espíritu. El Gobierno había esperado que los líderes de la industria colaboraran en el diseño de controles efectivos de exportación de tecnología rápidamente cambiante, declaró un ex alto funcionario de la Administración Biden.
Un vocero de Nvidia indicó el lunes que "DeepSeek es un excelente avance de la IA" que demostraba una técnica innovadora de IA mientras utiliza potencia computacional "que cumple cabalmente con el control de exportaciones".
Un año después de los controles iniciales, el Gobierno endureció las reglas. Aún así, eso dejó una ventana de aproximadamente un año para que DeepSeek comprara el potente chip de Nvidia para el mercado chino, llamado H800. En un artículo de investigación publicado en diciembre, DeepSeek dijo que utilizó 2 mil 48 de estos chips para entrenar uno de sus modelos de IA.
Desde que se cambiaron las reglas en el 2023, Nvidia diseñó un nuevo chip compatible con el control de exportaciones para China que es significativamente menos potente que el H800.
Algunos líderes estadounidenses de la industria de la IA se muestran escépticos de que DeepSeek haya revelado todos sus secretos. Señalaron que los investigadores chinos podrían haber almacenado chips Nvidia de vanguardia antes de las restricciones de EU, o utilizado soluciones alternativas como acceder a potencia computacional habilitada por Nvidia de países fuera de Estados Unidos y China. En sus últimos días, la Administración Biden implementó nuevas reglas para abordar esos puntos ciegos.