Un nuevo e inesperado actor irrumpió en la escena de la inteligencia artificial (IA) y puso a tambalear a los mercados y a las tecnológicas de Silicon Valley, Estados Unidos.
Hace una semana, DeepSeek, una startup china especializada en la investigación y desarrollo de modelos de IA, lanzó R1, un modelo de lenguaje grande (LLM en inglés). Se trata de un sistema open weight (peso abierto), es decir, que investigadores y empresas pueden estudiar sus algoritmos y ajustarlos a sus necesidades.
US$ 5,6 millones demandó el entrenamiento del modelo chino.
R1 ha destacado por superar -en ciertas pruebas- el rendimiento de modelos de IA generativa de compañías como OpenAI y Meta. Pero lo que sorprendió fue que lo lograron con costos reducidos, tanto de desarrollo como de uso. Según el medio británico Financial Times, la startup utilizó solo 2.048 tarjetas gráficas H800 de Nvidia (permiten procesar datos) y US$ 5,6 millones para entrenar el modelo con 671 mil millones de parámetros, una fracción de lo que OpenAI y Google gastaron para entrenar modelos de tamaño comparable. Además, un menor procesamiento conllevaría un menor consumo energético.
Como referencia, Meta invirtió más de US$ 60 millones para desarrollar Llama 3.1 con 405 mil millones de parámetros y 11 veces más de capacidad de cómputo. Además, el CEO de OpenAI, Sam Altman, señaló en 2023 que el costo de entrenamiento de GPT-4 superó los US$ 100 millones.
Los bajos costos asociados determinaron que este lunes cayeran las valorizaciones de las principales tecnológicas de EEUU en el Nasdaq.
Pero la abrupta popularidad de DeepSeek -que superó la noche del domingo a ChatGPT en las descargas en App Store- trajo una consecuencia inesperada: la empresa emergente china limitó el registro de usuarios debido a un supuesto ciberataque a gran escala.
90% más barato que el costo promedio de los otros modelos de ia generativa, según BCG.
La directora del Instituto de Data Science de la Universidad del Desarrollo, Loreto Bravo, señaló que las diferencias más importantes entre el LLM chino y los estadounidenses como Llama de Meta o el o1 de OpenAI, están en la economía de recursos.
“Da una luz de modelos más baratos y a menor costo, de entrenamiento y de inferencia -capacidad de realizar conclusiones y predicciones a partir de nuevos datos- de hacer cosas en forma económica y que sean tan buenos como los de EEUU”, dijo.
DeepSeek fue fundada en 2023 por el gestor de fondos de cobertura (hedge funds), Liang Wenfeng, quien aspira a desarrollar modelos de IA que igualen la capacidad de razonamiento de los seres humanos. Para ello ha reclutado a los mejores ingenieros en China, según FT. A la fecha, no han levantado capital.
Según el diario español La Vanguardia, Wenfeng ha enfocado los recursos para alcanzar una inteligencia artificial general (AGI) basada en la calidad por sobre la velocidad para comercializarla, con el objetivo de hacerla más fiable para los usuarios y con un enfoque colaborativo.
Bravo de la UDD señaló que R1, al ser de peso abierto, permitirá a usuarios y empresas aprovechar “todo su entrenamiento y conocimiento” para realizar fine tuning, es decir, ajustar el rendimiento del sistema a sus necesidades y aplicaciones concretas.
“Un caso interesante es en la minería, que muchas veces opera (bajo tierra) sin conexión a internet. Aquí no se pueden correr modelos como Gemini de Google o Claude de Anthropic, porque deben estar corriendo localmente y para eso deben ser de peso abierto. Entonces todos están pensando en modelos basados en Llama de Meta, que no es tan bueno como el de DeepSeek”, afirmó.
Para el managing director y partner de Boston Consulting Group (BCG) en Chile, Julián Herman, DeepSeek “democratizará” el acceso a la IA.
“Primero, porque el usuario lo puede adaptar mucho más fácil a sus necesidades particulares. Lo segundo que lo hace increíble es que es muchísimo más barato, casi un 90% menos en comparación con otros modelos”, comentó.
Explicó que la startup china construyó su LLM utilizando una metodología diferente al de los competidores, pues ocupó un reinforcement learning (aprendizaje por refuerzo) para personalizar un modelo previo propio, el V3, a un costo inferior.
“Ahora, por ejemplo, si quiero hacer un caso de uso para analizar imágenes, hago un destilado del modelo grande, una customización de un modelo a una necesidad particular reduciendo el tamaño y aumentando el rendimiento”, dijo.
Este depurado, según el ejecutivo, arroja resultados “muy rápidos y comparables” con los de modelos más consolidados, como o1 de OpenAI o Llama de Meta.
No obstante, Bravo dijo que R1 se ha visto colapsado ya que aún “no tiene el hardware requerido para dar abasto internacionalmente ni el poder suficiente para resistir a todo un mundo tratando de acceder al sistema”, pero que al ser de pesos abiertos permitiría, por ejemplo, utilizar su información para entrenar modelos en servidores alojados en países con mayor capacidad de cómputo, como EEUU.
“Es un tremendo salto en cuanto a poder entrenar un modelo que es excelente con pocos recursos”, añadió.
Herman proyectó que la irrupción de DeepSeek plantea un nuevo paradigma para el futuro de la IA y que abre un nicho para esta tecnología.
“La industria va a tener que repensar si la manera en que están haciendo las cosas es la más eficiente. Es el minuto para que las grandes empresas se den cuenta de que seguir ese camino, que las llevará a mejorar”, dijo.
El ejecutivo agregó que la startup china “no mata a nadie” en términos de negocio, sino que, al ser de código abierto, beneficiará a toda la industria.
“Todos van construyendo uno sobre otro y lo bueno de los modelos open source es que se podrá analizar mucho más cómo funcionan y explicar mejor su comportamiento”, afirmó.
Por otro lado, la directora de empresas, María Francisca Yáñez, señaló que el lanzamiento de R1 supone “un cambio muy grande en esta era”, apalancado por un vínculo estrecho entre la geopolítica y la tecnología.
“DeepSeek es como un OpenAI chino, pero tiene una gran ventaja, porque es una startup nativa en inteligencia artificial, que nace en 2023, post ChatGPT. Entonces posee todo el aprendizaje que tiene el resto de las compañías, y ahora las big tech de EEUU tienen el gran desafío de transformarse y embeber IA en su oferta de valor, mientras que esta compañía nace nativa en esta tecnología”, afirmó.
Yáñez dijo que R1 va a generar mayor competitividad en el mercado y que China ahora va a jugar un rol significativo, al ofrecer una alternativa “altamente competitiva, menor en costo y aparentemente de un nivel de calidad muy similar a la oferta de valor que tiene EEUU”.
Añadió que este hito también tendrá un alcance positivo para Chile, ya que traerá mayores oportunidades para aplicar IA.
“Son buenas noticias para Chile, que no tiene la capacidad hoy de producir grandes modelos de lenguaje. No tenemos ninguna compañía que pueda competir con las inversiones que hace OpenAI, Microsoft, Amazon, Google o las compañías chinas. Por lo tanto, tener más competidores en el mercado trae más oportunidades para Chile, que está llamado a usar la IA a nivel de aplicaciones”, agregó.
Foto: Bloomberg
Wall Street cierra en terreno negativo, con Nvidia liderando las pérdidas tras la irrupción de startup asiática de IA
Por Sofía Fuentes
Las acciones tecnológicas que cotizan en Wall Street registraron caídas significativas este lunes, tras el anuncio de un nuevo actor en el mercado de la inteligencia artificial.
El retroceso estuvo liderado por Nvidia, cuyas acciones se desplomaron un 25% al cierre de la sesión, eliminando más de US$ 620 mil millones de su capitalización de mercado. Este movimiento hizo que la compañía superara su propio récord de pérdida en un solo día, establecido en septiembre, cuando su valor bursátil disminuyó en US$ 279 mil millones.
El director de Riesgo Financiero de PwC Chile, Patricio Jaramillo, dijo que “la caída en la capitalización bursátil es equivalente a todo lo que produce Chile en un año”, enfatizando que este ajuste también impactó a los principales índices accionarios de Nueva York y a los mercados globales. El Nasdaq se desplomó 3%, mientras que el S&P 500 bajó 1,47% y el Dow Jones subió 0,62%.
Jaramillo explicó que “la fuerte caída de la acción de Nvidia se explica por la incertidumbre sobre la demanda futura de chips y semiconductores para el desarrollo de inteligencia artificial”, debido a la reciente irrupción de R1, un nuevo modelo de lenguaje grande (LLM, en inglés), equivalente a ChatGPT de OpenAI, desarrollado por la startup china DeepSeek, “pero con costos mucho menores que los desarrollos conocidos hasta ahora y menos intensivos en hardwares”, dijo.
La startup asiática asegura haber logrado avances en el entrenamiento de modelos utilizando una cantidad significativamente menor de chips Nvidia que sus competidores en Estados Unidos, generando dudas sobre las futuras adquisiciones de hardware relacionado con inteligencia artificial en Silicon Valley y los retornos esperados de estas inversiones.
Jaramillo también dijo que “las correcciones abruptas en precios de activos han sido identificadas como uno de los principales riesgos para la estabilidad financiera durante 2025, según el Informe de Estabilidad Financiera del Banco Central de Chile, como el Global Financial Stability Report del Fondo Monetario Internacional (FMI)”.