DeepSeek está trabajando con la Universidad de Tsinghua para reducir el entrenamiento que necesitan sus modelos de inteligencia artificial (IA), con el objetivo de disminuir los costos operacionales.
La startup china, que sacudió al mercado en enero con su modelo de razonamiento de bajo costo, colaboró con investigadores de la institución de Beijing en un artículo que detalla un enfoque novedoso de aprendizaje por refuerzo para hacer que los modelos sean más eficientes.
El nuevo método busca ayudar a que los modelos de inteligencia artificial se alineen mejor con las preferencias humanas, ofreciendo recompensas por respuestas más precisas y comprensibles, según escribieron los investigadores.
El aprendizaje por refuerzo ha demostrado ser eficaz para acelerar tareas de IA en aplicaciones y ámbitos específicos. Sin embargo, expandirlo a aplicaciones más generales ha sido un desafío, y ese es justamente el problema que el equipo de DeepSeek está intentando resolver con lo que llaman "ajuste de crítica auto-principiada" (self-principled critique tuning, en inglés).
Según el artículo, esta estrategia superó a métodos y modelos existentes en varios indicadores de referencia (benchmarks), mostrando un mejor rendimiento con menos recursos computacionales.
DeepSeek ha bautizado a estos nuevos modelos como DeepSeek-GRM, abreviatura de "generalist reward modeling" (modelado de recompensas generalista), y anunció que los liberará como código abierto.
La competencia
Otros desarrolladores de IA, como el gigante tecnológico chino Alibaba Group Holding Ltd. y la empresa estadounidense OpenAI, también están avanzando hacia una nueva frontera que busca mejorar las capacidades de razonamiento y auto-mejora mientras un modelo de IA ejecuta tareas en tiempo real.
Meta Platforms Inc., con sede en Menlo Park, California, presentó el fin de semana su más reciente familia de modelos de IA, Llama 4, marcando el primero de sus modelos en utilizar la arquitectura Mixture of Experts (MoE).
Los modelos de DeepSeek dependen significativamente del enfoque MoE para utilizar los recursos de manera más eficiente, y Meta comparó su nuevo lanzamiento con la startup con sede en Hangzhou. DeepSeek aún no ha especificado cuándo lanzará su próximo modelo insignia.