DeepSeek publica nuevo método de entrenamiento de IA para escalar LLMs más fácilmente

DeepSeek ha comenzado el año con una innovadora propuesta para el entrenamiento de inteligencia artificial, que, según analistas, podría tener un impacto significativo en la industria.

La startup china de IA publicó un artículo de investigación donde describe un método para entrenar modelos de lenguaje que podría moldear «la evolución de los modelos fundamentales».

El documento presenta lo que DeepSeek llama «Conexiones Hiper-Constridas en la Variedad», o mHC, un enfoque de entrenamiento diseñado para escalar modelos sin que estos se vuelvan inestables o se rompan por completo.

A medida que los modelos de lenguaje crecen, los investigadores suelen intentar mejorar el rendimiento permitiendo que diferentes partes del modelo compartan más información internamente. Sin embargo, esto puede aumentar el riesgo de inestabilidad en la información.

La última investigación de DeepSeek permite a los modelos compartir una comunicación interna más rica de manera controlada, preservando la estabilidad en el entrenamiento y la eficiencia computacional a medida que los modelos se expanden.

Un ‘avance sorprendente’

El enfoque ha sido definido como un «avance sorprendente» por analistas del sector. Han combinado diversas técnicas para minimizar el costo adicional de entrenar un modelo, lo que podría resultar en un rendimiento mucho mayor incluso con un ligero aumento en los costos.

El artículo indica que DeepSeek está señalando su capacidad interna al rediseñar su proceso de entrenamiento de manera integral, lo que sugiere que pueden combinar «experimentación rápida con ideas de investigación altamente innovadoras».

DeepSeek puede «una vez más, evitar cuellos de botella computacionales y desbloquear saltos en inteligencia», refiriéndose a su «momento Sputnik» en enero de 2025, cuando presentó su modelo de razonamiento R1.

Este lanzamiento sorprendió a la industria tecnológica y al mercado estadounidense, demostrando que el modelo R1 podía igualar a competidores como ChatGPT a una fracción del costo.

El análisis de otros expertos en tecnología prevé que la investigación publicada podría tener un efecto en cadena en la industria, impulsando a laboratorios de IA rivales a desarrollar sus propias versiones de este enfoque.

El compromiso de DeepSeek de compartir hallazgos importantes con la industria, al tiempo que sigue proporcionando valor a través de nuevos modelos, refleja una nueva confianza en la industria de IA china, donde la apertura se considera «una ventaja estratégica y un diferenciador clave».

¿Está el próximo modelo de DeepSeek a la vista?

Este artículo se publica en un momento en que DeepSeek está trabajando en el lanzamiento de su próximo modelo insignia R2, después de haber pospuesto su salida anteriormente.

R2, que se esperaba para mediados de 2025, fue retrasado debido a insatisfacción con el rendimiento del modelo, y el lanzamiento también se ha visto afectado por la escasez de chips avanzados de IA, un factor que ha moldeado cada vez más la forma en que los laboratorios chinos entrenan y despliegan modelos de vanguardia.

Aunque el documento no menciona a R2, su timing genera especulaciones. DeepSeek ya había publicado investigaciones fundamentales antes del lanzamiento de su modelo R1.

El historial de la empresa sugiere que la nueva arquitectura «definitivamente se implementará en su nuevo modelo».

Sin embargo, algunos expertos advierten que probablemente no haya un R2 independiente, ya que DeepSeek ya ha integrado actualizaciones del R1 en su modelo V3, por lo que esta técnica podría constituir la base del modelo V4.

Desde algunas voces en el sector subrayan que las actualizaciones de DeepSeek a su modelo R1 no lograron generar mucho interés en la industria tecnológica, señalando que la distribución sigue siendo crucial y que la empresa todavía carece de la amplia penetración que tienen laboratorios líderes en IA como OpenAI y Google, especialmente en los mercados occidentales.

En conclusión, el novedoso enfoque de DeepSeek podría redefinir los estándares de entrenamientos en modelos de IA, marcando un nuevo hito en el sector. En Sales Solutions B2B, comprendemos la importancia de adaptarse y evolucionar en un entorno constantemente cambiante; nuestra experiencia nos permite ofrecer a las empresas las herramientas necesarias para optimizar su estrategia de ventas de forma sólida y sostenible, reflejando la innovación de DeepSeek en nuestro compromiso por el éxito conjunto.

Contáctanos

← YouTube y Netflix están listos para cambiar la naturaleza de los podcasts en 2026. Todo lo que necesitas saber sobre Manus, la startup que Meta está adquiriendo. →