Saltar al contenido principal
febrero 3, 2025

¿Es DeepSeek R1 adecuado para tu empresa?

Introducción

El panorama de los Large Language Models (LLMs) o grandes modelos lingüísticos está evolucionando rápidamente, y modelos como GPT-4o, o1 de OpenAI y, el más reciente, o3-mini, Gemini de Google, Claude de Anthropic y Llama de Meta se están convirtiendo en parte integral de las aplicaciones empresariales. Ahora, un nuevo jugador ha entrado en el campo de juego: DeepSeek R1. Desarrollado por una empresa china de IA, este modelo ha llamado la atención por su rentabilidad, capacidad de razonamiento y naturaleza de código abierto. Pero, ¿ofrece lo suficiente para perturbar el mercado o es simplemente una alternativa más entre muchas otras?

Este artículo, basado en una minuciosa investigación del equipo de Plain Concepts Research, examina la tecnología central de DeepSeek R1, la compara con sus principales competidores y explora sus mejores casos de uso. Los profesionales de las empresas obtendrán una perspectiva clara sobre si DeepSeek R1 se ajusta a sus necesidades específicas o si deberían considerar un modelo diferente.

Si quieres el análisis completo, sigue leyendo mientras desglosamos la tecnología, los puntos fuertes y las limitaciones de DeepSeek R1. Si solo quieres saber si DeepSeek R1 es adecuado para tu empresa, salta a las conclusiones.

Tecnología principal de DeepSeek R1

DeepSeek R1 destaca por su arquitectura Mixture-of-Experts (MoE) [1], que difiere de los modelos estándar basados en transformadores utilizados por la mayoría de los competidores. En lugar de procesar todos los parámetros de cada consulta, solo se activa un subconjunto (37.000 millones de 671.000 millones) por petición, lo que mejora la eficiencia y reduce los costes computacionales.

Arquitectura básica

Otras innovaciones clave son:

  • Atención latente multicabezal (MLA): Reduce la caché Clave-Valor, optimizando la inferencia.
  • DeepSeekMoE: Un enfoque especializado para gestionar la activación de expertos, garantizando un aprendizaje eficiente.
  • Equilibrio de carga sin pérdidas auxiliares: Evita ineficiencias en el entrenamiento sin degradar el rendimiento.
  • Predicción multi-token (MTP): Permite predecir varios tokens futuros simultáneamente, lo que aumenta la eficacia y la velocidad de inferencia.

DeepSeek R1 se entrenó con 14,8 billones de tokens de alta calidad, con énfasis en matemáticas, programación y contenido multilingüe. Admite una longitud de contexto de 128.000 tokens, lo que permite un manejo eficaz de documentos largos, aunque sigue estando por detrás del millón de tokens de Gemini 1.5 Pro.

Una ventaja clave es su enfoque de aprendizaje por refuerzo mediante la Optimización de Políticas Relativas a Grupos (GRPO). Esto elimina la necesidad de un modelo de función de valor independiente, lo que hace que el proceso de ajuste sea más eficiente. En comparación, o1 de OpenAI también utiliza el aprendizaje por refuerzo y está diseñado específicamente para tareas de razonamiento complejas, mientras que GPT-4o sigue siendo un modelo más generalista con aplicaciones más amplias.

Comparación con DeepSeek R1 

Rendimiento comparativo

Parámetros de rendimiento

  1. Capacidades de generación de recuperación aumentada (RAG): Nuestras pruebas utilizando Azure Search y Azure Foundry con una base de datos de hoteles indican que DeepSeek R1 rinde tan bien como GPT-4o en tareas de generación aumentada de recuperación. DeepSeek R1 destaca en esta área debido a su razonamiento explícito de cadena de pensamiento, que proporciona mayor claridad y transparencia en sus respuestas.
  2. Razonamiento y matemáticas: DeepSeek R1 demuestra un razonamiento lógico excepcional, superando a menudo a GPT-4o en pruebas de alto contenido matemático. OpenAI’s o1 es su principal competidor en razonamiento STEM, con mejores puntuaciones en evaluaciones matemáticas y tareas de razonamiento científico.
  3. Capacidades de codificación: DeepSeek R1 se sitúa entre los mejores en generación de código, rivalizando con Claude 3.5 Sonnet y o1-mini de OpenAI, que está optimizado para la codificación.
  4. Conocimientos generales y comprensión del lenguaje: Aunque DeepSeek R1 destaca en la precisión de los datos, especialmente en chino, queda por detrás de GPT-4o en comprensión del inglés.
  5. Procesamiento de contexto largo: Con una ventana de 128K tokens, DeepSeek R1 supera a Claude y GPT-4o, pero sigue por detrás de Gemini 1.5 Pro (1M de tokens).
  6. Soporte multilingüe: DeepSeek R1 rinde bien en inglés y chino, aunque en algunas pruebas en inglés puede mezclar algunos caracteres chinos. Aunque otras fuentes afirman que también funciona bien en varios idiomas, en nuestras pruebas el rendimiento es malo en otros idiomas. Si un idioma distinto de estos dos es una prioridad, Llama 3.1 ofrece una cobertura multilingüe más amplia.
  7. Velocidad de respuesta: Aunque otras fuentes sugieren que DeepSeek R1 ofrece un procesamiento más rápido que o1 de OpenAI, sobre todo en consultas técnicas, por el momento la realidad es que es mucho más lento. Por el contrario, otros modelos como GPT-4o equilibran velocidad y adaptabilidad, ya que tanto DeepSeek R1 como o1 tardan más debido a su detallado proceso de razonamiento.
  8. Avisos personalizados del sistema y llamadas a funciones: DeepSeek R1 no soporta bien las indicaciones personalizadas del sistema (system prompt), lo que limita su flexibilidad en las interacciones estructuradas de IA. Además, actualmente no es compatible con la llamada a funciones, una característica que está disponible en GPT-4o y algunos otros modelos, lo que restringe potencialmente su uso en escenarios complejos de automatización e integración.

Eficiencia de costes

Los costes operativos de DeepSeek R1 son significativamente inferiores a los de sus competidores. Los precios de la API muestran que es 100 (tokens de entrada) y 200 (tokens de salida) veces más barata por token que la o1 de OpenAI, lo que la convierte en una opción atractiva para las empresas que buscan minimizar gastos.

Comparación de costes de API:

  • DeepSeek R1: 0,14 dólares por millón de tokens de entrada, 0,28 dólares por millón de tokens de salida [2]. El despliegue local del modelo completo es posible, por ejemplo, en Azure se necesitarían dos instancias Standard_NC24ads_A100_v4, que costarían 2572 euros al mes funcionando 24/7. En Azure AI Foundry y NVIDIA build se despliega de forma gratuita por el momento [3], [4].
  • o1 de OpenAI: 15 dólares por millón de tokens de entrada y 60 dólares por millón de tokens de salida [5].
  • o3-mini de OpenAI: 1,10 dólares por millón de tokens de entrada y 4,40 dólares por millón de tokens de salida [5].
  • GPT-4o: 2,50 dólares por millón de tokens de entrada y 10 dólares por millón de tokens de salida [5].
  • Claude 3.5 Sonnet: 3 dólares por millón de fichas de entrada y 15 dólares por millón de fichas de salida [6].

Análisis de precios de API

Características y consideraciones únicas

  • Capacidades de agente autónomo y coordinación: Nuestras pruebas indican que DeepSeek R1 actualmente no puede funcionar como un agente autónomo o coordinarse con otros agentes. Esta limitación se debe principalmente a su falta de soporte de llamadas a funciones, lo que restringe su capacidad para ejecutar tareas estructuradas de forma colaborativa. En cambio, GPT-4o es capaz de realizar ambas tareas con éxito.
  • Limitaciones en el análisis de imágenes: A diferencia de Operator de OpenAI, DeepSeek R1 no soporta análisis de imágenes, lo que reduce aún más su aplicabilidad en flujos de trabajo de IA multimodal.
  • Arquitectura: La arquitectura MoE de DeepSeek R1 mejora la eficiencia. El o1 de OpenAI está diseñado específicamente para el razonamiento profundo, mientras que GPT-4o y Claude se basan en transformadores tradicionales.
  • Velocidad: Aunque se esperaba que DeepSeek R1 ofreciera un procesamiento rápido, en realidad depende en gran medida de la implementación utilizada. Por ejemplo, nuestras pruebas utilizando Azure Foundry mostraron que las llamadas a la API de DeepSeek R1 oscilan entre 20 y 100 segundos [3], mientras que las llamadas a la API de o1 oscilan entre 4 y 6 segundos. El despliegue de NVIDIA iguala la velocidad de o1 en este momento [4].
  • Avisos personalizados del sistema y llamadas a funciones: DeepSeek R1 carece de soporte robusto para estas funciones, lo que lo hace menos flexible para la automatización estructurada y la integración de aplicaciones.
  • Ventaja del código abierto: A diferencia de GPT-4o y Claude, DeepSeek R1 es de código abierto, lo que permite una total transparencia y personalización.

DeepSeek R1 en Edge Computing

DeepSeek R1 ha sido probado por nuestro equipo en entornos edge utilizando modelos destilados que se ejecutan localmente con WebGPU. Los resultados revelan datos importantes:

  • Destilación basada en llamas (parámetros 8B): Muestra una ligera mejora en el razonamiento sobre código fuente y en el reconocimiento de saludos en español, pero empeora en la resolución de problemas lógicos.
  • Destilación basada en Qwen (parámetros 7B): Obtiene peores resultados en todos los tipos de problemas. De hecho, el modelo Qwen base (sin destilación DeepSeek) es el mejor en entornos edge y el único que respondió con éxito a nuestras consultas de prueba.
  • Rendimiento multilingüe: Todos los modelos que funcionan en Edge obtienen peores resultados cuando se les consulta en español.
  • Velocidad de razonamiento: Los modelos DeepSeek tardan un tiempo excesivo en procesar las tareas de razonamiento, lo que los hace poco prácticos dados los resultados obtenidos.
  • Estabilidad de la inferencia: DeepSeek entra a menudo en bucles infinitos durante el razonamiento local, provocando fallos en la inferencia.

Mejores casos de uso

¿Cuándo elegir DeepSeek R1?

  • Resolución de problemas matemáticos y técnicos: Ideal para investigación científica, ingeniería y finanzas.
  • Desarrollo de IA consciente de los costes: Adecuado para startups y empresas que necesitan modelos de bajo coste y alta eficiencia.
  • Desarrollo de software y codificación: Competitivo con Claude y OpenAI o1-mini en tareas de programación automatizada.
  • Personalización de código abierto: Las empresas que necesiten soluciones de IA personalizadas se beneficiarán de la transparencia de DeepSeek R1.
  • Aplicaciones para el mercado chino: Optimizado para la comprensión del idioma chino.
  • Tareas de generación mejorada por recuperación (RAG): Rinde tan bien como GPT-4o en la generación de recuperación aumentada mediante Azure Search y Azure Foundry, con la ventaja añadida del razonamiento explícito de la cadena de pensamiento, que mejora la transparencia y la claridad de las respuestas.

¿Cuándo considerar otros LLMs?

  • Para razonamiento lógico y científico avanzado: o1 de OpenAI sigue siendo la alternativa más sólida, sobre todo para la resolución de problemas complejos y las aplicaciones STEM.
  • Para tareas creativas y de marketing: GPT-4o y Claude 3.5 Sonnet son superiores en narrativa e IA conversacional.
  • Para la generación de contenidos sin restricciones: Los modelos OpenAI ofrecen una cobertura más amplia sin problemas de censura.
  • Para la integración en el ecosistema de Google: Gemini 1.5 Pro proporciona la mejor conectividad empresarial.
  • Para empresas multilingües: Llama 3.1 admite más idiomas en general.
  • Para automatización e integración avanzadas: Si la llamada a funciones y la personalización de los avisos del sistema son fundamentales, GPT-4o o Claude serían mejores opciones.

Consideraciones éticas

Sesgo y censura

  • DeepSeek R1 está sujeto a censura política y restricciones de contenido.
  • GPT-4o y Claude 3.5 tienen sesgos vinculados a conjuntos de datos occidentales.
  • OpenAI’s o1 se centra en el razonamiento, pero puede tener filtros de moderación ocultos.

Transparencia y privacidad de datos

La naturaleza de código abierto de DeepSeek R1 permite una mayor transparencia, pero sus orígenes chinos suscitan dudas sobre la privacidad de los datos, especialmente en lo que respecta al cumplimiento del GDPR. En cambio, OpenAI y Anthropic aplican estrictas políticas de privacidad de datos.

Despliegue responsable de la IA

  • La naturaleza de código abierto de DeepSeek R1 permite a las empresas implantar sus propias salvaguardas.
  • Claude hace hincapié en la IA ética, reduciendo los riesgos en aplicaciones sensibles.
  • Las empresas que manejan sectores regulados deben evaluar cuidadosamente las políticas de cumplimiento de cada modelo.

Conclusión

DeepSeek R1 es una alternativa atractiva para las empresas que priorizan la rentabilidad, la resolución de problemas técnicos y la personalización. Sus capacidades STEM superiores, su fuerte rendimiento RAG y su marco de trabajo de código abierto lo convierten en una opción sólida para el desarrollo de IA, codificación, aplicaciones de investigación y generación de recuperación aumentada.

¿Cuál debería utilizar?

Sin embargo, existen limitaciones clave:

  • El rendimiento multilingüe es pobre fuera del inglés y el chino.
  • La velocidad de respuesta es mucho más lenta que la de GPT-4o, contrariamente a algunas afirmaciones iniciales.
  • La falta de llamadas a funciones y el escaso manejo de avisos personalizados del sistema lo hacen menos idóneo para la automatización avanzada.
  • Según nuestra experiencia, la implantación local de la IA presenta importantes inconvenientes. Las empresas que necesiten implementar IA local deberían considerar Qwen u otras alternativas.
  • No puede funcionar como agente autónomo ni coordinarse con otros agentes, a diferencia de GPT-4o, que destaca en ambas áreas.
  • No es compatible con el análisis de imágenes, lo que limita su capacidad para trabajar en aplicaciones de IA multimodal como Operator de OpenAI.

Para quienes necesiten capacidades de razonamiento complejas, o1 de OpenAI sigue siendo la principal alternativa a DeepSeek R1, ya que ofrece una gran precisión y fiabilidad en la resolución de problemas lógicos. Si la generación aumentada por recuperación es una prioridad, DeepSeek R1 y GPT-4o son opciones igualmente sólidas. Si la velocidad, el soporte multilingüe y las integraciones flexibles son cruciales, GPT-4o o Claude 3.5 Sonnet podrían ser la mejor opción.

En última instancia, la elección depende de las prioridades de tu empresa. Si el rendimiento técnico y la asequibilidad son lo más importante, DeepSeek R1 es la mejor opción. Si el razonamiento profundo es esencial, deberías considerar o1. Si la velocidad, el soporte multilingüe y la flexibilidad de automatización son fundamentales, GPT-4o o Claude pueden ser la mejor opción. Al sopesar estos factores, los directivos de las empresas pueden tomar decisiones informadas en el panorama de la IA, que evoluciona rápidamente.

 

Referencias

Autor
Javier Carnero
Research Manager