Deepseek es una empresa china que, con su modelo LLM al estilo de ChatGPT, ha demostrado que es posible desarrollar modelos de inteligencia artificial eficientes sin requerir el equipamiento más sofisticado del mercado. Esto ha hecho que las acciones de Nvidia caigan significativamente, lo que plantea interesantes preguntas sobre el futuro del mercado de chips y la inteligencia artificial.Ignacio Alarcón y Nolan Gaete discuten las técnicas que hicieron posible este avance, incluyendo el uso de modelos destilados, que permite una mayor eficiencia en el uso de recursos computacionales.
Además, mencionan cómo este modelo ha sido adoptado rápidamente por plataformas, las implicaciones de su uso y sus riesgos, su conflicto con OpenAI, lo que se viene con Qwen y más.
Únete a Ignacio Alarcón y Nolan Gaete en este episodio.
LINKS:
https://www.perplexity.ai/
https://chat.qwenlm.ai/
https://www.deepseek.com/
Paper DeepSeek R1: https://arxiv.org/abs/2501.12948
Paper DeepSeek V3: https://arxiv.org/abs/2412.19437
EPISODIOS:
(00:00) – Introducción al terremoto en la IA
(00:51) – Detalles sobre el modelo chino Deepseek
(02:04) – Impacto en el mercado y en Nvidia
(04:09) – Open Weights vs Open Source
(06:23) – Comparación con modelos existentes y método de destilamiento
(09:00) – Técnicas y diferencias en el modelo Deepseek
(23:00) – Uso del modelo Deepseek para usuarios y su impacto
(28:22) – Restricciones y sesgos en Deepseek
(32:11) – Ley de protección de datos y restricciones en Italia
(35:07) – Alegaciones de OpenAI sobre el uso indebido de su modelo
(45:26) – Meta y otros desarrollos en modelos de IA
(47:58) – Conclusiones y cierre del episodio
Más sobre nuestro podcast en:
https://iaparalosnegocios.comMás sobre nuestra empresa en:https://evoacademy.clhttps://evoconsulting.cl