查看“DeepSeek”的源代码

DeepSeek 是杭州深度求索人工智能基础技术研究有限公司（2023/7/17日成立）使用数据蒸馏技术生成的 LLM 产品。

2024 年 1 月 5 日，发布第一个大模型 DeepSeek LLM

2024 年 12 月 26 日，正式上线 DeepSeek-V3 首个版本并同步开源 

2025 年 2 月 6 日，DeepSeek-R1、V3、Coder 等系列模型，已陆续上线国家超算互联网平台。澳大利亚政府以所谓“担心安全风险”为由，已禁止在所有政府设备中使用DeepSeek

=== DeepSeek-R1 ===
DeepSeek-R1 拥有卓越的性能，在数学、代码和推理任务上可与 OpenAI o1 媲美。采用的大规模强化学习技术，仅需少量标注数据即可显著提升模型性能。此外，DeepSeek-R1构建了智能训练场，通过动态生成题目和实时验证解题过程等方式，提升模型推理能力。该模型完全开源，采用MIT许可协议。截至2025年1月27日，在世界大模型排名 Arena 上，DeepSeek-R1 基准测试位列全类别大模型第三。

=== DeepSeek-V3 ===
自研 MoE 模型，671B 参数，激活 37B，采用FP8，在 14.8T token 上进行了预训练。DeepSeek-V3的应用场景包括聊天和编码场景、多语言自动翻译、图像生成和AI绘画等，暂不支持多模态输入输出。

在“大模型竞技场”的最新榜单中，DeepSeek-V3 进入前十。


[[分类:Develop]]
[[分类:AI]]