DeepSeek:修订间差异

来自牛奶河Wiki
跳到导航 跳到搜索
(创建页面,内容为“DeepSeek 是杭州深度求索人工智能基础技术研究有限公司(2023/7/17日成立)使用数据蒸馏技术生成的 LLM 产品。 2024 年 1 月 5 日,发布第一个大模型 DeepSeek LLM 2024 年 12 月 26 日,正式上线 DeepSeek-V3 首个版本并同步开源 2025 年 2 月 6 日,DeepSeek-R1、V3、Coder 等系列模型,已陆续上线国家超算互联网平台。澳大利亚政府以所谓“担心安全风险”为由,已禁…”)
 
 
第9行: 第9行:
=== DeepSeek-R1 ===
=== DeepSeek-R1 ===
DeepSeek-R1 拥有卓越的性能,在数学、代码和推理任务上可与 OpenAI o1 媲美。采用的大规模强化学习技术,仅需少量标注数据即可显著提升模型性能。此外,DeepSeek-R1构建了智能训练场,通过动态生成题目和实时验证解题过程等方式,提升模型推理能力。该模型完全开源,采用MIT许可协议。截至2025年1月27日,在世界大模型排名 Arena 上,DeepSeek-R1 基准测试位列全类别大模型第三。
DeepSeek-R1 拥有卓越的性能,在数学、代码和推理任务上可与 OpenAI o1 媲美。采用的大规模强化学习技术,仅需少量标注数据即可显著提升模型性能。此外,DeepSeek-R1构建了智能训练场,通过动态生成题目和实时验证解题过程等方式,提升模型推理能力。该模型完全开源,采用MIT许可协议。截至2025年1月27日,在世界大模型排名 Arena 上,DeepSeek-R1 基准测试位列全类别大模型第三。
==== DeepSeek 蒸馏模型 ====
DeepSeek 蒸馏模型是通过模型蒸馏技术从更大的 DeepSeek-R1 模型中提取知识并转移到更小的模型中,以实现更高的计算效率和更低的推理成本,同时保留强大的推理能力。
# 高效推理:蒸馏模型比原始 DeepSeek-R1 更小,计算效率更高,适合在资源受限的环境中部署
# 推理能力:尽管规模较小,但蒸馏模型仍保留了强大的推理能力,性能在多个基准测试中优于其他开源模型
# 开源可用性:蒸馏模型是开源的,允许研究人员和开发人员在各种应用中使用和构建
DeepSeek-R1 蒸馏模型包括多个不同参数规模的版本,如:14b-qwen-distill-q8_0、70b-llama-distill-fp16 等均为蒸馏模型。


=== DeepSeek-V3 ===
=== DeepSeek-V3 ===

2025年2月12日 (三) 15:26的最新版本

DeepSeek 是杭州深度求索人工智能基础技术研究有限公司(2023/7/17日成立)使用数据蒸馏技术生成的 LLM 产品。

2024 年 1 月 5 日,发布第一个大模型 DeepSeek LLM

2024 年 12 月 26 日,正式上线 DeepSeek-V3 首个版本并同步开源

2025 年 2 月 6 日,DeepSeek-R1、V3、Coder 等系列模型,已陆续上线国家超算互联网平台。澳大利亚政府以所谓“担心安全风险”为由,已禁止在所有政府设备中使用DeepSeek

DeepSeek-R1

DeepSeek-R1 拥有卓越的性能,在数学、代码和推理任务上可与 OpenAI o1 媲美。采用的大规模强化学习技术,仅需少量标注数据即可显著提升模型性能。此外,DeepSeek-R1构建了智能训练场,通过动态生成题目和实时验证解题过程等方式,提升模型推理能力。该模型完全开源,采用MIT许可协议。截至2025年1月27日,在世界大模型排名 Arena 上,DeepSeek-R1 基准测试位列全类别大模型第三。

DeepSeek 蒸馏模型

DeepSeek 蒸馏模型是通过模型蒸馏技术从更大的 DeepSeek-R1 模型中提取知识并转移到更小的模型中,以实现更高的计算效率和更低的推理成本,同时保留强大的推理能力。

  1. 高效推理:蒸馏模型比原始 DeepSeek-R1 更小,计算效率更高,适合在资源受限的环境中部署
  2. 推理能力:尽管规模较小,但蒸馏模型仍保留了强大的推理能力,性能在多个基准测试中优于其他开源模型
  3. 开源可用性:蒸馏模型是开源的,允许研究人员和开发人员在各种应用中使用和构建

DeepSeek-R1 蒸馏模型包括多个不同参数规模的版本,如:14b-qwen-distill-q8_0、70b-llama-distill-fp16 等均为蒸馏模型。

DeepSeek-V3

自研 MoE 模型,671B 参数,激活 37B,采用FP8,在 14.8T token 上进行了预训练。DeepSeek-V3的应用场景包括聊天和编码场景、多语言自动翻译、图像生成和AI绘画等,暂不支持多模态输入输出。

在“大模型竞技场”的最新榜单中,DeepSeek-V3 进入前十。