LLM

来自牛奶河Wiki
阿奔讨论 | 贡献2025年2月14日 (五) 10:00的版本
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳到导航 跳到搜索

大型语言模型(Large Language Models,LLM)是一种利用机器学习技术来理解和生成人类语言的人工智能模型。

LLM 旨在经过大量数据训练,像人类一样理解和生成文本以及其他形式的内容。这种模型有能力从环境中推断,生成连贯且与环境相关的响应,总结文本,回答问题(一般对话和常见问题解答),甚至协助完成创造性写作或代码生成任务。

LLM 使用基于神经网络的模型,通常运用自然语言处理(NLP)技术来处理和计算其输出。

评测基准

  • Human Eval - HumanEval 是一个用于评估代码生成模型性能的数据集,由 OpenAI 在 2021 年推出。这个数据集包含 164 个手工编写的编程问题,每个问题都包括一个函数签名、文档字符串(docstring)、函数体以及几个单元测试。这些问题涵盖了语言理解、推理、算法和简单数学等方面。这些问题的难度也各不相同,有些甚至与简单的软件面试问题相当。这个数据集的一个重要特点是,它不仅仅依赖于代码的语法正确性,还依赖于功能正确性。也就是说,生成的代码需要通过所有相关的单元测试才能被认为是正确的。这种方法更接近于实际编程任务,因为在实际编程中,代码不仅需要语法正确,还需要能够正确执行预定任务。结果通过 pass@k 表示,其中 k 表示模型一次性生成多少种不同的答案中,至少包含 1 个正确的结果。例如 Pass@10 表示一次性生成 10 个答案其中至少有一个准确的比例。目前,收集的包含Pass@1、Pass@10 和 Pass@100。
  • MBPP - MBPP(Mostly Basic Programming Problems)是一个数据集,主要包含了 974 个短小的 Python 函数问题,由谷歌在 2021 年推出,这些问题主要是为初级程序员设计的。数据集还包含了这些程序的文本描述和用于检查功能正确性的测试用例。 结果通过 pass@k 表示。

常见模型

AI 特点 适用场景 Memo
Gemini 2.0 Pro 在代码生成、数学和多语言能力方面表现出色

擅长处理复杂的逻辑推理和知识理解任务

拥有更大的上下文窗口,可以处理更长的文本和更复杂的任务

需要编写复杂代码的开发者

需要处理大量数据和进行深入分析的研究人员

需要进行复杂推理和决策的专业人士

专注于代码生成和复杂提示处理,是 Gemini 系列中性能最强的模型
Gemini 2.0 Flash 响应速度快,延迟低,适合实时交互应用

支持多模态输入和输出,可以处理文本、图像和音频等多种类型的数据

在多个基准测试中表现优异,甚至超过了 Gemini 1.5 Pro

需要快速响应的 AI Agent 应用,如聊天机器人、智能助手等

需要处理多模态数据的应用,如图像识别、语音识别等

需要高性能的 AI 应用,如游戏 AI、自动驾驶

强调低延迟和高性能,旨在增强 AI Agent 体验
DeepSeek V3 在日常聊天、信息查询、内容生成等方面表现较为均衡 适合处理普通对话和常规任务,响应速度较快,能满足日常沟通需求。

适用于智能客服、在线问答系统和社交机器人。   辅助撰写文章、营销文案或进行文本润色。 对常规知识和信息的提取与汇总能力较强,适合用于基础信息检索和简单问题的回答。

通用对话和自然语言处理,日常对话和常规内容创作
DeepSeek R1 支持逻辑推理、数学解题以及代码生成等复杂任务

不同于普通对话模型,R1 能在对话中展示其思维链(chain-of-thought),帮助用户理解问题解决的步骤 在解决复杂数学题、逻辑推理题及科学问题时,能够清晰展示思考过程和推理步骤

适合处理需要多步推理和严谨逻辑验证的任务,能为编程、数学和科学问题提供深入解析 需要严谨逻辑和详细解释的专业问答场景,如技术支持、学术研究等,侧重于复杂问题求解和专业领域的逻辑推理
DeepSeek-R1-Distill 增强原有开源模型的能力 为其他开源模型提供增强能力 基于知识蒸馏技术,通过 DeepSeek-R1 生成的训练样本对其他开源大模型进行微调训练
GPT-4 通用型语言模型,具备强大的生成和理解能力,适用于广泛的场景,在各类专业任务(如法律、医疗、技术文档生成与复杂问答)上均表现出色 专业级文本生成与内容创作

复杂逻辑推理、专业知识问答

高质量、多轮对话的商业及学术应用

设计为多功能工具,适用于广泛的任务,能够处理复杂和多变的问题
GPT-4o 是 GPT-4 的优化版本(Optimized),专门针对特定任务进行了优化,如编程辅助和数据分析。适合需要高效计算和特定技术解决方案的场景 低延迟、实时响应的在线应用  

对成本敏感的企业级服务  

实时信息(如在线搜索、数据更新)的任务

专门针对需要高效计算的特定任务进行了优化,如快速编写和检查代码

免费模型

Name Model Created Context
Google: Gemini Flash Lite 2.0 Preview google/gemini-2.0-flash-lite-preview-02-05:free Feb 5, 2025 1,000,000 面向开发者提供 API 接口,更优的成本效益和响应速度
Google: Gemini Pro 2.0 Experimental google/gemini-2.0-pro-exp-02-05:free Feb 5, 2025 2,000,000 编程和处理问题的理解能力,输入支持文本、图片、视频、音频。能够全面分析和理解海量信息,并支持调用 Google 搜索和代码执行等工具。
DeepSeek: R1 Distill Llama 70B deepseek/deepseek-r1-distill-llama-70b:free Dec 6, 2024 128,000 基于 Llama-3.3-70B-Struct 蒸馏的大型语言模型,堪比 3.1-405B 模型。具备更高效地编写、调试和优化代码的能力。

Model Distillation's Info from original model.

Model Score

模型名称 参数大小 HumanEval Pass@1 MBPP Pass@1 发布者 开源
Claude 3.5 Sonnet 92.0 / Anthropic
GPT-4o 90.2 / OpenAI
Qwen2-72B-Instruct 72.0 86.0 80.2 阿里巴巴 *
GPT-4 1750.0 85.4 83.5 OpenAI
Claude3-Opus 0.0 84.9 / Anthropic
Llama3-400B-Instruct-InTraining 4000.0 84.1 / Meta *
CodeQwen1.5-7B-Chat 70.0 83.5 77.7 阿里巴巴 *
Llama3-70B 700.0 81.7 / Meta *
Llama3-70B-Instruct 700.0 81.7 / Meta *
DeepSeek Coder-33B Instruct 330.0 79.3 70.0 DeepSeek-AI *
Claude3-Haiku 0.0 75.9 / Anthropic
Gemini-ultra 0.0 74.4 / Google Deep Mind
Grok-1.5 74.1 / xAI
DeepSeek-V2-236B-Chat 2360.0 73.8 61.4 DeepSeek-AI *
WizardCoder-Python-34B 340.0 73.2 / WizardLM Team *
Claude3-Sonnet 0.0 73.0 / Anthropic
GLM4 0.0 72.0 / 智谱AI
Gemini 1.5 Pro 0.0 71.9 / Google Deep Mind
GLM-4-9B-Chat 90.0 71.8 / 智谱AI *
DBRX Instruct 1320.0 70.1 / databricks *
GLM-4-9B 90.0 70.1 / 智谱AI *
Phind-CodeLlama-34B-Python-v1 340.0 69.5 / Phind *
Gemini-pro 1000.0 67.7 / Google Deep Mind
Phind-CodeLlama-34B-v1 340.0 67.6 / DeepSeek-AI *
DeepSeek Coder-6.7B Instruct 67.0 66.1 65.4 DeepSeek-AI *
Qwen2-72B 727.0 64.6 76.9 阿里巴巴 *
WizardCoder-Python-13B-V1.0 130.0 64.0 54.6 WizardLM Team *
Grok-1 3140.0 63.2 / xAI *
Llama3-8B 80.0 62.2 / Meta *
Llama3-8B-Instruct 80.0 62.2 / Meta *
PanGu-Coder2 150.0 61.64 /
Codestral 220.0 61.5 78.2
Phi-3-small 7B 70.0 59.1 71.4
Phi-3-mini 3.8B 38.0 58.5 70.0
WizardCoder-15B-V1.0 150.0 57.3 /
CodeGemma-7B-IT 70.0 56.1 54.2
Phi-3-medium 14B-preview 140.0 55.5 74.4
MiniCPM-MoE-8x2B 136.0 55.49 41.68
CodeLLaMA-Python-34B 340.0 53.7 56.2
YAYI2-30B 300.0 53.1 45.8
Qwen2-57B-A14B 570.0 53.0 71.9
Qwen1.5-110B 1100.0 52.4 58.1
CodeQwen1.5-7B 70.0 51.8 72.2
Qwen2-7B 70.0 51.2 65.9
Phi-1 13.0 50.6 55.5
MiniCPM-2B-DPO 24.0 50.0 47.31
CodeLLaMA-34B 340.0 48.8 55.0
Phi-2 27.0 48.3 59.1
GPT-3.5 1750.0 48.1 52.2
Yi-1.5-34B 340.0 46.3 65.5
Mixtral-8×22B-MoE 1410.0 45.1 71.2
CodeGemma-7B 70.0 44.5 56.2
CodeLLaMA-Python-13B 130.0 43.3 49.0
CodeLLaMA-Instruct-13B 130.0 42.7 49.4
CodeLLaMA-Instruct-34B 340.0 41.5 57.0
Qwen1.5-72B-Chat 720.0 41.5 53.4
Yi-1.5-9B 90.0 41.4 61.1
DeepSeek-V2-236B 2360.0 40.9 66.6
Mixtral-8×7B-MoE 450.0 40.2 60.7
Gemma 2 - 9B 90.0 40.2 52.4
Grok-0 330.0 39.7 /
Yi-9B 90.0 39.0 54.4
CodeLLaMA-Python-7B 70.0 38.4 47.6
WizardLM-30B-V1 300.0 37.8 /
PaLM2-S 0.0 37.6 50.0
Qwen1.5-32B 320.0 37.2 49.4
CodeLLaMA-13B 130.0 36.0 47.0
CodeGeeX2-6B 60.0 35.9 /
PaLM-Coder 5400.0 35.9 47.0
Aquila2-34B 340.0 35.4 /
Qwen-72B 720.0 35.4 52.2
Stable LM Zephyr 3B 30.0 35.37 31.85
CodeLLaMA-Instruct-7B 70.0 34.8 44.4
WizardCoder-3B-V1.0 30.0 34.8 37.4
Qwen1.5-MoE-A2.7B 143.0 34.2 /
Phi-1.5 13.0 34.1 37.7
StarCoder 155.0 33.6 52.7
CodeLLaMA-7B 70.0 33.5 41.4
Qwen-14B 140.0 32.3 40.8
Gemma 7B 70.0 32.3 44.4
Qwen2-1.5B 15.0 31.1 37.4
LLaMA2 70B 700.0 30.5 45.4
Mistral 7B 73.0 30.5 47.5
StarCodeBase 155.0 30.4 49.0
Qwen-7B 70.0 29.9 31.6
XVERSE-MoE-A4.2B 258.0 29.9 /
Codex 1750.0 28.81 /
AquilaCode-7B-py 70.0 28.8 /
XVERSE-65B 650.0 26.8 /
PaLM 5400.0 26.2 47.0
WizardCoder-1B-V1.0 10.0 23.8 28.6
CodeGeeX 130.0 22.9 /
LLaMA2 34B 340.0 22.6 33.8
AquilaCode-7B-multi 70.0 22.0 /
Gemma 2B 20.0 22.0 29.2
Gemma 2B - It 20.0 22.0 29.2
CodeGemma-2B 20.0 22.0 29.2
Qwen2-0.5B 4.0 22.0 22.0
RecurrentGemma-2B 27.0 21.3 28.8
LLaMA2 13B 130.0 20.1 27.6
Baichuan2-7B-Base 70.0 18.29 24.2
Baichuan2-13B-Base 130.0 17.07 30.2
Qwen-1.8B 18.0 15.2 /
LLaMA2 7B 70.0 12.2 20.8
Baichuan 13B - Base 130.0 11.59 22.9
Baichuan 7B 70.0 9.2 6.6
TinyLlama 11.0 6.71 19.91
Mistral Large 0.0 4.1 7.1