LLM
跳到导航
跳到搜索
大型语言模型(Large Language Models,LLM)是一种利用机器学习技术来理解和生成人类语言的人工智能模型。
LLM 旨在经过大量数据训练,像人类一样理解和生成文本以及其他形式的内容。这种模型有能力从环境中推断,生成连贯且与环境相关的响应,总结文本,回答问题(一般对话和常见问题解答),甚至协助完成创造性写作或代码生成任务。
LLM 使用基于神经网络的模型,通常运用自然语言处理(NLP)技术来处理和计算其输出。
评测基准
- Human Eval - HumanEval 是一个用于评估代码生成模型性能的数据集,由 OpenAI 在 2021 年推出。这个数据集包含 164 个手工编写的编程问题,每个问题都包括一个函数签名、文档字符串(docstring)、函数体以及几个单元测试。这些问题涵盖了语言理解、推理、算法和简单数学等方面。这些问题的难度也各不相同,有些甚至与简单的软件面试问题相当。这个数据集的一个重要特点是,它不仅仅依赖于代码的语法正确性,还依赖于功能正确性。也就是说,生成的代码需要通过所有相关的单元测试才能被认为是正确的。这种方法更接近于实际编程任务,因为在实际编程中,代码不仅需要语法正确,还需要能够正确执行预定任务。结果通过 pass@k 表示,其中 k 表示模型一次性生成多少种不同的答案中,至少包含 1 个正确的结果。例如 Pass@10 表示一次性生成 10 个答案其中至少有一个准确的比例。目前,收集的包含Pass@1、Pass@10 和 Pass@100。
- MBPP - MBPP(Mostly Basic Programming Problems)是一个数据集,主要包含了 974 个短小的 Python 函数问题,由谷歌在 2021 年推出,这些问题主要是为初级程序员设计的。数据集还包含了这些程序的文本描述和用于检查功能正确性的测试用例。 结果通过 pass@k 表示。