↩ zhcn 技术 Apache HTTP 2024 年 12 个最佳大规模语言模型 (LLM)

2024 年 12 个最佳大规模语言模型 (LLM)

在讨论 2024 年的技术时，您不能忽视生成式 AI 和为 AI 聊天机器人提供支持的大规模语言模型 (LLM) 等热门话题。 OpenAI 发布 ChatGPT 后，构建最佳 LLM 的竞赛已愈演愈烈。大公司、小型初创公司和开源社区都在致力于开发尖端的大规模语言模型。到目前为止，已经发布了数百个 LLM，但哪一个是性能最好的？要了解这一点，请关注我们的 2024 年最佳大规模语言模型（专有和开源）列表。

1.GPT-4

OpenAI 的 GPT-4 模型是 2024 年可用的最佳 AI 大规模语言模型 (LLM)。 GPT-4 模型于 2023 年 3 月发布，具有高级技能，例如理解复杂推理、高级编码能力、多项学术考试的熟练程度以及人类水平的表现。

事实上，这是第一个可以接受文本和图像作为输入的多模态模型。 ChatGPT 尚未添加多模式功能，但一些用户可以通过 GPT-4 模型通过 Bing Chat 访问它。

全新人工智能：Microsoft Bing（在创意模式下使用 GPT-4）现在接受图像作为输入。结果是惊人的。当我给它一个模因时，它能够理解上下文并阅读文本。人工智能使用的新维度已经开启。预计会有大量 AI Twitter 影响者帖子… pic.twitter.com/pshP6J44tK — Ethan Mollick (@emollick) 2023 年 6 月 21 日

除此之外，GPT-4 是为数不多的能够解决幻觉并大大改善事实的法学硕士之一。与 ChatGPT-3.5 相比，GPT-4 模型在多个类别的事实评估中得分接近 80% 。 OpenAI 还竭尽全力利用人类反馈的强化学习（RLHF）和领域专家的对抗性测试，使 GPT-4 模型更加符合人类价值观。

GPT-4模型使用大量参数进行训练，超过1万亿个，并且支持最大上下文长度为32,768个令牌。到目前为止，关于 GPT-4 内部架构的信息还很少，但 The Tiny Corp 的 George Hotz 最近透露， GPT-4 是一个包含 8 个不同模型的混合模型，每个模型都有 2200 亿个参数。。从根本上讲，正如我们之前所理解的，这不是一个大而密集的模型。

最后，您可以使用 ChatGPT 插件使用 GPT-4 模型通过 Bing 浏览网页。唯一的缺点是响应速度慢，推理时间很长，迫使开发者不得不使用旧的GPT-3.5模型。总体而言，OpenAI GPT-4 模型是 2024 年最好的法学硕士。如果您打算将其用于严肃的工作，我们强烈建议您注册 ChatGPT Plus。售价为 20 美元，但如果您不想付费，可以通过第三方门户免费使用 ChatGPT 4。

查看 GPT-4

2.GPT-3.5

继GPT 4之后，OpenAI凭借GPT-3.5再次获得第二名。这是类似于 GPT-4 的通用 LLM，但没有特定领域的专业知识。首先，谈论优点，这是一个令人难以置信的快速模型，可在几秒钟内生成完整的响应。

无论您使用 ChatGPT 写论文还是执行创造性任务（例如使用 ChatGPT 制定商业计划来赚钱），GPT-3.5 模型都可以做得很好。此外，该公司最近为其 GPT-3.5 Turbo 模型发布了更大的 16K 上下文长度。不要忘记，它是免费使用的，并且没有时间或每日限制。

话虽这么说，GPT-3.5最大的缺点是它经常产生幻觉，经常吐出虚假信息。因此，我们不建议将其用于严肃的研究工作。尽管如此，GPT-3.5 对于基本编码问题、翻译、理解科学概念和创造性任务来说是一个足够的模型。

在HumanEval基准测试中，GPT-3.5模型得分为48.1%，而GPT-4得分为67%，这是通用大规模语言模型的最高分。请注意，GPT-3.5 使用 1750 亿个参数进行训练，而 GPT-4 使用超过 1 万亿个参数进行训练。

查看 GPT-3.5

3.PaLM 2（野牛-001）

然后是 Google 的 PaLM 2 AI 模型。它被评为 2024 年最好的大规模语言模型之一。 Google 在 PaLM 2 模型中专注于常识推理、形式逻辑、数学和 20 多种语言的高级编码。据说最大的 PaLM 2 模型使用 5400 亿个参数进行训练，最大上下文长度为 4,096 个标记。

Google 宣布了四种基于 PaLM 2 的不同尺寸的模型：Gecko、Otter、Bison 和 Unicorn。其中，Bison 目前已上市，在 MT-Bench 测试中获得了 6.40 分，而 GPT-4 则获得了高达 8.99 分的成绩。

也就是说，在诸如 WinoGrande、StrategyQA、XCOPA 和其他测试等推理评估中，PaLM 2 表现出色，并且优于 GPT-4。它也是一个多语言模型，能够理解不同语言的习语、谜语和微妙的句子。这是其他法学硕士所面临的问题。

PaLM 2的另一个优点是它的响应速度非常快，可以一次提供三个响应。您可以按照我们的文章在 Google 的 Vertex AI 平台上测试 PaLM 2 (Bison-001) 模型。对于消费者，您可以使用在 PaLM 2 之上运行的 Google Bard。

看看PaLM 2

4.克劳德v1

对于那些不知道的人来说，Claude 是由 Anthropic 开发的强大的法学硕士，该项目得到了 Google 的支持。它由前 OpenAI 员工共同创立，其目标是打造有用、诚实且无害的AI 助手。在多项基准测试中，Anthropic 的 Claude v1 和 Claude Instant 模型表现出了巨大的潜力。事实上，Claude v1 在 MMLU 和 MT-Bench 测试中的表现优于 PaLM 2。

这与 GPT-4 接近，GPT-4 的 MT-Bench 测试分数为 7.94，而 GPT-4 的分数为 8.99。 Claude v1 在 MMLU 基准测试中获得 75.6 分，GPT-4 获得 86.4 分。 Anthropic 还成为第一家提供100k 代币作为 Claude-instant-100k 模型最大上下文窗口的公司。您基本上可以将近 75,000 个单词加载到一个窗口中。这太疯狂了，对吧？如果您有兴趣，请立即查看我们有关如何使用 Anthropic Claude 的教程。

查看克劳德 v1

5.科希亚

Cohere 是一家人工智能初创公司，由曾在 Google Brain 团队工作的前谷歌员工创立。我们的联合创始人之一，Aidan Gomez，为介绍 Transformer 架构的“注意力就是你所需要的”论文做出了贡献。与其他人工智能公司不同，Cohere 的存在是为了帮助企业解决其生成式人工智能用例。 Cohere 拥有大量模型，从小到大，从只有 6B 参数到使用 52B 参数训练的大型模型。

最新的 Cohere Command 模型因其准确性和稳健性而受到高度评价。根据Standford HELM 的数据，Cohere Command 模型在其他模型中具有最高的准确度得分。另外，Spotify、Jasper 和 HyperWrite 等公司都在使用 Cohere 的模型来提供 AI 体验。

至于定价，Cohere 收取15 美元生成 100 万个代币，而 OpenAI 的 Turbo 模型收取 4 美元生成相同数量的代币。尽管如此，它在准确性方面优于其他法学硕士。因此，如果您正在经营一家企业并正在寻找完美的法学硕士融入您的产品，请考虑 Cohere 的模式。

看看科希亚

6.猎鹰

Falcon 是第一个上榜的开源大规模语言模型，其性能优于之前发布的所有开源模型，包括 LLaMA、StableLM 和 MPT。由阿联酋技术创新研究所 (TII) 开发。 Falcon 最好的部分是它是在 Apache 2.0 许可证下开源的。这意味着您可以将此模型用于商业目的。没有版税或限制。

到目前为止，TII 已经发布了两个使用 40B 和 7B 参数训练的Falcon 模型。开发人员建议这些是原始模型，但如果您想将它们用于聊天，则应该选择 Falcon-40B-Instruct 模型，该模型针对大多数用例进行了微调。

Falcon 模型主要接受英语、德语、西班牙语和法语的训练，但也适用于意大利语、葡萄牙语、波兰语、荷兰语、罗马尼亚语、捷克语和瑞典语。因此，如果您对开源人工智能模型感兴趣，Falcon 就是您的最佳选择。

看看猎鹰

7. 骆驼

自从 LLaMA 模型被泄露到网上后，Meta 就一直致力于开源。我们正式发布了各种规模的LLaMA模型，从70亿个参数到650亿个参数。据 Meta 称，其 LLaMA-13B 模型优于 OpenAI 的 GPT-3 模型，后者经过 1750 亿个参数进行训练。许多开发人员使用 LLaMA 对其进行微调并创建最好的开源模型。话虽如此，请注意，LLaMA 的发布仅用于研究目的，与 TII 的 Falcon 模型不同，不能用于商业用途。

至于 LLaMA 65B 型号，它在大多数用例中都显示出惊人的功能。在 Hugging Face 的 Open LLM 排行榜上名列前 10 名。 Meta 表示，它不使用任何专有材料来训练其模型。相反，该公司使用了来自 CommonCrawl、C4、GitHub、ArXiv、Wikipedia、StackExchange 等的公开数据。

简而言之，Meta 发布 LLaMA 模型后，开源社区见证了快速创新，并设计了新技术来创建更小、更高效的模型。

看看骆驼

8. 原驼65B

在几个 LLaMA 衍生品中，Guanaco-65B 被发现是继 Falcon 模型之后最好的开源 LLM。 MMLU 测试得分为 52.7，而 Falcon 模型的得分为 54.1。同样，在TruthfulQA的评估中，Guanaco获得了51.3分，而Falcon则获得了更高的52.5分。原驼有四种口味：7B、13B、33B 和 65B 型号。所有模型均由 Tim Dettmers 和其他研究人员基于 OASST1 数据集进行了微调。

至于Guanaco如何进行微调，研究人员设计了一种名为QLoRA的新技术，可以有效减少内存使用，同时保持完整的16位任务性能。在 Vicuna 基准测试中，Guanaco-65B 模型的性能优于 ChatGPT（GPT-3.5 模型），后者的参数大小要小得多。

最好的部分是，65B 模型在具有 48GB VRAM 的单个 GPU 上仅用了 24 小时就完成了训练。这表明开源模型在降低成本和保持质量方面取得了多大进展。综上所述，如果你想尝试线下本地LLM，绝对可以尝试Guanaco模式。

查看Guanaco-65B

9. 骆驼毛 33B

Vicuna也是LMSYS开发的一个功能强大的开源LLM。与许多其他开源模型一样，它源自 LLaMA。它已使用监督指令进行了微调，并且训练数据是从 sharegpt.com 收集的，该门户是用户分享精彩 ChatGPT 对话的门户。它是一个用 330 亿个参数训练的自回归大规模语言模型。

在LMSYS自己的MT-Bench测试中，它获得了7.12分，而最好的专有模型GPT-4获得了8.99分。它还在 MMLU 测试中获得了 59.2 分，在 GPT-4 测试中获得了 86.4 分。尽管Vicuna 的型号要小得多，但它的性能却非常出色。单击下面的链接查看演示并与聊天机器人交互。

查看骆驼毛 33B

10.MPT-30B

MPT-30B是另一个与LLaMA衍生品竞争的开源LLM。由 Mosaic ML 开发，并根据来自不同来源的大量数据进行微调。使用来自 ShareGPT-Vicuna、Camel-AI、GPteacher、Guanaco 和 Baize 等来源的数据集。这个开源模型最好的部分是上下文长度为 8K 个令牌。

此外，它的性能优于 OpenAI 的 GPT-3 模型，在 LMSYS 的 MT-Bench 测试中得分为 6.39。如果您正在寻找在本地运行的小型法学硕士，MPT-30B 型号是一个不错的选择。

查看 MPT-30B

11. 30B-拉撒路

30B-Lazarus模型由CalderaAI开发，使用LLaMA作为底层模型。开发人员使用来自多个模型的 LoRA 调整数据集，包括 Manticore、SuperCOT-LoRA、SuperHOT 和 GPT-4 Alpaca-LoRA 。因此，该模型在许多 LLM 基准测试中表现得更好。它在 HellaSwag 上得分为 81.7，在 MMLU 上得分为 45.2，排在 Falcon 和guanaco 之后。如果您的用例主要是文本生成而不是对话式聊天，那么 30B Lazarus 模型可能是一个不错的选择。

30B-检查拉撒路

12.向导LM

WizardLM 是下一个开源大规模语言模型，旨在遵循复杂的指令。一组人工智能研究人员设计了一种 Evol-instruct 方法，将初始指令集重写为更复杂的指令。然后，生成的指令数据用于微调 LLaMA 模型。

通过这种方法，WizardLM 模型在基准测试中表现得更好，并且用户更喜欢 WizardLM 的输出而不是 ChatGPT 响应。 WizardLM在MT-Bench测试中得分为6.35分，在MMLU测试中得分为52.3分。总体而言，对于仅 13B 参数，WizardLM 做得非常好，并为更小的模型打开了大门。

查看 WizardLM

奖金：GPT4All

GPT4ALL 是 Nomic AI 运行的一个项目。除了内部模型之外，我们建议您在计算机上本地运行 LLM，无需专用 GPU 或互联网连接。我们开发了一款效果非常好的 13B Snoozy 模型。我已经在我的计算机上对其进行了多次测试，考虑到我拥有一台入门级 PC，它会相当快地产生响应。我还将 PrivateGPT 与 GPT4All 一起使用，它实际上是从自定义数据集响应的。

除此之外，它还包含来自不同组织的 12 个开源模型。其中大多数基于7B 和 13B 参数构建，大小约为 3 GB 至 8 GB。最重要的是，它提供了一个 GUI 安装程序，允许您选择型号并立即开始使用。无需弄乱终端。简而言之，如果您想以用户友好的方式在计算机上运行本地 LLM，GPT4All 就是您的最佳选择。

查看 GPT4All

Apache HTTP