“模型”最接近GPT-4的国产大模型诞生了

2024-01-17 13:05:32来源：机器之心Pro

今天，很高兴为大家分享来自机器之心Pro的最接近GPT-4的国产大模型诞生了，如果您对最接近GPT-4的国产大模型诞生了感兴趣，请往下看。

2024 年，国产大模型的第一个重磅消息，来自智谱 AI。

在 1 月 16 日举办的 2024 智谱 AI 技术开放日 Zhipu DevDay 上，智谱 AI 正式发布新一代基座大模型「GLM-4」。

经历了三个月的技术迭代，GLM-4 相比上一代基座模型 GLM-3 实现了 60% 的性能全面提升，直接逼近 GPT-4。

一方面，GLM-4 支持更长的上下文、更强的多模态能力；另一方面，GLM-4 支持更快的推理、更多并发，大大降低了推理成本。

同时，GLM-4 也增强了智能体能力，智谱 AI 正式上线了「GLM-4-All Tools」和「GLMs」个性化智能体定制能力，在产品上持续全面对标 OpenAI。

这些全新升级后的能力，目前已经在智谱 AI 开放平台上线。

「正如我们在去年年初的承诺，2023 年底要实现逼近最先进的 GPT-4 性能的全栈自主创新的 GLM-4。今天，我们来交个答卷，也希望未来能以此为基础瞄向 AGI。」智谱 AI CEO 张鹏表示。

综合能力全面跃升

国产基座大模型比肩 GPT-4

一直以来，AI 领域内的研究者和从业者都以「GPT-4」作为大模型技术的标杆。而 GLM-4 的诞生，意味着国产大模型的水平真正做到了「比肩 GPT-4」。

据张鹏介绍，GLM-4 带来了 128K 上下文窗口长度，单次提示词可处理文本达到 300 页，在总结信息、内容抽取、复杂推理、代码等多个应用场景实现了复杂长文本能力。

智谱 AI 技术团队解决了长上下文全局信息因失焦导致的精度下降问题。在 needle test 大海捞针测试中，在 128K 文本长度内， GLM-4 模型可实现几乎 100% 精度召回。

张鹏表示，GLM-4 性能已经超过 Claude 2.1，直接逼近 GPT 4 。

智谱 Al 进行的多项大模型权威评测的结果证实了这一说法，GLM-4 在 MMLU（81.5）达到 GPT-4 94% 水平，GSM8K（87.6）达到 GPT-4 95% 水平，MATH（47.9）达到 GPT-4 91% 水平，BBH （82.25）达到 GPT-4 99% 水平，HellaSwag （85.4）达到 GPT-4 90% 水平，HumanEval（72）达到 GPT-4 100% 水平。

在指令跟随能力方面，GLM-4 也实现了媲美 GPT-4 的水准。根据指令跟随评估基准 IFEval 的结果，GLM-4 在 Prompt 提示词跟随（中文）方面达到了 GPT-4 88% 的水平；在指令跟随（中文）方面，达到了 GPT-4 90% 的水平。

在实际落地应用过程中，模型的中文对齐能力格外重要，GLM-4 的表现也毫不逊色。

基于公开数据集 AlignBench 的评估结果，GLM-4 超过了 GPT-4 在 6 月 13 日发布的版本，逼近 GPT-4 最新（11 月 6 日版本）效果，在专业能力、中文理解、角色扮演方面超过了最新 GPT-4 的精度，唯一有待提升的是 GLM-4 在中文推理方面的能力。

短短几个月，GLM-4 即可实现多项模型能力的飞跃，与智谱 AI 长期以来所坚持的「All in 大模型」路线密不可分。

自成立以来，智谱 AI 始终致力于打造新一代认知智能大模型，从一开始探索超大规模预训练模型算法，到训练从几十亿、几百亿到千亿级的模型，并逐步探索实现规模化的产业应用落地。

2020 年底，智谱 AI 从 0 起步研发 GLM 预训练架构，在确保性能的同时具有独立、自主、可控特性。2022 年，智谱 AI 率先推出中英双语千亿级超大规模预训练模型 GLM-130B，引发了全球关注。

在 2023 年的大模型浪潮之中，智谱 AI GLM 系列大模型保持每 3-4 个月升级一次的节奏，同时逐步具备了多模态理解、代码解释、网络搜索增强等新功能。

多模态能力的水平，是决定模型能否应用于复杂现实场景的关键因素。此次 GLM-4 的多模态能力能够实现长足的进步，正是基于不断进化的智谱 AI 多模态理解模型 CogVLM 和文生图模型 CogView。

其中，最新发布的 CogView3 效果明显超过开源最佳的 Stable Diffusion XL，逼近最新 OpenAI 发布的 DALLE・3。在对齐、保真、安全、组合布局等各个评测维度上，CogView3 的效果都达到 DALLE・3 90% 以上水平，平均达到 95% 左右的相对性能。

GLM-4-All Tools 上线

产品持续对标 OpenAI

大模型本身还不足以解决所有问题，在实际的使用过程中，我们常常需要同时借助多种工具，比如网页浏览、数据分析、图像生成。

张鹏在演讲中提到了这一难点：「一直以来，普通用户甚至是开发者，需要用像魔法咒语一样的提示词或者机器才能解读执行的代码、调用大模型的各种能力，无论是回答问题、作画还是使用外部的知识源，总觉得大模型还是没那么聪明。」

这些复杂任务，都可以依靠「Agent」来完成。

强大的 Agent 能力，同样是提升 GLM-4 模型使用体验的关键因素之一。在这一次的技术开放日，智谱 AI 正式推出了「GLM-4-All Tools」。

「GLM-4-All Tools」提供了一系列强大的内置工具，让 GLM-4 实现了自主根据用户意图，自动理解、规划复杂指令，自由调用 WebGLM 搜索增强、Code Interpreter 代码解释器和多模态生成能力以完成复杂任务。开发者和用户可以更轻松地使用 GLM-4 模型，不再需要为提示词担心。

在现场，我们也看到了多个功能演示：以文生图为例，GLM-4-All Tools 能够准确地根据上下文语境进行 AI 绘图创作：

面对涉及复杂计算的指令，GLM-4 内嵌了代码解释器，能够自动进行复杂的方程或者微积分求解。对比 GSM8K、Math 以及 Math23K 三个数据集上的结果，GLM-4 取得了与 GPT-4 All Tools 相当的性能。

此外，GLM-4-All Tools 可以自动处理各种任务，包括文件处理、数据分析、图表绘制等，处理的文件类型覆盖我们常用的 Excel、PDF、PPT 等格式。在信息检索方面，All Tools 使得 GLM-4 从早期的检索自动增强升级为目前模型对网页的自动浏览能力。

「GLM 系列模型的全家桶能力，终于实现了 All-In-One。」张鹏总结道。

从全行业的角度来说，GLM-4-All Tools 的意义或许更为突出。基于比肩 GPT-4 的基座大模型能力，这一功能的上线将为应用、行业模型和商业化落地案例开辟出更加广阔的实践空间。

立足智能体开发

携手开发者、社区构筑更繁荣生态

能力水平的高低决定了大模型能否在未来的竞争中生存下去，而围绕大模型构筑起完善的生态链能够助力它们走得更远。二者缺一不可，相互促进。

一直以来，智谱 AI 在推进自家 GLM 系列模型研发时注重能力与生态「并举」，从第一代大模型创建起便在生态建设层面下足功夫，将广大开发者、用户、开源社区、科研界以及产业链上下游合作伙伴都纳入进来。

在这一次的技术开放日活动中，我们见证了智谱 AI 加速构建 GLM 模型生态的一系列举措。

一项重磅推出是「GLMs」个性化智能体定制能力，为包括无编程基础开发者在内的所有人提供了创建专属智能体的新渠道。

目前，该功能已经上线智谱清言官网。基于 GLM-4 模型的强大基础能力，任何用户都可以使用简单的提示词创建定制化的 GLM 智能体。

智谱清言官网同时上线的 GLM 智能体和智能体中心（用户可以分享自己创建的各种智能体）。

智能体创建地址：https://chatglm.cn/glms

至于效果怎样？张鹏现场让 GLM 智能体「智谱 DevDay」总结了技术开放日上午的议程，从结果来看，内容准确、没有遗漏。

GLMs 定制化智能体可以让任何人使用并充分挖掘 GLM-4 模型的潜力，结合自身所在领域以及专业知识、创意和智慧，自由创建更加多样化的智能体，实现便捷开发，进一步构建开放的大模型社区生态。同时更多人参与其中有助于更大规模地推动大模型及智能体在垂直场景和领域的部署，为应用落地提供了新的方式。

接下来，GLMs 模型应用商店以及开发者分成计划也将同期发布。这些与 GLMs 智能体一道构成了智谱 AI 在扩大开发者生态层面的重要尝试和迈出的关键步伐，让开发者应用大模型的门槛不断降低。

对于模型开源和对开源社区的贡献，智谱 AI 也一直走在国内外前列。智谱 AI 先后开源了中英双语对话大模型 ChatGLM-6B 和 ChatGLM2-6B，全球累计下载量超过了 1000 万，GitHub 星标累计超过 5.4 万。这些开源模型也「开花结果」，开发者已经在其上开发出了 600 多项优秀的大模型应用开源项目。