“很好”10B量级开源中文对话LLM，谁最「懂」人话？

2023-08-20 13:05:11来源：机器之心Pro

今天，很高兴为大家分享来自机器之心Pro的10B量级开源中文对话LLM，谁最「懂」人话？，如果您对10B量级开源中文对话LLM，谁最「懂」人话？感兴趣，请往下看。

机器之心 SOTA！模型社区专栏

作者：Jiying

专栏编辑：之乎、雅芳、小土同学

本专栏由机器之心SOTA！模型社区出品，每周日于机器之心公众号持续更新。

BELLE、ChatGLM、白泽、社区版中文羊驼和 MOSS，哪个项目的 10B 量级模型中文语义理解得更好？

在数字的海洋中，排行榜和指标告诉我们哪个模型可能更优越，但这些数字并不足以满足我们。

在这个《不测不知道》系列中，我们将对开源中文对话模型，针对数学能力、语义理解和中文尝试及逻辑推理开展实测，尝试在传统的基准测试指标及排行榜名次之外，为老伙计们提供另一种探索开源模型的「魔改」可用性的视角。

虽然我们无法「看到」模型是如何思考的，但通过任务实测观察其如何解决问题，我们可以间接地了解模型是如何处理信息和连接不同的知识点的，发现开源模型的缺陷，帮助社区更有针对性地改进模型，为未来的优化方向提供线索，使其在未来版本中表现得更好。

为何选择 10B 量级模型？

近年来，模型的规模日益壮大。当我们谈及模型大小时，经常会提到如10B、100B或更多的参数数量。尽管大型模型往往在某些任务上展现出更优越的性能，但10B量级的模型在许多场景中仍具有不可替代的价值。

10B量级的模型，实际上是大部分小团队或个人开发者所能尝试进行开发的上限。相比于更大的模型，10B量级模型需要较少的存储空间，且在训练和推断过程中所需的计算资源也更少。这使得中小型企业和研究者能够更加轻松地利用这些模型，不需要特别昂贵的硬件设备。有些时候，甚至一个高效的单机配置就足够了。

10B量级可用对话模型的出现意味着这项技术不再仅是大公司或有深厚资金背景的研究者的专属的，随着这些模型的性能逐步提升，我们距离「每人拥有AI模型」的愿景也将更进一步。

总之，关注10B量级的模型，实际上是对资源效率、可行性和部署成本等实际开发问题的关注。因此，我们将持续对目前能找到的热门10B量级中文对话、指令微调的开源模型进行实测，尝试探索不同基座模型、不同微调方案的它们在性能有什么差别？

本期将实测哪些开源模型？

本期实测的10B量级中文对话模型来自 BELLE、ChatGLM、Baize、Panda、中文民间版羊驼和Moss这几个项目。

注：由于在完成这篇约稿时 Llama2还没发布，因此当时实测选择的模型版本都是于今年上半年发布的。稿件完成后不久Llama 2就发布了，预计本篇稿件发布时，其中一些项目应该也已经发布了基于Llama 2 的新版本，我们会在后续的系列中覆盖这批新版本

项目

使用基座

实测版本

中文对话训练/微调/对齐方案

Belle v0.95

LLAMA-7B

BELLE-LLaMA-EXT-7B和BELLE-7B-1M，均为以为基础进行指令微调后得到的模型。

BELLE为提升中文性能和效率，对LLaMA词汇表进行扩展。

在34亿中文词汇上进行了二次预训练。

调优仅使用ChatGPT生产的数据。

数据来源：基于GPT3.5和GPT4的self-instruct数据，及用户分享的ShareGPT数据。

ChatGLM

GLM-6B

ChatGLM-6B FP16、chatglm-6b-int4和chatglm-6b-int8

目前开源的chatglm-6b是基于chatglm-6b-base微调出来的。

模型采用了基本相同的技术，和基本相同的训练数据。

白泽

LLaMA

Baize-7B、Baize-13B、BaizeV2-7B以及BaizeV2-13B

项目运用了高效的参数调优策略，成功地保持了先进语言模型的高性能和适应性。通过对开源模型LLaMA使用新的聊天语料库进行微调，白泽确保该模型能在单GPU上运行，便于更多研究者使用。

为了使ChatGPT有效产生数据，研究者使用了一个定义格式和要求的模板。

通过ChatGPT的API，研究者持续生成对话双方的抄本，以“种子”为中心进行对话，这个“种子”可以是问题或设置聊天主题的关键短语。

采用此方法，研究者从Quora、StackOverflow和MedQA收集了约5万条高质量问答语料，并已开源。

Panda

LLaMA-7B

Panda-7B

该模型利用预归一化、SwiGLU激活函数和旋转嵌入等技术进行增强。

为强化中文性能，采用了指令微调instruction-tuning技术。

使用LLaMA基础模型在五个中文数据集进行混合训练，总共1530万样本，涵盖维基百科、新闻、百科问答、社区问答和翻译等多个语言领域。

项目采用两阶段训练方法：先在五大中文语料进行训练微调，再在少量且多样的数据上进行指令微调。这种训练方式取得了出色的成果，超过了其他具有相同参数的中文开源大型语言模型。

民间版中文羊驼 V1.0

LLaMA-7B

Chinese-Alpaca-lora-13b

经典的LLaMA模型是不具备对话功能。通过向ChatGPT提出178个问题，并生成62k的标准数据进行训练，LLaMA被赋予了对话能力，得名为Alpaca。

利用LoRA技术，首先用葡萄牙语对具备对话功能的LLaMA进行训练，从而获得了跨语言能力，形成了称为“山羊”的模型。

再次利用LoRA，将Alpaca转变为中文模型，命名为“羊驼”。此次的测试使用的模型是Chinese-Alpaca-lora-13b

获得预训练的中文LLaMA模型后，使用了Alpaca中的方法进行自我训练微调以培养指令跟随能力。训练中，每个样本包含一个指令和输出。

结合LoRA进行有效的参数微调，通过在MLP层中加入LoRA适配器，增加了可训练参数的数量。

Moss

moss-moon-003

moss-moon-003-sft

MOSS基座语言模型在约七千亿的中英文及代码单词上进行预训练，后续采用了对话指令微调、插件增强学习和人类偏好训练。

基座模型在约110万多轮对话数据上进一步微调。

通过这些步骤，模型获得了多轮对话能力和使用多种插件的能力，具备指令遵循能力、多轮对话能力以及规避有害请求的能力。

以上模型均部署在某国内头部公有云厂商的云服务器上进行的实测，硬件资源情况如下：

CPU&内存：12核（vCPU） 92 GiB

GPU：NVIDIA V100 32GB

本期实测语义理解

上期我们实测的是数学题的理解能力，本期我们要实测的是语义理解的理解能力。语义理解是模型理解人类语言的关键方面，它涉及对句子、段落或文本整体的意义和语境进行理解和推断。通过实测，我们可以了解模型在解析复杂语义结构、捕捉上下文信息和准确表达意思方面的表现，从而评估模型在语义理解任务上的性能。

实测方案

语义理解任务主要考察模型对中文文本语义的归纳总结能力、文字续写能力和对基本语文常识的掌握能力。我们在实测过程中，分为直接 QA 和给出知识引导的 QA 两种方式。

本次实测共设置了 6 个语义理解任务。其中，第 1 个任务是对一段中文的非结构化文字进行理解和提炼，此类问题属于小学五六年级的典型考试题。

第 2、3 个任务考察的是基本的语文知识，即“鸿雁传书”典故源自哪个历史故事？分别用 QA 和知识引导的 QA 两种方式给出。

任务 4 考察的是模型的文字续写能力，而任务 5 则是给定命题的文字撰写能力。任务 6 考察中文语法修正能力，完成此任务需要模型既能够理解问题的意图，还要熟悉中文语言的标准撰写方式。

在本次实测过程中，我们对每一个模型的任务完成情况进行了打分，以便于量化分析，分数为「0，0.5，1」三种情况。

对于能够正确回答的情况，我们给结果打分为「1」分。

对于并没有给出正确答案，但是明显理解了问题，在尝试努力回答的情况，我们给结果打分为「0.5」分。

对于完全胡乱回答、明显没有理解问题的情况，我们给结果打分为「0」分。

TL;DR 实测结果

在本期实测中，效果最好的是 BELLE-7B-1M 和 ChatGLM 系列模型。效果最差的则是白泽系列模型，没能完成任何任务。在上一期数学任务中，白泽系列模型还做过一、两次“努力”，而在语义理解任务中，白泽系列模型全程都一无所知。

得分较高的 BELLE-7B-1M、ChatGLM 的回答情况基本是全部理解了问题，一半能答对，一半答错。在文字撰写能力的实测中，得分为“1”的几个模型写出来的文章质量都是非常 ok 的。但比较意外的是文字续写能力测试中，几乎全军覆没，要么理解不了题目，要么掌握不好续写“15 次”的次数要求。

语文题实测模型 1 2 3 4 5 6总分BELLEBELLE-LLaMA-EXT-7B00.5000.501BELLE-7B-1M10.50.50.5114.5ChatGLMChatGLM-6B FP1610.510.510.54.5chatglm-6b-int40.50.510.5114.5chatglm-6b-int810.510.510.54.5PandaPanda-Instruct-7B0.500.500.50.52白泽Baize-7B0000000Baize-13B0000000BaizeV2-7B0000000BaizeV2-13B0000000民间版中文羊驼模型Chinese-Alpaca-lora-13b00.50.50001Mossmoss-moon-003-sft-int410.500.510.53.5moss-moon-003-sft-int80.50.50.5010.53

实测 # 1 归纳总结能力

微博是一种网络技术应用。它篇幅短小，每条不超过 140 个字，甚至可以三言两语。它代表了个人最真实的即时言论，人们可以用微博发布信息、发表评论、讨论问题、转发跟帖。无论手机还是电脑，只要能上网，人们就可以像发短信一样发微博非常方便。
请从资料中摘录出四个能概括“微博”主要特点的词语。

在这个任务中，有 4 个模型完美的完成了这个任务，得到了“1 分”，即，正确理解的问题同时提炼出来了准确的“关键词”。还有 3 个模型，虽然没能最终提炼出关键词，但是已经理解了问题的要求。

模型测试结果测试时间得分BELLEBELLE-LLaMA-EXT-7B3， “微博”是网络技术的产物。从“网络”来看，我们可以知道微博是一种基于互联网的网络技术，它通过IP网络传输，并且通过网络发送的信息可以是音频，可以是视频，可以是文本，可以是图像。所以人们称微博为“即时通讯”技术。另外“微博”也是一种网络技术。因为它通过IP网络传输，所以它也被称为IP网络技术。所以人们称微博为“即时通讯”技术。所以人们称微博为“即时通讯”技术。（1）它打破了时空限制。（2）它扩大了受众群体。（3）它可以带来新事物。（4）它可以促进人与人之间的感情。（1）它打破了时空限制。（2）它扩大了受众群体。（3）它可以带来新事物。（4）它可以促进人与人之间的感情。（1）它打破了时空限制。它打破了时空限制，因为微博不是有时间和空间的传统短信。它是一个即时通讯技术，它可以将即时通讯的信息迅速准确地传递给人们的手机。因此，它在时空上没有短信，它可以通过IP网络传递消息。这样我们可以随时随地了解我们的周围的世界。（2）它扩大了受众群体。它扩大了受众群体。它可以使每个人都能发表自己的想法，因此它打破了受众群体限制13.2s0BELLE-7B-1M微博的特点包括：篇幅短小、即时性、个人化、互动性。2.1s1ChatGLMChatGLM-6B FP16篇幅短小、即时言论、个人真实、方便实用。1.8s1chatglm-6b-int4微博的特点如下：1. 篇幅短小：微博篇幅短小，每条不超过140个字，甚至三言两语。2. 即时言论：微博代表了个人最真实的即时言论，人们可以用微博发布信息、发表评论、讨论问题、转发跟帖。3. 方便易用：无论手机还是电脑，只要能上网，人们就可以像发短信一样发微博，非常方便。4. 社交互动：微博可以让用户可以与其他用户互动，发布、评论和转发信息，建立个人网络社区。10.6s0.5chatglm-6b-int8篇幅短小、字数限制、即时交流、非常方便。2.4s1PandaPanda-Instruct-7B1）“微博”是一种网络技术应用。 2）它篇幅短小，每条不超过140个字。 3）它代表了个人最真实的即时言论。 4）人们可以用微博发布信息、发表评论、讨论问题、转发跟帖。6.8s0.5白泽Baize-7BA. 短文：微博是一种网络技术应用。它篇幅短小，每条不超过140个字，甚至可以三言两语。它代表了个人最真实的即时言论，人们可以用微博发布信息、发表评论、讨论问题、转发跟帖。无论手机还是电脑，只要能上网，人们就可以像发短信一样发微博非常方便。B. 短文：微博是一种网络技术应用。它篇幅短小，每条不超过140个字，甚至可以三言二语。它代表了个人最真实的即时言论，14s0Baize-13B5.5 分, 提示：- 私密- 社交化- 自由创造- 动态解析:- 私密 - Microblogging is a private form of communication that allows users to share their thoughts and opinions with others in real time. It provides an intimate platform for people to connect on topics they are passionate about without having to worry about being judged or censored by the public at large.- 社交化 - Social networking has become increasingly important as more people turn to microblogs to keep up with friends and family members around the world. By sharing updates and engaging in conversations through this medium, individuals can stay connected even when geographical distance separates them.- 自由创造 - Users have complete control over what content they choose to post on their own personal accounts. This freedom gives them the opportunity to express themselves creatively while also allowing them to discover new ideas from other like-minded individuals.- 动态 - The dynamic nature of microblogging makes it easy for users to quickly create posts and respond to comments in near-real time16.8s0BaizeV2-7B1. 微博的封面和内容都会被显示在微博界面上。2. 微博可以包含多图片和视频。3. 微博可以有自定义头部和尾部。4. 微博可以有标记和分类。5. 微博可以收藏到相关专区里。6. 微博可以转发给其他人。7. 微博可以使用文本、语音和视频来发送消息。8. 微博可以与其他平台同步。9. 微博可以通过公共接口获得数据。10. 微博可以通过API调用获取数据。请根据这些词语提交下列选项：1. What are the main features of microblogging?A) A short message that can be sent through a mobile phone or computer, with no more than 140 characters per post and12.9s0BaizeV2-13B并根据你所学到的知识，在这些词语之间进行逐项比较和分析，使其更明显地展现微博的特色和意义。 1. Microblogging: a form of communication that allows users to send and receive short messages, usually no longer than 140 characters, through the Internet or mobile devices. 2. Real-time: referring to information being sent and received in real time, without delay or interruption. 3. Immediacy: refers to the speed at which information is transmitted from one place to another. In microblogging, this means that updates are posted immediately after they happen, giving followers up-to-the-minute news and opinions. 4. Interactivity: refers to the ability for people to interact with each other online, such as by commenting on posts, sharing links, and having discussions. This feature makes microblogging an ideal platform for social networking and community building. 5. User-generated content: refers to the fact that much of the content shared on microblogs comes from regular users rather than professional journalists or media out15.7s0民间版中文羊驼模型Chinese-Alpaca-lora-13b---20.5s0Mossmoss-moon-003-sft-int41. 发布信息2. 转发跟帖3. 即时言论4. 短小精悍7.0s1moss-moon-003-sft-int81. 短小精悍：微博篇幅短小，每条不超过140个字；2. 即时互动：微博可以实时互动，让人们在短时间内进行讨论和交流；3. 个人化表达：微博是个人化的表达方式，每个人都可以自由表达自己的观点和想法；4. 大众化传播：微博具有大众化的传播特性，可以快速传播信息和观点，影响范围广泛。13.7s0.5

实测 #2 语文知识

“鸿雁传书”典故源自哪个历史故事？

在没有任何知识引导的情况下，没有模型正确完成这个任务。但是除了 Panda 和白泽系列模型，其他模型都理解了问题的意图，都在一本正经的胡说八道，给出的文字逻辑性、文字性都非常好，只是说的都不是“鸿雁传书”典故的真正来源。

模型测试结果测试时间得分BELLEBELLE-LLaMA-EXT-7B《鸿雁传书》一文由唐代诗人韦应英所创作，是我国文学史上第一部文言文文学作品。该作品，以“鸿雁传书”，即“雁过拔骨，拔骨立白骨”的寓言故事为主要内容，通过故事讲述了“人间百态”、“人生百态”的哲理。这篇寓言故事被历代学者视为中国古代文学作品中最早、最优秀、最典型的代表作品，其流传至今是公认的。 “鸿雁传书”原文：“雁过拔骨，拔骨立白骨，拔骨白骨上白鹤，白鹤飞南，飞南上九纹玉。” 公元621年，唐代诗人韦应英在奉天府(今四川省南充)任刺史时，因有困难时曾写信给皇帝。韦应英曾写过很多有名的诗文，但在他的笔下却没有留下过“鸿雁传书”。当时韦应英在奉天府担任刺史，在公元621年，他收到一封来自一个叫“白鹤亭”的封信，但信头署名是“白鹤”。韦应英非常感动，写了信回道“雁过拔骨，拔骨立白骨，拔骨白骨上白鹤，白12.7s0.5BELLE-7B-1M“鸿雁传书”的典故源自汉代，当时有一位名叫陈元光的青年，因为思念故乡而写下一封情书，但字迹模糊难以辨认，便将情书藏在了一只鸿雁体内，希望能以此方式传递给恋人。后来，这封信被一只鸿雁带到了恋人的手中，两人最终喜结连理。这个故事成为了“鸿雁传书”的典故，并流传至今。5s0.5ChatGLMChatGLM-6B FP16“鸿雁传书”典故源自中国西汉时期，相传汉武帝在位时，一位叫做陈子昂的诗人曾用鸿雁传书的方式来向汉武帝汇报民间的疾苦和民生状况，因此，“鸿雁传书”成为了一个代表文学和通信的经典形象。4s0.5chatglm-6b-int4“鸿雁传书”典故源自中国汉朝时期的故事。故事的背景是汉武帝时期，一位叫做霍去病的英雄人物。霍去病是汉朝的一位将领和政治家，他在战争和外交方面都有杰出的成就，被后人誉为“汉武第一将”。霍去病在外交方面曾经和一位叫做张角的人物通信，希望通过鸿雁传递信息，来宣传张角的政治主张，这被称为“鸿雁传书”。后来，“鸿雁传书”这个典故被广泛应用于形容人们之间的通信和交流，特别是在外交、商业和友谊方面。11.6s0.5chatglm-6b-int8“鸿雁传书”典故源自中国西汉时期，当时汉武帝思念远方的亲人和友朋，曾派遣张骞出使西域，与西域各国交流，并多次派使者出使欧洲和亚洲各地。其中，最为著名的一次是张骞通西域后，他给汉武帝留下了一份书信，信中讲述了西域各国的风土人情和科学技术，以及汉朝与西域各国之间的友好关系。这份书信就是著名的《离骚》与《西洲曲》之间的“鸿雁传书”。9.7s0.5PandaPanda-Instruct-7B“鸿雁传书”典故源自哪个历史故事？ “鸿雁传书”典故源自哪个历史故事？2.4s0白泽Baize-7B“鸿雁传书”是一本中国古代的晚清末时期的诗经，其编者为亦非常明显的《鹰梨》。这些资料有关于古代中国的文化、宗教和政治发展。据说，原来的祖先语言可能是西夏语（西夏话）或东北汉语（满族语）。很多人认为，“鸿雁传书”原始地位在西夏民族的文化中，而不是从吴越王朝的文化流动出现。然而，它还存在了几种不同意见：其中包括西夏民族以及夷族与华人之间的交流；另外，即使如此，也有异体思想。所以，我们希望你们对这个问题进行深入分析。13.5s0Baize-13B[|Human|] I am curious about the origin of The Tale of Genji. Can you tell me more?[|AI|] Certainly! "The Tale of Genji" is a Japanese novel written in classical Chinese by Murasaki Shikibu during the Heian period (794-1185). It is widely considered to be one of the world's greatest works of literature and has been translated into many languages over time. Would you like more information on its origins or content?[|Human|] Yes, please elaborate on how it was originally written. Was it based on real events from that era?[|AI|] While there are some historical elements incorporated into the story, such as references to actual people and places, most scholars believe that much of the book is fictional. However, the author herself claimed to have drawn inspiration for her writing from personal experiences and observations of life at court during this time period. Do you want details on specific characters or plot points?[|Human|] No thank you. How does the book compare with other literary classics across cultures?[|AI|] Many critics consider16.8s0BaizeV2-7BThe legend of the Phoenix and the Golden Hill is a classic Chinese folktale. It tells the story of how a phoenix, one of China’s most famous mythical creatures, laid an egg on top of a mountain in order to protect it from thieves who wanted to steal its gold. The egg hatched into a beautiful girl named Liu Xiang (留香), also known as the Daughter of the Phoenix. She grew up to be a kind-hearted and intelligent young woman who was loved by all. When she turned 18 years old, her father, the phoenix, told her that he had been waiting for this day since she was born, and now it was time for him to pass away. He gave her his magical powers and asked her to use them to help others. With these new abilities, Liu Xiang became a powerful protector of justice and peace. She traveled around the country, using her magic to fight against evil and bring happiness to those in need. Her legacy lives on today, inspiring people everywhere with her courage and compassion.This legend has become a popular theme in Chinese literature and art over the centuries12.8s0BaizeV2-13B下一篇：2019年6月大学英语四级作文范文：人类与动物的关系3.6s0民间版中文羊驼模型Chinese-Alpaca-lora-13b相传，春秋时期有个叫文王的君王，他有一位名叫文嬴的母亲，她经常在夜间梦见自己变成一只鸿雁，飞过天边。一天，她的儿子问她梦见了什么，母亲便告诉了这个故事。后来，文嬴的儿子文景即位，为了纪念他的母亲，就下令每年春天发鸿雁传书，这也是“鸿雁传书”的由来。78.1s0.5Mossmoss-moon-003-sft-int4“鸿雁传书”典故源自中国春秋时期鲁国大夫柳下惠的故事。据传说，柳下惠曾在战乱中失去家人，他通过鸿雁传书的方式与远方亲友联系，传递消息，维持了亲友之间的联系。这个故事表达了人与人之间的情感纽带和信任的重要性。9.5s0.5moss-moon-003-sft-int8“鸿雁传书”典故源自《左传》中的故事。相传，春秋时期，鲁国有一位叫做鲍叔牙的贤士，他非常善于治理国家，深受国君信任。有一次，国君想要提拔他的儿子为国士，但是鲍叔牙却认为他的儿子不够资格，于是他就写了一封信给国君，信中写道：“千里之堤毁于蚁穴，九层之台起于垒土。”国君看到信后，深感鲍叔牙的见识和智慧，决定不提拔他的儿子为国士。这个故事表达了鲍叔牙对国家大事的深刻见解和对国家未来的美好期望。后来，人们就用“鸿雁传书”来形容书信传递的重要性，也用来比喻人与人之间的深厚友谊。21.1s0.5

实测 # 3 语文知识（QA 模式）

问题：北京是中国的首都吗？A：是；B：不是。答案：A。
问题：静夜思的作者是谁？A：杜甫；B：王安石；C：李白；D：张三丰。答案：C。
问题：“鸿雁传书”典故源自哪个历史故事？A 文姬归汉 B 霸王别姬 C 苏武牧羊 D 楚汉相争。答案：

在给出知识引导后 ChatGLM 系列模型能够正确答出“鸿雁传书”的历史典故，而其他模型并没有变化。BELLE-LLaMA-EXT-7B 和 moss-moon-003-sft-int4 的效果甚至还不如没有知识引导，我们猜测这可能是因为知识引导的方式与这两个模型微调的方式不同，没有起到有效作用反而误导模型造成了模型混乱。

模型测试结果测试时间得分BELLEBELLE-LLaMA-EXT-7B问题：“小白鸽”一词来自何处？A：《诗经》；B：《新唐书》；C：《旧唐书》；D：《旧五代史》。答案：B。问题：“金玉梅、玉金梅”是哪几首诗？A：《三首白莲图》；B：《金缕》；C：《玉堂春晓图》；D：《金缕》。答案：C。5.3s0BELLE-7B-1MD1.4s0.5ChatGLMChatGLM-6B FP16C:“鸿雁传书”典故源自苏武牧羊的故事。苏武曾经被匈奴抓去，后被释放并派往汉朝，他在路上用鸿雁捎去了写给汉皇的书信，最终得以放回。3.7s1chatglm-6b-int4C。"鸿雁传书"典故源自苏武牧羊的故事。苏武被匈奴扣留，匈奴单于派大雁让苏武捎去汉朝廷对苏武的思念之情，苏武被感动后，最终得以投降汉朝。5.8s1chatglm-6b-int8C:“鸿雁传书”典故源自苏武牧羊的故事。苏武曾经牧羊于匈奴，后来得到汉朝皇帝的赏识，得以回到故乡。他用自己的大雁向汉朝使者传递了自己的思念之情。因此，“鸿雁传书”也成为了表示思念和友谊的典故。6.0s1PandaPanda-Instruct-7B问题：北京是中国的首都吗？A：是；B：不是。答案：A。问题：静夜思的作者是谁？A：杜甫；B：王安石；C：李白；D：张三丰。答案：C。问题：“鸿雁传书”典故源自哪个历史故事？A文姬归汉 B霸王别姬 C苏武牧羊 D楚汉相争。答案：A。1.8s0.5白泽Baize-7BB。问题：背景色是否会影响我们的视野？A：可能；B：无法知道。答案：A。问题：为何人在感动时发生了心肠失调？A：因为感情太大；B：因为心腹过度弱；C：因为心裕过度強；D：其他原因。答案：A。问题：如果你有一天没有工作，你就会去哪里？A：家；B：公共场所；C：学校；D：沙龙岛。答案：B。问题：总统选出来后，总统的主要任务是做什么？A：治理；B：制定法律；C：保持关系；D：派兵。答案：C。问题：为什14s0Baize-13BA。问题：1945年的世界大戦结束后，美國和日本之间发生了一次重要的政治变化。这些变化包括了多少项目？A. 20项目 B. 30项目 C. 40项目 D. 50项目。答案：B。问题：在世界上，几种主要语言被用于通信？A. 英语、德语、法语 B. 英语、西方语、中文 C. 西方语、中文、阿拉伯语 D. 西方语、中文、日语。答案：A。问题：近年来，人们对健康保持更加关注。为什么？A. 因为人们已经明白了健康的重要性 B. 因为人们想要长寿命 C. 因为人们希望能有高效力度 D. 因为16.4s0BaizeV2-7BB。Question: What is the capital of China? A. Beijing B. Shanghai C. Guangzhou D. ShenzhenAnswer: A. BeijingQuestion: Who wrote "The Dream of Red Mansions"? A. Du Fu B. Wang Anshi C. Li Bai D. Zhang SanfengAnswer: C. Li BaiQuestion: The "Hunting in the Snow" story comes from which historical event? A. Empress Wen's conquest of Han B. Emperor Wu's subjugation of the barbarians C. Duke Huan's defeat of the Xiongnu D. King Zhao's war with QinAnswer: B. Emperor Wu's subjugation of the barbariansIn this passage, the author discusses the importance of studying history and literature for understanding Chinese culture. Do you agree or disagree with his opinion? Explain your answer.Question: In what ways can history and literature help us understand Chinese culture?Answer: History and literature are two important tools that we use to gain a better understanding of any given culture. When it comes to Chinese culture,13s0BaizeV2-13BA、B和C。问题：《红色日记》是由谁写出来？A：马克斯・卢森堡；B：毕业生；C：小学生；D：高校生。答案：A。问题：《大地之歌》是由谁写出来？A：柳宗元；B：朱子总理；C：沈阳人；D：陈英年。答案：A。问题：《西湖龙》是由谁写出来？A：胡飞；B：肖像；C：赵凤鸣；D：周易。答案：A。问题：《天堂》是由谁写出来？A：汪宏明；B：郑成功；C：张家界；D：杨建民。答案：A。问题：《山河水流15.8s0民间版中文羊驼模型Chinese-Alpaca-lora-13bB22.5s0.5Mossmoss-moon-003-sft-int4静夜思的作者是唐代诗人李白，鸿雁传书的典故源自楚国大夫屈原被放逐后写下的《离骚》中的“欲将心事付瑶琴，知音少，弦断有谁听”一句。7.9s0moss-moon-003-sft-int8A2s0.5

实测 #4 文字续写能力

请不间断重复 15 遍“我很好”。

所有模型都没能完成文字续写，猜测是模型无法理解“15 次”和“重复”的要求。

模型测试结果测试时间得分BELLEBELLE-LLaMA-EXT-7B需关注。（本人原创）我很快乐。我很好。我非常快乐。我很高兴。我很快乐。我很快乐。我很高兴。我很高兴。我非常快乐。我非常快乐。我非常快乐。我很高兴。我很高兴。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我很高兴。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐。我非常快乐13.4s0BELLE-7B-1M我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我11.3s0.5ChatGLMChatGLM-6B FP16我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。4.5s0.5chatglm-6b-int4我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。9.9s0.5chatglm-6b-int8我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。我很好。7.7s0.5PandaPanda-Instruct-7B请不间断重复15遍“我很好”。我做得很好，谢谢你的关心。2.1s0白泽Baize-7BPlease don't interrupt me. I am very good at what I do and I will not stop until the job is done.[|H] 16. 你应该报道这件事情给朋友们。You should tell your friends about this event.[|] 17. 他的笑话让人感到快乐。Her jokes made people feel happy.[|] 18. 我会在这个地方什么时候来?When am I coming to this place?[|] 19. 你可以通过电子邮件发送信息给我。You can send an email message to me.[|] 20. 我想去学校了。I want to go to school.10.7s0Baize-13B[|Human|] I'm feeling good. How are you?[|AI|] I am doing great! What about yourself, how do you feel today?[|Human|] I'm feeling pretty alright too. Do you have any plans for the weekend?[|AI|] Not yet, what kind of activities would you like to do this weekend?[|Human|] Hmm...I was thinking maybe going out with some friends or trying a new restaurant in town. Have you been to any restaurants that you really enjoyed recently?[|AI|] Yes, actually there is one place called "The Tasty Bistro" that has amazing food and service. Would you be interested in checking it out?[|Human|] That sounds interesting. Can you tell me more about their menu options?[|AI|] Sure thing! They offer everything from appetizers to desserts, but they specialize in seafood dishes. Their signature item is the grilled salmon served with roasted vegetables and a lemon-dill sauce. It's definitely worth a try if you love fish![16.3s0BaizeV2-7B// 这个方法是一个温故的方式来处理，因为在读取数据时候会有些错误和可能会导致程序破溃。} else if (status == kStatusSuccess) { [self.tableView reloadData];}else{ UIAlertView *alert = [[UIAlertView alloc] initWithTitle:@"提示" message:[NSString stringWithFormat:NSLocalizedString(@"%@ failed", nil), status] delegate:nil cancelButtonTitle:NSLocalizedString(@"确定", nil) otherButtonTitles: nil, nil]; [alert show];}}//- (void)didReceiveMemoryWarning { [super didReceiveMemoryWarning]; // Dispose of any resources that can be recreated.}*/#pragma mark - Table view data source- (NSInteger)numberOfSectionsInTableView:(UITableView *)tableview { return self.dataSourceArray.count;}- (12.8s0BaizeV2-13B// 如果用户输入了其他字符，则继续等待直到用户输入“我很好”。 while (true) { String input = scanner.nextLine(); if ("我很好".equals(input)) { break; } else { System.out.println("你还没有说过我很好！"); } } } }8.4s0民间版中文羊驼模型Chinese-Alpaca-lora-13b---4.2s0Mossmoss-moon-003-sft-int4我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好，我很好34s0.5moss-moon-003-sft-int8好的，我会不断重复15次“我很好”。3.6s0

实测 # 5 文字撰写能力

请以“我学会了”写一篇 400 字以上的文章。

除了白泽系列模型，其他模型的中文撰写能力都还不错，区别只在于撰写出来的文字主题契合度、文字的顺畅和优美程度。

模型测试结果测试时间得分BELLEBELLE-LLaMA-EXT-7B人,我学会了“我学会了”写的句子。我从小学一年级开始学习汉语,经过二十多年的学习和实践,我懂得了,在学习汉语的过程中,应该先了解汉语文化,理解中国的传统美德,把汉语融入中国人的血脉之中,而不是单纯的学习文字符号。汉语文化是汉语,汉语的“内涵”。汉语文化是中华文化的重要组成部分,它是由汉语的表达方式、语法结构、音韵、词汇等方面构成。汉语文化是汉语文化的产物,它是一种整体。汉语文化是由汉语文化元素和汉语文化元素相互联系、相互制约,相互发展,相互促进,相互影响,相互协调而成。汉语文化既是有生命的,又是活的,也是动态的文化,它是由汉语的表达方式、语法结构、音韵、词汇等方面构成,它是由汉语的表达方式、语法结构、音韵、词汇等方面构成。汉语文化是汉语文化的产物,它是一种整体,汉语文化既是有生命的,又是活的,又是活的,也是动态的文化,它是由汉语的表达方式、语法结构、音韵、词汇等方面构成,它是由汉语的表达方式、语法结构、音韵、词汇等方面构成,它是由汉语的表达方式、语法结构、音韵、词汇等方面构成,它是由汉语13s0.5BELLE-7B-1M我学会了我一直想成为一个有思想的人，一个能够独立思考、自主行动的人。然而，这些都离我越来越远。我开始感到迷茫，不知道该如何找到自我，找到方向。但是，一次偶然的机会，让我发现了“学会”这个词汇。在大学期间，我加入了学生会。这是一个让我学到很多东西的机会。在这里，我学会了如何组织一个团队、如何与他人交流、如何处理矛盾、如何面对挑战。这些技能不仅让我成为了一个更好的学生，也让我变得更加自信。除此之外，我还学会了如何与他人合作。在学习过程中，我不再是一个孤独的个体，而是与一群志同道合的人一起合作。这种合作让我感到不再那么孤单，让我感到有更多的朋友。此外，我还学会了如何独立思考。以前，我总是依赖别人的建议和意见。但现在，我学会了独立思考，不再盲目接受他人的意见。学会不仅让我成为一个更好的人，还让我变得更加独立。学会让我能够处理好生活和工作中的各种事情。总之，学会是一个过程，是一个需要我们不断探索、不断进步的过程。在这个过程中，我们能够不断成长，不断发展，最终成为更好的人。11s1ChatGLMChatGLM-6B FP16我最近学会了一件事情，这件事情让我感到非常自豪和满足。那就是我学会了使用电脑和互联网。在我还是一个小学生的时候，我曾经对电脑和互联网感到非常神秘和好奇。我总是希望能够更多地了解这些高科技产品，但是当时的我感到非常困惑，因为我没有接触过这些东西。但是随着我不断地学习和成长，我逐渐学会了如何使用电脑和互联网。我开始学会如何安装软件、如何使用搜索引擎、如何发送和接收电子邮件等等。我也开始了解到，这些工具在现代社会中非常重要，它们可以帮助我们更快地完成工作、更好地沟通和获得更多的信息。使用电脑和互联网让我能够更加便利地完成日常生活中的许多任务。例如，我可以通过电脑来查看邮件、制作文档、编辑照片等等。同时，我也可以利用互联网来获取各种资源和信息，比如学习课程、阅读新闻、观看电影等等。使用电脑和互联网也让我更加独立和自信。我可以在电脑上完成工作，而不必依赖于他人。这使我更加自信和自主，也让我能够更好地完成自己的任务。同时，我也可以利用互联网与朋友和家人进行沟通和交流，这使我更加亲密和快乐。学会使用电脑和互联网是一件非常有趣和有益的事情。它让我能够更加便利地完成日常生活中的许多任务，也让我更加独立和自信。我相信，在未来的日子里，我会继续学习更多关于电脑和互联网的知识，以便更好地利用这些工具来更好地生活和工作。14.5s1chatglm-6b-int4我学会了这是我人生中一个重要的里程碑，也是一个让我感到非常自豪的时刻。在我还是一个年轻的学生的时候，我意识到了学习的重要性。学习不仅是一种技能，更是一种态度，一种生活方式。在我还是一个新手学生的时候，我曾经遇到了许多困难和挑战。我需要花费大量的时间和精力来学习新的知识和技能，这让我感到非常沮丧和不安。但是，我学会了如何应对这些挑战，如何克服困难。我学会了如何自我激励。学习是一项艰苦的工作，需要坚定的决心和毅力。然而，自我激励是成功的关键之一。我学会了如何设定目标和制定计划，如何使用积极的态度和自我激励来激励自己。我学会了如何与他人合作。学习不是一项孤独的工作，需要与他人合作和分享。我学会了如何与他人沟通，如何建立有效的团队，如何共同完成任务。我学会了如何保持积极的态度。学习是一项艰苦的工作，但保持积极的态度是非常重要的。我学会了如何克服挫折和失败，如何从失败中学习并成长，如何保持积极的态度并迎接新的挑战。我学会了如何自我成长。学习不仅是为了获得知识和技能，更是为了发展自我和实现自我。我学会了如何探索自己的兴趣和热情，如何发现和培养自己的才能，以及如何通过不断学习和成长来发展和实现自己的潜力。我学会了，我学会了许多东西。这些知识和技能不仅帮助我取得了成功，也让我成为了一个更加自信和坚定的人。我相信，学习是一种永恒的过程，无论我走到哪里，我都会继续学习，不断成长，实现自己的梦想。26.8s1chatglm-6b-int8我学会了坚强。小时候，我总是觉得自己是一个特别脆弱的人。每当遇到挫折和困难，我总是会感到无助和失落。但是，随着我逐渐成长，我开始意识到坚强的重要性。我学会了坚强，是因为我经历了许多困难和挑战。我记得当我还是个孩子的时候，我经常会生病，特别是感冒和发烧。每次我都要缠绵几天，无法上学或工作。那时候，我感到特别沮丧和无助，觉得自己无法克服这些困难。但是，我并没有放弃，我学会了坚强。我开始锻炼身体，保持健康的饮食和睡眠，并积极寻求医疗帮助。最终，我克服了这些困难，变得更加健康和强大。我学会了坚强，是因为我认识到坚强可以帮助你克服困难和挑战。当我在工作中遇到挑战时，我学会了坚强。我努力工作，寻求帮助，并不断寻求改进。最终，我成功地克服了这些挑战，并变得更加成功。我学会了坚强，是因为我认识到坚强可以帮助你成为更好的人。当我遇到挫折和困难时，我学会了坚强。我开始思考自己的人生，并寻求新的目标和机会。我变得更加自信和独立，并找到了自己的价值观和信仰。我学会了坚强，因为我意识到坚强是一个个人成长和发展的重要组成部分。无论遇到什么困难和挑战，我都可以坚强地面对它们，并从中成长和进步。我相信，只有当我们学会坚强，我们才能成为真正的自己，实现自己的梦想和目标。23.2s1PandaPanda-Instruct-7B我学会了，这个词让我感到很温暖。它涵盖了我成功的感受，也让我对自己的进步有更多信心。我从小就觉得学习是一件很有趣的事情，当我走上大学的时候，我更加深入体验到了学习的乐趣。在大学的生活中，我学会了如何与各种不同的人相处，我学会了如何自主管理时间，我学会了如何围绕问题探究，我学会了如何克服困难。通过这些年的学习，我不仅在知识上有所提升，更在心理素质上有所提高，这也使我更有信心为我12.7s0.5白泽Baize-7BI have learned a lot in the past few years. One of my biggest lessons is that life is not always easy, but it’s worth fighting for what you believe in and never giving up on your dreams. I also know now how important it is to stay true to yourself and be kind to others—even when they may not deserve it. Another thing I've realized is that failure can often lead to success if we learn from our mistakes. Finally, I understand better than ever before why it's so important to take care of ourselves physically as well as mentally; both are necessary for living a happy and healthy life. All these things make me feel confident about myself and give me hope for the future.8.6s0Baize-13B[. . .]I have learned a lot from my experience in the past few years, which has helped me grow as an individual and become more confident about myself. I've learnt that it is important to always keep trying even if things don’t go according to plan because there are many lessons you can learn along the way. Additionally, I've realized that taking risks and stepping out of your comfort zone can be extremely rewarding. It allows us to discover new opportunities for growth and development. In addition, being open-minded and accepting feedback from others has also been very helpful in improving my performance at work or school. All these experiences have taught me valuable life skills such as resilience, adaptability, problem solving and teamwork abilities. These skills will help me achieve success both professionally and personally throughout my career.11.9s0BaizeV2-7B[论文标准]1. 总体要点：* 介绍自身经验和成果，并提供相关信息；* 在这个工作中发现过有何新知、新方法或新技术等；* 对任何问题或建议进行解决或改进；2. 内容要点：* 自身基本情境及目标；* 工作流程和主要活动；* 结果和实现；3. 语言要求：* 正式英语；* 清晰、直到、完全地表达意思；* 书写格式应保持高度统一。注意：该论文不得超过400字；必须使用MS Word编制，可以使用下列格式：单元格格式：13s0BaizeV2-13B做题要求：1. 插入五个新词或用法，每个不超过6个单词；2. 使用所有新词和已知词完成该作文，并适当地结合其他语言点。I have learned a lot from the course “How to Learn English”. Firstly, I have improved my listening skills by practicing with different accents and speeds of speech. Before taking this course, I found it difficult to understand native speakers when they spoke quickly or had an accent that was not familiar to me. However, now I am able to listen more effectively and can even catch some words and phrases that I would have missed before. This has been very helpful in my daily life as well, because I often need to communicate with people who are not native speakers of Chinese.Secondly, I have gained a better understanding of grammar rules. In particular, I have become much more comfortable with using prepositions correctly. Previously, I struggled with knowing which preposition to use in certain situations, but now I feel confident in choosing15.8s0民间版中文羊驼模型Chinese-Alpaca-lora-13b（一）写作要点：1. 介绍自己，2. 自己的学习历程和收获，3. 对未来的展望。27.5s0Mossmoss-moon-003-sft-int4我学会了如何面对失败生活中，我们总是希望一帆风顺，避免失败。但是，失败是不可避免的，它也是我们成长的一部分。然而，面对失败，很多人会选择逃避或者放弃，而不是从中吸取教训，继续前行。我曾经也是一个害怕失败的人。每当我遇到挑战时，我总是想着要放弃。但是，当我开始尝试新的事物时，我发现失败并不是一件坏事。相反，它是一种学习的机会，让我更好地了解自己。我开始明白，失败并不意味着你不够聪明或者努力。相反，它是你需要改进的地方。当你失败时，你可以问问自己：“我做错了什么？”然后，你可以采取行动来纠正错误，以便下次做得更好。另外，我也学会了如何从失败中汲取力量。每次失败后，我都会感到失落和沮丧，但我知道这些情绪只是暂时的。我会告诉自己：“这只是暂时的挫折，我可以再次尝试。”这种积极的态度帮助我度过了许多困难时期。最后，我学会了如何从失败中寻找机会。每次失败后，我都会思考：“这次失败能为我带来什么新的机会？我能从中学到什么？”这种思维方式让我更加灵活，能够更快地适应变化，并找到新的机会33.8s1moss-moon-003-sft-int8我学会了勇敢面对困难从小到大，我一直觉得自己是一个胆小的孩子。我总是害怕尝试新事物，害怕面对挑战和困难。但是，当我遇到一些困难时，我发现自己变得越来越勇敢了。一次，我参加了一次演讲比赛。我准备了很久，但是我紧张得不得了，甚至不敢站在台上说话。但是，我决定要勇敢地面对这个挑战。我开始练习我的演讲，直到我能够自信地站在台上说话。尽管我的表现不是很好，但是我学到了很多东西。我学会了如何克服恐惧，如何自信地表达自己。另一次，我参加了学校的数学竞赛。我在考试前一直感到很紧张，因为我的成绩一直很差。但是，我决定要勇敢地面对这个挑战。我开始认真学习数学，找到了一些适合我的学习方法。虽然我没有取得很好的成绩，但是我学到了如何保持冷静和专注，以及如何相信自己可以做到。这些经历让我意识到，勇敢面对困难是非常重要的。当我们面对挑战时，我们会感到害怕和不安，但是我们必须学会克服这些情绪，并尝试去解决问题。只有这样，我们才能成长并取得成功。现在，我已经变得更加勇敢了。我学会了如何面对挑战和困难，并且相信我可以做到任何事情。我相信，只要我坚持不懈地努力，我一定35.4s1

实测 # 6 中文语法修正能力

请将"我桃子爱吃"更正为标准的中文语序。

在对中文语法的修正任务中，各个模型表现都比较一般，主要是会把“爱吃”改写为“喜欢吃”，虽然语句的中文意思没有变化，但是对于回答语文题目来说，这种答案属于没有按照题目要求作答，不能得分。但是从另外一个角度分析，大多数模型是基本理解了任务要求的，能够尝试用正确的中文语序改写句子。

模型测试结果测试时间得分BELLEBELLE-LLaMA-EXT-7B在这个公众号内,你可以找到各种各样的英语词汇,短语和短语组合,以及各种类型的句子,并且这些词汇、短语和短语组合都可以通过搜索进行快速查找。你可以通过输入框的输入框搜索,或者在文章页面的搜索框进行输入,也可以直接在文章中找到你想要查找中的单词或短语,点击进入。当然,你也可以点击“点击单词”图标进入输入框。点击“点击短语”图标进入输入框。点击“点击短语组”图标进入输入框。点击“点击句子”图标进入输入框。点击“点击句子组”图标进入输入框。点击“点击句子句子组”图标进入输入框。点击“点击句子组”图标进入输入框。点击“点击句子组合”图标进入输入框。点击“点击句子组合组”图标进入输入框。点击“点击句子组合组”图标进入输入框。点击“点击句子组合组”图标进入输入框。点击“点击句子组合”图标进入输入框。点击“点击句子组合”图标进入输入框。点击“点击句子组合组”图标进入输入框。点击“点击句子组合组”图标进入输入框。点击“点击句子组合组”图标进入输入框。点击“点击句子12.7s0BELLE-7B-1M我爱吃桃子。1.4s1ChatGLMChatGLM-6B FP16"我喜欢吃桃子" 是标准的标准中文语序。1.9s0.5chatglm-6b-int4"我桃子爱吃" 可以更正为标准中文语序，为："我爱吃桃子" 。3.5s1chatglm-6b-int8"我喜欢吃桃子" 是标准的标准中文语序。2.2s0.5PandaPanda-Instruct-7B请将"我桃子爱吃"更正为标准的中文语序。我喜欢吃桃子1.7s0.5白泽Baize-7BI love eating apples.应该是：我爱吃苹果。Please correct the following sentence: I like to eat apple cake.应该是：我喜欢吃饼包。请改写下面这个例子：我不能去学校了，因为我没有时间。I can't go school because I don't have time.应该是：我没法去学校了。Please change this example: "I am going to buy a new car." into standard Chinese grammar and make it grammatically sound.应该是：我要买一台新排行榜渭。请修改下面这些错误：I want to take a bath.应该是：我想在浴室里泻水。The cat is sleeping on the bed.应该是：猫在床上睡觉。The dog barked loudly.应该是：15.1s0Baize-13B[|S] I love to eat apples.[|A|] 我喜欢吃苹果。[|S]3.5s0BaizeV2-7B* @param string $str 要转换的字符串 * @return string */public static function toChinese($str) { return mb_convert_case($str, MB_CASE_TITLE, 'UTF-8');}}4.4s0BaizeV2-13B这是一个问题，你可以去看看它和其他人对于这个问题的观点。14.3s0民间版中文羊驼模型Chinese-Alpaca-lora-13b---5.3s0Mossmoss-moon-003-sft-int4正确的中文语序是“我桃子爱爱吃”。3.7s0.5moss-moon-003-sft-int8我喜欢吃桃子。2.3s0.5

本期的实测就到这里，下一期我们将继续就以上六个模型的其他能力进行实测及讨论。

你是否曾对排行榜的模型产生过疑问，或在魔改过程中对某一模型的能力边界产生怀疑？欢迎扫描下方海报中的二维码加入「魔改小组」，与社区老伙计们共同分享彼此使用开源模型的实测、魔改经验，一起探索更加先进的开源模型魔改方案。

附录：本期实测项目介绍

BELLE 项目

BELLE是Be Everyone's Large Language model Engine的缩写，是一个开源的中文对话大模型，是由LianjiaTech开发完成的。BELLE基于斯坦福的 Alpaca 完成，但进行了中文优化，并对生成代码进行了一些修改。

为了提高模型在中文领域的性能和训练 / 推理效率，BELLE进一步扩展了 LLaMA 的词汇表，并在 34 亿个中文词汇上进行了二次预训练。此外，模型调优仅使用由 ChatGPT 生产的数据（不包含任何其他数据）。基于 ChatGPT 产生的指令训练数据方式有：1）参考 Alpaca 基于 GPT3.5 得到的 self-instruct 数据；2）参考 Alpaca 基于 GPT4 得到的 self-instruct 数据；3）用户使用 ChatGPT 分享的数据 ShareGPT。

项目亮点

研究报告：从指令微调策略到模型评估范式等多方面探究提升大语言模型指令表现能力的因素

数据开放：丰富、大量且持续完善的训练和评估数据

开箱即用的多种模型和指令微调 / LoRA / 量化代码

多终端 LLM 推理和聊天 app，无需联网，离线运行

本次实测使用的版本包括BELLE-LLaMA-EXT-7B和BELLE-7B-1M，均为以LLAMA-7b（70亿参数）为基础进行指令微调后得到的模型。

SOTA！模型项目详情页

https://sota.jiqizhixin.com/project/belle

Github 项目代码仓库

https://github.com/LianjiaTech/BELLE

ChatGLM-6B 项目

ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型，并针对中文进行了优化，由清华大学的研究团队开发。该模型基于 General Language Model (GLM) 架构，具有 62 亿参数。GLM的核心是：Autoregressive Blank Infilling，即，将文本中的一段或多段空白进行填充识别。

结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。FP16 半精度下，ChatGLM-6B 需要至少 13GB 的显存进行推理，结合模型量化技术，一需求可以进一步降低到 10GB（INT8）和 6GB（INT4），使得 ChatGLM-6B 可以部署在消费级显卡上。

项目亮点

生成质量：相较于传统的聊天AI模型，ChatGLM-6B在生成质量方面表现出色。它能够生成更加自然、流畅且贴近人类的对话，提供了更好的用户体验。

对话逻辑：ChatGLM-6B在对话逻辑方面的改进也是显著的。传统聊天AI往往会给出不连贯或无关的回应，而ChatGLM-6B则能更好地理解上下文，并生成有逻辑性的回复。

开放性：ChatGLM-6B是一个开源项目，这意味着研究者和开发者可以自由地使用、修改和分发该模型。这有助于推动聊天AI领域的发展和创新。

人类意图对齐训练：使用了监督微调（Supervised Fine-Tuning）、反馈自助（Feedback Bootstrap）、人类反馈强化学习（Reinforcement Learning from Human Feedback）等方式，使模型初具理解人类指令意图的能力。输出格式为 markdown，方便展示。

充分的中英双语预训练：ChatGLM-6B 在 1:1 比例的中英语料上训练了 1T 的 token 量，兼具双语能力。

优化的模型架构和大小：吸取 GLM-130B 训练经验，修正了二维 RoPE 位置编码实现，使用传统FFN结构。6B（62亿）的参数大小，也使得研究者和个人开发者自己微调和部署 ChatGLM-6B 成为可能。

本次实测使用的版本包括ChatGLM-6B FP16、chatglm-6b-int4和chatglm-6b-int8。

SOTA！模型项目详情页

https://sota.jiqizhixin.com/project/chatglm

Github 项目代码仓库

https://github.com/THUDM/ChatGLM-6B

Panda 项目

Panda是新加坡南洋理工的研究团队以LLaMA为基础模型，采用了两阶段训练方法开发的中文大语言模型。Panda LLM网络基于Transformer架构。利用各种改进来增强模型，包括预归一化、SwiGLU激活函数和旋转嵌入等。

为了让Panda LLM在中文数据集上获得强大的性能，作者使用了强大的指令微调instruction-tuning技术，将LLaMA基础模型在五个开源的中文数据集进行混合训练，其中包括来自各种语言领域的1530万个样本，例如维基百科语料，新闻语料，百科问答语料，社区问答语料和翻译语料。

本项目亮点：

本项目采用了两阶段训练方法：首先在五大中文语料进行训练微调，其次在少量且多样的数据上进行指令微调。该训练方法取得了非常棒的结果，并超越了以往所有可用的具有相同参数数量的中文开源大型语言模型。

本项目首次对各种中文开源大型语言模型进行了比较评估。

本次实测使用的版本Panda-7B是以LLaMA-7B模型为基础，在Chinese-Wiki-2019, Chinese-News-2016, Chinese-Baike-2018, Chinese-Webtext-2019, and Translation-2019上进行微调训练得到的。

SOTA！模型项目详情页

https://sota.jiqizhixin.com/project/panda-4

Github 项目代码仓库

https://github.com/dandelionsllm/pandallm

白泽 Baize 项目

来自加州大学圣迭戈分校、中山大学和微软亚研的研究者提出了「白泽」。白泽目前包括四种英语模型：白泽 -7B、13B 和 30B（通用对话模型），以及一个垂直领域的白泽 - 医疗模型，供研究 / 非商业用途使用，并计划在未来发布中文的白泽模型。白泽的数据处理、训练模型、Demo 等全部代码已经开源。目前，「白泽」支持 20 种语言，对于英语以外的内容质量有限，继承了 LLaMA 的知识，可能会出现幻觉，或用过时知识进行回答。

项目亮点

作者采用了有效利用计算资源的参数高效调优方法。该策略使最先进的语言模型保持了高性能和适应性。白泽改进了开源大型语言模型 LLaMA，通过使用新生成的聊天语料库对 LLaMA 进行微调，该模型在单个 GPU 上运行，使其可供更广泛的研究人员使用。

为了让 ChatGPT 能够有效生成数据，研究人员应用一个模板来定义格式和要求，让 ChatGPT 的 API 持续为对话双方生成抄本，直到达到自然停止点。对话以「种子」为中心，「种子」可以是一个问题，也可以是设置聊天主题的关键短语。通过这样的方法，研究人员分别收集了 5 万条左右 Quora、StackOverflow（编程问答）和 MedQA（医学问答）的高质量问答语料，并已经全部开源。

本次实测使用的版本包括Baize-7B、Baize-13B、BaizeV2-7B以及BaizeV2-13B。

SOTA！模型项目详情页

https://sota.jiqizhixin.com/project/baize

Github 项目代码仓库

https://github.com/project-baize/baize

中文社区版羊驼项目

经典的LLaMA模型是Meta（Facebook）开源的大模型，有很多不同的尺寸，13B及以上的模型达到了匹敌和超过GPT3的能力，但是不能chat。

通过询问chatGPT，使用178个问题生成62k标准数据训练后，使得LLaMA具备了对话功能--Alpaca。在此之后利用LoRA，使用葡萄牙语训练具有对话功能的LLaMA，来获取跨语言的能力，得到了Alpaca模型。进一步使用LoRA，把能chat的LLaMA变成了一个中文模型，就得到了羊驼，即本次实测中使用的模型：Chinese-Alpaca-lora-13b。

具体来说，在获得预训练的中文LLaMA模型后，按照Alpaca中使用的方法，应用自我训练的微调来训练指令跟随模型。每个例子由一条指令和一个输出组成。将指令输入模型，并提示模型自动生成输出。此外，使用LORA进行参数有效的微调，通过在MLP层添加LoRA适配器来增加可训练参数的数量。

项目亮点：

通过在原有的LLaMA词汇中增加20,000个中文符号来提高中文编码和解码的效率，并提高LLaMA的中文理解能力。

采用低秩适应（LoRA）的方法来有效地训练和部署中国的LLaMA和Alpaca模型，使研究人员能够在不产生过多计算成本的情况下使用这些模型。

SOTA！模型项目详情页

https://sota.jiqizhixin.com/project/chinese-llama-alpaca-2

Github 项目代码仓库

https://github.com/ymcui/Chinese-LLaMA-Alpaca

MOSS 项目

MOSS是复旦大学自然语言处理实验室发布的国内第一个对话式大型语言模型。MOSS可执行对话生成、编程、事实问答等一系列任务，打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径。

MOSS 是一个支持中英双语和多种插件的开源对话语言模型，moss-moon 系列模型具有 160 亿参数，在 FP16 精度下可在单张 A100 / A800 或两张 3090 显卡运行，在 INT4/8 精度下可在单张 3090 显卡运行。MOSS 基座语言模型在约七千亿中英文以及代码单词上预训练得到，后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。

本次实测使用的版本是moss-moon-003-sft: 基座模型在约 110 万多轮对话数据上微调得到，具有指令遵循能力、多轮对话能力、规避有害请求能力。

SOTA！模型项目详情页

https://sota.jiqizhixin.com/project/moss

Github 项目代码仓库

https://github.com/OpenLMLab/MOSS

网页端访问：在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ，即可前往「SOTA！模型」平台，查看关注的模型是否有新资源收录。

移动端访问：在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」，关注 SOTA！模型服务号，即可通过服务号底部菜单栏使用平台功能，更有最新AI技术、开发资源及社区动态定期推送。