“模型”刚刚，国内的自主智能体OmBot发布了

2023-07-07 21:05:05来源：机器之心Pro

今天，很高兴为大家分享来自机器之心Pro的刚刚，国内的自主智能体OmBot发布了，如果您对刚刚，国内的自主智能体OmBot发布了感兴趣，请往下看。

今年加入 OpenAI 的大牛、前特斯拉 AI 总监 Karpathy 在最近的一次开发者活动上表示：AI 智能体，代表了 AI 的一种未来！

不仅是他，全球 AI 领域的大佬和科技巨头对 AI 智能体的发展都表现出极大兴趣，并寄予厚望。

大语言模型的出现，无疑给 AI 智能体的发展带来了全新的想象力，因此尽管在众多 AI 智能体还未达到完全模拟人类智能的程度的情况下，仍然吸引了全球关注，因为它的出现意味着人类在未来实现通用人工智能的目标上迈出的重要一步。

这个在大模型技术与应用之上诞生的全新赛道，抢跑的人意味着能够拥有先发优势。

OmBot自主智能体的诞生

在今天的 2023 世界人工智能大会上，联汇科技发布了基于大模型能力的自主智能体（Auto AI Agent ）——OmBot 欧姆智能体，并针对典型场景需求，推出了首批应用。

OmBot 欧姆智能体横空出世的背后，是联汇科技技术团队的一次 “蓄谋已久”。

公司核心团队来自全球计算机殿堂 —— 卡内基梅隆大学，实验室对于自主化智能体的探索从 90 年代就已经开始。2014 年，联汇科技首席科学家赵天成攻读博士时，已经成功研发了全球第一个多模态智能体平台 DialPort，让不同高校的智能体（机器人）在一个平台汇集，并让他们一同协作帮助人类完成各种任务。

这些智能体的专业领域各不相同。

例如有些是帮助订餐厅，有些是帮你分析电影，有些是帮你处理文案等等。随着智能程度的不断增加，DialPort 汇集了超过 100 个智能体能力，为超过 100 篇学术研究项目提供了智能体的基础平台，更是影响了包括 AmazonAlexa 在内的众多目前已经成熟的交互智能体的设计思路。

那么，什么是自主智能体呢？

联汇科技给出了明确的回答 —— 智能体是能够感知环境、自主决策并且具备短期与长期记忆的计算机模型，它能够模仿人类大脑工作机制，根据任务目标，主动完成任务。

联汇自主智能体包含了认知、记忆、思考、行动四大核心能力，作为一种自动、自主的智能体，它以最简单的形式中在循环中运行，每次迭代时，它们都会生成自我导向的指令和操作。因此，它不依赖人类来指导命令，具备高度可扩展性。

自主智能体核心能力

认知是智能体获取环境信息的过程。将原始数据转化为计算机可以理解和处理的形式，而人类 80% 的信息输入来自于视觉。

记忆是智能体存储和提取信息的能力。包括短期记忆和长期记忆，前者用于存储临时的信息，后者用于存储更持久的知识和经验，并最终由记忆在决策和行动中发挥价值。

思考是智能体对感知和记忆进行分析、推理和决策的过程。使用各种算法和技术来处理感知数据和记忆信息，以生成合理的决策和行动计划。其中，语言是我们思考的核心逻辑。

行动是智能体基于感知、记忆和思考结果采取的具体行为。包括控制机制和执行器，用于将决策转化为实际的物理行动或其他形式的输出。

第一批自主智能体是什么

当自主智能体具备了以上 4 类核心能力后，自然而然面向不同行业、不同需求、不同场景的第一批智能体应运而生 —— 视频小欧、文档小欧和 AIGC 小欧。

是的，联汇首次推出的自主智能体并不止一个，而是一批。

他们能做什么呢？

视频小欧可以成为新零售场景中的智慧店长。通过与摄像头视觉信息结合，利用欧姆大模型智能识别店内发生的一切，形成机器人记忆，并自主决策提示交互信息。自主关注店内值得关注的事件，在必要时进行提示。通过与机器人对话交互，用户可以随时询问店内发生过的一切，协助店铺的管理运营。

文档小欧可以成为个人和企业的学习助理。面对电力、石油、医学等行业专业知识学习成本高、查询困难的痛点，文档问答机器人可以将专业知识有效集成到向量数据库，并存储记忆，形成专业机器人，通过多模态内容理解与内容生成，智能回复用户问题，并给出专业的回答。

AIGC 小欧可以成为媒体、文化、游戏等行业的剪辑助手。通过 AIGC 实现媒体视频素材的一键成片，针对视频主题，语言模块完成视频内容文案生成，随后拆分为更加细节的视频镜头描述，依托语言理解能力，对素材库视频进行搜索、剪辑和生成，最终大幅降低视频制作门槛。

现场，联汇科技行嗨发布了基于 OmBot 欧姆智能体与大模型技术的行业级智慧文旅底座，为文旅全行业提供包含元宇宙、AIGC、智慧助手等典型场景快速赋能。

面向行业、企业、个人等不同主体千变万化的需求，OmBot 欧姆智能体将通过高效调教，实现个性化智能体的快速生成与进化，未来的自主智能体，不是一个，也不是一批，而是 “人均” 单位下的应有尽有。

自主智能体会像孙悟空的分身猴毛，有需要就可以快速的实现。

欧姆大模型 3.0 来了！

仔细体验首批自主智能体，不难发现，在应用过程中，认知与思考是自主智能体核心能力的核心。

对于认知与思考的解决方案，联汇依赖的是背后的多模态大模型。

早在 2019 年，联汇科技就与 OpenAI CLIP 模型同期推出了欧姆模型 1.0，实现跨模态搜索，随后的欧姆大模型 2.0，聚焦开放目标识别，实现了从图文检索的到目标理解的跃迁。

目前，联汇科技正式推出欧姆大模型 3.0，直指行业性能最强、真正落地应用的大模型。

这次的欧姆大模型 3.0 实现了哪些飞跃呢？

开放识别方面，欧姆大模型支持对视觉图像、视频进行标签全开放识别。预训练中已经包含了数十亿的高质量图文匹配数据，包含大量的环境背景，目标类型，目标属性与行为特征，叠加全图细粒度级别的理解，图文的语义匹配，图文问答等多任务的训练，使欧姆大模型 3.0 具备了能力涌现的保障。

欧姆大模型 3.0 不再局限于固定的目标类型清单，而是通过语义理解去理解视觉中的任意目标，甚至是描述的方式去定义目标。

视觉问答方面，构建了私有的十亿级媒体数据和物联网数据，包括无人机视角，监控视角等，通过多任务训练，欧姆大模型 3.0 将包括自然语言解析、逻辑推理、图像理解以及自然语言生成等 AI 能力进行深度融合。将视觉模型和语言模型进行细粒度的对齐，让其可以理解人类指令，并合理作答。

另外，欧姆大模型可以在针对图片进行问答之后进行多轮对话推理，并扩充视觉之外的信息。

认知推理方面，通过不断提升欧模大模型的内容理解与多模态的语义对齐的能力，结合语言模型的能力，欧模大模型能够做到基于视觉认知的推理，并由此支撑智能体所需要的认知与推理能力。

例如，看到儿童摔倒，模型可以推理要立即检查儿童有没有受伤。看到有小孩在窗边，模型可以提醒要注意儿童的安全。看到瓶子破裂饮料打翻，模型可以提醒马上清理防止有人滑倒。

在开放识别、视觉问答的基础上，认知推理的能力能够赋能智能体从被动的识别转为主动推理，进行思考与决策，并提出相应的智能解决方案。

高效微调方面，针对传统全参数微调消耗大量 GPU 计算与存储资源的情况，联汇从模型训练和模型推理两方面入手，使得欧姆大模型能够好用、易用。

在模型训练上，联汇自主设计 PEFT 羽量微调技术，与标准全参数微调相比，仅微调模型参数的一小部分，训练参数量小于 1%，在大幅降低计算和存储成本的同时，实现媲美全参数微调的性能表现。这样的做法能够真实降低大模型的微调训练门槛，快速适配用户长尾场景的训练需求。

在模型推理上，联汇推出针对多模态大模型的推理运行系统 ——Hydra 九头蛇部署架构，通过多卡集群部署蛇身，由多个公用的底座模型组成，而各个算法任务只需要部署羽量级的蛇头模型，实现 MaaS 架构。在推理时，蛇头模型可与任意公用蛇身模型结合产生识别结果，且新增算法任务只需增加羽量级蛇头模型。从而实现了 GPU 集群资源的高效利用，并突破算法任务部署显存资源的上限。