“多模”多模态AI技术「涌现」，AI公司的「新机会」

2023-04-19 15:05:44来源：雷锋网

今天，很高兴为大家分享来自雷锋网的多模态AI技术「涌现」，AI公司的「新机会」，如果您对多模态AI技术「涌现」，AI公司的「新机会」感兴趣，请往下看。

ChatGPT-4的横空出世，让AI行业再一次柳暗花明。

某AI企业人士如此评价GPT-4的进步：“GPT-3或3.5像一个六年级学生，而GPT-4像一个聪明的十年级学生。”

即将毕业的小学生与新晋高中生的思维差距，既体现在涉猎知识的广度上，也体现在独立思考的深度上。

GPT-4为代表的AI智力上的提升，直观表现为，从实现单调的文本交互，转变为可以接受图像、文本作为输入，并表现出更人性化的交互能力。

这种处理多种类型信息的能力，被称为“多模态”技术。

接下来，掌握了多模态AI技术秘钥的公司，将可以进一步拓展下游新兴领域，改变传统AI定制化的特点，向通用化方向发展。

整个产业也将在更加多样化的场景应用，以及产业链条的进一步集成融合中，迎来规模化的升级。

从简单的人脸识别、文字语音识别，上升到理解人的行为意图，像人一样懂得察言观色，以人类复杂性作为参考的人工智能与人类的差距之一，就是多模态信息的智能化理解。

如果说，人工智能的终极目的是让AI基于对环境的感知采取合理行动，从而帮助人类获得最大收益；那么，在更多复杂场景对 AI 技术的应用效果提出更高要求的当下，多模态俨然成为 AI 产业突围的重点方向。

AI的未来范式：多模态

多模态并非新概念，早在2018年，“多模态”作为AI未来的一个发展方向，已开始成为业界研究的重点。

什么叫“多模态”？

“模态”一词最早是一个生物学概念，以人类为例，触觉，听觉，视觉，嗅觉、味觉，都是一种模态。从人工智能和计算机视觉的角度来说，模态就是感官数据。

简单理解，多模态AI=多种数据类型+多种智能处理算法。

以往单模态、单任务的人工智能技术，局限于 AI 模型与数据之间的交互，通过让AI学习互联网上的海量文本、图片等不同模态的数据，寻找其内在规律，但在算力、数据资源的限制下，仅依赖互联网上数据学习很大可能会达到瓶颈。

多模态AI技术，为AI能力的提升，提供了一个解法，即让人工智能自主学习并不断迭代新的知识。

之所以能做到这一点，是因为多模态AI技术，是一种交互式的 AI 技术，突破了以往单一的模型与数据的交互，可以实现模型与模型、模型与人类、模型与环境等多种交互。

举例来说，现在很火的AIGC，可以通过文本生成图像甚至视频，就是多模态AI的一个典型应用。

但多模态AI的想象力，远不止于此。

从技术的创新上来看，模态不仅包括最常见的图像、文本、视频、音频数据，还包括无线电信息、光电传感器、压触传感器等更多可能性。

不同模态都有各自擅长的事情，这些数据之间的有效融合，不仅可以实现比单个模态更好的效果，还可以做到单个模态无法完成的事情。

多模态AI的设计和应用体现一个词：以人为中心。

当AI同时处理多个模态的数据时，其感知方式会更贴近人类，从而让机器更加全面、准确地理解人类的真实指令和意图，比如能够理解人类交流中细微差别的系统，具有高度关怀感和真实感的虚拟助手等，实现的是一种高度自然的人机交互和协同。

虽然AI在多模态方面取得了突破，但这种技术及其应用还不成熟，由多模态AI带来的产业规模升级，还面临重重阻碍。

多模态AI的两大挑战：技术、产业链

多模态AI探索的是人类行动和感知背后的关系，其蕴含的想象力与应用潜能毋庸置疑。

但围绕搜索和生成两项基本任务，多模态AI的训练还存在诸多难点，如多模态数据的收集、新的模型和架构的搭建、高效的数据融合等问题。

首先，多模态的数据收集、对齐和标注，复杂且不易完成。

一方面，优质的多模态数据规模还不够大；另一方面，在具体的业务场景中，很难同时满足所有的模态数据的收集。

共达地对雷峰网(公众号：雷峰网)表示：“视觉（图像/视频）和文本的数据可以根据语义描述来对齐，但需要经过精心的标注。同样，其它模态的对齐也面临类似的问题，需要考虑如何对齐。”

其次，不同模态具有不同的数据特性，多模态AI的训练，需要根据不同模态的特性，开发新的模型和架构。

构建统一、跨场景、多任务的多模态基础预训练模型，包含两个问题：

如何在统一的预训练模型中，处理视觉 (图片、视频、3D 图像) 三种模态的输入, 并将其映射到统一的特征空间的问题。

如何采用统一的模型和训练框架，分别训练文本、图像、语音的预训练模型的问题。

此外，开发能够大幅降低AI模型训练门槛，简化部署流程，让不具备AI专业知识的人员也能生产算法的平台也十分重要。

再者，让不同模态的数据有效融合以指导决策，也并非易事。

大模型中有非常多隐性的知识，对这些知识的优化、迭代是一大挑战。

多模态AI需要处理的数据和参数十分海量，如何利用并行计算和分布式计算等技术来提高计算效率，也是多模态人工智能技术需要解决的难点之一。

此外，中科摇橹船认为，“如何在多模态AI的下游任务中进行自监督学习也是一大难点。”

也就是说，如何通过构建自监督的任务，提高多模态模型的表征能力，缓解缺少大规模监督数据的挑战。

多模态AI最终是为了实现高质量的内容生成，背后需要参数规模巨大的模型以及海量数据集作为支撑。AIoT场景下，AI应用对于端云互动有着更强的需求。

这意味着，在硬件和芯片上，也提出了更高的要求。

硬件方面，由于要汇聚多种数据分析，行业对前端硬件种类和数量的需求会更大，如视觉、声音等不同模态的数据，都需要不同的设备去采集。

芯片方面，相比于单模态，多模态需要的是庞大的“人工智能算力网络”，单纯的语音芯片、视觉芯片等已很难满足多模态AI算法的需求。

云天励飞对雷峰网表示，从支持大规模并行计算的角度出发，芯片要能够同时处理多个任务和数据流，计算效率和本地存储能力需要进一步提升；从支持多模态AI长时间运行的角度出发，芯片还要能够维持较低的功耗，如通过提高单芯片计算能力，降低系统的复杂度和总成本。

目前，transformer是处理多模态比较常用的技术，共达地李思晋也认为，“当前的芯片，transformer的计算并不高效，如果没有专用的硬件，或者为transformer定制开发，其计算效率比其它模型结构可能慢一个数量级。”

AI公司如何寻找商业化的落脚点？

经过模型参数与数据规模的比拼阶段后，搭载在摄像头、边缘计算盒子、机器人等智能设备中的多模态AI正走向场景应用。

目前已知的是，多模态AI首先在计算机视觉和自然语言处理等领域获得验证。

OpenAI 的 DALL-E模型，可以从文本描述中生成对应图像；谷歌的多任务统一模型MUM，可以做到从 75 种不同语言中挖掘上下文信息来提高搜索体验；英伟达的GauGAN2 模型，可以根据简单的文本输入生成照片般逼真的图像。

多模态大模型时代，AI应用也正走向产业纵深处。

工业场景中，运用多模态的智能化管理系统，正在走进工厂和车间。

以中科摇橹船的AGV调度管理系统为例，通过将雷达图像处理、视觉图像处理等图像处理技术集成在同一产品中，可以轻松完成车辆、交通、调度、运行、叫料、通信、统计等管理工作。相比于人力，这种智能化的管理，更能满足当下制造业客户的柔性定制需求。

在城市治理场景中，多模态AI技术可以运用在巡检机器人上。当前的巡检机器人可以通过“眼睛”识别占道经营、垃圾桶满溢等问题，并对相关情况进行提醒，但大多没有“耳朵”。

相关研究表明，人类获取的信息中的25%，都是通过听觉实现的。对于巡检机器人来说，没有耳朵，意味着难以监测到环境中的异常响动。

云天励飞表示，未来将研发下一代高效多模信息感知引擎，在原有的视频结构化技术基础上结合三维场景信息、音频信息等其他模态信息，提升传感器信息流中语义和非语义信息的结构化密度，从而为相关产品及服务在更多应用场景的落地提供算法技术支持。

但客观来看，在视觉和听觉之外，能够商业化落地的多模态技术还很少，大多处于研究阶段。

多模态AI之路不好走，高度智能的人机交互道阻且长，主要表现为：

一、 AI 的理解和执行还不够可控、可信赖、可复制。

比如，多样化风险和AI偏见风险，当数据不具有广泛代表性时，算法就会出现偏差，偏差的不断被放大，（后果）

二、算法开发成本较高，产品不具性价比，市场和客户不愿意买单。

多模态AI的应用落地，需要大量专业的研究人员，包括算法架构师或AI开发者，也包括产业专家。而这两类专家关注点的相对独立，又往往进一步增加研发和落地过程中的成本。

此外，多模态AI的应用需要不同类型的数据、知识、产品等，其落地需要产业链整体加强协作和沟通，从核心的AI芯片，到物联网硬件，再到软件算法开发，时间周期长，需要协调各方利益。

三、业务场景较少，且业务场景的定义还不够清晰。

多模态AI产品和方案，需要根据实际需求针对性开发，什么场景需要使用哪几个模态，以及从成本和收益上来看，是否有商业价值，都需要进行前置考虑。

AI能力想要进入实体产业，尤其是工业属性相对较强的产业，需要从方方面面的复杂细节中进入，而答案都掌握在Know-How手中。

“与行业领域具备know-how的公司进行合作，降低场景验证的成本，是AI公司的机会点。”李思晋表示。

多模态技术是个硬骨头，更加类人的智能需要AI公司投入大量的研发；其背后需要的大模型和海量数据，同时对产业链上的硬件和芯片厂商提出了更高的要求；业务场景的探索尚处迷雾之中；市场的接受度也还不尽人意。

但从好的一面看，无论是最近大火的AIGC，还是在国内默默壮大的多模态人工智能产业联合体，都说明AI将不断朝着多模态方向发展，以更为广泛的感知能力，进一步向产业落地。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

好了，关于多模态AI技术「涌现」，AI公司的「新机会」就讲到这。

返回科技金融网首页 >>

版权及免责声明：凡本网所属版权作品，转载时须获得授权并注明来源“科技金融网”，违者本网将保留追究其相关法律责任的权力。凡转载文章，不代表本网观点和立场，如有侵权，请联系我们删除。

精彩推荐

“大桥”G3铜陵长江公铁大桥先导索过江

“某甲”父亲被羁押继母要离婚，未成年女儿谁来抚养？法官多方努

“亚马逊”哪些以色列芯片公司已被美国企业收购？

“装修”装修公司老板明知公司亏损仍吸引客户签合同，骗取上百人

“必胜客”必胜客最黑暗的料理来了

“运营商”运营商本周行业动态：电信年度优秀领导及上半年重点工

图文欣赏

“儿子”妈妈将50余万“读书钱”存儿子名下，19岁儿子取出转给女友，妈妈无奈起诉追回

“多模”多模态AI技术「涌现」，AI公司的「新机会」

相关文章

精彩推荐

最新文章

“在我”忆来只把旧书读

“科博会”芜湖科博会集中展示大国重器

“诗人”带着大海散步的人

“宁德”宁德时代三季报：业绩增速放缓、海

“新材料”信金控股完成新一期人民币基金首

“同比增长”失守3000点后，A股市场的危与

“商务部”商务部：达成共识！

“基金”又一家基金公司换董事长，年内公募

图文欣赏

“儿子”妈妈将50余万“读书钱”存儿子名

“说了”云朵的话语，心灵的方剂 ——

“科幻”和成都和教育，一起遇见未来！两

“红星”梁静茹南京演唱会再现“柱子票”

热门文章

密度旨在结束医院，无家可归者庇护所，咖啡

星期一的心态：2017年2月27日

“圆通”圆通速递：2022 年 12 月圆通快

“广州”“五一”假期首日 “破纪录”成热

“山西”智能网络科技共享数字生活——记

AI峰会2020：为共同的好的调节AI

“气溶胶”中国大气中液相二次有机气溶胶来

TSB在熔化开始时拒绝劳埃德的帮助