“人工智能”王春晖:《生成式人工智能服务管理暂行办法》的核心要义是什么?

2023-07-21 21:05:12来源:通信世界

今天,很高兴为大家分享来自通信世界的王春晖:《生成式人工智能服务管理暂行办法》的核心要义是什么?,如果您对王春晖:《生成式人工智能服务管理暂行办法》的核心要义是什么?感兴趣,请往下看。

近日,国家网信办联合国家发展改革委、教育部、科技部、工信部、公安部、国家广电总局发布了《生成式人工智能服务管理暂行办法》(以下简称《办法》),自2023年8月15日起施行。《办法》共24条,内容包括总则、技术发展与治理、服务规范、监督检查和法律责任等。笔者认为《办法》的核心要义是:倡导生成式人工智能健康发展和规范应用并举的价值取向,重点围绕生成式人工智能的技术发展与治理路径进行了规制。

规范应用与健康发展

从《办法》第一条的立法目的看,我国对生成式人工智能的发展采取健康发展和规范应用并举的价值导向。其中规范应用是健康发展的前提,健康发展是规范应用的保障,两者相辅相成,缺一不可。《办法》的上位法例举了四部重要法律,即《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》和《中华人民共和国科学技术进步法》。实际上《办法》就是为落实这四部法律有关规定而制定的,前两部法律主要是维护网络安全和规范数据处理行为,《中华人民共和国个人信息保护法》的核心是“规范个人信息处理活动”。可见,《办法》的核心内容是“规范”应用。《中华人民共和国科学技术进步法》重点在于促进科技成果向现实生产力转化,推动科技创新支撑和引领经济社会发展。

《办法》提出,国家坚持发展和安全并重、促进创新和依法治理相结合的原则,采取有效措施鼓励生成式人工智能创新发展,对生成式人工智能服务实行包容审慎和分类分级监管。“包容”,就是对那些未知大于已知的新业态采取包容态度,前提是它不触碰安全底线。“审慎”有两层含义:一是当新业态刚出现还看不准的时候,不要一上来就“管死”,而要给它一个“观察期”,让“子弹”飞一会;二是严守安全底线,对于国家法律、行政法规禁止的内容,不管是传统业态还是新兴业态,都要采取严厉监管措施,坚决依法打击。

生成式人工智能技术的发展定位

生成式人工智能主要是基于算法、模型、规则,利用现有文本、图像、代码、音视频文件生成和创建新内容的技术。随着生成式AI技术的不断创新迭代,社会需求也将持续增长。从技术发展层面看,《办法》提出了四项鼓励和推动生成式人工智能发展的措施。

一是鼓励生成式人工智能技术在各行业、各领域的创新应用,生成积极健康、向上向善的优质内容,探索优化应用场景,构建应用生态体系。事实上,生成式人工智能正在以前所未有的速度改变着各行各业的发展,从药物设计、材料科学、芯片设计到合成数据,生成式人工智能的应用正在不断拓展和深化。

二是支持行业组织、企业、教育和科研机构、公共文化机构、有关专业机构等在四个方面开展协作,即生成式人工智能技术创新、数据资源建设、转化应用、风险防范等。生成式人工智能作为一项具有革命性的技术,正在改变着各行各业的生产方式和商业模式。然而,单一实体或机构的力量有限,要真正发挥生成式人工智能的潜力,需要构建针对生成式人工智能的合作与创新体系。特别是促进跨领域、跨国界的合作,共同推动生成式人工智能技术的研究、应用和发展。

三是鼓励生成式人工智能算法、框架、芯片及配套软件平台等基础技术的自主创新,平等互利开展国际交流与合作,参与生成式人工智能相关国际规则制定。《办法》强调,发展生成式人工智技术必须走自主创新的道路,特别是通过拥有生成式人工智能底层自主知识产权的独特的核心技术,实现生成式人工智能技术在各行业、各领域的创新应用,同时要积极开展国际交流与合作,在全球倡导生成式人工智能的发展必须将“以人为本”和“AI向善”作为基本准则,规范人工智能的发展方向。

四是提出推动生成式人工智能基础设施和公共训练数据资源平台建设。促进算力资源协同共享,提升算力资源利用效能。推动公共数据分类分级有序开放,扩展高质量的公共训练数据资源。鼓励采用安全可信的芯片、软件、工具、算力和数据资源。事实上,生成式人工智能背后的技术运行逻辑都是基于大模型和海量数据的持续训练,最重要的是依托强大的算力支撑。像ChatGPT这样的生成式人工智能不仅需要千亿级参数的大模型,还需要有庞大的算力基础,所以将来的大模型开发和市场的开拓一定是被寡头所垄断。对此,《办法》提出,要建设生成式人工智能基础设施和公共训练数据资源平台,促进算力资源协同共享,提升算力资源利用效能。

生成式人工智能的治理路径

从治理的层面看,《办法》要求,生成式人工智能服务提供者,必须依法开展预训练、优化训练等训练数据处理活动。一是要使用具有合法来源的数据和基础模型。生成式人工智能训练的数据主要来源于爬虫程序自动收集,也有一些数据由相关的机构提供,但无论采取何种方式获取数据,都必须保证数据来源的合法性。二是不得侵害他人依法享有的知识产权。以ChatGPT为例,它的训练数据主要来自于大量的公开文本资源,包括网站、书籍、论文等。尽管OpenAI在训练过程中对数据进行了筛选和处理,但模型中仍包含受版权保护的内容。三是涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形。《中华人民共和国个人信息保护法》确立了以“告知-知情-同意”为核心的个人信息处理规则,“告知”的目的是为了确保个人的充分“知情”,只有被告知者在充分知情的前提下才能自愿、明确地作出“同意”的决定。四是采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性。生成式人工智能的核心是训练数据的质量,必须保证训练数据的高质量,才能够重复训练。由此,如何获得高质量数据便成了生成式人工智能发展的核心问题。

在生成式人工智能研发过程中,离不开一项重要的工作,那就是“数据标注”,在训练自然语言处理模型时,需要使用大量的标注数据作为训练数据。这些标注数据包括语料库、文本、语音、图像等数据,需要进行标注或标签化,以便机器可以理解和利用这些数据。数据标注的质量和数量对生成式人工智能的性能和应用场景将产生重要影响。标注数据的质量越高,模型的性能和应用场景适应性就越好;标注数据的数量越多,模型的训练和性能优化就越充分。对此,《办法》第八条规定,在生成式人工智能技术研发过程中进行数据标注的,提供者应当制定符合该办法要求的清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升遵法守法意识,监督指导标注人员规范开展标注工作。

生成式人工智能服务的合规义务与伦理道德

《办法》就提供和使用生成式人工智能服务设置了五项合规义务。

一是坚持社会主义核心价值观,不得生成煽动颠覆国家政权、推翻社会主义制度,危害国家安全和利益、损害国家形象,煽动分裂国家、破坏国家统一和社会稳定,宣扬恐怖主义、极端主义,宣扬民族仇恨、民族歧视,传播暴力、淫秽色情,以及虚假有害信息等法律、行政法规禁止的内容;二是在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取有效措施防止产生民族、信仰、国别、地域、性别、年龄、职业、健康等的歧视;三是尊重知识产权、商业道德,保守商业秘密,不得利用算法、数据、平台等优势,实施垄断和不正当竞争行为;四是尊重他人合法权益,不得危害他人身心健康,不得侵害他人肖像权、名誉权、荣誉权、隐私权和个人信息权益;五是基于服务类型特点,采取有效措施,提升生成式人工智能服务的透明度,提高生成内容的准确性和可靠性。

笔者认为,生成式人工智能在其发展进程中面临的最大问题不是技术本身,而是技术伦理和法律问题。笔者在2023年4月向有关部门建议《生成式人工智能服务管理暂行办法(征求意见稿)》第四条中应当增加生成式人工智能相关伦理道德规范的规定。笔者高兴地看到,正式发布的《办法》在第四条中增加了“尊重社会公德和伦理道德”的规定。生成式人工智能的伦理是AI技术创新和科研活动中人与社会、人与自然以及人与人关系的思想与行为准则,它不只是涉及生成式人工智能科学研究的伦理,也不只是生成式人工智能科研人员要遵守的科技伦理,还包括生成式人工智能成果应用中的伦理。

*本文刊载于《通信世界》

总第924期 2023年7月25日 第14期

原文标题:《谈<生成式人工智能服务管理暂行办法>的核心要义》

好了,关于王春晖:《生成式人工智能服务管理暂行办法》的核心要义是什么?就讲到这。


返回科技金融网首页 >>

版权及免责声明:凡本网所属版权作品,转载时须获得授权并注明来源“科技金融网”,违者本网将保留追究其相关法律责任的权力。凡转载文章,不代表本网观点和立场,如有侵权,请联系我们删除。


相关文章