引言 训练数据中中文语料的价值、困境与对策
数据、算法和算力是发展人工智能的三大基本要素。
生成式人工智能的蓬勃发展中,正如养分对于植物生长的至关重要,训练数据为AI训练提供了必要的数据基础,训练数据的重要性日益凸显。顶层设计上,《生成式人工智能服务管理暂行办法》对生成式人工智能技术给予明确的支持,明确推动生成式人工智能基础设施和公共训练数据资源平台建设,推动公共数据分类分级有序开放,扩展高质量的公共训练数据资源。
然而,尽管有制度文件的推动,以通用语料库为代表的训练数据稀缺仍然是制约国内生成式人工智能通用大模型发展的一大挑战。据相关人士介绍,当前,全球通用的大模型数据训练集中,中文语料的占比仅为1.3%,高质量中文语料更是稀缺。1这一现状凸显了构建通用大模型中文数据语料库、提高训练数据质量、扩大数据提供规模的紧迫性和重要性。此外,专业语料库的稀缺性同样值得关注。在特定领域,如医疗、法律等,对精准、高质量的数据需求更为迫切,专业语料库的建设对于满足这些需求至关重要。
为了应对如上挑战,专家学者提出了一系列解决策略。包括:建议国家数据局牵头制定政策鼓励相关主体有序开发数据资源、促进资源共享和技术合作,增强数据持有方的数据提供意愿;构建数据提供方的安全港、增加公共数据资源的供给等等。其中,支持语料库数据产品在数据交易场所挂牌交易,亦是解决上述问题的途径之一。
因此,本文在当前的法律框架下,立足训练数据的收集、处理和使用,重点探讨语料库数据产品的法律合规评估要点。
一、语料库训练数据产品基本情况
(一)训练数据及语料库训练数据
训练数据是所有直接作为模型训练输入的数据,包括预训练、优化训练过程中的输入数据。2根据大模型所需要的能力,训练数据类型包括文本数据、图像数据、音频数据等。其中,语料库是按照一定采样标准采集而来的、能够代表语言的电子文本集合,是文本数据的重要载体。根据加工程度语料库可以分为:1、生语料库,未经任何处理的原始文本集合;2、粗加工语料库,进行过基本清洗和格式化的文本集合;3、精加工语料库,进行了深入的语言处理,如词性标注、句法分析等。
鉴于人工智能仍为新兴事物,就训练数据的主要监管规范目前为2023年7月10日经国家互联网信息办公室、国家发展和改革委员会、教育部、科学技术部、工业和信息化部、公安部、国家广播电视总局等七部门同意、颁布的《生成式人工智能服务管理暂行办法》,其中第七条规定就训练数据处理活动,应使用具有合法来源的数据、不得侵害他人知识产权、涉及个人信息等内容作出具体规定。3
因此,本文围绕该规章规定,就训练数据产品合规相关问题、结合实务操作进行具体阐述。
(二)场内语料库训练数据产品情况
就笔者检索范围内的语料库数据产品,目前各数交所语料库数据产品较少,总体上可以简单分为两类:
第一类,以对语料库数据具有较为清晰权利基础的主体,主要为出版社、事业单位、国有企业等主体。
如北京国际大数据交易所挂牌登记的“专业百科全书语料”数据产品,该产品用于人工智能语料训练,根据其产品介绍,该产品语料内容包括《中国大百科全书》《中国军事百科全书》及近百种地方百科全书和行业百科全书在内的上千万的知识点、近百万的专业百科条目内容,以及中国社会科学词条库、各类字词典、学生论文、科普文章等专业知识内容。4该产品挂牌方为北京百科在线网络出版有限公司,为中国大百科全书出版社有限公司控股企业。
又如上海数据交易所挂牌登记的“法源司法知识语料”,该产品涵盖法律问答、法条背诵、裁判说理、案情总结等14种司法行业专用语料,可用于提升大模型司法方面的能力,该产品供方为中国司法大数据研究院有限公司。5
第二类,以开发数据产品为目的的企业,数量相对较少。如深圳数据交易所挂牌登记的“智译——多语种平行语料库”,该产品于2024年6月挂牌,根据其产品介绍,该产品根据企业不同的语料需求,提供医学、工程、法律专利、军事安全等领域的专业级、标准级及专家级的多语种平行语料数据。6
(三)语料库等训练数据产品的合规评估落脚点
在大模型的开发、服务过程中,数据按前后阶段至少包括模型训练阶段使用的训练数据,以及模型使用阶段的输入数据和输出数据。
不同阶段的数据面对的法律问题具有一定差异——
(1)训练数据
模型训练阶段使用的原始训练数据,由于其直接来源于数据主体,因此相关权益一般归属于数据主体,其他主体收集、加工该数据形成训练数据产品的,应就取得具有授权同意等合法权利基础。合法来源数据经过收集、清洗、标注等一系列筛选处理,这一过程中,开发者对数据集的加工和优化,使其成为模型学习的基础,因此,开发者对其拥有相应的权益。
训练数据的来源、内容安全和标注安全是否符合数据、知识产权、人格权等相关法律、监管规定,是本文后续着重阐释的内容。
(2)生成式人工智能输入信息和输出数据再作为训练数据
1、未禁止再利用以优化模型
鉴于部分训练数据亦会使用软件问答数据作为原始数据,虽然不同的软件问答数据需结合软件类型具体分析,但就生成式人工智能的问答数据——输入信息与使用记录,亦应注意相关监管规定。
《生成式人工智能服务管理暂行办法》第十一条规定:提供者对使用者的输入信息和使用记录应当依法履行保护义务,不得收集非必要个人信息,不得非法留存能够识别使用者身份的输入信息和使用记录,不得非法向他人提供使用者的输入信息和使用记录。
上述规定并未明确禁止服务提供者存储和利用使用者在使用过程中输入的信息及使用记录,而是规定服务提供者在符合合法、必要情况下可以进行收集、存储和利用,可以理解服务提供者可以利用输入该数据优化模型。
同时,输出数据还涉及到人工智能生成内容(AIGC)是否可构成作品、利益权属如何分配,以及可能的知识产权、责任归属等问题,其法律属性界定存在争议,实务界对此问题所持观点亦不统一。
但即便输出数据不构成作品、不触及著作权权属认定与利益分配问题,人工智能输出信息亦应至少构成使用者的使用记录,服务提供者仍需依照《生成式人工智能服务管理暂行办法》第九条“提供者应当与注册其服务的生成式人工智能服务使用者签订服务协议,明确双方权利义务”的规定,在服务协议中明确权利基础、利益归属、责任分配等基本权利义务关系。如Kimi模型服务协议7——
就“输入信息和输出数据”用于优化训练,约定“为不断改善Kimi智能助手的服务质量,Kimi智能助手可能使用您输入Kimi智能助手的和Kimi智能助手向您输出的内容进行进一步的开发训练。您完全理解并接受该种使用,并不因该种使用而向Kimi智能助手主张权利或主张Kimi智能助手侵犯您的权益”;
就生成内容的知识产权,约定“您输入 Kimi 智能助手的任何内容的版权均仅归原作者所有,若作者有版权声明或原作从其他网站转载而附带有原版权声明者,其版权归属以附带声明为准。”
温馨提示
本文内容由焦光宇律师、周闻君律师起草、撰写,仅为提供信息之目的制作,不应视为广告、招揽或法律意见。读者在就自身案件获得相关法域内执业律师的法律意见之前,不要为任何目的依赖本文信息。上海至合律师事务所及署名律师明确不承担因基于对本文任何形式的使用而产生的一切责任、损失或损害。
[1]观察者网,《全国政协委员张勤:推动人工智能赋能中华优秀传统文化传播》。同时,据张勤委员介绍:中国企业使用的语料中,由美西方主导的英文语料占绝大多数,如果我们训练的大模型持续用西方价值观数据、西方应用场景来训练中国大模型,中国式的认知将被湮没。以OpenAI的ChatGPT为例,它对于中国文化的理解非常有限。
https://m.guancha.cn/politics/2024_03_05_727292.shtml。
2024年3月15日。
[2]《生成式人工智能服务安全基本要求》(TC260-003)。
[3]《生成式人工智能服务安全基本要求》(TC260-003)及基于前述标准的、正在编制的《网络安全技术 生成式人工智能服务安全基本要求》(征求意见稿),为《生成式人工智能服务管理暂行办法》提供具体支撑,就相关安全要求进行细化。
[4]https://webs.bjidex.com/sys-bsc-home/#/bscConsole/tradingMarket/detail?id=2070。
[5]https://nidts.chinadep.com/ep-hall/spec?id=4810。
[6]见深圳数据交易所官网及
https://mp.weixin.qq.com/s/3kj0htI6bVceVAjGwQLd8Q。
[7]https://kimi.moonshot.cn/user/agreement/modelUse。
