继国家数据局等17部门联合印发《“数据要素x”三年行动计划(2024-2026年)》之后,中央面向公共数据开发利用的首个顶层设计文件《关于加快公共数据资源开发利用的意见》公布,构建公共数据资源开发利用“1+3”政策规则体系。南都大数据研究院策划推出“乘数而上”系列报道,继关注公共数据授权运营以及广东创新实践之后,本期通过三篇深度调研报道,聚焦高质量中文语料数据产品供给等AI语料新生态,以期更好赋能AI 产业创新发展。第二篇我们聚焦语料联盟与语料库建设,为AI中文语料破局支招。
“当前全球通用的50亿大模型数据训练集中,国内语料数据文本量仅占全球的1.3%”,国内AI大模型激战正酣,却可能面临高质量中文语料短缺的困局。如何破解?“语料机构”“语料联盟”“算料联盟”等越来越扮演着关键角色。数据交易所、研究机构、数据商、大模型企业等多元主体抱团聚力,通过组建大模型语料数据联盟,持续发布高质量训练数据集,共同推动高水平语料数据要素建设。
语料或算料数据联盟开始涌现
阿里研究院发布的《大模型训练数据白皮书》显示,全球网站英文内容占比高达59.8%,中文仅占1.3%,互联网上中、英文语料占比存在显著差异。
为应对AI大模型发展对高质量、大规模、安全可信语料数据资源的需求,上海人工智能实验室、国家气象中心等单位在2023世界人工智能大会上,联合发起成立全国首个大模型语料数据联盟,即中国大模型语料数据联盟。南都大数据研究院注意到,这正是落实《上海市推动人工智能大模型创新发展若干措施(2023-2025年)》中提出“语料数据资源共建共享,组建大模型语料数据联盟”的目标要求。
在上海市经信委推进下,上海人工智能实验室携同电信、商汤等人工智能领军企业共同出资,注册成立全国首家人工智能语料公司——上海库帕思科技有限公司。对此,库帕思董事长山栋明接受媒体采访时坦言,希望为全国人工智能企业提供“1+N”式的语料服务,即“1”为公共的核心语料,包括世界知识体系、价值对齐体系;“N”为面向垂直应用领域等的专业语料。
在上海市人工智能社会治理协同创新中心、上海交通大学清源研究院研究员刘志毅看来,语料联盟代表数据协同共享实践创新。无论是欧美的商业联盟还是中国的混合所有制探索,都在尝试解决“数据孤岛”问题。语料联盟模式的核心在于通过制度设计平衡各方利益,实现数据有序流动。这些需要在技术层面建立统一的数据标准与质量规范,在治理层面设计合理的激励机制,特别是要解决数据产权确权、收益分配等关键问题,上海的探索为全球AI治理提供了有益参考。
无独有偶。2023年7月25日,深圳数据交易所联合深译科技、华为、华傲科技等语料与人工智能优质厂商构建“开放算料联盟”,被称为国内在释放数据要素价值、培育生成式人工智能产业、助推数字经济高质量发展路上的一个筑基之举。开放算料联盟围绕高质量中文训练数据、多模态训练数据,联合成员中的数据标准相关机构,协调数据要素、数据治理、训练数据、数据标注、合成数据等相关团体标准及其他标准的制定,协助数据交易所增加大模型技术相关新品类、新专区,探索起草多模态算料数据分类体系,逐类完善多模态算料数据集等。
南都大数据研究院了解到,开放算料联盟通过开闭源方式打造全链条一站式服务体系,已联合发布由46家不同数据商提供的首批超过1500个人工智能大模型高质量训练数据集,涵盖12个数据要素×领域,3家境外数据商,7类数据模态,包括文本、图像、音频、视频、3D、GIS等多种模态数据,其中大部分算料为全国首发。
构建语料库或平台打造语料枢纽
国内语料库目前还存在数据不完整、标注不一致、数据重复、数据更新等问题。南都大数据研究院注意到,很多行业企业、研究机构已布局语料库或相关平台建设,发布大模型高质量数据集。在2023中国算力大会上,中译语通科技股份有限公司副总裁张晓丹发布“西部AI语料库与大模型”。西部AI语料库由100多种语言、PB级多语言多模态高质量数据、“一带一路”沿线国家与地区的近80亿句对的高质量平行语料以及百亿级知识三元组条目构成,覆盖新闻、农业、水利、科技、金融、工业等领域,旨在支持面向西部地区与周边国家和地区应用的多语言自然语言处理和多模态大模型训练。
此外,首批“北京市人工智能大模型高质量数据集”在2023全球数字经济大会上发布,10家单位18个高质量训练数据集入选,包括人民日报语料数据集、国家法律法规语料数据集,两会参政议政建言数据集、“科情头条”全球科技动态数据集,中国科学引文数据库数据集、科技文献挖掘语义标注数据集等,涵盖经济、政治、文化、社会、生态等不同领域,总规模超过500T。之后,第二批北京市人工智能大模型高质量数据集发布,包括16家单位41个数据集,涉及医学、生物、农业、金融、政务、互联网、智慧城市、自动驾驶、科技服务、商业分析、产业研究、市场营销等多个领域,数据总量规模约112TB(数据储存单位),为通用大模型和行业大模型训练及应用落地提供坚实有力的保障。
2024世界人工智能大会语料主题论坛发布的“语料运营平台1.0”,提出打造世界一流的语料枢纽,实现更高效率、更高质量的语料供给。更为重要的是,推出《语料库建设导则》,不仅代表行业对高标准语料库需求的积极响应,也标志着人工智能领域将迎来更高质量的数据支持、更广阔的发展前景,开启高质量语料数据的新纪元。据了解,语料运营平台实现面向语料数据“采、洗、标、测、用”五位一体的工具链能力。用户可以通过平台进行语料上传、存储、搜索以及共享,提高语料使用效率。
建设高质量语料库是大模型产业链的关键环节,大模型语料数据的多元供给需要多方协力、共同推进。去年在发表主题为《建设高质量语料库推动大模型产业发展》的演讲时,上海数据交易所相关负责人提到上数所语料库建设以多场景应用为导向,构建特色标签化服务体系,兼顾开源共享和商业化需求,引领语料数据流通模式创新,同时建设国内首个数据交易链,保障安全可信的数据流通环境,并启动生态创新合作伙伴计划,通过与语料数据生态企业交流合作,丰富高质量数据供给,共同助推大模型技术高质量发展。
AI语料数据国际化标准化将成趋势
谈及国内AI语料发展趋势,深译信息科技(珠海)有限公司创始人林余楚告诉南都记者,人工智能普及和数据供应商快速发展,海量语料数据为AI语料库构建提供丰富资源。但包括数据的准确性、一致性、标注准确性等数据质量参差不齐,数据隐私、合规性问题突显,医疗、法律、小语种等专业领域高质量语料数据相对缺乏。随着AI技术发展,对高质量、高精度语料数据需求日益增加。数据标注和处理技术不断进步,自动化标注、半监督学习、数据生成等技术的发展将提高语料数据处理的效率和质量。随着隐私保护意识的增强,匿名化处理、差分隐私等技术将被更广泛地应用于语料数据的处理。全球化的发展,AI语料数据的国际化、标准化将成为趋势,AI语料会以行业大模型进行仿真、合成生产为主,专业人工为辅,为具身智能时代提供高价值的数据,因此有数据能力基础的AI企业在行业竞争中会更有优势,“我们就是要致力于做中国版Scale AI”。
尽管语料库在AI发展中扮演重要角色,但存在诸多挑战与难题,比如数据隐私问题,语料库通常包含大量个人与社会信息,处理不当就会导致隐私泄露。语料的选择与处理还可能引入偏见,导致AI模型产生不公平或歧视性。构建与使用语料库时遵循严格伦理标准与法律规范事关重要。
2023年11月26日,上海人工智能实验室就联合人民网等机构,共同发起成立中国大模型语料数据联盟安全治理专委会,旨在推动大模型数据安全治理与隐私保护,为大模型技术快速发展提供数据安全保障。
对此,刘志毅告诉南都记者,目前全球主流大模型以英文语料为主,中文大模型在语言理解深度、知识广度等方面存在提升空间。如何构建具有中文特色的高质量训练数据体系?需要思考几个方面问题:首先是数据的多样性,中文语料不仅包括文本,还应涵盖多模态数据,特别是具有中华文化特色的知识图谱;其次是数据的时效性,需要确保语料持续更新,对提升模型对当代中文语境的理解至关重要;最后是数据质量的标准化,需要建立科学评估体系,为中文大模型打造更优质的“训练场”。数据基础设施的建设,对推动中文AI技术进步具有深远影响,期待各地探索创新机制切实提升中文语料供给质量,为AI技术的本土化发展提供有力支撑。