人工智能背后的数据标注产业被关注,国家层面首次对数据标注产业进行系统谋划。
1月13日,国家发展改革委、国家数据局、财政部、人力资源社会保障部联合印发《关于促进数据标注产业高质量发展的实施意见》(以下简称《实施意见》)。《实施意见》包括总体要求、主要任务、保障措施三个部分,其中主要任务共计13条,围绕深化需求牵引、增强创新驱动、繁荣产业生态、优化产业支撑四个方面提出相关政策举措。
《实施意见》提出到2027年,数据标注产业专业化、智能化及科技创新能力显著提升,产业规模大幅跃升,年均复合增长率超过20%,培育一批具有影响力的科技型数据标注企业,打造一批产学研用联动的创新载体,建设一批成效明显、特色鲜明的数据标注基地,形成相对完善的数据标注产业生态,构建创新要素聚集、产业链上下游联动、区域协同发展的新格局。
为数据标注产业提供全面指导
数据标注产业是对数据进行筛选、清洗、分类、注释、标记和质量检验等加工处理的新兴产业。培育壮大数据标注产业对于提升数据供给质量,推动人工智能创新发展具有重要支撑作用。
2020年2月,数据标注员作为人工智能训练师的一个工种,就已被正式纳入国家职业分类目录。2024年5月,国家数据局发布了承担数据标注基地建设任务的城市名单,四川成都、辽宁沈阳、安徽合肥、湖南长沙、海南海口、河北保定、山西大同等7个城市承接了数据标注基地建设任务书。
北京市社会科学院副研究员王鹏向澎湃新闻记者表示,随着人工智能技术的快速发展,数据标注产业作为人工智能训练和应用中的关键环节,迎来了前所未有的发展机遇。然而,当前数据标注行业也面临着行业标准缺乏、标注质量参差不齐、技术和人力资源需求不匹配等问题,制约了行业的健康发展。《实施意见》的出台为数据标注产业的高质量发展提供了全面的规划和指导。
经济学家余丰慧也提及上述因素,并指出数据标注产业的发展不仅在于促进数字经济的健康发展,推动人工智能等前沿技术的应用,同时可创造大量的就业岗位。
《实施意见》在深化需求牵引方面,给出了两个方向,一是释放公共数据标注需求,其中提及鼓励政府部门和企业协同开展政务大模型所需数据的标注和训练,推动数据标注服务纳入政府采购范畴。二是挖掘企业数据标注需求,其中提及,实施“国有企业数据效能提升行动”,加大企业数据开发利用,释放企业数据标注需求。围绕医疗健康、人力资源、数字贸易、自动驾驶、低空经济等场景,以业务创新拉动数据标注需求。
“《实施意见》强调了创新驱动在数据标注产业发展中的重要性,包括支持关键技术攻关、推动技术融合创新等,也对企业有一些优惠政策,包括研发费用加计扣除、高新技术企业税收优惠,旨在降低企业研发成本,鼓励企业加大研发投入。”王鹏说。
具体来看,《实施意见》在开展关键技术攻关中提到,依托国家重点研发计划、国家科技重大专项等,加强跨领域跨模态语义对齐、4D标注、大模型标注等数据标注领域的关键技术攻关应用。
在加大财税金融支持力度方面,《实施意见》明确,落实研发费用加计扣除、高新技术企业税收优惠等政策。鼓励有条件的地方加大数据标注产业的支持力度。各地区各部门可结合实际,统筹安排数据产品和标注服务采购费用。充分利用各地发放的数据券、算法券和算力券等,降低数据标注企业成本。鼓励各类产业基金、专业投资机构加大数据标注产业投资力度,引导社会资本有序参与。
在提升标注公共服务能力方面,《实施意见》表示,要建设数据标注公共服务平台,按照规范化接入和互联互通要求,打造全国数据标注公共服务“一张网”。
培育一批数据标注龙头企业
《实施意见》的发布,哪些企业可能受益?
对此,王鹏向澎湃新闻记者表示,一是数据标注企业,特别是具有技术优势和规模优势的企业,将受益于政策的支持和市场的扩大;二是人工智能企业,数据标注产业的高质量发展将为人工智能企业提供更高质量、更丰富的训练数据,有助于提升人工智能模型的准确性和效率;三是相关产业链企业,包括数据采集、处理、分析等环节的企业,将受益于数据标注产业的快速发展和产业链的完善。
值得关注的是,《实施意见》在培育繁荣生态方面,第六条提出着力壮大经营主体,培育一批数据标注龙头企业,鼓励通过资源整合、并购重组等方式做大做强,推动数据标注企业规模化、标准化、集约化发展。支持和鼓励科技创新型数据标注企业承担基础研究、技术攻关、产业应用等重点任务,提高产业链协同创新水平。培育一批深耕行业的数据标注瞪羚企业、独角兽企业。第七条提及,积极完善产业生态,畅通数据采集、标注、人工智能应用产业链,推动数据标注产业上下游协同发展。
人工智能数据标注产业上下游链条是怎样的?
2024年11月,中国信通院曾发布“人工智能数据标注产业图谱”,图谱收录了来自全国各地500余家深耕数据标注产业链上下游企业,覆盖超过16个行业领域。其中,上游是高质量数据集开发和治理,包括算法服务、技术服务、平台服务、交易服务、人力服务;中游是数据资源提供和应用,包括公共数据、行业企业数据、互联网数据;下游是能力支持与生态发展,包括人才培养、生态培育、数据安全、标注应用。
咨询公司Grand View Research的数据显示,2022年全球数据标注的市场价值为22.2亿美元,预计到2030年将增长到171亿美元。
澎湃新闻记者也曾探访国内头部互联网企业的人工智能基础数据产业基地,在基地一间间的办公室中,每个电脑前都坐着一名AI数据标注师,他们将根据各自分配的任务对图像、语音、视频、文本进行标注。AI数据标注师技术门槛并不高,经过一定的培训就能上岗,招工人群范围广泛,一些中专或高中学历的人员也可胜任这项工作。
《实施意见》也关注到标注人才队伍建设方面的工作,提出要以人才项目计划和科技项目等为抓手,培育和引进高端专业人才。制(修)定人工智能训练、数据标注相关职业国家职业标准。深化产学研融合,鼓励行业联盟、高校、科研院所与企业建立长期合作机制,加大数据标注实践项目、继续教育和公共实训基地建设合作力度。
据悉,下一步,国家发展改革委、国家数据局、财政部、人力资源社会保障部将强化数据标注产业顶层规划,协调解决产业发展过程中存在的重大问题。加强政策解读和案例征集等宣传推广,营造数据标注产业发展的良好氛围。