微信里点“发现”,扫一下
二维码便可将本文分享至朋友圈。
国家发展改革委等部门联合印发的《关于促进数据标注产业高质量发展的实施意见》(以下简称《实施意见》)13日公开发布。这意味着我国数据领域首份有关数据标注产业的文件出炉,整个数据标注产业将迎来加速期,年均复合增长率将超过20%。
值得关注的是,数据标注产业是对数据进行筛选、清洗、分类、注释、标记和质量检验等加工处理的新兴产业。培育壮大数据标注产业对于提升数据供给质量,推动人工智能创新发展具有重要支撑作用。
《实施意见》提出,着力壮大经营主体。培育一批数据标注龙头企业,鼓励通过资源整合、并购重组等方式做大做强,推动数据标注企业规模化、标准化、集约化发展。支持和鼓励科技创新型数据标注企业承担基础研究、技术攻关、产业应用等重点任务,提高产业链协同创新水平。培育一批深耕行业的数据标注瞪羚企业、独角兽企业。推动数据标注中小企业与人力资源、金融服务、合规咨询等第三方机构精准对接,助力企业快速发展。
4部门助力数据标注产业发展
《实施意见》由国家发展改革委、国家数据局、财政部、人力资源社会保障部等4部门联合印发,共6大部分13项具体任务。
《实施意见》提出,到2027年,数据标注产业专业化、智能化及科技创新能力显著提升,产业规模大幅跃升,年均复合增长率超过20%,培育一批具有影响力的科技型数据标注企业,打造一批产学研用联动的创新载体,建设一批成效明显、特色鲜明的数据标注基地,形成相对完善的数据标注产业生态。
在深化需求牵引方面,《实施意见》提出,其一要释放公共数据标注需求。即,深化人工智能在政务服务、城市治理、乡村振兴等领域应用,编制公共数据标注目录,依法依规有序推动公共数据标注与开发利用。支持公共数据赋能实体经济发展,在现代农业、智能制造、信息服务等重点领域发掘公共数据标注需求。支持跨部门、跨地区、跨层级公共数据融合应用,鼓励政府部门和企业协同开展政务大模型所需数据的标注和训练。推动数据标注服务纳入政府采购范畴。
其二要挖掘企业数据标注需求。即,支持数据要素赋能产业转型升级,深挖企业生产管理全流程数据标注需求。实施“国有企业数据效能提升行动”,加大企业数据开发利用,释放企业数据标注需求。加强交通、医疗、金融、科学、制造、农业等重点行业领域数据标注,建设行业高质量数据集,支撑人工智能在行业领域的应用赋能。围绕医疗健康、人力资源、数字贸易、自动驾驶、低空经济等场景,以业务创新拉动数据标注需求。
在增强创新驱动方面,《实施意见》提出,要开展关键技术攻关。具体包括:依托国家重点研发计划、国家科技重大专项等,加强跨领域跨模态语义对齐、4D标注、大模型标注等数据标注领域的关键技术攻关应用。支持多模态标注、标注审查、质量评估、基于思维链的专家标注等智能化工具研发。支持建设集数据、模型、工具、场景为一体的数据标注创新平台,推动数据标注技术融合创新。支持软硬一体、自主可控的数据标注领域关键设备研发。
另外,《实施意见》还提出,加大财税金融支持力度。落实研发费用加计扣除、高新技术企业税收优惠等政策。鼓励有条件的地方加大数据标注产业的支持力度。各地区各部门可结合实际,统筹安排数据产品和标注服务采购费用。充分利用各地发放的数据券、算法券和算力券等,降低数据标注企业成本。鼓励各类产业基金、专业投资机构加大数据标注产业投资力度,引导社会资本有序参与。
瞄向数据标注产业 多地已“抢跑”
在数据领域改革步伐加快的同时,各地也早有布局数据标注产业。
记者注意到,早在2024年5月,国家数据局曾发布承担数据标注基地建设任务的城市名单,分别是:四川省成都市、辽宁省沈阳市、安徽省合肥市、湖南省长沙市、海南省海口市、河北省保定市、山西省大同市。
以长沙为例,提出的目标是,未来两年建设城市级数据智能协同标注服务平台,在文化、金融、地理信息等7大优势领域建立行业高质量数据集,引进和培育数据标注企业30家以上、从业人员超3万人,推进数据相关产业产值达100亿元以上。
据了解,海口市与百度合作建设百度智能云(海口)人工智能基础数据标注基地,截至2024年5月,累计入驻本地数据标注企业9家,现场从业人员1000余人,年产值有望达5000万元以上。海口市表示,海口纳入国家试点后,将按任务安排先行先试,进一步集聚龙头企业,支撑人工智能产业生态发展。
另外,国家数据局2024年还推动24家数据交易机构发布互认互通倡议。倡议包括四方面内容,即数据交易机构将在未来一段时间内推进数据产品“一地上架,全国互认”、数据需求“一地提出,全国响应”、数据交易“一套标准,全国共通”、参与主体“一地注册,全国互信”。
“高质量数据的短缺,是一些大模型发展过程中遇到的瓶颈,数据标注正是对数据进行筛选、清洗、分类、标记等各种加工处理,能产生高质量的数据集,让机器读得懂、学得快、训得好。现在的一个新趋势是,数据标注自身的自动化、智能化程度也在明显提高,与此同时,细分领域变多,也需要金融、交通、能源、医疗等一些背景的专业人才,数据标注正在逐步从传统的劳动密集型向知识密集型产业转变。”清华大学计算社会科学与国家治理实验室执行主任孟庆国表示,在开展“人工智能+”行动大背景下,各个地方正在加快部署政务大模型,大模型在交通、气象、医疗等民生领域的应用会越来越多,基于公共数据的标注需求也会不断上升。