登 录 注 册 13250250078
您当前位置:首页 > 码上头条
我国数据标注产业的规模、技术创新和空间分布....
发码云
2025-03-30
549

近年来,我国数据标注产业呈现出“规模筑基,创新跃升”的发展格局,全国及地方层面的政策支持与人工智能行业的发展,不断推动着我国数据标注产业规模增长与技术创新,本文从产业规模、空间分布、产业关联、技术创新、制度建设等方面梳理了我们数据标注产业的发展现状,供大家参考。

作者夏飞  上海数据交易所高级研究员

PART.01
引言
近年来,我国数据标注产业呈现出“规模筑基,创新跃升”的发展格局,规模方面,截止2024年底,数据标注企业逾4000家,近20年产业规模增长率达11.3%;产业创新方面,数据标注相关专利授权增长率达77%,近4年专利授权量翻了10倍。产业空间布局方面,以北京为产业的核心增长极,沿海与中西部地区数据标注产业规模与创新能力不断壮大。全国及地方层面的政策支持与人工智能行业的发展,是我国数据标注产业规模与技术创新发展的核心驱动力。


数据标注产业作为人工智能发展的基石,已上升至国家战略层面。2024年12月,国家发展改革委联合国家数据局、财政部、人力资源社会保障部发布《关于促进数据标注产业高质量发展的实施意见》(下称意见),明确提出“到2027年产业规模年均复合增长率超20%”的发展目标,并系统性部署需求牵引、创新驱动、生态培育、支撑保障四大任务。


意见的出台不仅标志着我国数据标注产业进入规范化发展新阶段,更为行业迭代指明方向——从传统劳动力密集型标注向智能化、标准化、生态化跃迁。本报告基于工商企业数据、专利数据、全国各地政策文件等对我国数据标注产业作了初步分析,包括产业规模、空间分布、产业关联、技术创新、制度建设等,以揭示我国数据标注产业的典型事实,提出相关政策建议。 



PART.02
我国数据标注产业发展现状


(一)产业规模

图1 2005-2024数据标注企业数量


2024年底,我国数据标注企业数量逾4000家,年均复合增长率达11.3%。其中“专精特新”企业占比12%,上市公司(包括海外上市)占比3%。


从增长趋势上看,近20年可以分为3个阶段,第一阶段2005-2013,企业数量年增长率处于10%~12%区间,


第二阶段2014~2018,数据标注新增企业数量快速增长,2018年增长率高达17%;


第三阶段2019-至今,增长逐步缓和,受制于宏观经济和外部冲击,2022年增长率降至5%。这三个阶段分别对应了数据标注产业的成长期、快速增长期、平稳高质量发展期。


值得注意的是,新增企业数量在经历了2021-2023年的快速回落后,于2024年出现了明显的反弹,背后可能的原因是2024年我国人工智能产业的爆发式增长对数据标注行业有效拉动的结果。



(二)空间分布

图2 数据标注企业城市分布


图2展示了数据标注企业数量排名前20的城市。北京以677家的绝对优势排名第一,占全国企业数量的17%,紧随其后的城市为上海、深圳,数据标注企业数量均超过200家。


杭州、成都、南京、武汉、太原、广州,合肥组成第三梯队,数据标注企业数量均在100以上。


图3 数据标注产业空间演进


图3(1)-(3) 描绘了数据标注产业地区间的分布趋势,红点表示有数据标注企业的城市,企业数量越多红点半径越大。可以明显看出,随着时间推移,数据标注产业逐渐向南部沿海城市和中西部地区转移。


图3(4) 展示了数据标注产业空间集聚度的变化情况,CR10反映数据标注企业最多的10个城市数据标注企业总数占全国的比重,HHI为区域Herfindahl指数,表示空间集中度。可以明显看出,2015年之前区域集中度几乎不变,2015年后区域集中度显著下降,反映出越来越多的城市加入到数据标注产业分工中,产业空间分布呈扁平化态势。


(三)产业关联

图4 数据标注与其它产业协同关系


图4反映了数据标注产业规模2与关联产业之间的相关性。其中图4(1) 描述了数据标注产业规模同数字经济发展水平3的回归关系,其结论是显而易见的,数据标注产业作为数字经济整体建设的一个细分项,必然展现出紧密的正向关系。


图4(2) 进一步考察了数据标注产业同下游人工智能产业规模4之间的关系。人工智能产业特别是图像识别、语音识别、自动驾驶、大模型等行业需要高质量的标注数据作为输入,人工智能行业必然从需求端拉动数据标注产业的发展,图4(2) 的回归结果显示,下游人工智能产业规模每提高1个百分点,能通过需求拉动效应带动上游数据标注产业规模扩张1.15个百分点,虽然该因果关系还需控制各种因素进行严格的计量经济模型识别,但人工智能产业发展对数据标注产业的拉动效应已是不争地事实。 


(四)技术创新

图5 数据标注类专利数


2020年后,我国数据标注领域的专利授权数5呈现爆发增长态势,年均复合增长率达77%,4年内专利授权数增长了10倍,其中仅2021年在前一年基础上专利授权数翻了1.6倍。


数据标注产业的创新发展水平远超产业自身规模发展水平,反映出我国数据标注产业发展质与量并重,创新驱动发展的态势。 


图6 数据标注领域专利构成


专利构成方面,与数据标注相关的专利大致可分为6类,包括计算机视觉、神经网络/深度学习、数据库管理、自然语言处理、机器学习、图像处理/分析。构成上以计算机视觉和神经网络/深度学习占据主导,比例分别为43.2% 与34.4%,后4类分布相对一致,比例在5.1%-6.5%之间。神经网络/深度学习类专利在数据标注类专利中的占比逐年提高,反映出深度学习技术正处在快速迭代阶段。


值得注意的是,计算机视觉与深度学习的技术交叉点(如训练数据生成、分类模型优化)专利量增长明显,凸显出人工智能发展正从单一技术突破转向算法、数据、应用场景的协同创新。这种跨领域融合可能成为未来技术升级的重要方向。


图7 数据标注相关专利申请人及所在地区分布


从授权专利地区分布看,北京以457份授权专利遥遥领先其它城市,深圳、杭州、上海、南京、广州相关授权专利数量超100份,构成数据标注产业创新的第二梯队。第三梯队中,成都创新能力表现亮眼,武汉、苏州、合肥紧随其后。


从授权专利申请人角度分析,互联网平台企业的创新能力突出,各类高校科研院所构成了创新的中坚力量,入围创新能力前30的申请人中,大型国有企业为国家电网和工商银行,表明大型国央企在数据标注创新领域发展空间巨大。


(五)制度建设

表1 全国各地提及数据标注的政策文件一览


根据表1,我国数据标注产业政策呈现以下导向:


一、国家战略引领,构建顶层框架。国家层面以《促进数据标注产业高质量发展的实施意见》为核心,形成"标准建设+技术攻关+生态培育"三管齐下的政策体系。


二、区域差异化布局,打造特色产业集群。各地基于产业基础与资源禀赋形成差异化发展路径。作为劳动力大省,河南利用其人力资源优势,提出"数据标注乡(村)"概念,推进数据标注产业集聚发展。山东则依托海洋优势,建设海洋数据标注基地。


三、技术应用深度融合。政策普遍强调数据标注与人工智能、大模型的协同发展,支持自动化标注、AI辅助标注技术研发,强化数据标注在智能制造、车联网等场景的应用支撑,推动数据标注从基础服务向智能化升级,构建“数据标注-模型训练-场景应用”闭环。


四、标准体系建设加速推进。国家层面加快研制数据采集、标注、治理等全流程标准,各地推进数据标注相关地方标准与行业标准建设,逐步形成“国家标准+行业标准+地方标准”的立体化标准建设体系。


五、要素保障持续强化。人才培育方面,河南开展大数据标注基础人才培训,贵州强调培养数据标注工程师人才;数据供给方面,安徽通过开放公共数据资源吸引数据标注企业,广东建立人工智能产业数据资源清单,提升人工智能数据标注库规模和质量;资金支持方面,安徽对在本省从事数据标注的企业按数据交易额与企业绩效进行补贴与奖励。


值得注意的是,合肥作为首个发布数据标注产业规划的地级市,在《合肥数据标注产业发展规划(2025-2027年》中明确到2027年底,合肥将实现多语种标注和语音标注能力国际领先,构建超11个行业高质量数据集,标注数据规模达3000TB,产业规模突破30亿元,带动相关产业形成千亿级体量。这标志着合肥在数据标注产业与数据要素市场等制度建设方面,走在了全国前列。


当前政策体系已形成“国家战略牵引、地方特色发展、技术应用融合、技术标准协同、要素创新保障”的发展格局,预期将推动数据标注产业从劳动密集型向技术密集型升级,催生可观的市场规模,同时全国层面将加强跨区域合作机制建设,推动形成统一的数据标注质量认证体系,促进全国要素市场互联互通。


表2 全国数据标注相关标准工作一览


从当前标准体系建设来看,数据标注领域的规范化进程呈现出明显的立体化特征。国家层面,《人工智能 面向机器学习的数据标注规程》作为首个机器学习数据标注的通用国标,为行业锚定了基础框架;《YY/T 1833.3-2022》与《YC/T 513-2014》行业标准则深入医疗、烟草垂直领域,针对器械质量评估、地理信息标注等场景提出专项要求,凸显标准化需适配行业特性的必然趋势。


地方层面动作密集,黑龙江、山西等地近两年连续发布涵盖框架设计、技术细则乃至人才培训的地方标准,反映出区域产业化布局中数据标注作为基础设施的战略地位。针对生成式AI爆发式增长带来的安全考虑,新立项的《网络安全技术 生成式人工智能数据标注安全规范》直击数据标注环节的合规风险,体现标准制定与技术演进的动态协同。


整体而言,当前标准体系初步形成“通用+垂直”“中央+地方”的双轨架构,根据全国数据标准化技术委员会的工作安排,预期将会有一系列数据标注相关标准落地出台。


PART.03
结论与总结

近年来我国数据标注产业规模增长明显,高质量创新发展势头迅猛,呈现“规模筑基,创新跃升”的发展态势,数据标注企业数量逾4000家,年均复合增长率达11.3%;专利授权数量年均复合增长率高达77%,以计算机视觉、深度学习为代表的先进技术引领数据标注产业不断创新。


区域格局方面,中心地区牵引效应显著,沿海与中西部地区不断加入到产业分工当中,产业空间分布逐渐由中心外围向扁平化方向发展。国家层面和各地方的产业政策支持、以人工智能为代表的数字经济繁荣,是促进数据标注产业发展的核心动力。总结前文的内容,提出以下几点建议。


持续政策供给,强化制度优势。作为数据标注产业的首个国家层面系统性规划文件,《关于促进数据标注产业高质量发展的实施意见》对产业专业化、智能化、科技创新与产业规模提出了全面要求,从标注需求、技术创新、生态建设方面提供了全面指导,可以预见,意见的发布将开启我国数据标注产业发展的新格局。


早在2024年5月,国家数据局在第七届数字中国建设峰会上公布了7家全国数据标注试点基地名单,包括四川成都、辽宁沈阳、安徽合肥、湖南长沙、海南海口、河北保定、山西大同,从上文分析可以看到,长沙产业规模在全国300多个地级行政区排名18,成都、合肥、沈阳更是在产业规模和产业创新双双进入前20强城市序列。规模与创新能力前20强的城市,无一例外都受到了本市与本省数据标注产业相关政策的支持。


根据国家数据局的最新消息,七个数据标注基地数据标注总规模达到17282TB,形成医疗、工业、教育等行业高质量数据集335个,赋能121个国产人工大模型研发,引进和培育标注企业223家,标注从业人员达5.8万人,带动数据标注行业相关产业超83亿元。下一步,在意见的整体指导下,各地应尽快出台专门针对数据标注的产业政策与指导文件,持续政策供给,强化我国制度优势,发挥有效市场与有为政府在促进数据标注产业发展的有力作用。


以技术推动产业结构优化,以创新驱动高质量发展。传统的数据标注产业是劳动密集型行业,在与普通计算机的交互中,标注工人通过拉框、勾选、打标签等方式生产标注数据,技术要求相对较低、产出水平依赖人海战术。随着人工智能技术的快速发展,传统粗放型数据标注生产模式逐渐向智能化、自动化的方向转变,高质量标注数据的产出越来越依赖技术的进步与迭代。


根据前文分析,我国数据标注产业的技术创新速度是远超规模发展速度的,这表明我国数据标注产业已由传统劳动密集型向技术密集型、知识密集型、创新密集型转变。在这种趋势下,各地发展数据标注产业时,应注重激发创新、培育高素质人才,以技术推动产业结构优化,以创新驱动高质量发展。同时,地方政府在希冀通过数据标注产业解决过剩劳动力就业问题时,应考虑到产业投入结构变化而引致的就业政策有效性问题。


促进数据产业间协同发展,形成数据要素价值化闭环。以人工智能、大语言模型为代表的数字经济发展是我国经济增长的核心动力,而数据、算力、算法更是大语言模型的基本要素。高质量的标注数据,是人工智能理解世界的起点,是高性能AI模型的必要条件。


一方面,以大语言模型为代表的人工智能的发展,从下游需求层面拉动数据标注产业的增长,经粗略推算,1个百分点的人工智能规模扩张会带动数据标注产业1.15个百分点的规模提升。


另一方面,数据标注产业的高质量发展,通过优质的标注数据,从上游供给侧促进下游人工智能行业的创新与繁荣,同时,交易场所在促进高质量数据上下游流通方面,起到了关键的作用,例如上海数据交易所通过构建安全合规高效的数据流通环境,有效促进高质量标注数据有序流通与价值创造,支撑生成式人工智能取得更大的发展与突破。


数据要素价值化的过程不仅仅是数据资源自身实现价值增值的过程,更是通过要素融合、产业协同实现价值跃迁的过程。发展数据标注产业,是发展以人工智能、大语言模型为代表的数字经济、数据产业的重要一环,各地在建设数据标注产业时,应注重产业间关联,发挥产业协同效应,以优质数据供给AI产业,以AI产业拉动优质数据供给,形成数据要素价值化闭环。


推动标准建设,规范产业生态。数据标注产业是人工智能时代的软性“基础设施”,其发展既受益于技术进步与场景深化,也受制于数据质量、协作效率与合规风险。标准化建设通过统一规则、规范流程、保障安全,成为破解规模化与高质量矛盾的关键抓手。


2024年10月,全国数据标准化技术委员会成立,并在月底围绕数据治理、数据流通利用、数字化转型、数据技术、数据基础设施等领域发布2024-2025年拟制修订的重点标准项目清单。


从前文分析来看,截止2025年2月底,与数据标注相关的,正在开展或已完成的标准建设共9项,相比于其它数据产业标准工作,数据标注领域标准建设空间巨大。


未来,以国标为统领,行标地标的适应性建设,将是促进数据标注产业繁荣的重要抓手,另一方面,随着AI向多模态、强认知、高法律约束的方向演进,数据标注标准需兼具刚性框架与弹性适应能力,既要为数据产业协作提供通用基准,也要为技术创新保留试错空间。


唯有如此,这一软性基础设施才能持续为AI前沿突破提供可靠支撑,并在全球化数据产业竞争中占据战略高地。



尾注

[1] 本报告采用三种方式识别数据标注企业:1.在工商企业数据库检索经营范围字段中包含数据标注关键词的企业,2.在招投标数据库检索数据标注相关项目的投标方,3.在招聘数据库检索发布数据标注相关招聘信息的企业,同时剔除人力资源相关企业,以排除数据标注岗位招聘外包的情况。将三种方式得到的企业进行汇总去重,最终得到本报告的样本企业。

[2] 城市数据标注产业规模使用该城市的数据标注从业人员自然对数。

[3] 该数字经济发展水平使用“新华三 – 中国城市数字经济指数”。

[4] AI产业规模使用AI产业从业人员自然对数。

[5] 在专利数据库专利关键词字段中检索数据标注获取相关专利。

作品声明:
微信搜索“发码云小程序”查看更多内容
上一篇
下一篇