800亿市场、30倍薪资差:数据标注,到底是新蓝海还是新天坑?


800亿市场、30倍薪资差:数据标注,到底是新蓝海还是新天坑?

上周,一个前同事给我发了条消息:

“老王,我们公司转型做数据标注了,你要不要来看看?”

我愣了一下。这家公司以前做客服外包,2019年我还在的时候,一个坐席月薪3500,靠人海战术赚差价。现在改做数据标注了?

我问他:”你们标注员一个月开多少?”

他说:”基础岗6000-8000,高级的能到1万5。”

“那你们利润呢?”

他沉默了几秒:”比以前好一点,但……也不好做。”

这通电话让我意识到——数据标注这个行业,正在经历一场所有BPO人都似曾相识的剧变。

而我越深入了解,越发现一个残酷的事实:同一个行业里,月薪2K和月薪65K并存,30倍的差距,藏着整个AI产业最隐秘的分层。

01 | 一个被低估了800亿的行当

先说个数据。

2025年,中国数据标注市场规模突破800亿。国家数据发展研究院测算,专业数据产品产值规模超过2.3万亿

但你可能从来没注意过这个行业。

它没有发布会,没有明星创业者,甚至”数据标注员”这五个字,大多数人听了只会想到一个画面:对着电脑,机械地点鼠标,画框、打标签,技术含量不高。

这就是外界最大的误解。

实际情况是,AI行业有个二八定律:80%的基础数据工作是人干的,20%才是算法的事。

你的手机能听懂你说”播放周杰伦的歌”,是因为几千万人把带口音、带噪声、带吞音连读的语音指令逐字标好了。自动驾驶能在路口认出红绿灯,是因为几百万人一张图一张图地把像素边界描出来。大模型能写出流畅的中文,是因为无数人把每句话里的语法关系、情绪倾向、逻辑推理一一标注清楚。

每一处AI的”智能”,都有一双人类的手在托底。

而就在6月9日,国家数据局联合四部门,正式发布了《关于促进数据标注产业高质量发展的实施意见》——这是国家首次针对数据标注产业出台系统性顶层文件

文件明确:到2027年,行业年均复合增速超20%。成都、长沙、合肥、沈阳、大同、保定、海口,七大国家级数据标注先行试点城市已经落地。

政策、资金、人才、算力配套全在加速。数据标注不再是AI产业的配套辅助,而是上升为国家战略的基础产业。

但问题来了——一个800亿、国家力推的行业,为什么大家的感觉还是”低端””流水线””没什么前途”?

02 | 30倍薪资差:同一份工作,活成了两个世界

36氪最近扒了Boss直聘上151份数据标注岗位的JD,结果很扎心:

北京数据标注岗位月薪中位数10500元,最低2000,最高65000——首尾相差30多倍。

低薪端是实习、兼职和众包。日薪岗中位数185元/天,招聘帖写着”双休,小白可做”,学历经验全不限,月薪4-5K。

高薪端呢?百度给自动驾驶数据标注算法实习生开500-600元/天,要求硕士;阿里巴巴的AI训练师岗20-35K、16薪,同样卡硕士。某大型车企的智驾数据标注算法工程师,要求处理4D点云和LiDAR数据,月薪40-70K、15薪。

同为标注,身价差出30倍。差距来自工作内容早已分化:低薪端是执行,按要求标、按SOP做;高薪端是定义,定标注规则、管质量标准、打通算法和数据的闭环。

前者可替代,后者难复制。

一个在标注行业干了六年的老兵说得更直白:

“2016年,标注员是手艺人,熟手吃香;现在,标注员是流水线工人,谁都能干,你就是个账号。”

我在BPO行业18年,这种分化太熟悉了。当年客服行业也是这样——一线坐席拼数量、拼单价,项目经理拼方案、拼客户关系。两者薪资差5-10倍,但前者永远在抱怨内卷,后者永远在抢人。

数据标注正在重走客服行业的老路,只是速度更快。

03 | AI在”吃掉”自己的老师?

说句可能不好听的:数据标注行业最大的威胁,不是同行竞争,而是AI自己。

2020年GPT-3论文证明了大模型的少样本学习能力,模型不再需要海量人工标注也能完成很多任务。同时,自动标注技术快速成熟,行业自动化率从三年前的约30%飙升到60%以上

百度的”自动驾驶数据标注模型算法实习生”,工作内容就是开发预标注模型,让AI自己标数据

“自动标注+人工复核”已经成了主流工作流:AI先粗标一版,人负责质检、纠错、补齐边界案例。

基础重复性标注确实在被吞噬。

但反直觉的是——AI越强,对高质量人工标注的需求反而越大。

原因有三:

第一,RLHF(人类偏好反馈)催生了全新需求。 给模型输出做偏好排序、评估事实准确性、纠正推理链路——这些活不再叫标注,而叫”AI对齐训练师”。要求完全不同,不是画框打标签,而是需要专业判断力。

第二,垂直领域缺的不是量,是质。 医疗影像标注需要放射科水平,法律文本标注需要律师水平,金融风控标注需要分析师水平。一位资深律师被标注公司找上门,开价200元/小时,他直接拒绝:”就算给我8000元一小时,我还要掂量下要不要冒失去饭碗的风险。”

越是需要复杂判断的领域,数据标注成本越高,但标注企业又不愿付足够溢价。结果是——这些领域的数据缺口长期存在,模型在垂直场景的表现也难以突破。

第三,合成数据是增量,不是替代。 生成式AI可以批量生成带标注的合成数据,弥补真实场景长尾样本不足,但合成数据的质量仍需人工校验。它是第二增长曲线,不是终结者。

一句话总结:基础标注正在被AI吃掉,但专业标注永远缺人。

04 | 普通人到底能不能靠数据标注赚钱?

这是我被问最多的问题。说真话——看你要进哪一层。

第一层:基础标注员(月薪4-8K)

门槛最低,会点鼠标就行。河南、山西、贵州的标注基地大量招人,培训两周上岗,计件工资。也可以远程接单,百度众包、京东众智、海天瑞声都能找到入口。

但我要说句扎心的:这一层和10年前的客服坐席一模一样——拼手速、拼单价、拼工时,天花板非常明显。 自动标注率每提高10个点,这层就少一批岗位。

如果你只是想赚个快钱过渡,可以。但别把它当长期职业。

第二层:质检员/项目经理(月薪8-20K)

做了半年基础标注,往质检方向转。再干一年,带一个小团队。路径清晰,每个台阶都有对应的薪资增长。

这层的关键能力不是”标得快”,而是 “标得准”和”管得住” ——能判断标注质量,能制定标注规范,能和甲方对齐标准。

第三层:专家级标注师/垂直领域标注(时薪200-1000元)

阿里”晓天睿士”专家社区,学历要求头部高校硕士起步,行业专家级人才最高时薪1000元。xAI面向全球招中文AI导师,美国境内时薪35-45美元,要求母语级中文+方言辨识能力。

3D点云标注师自己接单,月入2-3万很正常。没老板,没KPI,一台电脑就够了。

但这层不是”转”上去的,是”带艺拜师”——你得先有一个领域的专业能力,再把它嫁接到标注上。

标过3D激光雷达点云的,比985硕士还值钱,因为学校不教这个。标了半年医疗影像,你能看出来放射科医生都容易漏的小病灶。这种”手感”,AI替代不了。

05 | 写给BPO同行:数据标注是不是我们的第二春?

这是我最想聊的部分。

数据标注本质上就是新形态的BPO——甲方出需求,乙方出人力,靠人效和规模赚钱。干的活从”接电话”变成了”标数据”,但底层逻辑一模一样。

我在BPO行业18年,见过太多外包公司从鼎盛到衰落。客服外包利润率从15%压到5%,AI客服又在蚕食人工坐席的需求。很多同行都在找出路。

数据标注确实是一个机会窗口,但我不想画大饼。说几个真话:

机会:

  • 国家政策明确支持,7大基地、200+骨干企业、专项补贴
  • 行业年均增速20%+,比传统BPO强太多
  • 从”拼人数”到”拼质量”,BPO公司的项目管理和质量控制经验恰恰是标注行业最缺的
  • 数据交易市场打通后,标注数据可以确权、定价、流转——不只是一锤子买卖

风险:

  • 自动标注率60%+,基础标注产能过剩只是时间问题
  • 小城市标注薪资极低(首月1500元不是段子),人员流动率惊人
  • 甲方压价严重,专家级人才又请不起,中间层的利润空间被两头挤压
  • 和客服外包一样,如果不往”方案商”转型,永远在价格战里打转

我的判断:数据标注不会是BPO行业的”救世主”,但它是”转型跳板”。

真正能活下来的,不是拥有最多标注员的公司,而是能把”采集-标注-清洗-质检-数据集交付”做成一体化服务的公司。

从卖人头,到卖方案。这条路,BPO人太熟了。

三个实操建议

建议一:如果你是求职者——先选领域,再选岗位

别去”什么都能标”的通用标注公司。去找垂直领域的:医疗、自动驾驶、金融、法律。哪怕从基础标注做起,半年后你就是这个领域最稀缺的人——因为懂行又懂标注的复合人才,市场上几乎没有。

建议二:如果你是BPO老板——别急着铺人数

先拿下一个垂直领域的标注项目,打磨”标注规范+质检流程+交付标准”这套体系。有了体系,再扩规模。没有体系的规模化,只是加速亏损。

建议三:如果你是企业管理者——别再问”标注能不能外包”

核心业务的数据标注,不要全包出去。质量失控的标注数据喂给模型,比没有数据更可怕。至少保留一个内部质检团队,把控”什么算标对了”这个核心标准。

写在最后

18年了,我看着客服行业从电话时代走到AI时代,看着外包公司从赚差价到被差价困住。现在数据标注站在了同样的路口。

国家说这是战略产业,市场说这是800亿蓝海,但我觉得——真正值钱的从来不是行业风口,而是你在行业里有没有不可替代的能力。

数据标注行业缺的不是人,缺的是”懂行的人”。

如果你也在关注数据标注行业,或者正在考虑转型,欢迎关注我的公众号,咱们继续聊。