人工+自动化，数据标注最严峻的时刻要到了-蓝鲸财经

文｜互联网那些事

大模型搬上台面之后，数据标注领域也开始变得热闹。

这种热闹，更像是第三方服务公司单方面的“狂欢”。因为2017年的人工标注师风口已经过去了，例如做文本标注的人员，现在越来越少，部分标注团队图像标注的流动率高达30%也已经是常态，有时候就连语音、视频标注都是常年对半开。

因为在当下的数据服务市场中，数据方少，数据标注的需求小，供大于求的情况严重。

直白一点来说就是，新入行的公司是很难找到可做项目的，哪怕是有小项目可接，利润空间也不会太高，这也就导致在工资低的同时项目赶，于是可能导致短时间内工作量又非常的高。

最夸张的是什么？因为门槛足够低以及数据标注与AI之间的联系，想要进入数据标注市场的人络绎不绝。

但在微调前的数据标注，其实就是一个数据流水线，枯燥，重复，机械。

网友也曾将数据标注比做旧社会拉黄包车的苦力，甚至可能还会和外卖骑士、快递小哥差着好几个段位，收入更是难望其项背。

于是，网上各大平台只要提起数据标注，一定是批评贬低占8成，夸这个行业的人只占2成。而大多夸赞的是因为握住了风口，但如果你在评论区建议别人去干标注，那你一定会被骂的狗血淋头。

数据来源：职友集

不过更有趣的是，随着自动化标注成为可能，不光个人标注师骂，就连标注师团队也在骂。

原因在于，互联网大厂不仅将数据标注纳入自己的业务范围，为了将性价比作为噱头，也在不断地比拼成本。

一、数据标注现状：低需求，高供应

某种角度上来说，数据标注行业实际上就是一个资源行业，类似于包工程，谁家能包下合适的工程就赚钱了。

但前提是得能结了款，另外赚多赚少全看人力成本了。

所以先是对于大多数，很难接到大单数据标注订单的第三方数据服务公司而言，如果再把数据标注任务转手交到数据标注师的手中，那么到手薪资低已经成为普遍的现象。

往深一点来说，市场环境差的很大部分原因，其实是因为第三方数据服务公司的“免费外包行为”。

利润层层递减，导致底层人员赚不到钱，疯狂的在互联网上吐槽这个行业。

还有更惨的，运气不好的时候还会遇到数据标注公司白嫖数据跑路的。在你没有太多标注经验的时候，承诺不需要你交任何的费用，就能获得数据标注任务。

基于没有成本负担，也就放松了警惕，哪怕是第一次数据标注不合格，你也会因为付出了第一次的努力，进而二进二出，甚至三进三出。

结果发现，不是用甲方不满意为借口拒绝给你打钱，就是直接消失。

但无论是以上何种结果，归根到底都是因为大量数据标准员，没有积累良好的数据标注渠道，进而被不靠谱的数据标注公司所欺骗。

如果换做是自己带团队做数据标注，遇到数据标注公司跑路的情况，结果只会更惨不忍睹。

不过对比实体行业的投资以及竞争力度，数据标注远远优于实体行业，利润的确是低，但仍然是有利润可言的。

据统计，2021我国人工智能数据标注市场中，计算机视觉类、智能语音类和NLP类需求占比分别为45.3%、40.5%和14.2%。

但如果想要提高数据标注任务的稳定性，那必然需要寻求更好的出路。例如免费外包这条路跑不通，那么就采取收费的形式。

另一方面，提高对标注师的学历要求。不过，人才的进入也取决于企业是否存在利润空间。

归根到底，个人人工标注师或是人工标注团队，想要在人工标注数据服务领域获取利润，其实是很难的。

因为从长远的维度来看，只要智能化未达标，那么数据标注就一定是一个长期的过程。在算法逐渐复杂化以及人工标注成本之下，自动化标注自然会成为行业追求。

更何况，是在算力环节厂商以及大模型厂商同样想要瓜分的领域。

二、人工数据标注，被市场踢出局？

站在各大厂商的角度，有了技术红利之后进入数据标注领域，他们还能释放一部分成本优势给客户，降低单位数据标注任务的价格。

总的来说，行业从劳动密集型向技术密集型转变是一个必然的过程。

一方面，不同于传统深度学习算法，大模型场景下数据处理流程中，在数据需求量最大的预训练环节，使用的多是无标注或弱监督标注数据。

更多的人工标注需求出现在预训练环节之后的微调（SFT）以及基于人类反馈的强化学习（RLHF）阶段。

微调和对齐时，人工标注的质量会极大影响模型在生成内容时的智能水平，这对人工标注的数据质量提出了更高的要求。

简单来说就是，在微调阶段的标注师，是需要体系内的业务专家们去标注金融相关的数据。

比如早期单纯只标注“语音转写文本”的相对简单的作业要求，现在已经增加了很多其他维度，比如对于声音边界的精细度的要求，以前要求的可能是粗颗粒度，但现在动辄要求精确到毫秒级。

比如出于对安全考量，车企对数据标注的准确度要求通常在99%以上，这实际上也大幅提高了对数据服务商的要求门槛。

再比如对于在语音中出现的各类不同的其他声音的标注，以前可能只需要标注出来某些噪音，现在的要求则可能是还要对噪音进行更多维度的分类。

更进一步来说，随着语音数据量的日渐增多且复杂，对人工标注也存在高强度。

另外，在医疗领域从事传统和常规的工作，固然也是很多人梦寐以求的，但同领域的数据标注，也同样潜力巨大。

据媒体报道，截至今年3月，百度山西人工智能数据产业基地中，就拥有超过3000位标注师，主要涉及自动驾驶、人脸识别等内容标注，其中86%的员工为90后；字节跳动在北京、天津、济南、武汉各地，也招募了4万名数据标注师；腾讯更是直接把平台放到了线上，让标注师变成了一种“全民兼职”，称为“众包”。

可以预见的是，在未来更多更广阔的垂直领域里，有专业经验、并且熟悉数据标注工作的人群，都将是亟需的人才。

不过，也仅限于真正拥有专业经验的技术人才，以及自动标注之后的审核岗位，但需求有限。

三、自动化标注进入淘汰赛？

在大厂入局之下，不只是数据标注团队，那些单纯依靠人工标注的企业也很难存活。原因在于，今年数据标注市场或许会加速向技术型玩家集中，市场正开启淘汰赛。

最简单的理解是，由于看中了大模型训练的算力市场，不少模型提供商提供了AI训练全家桶，数据标注被纳入了大厂的服务范围，这可能正加剧行业的竞争。

不过从另一方面考虑，即便大厂内部建的数据标注平台，因为很难应对市场多样化的数据标注任务需求，而存在局限。

但最初被划为算力环节的企业，也一样会对自动化标注虎视眈眈。例如，原本处于数据服务下游的算法研发平台及科技企业，自身也在尝试把大模型技术用到了自身的数据标注场景。

今年4月，海康威视在一季度的财报电话会上向投资者答疑时也提到，他们也在将自研AI技术用到自动化标注场景。

原因在于，此前被行业里划为应用开发或算法研发环节的海康、商汤等企业，现在他们也需要一些智能化工具和应用来提升数据标注效率。

而商汤科技就是最好的例子。目前，商汤科技在自动驾驶场景基于视觉大模型技术，降低了人工数据标注的数量，大幅提升了数据标注效率。

随着机器学习模型的发展，自动化数据标注的准确性提高，可以使用模型来辅助人工标注，比如模型预处理数据再发送给标注师，或人类作为审核员，审核并纠正模型给出的标注结果等等。

与纯手动标记相比，AI辅助标注加快数据标注的速度。目前，scale Al等数据标注公司都在努力减少数据标注过程中的人工参与比例。

但自动标注是否能够完全代替人工，目前尚未能够确定。

市场的发展总是处于不确定中，未来可能会诞生新的标注场景或需求，或许会继续基于人工标注，才能获得更为准确的数据集，来给到智能机器良好的自测需求，这些我们都不得而知。

但是能够预测的是，如果人工标注和“自动化+人工”的标注方式在未来 5-10 年内仍然会存在，那么在拥有一定数据标注渠道以及标注专业人员的数据服务公司，仍然有机会在这个市场中分得一杯羹。

不过，要是想在未来也能够脱颖而出，规模化所带来的效率提升，一定是关键因素。

但如果数据项目订单被挤压，规模化也就同等于“施工队生意”。那些以“数据标注业务”为核心的数据服务公司，最大的风险也就变成了人工成本。

参考：

蓝鲸财经：数据标注，从蓝领到白领

华经产业研究院：2022年中国数据标注行业市场规模、市场结构及重点企业分析

语音之家：Scale AI：大模型还需要数据标注吗？

机器人库：数据标注师：站在了人工智能风口，却为5K月薪挣扎？

声明：本文内容仅代表该投稿文章作者观点，不代表蓝鲸号立场。 未经授权不得随意转载，蓝鲸号保留追究相应责任的权利