热头条丨ChatGPT将取代数据标注师？准确率更高成本仅需人工的几十分之一

《科创板日报》3月29日讯（编辑宋子乔）人们力推AI进步的出发点在于解放劳动力，而AI行业的“劳动力压榨”情况并不少见，数据标注便是典例，该行业甚至流传着这样的一句话：“有多少智能，就有多少人工”。

如今，由人类主导的数据标注工作似乎也可以交给ChatGPT为代表的AI工具了。

近日，来自苏黎世大学的研究者证明了ChatGPT的数据标注能力强过人类——他们在3月27日提交的一篇论文中探讨了大语言模型（LLM）在数据标注任务中的潜力，并重点关注了2022年11月发布的ChatGPT。

(资料图)

研究人员证明了零样本（即没有任何额外训练）ChatGPT在多项注释任务（包括相关性、立场、主题和框架检测）上的准确率高于人类，包括训练有素的注释者。而其成本仅需人工的几十分之一。据研究人员计算，ChatGPT的每条注释成本不到0.003美元——大约比数据标注众包平台MTurk便宜20倍。

研究人员表示，虽然需要进一步研究以更好地了解ChatGPT和其他大模型工具如何在更广泛的环境中发挥作用，但这些结果表明它们有可能改变研究人员进行数据注释的方式，并打击MTurk等平台。

▌人类数据标注师不会被取代但门槛将提高

数据标注是对未经处理的语音、图片、文本、视频等数据进行加工处理，并转换为机器可识别信息的过程，是构建AI模型的数据准备和预处理工作中不可或缺的一环。

GPT大模型的海量训练数据催生出巨大的数据标注需求。OpenAI、谷歌、Meta和微软的人工智能成果背后，就有无数肯尼亚、乌干达和印度的工人在工作。

对于这些数据标注师而言，其从事的是一份繁重琐碎但技术要求不那么高的工作。就像AI伦理学家 Andrew Strait 所说：“ChatGPT 等生成模型并不神奇，它们依赖于大量的人力供应链。”而据《时代周刊》披露，有OpenAI雇用的数据标注员表示，这份工作给他们留下了“精神创伤”。

无论是从伦理角度，还是经济学的降本角度，AI公司都有心减少对数据标注的依赖。使用机器/模型来注释数据也早已不是什么新鲜事。

不过，如同AI不能替代人类一样，机器标注也不会完全取代人工标注，这是由于，虽然大多数标注工作是简单的，但医疗等行业的数据标注工作需要专业性知识，比如在医疗领域的标注员需要把片子中的肿瘤区域标出来；地方方言或外国文字的内容，则需要标注员掌握那门语言。

可以预见的是，当数据积累到一定量，机器开始为自己标注数据，数据标注师的从业门槛将进一步提高。

关键词：

责任编辑：Rex_29