《科创板日报》3月29日讯(编辑 宋子乔)人们力推AI进步的出发点在于解放劳动力,而AI行业的“劳动力压榨”情况并不少见,数据标注便是典例,该行业甚至流传着这样的一句话:“有多少智能,就有多少人工”。
如今,由人类主导的数据标注工作似乎也可以交给ChatGPT为代表的AI工具了。
近日,来自苏黎世大学的研究者证明了ChatGPT的数据标注能力强过人类——他们在3月27日提交的一篇论文中探讨了大语言模型(LLM)在数据标注任务中的潜力,并重点关注了2022年11月发布的ChatGPT。
(资料图)
研究人员证明了零样本(即没有任何额外训练)ChatGPT在多项注释任务(包括相关性、立场、主题和框架检测)上的准确率高于人类,包括训练有素的注释者。而其成本仅需人工的几十分之一。据研究人员计算,ChatGPT的每条注释成本不到0.003美元——大约比数据标注众包平台MTurk便宜20倍。
研究人员表示,虽然需要进一步研究以更好地了解ChatGPT和其他大模型工具如何在更广泛的环境中发挥作用,但这些结果表明它们有可能改变研究人员进行数据注释的方式,并打击MTurk等平台。
▌人类数据标注师不会被取代 但门槛将提高
数据标注是对未经处理的语音、图片、文本、视频等数据进行加工处理,并转换为机器可识别信息的过程,是构建AI模型的数据准备和预处理工作中不可或缺的一环。
GPT大模型的海量训练数据催生出巨大的数据标注需求。OpenAI、谷歌、Meta和微软的人工智能成果背后,就有无数肯尼亚、乌干达和印度的工人在工作。
对于这些数据标注师而言,其从事的是一份繁重琐碎但技术要求不那么高的工作。就像AI伦理学家 Andrew Strait 所说:“ChatGPT 等生成模型并不神奇,它们依赖于大量的人力供应链。”而据《时代周刊》披露,有OpenAI雇用的数据标注员表示,这份工作给他们留下了“精神创伤”。
无论是从伦理角度,还是经济学的降本角度,AI公司都有心减少对数据标注的依赖。使用机器/模型来注释数据也早已不是什么新鲜事。
不过,如同AI不能替代人类一样,机器标注也不会完全取代人工标注,这是由于,虽然大多数标注工作是简单的,但医疗等行业的数据标注工作需要专业性知识,比如在医疗领域的标注员需要把片子中的肿瘤区域标出来;地方方言或外国文字的内容,则需要标注员掌握那门语言。
可以预见的是,当数据积累到一定量,机器开始为自己标注数据,数据标注师的从业门槛将进一步提高。
关键词:
责任编辑:Rex_29