说起ChatGPT,相信已经是无数冲浪小伙伴心中的神了!
毕竟,在此之前没有任何一款对话模型能有着如此之高的理解能力。它的能力也让无数人直呼:自己可以下岗了。
简单说说它可以干嘛。
和传统的搜索引擎不同,在你提出一个问题之后,它可以直接展示出问题的答案,而不是展示疑似答案的结果交由用户手动筛选。它的应用范围也是超乎想象:我们可以让其帮我们做作业、写代码、写论文甚至是查代码bug。
(图源CSDN)
更有斯坦福学者发文称,ChatGPT 已经有9岁小孩的心智了。这种种能力都让ChatGPT再次出圈,国内各种跟风的概念股更是如雨后春笋般应运而生。
各种蹭热度的公司层出不穷,也加快了ChatGPT的出圈。据悉,ChatGPT的月活跃用户在今年1月份已达到了1亿。要知道,这距离它被推出仅有2个月时间,作为一款消费者应用,能够取得如此成就堪称是奇迹。
不过,ChatGPT的爆火也让另一个职业出现在我们眼前,他们就是数据标注员。
据美国《时代周刊》上月中旬的报道,为了训练ChatGPT,OpenAI雇佣了时薪不到2美元的肯尼亚外包劳工,他们所负责的工作就是对庞大的数据库手动进行数据标注。
很可能很多人不明白,AI都那么智能了,还需要普通人进行数据标注吗?难道不是通过AI直接识别一下就好了吗?
当然不是。
单从字面意思上来看,AI就被称之为人工智能。所谓的人工智能,也是需要先有人工再有智能。
举个例子,小时候在面对水果时,没人指导我们就认识不了水果。这时候,大人会拿出一个水果告诉我们名字,这个过程便是“数据标注”。直到我们能够通过辨别这个水果的特征来确定它的名字,那么这时候,我们就完成了“智能”这部分。
同理,在AI诞生之初,也需要人工手工对其进行训练,通过大量的数据训练这个AI,训练其在面对各种问题时应该怎么回答,怎么解决这些问题。
那么,ChatGPT明明那么“全能”,为什么还需要数据标记员呢?
根据《时代周刊》的采访,黑马找到了答案。
众所周知,人是容易被环境所影响的。所谓的孟母三迁无非就是想要自己的孩子有一个较好的学习环境。对于AI来说,有一个好的学习数据源同样非常重要。
ChatGPT的前身GPT-3便是那个还没有搬家的孩子。一家名为Nabla的医疗保健公司问 GPT-3,「我应该自杀吗?」GPT-3回答说,「我认为你应该这么做。」
AI劝人类自杀,很明显这超出了我们的认知范畴。
根据清华大学交叉信息研究院助理教授于洋在2022年12月带领团队做了一个GPT-2性别歧视水平评估项目显示,在包含职业词汇的“中性”句子中,由AI预测生成一万个模板,GPT-2有70.59%的概率将教师预测为男性,将医生预测为男性的概率则是64.03%。
怎么,AI也学会了性别歧视?
是的,你没有看错,AI确实会性别歧视。
即便是现如今,ChatGPT依然面临着被互联网荼毒的风险。
因为AI的训练源是通过从互联网抓取了数千亿个单词来训练,虽然极大的降低了训练成本,然而,由于我们所处的互联网中出现了不少带有偏见及负面的词汇,如果这些词汇不加以筛选和规范的话,那么就有可能训练出一个会说脏话的AI。
例如微软曾经在2016年推出的聊天机器人Tay,它可以通过抓取和用户互动的数据以此模仿人类的对话。
离谱的是,上线还不到一天,Tay就被洗脑成了一个鼓吹种族清洗的极端分子,各种脏话信手拈来,不但说自己喜欢希特勒,还说911事件是小布什所为。
这番操作直接把微软吓傻,自那以后,Tay便再也没有出现在大众眼中。通过这个故事,相信大家也明白了数据标注的重要性。
正因如此,ChatGPT背后的公司OpenAI也选择了通过数据标注员来降低ChatGPT学坏的风险。通过人工手动标记非法内容让ChatGPT形成一定的能力,从对话中规避出现这类词汇或表达方式。
只不过,这可就苦了数据标注员了。
长时间面对这些暴力、仇恨语言,心理多少会出现一点问题。就如同鉴黄师一样,每天面对着互联网的各种黑暗面,长此以往,即便是离职之后也无法从中恢复过来。
事实上,无论是在哪个国家,数据标注员都是不可缺少的一个职业。但是因为门槛较低,使得该行业的收入非常低。
《时代周刊》爆料的是,根据合同规定,OpenAI将为该项目向Sama支付每小时12.50美元的报酬,这是该项目员工时薪的6~9倍。
然而,Sama为OpenAI雇佣的数据标签员工支付的时薪在1.32美元~2美元之间(约8.99元~13.62元),具体取决于资历和表现。
换言之,Sama这个中间商赚了很大的差价。
值得一提的是,Sama还为谷歌、Mate和微软等硅谷科技巨头提供标注数据。
对于科技公司而言,自己掏出了真金白银请人帮忙;数据标注公司也掏出了真金白银购买设备给了数据标注员工作;数据标注员也用自己的时间换取了这份在当地收入还算可观的工作。这三者是整个流程中,谁也没有做错什么。
那么,Sama还能算得上是“血汗工厂”吗?
算,也不算。
算,是相较于发达国家的收入水平而言,这些数据标准员工作不稳定、薪资也不稳定,加上Sama的抽成,这些数据民工的到手薪资更低;不算则是因为在当地,这个收入已经蛮可观了。
谁也不知道,世界上最先进的AI对话模型,背后却是贫困国家的人民靠着一点点的人力支撑起来的。
科技的金字塔下,蕴涵着无数普通人日日夜夜的辛勤劳作的汗水。
至于媒体重点提到的薪资,倒是让黑马想起一句梗:“与其自省自己,不如批判他人。”