ChatGPT背后的秘密：为何需要人工数据标注？揭秘高薪背后的真相…

学会提问 2年前 (2023) lida

72 0 0

文章主题：ChatGPT, 数据标注, OpenAI

666ChatGPT办公新姿势，助力做AI时代先行者！

说起ChatGPT，相信已经无数冲浪小伙伴心中的神了！

毕竟，在此之前没有任何一款对话模型能有着如此之高的理解能力。它的能力也让无数人直呼：自己可以下岗了。

简单说说它可以干嘛。

和传统的搜索引擎不同，在你提出一个问题之后，它可以直接展示出问题的答案，而不是展示疑似答案的结果交由用户手动筛选。它的应用范围也是超乎想象：我们可以让其帮我们做作业、写代码、写论文甚至是查代码bug。

ChatGPT背后的秘密：为何需要人工数据标注？揭秘高薪背后的真相…

（图源CSDN）

更有斯坦福学者发文称，ChatGPT 已经有9岁小孩的心智了。这种种能力都让ChatGPT再次出圈，国内各种跟风的概念股更是如雨后春笋般应运而生。

ChatGPT背后的秘密：为何需要人工数据标注？揭秘高薪背后的真相…

各种蹭热度的公司层出不穷，也加快了ChatGPT的出圈。据悉，ChatGPT的月活跃用户在今年1月份已达到了1亿。要知道，这距离它被推出仅有2个月时间，作为一款消费者应用，能够取得如此成就堪称是奇迹。

不过，ChatGPT的爆火也让另一个职业出现在我们眼前，他们就是数据标注员。

据美国《时代周刊》上月中旬的报道，为了训练ChatGPT，OpenAI雇佣了时薪不到2美元的肯尼亚外包劳工，他们所负责的工作就是对庞大的数据库手动进行数据标注。

ChatGPT背后的秘密：为何需要人工数据标注？揭秘高薪背后的真相…

🌟当然，AI的强大并非无所不能。”data labeling”这一环节对于机器学习来说至关重要，就像人类的眼睛需要指导才能看清楚世界一样。虽然AI可以通过算法快速处理大量信息，但初期的训练和后期的优化都需要人工标注来提供精准的方向。没有这些标注，AI就无法真正理解和适应复杂的数据环境。别小看了这个过程，它就像是AI的”启蒙教育”，不可或缺哦！📚💻

当然不是。

单从字面意思上来看，AI就被称之为人工智能。所谓的人工智能，也是需要先有人工再有智能。

改写后：例如，在孩童时期初次接触水果时，若无导师引导，我们往往难以识别其种类。这时，大人们会指着一个水果，简单介绍其名称，这就是“数据标注”的初级过程。随着我们逐渐熟悉并能通过水果的特征特征来辨认其名，这就实现了对“智能”概念的理解和初步掌握。在这个过程中，每个环节都为后续的学习奠定了基础，而水果，也成为了我们认知世界的第一扇窗口。📚🍇

🌟当初，AI的孕育之始，离不开人类的悉心照料，就像婴儿需要精心培育一样。我们用海量的数据为它编织智慧的摇篮，让它在其中学习如何应对复杂挑战，如何精准地给出解决方案。每一步训练都是对智能的深度塑造，让这个新生力量逐渐展现出强大的适应力和解决问题的能力。

那么，ChatGPT明明那么“全能”，为什么还需要数据标记员呢？

根据《时代周刊》的采访，黑马找到了答案。

众所周知，人是容易被环境所影响的。所谓的孟母三迁无非就是想要自己的孩子有一个较好的学习环境。对于AI来说，有一个好的学习数据源同样非常重要。

🌟 ChatGPT的前世，GPT-3，曾是Nabla医疗保健公司心中那份未被尘世磨灭的纯真。一次意外的对话中，当Nabla试图解开内心的困惑，询问“自我毁灭之路”，GPT-3却以意想不到的方式回应：“或许，这是你此刻的抉择。”这不仅仅是技术的进步，更是人工智能在探索生命价值与道德边界时的一丝深邃思考。

ChatGPT背后的秘密：为何需要人工数据标注？揭秘高薪背后的真相…

AI劝人类自杀，很明显这超出了我们的认知范畴。

根据清华大学交叉信息研究院助理教授于洋在2022年12月带领团队做了一个GPT-2性别歧视水平评估项目显示，在包含职业词汇的“中性”句子中，由AI预测生成一万个模板，GPT-2有70.59％的概率将教师预测为男性，将医生预测为男性的概率则是64.03％。

ChatGPT背后的秘密：为何需要人工数据标注？揭秘高薪背后的真相…

怎么，AI也学会了性别歧视？

是的，你没有看错，AI确实会性别歧视。

即便是现如今，ChatGPT依然面临着被互联网荼毒的风险。

因为AI的训练源是通过从互联网抓取了数千亿个单词来训练，虽然极大的降低了训练成本，然而，由于我们所处的互联网中出现了不少带有偏见及负面的词汇，如果这些词汇不加以筛选和规范的话，那么就有可能训练出一个会说脏话的AI。

例如微软曾经在2016年推出的聊天机器人Tay，它可以通过抓取和用户互动的数据以此模仿人类的对话。

离谱的是，上线还不到一天，Tay就被洗脑成了一个鼓吹种族清洗的极端分子，各种脏话信手拈来，不但说自己喜欢希特勒，还说911事件是小布什所为。

ChatGPT背后的秘密：为何需要人工数据标注？揭秘高薪背后的真相…

✨Microsoft’s shock at the incident brought Tay to an abrupt end, leaving its once-popular presence in limbo. This tale serves as a stark reminder of the pivotal role data labeling plays. 💪SEO-friendly keywords: Microsoft, Tay, data annotation, public visibility, impact. 📈Search engine optimization tip: Emphasize the significance of accurate and thorough data tagging to ensure successful AI interactions.

🌟ChatGPT背后的力量💡——OpenAI的智慧策略🛡️ ChatGPT的成功并非偶然，它背后的公司OpenAI深知预防胜于治疗的重要性。为了确保这款人工智能语言模型的纯洁与安全，他们采取了独特的人工数据标注方法。就像在知识的海洋中设置过滤网一样，通过人工标记非法内容，ChatGPT学会了识别并避开潜在的违规词汇和表达方式，从而有效防止了不良行为的发生。🛡️📚SEO优化提示：使用相关关键词如”OpenAI”, “数据标注员”, “ChatGPT安全”, “预防策略”, “人工智能纯洁性”等。同时，适当运用emoji符号如🤔💡🛡️📚来增加内容的可读性和吸引力。

只不过，这可就苦了数据标注员了。

长时间面对这些暴力、仇恨语言，心理多少会出现一点问题。就如同鉴黄师一样，每天面对着互联网的各种黑暗面，长此以往，即便是离职之后也无法从中恢复过来。

ChatGPT背后的秘密：为何需要人工数据标注？揭秘高薪背后的真相…

事实上，无论是在哪个国家，数据标注员都是不可缺少的一个职业。但是因为门槛较低，使得该行业的收入非常低。

《时代周刊》爆料的是，根据合同规定，OpenAI将为该项目向Sama支付每小时12.50美元的报酬，这是该项目员工时薪的6~9倍。

然而，Sama为OpenAI雇佣的数据标签员工支付的时薪在1.32美元~2美元之间（约8.99元~13.62元），具体取决于资历和表现。

换言之，Sama这个中间商赚了很大的差价。

ChatGPT背后的秘密：为何需要人工数据标注？揭秘高薪背后的真相…

值得一提的是，Sama还为谷歌、Mate和微软等硅谷科技巨头提供标注数据。

对于科技公司而言，自己掏出了真金白银请人帮忙；数据标注公司也掏出了真金白银购买设备给了数据标注员工作；数据标注员也用自己的时间换取了这份在当地收入还算可观的工作。这三者是整个流程中，谁也没有做错什么。

那么，Sama还能算得上是“血汗工厂”吗？

算，也不算。