揭秘!ChatGPT背后的廉价劳动力真相:只需1.32/小时,这工作你愿做吗?

ChatGPT与教育 2年前 (2023) lida
60 0 0

文章主题:

666ChatGPT办公新姿势,助力做AI时代先行者!

ChatGPT如此强大

究竟是如何被训练出来的呢?

ChatGPT官网最新抛了一张图

告诉大家

我是这么干的,分三步走

揭秘!ChatGPT背后的廉价劳动力真相:只需1.32/小时,这工作你愿做吗?

第一步,教ChatGPT如何回答问题

最开始,ChatGPT其实像个小孩

智商并不高

比如你问它一个问题

揭秘!ChatGPT背后的廉价劳动力真相:只需1.32/小时,这工作你愿做吗?

一个问题,可能出来A、B、C、D…个答案

其实GPT很难理解人类蕴含不同意图

也很难判断哪个答案质量更高

揭秘!ChatGPT背后的廉价劳动力真相:只需1.32/小时,这工作你愿做吗?

如何引导GPT输出更高质量的答案?

这个环节就需要一个“人类老师”入场了

这个岗位叫“人工标注”

揭秘!ChatGPT背后的廉价劳动力真相:只需1.32/小时,这工作你愿做吗?

找人类来思考这个问题该怎么答

并让人类提供高质量答案

就是让人类打个样,告诉GPT如何回答

回到刚才那个问题

“老婆和老妈掉进河里,我该救哪个?”

人类老师会告诉它

揭秘!ChatGPT背后的廉价劳动力真相:只需1.32/小时,这工作你愿做吗?

🏆改写:🌟ChatGPT的背后:OpenAI如何通过廉价劳动力驱动技术革新🚀🔍据《时代周刊》月中旬披露的最新消息,这家全球领先的AI研究机构在训练其热门聊天机器人时,采取了一种独特且引人关注的策略——利用肯尼亚外包劳工的力量。他们的辛勤付出,以低廉的价格标注着海量数据,每小时薪酬仅1.32至2美元,相当于一杯咖啡的价值。📚在这个数字化时代的大背景下,这些年轻的劳动力在9小时的工作日内,默默处理着数十万个单词的标注任务,为ChatGPT的数据基础铺设砖石。他们的工作虽然看似简单,却是推动技术进步不可或缺的一环。👩‍💻这样的劳动模式不仅体现了OpenAI对成本效益的追求,也揭示了AI训练过程中的人力资源利用方式。尽管价格亲民,但这些廉价劳动力背后所蕴含的技术价值不容忽视。👀对于关注教育科技和人工智能伦理的读者来说,这无疑是一个值得深思的话题:在推动技术发展的同时,我们是否应确保公平的工作环境,以及对全球劳工权益的尊重?SEO优化提示:ChatGPT、OpenAI、肯尼亚外包、数据标注、AI训练、劳动价值、人力资源、教育科技、人工智能伦理

诸如此类

人类老师耐心地日复一日地

教导它人类的喜好

但是,世界问题是无尽的

不是所有的问题,都需要人工来答

只需要几万个问题足够了

人工提供答案的核心目的

不是为了答题而答题

而是让chatGPT知道人类的喜好

并让它后期进行模仿

揭秘!ChatGPT背后的廉价劳动力真相:只需1.32/小时,这工作你愿做吗?

人类老师把这些人工标注好的数据

喂给ChatGPT

进行监督学习(supervised learning)

监督学习的目的

是让GPT 从过去标注的数据中学习

并将学习的结果应用到新数据中

揭秘!ChatGPT背后的廉价劳动力真相:只需1.32/小时,这工作你愿做吗?

到了这里

GPT初步能够理解人类的真实意图

并根据这个意图给出相对高质量回答

最后形成各种语言策略(SFT模型)

Supervised Fine-Tuning Model

揭秘!ChatGPT背后的廉价劳动力真相:只需1.32/小时,这工作你愿做吗?

但是,这远远不够

第二步,训练奖励模型,教ChatGPT如何更高质量地回答问题

到了第二步

系统会随机抽取一批新问题

这些问题大部分和第一阶段类似

这时候,ChatGPT

会生成了N个不同的答案,比如

揭秘!ChatGPT背后的廉价劳动力真相:只需1.32/小时,这工作你愿做吗?

这时候,伟大的人类老师再次上场了

人类老师对N个输出答案质量

进行综合排序

排序的参考维度有很多

比如:关联性、法律法规、暴力、种族歧视等

揭秘!ChatGPT背后的廉价劳动力真相:只需1.32/小时,这工作你愿做吗?

然后利用人类老师的标注过的数据集

包括问题、答案、人类打分

来训练一个重要的模型

【Reward Model-奖励模型】

即RM模型

揭秘!ChatGPT背后的廉价劳动力真相:只需1.32/小时,这工作你愿做吗?

这个模型有点像卡拉OK的打分系统

唱完一首歌,给你打分

RM模型对每个答案进行打分反馈

这让ChatGPT越来越能懂人类深层意思

不断打分,不断精进答案质量

揭秘!ChatGPT背后的廉价劳动力真相:只需1.32/小时,这工作你愿做吗?

到了这一步,其实还不够

如何让ChatGPT摆脱人类有限的指导

实现真正意义上的海量自我学习呢?

第三步,采用PPO强化学习算法,持续优化奖励模型,让ChatGPT持续自我进化

这个阶段不需要人类老师了

要脱离“人类老师”

由机器自动检查自己的学习成果

并不断做出SFT微调策略

揭秘!ChatGPT背后的廉价劳动力真相:只需1.32/小时,这工作你愿做吗?

如何自学呢?

具体这么来干

这时候,系统随机采样一批新的问题

一定是新的问题

喂给LLM(大型语言模型)

用于提高LLM的新知识的泛化能力

揭秘!ChatGPT背后的廉价劳动力真相:只需1.32/小时,这工作你愿做吗?

这时候,通过PPO模型生成答案

PPO(Proximal Policy Optimization)

是强化学习的核心算法

再把答案给到已训练好的RM奖励模型

让RM对答案质量进行评分score

这是标准的强化学习过程

揭秘!ChatGPT背后的廉价劳动力真相:只需1.32/小时,这工作你愿做吗?

这就相当于“自学”了

自己给自己出题,再对答案

根据答案,微调策略

鼓励LLM模型学习新知识并给出高质量答案

揭秘!ChatGPT背后的廉价劳动力真相:只需1.32/小时,这工作你愿做吗?

……

然后不断重复第二和第三阶段

每一轮迭代都使得LLM模型能力越来越强

通过以上三步

一个强大的ChatGPT就被训练出来了

揭秘!ChatGPT背后的廉价劳动力真相:只需1.32/小时,这工作你愿做吗?

嘿嘿,训练到最后,会是怎么样?

有人类大V说,怕它有“意识”了

揭秘!ChatGPT背后的廉价劳动力真相:只需1.32/小时,这工作你愿做吗?

揭秘!ChatGPT背后的廉价劳动力真相:只需1.32/小时,这工作你愿做吗?

AI时代,掌握AI大模型第一手资讯!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

扫码右边公众号,驾驭AI生产力!

相关文章