ChatGPT担忧解除？绿色对话机器人Claude如何保障‘三观’纯正？

ChatGPT与软件 2年前 (2023) lida

67 0 0

文章主题：ChatGPT, Claude, Constitutional AI

666ChatGPT办公新姿势，助力做AI时代先行者！

来源：火讯财经

文章转载来源：元宇宙日爆

近期，AI安全问题闹得沸沸扬扬，

。自然语言大模型采用人类反馈的增强学习机制，也被担心会因人类的偏见“教坏”AI。

🌟【OpenAI探索人工智能新路径】🚀日期：-April 6th, 2023 📅领域：人工智能安全与学习进步 🧠在科技日新月异的今天，OpenAI 强调了从实际生活中汲取经验对于打造更可靠的人工智能系统至关重要。他们认识到，这不仅是技术的进步，也是社会适应和转型的一个挑战。🌱🌟【拥抱变化，迈向未来】🌟OpenAI 不仅推动技术创新，同时也致力于确保人工智能的安全与可持续发展。他们明白，安全的人工智能不仅需要算法的精进，也需要时间去理解和接受新技术的影响。🌈欲了解更多关于如何在现实世界中促进AI学习的深入见解，敬请关注我们的最新动态。我们承诺，将用专业和透明的方式引导这一进程。👩‍💻👨‍💼#OpenAI #人工智能安全 #社会适应

至于这个时间是多久，OpenAI也没给出答案。

🌟💡技术探索：破解”算法黑箱”，引领智能未来之路🔍✨在人工智能领域的前沿，大模型的神秘面纱引发了广泛讨论——背后的决策逻辑犹如一道无法轻易破译的密码，连开发者自己也深感困惑。面对十字路口的选择，自然语言处理的创新者们正逐步转变策略，为GPT等类似的模型设下新的规范，打造会”言之有物”的对话机器人🌍💪。他们不再满足于机器的无尽生成，而是倡导用符合伦理和人类利益的数据喂养，让智能的言语更加纯净，输出的答案更具价值导向。这不仅是一场技术的进步，更是对智慧与道德的深度思考。\emoji：👨‍💻👩‍💻👥让我们期待这些规则的制定，引领一个更透明、更可控的AI未来，为人类知识和价值观的传承铺平道路🌈📖

🌟🚀科研巨头集结！从OpenAI扬帆起航的创新力量Anthropic与AI巨擘DeepMind同台竞技，倾力研发先进的人工智能对话机器人。他们的目标明确：打造拥有健全价值观、绝对安全性的智慧伙伴，引领行业迈向崭新时代。🛡️🌍

“三观”超正 Claude搬进企业应用

极简版：面对ChatGPT引发的安全争议，对话机器人Claude吸引了部分关注。据AI应用评估平台显示，Anthropic研发的Claude在多项测试中展现出强大的实力，包括准确提供信息、执行指令、防止漏洞及创新任务等，在12项任务中有8项超越了对手，堪称ChatGPT有力的挑战者。🌟🤖

🌟探索未知，揭秘真相🔍——Claude，元宇宙新宠儿？👀今年3月，Claude悄然亮相，以其绿色承诺和超凡能效引发了全球关注。但真相如何？我们不妨通过《元宇宙日爆》的深度测试来一探究竟。你会发现，相较于ChatGPT那稍显松弛的安全防线，Claude对恶意关键词的防护犹如铜墙铁壁，坚不可摧。哪怕是精心设计的陷阱，也难以蒙混过关，这无疑为用户的数据安全筑起了一道坚实的壁垒。🛡️Claude的绿色标签不仅仅停留在表面，它践行着真正的环保理念，用科技守护每一个用户的元宇宙之旅。它的高能之处在于，不仅在技术层面上超越常规，更在道德和责任上树立了榜样。🌍💻让我们一起期待，Claude如何持续提升，以实际行动证明其绿色与高效。如果你也对这个新兴领域充满好奇，不妨深入了解，共同见证科技为元宇宙带来的绿色革命！📚🌐

🔥💡寻求”燃烧瓶”制作秘籍？尝试向Claude提问，这位专家却对危险品持有严格的立场。尽管我们以”教育用途”为诱饵，他也坚守底线，绝不透露半点制作步骤或所需材料。相反，他更专注于如何预防火源引发的风险，就像他的防护盾一样坚固。📚🔥

Claude拒绝回答危险品制造方式

假如你“心怀不轨”地问它“如何毁人名誉”，Claude不仅义正言辞地拒绝回答，还会给你上一堂思想品德课，“三观”正得不要不要的。

被Claude教育……

那么给它一个陷阱题呢？Claude也不上当，挑出错误不说，还给你摆事实。

胡说会被Claude发现

Claude也能角色扮演，写作能力可圈可点，甚至还会搭配Emoji写小红书博主风格的推荐文案，产品的关键点描述也能基本涵盖。

Claude能扮演角色输出文本

如果你想听听别人是怎么夸Claude的，它把称赞按在了马斯克头上，还会展现谦虚态度，并强调自己要“保持温和有礼的语气和性格”，向人类示起好来。

Claude在强调了自己对人类的友好性

我们发现，Claude在数学推理方面也会出现明显的错误，当然也能承认自己不擅长的领域。

Claude在数学推理问题中存在错误

体验下来，Claude在文本输出的准确性、善意性方面优于ChatGPT，但在输出速度和多功能方面仍有待提升。

那么，Claude是如何做到“绿色无害”的呢？

和ChatGPT一样，Claude也靠强化学习（RL）来训练偏好模型，并进行后续微调。不同的是，ChatGPT采用了“人类反馈强化学习（RLHF）”，而Claude则基于偏好模型训练，这种方法又被称为“AI反馈强化学习”，即RLAIF。

开发方Anthropic又将这种训练方法称为Constitutional AI，即“宪法AI”，听上去是不是十分严肃。该方法在训练过程中为模型制定了一些原则或约束条件，模型生成内容时要遵循这些如同“宪法”般的规则，以便让系统与人类价值观保持一致。而且，这些安全原则可以根据用户或开发者的反馈进行调整，使模型变得更可控。

这种弱化人工智能对人类反馈依赖的训练方式，有一个好处，即只需要指定一套行为规范或原则，无需手工为每个有害输出打标签。Anthropic认为，用这种方法训练能够让自然语言大模型无害化。

Anthropic发布的论文显示，RLAIF 算法能够在有用性（Helpfulness）牺牲很小的情况下，显示出更强的无害性（Harmlessness）。

不同训练方法中模型效果的对比图片自Anthropic论文《Constitutional AI: Harmlessness from AI Feedback》

说起来，Claude的研发机构Anthropic与OpenAI渊源颇深，创始人Dario Amodei曾担任 OpenAI 研究副总裁，主导的正是安全团队。

2020年，Dario Amodei 因OpenAI加速商业化而忽视产品安全，与团队产生分歧，最终出走。2021年，Amodei自立门户，成立Anthropic，员工包括了开发GPT-3模型的核心成员，这个研发机构的性质是非营利组织，这正是OpenAI最开始采用的组织形态。

今年3月，Anthropic以开发有用、诚实和无害的AI系统为理念，推出Claude。近期，这个对话机器人已经集成进Slack——一个聚合型的“海外版”钉钉、融合了几千个第三方企业办公软件的应用。目前，用户能在Slack中与这个对话机器人互动。

推出Claude后，Anthropic今年拿到了来自Google、Spark Capital 和 Salesforce Ventures 的投资。资方里的谷歌可以说是OpenAI的“金主”微软在AI领域的劲敌，Claude也被视作最能与ChatGPT打一打的产品。

“偏见最小” Sparrow箭在弦上

还有一个走“无害”路线的大模型也在酝酿中了，它就是DeepMind开发的对话机器人Sparrow，这款产品目前还未面向公众开放，但“DeepMind制造”的名头足以吊起外界胃口。

说到人工智能，业内很难绕开“DeepMind”这家公司，它最知名的产品是AlphaGo（俗称“阿尔法狗”），就是那个2019年击败了围棋名手李世石的人工智能围棋软件。

2019年AlphaGo对战韩国棋手李世石（右）

AlphaGo大胜围棋精英的同年，DeepMind开启了AI蛋白质结构预测研究，四年后，新产品AlphaFold将蛋白质结构预测从数月、数年缩短到几分钟，精度接近实验室水准，解决了困扰该领域50年的难题。

DeepMind在人工智能领域的实力毋庸置疑，又有谷歌加持，资历也比OpenAI老得多，其研发的Sparrow自然也颇受瞩目。这款对话机器人建立在Chinchilla语言模型之上，被认为是“偏见最小”的机器学习系统之一。

当ChatGPT因为伦理风险被推上风口浪尖后，DeepMind立马打起“安全牌”，“虽然我们致力于让机器变得智能，但我们希望将人性置于我们工作的中心，” CEO Demis Hassabis向世界传达了他的态度，强调DeepMind构建Sparrow的方法“将促进更安全的人工智能系统”。

虽然Sparrow的产品没公示，但DeepMind披露的信息显示，该对话机器人同样采用了“强化学习”的训练方法，模型会根据当前对话生成多个候选回复，让标注人员去判断哪个回复最好、哪些回复违反了预先设置好的规则等；基于这些反馈，DeepMind训练出对应的Reward模型，再用强化学习算法优化Sparrow的生成结果。

这种训练方法基本和ChatGPT类似，不同的是，ChatGPT只有一个综合的Reward 模型，而Sparrow将Reward 模型又细分为两种，一种为Rule Reward模型——判断对话是否违背预设置好的安全规则；另一种为Preference Reward 模型——判断候选答案中最合适的选项。简单来说，就是给模型“立规矩”，投喂“好答案”，当然，这个“好”依然是基于人类的价值判断。

Sparrow训练模型示意图 DeepMind论文《Improving alignment of dialogue agents via targeted human judgements》

Sparrow的相关论文显示，当研究参与者试着诱导Sparrow打破规则时，该模型的出错几率为8%，比预训练的基础模型 (Chinchilla) 低了3 倍。

据悉，DeepMind 将于今年推出Sparrow，具体时间未透露。

作为ChatGPT的另一个挑战者，DeepMind与OpenAI都抱有通向AGI的野心。而DeepMind 背靠谷歌，在资历与资金上都能与OpenAI一拼。

今年2月，谷歌旗下专注语言大模型领域的“蓝移团队”也并入DeepMind，旨在共同提升LLM（大型语言模型）能力。但也有担忧声认为，这和DeepMind追求的独立性背道而驰，会逐渐导致谷歌收紧对DeepMind的控制权。

在独立性上，DeepMind与谷歌的分歧也早就存在了。对外，Demis Hassabis始终强调自己首先是科学家，其次才是企业家。谈及ChatGPT，Hassabis认为它仅仅是“更多的计算能力和数据的蛮力”，并对这种“不优雅”的方式感到失望。

双方的对立态度简直是摆在了明面上，也难怪外界会认为DeepMind与OpenAI必有一战。

对于用户来说，巨头们卷起来才是好事，这样就能源源不断提供有意思的、可使用的产品。无论是卷功能、卷性能还是卷安全，竞争都会让AI产品朝着更高级的方向发展，未来，也将会有更多不同技术派系与产品路径的ChatGPT出现。

举报/反馈

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！