中文房间思想实验与语言模型探索

ChatGPT与PPT 1年前 (2024) lida

61 0 0

文章主题：中文房间, 自然语言处理, 语言模型, 生成式语言模型

一、ChatGPT是否产生了自我意识

在我们脑海中设想一个场景：一位从未接触过中文的陌生人被限制在一个封闭的空间里。在这个房间里，摆着一本厚厚的中文手册。根据手册中的指导，他能够针对各种中文问题，提供看似专业的答案。这些答案会被传递给外部，让人误以为这位陌生人精通中文。然而，这个场景背后的真实情况是什么呢？这就是著名的中文字典思想实验。即使计算机按照预设的程序生成了一个看似合理的答案，这并不意味着它具备了思考和理解的能力。缺乏思考和理解能力，就无法体现出真正的自我意识。ChatGPT，从工作原理上讲，其实就是一个模拟的“中文房间”。

二、ChatGPT的基本原理

语言模型是一种人工智能技术，其核心是生成式语言模型，也被称为 ChatGPT 中的 G(Generative)。简单来说，语言模型的功能是根据已有的文本上下文，预测下一个词的出现概率。这是一种与人类语言能力类似的直觉经验，无需深入的语法或逻辑分析。通过大量的句子输入，计算机可以模拟这种经验，并利用词语接龙的方式生成连贯的下文。

当我们在构建语言模型时，我们经常会面临一个挑战：如何让模型在生成下一个词时，对上一个词的依赖程度尽可能的大？这是一个非常复杂的问题，因为如果单词之间的距离太远，它们对生成下一个词的影响就会大大降低，从而使得我们难以判断答案的质量。举例来说，如果你要填写这个句子：“他发现了隐藏在这个光鲜亮丽的显赫家族背后令人毛骨悚然的___”，你可能只会想到填“秘密”。然而，真正决定你要填什么词的，并不是“令人毛骨悚然”，而是“发现”、“隐藏”和“背后”这几个词对“秘密”的生成产生的强大约束力。这就是ChatGPT所采用的T（transformer）算法，它还包含了一个重要的机制——注意力机制。注意力机制是指人类在接收信息时，不会试图处理所有的信息，而是会选择性地关注那些关键的信息部分。这是一种非常重要的能力，但大多数普通模型都无法实现。然而，在ChatGPT的算法架构的加持下，我们成功地解决了这个问题，使得模型可以像人类一样生成流畅且自然的文本。这使得ChatGPT在处理长距离依赖问题上表现得非常出色，它的表现甚至超过了人类。

在这里，人工智能的学习过程无需人工干预，仅通过输入大量文本即可实现，这种方式被称为无监督学习。那么，OpenAI究竟使用了多大的文本量来训练AI呢？答案是惊人的45T，这相当于将四大名著（包括《红楼梦》、《西游记》、《水浒传》和《三国演义》）的 combined 字数（约350万字）减少了近一半。换算成数量，这就相当于拥有约472万套四大名著。在内容方面，OpenAI 的无监督学习策略使得模型具备了跨语种能力和基本常识。同时，通过网络语料库的训练，模型学会了应对流行内容和大众对话。而对于书籍，模型则掌握了讲故事的能力。此外，借助期刊的训练，模型还养成了严谨的语言组织习惯。最后，借助GitHub的资源，模型更学会了编程技能。综上所述，这样一个经过深度训练的模型已经拥有了强大的通用语言能力，只需稍作调整就能胜任各种特定任务。因此，无需从零开始训练，这被称为预训练。这就是 ChatGPT 的 P（pre-trained）之处。

然而，我们 must 意识到，输入的文本可能无法提供完美的答案。为了应对这一问题，OpenAI 开发了一系列可能的问题和标准答案，用以微调 GPT-3 的模型参数。这种过程需要人工干预，属于监督学习。经过微调，GPT-3 升级为 GPT-3.5。然而，GPT-3.5 的回答质量参差不齐，仍可能包含诸如暴力性别歧视等内容。为了避免这类情况的发生，ChatGPT 聘请了大量人员对答案进行评分。基于这些评分，OpenAI 训练出一个打分模型，以便自动判断答案的正确性。但要纠正错误的答案，就必须采用强化学习算法。简而言之，就是让 AI 通过不断尝试错误，最终达到最高评分。因此，GPT-3.5 就被升级为 ChatGPT，这就是 ChatGPT 的基本工作原理。

三、ChatGPT火出圈的原因

ChatGPT 的成功不仅源于其卓越的能力，更关键的是它将人工智能与人类互动的难度大幅降低。用户只需一个简单的对话框，便能轻松地获取信息。此外，ChatGPT 从最初的教导 AI 玩游戏的角色转变为了面向广大民众的通用语言，及时调整了发展方向。与谷歌的围棋 AI 阿尔法狗相比，ChatGPT 的应用范围更加广泛，这正是它能在市场上火爆的原因之一。有时候，选择正确的方向比持续前进更为重要。

四、ChatGPT为什么没有出现在中国

在2018年，OpenAI的GPT与谷歌的BERT两个重要的人工智能模型相继公布。尽管它们都基于Transformer技术，但在设计理念上却大相径庭。谷歌BERT的策略是，从句子中移除一个词语，然后让模型去猜测这个词语，这种方法被称为双向自编码。它能够充分利用上下文信息来提高预测的准确性。

openAI GPT的策略是提供一个前文，然后让模型猜测接下来的词汇，接着将猜测的词汇融入前文并再次猜测，这就是所谓的单向自回归。相比之下，BERT在完形填空这类语言理解题目上表现更为出色，而GPT在语言生成方面，即作文方面，具有更优秀的能力，这一特性也直接影响了GPT后来的发展道路。

2019年，百度也推出了基于transformer的语言模型，它选择了BERT路线。此时各模型间的差距还不明显。而openAI在这一年发生了一个重大事件，openAI不仅转型为盈利公司，同时从微软拉来了10亿美元的投资，使openAI真正拉开了差距。Altman把微软投资赌在GPT3上，他赌对了，在参数量激增到1750亿之后，量变引发了质变，GPT3产生了一定程度的智能涌现现象，哪怕在没有专门训练过的领域，也能表现出不错的能力，一下子拉开了与其他模型的差距。

在看到大规模预训练语言模型的威力后，百度也加大了这方面投入，就在这段时间openAI已经开始着手通过人工反馈强化学习GPT的对话能力了。最终2022年底chatGPT横空出世并火出圈，谷歌和百度只能匆忙应对。之后谷歌发布BERT，百度发布文心一言。但几乎同时支持图像作为输入的GPT4又发布了，ChatGPT又与微软的搜索引擎和办公软件整合了。你的对手永远不会停下来等你。

差距能不能弥补呢？第一，从模型自身角度来看，目前文心一言比较严重的问题是，还没有形成有效的思维链，所谓思维链并不是面对复杂问题，AI也一定要像人类那样一步步思考，而是从生成式语言的机制来说，结果好坏完全是由上文决定的，如果上文没有足够的有效信息，是会影响到下文生成质量的。文心一言在很多问题上更倾向于省略中间环节直接生成结果，这导致它的智能不具备泛化性。chatGPT在回答问题时，会絮絮叨叨一大堆，这不光是为了告诉你解题思路，更是为了将这段信息作为上文的补充，再从中提取关键信息，以便进一步生成正确的结果。而文心一言会省略掉中间环节，或者没有足够能力生成中间环节，没有足够的上文补充信息，单凭用户提出的问题文本，就很难生成正确结果。思维链的缺失是模型的硬伤很难弥补。

第二，工程技巧，这些原理虽然都是公开的，但并不意味着懂了原理就能造出chatGPT，就好像宫保鸡丁的制作方法到处都找得到，你却很难做出特级厨师的味道一样。ChatGPT的研发包含了大量不为人知的工程技巧，很难完全复制。结合目前的发布会和一些信息，文心一言极有可能不像chatGPT单靠一个通用的生成式模型，来应对所有问题，而是以Ernie3.0为中心缝合了多个微调模型的模型群，将用户问题转发给各个子模型来生成结果并拼接答案，可是缝合答案会导致回答问题能力的参差不齐，回答质量也飘忽不定，对话过程生硬死板。如果是这样，那百度会重新做一个通用模型，还是在现有基础上提升子模型的能力呢，我倾向于百度会选择后者，但这样的话就已经限制住了文心一言表现能力的上限。

第三，算力。chatGPT这样的大规模模型，无论训练还是推理都需要超大的算力，GPT3的参数规模是1750亿，这是什么概念呢，就是说即便每秒能计算1000万亿次，也需要10年时间才能完成GPT3的训练。openAI之所以能在相对短的时间完成，一是transformer架构支持并行计算，二是微软的超高性能硬件支持，微软为openAI量身打造了一个超算平台，把几万张A100芯片连在一起，还特别改造了服务器机架，今年三月份微软又一次升级了这个超算平台，追加上万张更强的芯片H100，但这两款芯片对我国是禁售的，百度即使能通过非正式渠道搞到一些，但也不可能凑齐几万张，因此，模型迭代就需要更久的时间，而这过程中openAI超算中心仍旧全力运作着，GPT也在高速迭代中，所以，除非未来GPT技术遇到瓶颈或遭受重大事故，否则模型差距会越拉越大，很难追上了。

五、chatGPT的影响

openAI开放插件开发后，office、adobe等各大应用迫不及待将GPT的能力融入自家应用，这也反哺了GPT，无限延展他在各个行业的影响力，目前受影响的还只是翻译，文案，咨询师等与文字密切相关的职业，但从长远角度看，一切能将产出数字化的职业都将面临威胁，而GPT在干掉大量岗位的同时，又很难带来新的增量，这就进一步加剧内卷。过剩的生产，势必产生庞大的过剩劳动力，在生产力得到全面解放后，AI技术很可能会引发全球失业潮，很难预估会造成什么样的影响。

但可以预测的是，GPT就像以往工业革命发明的机器，一旦提高生产力的技术得以落地，其发展趋势就不可逆，很难因个人意志而转移。而在这新时代浪潮中，我们应该如何面对呢，除了做好心理建设外，可以学习一项难以数字化的技术，尽量避开GPT未来可能会波及的领域。对于学生来说，GPT目前已经可以在应试考试中轻易超过大多数学生。这意味着未来社会对普通做题家的需求会减少，所以，培养创造力和思维能力，才能使学生在毕业后继续保持竞争力。