盘和林：发展“类ChatGPT”产品，中国缺“心”和“芯”｜封面天天见

学会提问 2年前 (2023) lida

70 0 0

封面新闻记者吴雨佳

2022年11月，OpenAI发布了ChatGPT，继而在短短2个月时间就获得了上亿用户。ChatGPT背后是2021年OpenAI发布的GPT3.0技术，由于在GPT3.0技术上做了一些优化，所以ChatGPT又被认为是GPT3.5版本，而在3月14，OpenAI再次发布了新版本GPT4.0，并将其作为plus订阅服务发布，新版本再次掀起热潮，订阅支付通道一度拥堵瘫痪。

ChatGPT一次又一次掀起热潮，是因为ChatGPT突破了人工智能应用瓶颈，未来以生成式AI为代表的人工智能产业将进入全面爆发阶段。面对科技的新一轮爆发，中国做好准备了吗？3月23日，浙江大学国际联合商学院数字经济与金融创新研究中心联席主任、研究员盘和林分享了他的观点。

盘和林表示，ChatGPT是生成式AI，其通过机器学习来训练AI，用上一个字生成下一个字，再用下一个字生成下下个字。首先，ChatGPT采用非监督式学习，用海量语料来教会AI说话方式。随后，ChatGPT用监督式学习来辅助矫正语言规范，通过标注语料进行机器训练，让ChatGPT知道面对某个问题应该如何生成回答。最后，当ChatGPT能够回答问题，逐字生成答案的时候，再用强化学习来给ChatGPT的回答打分。简单说，通过填鸭式的非监督学习，ChatGPT学会了说句子，通过范例的、预标注的预料进行监督式学习，ChatGPT学会了回答问题，再通过强化学习来了解人类的“回答偏好”，多给高评分的答案。

为什么ChatGPT需求爆发，而其他AI没有？盘和林总结称ChatGPT有几个独到之处。其一，ChatGPT是大模型。对监督式、非监督式、强化学习的原理，在AI产业里早已是常识性的技术认知。但自然语言处理这个领域太过复杂，因为人类说话非常随机，所以之前AI企业将机器学习用在很多领域，语音识别、机器视觉、图像识别（人脸、医学影像）、蛋白质特征预测、文本识别等等，但很少将机器学习用在自然语言处理。“念头往往一闪而过，但付诸实施的往往是少数”。而OpenAI耐着性子竟然坚持了下来。

其二，ChatGPT是机器学习，不是数据库。普遍以来，AI领域认为机器学习不适合自然语言处理，所以一直以来，自然语言处理采用逻辑推理的AI实现方式。建立一个语料数据库，在语料数据之间建立关联性，比如知识图谱，再通过逻辑搜索的方式，从数据库中找到对应答案。但ChatGPT并没有数据库，ChatGPT采用机器学习，是一种AI能力集成，而不是一个数据库集成。也正因为ChatGPT的这个属性，ChatGPT并不局限在文本对答。也正因为如此，ChatGPT能够进入任何领域，比如和搜索结合，比如和办公软件结合。当前尤其善于处理文本，比如编程和学术教育领域，ChatGPT的功能几乎是通用的。ChatGPT具备完善的表达能力，且通过对不同领域内容的学习，ChatGPT最终会变得无所不能。而这些在数据库和逻辑搜索下是无法实现的。

其三，ChatGPT有强大的上下文语义理解能力。用户可以让ChatGPT扮演角色，ChatGPT可以在用户引导下故意给出“符合用户要求”的错误答案。用户在提问的时候，ChatGPT也会引导用户补充问题信息，并最终给出符合逻辑的答案。过去我们遇到的AI聊天软件有两种：一种是基于数据库的，必须按照数据库给定的提问方式，另一种是基于机器学习，但只是一问一答。结合上下文语义理解的ChatGPT能够更好的找到用户的需求点，给出适合用户最想要的答案。

综上，ChatGPT的强大在于，其本身是一种机器能力，而不是数据库，ChatGPT自身的语义理解能力、语言组织能力、搜索能力才是其本质，这也使得ChatGPT可以套用在任何领域。而对于人类来说，ChatGPT是提升人类认知水平的一个重要工具。

互联网持续繁荣，人类面临的难题已经不再是信息、知识获取，与此相反，人类现在处在信息过载，莫衷一是的状态。所以盘和林认为，互联网时代，最为重要的一种能力是“搜索力”，是如何通过算法和搜索在浩如烟海的互联网信息中找到答案的问题。

ChatGPT提升了人类的搜索力。当ChatGPT嫁接到搜索引擎之后，ChatGPT就能从海量信息中迅速找到你要的信息，比如你是程序员，ChatGPT可以以自身能力组织出一段代码，也许这段代码的很多段落零散的分布在各类网站上，ChatGPT减少了你浏览各类网站找代码范例的时间。同样的情况，也可以发生在PPT制作，论文书写，考试答题上。

当然ChatGPT并不局限于搜索力，它不仅能找到知识点，还能通过自己的语言能力表达出来。比如和办公软件结合。你有一组数据，想做一个PPT，有了ChatGPT，可以直接生成若干方案。

因此，他认为ChatGPT对于人类是一种能力加持，一种能够大幅度提高人类生产力的工具性能力。

盘和林表示，如果ChatGPT是一种生产力提升工具，那么拒绝生产力工具是不明智的，中国需要生产力工具。人类社会的每一次科技进步，最终结果都是人类去适应科技。在工业时代，少部分国家采用闭关锁国的方式来对抗科技进步，但最后多以失败告终。所以对于中国，ChatGPT是需要的。但围绕ChatGPT，依然存在几个问题：

问题一：自力更生等待国产ChatGPT，还是引进ChatGPT？

现阶段直接引进ChatGPT存在制度上的障碍，因为ChatGPT是生成式AI，它背后不是数据库，它会随机生成答案，而有些随机生成内容是违规的，比如被别有用心的用户引导给出了“恐怖主义”言论。当然，ChatGPT也是可以调教的，前面说过，生成式AI可以通过范例的预标注词条进行监督式学习，也可以通过评分来规范回答，但ChatGPT的母公司OpenAI毕竟是美国公司，美国和中国存在很大的文化差异，这些文化差异会让ChatGPT在中国出现水土不服甚至犯法。

但反过来说，国内如今缺少ChatGPT的对标产品。比如百度文心一言，在中文内容应答方面和ChatGPT不相上下，但如果你将场景切换到编程代码，实际上百度文心一言和ChatGPT有很大差距。换句话说对生产力支持方面，百度文心一言有欠缺。故而，如果你不让ChatGPT进来，那么就没办法短期内提高生产力。而你要ChatGPT进来，则需要适配规则提高对生成式AI内容生成的包容性。

进一步可以演化为两个选项：一个选项是通过特别规则来引进ChatGPT，人工智能不具备主观恶意，回答是“有口无心”，给予适度包容，让ChatGPT和国内各个领域迅速结合，提升生产力水平，当然，也要对教育等领域进行改革，以适应ChatGPT带来的改变。另一个选项是先拒绝ChatGPT，等待未来国产ChatGPT的平替产品。OpenAI成立至今不到10年，却已有如此成就，ChatGPT的形成原理并不深奥，关键还是要大量资金、人才、时间去烧出一个技术未来，需要排除万难持续投入，通过“你追我赶”，预期未来5年内必然出现类ChatGPT的产品。

问题二：中国科技企业在研发类ChatGPT过程中的瓶颈在哪？

在生成式AI领域，中国科技企业缺两个东西：一个是心，是耐心和信心。另一个是芯，是算力芯片。

为什么说缺耐心和信心？

耐心方面，不只是中国企业缺，实际上在OpenAI推出ChatGPT之前，美国硅谷科技巨头也缺耐心，比如一直标榜人工智能领头羊的谷歌仓促应战，结果产品体验并不能达到用户预期，结果谷歌股价暴跌。最近几十年，机器学习是人工智能领域的显学，尤其是深度学习等算法，但之前大多数科技企业都因为生成式AI投入周期长，成本高而忽视了这条路线。企业的本质是盈利，会考虑成本效益问题。而OpenAI比较特殊，他之前是非盈利组织，后来微软入主，转变为有限盈利组织，微软只负责给钱，不干预研发，OpenAI从从容容的在几年内烧掉超过40亿美元的资金，未来还要烧掉百亿美元资金优化。

OpenAI在一个细分领域投入如此集中，周期如此之长，且在之前并没有体现出应用价值，而ChatGPT的能力一旦表现出来，尤其是其对接更多应用的接口能力。便出现“十年寒窗无人闻，一朝成名天下知。”的状况。而当前聚拢到生成式AI的科技公司，无一例外的需要再走一遍OpenAI走过的路，所以耐心是必须的。比过去更好的地方在于，我们已经看到生成式AI的前景，当前这个领域不乏资本支持。

耐心之外，还有信心。导致中国科技企业信心不足的原因如下：

其一、很多AI领域的从业者认为：当前中文互联网存在高质量语料不足的问题。这个问题的因素很复杂，但换个角度看，中国需要在高质量语料数据上投入更大成本。

其二、很多AI领域的从业者担心合规性问题。和ChatGPT引进的问题类似，谁都担心自己辛苦开发的成果不能应用。但这里并非无“技”可施。监督学习和强化学习本身会规范生成式AI的生成，法规只需要对少数情况给予适度包容即可。比如用户恶意引导AI“非法回答”要明确是用户的责任。

其三、很多AI领域的从业者担心算力受制于人。之前英特尔就A100显卡曾有过对华禁售，而ChatGPT成功的背后是微软为其部署的超过3万张的A100显卡，智算中心算力需求和数据中心并不相同，其核心主要还是在GPU芯片，我国在高端芯片上的瓶颈会限制中国生成式AI发展。

综上，中国“类ChatGPT”产品还需要算力、数据上的支持，也需要制度、法规上的支持，面对科技革命，我们依然要落地到软环境和硬环境两方面，软环境就是合规性和产权规则，只有明确制度规范才能让企业有信心加大投入，所谓“恒产者恒心”。硬环境就是硬件设施，就是算力和数据上的支持。

“生成式AI的时代已经到来，AI从玩具转变为工具。由于ChatGPT经历过用户使用验证，所以生成式AI必然不是一阵风的热点概念，而是长期的、重要的科技高地，其产生意义可能类似于互联网，是改变人类生产力水平的关键应用。面对如此大的科技变革，中国需要抓紧转向去适应科技的变化，将科技转化为生产力，为我所用。与此同时，我们也要不忘初心，牢牢抓住“自力更生”这一点，提升我国在这一领域的技术自主能力。我们需要对生成式AI发展保持耐心，因为这是一个长周期的投入过程，生成式AI不能一蹴而就，当前要做的，是优化好环境生态，一步一个脚印，推动生成式AI产业发展。”盘和林这样说。

举报/反馈