文章主题:
ChatGPT 热潮已经持续月余,目前热度依然不减。根据最新的消息,ChatGPT 的升级版 GPT-4 也已蓄势待发。回首 ChatGPT 的这波热潮,ChatGPT 是什么(定义、能力)、从哪来(如何发展)、去往哪(给行业带来哪些影响)。本文围绕这三点,力求将这几个问题阐述清楚。最后也带来这波热潮的相关思考,与大家分享。
01ChatGPT从哪来?
ChatGPT 是人工智能研究机构 OpenAI 在 2022 年 11 月 30 日发布的聊天机器人程序,是一个能够进行连续对话、综合上下文内容进行交流的自然语言处理(NLP)模型。同时能够进行信息检索、写作辅助、问题解答、代码生成等多项工作。
ChatGPT 的全称是 Chat Generative Pre-trained Transformer。是一种可以用于聊天的生成式预训练 Transformer。这里的 Transformer 是目前大模型中的基础结构。可以理解为 ChatGPT 是一个用于聊天的预训练语言大模型。
1.1 ChatGPT的能力之信息检索
ChatGPT 可以做信息检索,比如,你可以问她是否了解中国移动云能力中心,他会介绍中国移动云能力中心的主要业务内容;你可以问她 2018 年世界杯的世界杯冠军是哪个国家。

1.2 ChatGPT的能力之推理(Excel为例)
ChatGPT 具有超越以往的对话机器人的表现,除了传统的信息检索能力之外,也因为她还具备一定的推理能力。我们以常见的 Excel 处理为例。
首先可以让它生成一个虚拟的信息表格:包含姓名、年龄、出生日期、毕业学校、工作地点。

我要求她写一个Excel 函数来查找出出生日期在 1996 年之前的人的工作地点。

她会直接告诉你 Excel 函数的写法和适用的情境。而且对函数中的内容进行解释。Office 系列软件也支持 VBA 语言编程。这里你可以进一步要求她,用 VBA 语言来编写上面这个函数。

同时可以看到,函数是对每一部分都加入了中文注释,便于理解、后续修改。
要求她写一个匹配中国手机号码格式的 Python 正则化表达式:

她不仅能够给出中国手机号码的匹配,而且还考虑到了如果需要匹配其他国家的电话号码,需要修改哪些内容。
1.3 ChatGPT的能力之写作辅助

她可以把 NLP 中几个主流的研究方向都列举出来。

ChatGPT从哪来?
2.1 ChatGPT如何诞生
促成 ChatGPT 诞生的因素有很多。这里笔者挑选其中认为最重要的两个因素:一个机构:OpenAI 和一个人:Ilya Sutskever。

2018 年,OpenAI 研发的 Five 人工智能选手,在 Dota2 游戏中战胜人类选手。同年,OpenAI 发布了 GPT-1。2019 年,微软向 OpenAI 投资 10 亿美元,获得 OpenAI 技术的商业化授权。2020 年 OpenAI 发布 OpenAI API,通过对外提供 AI 能力开始进行商业化运作。2022 年 11 月 30 日,OpenAI 发布 ChatGPT,1 月中旬微软向 OpenAI 追加 100 亿美元投资,2 月 8 日发布集成了 ChatGPT 的 new Bing 新一代搜索引擎。
Ilya Sutskever:

Ilya 是 OpenAI 的联合创始人和首席科学家。正是在他的领导下,OpenAI 在开发尖端技术和推动人工智能领域的发展方面取得了重大进展。Ilya 早年师从深度学习泰斗 Geoffery Hinton。2011 年就跟导师合作构想通用人工智能(Artificial General Intelligence, AGI)。2012 年作为共同作者发表了深度学习领域的开创性工作 AlexNet。
2.2 ChatGPT进化史

ChatGPT 是由 GPT-1 逐步发展而来。GPT 系列模型的参数量越来越大,以数量级增长,规模由 GPT-1 的 1.17 亿参数,GPT-2 的 15 亿参数,逐步发展到 GPT-3 的 1750 亿参数。而 ChatGPT 可以视为 GPT-3.5。GPT 系列模型属于生成式预训练大模型,其技术范式不同于另一种较为流行的 BERT 语言模型。BERT 语言模型采用的是“预训练+微调”的技术范式。
2.3 ChatGPT核心技术
ChatGPT 涉及几项关键技术:
超大规模预训练模型
Scaling law:大模型研究人员发现,模型能力随着模型参数的对数级增长而增强,只有足够大(大于600 亿参数)的模型才能涌现推理能力。
Prompt/Instruction learning
各种自然语言任务在 ChatGPT 中统一为 Prompt 的形式;通过 Instruction learning 等方式提高模型零样本任务处理能力。
思维链(Chain of Though)
研究发现,通过使用代码数据进行训练,语言模型出现了推理能力。这可能是因为代码实现一般都带有逻辑性(包括代码注释)。模型学到了代码的逻辑处理问题的能力。
RLHF(Reinforcement Learning from Human Feedback)
2.4 ChatGPT训练过程

ChatGPT去往哪
3.1 ChatGPT的局限

ChatGPT 目前的信息准确性还不足,比如还是之前的世界杯场景。如果我们紧接着强调:“不,2018 年就是德国队获得了冠军”(给模型灌输错误事实),那么模型会否认自己之前的正确认知,按照提问者的倾向去回答问题。

3.2 ChatGPT的影响

从国际行业巨头的动作看,微软宣布旗下Bing搜索引擎、Office套件全系接入ChatGPT,其云服务Azure为OpenAI独家供应商。亚马逊投资对话大模型初创公司,计划将类ChatGPT机器人接入到自己的云服务平台AWS,提供运维、客服咨询服务。一系列基于文本生成技术的AI产品涌现出来,其中一些获得了巨大的成功。以文本生成服务的初创公司Jasper AI为例,2021年1月上线产品第一个版本,2022年10月融资1.25亿美元,2022年收入7500万美元。


ChatGPT 将大模型研发的入门门槛提到了非常高的水平。目前行业巨头已经储备了相当的算力,大模型生态逐步形成。在国内,能够进行大模型研究的机构屈指可数,除了头部企业,只有少数政府支持、自有算力的研究机构可以参与进来。

ChatGPT带来的几点思考
OpenAI为什么成功



AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!