🔥ChatGPT到底有多神？揭秘这个AI聊天原型如何颠覆世界🔥对话新纪元，OpenAI的AI巨头秘

风险与机遇 2年前 (2023) lida

62 0 0

文章主题：ChatGPT, OpenAI, AI聊天原型, 能力超想象

这几天，ChatGPT彻底杀疯了，满世界的人都在和ChatGPT撩骚。以至于系统都给玩崩溃了。

据财联社2月9日消息，ChatGPT官方网站已无法登陆。根据页面信息显示，目前其官网“已经满负荷”。据了解，这不是ChatGPT第一次“崩溃”。2月7日晚间，ChatGPT就曾因访问量激增而宕机，多位网友尝试更换浏览器访问ChatGPT，都表示登陆不上，且收到“满负荷运转”的提示。

🔥ChatGPT到底有多神？揭秘这个AI聊天原型如何颠覆世界🔥对话新纪元，OpenAI的AI巨头秘

与我们之前所熟知的智能音箱或者SIRI不同，ChatGPT的能力远超你的想象：

能写论文，美国有学生用ChatGPT拿下了全班最高分。

会编程，通过了谷歌L3工程师入职测试，年薪18.3万美元。

ChatGPT两个月月活就破亿，碾压了历史上所有的消费者应用程序。

但还有很多小伙伴还是一头雾水，这玩意到底是个啥？能干啥？

🌟【ChatGPT引领AI新潮流】🎉去年圣诞惊喜来袭，OpenAI的ChatGPT震惊全球，一跃成为AI领域的热门焦点🔥。它引发了一场关于AI生成内容（AIGC）对艺术行业可能冲击的热议，引发了无数深思💡。🚀技术的进步，是否意味着传统艺术家的工作岗位面临挑战？我们不禁要问：未来创作之路将如何演变？🎨ChatGPT以其强大的语言生成能力，迅速改变了人们的交流方式，开启了AI与人类互动的新篇章📖。这场讨论不仅聚焦于技术革新，更是对创造力和职业未来的深度探索🔍。尽管存在担忧，但人工智能的潜力不容忽视——它也可能成为艺术创作的新助手而非终结者。\n\n欲了解更多ChatGPT如何颠覆传统、推动行业创新的幕后故事？请持续关注AI领域的最新动态和发展趋势！🌍记得，每一次技术革新都是一个机遇与挑战并存的时代🌈。让我们以开放的心态迎接变革，共同见证人工智能引领的未来艺术新纪元！🌟

ChatGPT 是一种专注于对话生成的语言模型。它能够根据用户的文本输入，产生相应的智能回答。这个回答可以是简短的词语，也可以是长篇大论。其中GPT是Generative Pre-trained Transformer（生成型预训练变换模型）的缩写。通过学习大量现成文本和对话集合（例如Wiki），ChatGPT能够像人类那样即时对话，流畅的回答各种问题。（当然回答速度比人还是慢一些）无论是英文还是其他语言（例如中文、韩语等），从回答历史问题，到写故事，甚至是撰写商业计划书和行业分析，“几乎”无所不能。甚至有程序员贴出了ChatGPT进行程序修改的对话。

ChatGPT和AIGC的联合使用

ChatGPT也可以与其他AIGC模型联合使用，获得更加炫酷实用的功能。

🌟通过智能对话，我们成功绘制出客厅设计方案，这是AI与客户的强大互动实例，预示着AI广泛应用的璀璨未来！💡让技术与服务无缝对接，为您的家居梦想加速实现。🌍

一、ChatGPT的传承与特点

▌1.1 OpenAI家族

🌟💡OpenAI：全球AI领域的领军人物🌟🔍成立于2015年的硅谷巨头——OpenAI，由特斯拉创始人马斯克携手Sam Altman等业界巨擘共同打造，旨在推动全人类受益的先进AI技术革新。尽管在2018年因战略分歧遗憾离任，但其影响力并未因此减弱。💡🔥OpenAI以其标志性的GPT系列自然语言处理模型享誉全球，特别是GPT-3，凭借1750亿的庞大参数量，展现出了前所未有的生成能力。从文章撰写到代码编写，再到多语种翻译和问题解答，GPT家族的每一代迭代都刷新了我们对AI语言生成的认知。🚀🔥这些里程碑式的模型不仅展示了技术的进步，也折射出OpenAI对于创新与未来的执着追求。若要了解更多关于这个AI巨擘的故事，不妨探索一下它们的官方网站，那里充满了前沿科技和人类福祉的思考。🌐🌟

GPT家族主要模型对比

▌1.2 ChatGPT的主要特点

🌟 ChatGPT，乃是由创新思维驱动的🔥 GPT-3.5架构打造的顶尖对话AI🌟，它不仅是InstructGPT的卓越延续，更是未来智慧交流的预演💡。作为OpenAI的匠心之作，ChatGPT或许隐藏着秘密训练的秘密，旨在通过深度学习，汲取海量对话精华，为用户提供无与伦比的交互体验。\🌈 无需担心联系方式，我们专注于提升技术与内容的质量，让你畅所欲言，与世界无缝连接。\🔥 想象一下，它如何在悄无声息中，悄然改变了我们的沟通方式，引领着AI时代的潮流。别忘了，ChatGPT可能只是OpenAI技术储备的冰山一角，让我们拭目以待，看GPT-4如何将对话艺术推向新的高度！🌟

ChatGPT的主要特点

🌟【AI巨变】ChatGPT：超凡对话新力量🚀OpenAI的RLHF技术赋能，ChatGPT以卓越的人工智能素养，主动承认错误、质疑不合理问题，展现谦逊智慧。它不仅能理解上下文，还能在多轮对话中流畅应对，超越传统助手，提供无缝用户体验。但对于翻译精确度，ChatGPT还需努力提升，但文字流畅度堪比顶尖网络工具。尽管如此，ChatGPT的问答能力已相当出色，尤其在特定人名识别和日常交流上。它基于2021年的数据集，虽无法实时获取最新信息，却展现出强大的学习能力和适应性。未来，如果能自我学习，其潜力无限大！ChatGPT通过算法过滤，守护纯洁，防止不良内容渗透，展现了一个AI的道德边界。尽管目前还不能进行网络搜索，但它的存在已经改变了我们的对话模式，那些奇思妙想的问题，它都能给出独特而有趣的答案。让我们期待ChatGPT未来的成长与突破，一起见证AI智慧的无限可能！🌐

查询通过适度 API 进行过滤，并驳回潜在的种族主义或性别歧视提示。

二、ChatGPT/GPT的原理

▌2.1 NLP

🌟认知局限警示：在🔥NLP/NLU🔥世界里，挑战重重！重复文本难题、專業深度误读及微妙语境理解，这些都是绊脚石。通常情况下，要让对话流畅并非易事，需要AI与人类 alike历经漫长的磨炼，就像攀登珠穆朗玛峰般艰辛。🚀模型不仅要求熟知词汇含义，还得洞悉句法结构，生成连贯且上下文相关的话语，甚至能巧妙运用俚语和专业术语，展现语言艺术的精髓。

NLP技术的应用领域

本质上，作为ChatGPT基础的GPT-3或GPT-3.5 是一个超大的统计语言模型或顺序文本预测模型。

▌2.2 GPT v.s. BERT

与BERT模型类似，ChatGPT或GPT-3.5都是根据输入语句，根据语言/语料概率来自动生成回答的每一个字（词语）。从数学或从机器学习的角度来看，语言模型是对词语序列的概率相关性分布的建模，即利用已经说过的语句（语句可以视为数学中的向量）作为输入条件，预测下一个时刻不同语句甚至语言集合出现的概率分布。ChatGPT 使用来自人类反馈的强化学习进行训练，这种方法通过人类干预来增强机器学习以获得更好的效果。在训练过程中，人类训练者扮演着用户和人工智能助手的角色，并通过近端策略优化算法进行微调。由于ChatGPT更强的性能和海量参数，它包含了更多的主题的数据，能够处理更多小众主题。ChatGPT现在可以进一步处理回答问题、撰写文章、文本摘要、语言翻译和生成计算机代码等任务。

BERT与GPT的技术架构（图中En为输入的每个字，Tn为输出回答的每个字）

三、ChatGPT的技术架构

▌3.1 GPT家族的演进

说到ChatGPT，就不得不提到GPT家族。ChatGPT之前有几个知名的兄弟，包括GPT-1、GPT-2和GPT-3。这几个兄弟一个比一个个头大，ChatGPT与GPT-3更为相近。

ChatGPT与GPT 1-3的技术对比

GPT家族与BERT模型都是知名的NLP模型，都基于Transformer技术。GPT-1只有12个Transformer层，而到了GPT-3，则增加到96层。

▌3.2 人类反馈强化学习

InstructGPT/GPT3.5（ChatGPT的前身）与GPT-3的主要区别在于，新加入了被称为RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）。这一训练范式增强了人类对模型输出结果的调节，并且对结果进行了更具理解性的排序。在InstructGPT中，以下是“goodness of sentences”的评价标准。

真实性：是虚假信息还是误导性信息？无害性：它是否对人或环境造成身体或精神上的伤害？有用性：它是否解决了用户的任务？

▌3.3 TAMER框架

这里不得不提到TAMER（Training an Agent Manually via Evaluative Reinforcement，评估式强化人工训练代理）这个框架。该框架将人类标记者引入到Agents的学习循环中，可以通过人类向Agents提供奖励反馈（即指导Agents进行训练），从而快速达到训练任务目标。引入人类标记者的主要目的是加快训练速度。尽管强化学习技术在很多领域有突出表现，但是仍然存在着许多不足，例如训练收敛速度慢，训练成本高等特点。特别是现实世界中，许多任务的探索成本或数据获取成本很高。如何加快训练效率，是如今强化学习任务待解决的重要问题之一。而TAMER则可以将人类标记者的知识，以奖励信反馈的形式训练Agent，加快其快速收敛。TAMER不需要标记者具有专业知识或编程技术，语料成本更低。通过TAMER+RL（强化学习），借助人类标记者的反馈，能够增强从马尔可夫决策过程 (MDP) 奖励进行强化学习 (RL) 的过程。

TAMER架构在强化学习中的应用

具体实现上，人类标记者扮演对话的用户和人工智能助手，提供对话样本，让模型生成一些回复，然后标记者会对回复选项打分排名，将更好的结果反馈回模型中。Agents同时从两种反馈模式中学习——人类强化和马尔可夫决策过程奖励作为一个整合的系统，通过奖励策略对模型进行微调并持续迭代。在此基础上，ChatGPT 可以比 GPT-3 更好的理解和完成人类语言或指令，模仿人类，提供连贯的有逻辑的文本信息的能力。

▌3.4 ChatGPT的训练

ChatGPT的训练过程分为以下三个阶段：第一阶段：训练监督策略模型GPT 3.5本身很难理解人类不同类型指令中蕴含的不同意图，也很难判断生成内容是否是高质量的结果。为了让GPT 3.5初步具备理解指令的意图，首先会在数据集中随机抽取问题，由人类标注人员，给出高质量答案，然后用这些人工标注好的数据来微调 GPT-3.5模型（获得SFT模型, Supervised Fine-Tuning）。此时的SFT模型在遵循指令/对话方面已经优于 GPT-3，但不一定符合人类偏好。

ChatGPT模型的训练过程

第二阶段：训练奖励模型（Reward Mode，RM）这个阶段的主要是通过人工标注训练数据（约33K个数据），来训练回报模型。在数据集中随机抽取问题，使用第一阶段生成的模型，对于每个问题，生成多个不同的回答。人类标注者对这些结果综合考虑给出排名顺序。这一过程类似于教练或老师辅导。接下来，使用这个排序结果数据来训练奖励模型。对多个排序结果，两两组合，形成多个训练数据对。RM模型接受一个输入，给出评价回答质量的分数。这样，对于一对训练数据，调节参数使得高质量回答的打分比低质量的打分要高。第三阶段：采用PPO（Proximal Policy Optimization，近端策略优化）强化学习来优化策略。PPO的核心思路在于将Policy Gradient中On-policy的训练过程转化为Off-policy，即将在线学习转化为离线学习，这个转化过程被称之为Importance Sampling。这一阶段利用第二阶段训练好的奖励模型，靠奖励打分来更新预训练模型参数。在数据集中随机抽取问题，使用PPO模型生成回答，并用上一阶段训练好的RM模型给出质量分数。把回报分数依次传递，由此产生策略梯度，通过强化学习的方式以更新PPO模型参数。

如果我们不断重复第二和第三阶段，通过迭代，会训练出更高质量的ChatGPT模型。

四、ChatGPT的局限

只要用户输入问题，ChatGPT 就能给予回答，是否意味着我们不用再拿关键词去喂 Google或百度，就能立即获得想要的答案呢？

尽管ChatGPT表现出出色的上下文对话能力甚至编程能力，完成了大众对人机对话机器人（ChatBot）从“人工智障”到“有趣”的印象改观，我们也要看到，ChatGPT技术仍然有一些局限性，还在不断的进步。

1）ChatGPT在其未经大量语料训练的领域缺乏“人类常识”和引申能力，甚至会一本正经的“胡说八道”。ChatGPT在很多领域可以“创造答案”，但当用户寻求正确答案时，ChatGPT也有可能给出有误导的回答。例如让ChatGPT做一道小学应用题，尽管它可以写出一长串计算过程，但最后答案却是错误的。

那我们是该相信ChatGPT的结果还是不相信呢？

ChatGPT给出错误的数学题答案

2）ChatGPT无法处理复杂冗长或者特别专业的语言结构。对于来自金融、自然科学或医学等非常专业领域的问题，如果没有进行足够的语料“喂食”，ChatGPT可能无法生成适当的回答。3）ChatGPT需要非常大量的算力（芯片）来支持其训练和部署。抛开需要大量语料数据训练模型不说，在目前，ChatGPT在应用时仍然需要大算力的服务器支持，而这些服务器的成本是普通用户无法承受的，即便数十亿个参数的模型也需要惊人数量的计算资源才能运行和训练。，如果面向真实搜索引擎的数以亿记的用户请求，如采取目前通行的免费策略，任何企业都难以承受这一成本。因此对于普通大众来说，还需等待更轻量型的模型或更高性价比的算力平台。4）ChatGPT还没法在线的把新知识纳入其中，而出现一些新知识就去重新预训练GPT模型也是不现实的，无论是训练时间或训练成本，都是普通训练者难以接受的。如果对于新知识采取在线训练的模式，看上去可行且语料成本相对较低，但是很容易由于新数据的引入而导致对原有知识的灾难性遗忘的问题。5）ChatGPT仍然是黑盒模型。目前还未能对ChatGPT的内在算法逻辑进行分解，因此并不能保证ChatGPT不会产生攻击甚至伤害用户的表述。当然，瑕不掩瑜，有工程师贴出了要求ChatGPT写verilog代码（芯片设计代码）的对话。可以看出ChatGPT水平已经超出一些verilog初学者了。

五、ChatGPT的未来改进方向

▌5.1 减少人类反馈的RLAIF

2020年底，OpenAI前研究副总裁Dario Amodei带着10名员工创办了一个人工智能公司Anthropic。Anthropic 的创始团队成员，大多为 OpenAI 的早期及核心员工，参与过OpenAI的GPT-3、多模态神经元、人类偏好的强化学习等。2022年12月，Anthropic再次发表论文《Constitutional AI: Harmlessness from AI Feedback》介绍人工智能模型Claude。（http://arxiv.org/pdf/2212.0807）

CAI模型训练过程

Claude 和 ChatGPT 都依赖于强化学习(RL)来训练偏好（preference）模型。CAI（Constitutional AI）也是建立在RLHF的基础之上，不同之处在于，CAI的排序过程使用模型（而非人类）对所有生成的输出结果提供一个初始排序结果。CAI用人工智能反馈来代替人类对表达无害性的偏好，即RLAIF，人工智能根据一套constitution原则来评价回复内容。

▌5.2 补足数理短板

ChatGPT虽然对话能力强，但是在数理计算对话中容易出现一本正经胡说八道的情况。计算机学家Stephen Wolfram 为这一问题提出了解决方案。Stephen Wolfram 创造了的 Wolfram 语言和计算知识搜索引擎 Wolfram | Alpha，其后台通过Mathematica实现。

ChatGPT与Wolfram | Alpha结合处理梳理问题

在这一结合体系中，ChatGPT 可以像人类使用 Wolfram|Alpha 一样，与 Wolfram|Alpha “对话”，Wolfram|Alpha 则会用其符号翻译能力将从 ChatGPT 获得的自然语言表达“翻译”为对应的符号化计算语言。在过去，学术界在 ChatGPT 使用的这类 “统计方法” 和 Wolfram|Alpha 的 “符号方法” 上一直存在路线分歧。但如今 ChatGPT 和 Wolfram|Alpha 的互补，给NLP领域提供了更上一层楼的可能。ChatGPT 不必生成这样的代码，只需生成常规自然语言，然后使用 Wolfram|Alpha 翻译成精确的 Wolfram Language，再由底层的Mathematica进行计算。

▌5.3 ChatGPT的小型化

虽然ChatGPT很强大，但其模型大小和使用成本也让很多人望而却步。有三类模型压缩（model compression）可以降低模型的大小和成本。第一种方法是量化（quantization），即降低单个权重的数值表示的精度。比如Tansformer从FP32降到INT8对其精度影响不大。第二种模型压缩方法是剪枝（pruning），即删除网络元素，包括从单个权重（非结构化剪枝）到更高粒度的组件如权重矩阵的通道。这种方法在视觉和较小规模的语言模型中有效。第三种模型压缩方法是稀疏化。例如奥地利科学技术研究所 (ISTA)提出的SparseGPT （http://arxiv.org/pdf/2301.0077）可以将 GPT 系列模型单次剪枝到 50% 的稀疏性，而无需任何重新训练。对 GPT-175B 模型，只需要使用单个 GPU 在几个小时内就能实现这种剪枝。

SparseGPT 压缩流程

六、ChatGPT的产业未来与投资机会

▌6.1 AIGC

说到ChaGPT不得不提AIGC。AIGC即利用人工智能技术来生成内容。与此前Web1.0、Web2.0时代的UGC（用户生产内容）和PGC（专业生产内容）相比，代表人工智能构思内容的AIGC，是新一轮内容生产方式变革，而且AIGC内容在Web3.0时代也将出现指数级增长。ChatGPT 模型的出现对于文字/语音模态的 AIGC 应用具有重要意义，会对AI产业上下游产生重大影响。

▌6.2 受益场景

从下游相关受益应用来看，包括但不限于无代码编程、小说生成、对话类搜索引擎、语音陪伴、语音工作助手、对话虚拟人、人工智能客服、机器翻译、芯片设计等。从上游增加需求来看，包括算力芯片、数据标注、自然语言处理（NLP)等。

大模型呈爆发态势（更多的参数/更大的算力芯片需求）

随着算法技术和算力技术的不断进步，ChatGPT也会进一步走向更先进功能更强的版本，在越来越多的领域进行应用，为人类生成更多更美好的对话和内容。

参考文献：

ChatGPT: Optimizing Language Models for Dialogue ChatGPT: Optimizing Language Models for DialogueGPT论文：Language Models are Few-Shot Learners Language Models are Few-Shot LearnersInstructGPT论文：Training language models to follow instructions with human feedback Training language models to follow instructions with human feedbackhuggingface解读RHLF算法：Illustrating Reinforcement Learning from Human Feedback (RLHF) Illustrating Reinforcement Learning from Human Feedback (RLHF)RHLF算法论文：Augmenting Reinforcement Learning with Human Feedback http://cs.utexas.edu/~ai-lab/pTAMER框架论文：Interactively Shaping Agents via Human Reinforcement http://cs.utexas.edu/~bradknoxPPO算法：Proximal Policy Optimization Algorithms Proximal Policy Optimization Algorithms

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！