ChatGPT狂飙，OpenAI引领未来？一亿用户背后，AI研究巨头的秘籍与商业化探索

ChatGPT与PPT 2年前 (2024) lida

45 0 0

文章主题：

（报告出品方/作者：德邦证券，马笑）

ChatGPT概述

OpenAI：人工智能研究领域最前沿的公司之一

🌟🚀OpenAI，AI研究领域的领导者，创新产品如ChatGPT、🔥DALL·E2和私密对话利器Whisper，引领潮流！💡成立于2015年12月，硅谷巨头的智慧结晶——马斯克、阿尔特曼（Y Combinator掌门人）与彼得·蒂尔（PayPal联合创始人）携手打造。🔍专注于三大研究路径：深度学习生成模型——训练生成算法的引擎；神经图灵机——数据洞察的艺术；深度增强学习——强化智能的前沿力量。🚀探索无限可能，驱动未来智慧！🌐

ChatGPT月度用户已破亿，正在逐步探索商业化途径

🌟🚀ChatGPT，2022年11月的聊天机器人革命！🔥💡由OpenAI引领的新一代智能模型，于11月30日震撼发布。它不仅模仿人类语言交流，还能深度理解并回应上下文，仿佛一个会话的灵魂。📝💼无论是撰写邮件、创作剧本、文案还是代码，甚至是多语种翻译，ChatGPT都能信手拈来，无所不能！✨💡据统计，仅两个月时间，ChatGPT的月活跃用户数就突破亿大关，其影响力与日俱增。📈🎉2023年2月1日，OpenAI迈出了商业化步伐，推出了付费订阅服务ChatGPT Plus，美国用户只需支付每月$20，即可享受更多定制化体验。💡💰随着用户量的激增，ChatGPT Plus的商业前景一片光明，OpenAI正积极探索如何最大化其价值，为全球用户提供更优质的服务。🚀👀让我们共同期待ChatGPT在未来的创新与突破！🌟

ChatGPT基于GPT3.5模型进化微调，从人类反馈中学习

🌟🚀ChatGPT背后的智能升级：🔥AI大师OpenAI如何重塑聊天机器人？💡🚀OpenAI的创新之旅始于GPT模型，这是一项集监督与强化学习于一体的革命性技术。他们巧妙地融合两者力量，通过RLHF（人类反馈强化学习），赋予ChatGPT深刻的人类价值观和行为导向。🎯训练过程犹如攀登科技高峰：📝首先，GPT模型经历了严谨的训练和微调，掌握了语言及代码生成的超凡能力。💻接着，以用户需求为导向，人工标注内容，构建奖励系统（Reward Model）——这是通往智慧的关键一步。🏆最后，ChatGPT通过奖励模型的评分，运用PPO（近端策略优化）进行深度优化，仿佛在与我们对话时，不断揣摩并贴近我们的期望。🎯ChatGPT的每一次迭代都标志着AI技术的进步，它正逐步成为我们日常生活中的得力助手。👩‍💻👨‍💼让我们期待更多这样的智能奇迹！🌐

第一步：收集数据微调GPT3.5模型

🌟改写版：通过微调GPT-3.5这款先进AI模型，我们专注于学习如何从特定的提示词生成有监督的响应策略。选用的是InstructGPT系列中的175B参数量巅峰之作，就像教科书般的智慧引擎。比如输入”你好”，它能巧妙回应”美”，每次输出都充满变数，因为网络上的语句千差万别，像”你好高”、”你好吗”等，其生成遵循概率法则，高频搭配更常见。数据采集来源丰富多样，既有直接来自专家的标注，也有通过OpenAI API从GPT-3用户那里获取的鲜活实例。策略制定阶段，我们精心设计提示词列表，并由专业人员按要求填写预期输出，最终构建出一个精炼且高质量的数据集，为模型优化提供有力支持。

第二步：模拟人类偏好，训练奖励模型

🏆对模型生成的丰富内容进行精炼整理，我们构建了一个独享的评价基准——奖励数据集🌟。通过专家评估，这些数据包含了用户喜爱的最优答案。接下来，我们训练了一款智能导师——奖励模型(Reward Model, RM)，它的任务是精准排序输出，就像指挥家手中的指挥棒一样。💡RM基于这个精心筛选的标签集进行学习，它懂得如何根据人类偏好来判断哪个答案更贴切。比如，当面对提问”台湾最高的山是哪座？”时，尽管’玉山’和’谁来告诉我呀’都是正确答案，但RM会将’玉山’置于首位，因为它更能满足大众的常识认知。🏆这样一来，无论是搜索引擎优化还是用户互动，这个排序过程都将带来更高效、人性化的体验。让我们一起期待RM带来的智慧排序，让信息海洋更加清晰易懂！🌐

第三步：使用奖励模型，基于PPO进行最优化

🌟强化学习是优化模型的强大工具，它采用尖端的近端策略优化（简称[PPO]）算法来提升效率。🎯PPO在策略优化领域独树一帜，通过迭代学习路径以最大化回报或达成特定任务，实现了高效与灵活性的完美平衡。它巧妙地在每一步迭代中最小化代价函数，同时保持策略更新的稳定性和连续性，避免剧烈跳跃。🔍这种动态调整策略的方式，使得模型能够根据RM奖励进行微调，参数优化过程更加精准且流畅。通过PPO，我们能够在复杂环境中快速适应并优化模型，而无需过多的样本或复杂的调参。🚀无论是在学术研究还是实际应用中，PPO都是提升模型性能的强大引擎。欲了解更多详情，请访问相关领域网站以获取最新资讯。💪

核心优势

优势一：公司与微软合作，提供上下游支持

微软作为OpenAI的LP投资者，为公司提供研发底层支撑及应用的大力支持。资金支持：2019年7月22日，微软投资OpenAI 10亿美元；2023年1月23日，微软宣布与OpenAI建立长期合作伙伴关系进入第三阶段，通过一项为期多年、数十亿美元的投资来加速AI的突破。服务支持：1）大规模超级计算—— 微软将增加对开发和部署专用超级计算系统的投资，以加速OpenAI的研究；继续构建 Azure 领先的 AI 基础结构。2）独家云提供商 – Azure将为研究、产品和API服务中的所有OpenAI工作提供支持。应用支持：1月17日微软表示，计划将包括ChatGPT、DALL-E等人工智能工具整合进微软旗下的所有产品中，并将其作为平台供其他企业使用，包括且不限于Bing搜索引擎、Microsoft Office、Azure云服务、Teams聊天程序等。

应用场景

ChatGPT以采取会员收费，未来或拓展商业模式

OpenAI的商业模式为，会员收费、开放API以及与微软的战略合作。会员服务：2023年2月1日，OpenAI推出付费订阅项目ChatGPT Plus，价格为$20/月，目前面向美国用户。付费服务包括，在高峰时段也可常规访问ChatGPT、更快的响应、以及优先访问新功能和改进。ChatGPT将继续提供免费访问。 API服务：ChatGPT或将加入OpenAI API，从下游用户的使用中收取费用。目前OpenAI的API以Token对于NLP的文字进行收费，例如莎士比亚作品集需要1.2M的Token。与微软合作：使用 Azure OpenAI 服务，采用即用即付的消费模式，以Token或托管时长进行收费。

GPT系列API可为下游应用提供语言和代码处理

ChatGPT尚未开放API，因此参考已开放API的Text-davinci-003和Code-davinci-002来解读其功能。 ChatGPT与Text-davinci-003的能力相似，均属于GPT3.5系列模型。实现功能包括：回答问题、分类、编写代码、对话、生成、翻译和转换。

ToB：GPT系列已应用到办公应用、智能客服等

办公应用：1）AI辅助编程：GitHub Copilot 可辅助程序员编程，通过Codex在代码编辑器中为整行或某个函数提供建议。2）市场调研工具：Viable 使用 GPT-3 从客户反馈中提供有用的见解，可以从调查、票证、实时聊天日志、评论等中识别和提取主题内容和情绪，并在几秒钟内提供内容总结。智能客服：Algolia和ActiveChat 使用了 GPT-3 来更好地理解客户的问题，并将他们连接到回答他们问题的内容的特定部分。

ToC：GPT系列已应用到学习类于创作类生成

学习类：1）论文检索：GithubElicit是一个人工智能研究助手，通过检索已发表的论文，从大量研究论文中查找最相关的摘要，并应用 GPT-3 的自定义功能来生成答案。2）语言学习：Duolingo作为一个语言学习平台，已经使用 GPT3 进行法语语法更正。Duolingo 的一项内部研究表明，使用此功能可以显著提高用户的第二语言写作技巧。

创作类：1）Blog创意生成：Blog Idea Generator通过采用搜索关键字来分析该主题在Google里最受欢迎的内容。基于获取的数据，软件通过GPT-3生成内容来获得更高的阅读量。2）写作造句工具：Compose.ai 是一个免费的Chrome 扩展程序，可使用AI自动进行写作。只需要输入关键字词和主要内容，GPT-3可协助生成完整语句，构成全文。

ToC：GPT系列还应用于娱乐及生活类APP

娱乐类：1）AI驱动游戏：AI Dungeon是一款由AI驱动的基于文本的角色扮演游戏，AI会自动生成故事，玩家可以在其中输入对话，人工智能将以新的事件和对话作出回应，创造独特且不可预测的游戏体验。2）AI聊天伙伴： WhatsApp 上的AI Buddy是由GPT-3.5驱动的软件，可以和用户进行对话，就像发消息给朋友一样。例如，“给我讲个笑话”、“给我一个博客构思”等。

生活类：税务助手：Keeper Tax可帮助个人记录税务情况。在关联到个人财务账号后，Keeper Tax用不同模型提取文本信息并分类交易类型。

应用一：ChatGPT已与搜索引擎相结合

ChatGPT已加入浏览器扩展程序，集成了ChatGPT-4的BING短暂上线。 ChatGPT已作为扩展程序加入到Chrome、Firefox、Edge等浏览器的应用中;Bing、谷歌等搜索引擎中将接入ChatGPT，得到自然语言回答。集成了 ChatGPT-4 的新版 Bing 曾于2月4日短暂上线。据设计师 Owen Yin分享的截图，新版 Bing 的搜索框变为聊天框，会在聊天气泡中回复用户的问题。新版 Bing 鼓励用户使用自然语言而不是关键字进行搜索，还能够根据用户的要求调整搜索结果。

应用二：泛娱乐行业应用，包括游戏、直播等方面

元境科技率先接入ChatGPT，结合自研多模态智能算法，完成了行业首个AIGC互动直播功能的落地。元境科技虚拟数字人已经接入ChatGPT等模型，并已在Tik Tok跨境电商直播、虚拟主播直播互动等场景实现应用，并形成产品化解决方案。未来，将更加关注数字人与ChatGPT等模型的整合应用，快速扩展到不同行业、不同场景。行业首个应用此项技术的虚拟主播是虚拟二次元网红CiCi。在最近的一大段时间里CiCi的直播早已替换为了AIGC互动直播，在测试应用期间一众粉丝均未看出任何异样，同时在使用测试期间粉丝量也持续稳步提升。

类似产品

Claude：谷歌旗下ChatGPT有力竞品

Claude是Anthropic新推出的一款类似于ChatGPT的AI助手，谷歌已经向Anthropic投资约3亿美元。 Anthropic是由前OpenAI的一支研发团队出走成立的人工智能初创公司，大多为 OpenAI 的早期及核心员工，深度参与过OpenAI 的多项课题，比如GPT-3、神经网络里的多模态神经元、引入人类偏好的强化学习等。根据Financial Times报道，谷歌已经向Anthropic投资约3亿美元。通过这笔交易，谷歌将获得Anthropic约10%的股份，后者要用这笔钱从前者的云计算部门购买大量计算资源。 Claude目前还处于实验阶段，开创性引入了“宪法人工智能”（Constitutional AI，CAI）的概念。与RLHF不同，宪法AI的过程使用模型而不是人类来生成微调输出的初始排名,根据一系列基本原则选择最佳回复，即RLAIF。

百度：拥有打造国产ChatGPT能力的公司

百度拥有飞桨（深度学习开源框架）、百度AI大底座（全栈AI基础设施）和文心大模型（AI应用场景全覆盖）。 PaddlePaddle飞桨是中国自主研发的第一个深度学习框架。深度学习框架是在完成深度学习时一套可以复用的代码，使得使用者在开发深度学习程序时可以不用从复杂的神经网络搭建开始编代码，而是在已有的模型上进行个性化改进。百度AI大底座：国內首个全栈自研的Al基础设施，面向企业Al开发和应用，提供端到端自主可控、自我进化的解决方案让企业可以快捷、低成本地实现“Al能力随用随取” 。文心大模型：源于产业、服务于产业，是产业级知识增强大模型。百度通过大模型与国产深度学习框架融合发展，打造了自主创新的AI底座，大幅降低了AI开发和应用的门槛，满足真实场景中的应用需求，真正发挥大模型驱动AI规模化应用的产业价值。

ERNIE：百度基于BERT打造的NLP模型

2月7日，百度官宣其新的大模型项目“文心一言”，英文名ERNIE Bot。 ERNIE是百度开创性提出的基于知识增强的持续学习语义理解框架。 ERNIE在情感分析、文本匹配、自然语言推理、词法分析、阅读理解、智能问答等16个公开数据集上全面显著超越世界领先技术，在国际权威的通用语言理解评估基准GLUE上，得分首次突破90分，获得全球第一。 ERNIE在工业界得到了大规模应用，如搜索引擎、新闻推荐、广告系统、语音交互、智能客服等。

ERNIE由BERT进化而来，经过一系列的升级，目前已推出3.0版本。在 ERNIE 3.0 中，自回归和自编码网络被创新型地融合在一起进行预训练。自编码网络采用 ERNIE 2.0 的多任务学习增量式构建预训练任务，持续的进行语义理解学习。通过新增的实体预测、句子因果关系判断、文章句子结构重建等语义任务进行预训练；同时，创新性地增加了知识增强的预训练任务。自回归网络基于 Tranformer-XL 结构，支持长文本语言模型建模。多范式的统一预训练模式使得 ERNIE 3.0 能够在理解任务、生成任务和零样本学习任务上获取 SOTA 的表现。