ChatGPT狂飙，OpenAI乘风破浪：探索商业化的科技巨头如何塑造未来对话?

ChatGPT与PPT 3年前 (2023) lida

87 0 0

文章主题：

（报告出品方/作者：德邦证券，马笑）

ChatGPT概述

OpenAI：人工智能研究领域最前沿的公司之一

🌟【AI巨头】探索未来！🚀OpenAI引领创新，专注于AI研究与开发，旗下明星产品如ChatGPT、🔥DALL·E2和Whisper等，无不彰显其技术实力与行业影响力。💡成立于2015年12月的硅谷科技翘楚，由马斯克、阿尔特曼及彼得·蒂尔等业界巨擘共同打造，旨在通过深度学习生成模型（GPU算法）、神经图灵机（数据洞察）和深度增强学习（强化智能）三大路径，引领AI技术的革命性突破。🌐欲了解更多，敬请关注！🏆

ChatGPT月度用户已破亿，正在逐步探索商业化途径

🌟🚀ChatGPT，2022年11月的聊天机器人革命！🔥💡由OpenAI引领的新一代人工智能巨擘，于11月30日震撼发布。它不仅仅会语言交互，还能深度理解、灵活应变，仿佛人类伙伴般自然对话。📝💼无论是撰写邮件、创作剧本、文案还是代码，ChatGPT都能信手拈来，一触即达。💡据统计，仅两个月时间，ChatGPT的月度用户量就突破亿大关，其影响力与日俱增。📈🎉2023年2月1日，OpenAI迈出了商业化步伐，推出了付费订阅服务ChatGPT Plus，美国用户只需每月支付$20，即可享受更多专属体验。随着用户基数的增长和商业探索的深入，ChatGPT正逐步塑造未来智能交互的新格局。💡🚀你准备好迎接这场技术变革了吗？赶快加入这个聊天革命的行列吧！🌐💪

ChatGPT基于GPT3.5模型进化微调，从人类反馈中学习

🌟🚀ChatGPT背后的智能升级揭秘🔍——OpenAI巧用🔥GPT与RLHF，引领对话新风尚✨ChatGPT，这个备受瞩目的AI聊天伙伴，其卓越性能源于OpenAI团队的创新技术组合——深度监督强化学习（SD-RL）。他们巧妙地融合了GPT模型的强大力量，通过监督与强化双轮驱动，不断优化生成质量。🔥人类反馈在RLHF中扮演关键角色，它如同一把尺子，测量并引导ChatGPT向着人性化价值观和行为靠近。训练过程犹如攀登科技高峰，分为三个关键步骤：首先，GPT模型的基石被精心打磨，掌握语言与代码的创造技巧；然后，通过人工标注，内容生成的优先级得以明确，奖励系统（Reward Model）由此诞生，为优质输出指引方向；最后，借助奖励模型的评判，生成模型在PPO的引导下，不断精进，仿佛拥有了人类思维的敏锐度。ChatGPT的成功，不仅展示了AI技术的进步，也为我们开启了一扇理解智能如何模仿并超越人类智慧的新窗口。🚀—📝【注意】请确保所有个人信息和联系方式已删除，以保护隐私。SEO优化已完成，保留了主要信息且加入了相关行业术语和表情符号，旨在提升搜索引擎可见性。

第一步：收集数据微调GPT3.5模型

🌟改写版：通过微调GPT-3.5在有限标注数据上，掌握从prompt生成响应的策略。选用175B参数量的InstructGPT作为基础模型，参考其卓越表现。例如，输入”你好”，可能得到回应”美”，每次迭代皆可能不同，因为网络中的语句千变万化，如”你好高”、”你好吗”，输出遵循概率法则，高频组合更常见。数据来源多样，包括直接标注和API收集的提示词。策略制定中，专家们依据指示编写预期输出，从而构建一个精炼且高质量的数据集，用于优化预训练语言模型。🔍

第二步：模拟人类偏好，训练奖励模型

🏆🚀通过精心筛选和优化，我们已构建了一个庞大而独特的数据集，其中蕴含着模型生成的丰富比较信息。💡这个新数据集的诞生是为了训练我们的智能奖励模型（ Reward Model, RM），一个专注于提升输出质量的算法专家。RM的工作原理是基于人类审慎的判断，它会根据这些主观偏好对模型的输出进行排序。就像一场无声的竞赛，每个答案都力求完美，但最终赢家将由RM来公正地评定。💡例如，当面对提问”台湾最高的山是哪座？”时，RM会评估并区分两个可能的答案——”玉山”和”谁来告诉我呀”。通过这个过程，我们生成了一个标签化的数据集，每个标签都承载着用户直觉的烙印。🏆这不仅增强了模型的学习能力，也使得输出更具针对性和满意度。🚀欲了解更多关于RM如何优化排序细节，或者想体验它带来的高效结果，请访问我们的官方网站（[链接]），那里有详尽的信息和案例分析等待你探索。👩‍💻👨‍💻

第三步：使用奖励模型，基于PPO进行最优化

🌟强化学习是优化模型的强大工具，它采用尖端的近端策略优化（简称[PPO]）算法来提升效率。🎯PPO在智能决策中扮演关键角色，通过迭代学习策略以最大化回报或达成特定任务。它巧妙地平衡了灵活性、数据需求和调参简易性，每次迭代都力求最小化成本函数，同时保持策略的连续性和稳定性。🔍为了优化模型性能，我们聚焦于将RM作为奖励指标，用PPO对策略进行微调。这就像在参数海洋中导航，通过精巧调整找到奖励最大化的路径。🚀每一次迭代都是向目标靠近的关键步骤，旨在通过最小化代价来最大化奖励获取。

核心优势

优势一：公司与微软合作，提供上下游支持

微软作为OpenAI的LP投资者，为公司提供研发底层支撑及应用的大力支持。资金支持：2019年7月22日，微软投资OpenAI 10亿美元；2023年1月23日，微软宣布与OpenAI建立长期合作伙伴关系进入第三阶段，通过一项为期多年、数十亿美元的投资来加速AI的突破。服务支持：1）大规模超级计算—— 微软将增加对开发和部署专用超级计算系统的投资，以加速OpenAI的研究；继续构建 Azure 领先的 AI 基础结构。2）独家云提供商 – Azure将为研究、产品和API服务中的所有OpenAI工作提供支持。应用支持：1月17日微软表示，计划将包括ChatGPT、DALL-E等人工智能工具整合进微软旗下的所有产品中，并将其作为平台供其他企业使用，包括且不限于Bing搜索引擎、Microsoft Office、Azure云服务、Teams聊天程序等。

应用场景

ChatGPT以采取会员收费，未来或拓展商业模式

OpenAI的商业模式为，会员收费、开放API以及与微软的战略合作。会员服务：2023年2月1日，OpenAI推出付费订阅项目ChatGPT Plus，价格为$20/月，目前面向美国用户。付费服务包括，在高峰时段也可常规访问ChatGPT、更快的响应、以及优先访问新功能和改进。ChatGPT将继续提供免费访问。 API服务：ChatGPT或将加入OpenAI API，从下游用户的使用中收取费用。目前OpenAI的API以Token对于NLP的文字进行收费，例如莎士比亚作品集需要1.2M的Token。与微软合作：使用 Azure OpenAI 服务，采用即用即付的消费模式，以Token或托管时长进行收费。

GPT系列API可为下游应用提供语言和代码处理

ChatGPT尚未开放API，因此参考已开放API的Text-davinci-003和Code-davinci-002来解读其功能。 ChatGPT与Text-davinci-003的能力相似，均属于GPT3.5系列模型。实现功能包括：回答问题、分类、编写代码、对话、生成、翻译和转换。

ToB：GPT系列已应用到办公应用、智能客服等

办公应用：1）AI辅助编程：GitHub Copilot 可辅助程序员编程，通过Codex在代码编辑器中为整行或某个函数提供建议。2）市场调研工具：Viable 使用 GPT-3 从客户反馈中提供有用的见解，可以从调查、票证、实时聊天日志、评论等中识别和提取主题内容和情绪，并在几秒钟内提供内容总结。智能客服：Algolia和ActiveChat 使用了 GPT-3 来更好地理解客户的问题，并将他们连接到回答他们问题的内容的特定部分。

ToC：GPT系列已应用到学习类于创作类生成

学习类：1）论文检索：GithubElicit是一个人工智能研究助手，通过检索已发表的论文，从大量研究论文中查找最相关的摘要，并应用 GPT-3 的自定义功能来生成答案。2）语言学习：Duolingo作为一个语言学习平台，已经使用 GPT3 进行法语语法更正。Duolingo 的一项内部研究表明，使用此功能可以显著提高用户的第二语言写作技巧。

创作类：1）Blog创意生成：Blog Idea Generator通过采用搜索关键字来分析该主题在Google里最受欢迎的内容。基于获取的数据，软件通过GPT-3生成内容来获得更高的阅读量。2）写作造句工具：Compose.ai 是一个免费的Chrome 扩展程序，可使用AI自动进行写作。只需要输入关键字词和主要内容，GPT-3可协助生成完整语句，构成全文。

ToC：GPT系列还应用于娱乐及生活类APP

娱乐类：1）AI驱动游戏：AI Dungeon是一款由AI驱动的基于文本的角色扮演游戏，AI会自动生成故事，玩家可以在其中输入对话，人工智能将以新的事件和对话作出回应，创造独特且不可预测的游戏体验。2）AI聊天伙伴： WhatsApp 上的AI Buddy是由GPT-3.5驱动的软件，可以和用户进行对话，就像发消息给朋友一样。例如，“给我讲个笑话”、“给我一个博客构思”等。

生活类：税务助手：Keeper Tax可帮助个人记录税务情况。在关联到个人财务账号后，Keeper Tax用不同模型提取文本信息并分类交易类型。

应用一：ChatGPT已与搜索引擎相结合

ChatGPT已加入浏览器扩展程序，集成了ChatGPT-4的BING短暂上线。 ChatGPT已作为扩展程序加入到Chrome、Firefox、Edge等浏览器的应用中;Bing、谷歌等搜索引擎中将接入ChatGPT，得到自然语言回答。集成了 ChatGPT-4 的新版 Bing 曾于2月4日短暂上线。据设计师 Owen Yin分享的截图，新版 Bing 的搜索框变为聊天框，会在聊天气泡中回复用户的问题。新版 Bing 鼓励用户使用自然语言而不是关键字进行搜索，还能够根据用户的要求调整搜索结果。

应用二：泛娱乐行业应用，包括游戏、直播等方面

元境科技率先接入ChatGPT，结合自研多模态智能算法，完成了行业首个AIGC互动直播功能的落地。元境科技虚拟数字人已经接入ChatGPT等模型，并已在Tik Tok跨境电商直播、虚拟主播直播互动等场景实现应用，并形成产品化解决方案。未来，将更加关注数字人与ChatGPT等模型的整合应用，快速扩展到不同行业、不同场景。行业首个应用此项技术的虚拟主播是虚拟二次元网红CiCi。在最近的一大段时间里CiCi的直播早已替换为了AIGC互动直播，在测试应用期间一众粉丝均未看出任何异样，同时在使用测试期间粉丝量也持续稳步提升。

类似产品

Claude：谷歌旗下ChatGPT有力竞品

Claude是Anthropic新推出的一款类似于ChatGPT的AI助手，谷歌已经向Anthropic投资约3亿美元。 Anthropic是由前OpenAI的一支研发团队出走成立的人工智能初创公司，大多为 OpenAI 的早期及核心员工，深度参与过OpenAI 的多项课题，比如GPT-3、神经网络里的多模态神经元、引入人类偏好的强化学习等。根据Financial Times报道，谷歌已经向Anthropic投资约3亿美元。通过这笔交易，谷歌将获得Anthropic约10%的股份，后者要用这笔钱从前者的云计算部门购买大量计算资源。 Claude目前还处于实验阶段，开创性引入了“宪法人工智能”（Constitutional AI，CAI）的概念。与RLHF不同，宪法AI的过程使用模型而不是人类来生成微调输出的初始排名,根据一系列基本原则选择最佳回复，即RLAIF。

百度：拥有打造国产ChatGPT能力的公司

百度拥有飞桨（深度学习开源框架）、百度AI大底座（全栈AI基础设施）和文心大模型（AI应用场景全覆盖）。 PaddlePaddle飞桨是中国自主研发的第一个深度学习框架。深度学习框架是在完成深度学习时一套可以复用的代码，使得使用者在开发深度学习程序时可以不用从复杂的神经网络搭建开始编代码，而是在已有的模型上进行个性化改进。百度AI大底座：国內首个全栈自研的Al基础设施，面向企业Al开发和应用，提供端到端自主可控、自我进化的解决方案让企业可以快捷、低成本地实现“Al能力随用随取” 。文心大模型：源于产业、服务于产业，是产业级知识增强大模型。百度通过大模型与国产深度学习框架融合发展，打造了自主创新的AI底座，大幅降低了AI开发和应用的门槛，满足真实场景中的应用需求，真正发挥大模型驱动AI规模化应用的产业价值。

ERNIE：百度基于BERT打造的NLP模型

2月7日，百度官宣其新的大模型项目“文心一言”，英文名ERNIE Bot。 ERNIE是百度开创性提出的基于知识增强的持续学习语义理解框架。 ERNIE在情感分析、文本匹配、自然语言推理、词法分析、阅读理解、智能问答等16个公开数据集上全面显著超越世界领先技术，在国际权威的通用语言理解评估基准GLUE上，得分首次突破90分，获得全球第一。 ERNIE在工业界得到了大规模应用，如搜索引擎、新闻推荐、广告系统、语音交互、智能客服等。

ERNIE由BERT进化而来，经过一系列的升级，目前已推出3.0版本。在 ERNIE 3.0 中，自回归和自编码网络被创新型地融合在一起进行预训练。自编码网络采用 ERNIE 2.0 的多任务学习增量式构建预训练任务，持续的进行语义理解学习。通过新增的实体预测、句子因果关系判断、文章句子结构重建等语义任务进行预训练；同时，创新性地增加了知识增强的预训练任务。自回归网络基于 Tranformer-XL 结构，支持长文本语言模型建模。多范式的统一预训练模式使得 ERNIE 3.0 能够在理解任务、生成任务和零样本学习任务上获取 SOTA 的表现。