ChatGPT：科技拐点？引领认知大门的未来浪潮?

ChatGPT与保险 3年前 (2023) lida

90 0 0

文章主题：ChatGPT, 科技未来, 商业化可能性

ChatGPT背后的技术思考，AI带来的商业革命还有多久？

🌟ChatGPT🔥再次点燃人们对科技未来的狂热想象，这台强大的文本生成神器，已成为全球科技热议的焦点，引领我们探索人工智能商业化所能达到的极致高峰。它以自然语言处理的魅力，悄无声息地颠覆了传统，成为连接人与信息的新桥梁。🌍🚀

🌟🚀技术趋势新拐点？揭秘云计算&AI的未来力量！🔍在科技狂欢的背后，全球的目光聚焦于一个关键议题：云计算与AI人工智能，是否正引领我们步入创新的新纪元？👑黄仁勋CEO的最新言论，无疑是对此问题的深度注解。他将ChatGPT比作人工智能领域的iPhone，寓意着一场革命性的技术风暴即将来临！🔥ChatGPT的崛起，如同科技界的璀璨明星，点亮了AI世界的新篇章。它不仅颠覆了我们对智能交互的认知，更可能重塑行业格局。🚀未来，云计算与AI的深度融合将如何塑造我们的生活和工作？让我们拭目以待，共同见证这场科技盛宴的精彩瞬间！🎉记得持续关注，拥抱技术革新带来的无限可能！💡#云计算 #AI人工智能 #技术拐点

🚀🔥OpenAI创新热潮持续高涨！👀每日数十款新品涌现，探索未知领域。🌟最新GPT-4迭代震撼发布，引领潮流，激起无限可能。🔍这些项目不再仅是尝鲜或游戏，而是对未来技术的坚定追求和实战应用。💻在这个知识与技术交融的海洋中，OpenAI正书写着新篇章。🌐SEO优化提示：使用”OpenAI新产品”、”GPT-4升级”、”未来探索”等关键词，增加表情符号如💡、🌐以提升搜索引擎友好度。

🌟ChatGPT背后的革新力量，揭示了科技未来的新篇章吗？🚀OpenAI引领的商业革命，会在哪个前沿领域率先开花结果呢？💡中山大学的智慧之光——林倞教授，以独到视角解析其深层含义。他坚信，ChatGPT不仅是认知领域的里程碑，更是为大众开启知识探索新纪元的大门钥匙。🌍ChatGPT的技术突破，无疑在重塑我们的交流方式，预示着一个技术周期的全新可能。💡商业场景中，多模态AI的商业化应用正蓄势待发，OpenAI的智慧种子或许已在教育、医疗或其他创新领域悄然生根。🌱作为创业者，林倞教授洞悉其背后的商业价值，他期待看到这些技术如何在日常生活中落地，让科技真正服务于大众，提升生活品质。👨‍💻👩‍💻让我们一起拭目以待，ChatGPT将如何引领这场技术与生活的革命，为我们的世界带来哪些惊喜！🚀

打开凤凰新闻，查看更多高清图片

中山大学教授、拓元智慧创始人林倞

一.ChatGPT，浪潮如何兴起

🌟ChatGPT的出现，无疑是科技领域的又一里程碑，其影响力堪比互联网早期的革新。💡比尔·盖茨的这番言论，背后可能隐藏着微软与OpenAI微妙的合作关系，但无论如何，它确实引发了全球范围内的广泛关注和热议。🌐互联网世界长久以来的平静，被ChatGPT掀起的这场热潮打破，大众对此的热情可见一斑。🔥

🌟了解了！👋这里我们以专业的视角解析一下”GPT”背后的科技魅力。🔍GPT，全称Generative Pre-trained Transformer，一款创新的语言模型，凭借其多层Transformer结构，能精准预测每个词的后续概率，仿佛在编织自然语言的诗篇。📚通过海量文本数据的深度学习，它学会了如何流畅地生成连贯的语句，从最初的GPT-1到升级版的GPT-3，智能化程度一路飙升。现在，ChatGPT作为基于GPT3.5架构的杰出代表，将AI与对话交互无缝融合。🗣️它的诞生，不仅延续了GPT的技术优势，更引领了人工智能新纪元，为用户提供了一种前所未有的智能互动体验。💡如果你对这个领域感兴趣，不妨探索更多关于ChatGPT如何通过预训练技术改变语言生成的深度洞察。记得关注我们，获取更多AI领域的最新资讯哦！😊

简单叙述GPT发展路径的技术特点，GPT-3直接带火了“提示学习”这一技术范式（prompt），而InstructGPT、ChatGPT这类基于GPT-3.5的模型特点，则是结合监督学习与强化学习，加入了人类反馈强化学习，将人类期待的结果反馈给模型，后者额外增加了微调的安全机制。

真正引爆大众关注的技术内核，是从GPT-3到GPT-3.5的演化，核心就在于引入了training on code及引导性微调。人类所打造的代码，无论是Java抑或Python，都存在强逻辑性与一致性。AI模型需要在代码上预训练，进行逻辑能力的强化。

这一过程中，升级的重点，一是用code代码引入人类定义好的task任务，并提供更为符合人机对话需求的训练，最终有了ChatGPT的实际应用。

不久前，GPT-4.0的出现，更是让这股浪潮愈发汹涌。

二.GPT-4.0，未来的一块基石

理解ChatGPT，可以从其训练步骤开始。从收集示范数据、训练监督政策到收集比较数据、训练奖励模型，进行策略优化，三个核心步骤的不断训练之下，模型迭代后所产出的文本自然越来越精准。

具体来说，第一步，利用人类的标注数据，对GPT进行有监督训练，主要迭代内容为模型中的输出策略部分（即SFT模型）。第二步，则是依据人类的打分标准训练出一个奖励模型RM。第三步，迭代式的更新奖励模型RM与策略模型SFT，使得模型输出质量的刻画愈发精准，最终让输出信息愈发符合人类的认知。

“不要抱有太大的期待。”林倞个人的观点是，因为应急能力问题的存在，目前ChatGPT还不是无所不能。必须认识到它的优缺点都十分鲜明。

在真实性与逻辑性上无法保证确定性，甚至同样提示词多次提问所收获的答案都存在差异，存在一本正经的胡说八道情况。道德与伦理上的风险问题也存在隐患。

除此以外，ChatGPT所面临的一大问题，是如何持续性更新领域知识。投喂型而非自主型的训练方式，新领域内容的更新，取决于示范数据的更新。在数据安全与部署成本的双维压力下，可持续性依旧存疑。

“大部分人无需担心工作会被取代。”林倞认为，ChatGPT的本质依旧是被造出来的“轮子”，是对人类生产效率的提升，在目前可预见的应用中，其对各类重复工作的效率提升作用巨大。

而GPT-4的出现，又为生成式预训练的可能性，添加了一份方向性的确定。其最为人乐道的，是对于视频、图片的理解，或者说对于用户意图理解的延伸。在应用层的热点，就是已经成为一种风尚的AI作画。

Runway AI、Midjourney、Novel AI的百花齐放，背后是DDPM、Stable Diffusion（开源）等文本图像、文本视频生成等技术的不断演进。为此，林倞举例了几种算法技术核心概念，以及演变方向。

以Diffusion Model为例。其算法理论是在信息推理时给定一个噪音信号作为输入，以训练模型估计高斯噪声，以前者减去后者，循环重复直至恢复原始信号，理论上可以实现语音、图像、超分辨率等连续信号的生成。

从模型类型区分，Diffusion Model属于一种自回归模型，需要反复迭代计算，训练和推理成本高昂。而Latent Diffusion model（即LDM）在此基础上做了迭代，把Diffusion过程改为在Latent Space中进行在计算复杂程度实现优化，最终实现可以生成高分辨率图像。

LDM的价值在于，提出了以cross-attention的方法实现多模态训练，让class-condition、text-to-image、layout-to-image等引导图像生成成为现实。上述开源的Stable Diffusion模型既是基于LDM算法训练所得。

三.未来，是否已经展开？

在AIGC这一领域，一种行业性的方向和难题在于，如何把现实中的一些新概念，或者说很难形容的物体，引入到生成过程中。技术语言将之称呼为Example based Generation。

Nvidia以训练一个新prompt从而适应新概念的方式，打造了Textual Inversion；Google则以Finetune LDM算法寻找原本模型中与新概念最相关的embedding，将之命名为DreamBooth。

而林倞与拓元智慧在这方面，有着探索与突破。其与中山大学联合推出的DreamAritist，以单个样例学习概念的方式解体，并且提出了Positive-negative prompt-tunning（正负双向提示）方法。

ChatGPT：科技拐点？引领认知大门的未来浪潮?

DreamAritist示例

Example based Generation所解决的问题，是将现实样例中抽象出的概念引入到生成阶段，让产出的内容从机械式的重复到创意的实现。

图像之外，视频内容生成技术，也已经有了实践。Tune-A-Video可以通过一个视频片段作为模型训练的样本，以Prompt控制生成类似的视频，再新增时空维度的cross-attention后，所生成的视频愈发丝滑

业内先行的Gen-1到Gen-2，就提出了基于文本描述或图像结构引导的隐视频扩散模型进行视频生成，且借助引导信息进行视频编辑。通过图像结构信息和内容本身，引入采样通道堆叠形式。

AIGC的另一关键，是Controllable Generation（可控生成）。其核心技术ControlNet是一种端到端的神经网络架构，以控制Stable Diffusion这类大型图像扩散模型的方式，学习特定任务，比如输入草稿后输出可控的高质量图像。

技术理论在于，将可训练和和锁定的神经网络块与“零卷积”的卷积层链接。零卷积的特点是，不会为深度特征添加新的噪声，相较从头开始训练的卷积层而言，训练速度与微调扩散模型一样迅速。

而基于ControlNet的AI作图实践，已经非常多。比如素描草稿图像形成、边缘检测图像形成等。但AI作图这类的AIGC技术，依旧存在局限性。内容的可控性依旧是无法忽视的大问题，视频与3D元素的生成还需要算法与底层技术的更新，通用视觉大模型、提示/适配的技术难度与复杂度都极高。最为关键的是，商业模式还需要验证。

要了解目前的AIGC技术，就必须看到目前预训练大模型的局限性。理想中的模型，应该是具备强解释性、可泛化推广的“白盒”模型，而非尚未能解释、只能获得结果的“黑盒”。

四.拓元智慧的商业实践

拓元智慧的出现，本身是林倞为首的认知AI技术领域知名专家团队，共同的一次商业尝试。拓元智慧（X-Era AI）由顶尖AI技术团队创立，致力于运用自研多模态大模型、认知推理、因果模型等前沿AI技术，为用户提供可控内容生成及虚实交互解决方案。依托林倞教授创立领衔的中山大学人机物智能融合实验室(HCP Lab，在近期公布的CVPR2023入选15篇论文，核心成员还包含梁小丹、王可泽、李冠彬等知名AI青年科学家)，拓元智慧持续创新，打通技术及业务闭环，目前已在IP数字分身、AI协同内容创作、企业数智服务等领域形成标化产品，服务知名客户百余家。

多模态认知AI的技术翻译，可以理解为以模拟人脑双通道理论为引导，所打造的计算模式、内容生成、虚实链接与交互的操作系统。使得AI同时具备人脑快思维与慢思维的“思考”能力。

作为操作系统，多模态认知AI引擎引入因果模型与心智模型，打造低成本多模态大模型为核心的AI引擎。这与主流AI商业化方案形成了差异性价值。目前常见的方案中，基本都以大数据、大模型与超级算力来解决感知层问题，成本高、场景数据缺失等问题普遍。而拓元智慧的解决方案，以自研技术核心框架，实现了灵活性与低成本的综合落地。

ChatGPT：科技拐点？引领认知大门的未来浪潮?

多模态认知AI平台示意图

其技术积累，可以分为三方面：

● 其一，低成本的大模型。可以实现小样本学习又可私有化部署。针对特定垂直场景，动态配置来满足客户成本、数据安全可控和能力灵活可扩展的核心诉求。

● 其二，大模型+因果图模型。可以打开想象与创造的空间。在大模型基础上引进因果推理模型和生成式算法，支撑可控、可泛化的生成效果。比如文案文本的一键裂变。又比如被林倞称为数字分身的“数智人”，完全可以实现人物、场景的自动编辑与创造。

● 其三，心智模型。提供个性化的交互与陪伴，在因果图模型基础上，赋予及其个性、价值观演进的能力，所产出的内容更具有灵性与温度。

技术的积累，外溢到了实际产品。拓元智慧的产品体系中，一个定位是能够革新内容创作形态的新一代AIGC平台，通过大模型创新可控生成式模型，融合因果推断与价值反馈激励，来拓展人类智慧与能力的边界。

其中已经落地的应用，是“元分身”。内容产业中，人物的视频拍摄与制作成本过高，是普遍痛点。结合AIGC的技术底座，拓元智慧打造了“元分身”作为第一款商用产品，以AI驱动真人数字分身，来实现对真人实拍的替代，实现视频生成优化、专家型交互等等，颠覆传统内容行业的效能瓶颈。

一个最直接的应用，是元分身可以支持使用标记剧本编导，让数智人演绎视频。无论是角色与镜头的转化，还是与语义关联的动作，甚至符合情景的情绪演绎，已经完全可以实现。而目前作为ChatGPT被热议话题的文案写作，拓元智慧的AI写手也能实现基于热点文案分析的裂变重构，完成用语、文法、文风的改写，一键生成裂变内容，可控又能全覆场景。

“未来或许就是元创作时代。”林倞表示，就目前AIGC技术的发展，多模态内容创作与编辑方式，已经发生了颠覆式变化。“我们在做的，是将技术底座开放给更多人，来构建生态。”

拓宽视野、引发思考、讨论碰撞、激发灵感。

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！