ChatGPT来袭，保险行业如何迎变？探索NLP技术革新与挑战

ChatGPT与保险 2年前 (2023) lida

67 0 0

文章主题：关键词: ChatGPT, 人工智能内容生成, 保险行业应用, 智能会话AI机器人

爱心人寿信息技术与科技发展部负责人刘帅

“令人震惊的并不是飞行的距离，而是飞行的本质。”—《巴黎先驱报》1907年对莱特兄弟的报道

🌟2022年度科技盛宴！美国《科学》杂志盛赞AIGC引领潮流，ChatGPT以其超凡魅力，横空出世仅2个月，便以破亿的惊人速度席卷全球，傲视群雄！它以闪电般的增长势头，创造历史记录，成为消费者领域的耀眼新星。🌍🚀🔥ChatGPT，AI内容创新的璀璨明珠，凭借其强大的生成能力，在科技与日常生活的无缝对接中崭露头角，短短时间就吸引了亿级的目光。它颠覆了传统，开启了智能交互的新篇章，让世界看到了科技的力量和可能性。💻🌟🔍作为一款现象级应用，ChatGPT不仅改变了用户习惯，也对行业格局产生了深远影响。它的崛起，预示着AI技术将在未来发挥更大的作用，引领内容创作进入一个全新的纪元。🏆💡欲了解更多这股科技浪潮的深度解析，敬请关注最新动态，一起见证科技如何塑造未来！🔥🚀

🌟🚀ChatGPT引领保险业创新革命！🔍未来趋势如何演变？🔥行业拥抱AI的道路上将面临哪些转折点？💡本文深度解析ChatGPT如何重塑保险生态，探讨实操中的潜在难题。让我们一起探索这场智能风暴可能带来的颠覆性变革，激发智慧火花！🌐若您对相关话题感兴趣，不妨随时交流，让创新理念在互动中熠熠生辉！🌟

一、应用前景与落地挑战

“人们往往高估技术的短期影响，而低估技术的长期影响。” ——阿玛拉定律（Amara’s Law）

1.应用前景的畅想

🌟ChatGPT引领革命！🔥人工智能正重塑保险业格局🌟🚀技术革新，颠覆传统！这个行业将迎来一场前所未有的变革，ChatGPT的崛起将为保险业带来翻天覆地的影响。📈🔍信息海洋，ChatGPT导航！它以超凡的智慧，编织起数据的经纬网，从海量信息中精准提取，让决策更明智。📊💼创新创造，保险新引擎！AI机器人不仅处理日常事务，还能生成定制化保单，为客户提供个性化服务，提升客户满意度。📝🧠分析与决策，智能升级！强大的逻辑推理能力，让风险评估更精确，保障方案更具针对性。📈🗣️沟通桥梁，人机无缝对接！ChatGPT将对话艺术与保险业务完美融合，提升沟通效率，打造未来客户服务的新范式。💬🔍 SEO优化提示：使用行业关键词如”人工智能影响”, “信息收集与分析”, “创新服务”, “风险评估精准化”等。记得，内容的核心是强调ChatGPT对保险业的积极变革作用，同时保持语言流畅和专业性。

①极大降低公司间的信息不对称，改变公司竞争主战场。企业的竞争，本质上是信息的竞争。大胆设想下，如果在产品、服务、运营等方面信息不对称消除了，会发生什么情况？用户的行为将受数字驱动而高度理性化，保险公司经营的聚焦点与核心能力的护城河均将改变。长远来看，ChatGPT对保险公司的影响可能是结构性的、深层次的，从而带来竞争主战场的改变。

②公司销售模式将从底层逻辑上受到影响。一个能够客观、专业给出保险推荐方案的AI机器人，将成为完美的保险经纪人选。其可降维克服当前两大销售难题，即客户与营销员之间信任问题，营销员自身知识与能力问题。最终对现有的销售队伍和销售逻辑是重大挑战还是重大助力？或许只在一线之间。

③改变公司的运营与服务模式。在知识渊博、反应敏捷的智能会话AI机器人的加持下，结合数字人技术，公司的内部运营和服务模式必将进一步降低对人工的依赖，进而推动公司的组织变革。

④改变公司信息处理与运用的操作模式。现有保险公司按照流水线、规则化、预制式的数据信息加工、处理与应用模式将被网络化、启化式、即时化的智能分析模式取代，会对信息科技的底层组织方式产生重大影响。

⑤降低保险公司医康养保生态圈打造的难度。各大保险公司，特别是头部保险公司均发布了保险+大健康管理战略，但由于医康养行业的专业壁垒，导致保险+医康养的生态圈打造难度大，过程慢。通过智能会话AI机器人，结合人形机器人的发展，若在医疗服务领域、照护领域、关怀领域有突破，将极大助力保险公司的大生态战略实施。

2.应用落地的挑战

🌟🚀训练行业级智能对话AI，引领科技与保险巨头崭新竞技场！🔥💡未来战场，智慧崛起——探索AI在业务中的革新突破！🔍👀技术革新浪潮中，如何驾驭这股力量？🏆行业应用的智者们正跃跃欲试，迎接挑战与机遇并存的创新高地。📈🌈尽管前路崎岖，但创新的脚步从未停歇。从巨头到初创，皆在积极探索如何将AI智慧融入日常运营，提升效率，打造独特竞争优势。🚀📝每一次迭代，都是对未来的深度承诺。让我们一起见证，智能会话AI如何重塑行业格局，引领未来对话新风尚！💬#AI革命 #行业应用 #创新高地

①基座模型可获得性的挑战。这可能也是最主要的挑战。模型的算法与程序可能会开源，但基于海量语料库训练的基座模型却不一定会开源。以GPT-3为例，完整的一次训练据报道需要花费1200万美元，耗资是巨大的，基座模型已然是商业公司的核心资产。按照OpenAI的商业计划书，在当利润达到1500亿美元之后，微软和其他风险投资者的股份将无偿转让给OpenAI的非营利基金。在此背景下，商业公司中短期内可能不会选择将底座模型开源。

②专业语料库可获得性的挑战：为训练在垂直行业有高度专业性的AI机器人，须收集足够多专业领域的知识文库，以大力出奇迹的“数据暴力美学”来训练行业底座模型。具体挑战包括海量文库的可得性、海量非结构化信息向结构化转换问题（如语言、视频、图片等），这也是最为耗时和耗力的过程。

③标注数据的挑战：为实现基座模型与服务提供方的价值导向匹配，以及用户的意图识别，需要对数据进行标注，以便基于少量标注数据进行强化学习。以InstructGPT为例（ChatGPT的兄弟模型），OpenAI雇佣了40个数据标注合同工专门进行数据标记，所需的数据样本规模并不大（数万至数十万）。此项工作虽有一定的复杂度，但相比于前两项，难度要低上好几个数量级。

④技术实践的挑战：NLP模型作为人工智能领域最复杂模型之一，其本身就具有很高的技术门槛，对人才的技能要求高，且相关领域的人才队伍储备也有限。现OpenAI开放的API接口均基于其自身模型，如果要构建一套完全自主可控的、全流程的模型体系，而非单纯依赖外部开源，整体代码实现难度也将是一个较大的挑战。

⑤资金投入的挑战：上述四大挑战均会实打实地转化为对资金投入上的挑战，资金投入是必要但不充分条件。以OpenAI为例，微软准备向OpenAI追加100亿美元投资。由此可见，要打造面向垂直行业高质量的ChatGPT所需要费用定然不菲。

二、ChatGPT算法探究

只有基于深度认识，才能开展深度思考。

🌟🚀ChatGPT的背后秘密揭秘！🔍🚀🎓走进NLP世界，ChatGPT是如何诞生的？在这个信息爆炸的时代，ChatGPT以其颠覆性的技术引领了人工智能的新篇章。👩‍💻开发者们如何用算法编织出这台智能语言巨轮？让我带你一探究竟！🔍首先，ChatGPT源于NLP领域的深度解析——它就像一个语言大师，通过复杂的神经网络模型，理解和生成人类的自然对话。📚从海量数据中汲取智慧，不断学习和优化，使其在信息处理上表现出超乎想象的能力。🚀发展历程并非一帆风顺，ChatGPT的成长之路充满了挑战与创新。每一步迭代都标志着技术的进步，每一次更新都是对人工智能理解的深化。📈从默默无闻到全球热议，ChatGPT的成功背后是团队的辛勤付出和科技的日新月异。🔍那么，ChatGPT的核心算法究竟是什么？秘密在于其强大的语言模型——Transformer架构，它能捕捉上下文关系，生成连贯且自然的对话。💡通过这种技术，ChatGPT不仅能回答问题，还能进行创作，实现了多模态交互的新高度。📚理解ChatGPT并不难，关键在于实践和探索。掌握这些知识，你也能在人工智能的世界里大展拳脚！🌟记得关注我，获取更多AI领域的深度解析和最新动态哦！👋💖

1.NLP问题简述

“语言理解是人工智能领域皇冠上的明珠” —— 比尔·盖茨

🌟ChatGPT，AI魔法✨：探索NLP世界的大门📚🔍自然语言处理（NLP），AI领域的挑战明珠💎，以其复杂性著称，让专家们心跳加速！🧠🔥NLP的核心，两大支柱💡 – 自然语言理解（NLU）与生成（NLG），解锁语言的奥秘，编织信息的华丽篇章。\n\n🔍简而言之，NLP是理解和生成人类日常交流的智能技术，它让机器能听懂、会说，甚至能写出有深度的内容。💻📈从简单的问答到复杂的文本创作，ChatGPT正引领一场革命，将NLP带入日常生活，提高效率，拓宽知识边界。🌍欲了解更多？探索NLP世界，ChatGPT是你的友好向导！👩‍🏫记得，每一次互动都是AI学习的机会，让我们一起在知识的海洋中畅游吧！🌊SEO优化提示：使用相关关键词（NLP, ChatGPT, 自然语言处理, AI, 语言理解, 生成, 知识边界）和短句结构。

（1）NLP问题典型的应用场景

①文本分类：对文本内容进行归类，是目前自然语言处理中最受欢迎的应用，被广泛应用于垃圾邮件识别、文本情感分析中

②信息抽取：从非结构化/半结构化文件（如网页、新闻、论文、文献、微博等）中自动提取指定信息，并转换为结构化形式，如自动生产统计表格

③文本摘要：通过自动分析给定的一篇或多篇文档，提炼、总结其中的要点信息，最终输出长度较短、可读性良好的摘要。该摘要中的句子可直接出自原文，也可重新撰写所得

④问题回答：利用计算机自动回答用户所提出的问题。系统返回用户的不再是基于关键词匹配排序的文档列表，而是精准的自然语言答案，如智能客服机器人。

⑤机器翻译：计算机在没有人为干预的情况下，把一种语言翻译成另外一种语言。如Google Translate每天为超5亿用户提供100余种语言的翻译服务，其翻译效果正快速地趋近于人类专家水平。

⑥开放式对话智能体：对话智能体是构建能够识别复杂的上下文语义关系，用人类语言交谈的对话系统。终极目标是能够通过“图灵测试”。

（2）NLP问题为什么难

为什么自然语言处理很困难？因为人类语言充满歧义性和创造性，加上语言的多样性和常识依赖，导致机器对语言进行理解非常困难。

①自然语言的歧义性：歧义性是指意义的不确定性。大多数人类语言是模棱两可的，如近现代两位语言学家在其著作中提到的经典歧义例句，“吕叔湘先生：他的发理得好（他的头发理得好/他理发理得好）；朱德熙先生：咬死了猎人的狗（猎人被咬死了/狗被咬死了）”。

②自然语言的创造性：语言不仅是规则驱动的，还具有创造性。让机器理解创造性，不仅在自然语言处理领域，在整个人工智能领域都是难题。如台湾诗人余光中的“大陆是母亲、台湾是妻子、香港是情人、欧洲是外遇”,再如“中美之间开始了芯战役！”，这些都是带有创造性的句子。

③自然语言的多样性：语言规则的非严格性、非精确性，以及语言逻辑的非系统性使得语言对同一意思有多样性表达，如：“除了重疾，您要不要再考虑下养老年金？”、“重疾之外，养老年金您要不要再考虑下？”、“除了重疾，养老年金您要不要再看看？”。

④自然语言的常识依赖：Robust.AI公司CEO Marcus指出“常识，实现深度理解的关键”。在对话中，假定这些事实是已知的，如“莱特兄弟的发明真伟大！”（作为常识，多数人知道是在讲飞行器）。因此，自然语言处理中有个重要挑战，即如何在计算模型中对所有人类常识进行编码。

（3）NLP问题的解决思路

自然语言处理发展史上充满挑战、挫折与彷徨，但在科学家孜孜不倦的努力下，终于探索出一条貌似笨拙，却行之有效的新路径。按吴军在《数学之美》中的描述，可归纳为以下三阶段。

①基于语义规则的阶段：1950~1970年，是科学家们走弯路的阶段。科学家致力于用电脑模拟人脑理解语言，类似早期人类想靠模拟翅膀制造飞行器一样，这20多年的成果近乎为零。

②基于统计预测的阶段：始于1970后，IBM华生实验室（T. J.Watson）采用统计的方法预测下一个词出现的概率，将当时的语音识别率从70%提升到90%，由此开创一个革命性的解决思路。

③基于深度学习方法的阶段：进入21世纪，单纯依靠统计方法已经无法快速有效地从海量数据中学习语言知识。随着2013年Google的word2vec技术发表，以神经网络为基础的深度学习技术开始在自然语言处理中广泛使用，已成为现阶段自然语言处理的主要技术方案。ChatGPT就属于此类技术。

2.ChatGPT前世今生

“生命、宇宙和万物的答案，其实只是4.398万亿个参数而已。” ——“图灵奖”得主，神经网络之父Geoffrey Hinton

ChatGPT 是 OpenAI公司开发的自然语言处理（NLP）模型。OpenAI官网中提到ChatGPT用到的方法和其兄弟模型 InstructGPT一样，只不过 InstructGPT是基于GPT-3 底座模型，而 ChatGPT 则基于 GPT-3.5。为厘清ChatGPT发展历程，理解算法思路，下文就其关键节点进行介绍：

（1）Transformer横空出世

Transformer提出之前，NLP领域主要采用RNN（循环神经网络）、CNN（卷积神经网络）两大技术。2017年，Google发表《Attention Is All You Need》论文，提出了Transformer算法模型，其最大的价值是通过“自注意力机制”巧妙地使模型具有并行计算与长序列文本学习的能力（并行计算能力：正如其论文在“总结”章节所指出，Tranformer规避了RNN模型计算时序依赖的局限，由串行计算改为并行计算，计算速度比基于RNN、CNN结构的模型均有显著地提升；长序列文本学习能力：相比之前模型存在长文本信息衰减，根据文本的前后相邻词语发现关系特征的局限，Transformer引入“自注意力机制”，可以从单个句子、多个句子、整篇文章或不同的文章之间发现关系特征，学习能力增强）。

正是得益其并行计算和长文本处理两大核心能力，Transformer提出为开展大规模海量文本的机器学习与复杂语境上下文的理解创造了条件，为后续OpenAI公司的ChatGPT，Google公司的Bert，百度公司的文言一心大放异彩奠定了基础。

（2）GPT-1小试牛刀

通常认为，基于标注数据进行有监督学习是更为有效的一种方式。当年“AI女神”李飞飞为了给图像做标注，在全球167个国家的5万名网络工作者的帮助下，花了3年时间才完成了1500万幅图片标注。工作量可见非常庞大，若想对海量文本数据进行标注更是不现实的。于是，OpenAI在2018年基于Transformer模型，利用大规模的无标注数据训练生成GPT-1。该模型把BooksCorpus上7000多本书籍作为语料库进行训练，共训练出1.17 亿个参数。模型核心创新点是在无标注的文本语料库上对语言模型进行生成式预训练，然后再针对特定语言处理任务对通用模型进行精调。

①生成式预训练：在具有一定规模的无标注语料库上预训练，生成一个高容量、掌握通用世界知识的语言模型。在该环节，模型优化目标是，使得针对文本中每个词W，在给定已知其词序前k个词的前提下，模型正确预测下一个词（即W）的概率之和最大化。

②模型精调：在上述通用语义模型基础上，根据不同任务类型，如文本分类、机器翻译、语义蕴含、问答和常识性推理等，用少量人工标注过的样本数据进行有监督学习，实现模型精调，从而对不同任务类型的适配

（3）GPT-2重剑无招

在GPT-1出来后不久， Google公司的BERT也横空出世，几乎全方位碾压GPT-1。OpenAI扬长避短，于2019 年 2 月推出 GPT-2，其核心点是强调通过无监督学习也能达到经过模型精调后的效果，并且拥有更强的泛化通用能力。GPT-2模型用来生产预训练模型的语料库超过40G，近800万的网页文本数据，较GPT-1增大了近10倍。模型共有 15 亿个参数，是 GPT-1 的 10 倍。GPT-2模型价值在于其验证了基于更大规模的语料库进行通用模型训练，“重剑无招”，不需用人工标注的样本数据对模型进行精调，生成的模型可以自动适配不同任务类型，进一步扩大模型的适用场景。

（4）GTP3大力出奇迹

OpenAI发布GPT-2后，业界反响并不如意。OpenAI认为整体方向没有问题，不在特定领域上做太多的精调，甚至不做精调才是大规模语言模型的未来。在“大力出奇迹”的想法下，为了构建更加健壮和强大的语言模型，采用超大规模的语料库，OpenAI进一步构建出 GPT-3 模型。其数据集和模型均比GPT-2 大两个数量级，GPT-3的语料库为45T文本文件，压缩后为570G，约含4000亿词量，单次模型训练费用超过1200万美元。GPT-3模型有 1750 亿个参数，已接近人脑中神经元连接的数量水平。GPT-3于2020年发布后取得巨大的成功，整个AI行业随着GPT-3发布进入到了下一范式。

（5）InstructGPT剑心觉醒

随着GPT-3的成功推出，同时也发现其可能产生不真实、有害的、反映不良情绪的输出。这是因为来自互联网的、包含各自情绪、良莠不齐的海量文本信息未加识别一股脑地被GPT-3用来训练和拟合。因此，下一个关键问题就浮出水面，即在GPT-3强大的通用语言模型基础上，如何让模型更安全、更有用、更一致地与人类意图匹配？如何让模型与特定人群，或特定人具有相同的价值判断？2022年OpenAI发布的InstructGPT提出利用了人类反馈的强化学习方法（RLHF）对 GPT-3 进行精调，使得该模型的输出更加符合人类偏好。由于RLHF也是ChatGPT用到的主要算法，下文就其算法思想做简要介绍如下。

Step1：人工提问，并给出自己的答案。将问题和答案组合在一起，形成对话；

Step2：使用上述对话（即前文所述的标注数据）来精调GPT-3，使模型能够拟合上述对话，生成精调后的模型（称为SFT）；上述过程是有监督学习的过程；

Step3：人工提出新问题，用上述精调后的模型SFT来回答，并给出多个答案选项；

Step4：人工对上述问题的各种答案打分，逐条把“每个问题、模型给出的答案以及人工给出的评判分数”整理成一个新的数据集；

Step5：用上述第4步的数据集进行训练，生成奖励模型（RM），奖励模型旨在模拟人对上述SFT模型给出的答案进行打分，该环节是与人类进行意识匹配的关键环节，答案符合人类意识，就给高分，不符合，就给低分；

Step6：继续提出问题，但不提供答案，让上述SFT模型回答，并对回答的结果用第五步的RM模型打分，不断调整SFT参数，使得RM模型得分最高的SFT模型最终胜出，成为最终的模型；

（6）ChatGPT引爆奇点

ChatGPT站在上述发展成果的“巨人肩膀”上，以从GPT-3演化而来的GPT-3.5作为基础底座模型，结合InstrcutGPT模型提出的人类反馈的强化学习方法（RLHF）训练而成。由于ChatGPT的论文尚未发布，理解作为ChatGPT兄弟模型的InstructGPT，基本上也就能理解ChatGPT模型的整体思路。自ChatGPT发布以来，其各种表现，堪称十分惊艳。从连续回答问题、生成摘要、翻译文档，到信息分类、写代码、编剧本、做作业和写论文，ChatGPT几乎都能应对自如。ChatGPT正在催发技术奇点的降临，必然会引发各大公司、国与国之间的技术军备竞赛，既是机遇也是隐忧。

三、后记

“我从来不想未来，因为它来得太快。”——阿尔伯特·爱因斯坦（Albert Einstein）

1830年8月28日,在美国宾夕法尼亚州上演一幕蒸汽火车大战马车的精彩大戏。虽然“大拇指汤姆号”蒸汽火车在比赛中输给了马车，但丝毫无法撼动其滚滚巨轮带着人类驶入璀璨的新时代。她输了比赛，却最终赢得了历史！以ChatGPT为代表的智能AI像两百年前的蒸汽机一样，已携着历史大势一路策马奔腾。未来已来，你不向他走去，他便向你走来！

（特别说明：由于本人非NLP领域专业人员，加上NLP领域理论学习曲线陡峭，本文只是粗略地对其发展脉络与基本算法思想进行梳理与理解，若有理解不对的地方请读者指正与包涵。特别感谢各大平台，如CSDN、知乎等众多专业人员对相关算法的解析分享。）