如何获取更多保险知识?你需要知道的五大要点!
文章主题:
ChatGPT对保险行业的影响与启示一、引言
ChatGPT让一度陷入沉寂的人工智能技 术再一次吸引了大众的目光,是普通民众能够接触到的门槛最低、最先进的人工智能产 品,给普通民众带来了堪称“震撼”的体验。ChatGPT似乎对一切问题都可以对答如流,虽然偶有瑕疵,但是它表现出来的“什么都略懂一点”的能力难免让人惊呼“通用人工智能”(AGI)似乎已经近在眼前。
与大众媒体热炒“通用人工智能即将实现”“AI威胁论”这些概念相呼应,在专业领域和学术圈也产生了各类观点的碰撞。少部分研究人员认为,GPT-4就是“通用人工智能的火花”(S.Bubeck等,2023);也有图灵奖得主表示,GPT类技术只是AI演进的一个正常节点,“并不具有革命性”;更多的专家则表示,在当前的形势下,更应该关注这类技术在应用过程中对人类社会产生的影响是否可控,例如,媒体热炒的“万人联名请求暂停超大人工智能模型研发”事件,被很多人解读为行业专家认为人工智能已经到了AGI的临界点。然而,事实上,参与签名的图灵奖得主Bengio明确表示,他之所以签名并不是认为这类模型距离AGI的实现很近,而且他也并不认为“图灵测试”是AGI的检测标准,他更关注的是,当普通人无法区别人与AI,而AI技术本身并不是可信的时候,潜在的滥用风险是极大的。
在2023年,从保险行业的角度,我们如何看待这一轮的“AI技术变革”,如何评估技术发展对行业上下游的影响,如何从业务流程、基础技术角度做好准备,拥抱技术变革带来的生产力提升,已经成为行业必须正视的问题。
本文将从当前技术热点的历史沿革出发,尝试厘清技术发展的趋势脉络,再结合保险业务的客户价值需求和经营能力提升需求,探讨新技术发展对保险行业的潜在影响。
二、技术发展的连续性原理
2022年11月,ChatGPT刚刚发布不久就很快受到大众关注,成为人类历史上最快突破一亿用户数的应用。从普通人的视角来看,ChatGPT仿佛是突然间出现的技术变革,这种以某种事件发生作为“临界点”时刻的定义符合历史学对宏大叙事的倾向,也更能够吸引大众的目光。
然而,从整个人类历史发展的经验来看,无论是蒸汽机、相对论,还是当前的ChatGPT,任何技术、理论的突破及后续影响都不是离散事件,而是一系列连续性事件累积的结果。变革的节点感,通常是社会感知层面的,也就是我们现在常说的“破圈”时刻。
而评估一个“变革性”技术产品可能带来的影响,尤其需要了解该产品背后的技术发展路径,用发展的眼光预判技术发展的“加速度”,才能准确预估技术与业务的“交叉点”。
因此,本文将着重解析以ChatGPT为代表的近期AI技术热点,明确这一轮技术变革与之前技术的关联和区别,从而为更清晰地定位当前这轮技术热点的价值提供参考。
三、以ChatGPT为代表的大语言模型解析(一)自然语言处理技术长期以来尝试解决的问题
和其他机器学习技术类似,自然语言处理(NLP)技术的研究都是围绕问题而开展的,学术圈通常将模型要解决的问题称为一 个“任务”。在自然语言处理领域,有长期研究历史的应用任务可以划分为以下两类:第 一类是自然语言理解(NLU),可以理解为以自然语言为输入的信息抽取(Information Retrieval)任务,包括检索、语义分类(意图、情感等)、实体提取等常见任务;第二类是自然语言生成(NLG),可以理解为基于一定输入,生成有意义的“人话”输出的任务。对于大部分NLP的应用而言,往往都是以上两类任务中的一类或者组合形成的,这种组合可能是多个模型的松散耦合,也可能是同一个模型中不同模块的紧密耦合,甚至可能是一个形式转化后的通用任务。
例如问答系统,可以是完全基于NLU检索的形式,也可以是“NLU检索文档+NLU摘要文档+NLG生成回答”的形式。再例如机器翻译,从内涵上来讲也是要先“理解”再“生成”,但是实际中往往是一个模型将一种语言“编码”再“解码”成另一种语言,是一种紧密耦合。再例如当前热门的ChatGPT,整个模型看似能做很多不同类型的任务,但是实际上只做了一个“任务”,那就是基于当前的输入,递归地生成下一个词。为了合理地生成下一个词,实际上首先需要对当前的输入进行正确的理解(编码),这属于通过任务形式转化用一个任务达成两种目的的情形。
(二)在语言模型之前
早期自然语言处理技术深受“符号学派”的影响,将“处理”的流程框架作了符合人类设想的预先定义:先将句子分成词(分词模块),然后给每个词寻找合理的数学表示(词义表示),再根据语法进行整个输入序列的分析,最终衔接到下游任务。
即使在以“统计学派”为代表的机器学习技术已经成为主流之后,NLP的流程框架也并未立刻发生重大改变,更多的尝试是将机器学习技术应用到各个预先定义好的步骤中去。比如,早期有很多深度学习分词器、深度词向量、深度学习构建语法树的研究,而这种将应用任务分解为看似“通用”的子任务“逐个击破”的范式,实际上导致了每个环节可用的数据都十分有限,数据利用效率十分低下,而数据才是统计机器学习效果的根本依赖,这导致了以语言模型为基础的新范式出现。
(三)语言模型的出现
在有“大”语言模型之前,必然是先有语言模型(Language Model)的概念。而语言模型的意义可以从机器学习的另一个领域——计算机视觉的视角来类比。
自从2012年AlexNet出现以后,机器学习技术进入深度神经网络主导的时代,计算机视觉领域很快形成了以大规模预训练模型为基础(俗称骨架Backbone)加上垂直领域数据进行精调(Fine-Tuning)的应用范式。其原因在于,这种“迁移”的范式相对于 更早期的提取线和角点等“人工定义特征”方式有较大优势,会使建模过程大大简化。
通过大量数据“预训练”过程形成预训练模型本身包含很强的“隐特征”提取能力。在它迁移到不同具体应用领域时,其在模型架构上是高度一致的,基本上就是换个“输出头”,可以认为几乎所有任务的大部分模型架构是共享的。而精调训练所需垂直领域的样本量相对于端到端训练更少,相应的计算代价也小得多(主要的计算代价发生在预训练阶段,被各种场景共享)。
而计算机视觉技术领域能够快速形成这种范式的主要原因体现在三个方面:一是有适合图像表示任务的单元神经网络结构;二是有足够用于预训练的数据;三是有合适的预训练任务。
在单元结构方面,从仿生学原理出发的卷积神经网络结构简单、效率高、可以轻易叠加组合,很快成为几乎所有骨架网络的基础结构。在预训练数据方面,几乎与深度神经网络主导机器学习技术同时出现,甚至互为因果的图像数据集ImageNet是很长时间内图像骨架网络首选的预训练数据集,在很多人眼中,ImageNet 给计算机视觉发展带来的贡献不亚于深度神经网络技术本身。ImageNet作为一个有标注的数据集,基于该数据集的1000类图像分类任务覆盖了足够广的样本范围,因此将1000类图像分类作为预训练任务,成为了很长时间内计算机视觉预训练模型的首选。而自然语言处理技术在相当长的时间里并没有形成“大规模预训练模型+场景迁移”的范式,也是因为缺乏这几个关键要素,直到真正意义上的“预训练”语言模型BERT出现。
BERT的基础结构Transformer非常适合文本序列的表达,同时也很容易叠加组合提升模型规模,再结合“完形填空”(Masked Language Modeling)和“预测下一个词”(Next Word Prediction)这两个无需人工标注的“自监督”任务,使得在维基百科这类大规模语料上预训练大规模语言处理模型成为可能。
以BERT为代表的语言模型及后续的一系列技术发展,其核心目的都是为了将自然语言处理任务从传统的分词、语义、语法逐环节优化模式转变为“大规模预训练模型+领域数据精调”模式。这种模式带来的效率提升可以参考表1,从中可以看到,预训练模型的参数规模越大,下游任务所需要训练的参数就越少,对应的所需领域样本数据也就越少。
(四)从语言模型到大语言模型
基于BERT这类预训练语言模型,文本分类、机器翻译、信息摘要这些常见的自然语言处理任务都取得了长足的进步,但是在本质上,仍然是一个“任务”就需要一个模型。而我们距离只需一个统一的模型就能够任意迁移到各种“从未见过”的任务上(即所谓“零样本”学习)的技术进化仍然显得遥不可及。例如,在BERT代表的预训练+精调范式中,一个中英文翻译的模型,没有办法在不经过中日语样本训练的情况下处理中文和日语的翻译问题。但大家应该注意到了“预训练模型参数越多”,下游任务“需要的数据就越少”似乎是一个规律。那么有没有一种可能,预训练模型足够大,下游任务就不需要样本了?这其实就是大语言模型探索的初衷。
Transformer结构很容易叠加,更“大”的语言模型指的也就是叠加Transformer模块之后整个神经网络可以训练的参数规变大了。相对于BERT基础的亿级参数,ChatGPT背后的大语言模型参数规模达到了千亿级。因此,抛开训练用的数据和工程能力需求不谈,大语言模型在本质上就真的只是更“大”的语言模型。
探索实践的结果是,通过“指令学习”和“基于人工反馈的强化学习”两项技术训练过的大语言模型(千亿级)在某种程度上表现出来了“少样本学习”“零样本学习”能力。
仅需一个ChatGPT模型,既可以将中文翻译成英文,也可以做日语摘要,还能用粤语做SQL代码生成,能做逻辑推理;就算完全重新定义的一个“任务”,也仅需要少量的示例就可以让它完成。这一模型所具有的“什么都能做”的能力与之前“一个任务一个模型”的范式是有很大不同的,这才是ChatGPT引起从专业领域从业者到普罗大众全方位热烈讨论的核心原因。至此,我们将上文提到的表格进行补充,可以看到预训练模型规模越大,下游任务所需的样本越少似乎真的是一个规律(见表2)。
(五)大语言模型是一种连续性技术进步
学术圈有一些研究人员用“涌现”(Emergent)能力来表示只有模型“大”到一定程度,才会突然出现这种无需样本即可迁移到“新任务”上的能力(比如做小学数学题的能力大幅提升)。然而事实上,大量实验显示,小得多的(10亿级参数)模型,也有一定的概率表现出这种能力,这种概率是随着模型规模增长而连续增长的。这种“涌现”感,跟“技术突然间突破”类似,很有可能是因为“观察者”能够观察到这种能力的感知阈值和事件发生概率相互作用而产生的错觉。因此,可以推断,在当前大语言模型“预测下一个词”这种预训练任务不变的前提下,与当前大语言模型能力同样引人注目的各种“小瑕疵”也很可能是一种从概率上难以完全消除的随机事件。
但无论如何,当前大语言模型的“零样本”“少样本”学习能力是目前为止人工智能模型中最强的,这种能力本身也可以被认为是检验大语言模型成色的“金标准”。从这一点也不难看出,虽然同属于“生成式AI”,类ChatGPT大语言模型与Midjourney这类文生图模型相比,从设计目标和当前能力上来讲都是有根本性不同的,其应用的定位和潜在价值也有很大的差异。
(六)当前大语言模型的优势与局限性
本节基于当前大语言模型技术本源,分析其短期内的能力与局限性,希望总结出基本的应用决策逻辑。以便下文基于这些逻辑,结合具体的保险业务场景,作进一步探讨。
1.当前大语言模型能力优势
一是一个模型多种任务。正如前文所述,大语言模型的核心能力就是单一模型在多种传统NLP任务上都达到或接近最佳的性能水平,甚至只需要极少的示范就可以衍生到新的任务上。二是基于自然语言“指令”触发任务。这是以ChatGPT为代表的新一代大语言模型能被普通用户感知的关键要素,通过自然语言指令而不是代码的方式调用AI的能力让AI应用门槛大幅降低,具有重要的意义。三是存储“世界知识”。几乎海量的训练语料包含的信息以模型参数形式压缩存储,可以通过上述指令的方式在各类任务中被激活,这种世界知识的存储容量是大模型独有的。四是多语言能力。大语言模型通常采用多语言对齐训练,天生具备多语言支持,可以用任意语言提问并以任意语言生成回复。五是长上下文支持。对于长达数千(ChatGPT)乃至数万(GPT-4)字的上下文支持,使得大语言模型在多轮会话、代码生成等场景中表现良好。
2.当前大语言模型局限性
一是预训练数据时效性。如前文所述,大语言模型的应用范式与之前的语言模型有所不同,基本上所有的模型能力都在预训练阶段构建,而高质量的预训练数据难以获取和高昂的预训练计算代价,使得预训练数据的时效性难以保证。这一点在不依赖新信息进行推理的任务中影响并不大,但如果任务本身依赖最新的“世界知识”推理,单纯的外部搜索引擎调用仍然是不足的。
二是“幻觉”现象。当模型表现出接近“人”的能力时,连局限性都被赋予了拟人化的表达。当前讨论的所谓“幻觉”主要表现在“无中生有”“容易被诱导”,其背后的本质原因是类GPT模型都属于“因果模型”,其输出结果受训练语料概率分布的影响天生存在随机性。而为了实现感知上“无差错”的“最后一公里”目标,需要付出的努力和代价可能超过之前所有的总和,虽然实现上述目标并非不可能。
三是难以面向领域精调。也许读者会好奇,大语言模型的优势不是不需要精调吗?为什么这变成了一个局限。事实上,虽然在很多种任务上大语言模型确实达到了最佳的性能表现,但是在更多的有场景数据的任务上,计算代价小得多的模型可以轻松达到甚至超过大语言模型的性能表现。因此,精调大语言模型是很多行业用户美好的希望,既能够利用大语言模型的通用能力,又能够在自身领域利用数据构建更专精的模型能力。然而事实上,精调一个“领域专属”大语言模型可能面临成本和收益严重不匹配的问题。根据彭博社的研究,其基于7000亿Token领域语料精调的500亿参数模型“BloombergGPT”在金融类任务上的性能超过了开源千亿模型,同时声称保留了可以与千亿模型媲美的通用任务能力,这样的“精调”代价几乎等同于从头开始预训练这种规模的模型。更多的情况下,传统意义上的“精调”数据规模用于大语言模型精调往往只有两种结果,要么无法影响大语言模型的输出,要么导致大语言模型丧失大量通用能力,这也是OpenAI没有如GPT-3之前的模型一样开放ChatGPT/GPT-4模型精调接口的一个重要原因。
四是计算代价昂贵。即使是推理,驱动千亿级参数模型所需的代价仍然不菲。也许技术的发展可能导致计算成本呈指数级下降,然而即便如此,大语言模型“一个模型做所有事情”的整体思路仍然值得推敲,尤其是在当前“预测下一个词”任务范式不变的情况下,计算代价的投入产出比并不高。例如,即使计算简单的四则运算,对大语言模型而言仍然需要激活千亿参数,并且结果仍然有概率出错,这显然不是一个合算的应用方式。
四、大语言模型对保险行业的影响
在充分理解了类ChatGPT大语言模型的优势与不足之后,作为行业用户,保险公司迫切需要构建一个决策链路,该决策链路需要回答一个问题:基于目前或者未来几年可能的技术水平,应该在什么情况下考虑应用大语言模型?这里仅讨论作为保险公司的情况,对于个人而言,现在就是最好的接触时机。
毫无疑问,我们应该在类ChatGPT技术上具有无可取代的优势,并且在投入产出比正向的场景中去应用这样的模型,而在另一些场景中,也许有更好的选择。基于这种思路,笔者尝试建立一个关于应用场景的自评表(见表3),通过简单回答问卷中的问题,判断场景适合运用当前哪种机器学习技术。
(一)大语言模型在保险行业应用场景分析
在了解大语言模型的优势与局限性、从技术发展的角度建立了基本的应用决策标准后,本节试着按照上文所述标准对保险行业中热烈讨论的大语言模型应用方向进行评估,来看看大语言模型潜在的应用可能性究竟如何。
1.2C客服/营销机器人
由于ChatGPT本身是一个聊天机器人,相信大部分人看到ChatGPT的能力之后,最直观的想法就是可以用来做2C的客服或者营销聊天机器人。本文尝试用自评表(见表4)来确定保险业务中的这类场景是否适合ChatGPT的应用。
可以看到,对于客服场景而言,实际上并不需要类似ChatGPT的技术来改善对话机器人,采用近代深度学习技术的任务型(Goal Oriented)对话机器人能很好地服务客户。对于营销场景而言,通过类ChatGPT技术的创造力、世界知识为客户带来个性化的体验提升,有可能为保险公司打开新的营销机会来源。但是同样需要注意的是,在应用过程中,由于可操纵性不足带来的潜在声誉风险是保险公司需要特别关注的。
2.处理核保/理赔等业务流程
大语言模型的逻辑推理能力以及对多模态数据的处理能力,让不少保险从业者想到,能否利用能听、能看、会分析的AI模型直接代替人工或者系统,处理关键的核保、理赔等业务流程?同样用自评表(见表5)来看一看结果。
从结果不难看出,在保险核心的业务环节中,并不需要利用ChatGPT这种千亿参数大模型的能力。更多的可能性是,可以利用ChatGPT背后的技术思想,尝试改进机器学习技术在这些关键环节模型的应用效果。
3.信息处理与数据分析
ChatGPT的代码生成能力、推理能力都令人印象深刻,那么能否利用ChatGPT来提升保险公司内部信息处理与数据分析的效率?比如,对于各类冗长信息的摘要;又比如,在BI分析中进行自动化查询并生成总结。从模型能力上来说,ChatGPT比较能够满足这种需求,同样用自评表(见表6)看一下必要性。
从结果看,如果单纯是这个场景,似乎并不需要ChatGPT这种级别的模型能力,但是ChatGPT开箱可用的特点使得在场景数据缺乏时不失为一个好选择。
4.内容生产
在保险公司中,从标准文档、营销文案到产品海报再到广告视频,内容的生产是数字化运营中重要的组成部分。传统的以人为中心的内容生产模式,在效率和效果评估方面存在短板,而ChatGPT及其他一系列生成式AI模型的出现,使得程序化内容生产成为可能。在内容生产场景中,ChatGPT只是流水线中的一个环节,用于与设计人员进行需求交互,链接其他AI模型。同样用自评表(见表7)看一下该场景下ChatGPT的适配度。可以看到,内容生产的场景是一个比较契合类ChatGPT模型能力的场景,整个AIGC的流水线也处在飞速发展当中,相信很快就可以看到实际的应用。
(二)大语言模型背后的技术启示对保险行业机器学习应用的影响
除了ChatGPT本身以外,ChatGPT背后的技术以及发展过程中机器学习应用范式的演进带给保险公司很多启示。保险行业属于比较重视数据分析和运用的行业,但是长期以来,保险行业关键环节的机器学习模型还处在老旧的范式中,即一个模型解决一个问题,没有预训练,几乎所有的模型都是从零开始构建。虽然头部保险公司通过将机器学习、特征工程平台化、工具化,实现了开发成本有一定程度的下降,但是由于应用范式落后,始终没有出现预训练+精调范式下的模型应用,因此导致数据利用效率偏低,开发人员陷入重复劳动,模型效果上限较低。GPT系列模型背后的Transformer模块为这一现象带来了根本性的改变。Transformer结构虽然最早用于解决自然语言处理问题,但是很快被应用到计算机视觉领域。基于一切都可“序列化”的思想,Transformer结构及其背后的注意力机制是机器学习技术发展到目前最为广泛适用的自适应特征提取器。在机器学习领域可以说是第一次仅需一种基础结构能够对各个模态的数据进行有效的建模,除了图像、文本、语音,自然也包括结构化的业务数据。
从2020年开始,众安保险利用文本+结构化数据的多模态模型将健康险理赔风控模型的性能提升到了传统方法无法达到的水平。而从2022年开始,基于Transformer结构的用户行为序列模型被应用在与头部互联网媒体对接的实时广告投放筛选模型中,同样达到了传统模型无法达到的水平,并且简化了海量稀疏特征场景下的特征工程开发工作。
在多模态数据融合、Transformer建模事件序列之后,一个关键的趋势性变化即将发生,那就是建立保险用户行为数据的多模态预训练模型。用户生命周期中每一个事件都被视为这个行为序列中的一个“词”,用户整个生命周期被视为一个句子,我们完全可以在多模态数据的基础上基于数亿用户的保险行为建立预训练模型,训练目标与GPT类似,即预测下一个事件发生的概率。一旦这类预训练模型完成,将推进保险业务的营销、风控等机器学习模型应用进入一个新的范式:预训练+精调范式。这将大大提升保险公司数据利用的效率,大大简化各类模型的开发过程,有效提升模型性能的上限。
五、总结
在寻找ChatGPT这类模型应用场景的过程中,保险公司需要透过ChatGPT聊天机器人的表象,看到它作为一个“对话式交互界面”(CUI)的本质。一个佐证是,比尔·盖茨认为,ChatGPT是他人生中第二次感受到的革命性技术,而第一次正是他在施乐公司首次见到图形用户界面(GUI)。图形用户界面的出现,大大降低了普通人使用电脑的门槛,而对话式交互界面的出现,将大大降低普通人使用AI技术的门槛。
虽然每个人的电脑都离不开图形操作界面,但操作系统本身似乎并不解决具体的需求,ChatGPT其实很类似于上述情况,朴素的用ChatGPT解决具体问题的想法很可能属于缘木求鱼,更多关注它的“连接”属性才更有可能找到正确的ChatGPT打开方式。
对于保险行业而言,除了ChatGPT本身,其背后起支撑作用的多模态、大规模预训练模型等技术趋势更加值得注意,毕竟为了构建新操作系统上的“AI软件”,更高效的开发范式是一个必然的选择。
本文系《上海保险》2023年第4期文章《ChatGPT对保险行业的影响与启示》改编而来。作者单位:众安保险数据科学应用中心算法部
“上海保险”微信公众号是上海市保险同业公会、保险学会联合打造的自媒体平台,专注于优质保险内容传播、保险常识科普、保险政策解读,并促进业内交流互通。
欢迎赐稿:chenxian@shia.org.cn
往期回顾
【保险供给策】保险服务国家核证自愿减排量项目全周期风险管理研究
// 扫码关注我们//
获 取 更 多 保 险 资 讯
长三角微信矩阵
浙江省
保险行业协会
宁波市
保险行业协会
安徽省
保险行业协会
江苏省
保险行业协会
江苏省
保险学会
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!