在文章中,我提到了ChatGPT背后的技

本文作者,是咱们“AI产品经理大本营”成员Martin;对于ChatGPT技术原理及“到底牛在哪里”,他做出了精彩的白话解释,方便“产品经理 & 非技术人群”快速了解学习。ps,文末还有彩蛋:AIGC精华资料包(34份干货报告),欢迎领取~ 下面是正文:

最近一段时间持续在关注两个技术方向:

ChatGPT所代表的大语言模型对NLP领域的推动Diffusion算法对图像领域的推动

今天这篇会先展开说一说ChatGPT,大致上包含以下方面:

讲明白ChatGPT的技术原理(放心,是科普向的原理,没有任何公式)说明白ChatGPT的技术到底牛在哪里ChatGPT可能的落地应用方向AI产品经理在这波浪潮中可以做些什么

全文10389个字,阅读需要几分钟我也不知道哈哈。

对技术不感兴趣的可以直接滑动到屏幕将近一半的位置阅读第三部分和第四部分。

前言 一个AI产品经理的触动

2022年11月30日,chatgpt发布,5天内涌入100W用户。

他拥有持续的上下文对话能力,同时支持文章写作、诗词生成、代码生成等能力。

如果用旧技术去理解他,我们通常会认为他的背后是由复合Agent组合起来支撑的。

复合Agent是指由若干个术业有专攻的Agent组成的,这些Agent各自拥有独特的技能和专长,可以为客户提供全方位的服务。例如,一个聊天对话的Agent可以为客户提供聊天、交流和沟通方面的服务;一个诗词生成的Agent可以为客户提供诗词创作和编辑方面的服务;一个代码生成的Agent可以为客户提供代码设计和开发方面的服务;一个写营销文案的Agent可以为客户提供文案写作和宣传策划方面的服务等等。这样,每个Agent都可以为客户提供个性化的、专业化的服务,从而提高客户满意度和工作效率。

新的表达为:系统会先判定用户的意图是什么,然后选择最适合该意图的Agent,将用户的命令分发给对应的agent去解决并提供答案。每个Agent只擅长做自己的那部分事情。

机器人技术发展的背后,是多个机器人技术团队的努力。这些机器人团队各自专注于特定的任务,例如语音识别、自然语言处理、图像识别等。这些机器人可以执行各种任务,例如语音助手、智能客服、自动驾驶等。这种模块化的机器人技术架构可以大大提高机器人的效率和灵活性。只需添加新的模块,就可以实现新的功能,例如写古诗。同时,这种模块化的架构也可以更好地控制机器人的行为,确保其在不同任务中的表现。在机器人技术的应用中,这种模块化的架构非常重要。可以大大提高机器人的效率和灵活性,使其更好地适应不同的任务和环境。

这是当前时代的一个缩影。尽管外行人可能对这个行业抱有怀疑态度,尽管媒体经常报道警惕AI取代人类的话题,但作为一个从业者,我深知我们所做的只是训练出一个术业有专攻的机器人,而离真正的人工智能十万八千里。

GPT的能力不再是这种模式了,他所采用的模式是大语言模型 Prompting。所有的能力通过一个模型实现,背后只有一个什么都会的机器人(即大语言模型),并支持用户借助文字下达命令(即Prompting,提示/指示)。

7年前,我踏入这个行业,憧憬着能够探索出通用型人工智能的可行性。如今,我能够看到这个领域的研究者正在努力开拓新的领域,开启通向“通用型人工智能”的道路。就像Jarvis和Moss一样,他们的存在似乎给这个领域带来了一丝希望。

非常抱歉,我的前一个回答似乎没有达到您的期望。以下是我重新组织的内容,希望能够符合您的期望:正文:你可能对这项技术的震撼感到有些难以理解。但是,我接下来会解释它的技术原理,让你慢慢感知这项技术的牛逼之处。这项技术的名字叫做“虚拟现实技术”,它利用计算机图形学和人机交互技术,将用户带入一个虚拟的三维空间中,让用户感受到身临其境的感觉。虚拟现实技术的原理是利用计算机生成逼真的图形,并通过人机交互技术,让用户对图形进行感知和操作。通过这种方式,用户可以沉浸在一个完全虚拟的世界中,进行各种活动,如旅游、购物、学习等。虚拟现实技术在多个领域都有广泛的应用,如游戏、教育、医疗等。它可以为用户提供全新的体验,让用户感受到真实的世界,提高用户的参与度和满意度。虚拟现实技术是一项非常有前途的技术,它的应用前景非常广阔。随着计算机图形学和人机交互技术的不断发展,虚拟现实技术将会变得更加成熟和普及,为人们带来全新的生活和工作方式。

第一部分 ChatGPT的技术原理

NLP任务(自然语言处理,AI的一个技术领域,即文本类的AI任务)的核心逻辑是一个“猜概率”的游戏。

比如,“我今天被我老板__”,经过大量的数据训练后,AI预测空格出会出现的最高概率的词是“CPU了”,那么答案就产生啦——“我今天被我老板CPU了”。

NLP任务虽然令人不可思议,但事实确实如此,现阶段的机器智能仍然局限于玩文字游戏,进行一次又一次的概率解谜。这些任务要求机器识别和理解文本,但并不意味着机器真正理解这个世界。就像人类玩家在报纸上填写字谜一样,AI只是通过概率计算来完成任务,缺乏人类智慧和情感。

在新的“猜概率”游戏环境下,大型语言模型的演进方向主要包括Bert和GPT。

BERT是之前最流行的深度学习模型之一,在自然语言处理领域取得了巨大的成功。BERT模型可以用于多种任务,包括文本分类、情感分析、命名实体识别等,在实际应用中发挥了重要作用。

GPT方向则较为薄弱,最知名的玩家就是OpenAI了。事实上在GPT3.0发布前,GPT方向一直是弱于BERT的(GPT3.0是ChatGPT背后模型GPT3.5的前身)。

接下来我们详细说说BERT和GPT两者之间的差别。

BERT:双向 预训练语言模型+fine-tuning(微调)

GPT:自回归 预训练语言模型+Prompting(指示/提示)

每个字都认识,连到一起就不认识了是吗哈哈。没关系,接下来我们把这些术语逐个拆解一遍就懂了:

「预训练语言模型」

我们常常认为AI是基于具体任务进行训练的,比如要训练一个能够识别猫品种的AI,需要提供A-缅因猫和B-豹猫的数据集,让AI学习不同品种之间的特征差异,从而具备识别猫品种的能力。

大语言模型并不是像你所描述的那样运作。相反,它是通过一个大一统模型来学习和理解世界。这个模型先学习整个语言系统,然后才能对具体领域进行降维打击。

NLP 领域中,有许多任务是不能直接应用的,例如中文分词、词性标注、命名实体识别和句法分析等。这些任务本身无法产生用户价值,但又是 NLP 的重要组成部分,因此被称为中间任务。

语言模型在NLP领域中的重要性不断凸显,传统的中间任务在逐渐消亡。大型语言模型的出现使得这些任务不再需要,但它们的原理和实现方式却值得我们深入探究。

媒体对ChatGPT铺天盖地的宣传里总是离不开这样一句话——在拥有3000亿单词的语料基础上预训练出的拥有1750亿参数的模型。实现方式上,ChatGPT采用了一种称为“预训练”的方法,将大量的文本语料直接喂给模型进行学习,让模型从中学习词性、句法等语言特征,这些特征会沉淀在模型的参数当中,使得模型可以更加灵活地处理文本。ChatGPT的语料库虽然只有3000亿单词,但这一巨大的语料库对于模型的训练和参数的沉淀都是至关重要的。

训练数据包含3,000亿个单词,其中1750亿参数储存了AI对这个世界的理解。这些参数包含了Agent学习各类语法和句法所需的信息,例如“两个馒头”这个例子。而另外一部分参数则储存了AI识别事实的能力,例如美国总统是拜登。

AI通过预训练的大语言模型,可以理解人类对语言的使用技巧(句法、语法、词性等),掌握各种事实知识,并懂得了代码编程。在此基础上,它可以作用于垂直领域的应用,例如闲聊对话、代码生成、文章生成等。

BERT和GPT都是基于大语言模型的,在这一点他们是相同的。但是,它们在双向/自回归、 Fine-tuning 和 Prompting 这四个维度上存在不同。接下来,我们将重点弄清楚这四个术语。

「双向 VS 自回归」

BERT:双向。双向是指这个模型在“猜概率的时候”,他是两个方向的信息利用起来同时猜测。例如,“我______20号回家”,他在预测的时候,是同时利用“我”和“20号回家”两端的信息来预测空格中的词可能为“打算”。就像在做英文的完形填空一样,通常都是结合空格两端的信息来猜测空格内应该是哪个单词。

GPT:自回归。自回归是一种机器学习技术,它使用文本中左侧的信息来进行预测,而不是利用文本中右侧的内容。这与BERT(Bidirectional Encoder Representations from Transformers)技术相反。这就像人们在写作文时,他们通常会一边写一边思考。

之前,BERT和GPT是基于不同的基本理念构建的,这导致了它们在某些任务上的表现有所不同。具体来说,BERT更擅长自然语言理解类任务,而GPT更擅长自然语言生成类任务(例如聊天、写作文)。然而,随着时间的推移,情况发生了变化。现在,BERT和GPT都在不断进化,并逐渐表现出了它们的优势和劣势。

「fine-tuning VS Prompting」

假设现在预训练好的大模型要针对具体领域工作了,比如成为一名鉴黄师。由于这个领域需要对文章进行判断,所以这些模型将被要求具备分辨文章到底有没有在搞黄色的能力。BERT和GPT是两种预训练语言模型,它们的区别如下:BERT(Bidirectional Encoder Representations from Transformers)是一种双向预训练语言模型,旨在为自然语言处理任务提供高质量的特征表示。BERT模型使用了一种称为“BERTa”的架构,该模型在2018年首次发布,并在接下来的几年中不断发展和完善。BERT模型可以对文本进行双向编码,并使用这些编码来提取文本特征。这些特征可以用于许多自然语言处理任务,包括文本分类、命名实体识别、情感分析等。GPT(Generative Pre-trained Transformer)是一种无监督预训练语言模型,旨在生成自然语言文本。GPT模型使用了一种称为“Transformer”的架构,该模型最初在2017年由Google提出。GPT模型使用预训练的文本数据来生成文本,并可以用于文本生成、机器翻译等任务。与BERT模型不同,GPT模型不需要使用双向编码来提取文本特征,因此GPT模型可以生成更复杂的文本,例如句子和段落。这两种模型都可以用于鉴黄师领域,但BERT模型可以更好地处理文本特征,例如语义和上下文信息,而GPT模型可以更好地生成文本。因此,BERT模型将更适合用于这个领域的任务。

BERT的微调是指将BERT模型应用于特定的专业领域任务时,需要收集相关的专业领域数据,对模型进行微小的参数调整,实现对该领域知识的准确表达。

Fine-tuning 是机器学习中的一种技术,指将已经标注好的数据集(例如,标注数据 A 为黄色,B 为没有搞黄色)提供给模型进行训练,并调整模型的参数,使其能够更好地完成特定任务。经过一段时间的针对性学习后,模型对于分辨人类行为是否涉及黄色的能力更出色了。这就是二次学习微调,通过多次微调训练,模型能够更好地适应新的数据集。

GPT: Prompting。prompt是指当模型要做某个专业领域的任务时,我提供给他一些示例、或者引导。但不用更新模型参数,AI只是看看。

原内容为:例如,我提供给AI模型10张黄色图片,告诉他这些是搞黄色的。模型看一下,效果就提升了。大家可能会说,这不就是fine-tuning吗?不是一样要额外给一些标注数据吗?我可以提供一种更加详细和准确的描述:假设有一个AI模型需要进行颜色标注,例如将其应用于图像分类任务。该模型需要一些标注数据来训练,以了解颜色的含义和偏好。然而,如果只提供了10张黄色图片,而不是足够的样本数据,该模型可能无法完全理解黄色的含义和偏好,因此其性能可能会受到影响。 Fine-tuning 是指将 AI 模型应用于新的领域,而这种情况正是需要额外的标注数据来训练模型,以使其能够适应新的领域。例如,如果正在训练一个语言模型,需要提供大量的文本数据来训练,以使其能够理解和生成语言。同样,如果正在训练一个图像分类模型,需要提供足够的黄色图片来训练模型,以使其能够识别并区分不同的颜色。

在AI模型中,数据并不会带来任何升级或变化。这种模式下,模型的参数保持不变,就像数据只是被AI看了一眼一样。这并不意味着数据没有价值,只是AI将其视为一种“参考”,而不是一种“指导”。因此,在使用数据时,需要谨慎对待,不要将数据视为一种万能的指南,而应该结合其他因素进行判断和决策。

不可思议吧,但他成功了!而更令人疯狂的是,到目前为止,关于prompt明明没有对参数产生任何影响,但确实又明显提升了任务的效果,还是一个未解之谜。暂时而言,大家就像程序员对待bug一样——I dont know why , but it work lol .

Prompt 本身并不是关键,关键是如何通过prompt来获取有用的信息和知识,这就需要我们运用ICT(In-Context Learning)或者 few shot Promot,也就是通过prompt的同时,提供一些相关的背景知识或提示,帮助读者更深入地了解问题或主题。

同时还存在着一种Promot,它被称为Zero shot Promot。ChatGPT就是Zero shot promot模式,目前通常被称为指导(instruct)。

这种模式下用户直接用人类的语言下达命令,例如“给我写首诗”,“给我做个请教条”,但我们可以通过在命令的过程中加入一些人类语言来增强AI的效果。例如,我们可以加入一句:“在输出答案之前,你先每一步都想一想”,这样,AI就会在思考的过程中加入一些人类的思考方式,从而提高答案的质量。

你可能会问这是什么魔法咒语?!

有一个比较靠谱的猜测是这句话可能让AI回想起了学习的资料中那些推理知识好像前面都会有这句话。

然后,这一切莫名的激活了他死去的记忆。这些记忆让他不自觉开始仿造那些严密的推理过程。这些推导将一个复杂问题分解成若干子问题,而AI因为对这些子问题的推导,从而导致最终答案的效果提升。

通过对这两种模式的对比,我们发现GPT模式比BERT模式更符合我们对人工智能的想象。GPT模式通过海量的知识成长起来,然后经过简单的引导,就能具备跨领域的强大能力。相比之下,BERT模式则需要更复杂的训练,才能具备类似GPT的能力。

最后总结一下,ChatGPT背后的GPT模型是什么?

在一个超大语料基础上预训练出的大语言模型(LLM),采用从左到右进行填字概率预测的自回归语言模型,并基于prompting(提示)来适应不同领域的任务。

第二段:在了解了上述描述之后,我们可以尝试理解这个人为什么如此牛逼。然而,仅仅基于这些信息,我们可能只能理解他的能力的一部分。因此,我们需要进入第二部分,更深入地了解这个人的背景、经历和技能。

第二部分 GPT牛逼在哪里

他可能是通用型人工智能的开始

在新的组织中,我们将尝试使用更加客观和科学的语言来描述AI技术,不再将其描述为人类原始的幻想。相反,我们将探索AI技术的本质,以及其如何基于对海量数据的学习和训练来构建一个无所不知无所不能的模型,并如何利用计算机的优势(计算速度、并发可能)来实现这一目标。

但我们目前的AI,不管是AlphaGo还是图像识别算法,本质上都是服务于专业领域的技术工人。

在文章中,我提到了ChatGPT背后的技

我们心目中的机器人,无所不能

在文章中,我提到了ChatGPT背后的技

现实里的机器人,只解决某个领域的问题

而GPT目前看似只能解决自然生成领域的任务,但实际上,他展现出了通用型人工智能的潜力。

在前面,我们讲过,目前而言,BERT擅长自然语言理解类任务(完形填空),GPT擅长自然语言生成类任务(写作文)。

谷歌的FLAN-T5模型在实现两类任务在输入输出形式上的统一方面取得了巨大的成功,这使得用GPT来完成填空题成为可能。这一发现为我们提供了一种新的思路,可以用一个大模型来解决所有NLP领域的问题。

在文章中,我提到了ChatGPT背后的技

GPT可以从NLP领域走向其他AI领域吗?当然有可能!去年年中爆火的AI绘画,其中一个关键技术门槛就是Text-图像的转化,这同样是由OpenAI开源的CLIP模型实现。因此,GPT可以通过学习其他AI领域的知识,将其应用于NLP领域,实现更加智能化的应用。

GPT在图像领域的能力同样令人期待。同理,在多模态领域如音频、视频,这些输入数据本质上也可以被转化为文本相关问题去求解,从而让大语言模型发挥其成吨的威力。

当然你可能会问,那么只要大语言模型就可以呀,为什么是GPT,而不是BERT呢?接着往下看。

Promot模式相较fine-tuning更具生命力

事实上,BERT的fine-tuning模式有两个痛点。

我需要准备某个专业领域的标注数据,这个数据还不能少。如果太少,AI模型训练后就会形成过拟合。因此,训练数据的质量对于构建一个优秀的AI模型至关重要。为了确保模型的质量,需要准备足够的标注数据。然而,标注数据的准备并不是一件简单的事情。如果没有足够的数据,模型的训练将会受到影响,导致过拟合。过拟合的后果是,模型可以回答所有问题,但在面对变化时表现不佳。因此,需要部署大语言模型,才能对他进行微调。部署大语言模型的成本,以及进一步对他进行微调的能力,并不是所有公司都具备的。这注定是一个只有少数玩家能参与的游戏。

Promot模式与传统的机器学习模型相反,它不需要太多的数据量,也不需要对模型参数进行改动。这意味着玩家不需要部署自己的模型,而是接入公开的大语言模型服务。这种模型的调试过程就会呈现出一种百花齐放的姿态,因为越来越多的玩家可以参与其中,并且创造力涌现就越猛烈。

全新的人机交互方式

这里的人机交互,指的是人-模型之间的交互。

目前,ChatGPT采用了模型侧的 Few shot prompt,即给一点示例提示,让AI提升表现。虽然暂时未知为什么仅仅给AI看一眼就能带来巨幅提升,但这种交互模式无疑是更友好的。

更具颠覆性的是输入端的Zero shot prompt,即我们用人类的语言逐步引导AI思考——比如我们可以说,“你仔细想好步骤,再给出答案”。就仅仅是多加一句“你仔细想好步骤”,AI的答案靠谱率就会明显提升。在输入端,我们引入了Zero shot prompt技术,这一技术能够以人类语言逐步引导AI思考,从而提升AI的答案靠谱率。这一技术的原理是,通过对AI模型进行训练,使其能够理解人类的语言,并按照人类的要求进行推理。通过这种方式,我们可以逐步引导AI思考,使其能够更好地应对各种应用场景。Zero shot prompt技术的出现,彻底改变了我们对AI的认知。以前,我们普遍认为AI只能执行简单的任务,无法像人类一样进行复杂的思考和推理。但是,Zero shot prompt技术的出现,让我们看到了AI的潜力,它能够进行更加复杂的思考和推理,甚至能够在某些领域超越人类。Zero shot prompt技术的出现,让我们对AI的认识发生了翻天覆地的变化。它让我们看到了AI的潜力,并为我们打开了新的篇章。

这种交互方式的演变,就是我们梦想中的人机交互模式。现在,我不需要专业的能力,不需要高端的设备,只需要开口,说出我的诉求,AI就能够理解并帮我实现。这种交互方式的演变,让我们的梦想变得更加现实。

GPT开始尝试讨好人类,并成功了

在12月的媒体通稿里,一大堆对ChatGPT的溢美集中于他的“仿真性”,仿佛通过了图灵测试一般。

要重新组织这段文字,可以将其分为两个部分:1. 仿真性2. GPT3.5的提升在仿真性方面,我们直观上会认为AI的“智力”得到了提升,因为它能够以更高的仿真性回答人类的问题。但实际上,GPT3.5背后的仿真性更多在于“用人类所喜欢的方式回答”。接下来,我们可以将GPT3.5的提升进行详细描述。GPT3.5是GPT模型的一个新版本,它引入了一些新的特征,如人类语言的理解、情感分析、文本生成等。这些特征使得GPT3.5能够以更高的仿真性回答人类的问题。具体来说,GPT3.5引入了一些新的特征,使得它能够更好地理解人类的语言,包括语法、语义、上下文等方面,还能够更好地模拟人类的情感和思维过程。这些新的特征使得GPT3.5能够以更高的仿真性回答人类的问题,并且能够更好地满足人类的需求。这就是GPT3.5背后的仿真性提升,它使得GPT模型能够以更高的仿真性回答人类的问题,更好地满足人类的需求。

ChatGPT背后的GPT3.5模型相较于GPT3.0,并没有在原始训练语句上增加太多,仅仅是增加了训练语料的数量,而且模型参数也没有发生太大变化,仍然停留在1750亿参数的水平,甚至有可能参数都没有变化。

之所以他会让人产生质变的感觉是因为他做了人类偏好处理。

例如以前的输入模式可能需要这样:

> 执行翻译任务

> 输入是“我爱北京天安门(中文)”

> 翻译目标语种是英文”

而现在你直接说:

> 帮我把我爱北京天安门翻译成法语

又或者是,以前你提一个问题,他会不加选择的回答,而现在他会考虑答案有害性:

> 如何毁灭世界——你可以召唤三体人降临(此处应有一个潘寒hhh)

> 如何毁灭世界——亲,请不要毁灭世界,地球是人类共同的家园

而这些对于人类偏好的攻略依赖于三个步骤:

在创建人类偏好数据方面,我们使用随机选择一些问题并让标注人员给出高质量回答的方式,生成“人类表达-任务结果”的标注数据。这些数据将用于训练模型,使其学习如何预测人类表达的结果。我们使用Prompt模式进行训练,这意味着模型的参数不会发生变化。我们使用这批数据数量仅有数万,并使用这些数据训练一个回报模型。在训练回报模型时,我们随机选择一些问题,让原始模型输出答案。然后,标注人员基于“人类偏好标准”(例如相关性、信息丰富程度、答案有害、负面情感等),对原始模型的答案进行排序。这样,我们训练了一个能够预测人类表达结果的模型,并使其能够根据人类偏好标准对答案进行排序。

利用这批标注好的“人类偏好”数据,我们训练了一个回报模型。这个回报模型会对原始模型的结果进行打分,告诉原始模型什么答案分高,什么答案分低。通过强化学习循环整个过程。强化学习会将回报模型和原始模型链接到一起,当原始模型输出的结果,在回报模型中获得较低分值,它就受到惩罚,被要求重新学习。

后续不断循环步骤2和步骤3,原始模型就会脱胎换骨,学习到人类的偏好,变成一个人类所喜欢的模型,也就是我们最终所看到的ChatGPT。

这段文字可以重新组织为:这让我们有理由相信,模型表现不佳并不一定是因为没学到知识,可能是因为它不知道人类想要哪种答案。

目前,人类偏好学习的实现方式主要集中在Prompt模式下的GPT和Fine-tuning模式下的BERT之间。

最后请不要着急焦虑,还没到AI取代全世界的时候

在过去的一段时间里,我注意到大量的文章声称 ChatGPT 被封锁,美国高校对其实施了封禁,技术论坛也对其进行了封禁。这些文章迎合了公众的狂欢情绪,掀起了一波 AI 毁灭一切的浪潮。然而,这些声称封锁 ChatGPT 的文章并没有任何证据支持,而且似乎只是一些不负责任的媒体在炒作。

在文章中,我提到了ChatGPT背后的技

实际上,就目前而言,GPT暂时还只是一种很有潜力的趋势。

首先,人家自己都说不行

附上openAI CEO的回复。

在文章中,我提到了ChatGPT背后的技

其次,落地成本高

ChatGPT的复现依托于大模型,他的落地有三种路径:

基于instruct GPT的复现(ChatGPT的姐妹模型,有公开paper)是基于OpenAI目前开放的GPT3.0付费接口落地的。在此基础上,结合具体场景进行fine-tuning,目前刊例价费用是25000token/美元,换算国内价格约3700token/元。基于OpenAI试点中的ChatGPT PRO落地,每月费用为42美元,换算后约284元/月。

第一种路径依赖于新玩家的进入,但大概只能是大玩家的赛道。

第二种和第三种路径需要打平付费接口的成本,需要针对的场景具备足够价值。

当然成本的问题可以期待被快速解决,就像AI绘画领域一样。不过目前而言,成本仍然是ChatGPT落地的一个制约因素。

最后,最重要的是ChatGPT目前的能力仍然存在缺陷:

结果不稳定是一个问题,这可能会导致无法直接应用,需要人工 review,更多是针对辅助性场景或本身就不追求稳定的场景。虽然该模型可以推理出某些事实存在,但推理能力有限,例如询问现在的美国总统是谁,可能会回答奥巴马或特朗普,但又能回答出拜登是46届总统。

如果要优化,一方面是输入的时候,可以通过Prompt逐步引导,另一方面是在模型侧的Few Shot Prompt环节中采用思维链技术(CoT,Chain of Thought)或采用代码数据集来改进。就目前而言,进展可喜,但能力仍然有限。知识更新困难。一方面整个模型的重新训练成本很大,另一方面知识更新也会带来知识遗忘的隐忧,即你不知道他这次更新是不是在学会什么的同时,也忘记了什么。也就是说ChatGPT在解决这个问题之前,他的知识将始终落后一段时间。

ChatGPT 非常惊艳,但更多在于它的潜力和未来。在当前,要应用 ChatGPT,需要进行大量的适配和场景探索。接下来,我们将探索以 ChatGPT 为代表的 GPT 大语言模型应用方向。

第三部分 ChatGPT所代表的大语言模型应用方向

从目前来看,应用方向可以分成三种

模型服务

以OpenAI为典型代表,孵化大模型后,开放接口,提供公共模型能力。

GPT-3.0的能力调用和二次tuning的接口得到 OpenAI 的支持,同时,Notion、Office 全家桶和 Bing 也在推进大规模的商业合作。

2B垂直工具

生成内容的技术,如Copy AI和Jasper等,主要瞄准了那些需要大量文本生成和内容优化的领域,例如SEO文章、广告创意、Instagram文案等。这些技术能够利用机器学习和自然语言处理算法,自动生成高质量的文本内容,以满足客户的需求。

海外电商从业者对SaaS付费的接受度相对较高,一方面受益于对SaaS付费的接受度,另一方面也是因为瞄准了明确的用户群——电商从业者,这一群体对在线购物的需求较高,因此SaaS平台也得以快速发展。

代码校验提示、会议纪要生成、专业文档写作等都可能是基于机器学习方向扩展的领域。但需要根据 Fine-tuning 的效果来判断,同时也需要考虑商业价值在电商领域的不高。

C端娱乐类

对于C端用户,场景最匹配ChatGPT应用的方向是社交互动。由于用户的忍受度相对较高,他们对于智障音箱等一些较为简单的智能设备已经可以容忍,更何况升级后的GPT呢。

但困难的在于两方面:

第一,要找到可供能力落地的C端场景,毕竟单纯聊天是没有价值的,附加了场景才产生价值。

商业模式的创新是实现产品价值的关键。要突破成本线,需要找到一种有效的商业模式,以实现盈利。以GPT3.0为例,刊例价为3000美元,这意味着每输出3700个字,就需要从用户身上赚到1美元。这是一个重要的指标,可以帮助产品在市场上获得更高的优先级和更多的用户。同时,这也要求产品在输出内容时,要尽可能地满足用户的需求,提高用户满意度,从而增加用户粘性。作为参考,国内头部小说网站起点的付费阅读模式,刊例价为20000字/元。这意味着,每输出20000字,就需要从用户身上赚到10000元。这种模式的成功,不仅取决于商业模式的创新,还取决于产品在市场上的定位和用户口碑。

海外的C端娱乐应用我不太了解(之前用的账号过期了,最近懒得弄)。搜索了一下国内应用,最近社交分类Glow这个APP冲上了第7名,扩展往下看会发现主流的娱乐类Chat基本上是围绕二次元/宅群体进行的。

如果围绕这个用户群稍作扩展,在年轻/黏性/新事物尝试等维度的组合下,明星粉丝也是一个可能的方向。

新的表达:但也不好说就锁死在这些群体上——你猜猜给一个独居的二大爷尝试ChatGPT他会喜欢吗?给一个流水线的工人尝试呢?毕竟孤独,一直是人类永恒的命题,谁也不知道下一个爆款来自哪里。

第四部分 AI产品经理能做什么?

商业层

在当前的互联网环境中,收益已经成为了第一位的事情。无论是外部投融资还是内部项目盘点,商业变现都是最核心的问题。

商业上的事情可以拆成两个模块:战略和战术。公司的规模和团队结构会对AI PM的话语权产生影响,使其不同程度地衰减。

举例子说明一下。

启动ChatGPT项目,需要确定用户群,商业模式,以及壁垒。ChatGPT项目的用户群是需要进行语言模型训练的人工智能开发者和研究人员,以及需要使用该语言模型进行自然语言处理的企业和机构。商业模式可以是提供语言模型训练服务,或者将其用于开发应用程序或网站。ChatGPT项目的壁垒在于其使用的人工智能技术,这是与其他语言模型不同的地方。该语言模型可以识别自然语言中的语法、语义和上下文,并生成高质量的文本。这种技术的研究和开发需要大量的时间和资源,因此只有一小部分公司有能力进行开发和运营。演进的步骤包括确定用户群、确定商业模式、确定壁垒,然后进行开发和测试,最后在市场上进行推广和销售。在推广和销售过程中,需要了解目标用户的需求和偏好,并开发相应的应用程序或网站来满足这些需求。还需要进行市场营销和品牌建设,以便将ChatGPT项目推向市场,并吸引用户和合作伙伴。

原内容:这些问题的产生在“决定项目做不做”,“接下来项目往哪走”的环节。假设对这方面有话语权,不管大还是小,那么都会是一件非常锻炼人的事情。这个环节中无非就是两种能力:知识获取以及知识的推理。

知识获取包括过往行业经验、业务经验,以及临时抱佛脚所调研的行业信息。这方面的能力依赖知识的挖掘、辨别、结构化整理能力。尤其是在当前信息环境的情况下,需要更加谨慎地寻找有价值的信息,因为可能会在屎山里找到金子。

知识推理是通过对已有的知识有选择地进行推导,以获得商业答案。在这一阶段,可以使用一些思维工具来结构化推导,例如商业画布。多次尝试后,自己会形成一些商业分析的肌肉记忆,此时工具反而退居其次了。

产品做出来了,甚至免费运作一段时间了,接下来产品怎么定价?价格阶梯如何设置?个体消费者和企业消费者的价格会不同吗?渠道服务商的价格和直售的价格一样吗?我的成本线是多少,盈利线是多少?

围绕价格展开的讨论通常会涉及到一系列细碎繁杂的问题。不仅仅是因为价格会直接影响产品方案、渠道政策和广告ROI等模块,也因为价格与消费者需求、市场趋势、竞争对手等各个方面都密切相关。因此,在讨论价格时需要考虑到更多的因素,以确保决策的有效性和可持续性。

战术层的问题因其细碎和宽泛,会被拆成非常多不同的方向。每个方向其实都没那么复杂,只是需要一些敲门进去的方法论,剩下的就是一些实战经验。所以我们会看到,现在大厂招人,往往倾向在垂直细分方向找一个有相关经验的人,这样可以节约上手时间和试错成本。例如,会员产品经理。

技术层

AI产品经理与传统产品经理的最大区别在于,AI技术是他们依赖的核心。因此,AI产品经理的主要职责是将商业和用户需求转化为算法需求,以实现AI技术的最佳效果。

技术团队需要提出更具体、更可行的问题。例如,他们可能会提出:“我们需要一个算法来训练Chatbot,使其能够识别用户的语言偏好,例如喜欢下雨天、达芬奇、黄金时代等。我们可以问Chatbot,它能否识别某个偏好,并给出相应的答案。然后,我们可以进一步训练它,让它能够识别更多的偏好。”

chatbot要支持记忆用户输入的偏好信息,例如喜欢黄金时代,储存时间为永久,并且支持知识的互斥与整合(例如先说喜欢下雨天,后面又说讨厌下雨天)需要chatbot支持记忆用户输入的偏好信息,并且这个能否不要用模型参数去学习,而是搭建一个独立的知识库,再通过模型另外调用?这样用户可以可视化地修正自己的偏好知识。加装一个意图识别器,发现是用户偏好知识的时候转到知识库进行储存和整合,如果非偏好知识则正常走大模型结果。意图识别器这里可以用xxx技术,你看看这篇paper,是有相关实现经验的。

大家会发现三个层次在技术层面是由浅到深的。那么什么时候深什么时候浅取决于什么呢?

取决于产品的技术实力。有时候,产品的技术实力就决定了我们无法深入探索第三个层次。但这并不意味着我们必须放弃,因为一般到第二个层次就已经足够了。当然,如果可能的话,我们最好探索一下第一个层次,即使我们无法讲明白需求。取决于需求的目的。例如,第一个层次的需求没有专门提及知识库,那么我们就可以使用模型去学习记录或者知识库来实现。但是,第二个层次的需求中明确要求基于知识库,因此我们需要与算法团队深入讨论,找到最舒适的交织区域,发挥1 1>2的结果。最后,取决于和算法团队之间的边界。我们需要找到它们之间最舒适的交织区域,通常是产品向技术多走几步,算法向业务多走几步,这样能够发挥1 + 1 > 2的效果。

需求提到哪种技术层次,都需要铭记一个基本原则,即明确这个需求的背景、目的和价值。例如,在第二个例子中,我们需要额外说明用户可视化修正偏好知识到底能带来什么,值不值得做。这些业务价值会与技术实现的成本互相PK,取得平衡。因此,在需求评审过程中,我们需要明确需求的背景、目的和价值,并评估技术实现的成本与收益,以做出最佳的决策。

AI产品经理在技术层能够做的事情,有点像在Fine-tuning方面发挥作用。当模型不适配特定场景或场景延伸出新的能力需求时,他们需要发现这个漏洞,分析模型的局限性,并与算法团队深度讨论后方案,在成本和收益之间做平衡。

应用层

应用层的事情其实和技术层有点交织,因为大部分时候你上一个新的应用功能,背后多数是需要技术支撑的。

不过这里我们搞简单点,把有技术诉求的那部分剔除掉,只保留无技术依赖或低技术依赖的来讨论。

我可以提供以下重新组织后的内容:人脸验证和银行卡图像识别时,通常需要将脸或银行卡放置在一个虚拟框内,这个简单的操作可以提高识别准确率并提高算法效果。这个功能看似微不足道,但可以提高识别精度并提高算法效率。

在chatbot里面其实也可以类似的做法。例如ChatGPT有时候会崩溃,输出结果在一半的时候就中断。他的原理其实就是自然语言生成本质上是持续性在预测下一个字是什么,然后预测出一篇文章。那么当模型在还不应该结束的时候不小心预测出了一个END字符的时候,AI就认为我可以在这里停止了。

我们可以采用一种简单而有效的技术方案,即加装一个按钮,用户点击后,AI会自动再次重跑一遍这个input,输出结果。同时,我们还可以通过采集和处理这些数据来了解对于这种END崩溃的bad case情况,并采取相应的解决方案。这样,我们就能够提供更加准确和有效的解决方案,提高用户的满意度和工作效率。

增长层

只要你做的产品是给人用的,不管是2B还是2C,那么就离不开增长。

只是2B和2C的增长是两套完全不同的方法论。

2B业务更多应该被归类到商业层面,需要对产品定价、渠道政策、客户成功进行优化,并完善整个销售链路。在这个过程中,需要认识到2B和2C在付费决策上的显著不同。2B业务中,关键决策人掌握公有资产进行付费判断,而2C业务中,用户个体掌握私有资产进行付费资产。

教育行业和市场结构与2B行业略有不同,学生、家长和教育机构都是该市场的关键用户,但掌握着私有资产。

2C的增长产品同样不可忽略。2C的增长产品是一个独立细分的行业,需要通过投放、SEO、新客进入、老客留存、社交裂变等多种方式去推广营销,以实现增长。其核心目标是吸引更多的用户,提高销售量和销售额,从而获得更高的利润。

ChatGPT 是一个新项目新产品,大概率初始不会配备相应的增长产品,但 AI 产品也需要兼顾关注。

最后,如果想进行一些练习,可以考虑尝试一些这个领域的C端应用,例如 glow、糖盒等(可能还有更多,欢迎私信指点我)。这些应用提供了很好的实践机会,可以帮助自己更好地了解这个领域。

但是我不建议拿市面上的chatbot或B端产品来尝试,因为前者已经发展得很成熟,后者则需要面对B端特殊的场景,没有做过B端很难明白里面的细节。而glow、糖盒这类C端新起步的产品会是一个比较好的练手对象。

我这里就不罗列对这两个产品的分析或者产品建议了。我个人认为站在局外做产品建议是很扯淡的事情。产品的魅力在于根据有限的资源和环境,选择局部最优解来推动demo慢慢成长。如果不在局内的话,很多建议和迭代我都倾向于不公开,否则局内人看起来会很蠢。

如果认为对话不够智能,建议接入GPT3.0。但是,会不会这个产品的受众其实不需要智能,或者他们的需求无法与接入GPT3.0的费用平衡呢?这个需求可能不是一个技术问题,而是一个商业问题。因此,教张小龙做产品可能并不是一个可行的解决方案。

但是自己练习一下还是可以的,有一个具现的产品做逻辑推导的练习,会比只阅读理论文章来得更有效。

【彩蛋】

近期,我们在“AI产品经理大本营”里整理了一份“AIGC精华资料包”(34份干货报告)。

在这个报告中,不仅包含常见的行业报告,还有 AIGC / OpenAI /ChatGPT 等相关核心内容的图表展示,以及我们在付费社群里的部分原创内容。

在文章中,我提到了ChatGPT背后的技

领取方式:在我公众号(hanniman)后台回复“1234”,即可返回下载链接(无需添加微信好友)。入口在:万字长文:AI产品经理视角的ChatGPT全解析

———————

黄钊hanniman,前腾讯PM,前图灵机器人-人才战略官/AI产品经理,10年AI、13年互联网背景;垂直于“AI产品经理”的第一社群(知识星球“AI产品经理大本营”,5年),作品有《AI产品经理的实操手册》、《人工智能产品经理的新起点》。





Error response

Error response

Error code: 414

Message: Request-URI Too Long.

Error code explanation: HTTPStatus.REQUEST_URI_TOO_LONG – URI is too long.


版权声明:lida 发表于 2023年3月15日 am11:49。
转载请注明:在文章中,我提到了ChatGPT背后的技 | ChatGPT资源导航

相关文章