技术剧变已来？ChatGPT引领下NLP&CV领域巨变，NLG专家该如何转型?

ChatGPT与软件 2年前 (2023) lida

72 0 0

文章主题：NLP, CV, ChatGPT, NLG

🚀技术革新引领潮流，NLP领域已悄然变革，CV界也不例外！🔍ChatGPT等大模型的崛起，正以势不可挡的姿态，逐步颠覆行业格局。以下是它们可能带来的显著影响🌟：1️⃣ **知识普及与效率提升** – 通过智能化问答，信息触手可及，学习工作更高效。2️⃣ **模型创新与标准化** – 推动算法迭代，推动行业标准的制定和统一。3️⃣ **跨领域协作新可能** – 模型间的无缝对接，促进不同领域的知识融合。4️⃣ **隐私与安全挑战** – 随着数据量的增长，如何保护用户隐私成为亟待解决的问题。5️⃣ **教育与培训的变革** – 教育者将面临教学方式和内容更新的压力，培养未来的AI专家。6️⃣ **行业边界模糊** – 传统CV任务可能被大模型逐步取代，催生新的职业领域。未来，NLP+CV领域的融合将更加紧密，技术革新将不断推动行业向前发展。🚀记得关注我们，获取更多关于人工智能和科技趋势的深度解析！💪

校设实验室向细或向空，公司实验室向大。校设实验室逐渐向大模型靠拢。由于训练资源不足，大量校设实验室将集中于prompt可解释性、即插即用方法、内部知识整合。训练资源尤其稀缺的校设实验室将集中在非常偏的任务。公司实验室会开始大模型竞争，RLHF的不同方向和规模将成为第一波low-fruit，外部知识整合会是第二波low-fruit。公司实验室的方法和参数保密性将进一步提升。公司实验室对系统架构和高效训练的人才的需求将迅速攀升。小任务整合入大任务。大量小任务会并入大任务，构造有监督数据集并微调不再是小任务的第一选择。大模型无法取得好结果的小任务将成为研究热点。换句话说，研究热点将从“大模型能做到什么”转换为“大模型做不到什么”。知识的挖掘和自监督学习成为NLP最前沿方向。大量基于RLHF的自监督基于知识的生成方法将被大实验室提出并实践，成果将大量发表在顶会。主流热点将主要focus在知识的数量、质量以及运用知识的方法。统计方法几乎完全取代规则方法，知识的地位将快速超越模型本身。这一浪潮将迅速影响到CV，今年必定有更多基于RLHF的CV方法发表于CV三大会。资本变向，算法岗地位下降。资本将变向涌入大模型方向，未来数年会保持较高热度。公司将合并大量业务，竞争训练大模型以抢占市场。大数据工程师、后端工程师、架构师的地位提高，算法工程师地位进一步下降。

下面是写给从业者的建议。

如果你认真思考一下ChatGPT的架构，其实会发现ChatGPT无非就是微调的GPT-3，唯一的不同不过是知识的指向性，或者说模型对特定知识的筛选。GPT-3是用大量无指向性的非结构化文本训练的，而ChatGPT是在GPT-3的基础上用大量RLHF自监督的文本微调的。换句话说，知识才是ChatGPT优于GPT-3的关键。GPT-3的知识没有任何标签，因此本质是一个无监督学习；而ChatGPT使用RLHF生成符合人类指令要求的知识，因此本质是一个自监督学习。有了RLHF提供的监督信号，两个模型学习知识的质量就完全不同了。实验证明，使用质量高的知识，可以将GPT-3的模型规模压缩100倍。绕来绕去，NLG最后还是知识起了决定性作用。

想要在知识上做出创新，首先需要对NLG界中知识的演变做一个大致的了解。知识可以分为两种形式：内部知识（internal knowledge）和外部知识（external knowledge）。内部知识是从输入中获得的。例如，给定一串文本，内部知识就是这串文本隐含的topic、keyword等等。这串文本可以是一段summary，可以是一轮question-answering，甚至可以是一段对话（utterance+context）。外部知识是所有不能从输入中获得的知识，也就是在广泛的语料库中蕴含的知识。最简单的外部知识就是未被结构化的纯文本，例如小说、wikipedia、paper等。如果把纯文本结构化成知识库，知识就能被有效地组织起来。知识库其实就是一堆三元组，包括主谓宾。要构建知识库，可以人工标注三元组，也可以用大模型自动去打标签。形成知识库后，还可以用共享的主谓宾去做知识图谱，这样就可以运用各种各样的图算法了。其实ChatGPT和GPT-3都是运用大量的外部知识来提升生成的知识广度，而在内部知识上使用embedding一把梭，不考虑各种复杂的方法和指标。ChatGPT在生成回复后，会有reward model对输出进行打分，从而运用特定的外部知识；GPT-3在学习知识后不进行对输出的打分，直接进行推断，预训练时记住的外部知识成为生成的直接条件。换句话说，ChatGPT使用了“质量高”的外部知识。

知道了知识的分类，如何运用知识呢？最常用的知识整合方法还是attention，用dual encoder来fuse一个向量（一个输入文本的encoder，一个知识的encoder），此外还有用GNN来结构化句子。如果希望赋予OOV能力，可以加一个pointer network；如果希望赋予记忆能力，可以加一个memory network。

因此，从NLG界运用知识方式的发展的角度看：

外部知识的收集和整合的地位将迅速超越内部知识。记忆方法如memory network将被attention取代，因为attention有能力记住far early内容。OOV方法如pointer network将被attention取代，因为大量外部知识可以消除OOV的现象。GNN等embedding方法可以用来整合入attention的embedding层，但价值大幅降低。外部知识的质量监督的重要性将大幅超越知识的获取。