文心一言：百度 AI 技术十年磨一剑

文心一言 2年前 (2023) lida

87 0 0

文心一言：百度 AI 技术十年磨一剑作为“文心一言”首批内测用户，CSDN 编辑将其与“ChatGPT”在文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成这五个维度进行了对比，并在第一时间发布了测评体验。目前来看，文心一言在理解能力、回答准确性以及逻辑能力方面都有不错的表现，当然，我们也要承认文心一言与ChatGPT存有差距，不过随着后期用户的更多反馈，以及技术的不断迭代，相信会逐渐缩小差距，巩固自己的优势。要知道，ChatGPT发布至今不过四个月，很少有大厂能在这么短的时间内敢于推出真正对标ChatGPT的产品，但百度做到了。它是全球范围内第一个率先研发出类似生产力工具的大厂，尽管还不够完美，但能快速跟上，这本身就令人倍受鼓舞。那么，凭什么百度能在这么短的时间内推出文心一言这样的产品？强烈的市场需求呼唤类似的大模型。ChatGPT爆火后，大模型对个人生产力的提升，以及在各行业的巨大商业价值愈加清晰。2月，就在百度公开宣布要推出“文心一言”之际，百度搜索、智能云到自动驾驶等各产品方面的合作方随即明确需要这样的产品，很快，超过600家合作伙伴宣布加入文心一言生态，期待尽早用上最新最先进的大语言模型。问题在于，构建这样的大模型并非一日之功，文心一言的快速推出背后恰恰体现了百度深厚的AI技术积累、完善AI基础设施以及强大技术生态的支撑，这让它才显得有点驾轻就熟。文心一言：百度 AI 技术十年磨一剑 全栈AI技术打磨十年众所周知，百度深耕AI领域十余年，从底层的高端芯片昆仑芯，到飞桨深度学习框架，再到文心预训练大模型，到搜索、智能云、自动驾驶、小度等应用，形成了全球范围内少有的在“芯片-框架-模型-应用”的IT四层技术栈架构，并且各个层面都有领先业界的自研技术和产品。文心一言：百度 AI 技术十年磨一剑问题是，这些积累已久的全栈技术对研发文心一言意味着什么？还记得新闻发布会现场，李彦宏展示文心一言在五个场景下的综合能力吗？除了展示大语言模型较常见的优势和能力，还表现出了更优秀的中文理解、多模态生成能力，而这需要大算力、大数据和大模型的三方合力加持，缺一不可。文心一言：百度 AI 技术十年磨一剑当前，大模型的每一次训练任务都耗资巨大，即使是GPT-3，单次训练成本也至少是460万元。而百度全栈布局的优势在于，可以实现端到端优化，大幅提升效率。尤其是，框架层和模型层之间，有很强的协同作用，可以帮助构建更高效的模型，并显著降低成本。此外，百度IT四层技术栈架构可以形成一个高效的反馈闭环，能帮助大模型不断去调优迭代，从而让用户体验不断升级。而具体从每一层技术栈来看，都为文心一言的构建发挥了独特优势。大模型技术三大创新首先，文心一言的推出离不开百度多年积累的大模型技术能力。据百度CTO王海峰在发布会上介绍，作为新一代知识增强大语言模型，文心一言是基于ERNIE及PLATO系列模型的基础上研发而成，关键技术包括有监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强。文心一言：百度 AI 技术十年磨一剑其中，前三项是这类大语言模型都会采用的技术，这里着重介绍一下后三项技术，它是百度已有技术优势的再创新，也是文心一言未来越来越强大的基础。在知识增强方面，文心一言的知识增强主要是通过知识内化和知识外用两种方式。知识内化，是从大规模知识和无标注数据中，基于语义单元学习，利用知识构造训练数据，将知识学习到模型参数中；知识外用，是引入外部多源异构知识，做知识推理、提示构建等等。在检索增强方面，文心一言的检索增强，来自以语义理解与语义匹配为核心技术的新一代搜索架构。通过引入搜索结果，可以为大模型提供时效性强、准确率高的参考信息，更好地满足用户需求。在对话增强方面，基于对话技术和应用积累，文心一言具备记忆机制、上下文理解和对话规划能力，实现更好的对话连贯性、合理性和逻辑性。实际上，自2019年3月以来，文心大模型就在改进搜索结果方面发挥了重要作用，带来排名改进和多模态搜索能力，并且已经从最初的自然语言理解大模型，发展成了跨语言、跨模态、跨任务、跨行业的能力完备的大模型平台。换句话说，在研发文心一言之前，它的大部分大模型技术地基已经打好。得天独厚的高质量数据集除了模型的技术创新，更关键的是训练数据集。目前，ChatGPT没有公布其具体的数据集来源，而对想要做出类似大模型的企业来说，一大障碍是很难获取高质量数据集。百度不缺的就是数据，尤其在中文数据集方面的优势不言而喻。比如搜索引擎抓取了非常庞大的网页库，经过很多精细的处理，可以积累高质量数据。此外，随着百度智能云的发展，百度也积累了很多行业数据。由此，百度构建了面向中文、服务应用、富含知识的多样化训练数据，对文心一言进行有监督精调，使其掌握的知识更精准，更懂中文和应用场景，并建立起人类反馈、奖励模型和策略优化之间的飞轮机制，文心一言融合不同类型数据和知识，自动构造提示，包括实例、提纲、规范、知识点和思维链等，提供了丰富的参考信息，激发模型相关知识，生成高质量结果。当然，现在文心一言在人类反馈的数据上还较为缺乏，不过在开放测试后，人类反馈数据会促进文心一言飞速迭代，从而更好理解人类的意图，给出更为更为准确、符合人类价值观的高质量回答。自研芯片和深度学习框架加速大模型训练/推理用户不光希望文心一言有很好的内容生成效果，更重要的是，还希望在内容生成阶段有更好的性能，更快的反馈速度，而这离不开高性能芯片和飞桨深度学习平台的助力。在芯片层，百度自研AI芯片“昆仑芯”已在多场景实际部署，这保证了文心一言底层算力需求。据介绍，昆仑芯片已经为百度的搜索服务优化了十年，而百度的搜索服务，每天响应几十亿次真实的用户使用需求，每天进行1万亿次深度语义推理与匹配，能够提供最真实、最及时的反馈，从而倒逼大模型、深度学习框架和芯片的优化。在框架层，超大规模模型的训练和推理给深度学习框架带来很大考验。而百度的飞桨拥有动静统一的开发范式，以及自适应分布式架构，可以实现大模型的灵活开发和高效训练。在推理部署方面，飞桨支持大模型高效推理，并提供服务化部署能力，包括计算融合、软硬协同的稀疏量化、模型压缩等等。王海峰认为，飞桨有效支撑了大模型的灵活开发、高效训练和推理部署，使得文心一言效果更好、效率更高、性能更强。结语文心一言背后积累的AI技术势能也体现了百度在技术研发上的大力投入。近十年来，百度累计研发投入超过 1000 亿元。2022 年百度核心研发费用 214.16 亿元，占百度核心收入比例达到 22.4%。与全球其他大厂相比，这些投入在也数一数二。在技术上的坚定投入，也让他们在AI产业化方面得到反哺。尤其是，飞桨平台已经汇聚535万开发者，服务20万企事业单位，基于飞桨创建了67万个模型。此外，基于飞桨平台，百度已经为各行业培养了300多万AI人才。这让百度成为业内AI产业落地当之无愧的领导者。基于此，正如王海峰所说，文心一言是百度多年技术积累和产业实践的水到渠成。据了解，未来，百度计划将文心一言接入搜索、智能云、自动驾驶等多项主流业务。相信文心一言会加速推动千行百业智能化升级，并且成为一种能量强大的生产力工具。还在观望着的你，是时候进场了。