文心一言，终于超越ChatGPT？

文心一言 2年前 (2023) lida

79 0 0

背后是各方大模型的角力

百度的“文心一言”，最近又搞出了大新闻。

就在本周二（6月27日），百度在其官网上发布的一篇文章显示，根据《中国科学报》的报道，百度自己的官方大模型“文心一言”（Ernie Bot）3.5版本在若干关键领域，已经超过了现在的“当红炸子鸡”ChatGPT，中文测试中，甚至击败了OpenAI 最新、更先进的模型GPT-4。按照百度首席技术官王海峰博士的说法，与文心大模型3.0版本相比，3.5版本在效果、功能、性能上全面提升，这不仅表现在文心大模型的创作、问答、推理和代码的提升上，还体现在训练速度和推理速度的提升上。对比数据显示，文心大模型3.5的训练速度提升2倍、推理速度提升17倍。这将大大提高模型迭代升级效率，大幅降低训练及使用成本，进一步提升用户体验。“是骡子是马牵出来溜溜”，“文心一言”3.5实力究竟如何，评测数据显然更有说服力。以下是《中国科学报》发布的评测对比结果：“文心一言”3.5（ERNIE 3.5）在多个测试集的得分已超过ChatGPT。

文心一言，终于超越ChatGPT？

“文心一言”3.5和其他大模型评测结果对比

图片来源：中国科学报首先让我们解释一下这张表格：左边一列，是参与评测的各种大模型，其中包括“文心一言”3.5、ChatGPT、以及其升级迭代版本4.0等。而横坐标则是各种测试场景（测试集），至于这些复杂的字母细节，我们其实不需要深究，下面本文简单解释一下就好了。文心一言，终于超越ChatGPT？ 中文的“文心一言”打败英文的ChatGPT？首先解释一下“AGIEval”，我们只需要知道，这是微软发布的一项标准化测试集，包含了20种中美两国的考试。在中文环境下，“文心一言”3.5超过了ChatGPT和GPT-4，即使是在英文和整体情况下，“文心一言”3.5也已超过ChatGPT，仅仅落后于GPT-4，看来发展势头非常迅猛！有英文的环境都这么厉害，中文当然更不在话下了：表中的“C-Eval”评测基准就是一套中文基础模型评测集，包含13948个多项选择题、涵盖52个不同的学科，设置了四个难度级别。在这项全中文的评测中，“文心一言”3.5将ChatGPT和GPT-4斩落马下。不过“文心一言”3.5在涉及到英文的项目上似乎还是有“短板”：上表中的MMLU是一种大规模多任务语言理解的全英文基准测试，包含57个科目，涵盖STEM、人文、社会科学等。在这项测试中，“文心一言”Ernie 3.5和ChatGPT与GPT-4相比，都还有显著进步空间。至于后面几个大模型，从评测结果上看“一个能打的都没有”，差距实在太大，差距堪比清北学霸和普通二本，就不赘述了。总而言之，从上述评测结果来看，“文心一言”3.5中文能力突出，甚至有超出 GPT-4的表现；综合能力稍逊于GPT-4，但已经比ChatGPT略胜一筹，看来“效果、功能、性能全面提升”果然有实效！虽然目前还处于内测阶段，但文心一言功能方面有了显著的提升，最大的一个变化是新增了插件机制。王海峰说，默认的内置插件“百度搜索”使文心一言具备生成实时准确信息的能力、长文本摘要和问答插件“ChatFile”支持超长文本输入，等等。下一阶段，文心一言将发布更多优质的百度官方和第三方插件，使用户能够更好地应用文心大模型。实际上，变革早已开始：据王海峰进一步介绍，面向公众邀测的文心一言自5月23日以来，已升级到文心一言2.0，最新版本为6月21日上线的文心一言V2.1.0。该版本的更新信息有“上线官方插件ChatFile，可基于长文档进行问答和摘要”“优化了模型在数学计算和作文创作的能力”等，其背后，正是“文心一言”3.5 提供的服务。如果说这些都太抽象了，我们来看点具体的：大模型还会写作文！据东方教育时报，“文心一言”和ChatGPT分别仅仅用了1分钟，就完成了今年上海高考语文作文题“探索陌生世界与好奇心”的写作，并被专家各打出了56分（满分70分）的高分.大模型的背后，是全球各方在生成式AI上的不断角力。不要说已经拔得头筹的那些玩家稳步前进，就连错过第一波先机，从而暂时落后的参与者，同样不甘落后，希望借助后面的浪潮“弯道超车”。其中就有亚马逊。文心一言，终于超越ChatGPT？ 亚马逊能否追上大模型发展步伐？据外媒报道，近日，亚马逊云科技宣布成立生成式AI创新中心，投资1亿美元。该创新中心团队由战略专家、数据科学家、工程师和解决方案架构师组成，提供生成式AI的定制解决方案，并以此以赶上微软和谷歌在生成人工智能市场上的地位。即将成立的这家生成式AI创新中心，将亚马逊人工智能和机器学习专家与寻求基于最新技术构建应用程序的客户联系起来。其中算法用于创建新内容，例如音频、代码、图像、文本、模拟和视频。目前已有公司开始与创新中心合作，如一站式旅游预订平台Lonely Planet（孤独星球）公司，Ryanair和Twilio也正在与该创新中心合作，探索开发生成式AI解决方案。亚马逊的此举，在一定程度上反映了其“奋起直追”的焦虑：据第一财经报道，亚马逊在云业务方面的市场份额超越了微软和谷歌，在云基础设施市场上占据优势，但是在基于大模型的聊天机器人产品的推出进程上落后竞争对手。据新浪科技，今年早些时候，随着ChatGPT席卷全球，亚马逊要求员工开动脑筋，想想如何使用AI聊天机器人技术来改进自家产品和工作流程，员工也提出了一系列“脑洞大开”的建议。不过用别人的产品，总是没有自家开发来得放心：这不但关乎可靠，而且关乎面子。为了应对其他厂商在大模型上的挑战，亚马逊最近发布了一个新的AI构建平台BedRock，它将允许亚马逊网络服务用户从基础模型构建生成AI，并轻松地将其集成并部署到自己的应用程序中。为了配合BedRock，亚马逊还开发了自己的基础模型Titan，同时还在开发一系列具有ChatGPT类似功能的消费者应用程序，包括新的Alexa语音助手，以及一个名为Burnham的家用机器人项目。此外在领英上的招聘信息显示，亚马逊还准备为其在线网上商店实施由人工智能提供支持的新“搜索”功能，具有类似ChatGPT的界面。文心一言，终于超越ChatGPT？ 百“模”大战谁会胜出？各方都在集中精力开发大模型，那么问题来了，现在到底有多少大模型？在5月28日举办的中关村论坛人工智能大模型发展分论坛上，由中国科学技术信息研究所、科技部新一代人工智能发展研究中心联合相关研究机构编写的《中国人工智能大模型地图研究报告》（下称《报告》）正式发布。根据《报告》，中国自2020年进入大模型快速发展期，目前与美国保持同步增长态势。在自然语言处理、机器视觉和多模态等各技术分支上均在同步跟进、迅速发展，涌现出盘古、悟道、文心一言、通义千问、星火认知等一批具有行业影响力的预训练大模型。

文心一言，终于超越ChatGPT？

国内常见的大模型

图片来源：《报告》《报告》还显示，截至目前，中国已发布79个10亿级参数规模以上的大模型，地域和领域分布相对集中。其中，北京有38个大模型，广东有20个大模型。自然语言处理领域是大模型研发最为活跃的重点领域，多模态领域排名第二，计算机视觉和智能语音等领域的大模型还较少。尽管市面上有多个大模型横空出世，但大模型研发门槛高、难度大、投入高，依赖算力、数据等综合支撑的现实不容忽视。在推动大模型产业化的路上，中国企业如何扬长避短，开发出有中国特色的大模型，永远值得业内人士思考。【免责声明】文章内容仅代表作者个人观点，不构成任何投资建议。关注财经下午茶了解更多精彩资讯