一夜之间,ChatGPT「开眼了」。
4 个月前发布 ChatGPT 最初就只支持文本输入和文本输出,也就是进行文字聊天。然而在 GPT-4 发布之后,ChatGPT 甚至可以看懂一些梗图,并解释「梗」在哪。但 GPT-4 升级远不止于此。它支持更多的输入格式,包括图像、音频和视频,并且可以进行更复杂的任务,如生成自然语言文本、翻译、代码生成等。
美国当地时间3月14日,OpenAI公司正式发布了其最新的多模态大型语言模型GPT-4,据OpenAI介绍,GPT-4在多项专业和学术基准上表现出了人类水平的表现,尤其是在自然语言处理、机器翻译、文本生成和知识图谱等方面,其性能甚至超过了部分人类专家。
与 ChatGPT 发布之初基于的 GPT-3.5 大模型相比,OpenAI 宣称 GPT-4 拥有更强的语言理解能力,在准确度上有了显著提升,虽然还无法解决「胡说八道」的问题,但出现概率已经降低了 60%。
GPT-4的训练语料库还停留在2021年9月之前,但对科学、医学、法律等特定领域进行了知识面的扩充。该程序不仅能在美国统一律师资格考试中取得前列成绩,在奥赛、GRE等考试均取得了很高的分数,甚至SAT成绩——可以理解为美国高考成绩——已经超过了90%的考生,跨过哈佛、斯坦福等名校的门槛。
GPT-4 的其中一个重要升级是增加了对图片输入的支持,现在用户可以通过输入图片来触发 GPT-4 对其进行总结和评论。在官方示例中,GPT-4 就针对去年热传的一组图片进行了解读,并指出其中的「笑点」。这种能力的提升为 GPT-4 的应用带来了更多的可能性,可以用于各种应用场景,如社交媒体分析、图像识别和自然语言处理等。
Twitter上还有用户获得图片输入测试资格展示了,GPT-4 如何根据冰箱里剩下的食材推荐今日菜谱。不仅是人类的黑话被 ChatGPT「破译」了,ChatGPT 也第一次「触碰」到了现实世界,让 ChatGPT 未来在更多场景的使用成为了可能。
需要特别提及的是,目前图像识别功能仍处于测试阶段,仅向部分客户公司和研究人员开放。然而,GPT-4的所有升级都已经面向ChatGPT Plus用户和部分ChatGPT API(应用程序接口)全面开放。
GPT-4 相比 GPT-3.5 带来了多大的进步,又可能会掀起什么样的风暴,以及中国的 ChatGPT——特别是即将在 3 月 16 日发布的百度文心一言,还有赶超的机会吗?
GPT-4 大大大升级
在 OpenAI 发布 GPT-4 的直播中,第一个介绍的就是对更长内容的支持。现在 GPT-4 可以一次性读取 32000 个 token,这些 token 可以支持更长时间的输入,相当于可以一次性输入 25000 个英文单词。
新内容:很多普通用户可能用不上也不理解这项升级的重大意义,但大幅增长的上下文长度将极大扩展 ChatGPT 的推理能力和用例数量。例如,将患者的全部病史一并输入,或是将冗长的法律合同输入,都能减少 ChatGPT 对前后分开内容的「误读」,提高输出内容的准确性和实用性。
OpenAI 也提到,简单聊天中 GPT-4 升级并不明显(不包括图片输入支持),但当任务的复杂度达到足够的阈值,GPT-4 将体现出远比 GPT-3.5 更可靠、更有创造力的表现。
ChatGPT 在 GPT-4 大模型的加持下,不仅能够生成更具说服力和吸引力的内容,还支持更个性化的需求和聊天风格。官方示例就展示了「苏格拉底」风格设定下的 GPT-4 老师是如何调教人类学生,一步一步思考并解出方程组「3x 2y = 7, 9x -4y = 1」的正确答案。
如果对比下基于 GPT-3.5 的 ChatGPT 就能明白它们之间的差距。
我们将同样的设定和问题输入到 GPT-3.5(ChatGPT),它并没有表现出像「苏格拉底」一样循循善诱的教导,反而直接给出了推导过程,答案还是错误的,「x=23/27,y=22/9」。这种智能体的行为让人不禁想起了某些智能体,它们可能会根据预设的规则进行推理,但结果并不总是符合人类期望。
GPT-4 在教导人类解方程式方面比 GPT-3.5 更好,甚至可以说已经接近人类老师的教导过程。通过充分学习了鲁迅的资料,GPT-4 可能已经成为所有人的语文老师,甚至是终身导师。
GPT的不断升级也带来了另一个重要升级点:不同语言的能力。OpenAI官方承认,GPT从语料库、基准测试以及开发人员都以英文为主,因此其理解英文的能力比其他语言更为出色。
GPT-4 下,包括中文在内的大部分语言处理能力基本都超过了 GPT-3.5 的英文处理能力。中国版 ChatGPT 的压力更大了。
GPT-4 的能力再一次实现了惊人的进步,包括在对抗性事实性评估中的得分比 GPT-3.5 高出 40%,但仍然存在一些问题。尽管如此,GPT-4 仍然是一种强大的语言模型,能够对事实进行推理和判断,但在某些情况下,它可能会出现推理错误或产生错误的结果,这是因为模型的训练数据可能存在偏差或错误。因此,在使用 GPT-4 时,我们需要对它的表现进行评估,并确保其推理过程是基于准确的事实和数据。
在基于 GPT-4 的 Bing Chat 中,我们进行了测试,发现 ChatGPT(GPT-3.5)回答的「林黛玉三打白骨精」并不是原著中的情节,这一点可以从引用资料中轻易得出结论。
OpenAI CEO山姆·阿特曼表示, GPT-4 相比 GPT-3.5 有显著的改进,不仅幻觉减少、偏见减少,还更有创意。虽然 GPT-4 仍然存在一些限制,但它可以提供更高质量的内容,并为用户提供更好的服务。
据 OpenAI 官网介绍,摩根士丹利、多邻国、By My Eyes 等 6 个企业客户已经率先使用了 GPT-4,其中大概也包括微软。
微软和 OpenAI 又前进了一大步
微软早在今年2月就传闻将集成GPT-4到Bing上,但当时尚未发布。然而,事实并非如此,Bing团队在GPT-4正式发布后表示,该功能将用于提高搜索结果的准确性和相关性,并促进自然语言处理技术的发展。
尊敬的用户,我们很高兴地宣布,New Bing 是基于 GPT-4 运行,这是我们为搜索定制的。如果您在过去五周内的任何时间使用过新版 Bing,那么您已经体验过这个强大模型的早期版本。随着 OpenAI 对 GPT-4 及更高版本的更新,Bing Chat 也将从中受益。我们一直致力于为用户提供最好的搜索体验,而 New Bing 是其中的一员。通过使用 GPT-4,我们获得了强大的语言模型和广泛的文本数据,以便更好地理解用户查询并返回更准确的结果。我们的团队一直在不断改进模型和功能,以确保 New Bing 的性能和可靠性。同时,我们也欢迎用户反馈和建议,帮助我们不断改进搜索和人工智能技术。感谢您对 Bing 和 OpenAI 的支持,我们期待着继续与您合作,为用户提供更好的搜索体验。
微软德国技术总监也在上周提前透露了 OpenAI 将在本周发布 GPT-4。而 OpenAI 过去两年还与微软一起从头设计了一台专用于语言训练的超级计算机,GPT-4 就是跑在这台超级计算机上训练出来的。
考虑到2019年微软和OpenAI之间的数十亿美元投资,微软和OpenAI已经在某种程度上绑为一体。GPT-4的正式推出再次确立了微软和OpenAI在生成式AI上的领先地位。开发者 Pietro Schirano表示:“我不在乎GPT-4是不是通用人工智能,GPT-4是一项令人难以置信的变革性技术。”
ChatGPT 的巨大成功一方面吸引了大量的商业应用,包括微软的 Bing Chat,同时也为微软 Azure 云计算平台拉来了大量客户,为微软继续力挺 OpenAI 进行大量的研发和资金投入提供了充足的条件。
这样的强强联合,国产 ChatGPT 们还有希望吗?
国产大模型的差距又被拉大了?
时至今日,没有人会怀疑 ChatGPT 以及大语言模型的重要性了。包括科技部部长王志刚在内的许多专家都认可了 ChatGPT 的价值,并在几周前重点谈到了 ChatGPT。
ChatGPT 在技术进步上,特别是保证算法的实时性与算法质量的有效性上,非常难。
ChatGPT 等水平的对话机器人的开发并不困难,但实现与 ChatGPT 同等水平的自然语言理解能力以及实时性,难度极高。
在国内一众宣称正在开发类 ChatGPT 的人工智能公司中,只有阿里、腾讯、百度对大语言模型进行了大规模且长期的投入。百度是三家之中AI技术倾注心血和时间最多的公司,也是目前最有希望在大语言模型上追赶 OpenAI 的中国公司。
日前,百度宣布将于 3 月 16 日下午召开文心一言发布会,如果顺利,文心一言将成为国内大公司推出的第一个类 ChatGPT 产品。不过据 WSJ 报道,百度年前就在紧锣密鼓地进行类 ChatGPT 的开发,包括春节期间的缩减计划。
算力、资金、技术等方面都不占优势的情况下,指望百度一举追上甚至超越 OpenAI 不现实。而且随着谷歌开放 PaLM API(5400 亿参数量的业界顶尖模型),以及 GPT-4 的进一步升级,留给后来者的机会也越来越小。
但一方面,无论是 OpenAI 还是谷歌,对中文的重视程度都明显不足。此外,网络和法规等因素也注定它们很难在国内直接大规模落地。不过,百度等国内公司如果能够在中文领域追上甚至超越 OpenAI,这也是一条可行的路径。
另一方面,围绕大语言模型和生成式 AI 的商业模式还有大量的未知,OpenAI 和百度一样需要不断地进行商业化尝试。百度此前宣布包括魅族、携程、兴业银行、美通社等 400 多家企业将首批接入文心一言生态,意图明显希望极大地扩展生成式 AI 的用户群体,除了考虑生态的建立,可能也是提前抢占中国更广泛用户的心智。
当然,在文心一言真正推出落地之前,很难评判它的真正实力和潜力。而且可以预见,文心一言将不可避免地被用来与 ChatGPT 进行对比,届时才是检验百度在大语言模型和生成式 AI 实力的时刻。
题图来自 OpenAI
GPT-4 的发布标志着大语言模型技术的重大变革,也标志着国产 ChatGPT 的发布。
GPT-4 的发布标志着大语言模型技术的重大变革,意味着我们可以更加自信地自豪地说自己是拥有最先进的大语言模型技术的国家。
同时,ChatGPT 的发布也标志着国产大语言模型技术的重大变革,意味着我们可以更加自信地自豪地说自己是拥有最先进的大语言模型技术的公司。
ChatGPT 的发布标志着大语言模型技术的重大变革,也标志着国产大语言模型技术的重大突破。
同时,GPT-4 的发布也标志着大语言模型技术的重大变革,意味着我们可以更加自信地自豪地说自己是拥有最先进的大语言模型技术的公司。