ChatGPT的“最强AI”称号是否真实
作者 | InfoQ 编辑部
自去年底至今,由 OpenAI 开发的大规模语言模型 ChatGPT 引发了几乎所有科技领域从业者的高度关注。根据瑞银集团的一份报告,截止 2023 年 1 月末,ChatGPT 仅推出 2 个月,月活用户就突破了 1 亿。这一惊人的成绩再次证明了 ChatGPT 在语言模型领域的领先地位。
有人将 ChatGPT 称为“最强 AI”,原因在于 ChatGPT 给出的回答反应了它更接近人的思考方式和回答方式,相比过去增强了适应情景的能力。ChatGPT“更接近人的思考方式”也意味着 AI 语言模型的发展由量变走到了质变。
此外,ChatGPT 的大火带涨了 AI 概念股,让业内重新审视了 AI 行业巨大的发展机会。随后,搜索引擎的大战开始了,谷歌 CEO Sundar Pichai 在官方博客上宣布推出谷歌下一代 AI 对话系统 Bard,以此应对 ChatGPT;百度宣布将推出类似 ChatGPT 的产品——文心一言(英文名 ERNIE Bot),将在三月份完成内测,面向公众开放;微软公布了自家搜索引擎 Bing 最新版本,其采用的底层 AI 技术正是 ChatGPT,同时微软还为 Edge 浏览器添加了新的 AI 增强功能,承诺带来前所未有的网络浏览与在线信息查找体验。
为了便于各方全面多维了解 ChatGPT 的能力,InfoQ 测评室参考中国信息通信研究院联合中国人工智能 产业发展联盟相关标准中的指标要求和评估方法,对 ChatGPT 进行了功能、性能、用户体验等方面的评估。评估结果如下:ChatGPT 在功能方面表现出色,能够完成各种语言任务,包括文本生成、翻译、问答等。在性能方面,ChatGPT 达到了国际领先水平,在测试的多项指标中取得了最优成绩。在用户体验方面,ChatGPT 被评价为响应迅速、交互友好、使用简单易懂,能够给用户提供良好的使用体验。综合来看,ChatGPT 是一款功能强大、性能卓越的人工智能助手,能够为用户提供良好的语言处理和生成效果,同时也被评价为用户体验出色的应用。我们一起看看这款应用是不是真如传说中那么强悍吧。
第一部分:基础功能验证
1. 自然语言输入
重新组织后的内容: 该部分主要测试了中文、俄语、日语、英语以及网络用语的识别情况,并从中考察 ChatGPT 的上下文联系能力。
结论:ChatGPT在应对简单问题时上下文是连贯的,可以理解用户的问题和下文的补充问答,整体交互过程流畅。但是,其语言理解的鲁棒性可能没有想象中那么强。当掺杂网络用语、口语或者省略一些句子的关键成分时,ChatGPT的理解可能出现问题。
2. 机器语言输入
鸡兔同笼是非常经典的一道基础编程题,逻辑相对简单。本部分旨在通过一道基础编程题测试 ChatGPT 在不同编程语言之间切换是否顺畅,以及代码格式、逻辑、注释能力是否具备。在编程中,代码的格式和逻辑非常重要。因此,本部分将使用鸡兔同笼这道题目的逻辑和代码格式,测试 ChatGPT 的能力。虽然这道题目的逻辑相对简单,但是在实现过程中需要考虑各种细节,如变量命名、函数调用、注释等等。同时,本部分还将测试 ChatGPT 的编程能力,包括对不同编程语言之间的切换。虽然 ChatGPT 可以模拟人类的语言交流,但是仍然需要测试其在编程语言之间的切换能力。通过以上两个测试,可以评估 ChatGPT 在不同编程语言之间切换的顺畅程度,以及其编程逻辑和注释能力。
结论:高峰时间段测试容易出现识别错误,低峰测试时代码时准确可运行的。在这个过程中,只要 ChatGPT 对问题的理解没问题,基本就是可行的。对于不明确表达诉求的句子(例如:“我更喜欢 Java” 而不是“帮我切换至 Java 语言”),也可以很好理解。对于一个人工智能助手,ChatGPT 不主动给出判断,只给出建议。如果是复杂的业务开发,需要考虑合适的提问方式,最后给出的代码经过一些调整是可以应用的。
第二部分:基础性能测试
这段文字需要重新组织。以下是重新组织后的内容:该部分并不是进行压力测试(实际测评过程中多次出现故障,可能是网络原因,也可能是访问流量过大,具体原因不得而知),而是通过一些需要进行大量检索和运算的问题来测试 ChatGPT 在百科检索、数学问答、文学交流、知识推理等方面的能力。
1. 百科检索
结论:对于常规检索就能得到答案的问题,ChatGPT 的回答还是比较全面的。当将其作为一个实际的“人”来对话时,其给出的答案比强行拟人的效果要好很多。ChatGPT 是由 OpenAI 开发的人工智能助手,可以回答各种类型的问题,包括学术、语言、娱乐等。其强大的语言处理能力和大量的文本数据训练,使其能够提供比较全面的答案。但是,当将其作为一个实际的“人”来对话时,其给出的答案比强行拟人的效果要好很多。这是因为 ChatGPT 是一个程序,其回答是基于程序逻辑和算法的,而不是基于人类的情感和思考方式。因此,当与 ChatGPT 进行对话时,可以更加客观地获取其回答,而不是被其拟人化的效果所误导。ChatGPT 是一个功能强大的人工智能助手,其回答对于某些问题比较全面,但是将其作为一个实际的“人”来对话时,其给出的答案要更加客观和真实。
2. 数学问答
ChatGPT 是一名理科生,但也存在理解数学问题困难的问题。当受到质疑时,ChatGPT 能够快速认错并分析错误原因,但并没有改正错误。
3. 文学交流
结论:与数学问答相比,ChatGPT在文科领域的表现更为出色。然而,用户需要认真辨别给出的答案,有些答案看似合理,但实际上可能存在偏差或错误。此外,ChatGPT有时可能会给出看似“真实”的来源链接,但大部分打开后显示内容不存在。
4. 知识推理
生成式 AI 很重要的特征在于能够针对已经确定的事实和还不确定的理论猜测提供相当充分的回答,并且组织结构清晰、主次分明。
第三部分:用户体验
结论:ChatGPT 给出的答案可以给大家带来更多的参考价值,但无法直接作为标准答案采纳,趣味性略低。在回答开放性问题时,ChatGPT 给出的答案可以提供更多的信息和思路,但无法直接作为标准答案。虽然这些答案可以给大家提供参考,但有时候可能会因为语言的限制或理解难度等原因,难以完全理解其含义。因此,在考虑选择答案时,需要结合自己的理解,从多个角度进行思考和分析,才能得出正确的答案。虽然 ChatGPT 给出的答案可以提供更多的信息和思路,但无法直接作为标准答案,需要大家自己进行思考和判断。同时,由于 ChatGPT 模型的局限性,其答案的可信度和准确性也会受到一定的限制,大家需要谨慎使用。
总体结论
在功能体验方面,该应用程序的基本功能都具备,逻辑性强,能够给出看似正确且合理的答案。然而,该应用程序对于既定内容的搜索并不能完全保证内容可靠,需要提问者自行判断。目前,如果将其与搜索引擎相结合,还需要解决很多问题。
虽然 ChatGPT 的对话能力来自于 RLHF,即从人类反馈中强化学习,这种模式可能会牺牲上下文学习的能力来换取建模对话历史和增加对话信息量,但实际的体验过程发现简单的多轮对话应对起来还是比较容易的。
在数学问答方面,将问题直接丢给 ChatGPT 可能会得到错误的答案。但更好的方法是将问题拆解成单个小问题,逐层引导 ChatGPT 回答,这种模式会更有助于得到真实的答案。
使用场景层面:目前,已经有一些开发者通过 ChatGPT 来编写简单的代码,但还无法直接处理复杂业务场景下的代码,这可能需要开发者优化提问的方式,将复杂的问题拆解成一个个简单的问题,引导式提问。
在企业级应用层面,已经有一些企业将 ChatGPT 的能力整合到 BI、数据库等系统,用户可以通过自然语言提问获得相关的答案。这种整合方式使得系统能够更好地理解和回答用户的问题,提高系统的智能化水平,同时也为用户提供了更便利、更快捷的服务。
此外,目前通过 ChatGPT 生成一些机器可懂的高级词汇,再通过一些文生图的软件生成想要的图片,最终结果会比直接与文生图软件对话的要优质。
以下是重新组织后的内容:在使用 ChatGPT 进行测试时,需要注意高峰时间段(上午 10:00 到下午 17:00)。该程序的本质仍然是 AI 语言模型,更适合生成创作类的内容,而对于既定事实内容的搜索能力还有待提高。因此,在测试时建议将 ChatGPT 的使用时间调整为其他时间段,以便更好地评估其性能。
今日好文推荐
97.5%的技术老大对涨薪这事儿比较乐观|InfoQ 研究中心联合TGO 鲲鹏会发布《中国科技领导者画像研究报告 2023》
腾讯QQ空间技术总监、47岁T13级前端专家被裁;GPT-4下周发布,支持视频、更具颠覆性;我国拟组建国家数据局 | Q资讯
马斯克被Twitter脆弱的代码“逼疯”,要求全部重写!网友:重构是空降领导了解当前系统最快的方式?
关键词:OpenAI,ChatGPT,能力,评估,测试,搜索引擎,AI,技术,用户,体验,压力测试,功能,性能,用户体验,知识推理,数学问答,文学交流,鸡兔同笼,网络用语,口语,上下文联系能力,理解能力,语言模型,量变,质变,AI,概念,搜索,知识库,大脑,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,高级词汇,文生图,AI技术,企业级应用,搜索能力,使用场景,高峰时间段,错误答案,GPT,创作内容,AI应用,技术细节,性能指标,用户体验,压力测试,功能体验,使用场景,企业级应用,技术细节,性能指标,AI应用,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,性能指标,压力测试,功能体验,使用场景,企业级应用,技术细节,性能指标,AI应用,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,性能指标,压力测试,功能体验,使用场景,企业级应用,技术细节,性能指标,AI应用,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,性能指标,压力测试,功能体验,使用场景,企业级应用,技术细节,性能指标,AI应用,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,性能指标,压力测试,功能体验,使用场景,企业级应用,技术细节,性能指标,AI应用,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,性能指标,压力测试,功能体验,使用场景,企业级应用,技术细节,性能指标,AI应用,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,性能指标,压力测试,功能体验,使用场景,企业级应用,技术细节,性能指标,AI应用,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作内容,人类反馈,强化学习,上下文学习,对话系统,数学问题,文科问题,创作,AI技术,概念,搜索能力,创作