ChatGPT面临事实挑战：微软EdgeAI助手中隐藏的准确性误码

ChatGPT与财务 3年前 (2023) lida

86 0 0

文章主题：

极简版：面对ChatGPT的挑战，谷歌Bard在展示中遭遇误判，导致其股价瞬间下跌7.68%，市值损失超过1000亿，这无疑对科技巨头谷歌构成了压力。🌟

Microsoft’s performance has been nothing short of impressive, with the early announcement of ChatGPT integration in Bing search and Edge browser resulting in a significant surge in market value. However, the question remains – have there been any mishaps in their ChatGPT-powered search experience? 🤔SEO friendly: Assessing Microsoft’s ChatGPT success without revealing personal details or promoting products.

Microsoft’s VP, Yusuf Mehdi, amazed the audience by showcasing the advanced analytics capabilities of Edge browser during the launch event. He effortlessly opened up the Q3 financial report from GAP and issued a ‘summarize key points’ command, which was promptly responded to by their AI-powered copilot in just 10 seconds. The tool presented a concise summary, demonstrating its prowess in data interpretation.Next, Mehdi swiftly requested a comparison with Lululemon’s Q3 earnings, and the AI assistant didn’t miss a beat, generating a comprehensive table that instantly showcased the financial metrics side by side. This demonstration not only highlighted Edge’s analytical prowess but also underscored Microsoft’s commitment to innovation in the tech industry.✨Edge’s AI-driven capabilities made financial analysis a breeze, leaving attendees impressed with its speed and accuracy. With such advanced tools at their disposal, companies can streamline their financial reporting processes and make data-driven decisions with ease. 📊💻🚀 #MicrosoftEdge #AIinFinance

这样的能力让人惊叹，很多网友认为分析师也要被 AI 取代了。

📊 Edge AI 助手的财报表现令人堪忧，经过仔细核查，发现其在与GAP和Lululemon的14项财务指标对比中，竟有高达70%的数据存在偏离实际情况的情况。这显然表明，尽管Edge在AI技术上有所承诺，但在实际应用中的精确性和可靠性还有待提高。对于依赖精准财务数据的企业来说，这样的失误无疑是敲响了警钟。

Microsoft’s ChatGPT search function, similar to Google Bard, carries the potential for ‘fact inaccuracies,’ albeit less pronounced. 🤔 Search users should be aware of this vulnerability and verify information diligently. While both AI assistants strive for accuracy, occasional missteps are inevitable in their quest for knowledge. #ChatGPTFactCheck #GoogleBardAccuracy

然而，这种「静默出错」在工作中却是十分危险的。

01 ChatGPT 版 Edge，财报分析翻车

🌟ChatGPT的崛起，无疑给AI领域带来了震撼，但其在信息准确性方面的挑战也让OpenAI和微软这样的巨头陷入困境。尽管他们是ChatGPT的父亲，面对层出不穷的事实误导，他们也只能望洋兴叹，无从下手。这不仅是技术问题，更是对人工智能伦理与责任的深层拷问。📚

按照微软发布会上展示的 Demo，我们在 GAP 官网中找到了公开的 2022 Q3 的财报，其中「Operating margin」应为 4.6%，而 Edge AI 助手给出的答案却是 5.9%；「Diluted earnings per share」应为 $0.77，但 Edge AI 助手却认为是 $0.42。

我们最初以为，基于 ChatGPT 的 Edge AI 助手错误地理解了财报中的相关概念，但翻遍整篇财报，却找不到「5.9%」「$0.42」这两个数据。不知道 ChatGPT 是从浩瀚互联网中的哪一个角落摘取了这些数据。

GAP 官网公布的 2022 Q3 财报

微软 Bing 官方 Youtube 的 Demo 示例（蓝框标注的数字与官方财报不符，距离微软自称的「how amazing」还有点差距）

我们又进一步找到了 lululemon 官网公布的 2022 Q3 财报进行核实，发现 Edge AI 助手给出的 14 个财务数据中，7 个都与财报不符。对于 GAP 的「Inventory」，Edge AI 助手给出的答案是 1.9 billion，和实际财报中的 3043 million，更是出现了数量级上的差错。

GAP 和 lululemon 官方财报与 Edge AI 助手答案对比（红色为不相符的数据）

也许 Edge AI 助手有它自己的计算方法，或是从非官方财报的其他来源拿到了不同的数据，导致了结果的差异。但至少可以说明，我们不应该把 ChatGPT 当作财务专家，而应对它给出的答案保持谨慎态度。

02ChatGPT 很厉害，但它不是万能的

ChatGPT 的高情商似乎让人们忘记了，它只是一个用大量数据训练出来的语言模型，而不是逻辑或者计算模型。

它是一个深度学习模型，在训练时使用了大量的文本数据，几乎读完了 2021 年及以前互联网上的公开信息（约有 5000 亿个 token，3000 亿个词），模型有 1750 亿个参数。经过了大量语言数据的训练，它能够准确地预测下一个单词大概率是什么，再把每个单词连成一句通顺的话。

ChatGPT 擅长组织语言、写出文从字顺的段落，在问答和对话上的表现非常好。但如果给它一些更有挑战的任务，比如进行推理（reasoning），尽管相较之前的模型已经非常惊艳，它目前的表现仍难胜任专业任务。

真实性（factuality），就是 ChatGPT 的阿喀琉斯之踵。前文所提到的 GAP 财报数据错误就是如此，ChatGPT 给出的答案看起来非常让人信服，但也有可能是它胡编乱造的，缺乏证据支持。从微软展示的 Demo 界面中，我们可以看到 Edge AI 助手给出了信息来源，需要人来进行下一步的事实核查工作。

在播客「OnBoard!」中，AI 从业者们提到，GPT4 在做一些补救，希望通过与使用者的多轮对话，拿到足够的反馈和信息，从而优化后续的表现。

目前，即使在多轮对话中，ChatGPT 也不能给出靠谱的答案。我们准备了一张数据表，其中包含一个错误：客户贷款净额占比，应为57.34%（客户贷款净额占比 = 客户贷款净额/资产总计= 15,322,484/26,722,408 = 57.34%），而表格中给到的数据是 55.34%。

实际的表格

随后，我们将表格转化为 Markdown 格式发送给 ChatGPT，尝试让它识别其中的占比计算错误。最开始，ChatGPT 并不认为表格数据有问题：“The table does not appear to contain any errors in its calculation of proportions.”（该表格的占比计算看起来没有任何错误。）

给 ChatGPT 的 Markdown 表格

在我们的提示下，它先是道歉（I apologize），随后准确找到了计算的公式，语义抽取的能力相当出色。但遗憾的是，它并没有对公式进行验算，最后依然给出了原文中错误的计算结果：15,322,484 / 26,722,408 = 55.34%

除了真实性存疑，信息无法及时更新同样阻碍了 ChatGPT 广泛应用。目前而言，ChatGPT 的训练数据截止到了 2021 年，也没公布过日后更新信息的频率。在被投喂相应的数据之前，它对 2022 年的了解，并不比一个牙牙学语的婴孩更多。

03 如何让 AI 靠谱一点？

首先，我们要承认，目前没有任何一家 AI 公司，能够言之凿凿地说自己产品撰写、审核的准确率能达到 100%。

但可以实现的是，在模型的反复调整和训练中，距离 100% 正确的目标近一点，再近一点。同时，在产品设计上，给出对应的提示，以及核实的路径。

比如，庖丁科技开发的 Glazer 金融文档智能撰写系统，在财务数据识别与金融文档撰写的准确率相当出色。在三大报表财务数值部分，Glazer 的准确率达 95% 以上。

同时，用户还可以通过点击生成文档中的数据，快速溯源到数据底稿，方便人工进行二次验证。我们认为，可信的 AI 产品应该谨慎地给出答案，并提供人工判断的依据。

截图来自于 Glazer 产品界面

在数据来源上，Glazer 支持对接可靠的数据库，也可以从用户上传的文档中提取，但并不会从文档之外的不可控信源中摘录数据。

庖丁科技的另一款产品，AutoDoc 金融文档智能审核系统，使用类似的技术原理，可以对人工或 AI 撰写的文档进行复核。例如上文中我们给到 ChatGPT 的表格，使用 AutoDoc 处理，它能快速地将错误数值标红，同时展现数据来源、公式计算过程。

截图来自于 AutoDoc 产品界面

ChatGPT 完成的任务，是「生成」；而 Glazer 和 AutoDoc，则是在进行「填空」。

经过数百万份页面的文档结构识别训练、几十万金融文本的关系标注后，Glazer 和 AutoDoc 能准确理解金融文档中每个数值的含义，以及内在的勾稽关系，再根据公式计算财务指标，并将计算的结果放置到对应的内容结构中。

打个比方，ChatGPT 所接受的训练，如同各学科的通识教育。而 Glazer 和 AutoDoc 的训练，则是专业教育、职业导向，类似于 CPA、CFA 的培训课程，目标明确、结果清晰。

ChatGPT 在交互体验上实现了巨大的突破，能够出色地完成续写、头脑风暴、辅助创作的任务；还可以应用在聊天机器人、智能客服中，协助处理大量客户咨询。

但在处理金融、医疗等行业的关键任务时，算法应具有更高的可信性。基于目前的模型能力，此时急于让 ChatGPT 广泛应用于各个行业、承担各种严肃的工作任务，有些为时过早。

各种 GPT 类的有趣应用，让大家感受到了科技之美，相信不久之后的 GPT4 会带来更多的可能性。庖丁科技期待人工智能的进一步发展，同时也会继续为 AI 的基础能力研究、行业落地应用贡献自己的一份力量。

如果想要体验产品，欢迎联系我们：

官网：https://paodingai.com/

邮箱：contact@paodingai.com

电话：010-58426539

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

版权声明：lida 发表于 2023年4月20日 pm12:53。
转载请注明：ChatGPT面临事实挑战：微软EdgeAI助手中隐藏的准确性误码 | ChatGPT资源导航

「ChatGPT挑战维基百科？知识巨头如何应对AI崛起？」

da, li

如何选择？GPT给出答案，关键在这里！

da, li

🔥文心一格，一句话，千幅图！AI作画神器，你的内容配图救星✨

da, li

ChatGPT咒语师：超好用的Prompt收藏！

da, li

AI聊天机器人ChatGPT：应用广泛，助力医疗等领域

da, li

ChatGPT医疗顾问？人工智能心理解语花，真的靠谱吗？

da, li

ChatGPT面临事实挑战：微软EdgeAI助手中隐藏的准确性误码

01 ChatGPT 版 Edge，财报分析翻车

02ChatGPT 很厉害，但它不是万能的

03 如何让 AI 靠谱一点？

ChatGPT：编码新时代？人工智能将如何重塑职场?

淘汰ChatGPT的Auto-GPT是炒作？自己跑代码，GitHub已破5万星

相关文章

相关文章