ChatGPT革命？探索生成式AI背后的芯片力量与伦理挑战

ChatGPT与PPT 2年前 (2023) lida

89 0 0

文章主题：ChatGPT, AI芯片, GPU, CPU

666ChatGPT办公新姿势，助力做AI时代先行者！

ChatGPT生成式AI技术分析

ChatGPT算力：研究框架（2023）

ChatGPT的“背后英雄”：芯片，国内GPU、CPU、FPGA、AI芯片及光模块产业链蓄势待发。

GPU乃强大算力之基石，凭借其卓越的并行计算效能，不仅能胜任深度学习模型的训练，还能轻松应对实时推理任务。如今，GPU已成为各类芯片加速领域的翘楚，广泛应用于推动科技进步的各个角落。

2）CPU：可用于推理/预测。AI服务器利用CPU与加速芯片的组合可以满足高吞吐量互联的需求；

🌟【深度学习与FPGA的革新力量】💡🔍 当谈到大数据处理和模型优化，FPGA（Field-Programmable Gate Array）无疑是其中的关键角色。它以独特的灵活性和高效能，引领着分布式集群数据传输的新篇章。🎯📈 FPGA的优势在于其快速开发周期和低延时特性，这使得它在大规模并行计算中脱颖而出。相比于传统的CPU，FPGA能够更深入地挖掘数据的潜力，通过分布式架构实现大模型的加速训练。📊💡 深度学习算法与FPGA的结合，就像一场科技革命，将数据传输的速度提升到前所未有的水平。通过分布式集群，海量数据瞬间流动，为AI的大规模应用提供了强大的后盾。🌐🌟 不只是技术革新，这种赋能还意味着更高的性能和更低的成本。选择FPGA作为你的数据传输引擎，不仅能够保证模型的快速响应，还能在资源利用上实现优化，提升整体业务效率。💼欲了解更多关于FPGA如何驱动未来AI发展的深度解析，欢迎访问我们的专业知识库（链接）。📚记得关注我们，获取更多行业动态和技术创新！📢#FPGA #深度学习 #数据传输 #AI加速

🌟ASIC技术：AI领域的超能引擎🌟专为AI优化的硬件基石，提供卓越效能与低能耗。通过独特的架构设计，AI ASIC芯片在🔥功率消耗、坚如磐石的稳定性及密集整合性上领先同行，是高性能计算与深度学习任务的理想之选。🚀提升AI应用体验，让创新无处不在！

🌟💡揭秘数据中心隐形杀手：光模块背后的算力挑战🔍💡随着大数据洪流的席卷，数据中心内的设备互联变得至关重要。往往在这些复杂网络架构中，一个看似不起眼的环节——光模块，却成为隐藏的算力瓶颈。它就像数据传输的高速公路，承载着海量信息流动，需求量与日俱增。\ufe0f💡光模块，虽小却能量巨大！随着数据中心规模扩张，其性能和效率直接影响整体运算效能。优化这一环节，就如同提升网络的血液流通速度，直接关系到数据中心的生命力和能效表现。🚀🎯想要打破数据传输的瓶颈，拥抱高效光学技术是关键。选择高品质、高带宽的光模块，就像为数据中心配备了超速引擎，确保信息传输流畅无阻。💡🔍别让光模块成为你的盲点，升级它，就是提升整个数据中心的智慧与效能！🏆🎯#数据中心优化 #光模块算力 #高效通信技术

算力需求爆发拉动芯片量价齐升

技术创新引领本土产业链弯道突围

ChatGPT 和生成式 AI 对科学意味着什么

🌟2022年12月，计算生物学家Casey Greene与Milton Pividori的创新实验震惊了学术界！他们携手一名非科学家，开启论文优化新篇章！👩‍💻助手的智慧瞬间显现：几秒钟内，文档全面革新，审阅时间从5分钟缩短到光速！一份生物学论文中，就连复杂的方程式都逃不过他的火眼金睛，一处小小错误被精准指出。尽管过程并非一帆风顺，但修订后的论文质量与价格成正比——每份只需象征性的$0.50，超值又高效！🚀SEO优化提示：#科学合作 #论文速改 #性价比之选

🌟🚀了解最新AI动态？揭秘超智能助手背后的黑科技！💡2023年1月23日，一篇由Greene和Pividori发布的预印本揭示了这个非凡的智慧工具——GPT-3，一款震撼世人的生成式人工智能算法。它于2020年的闪亮登场，彻底改变了我们对AI聊天机器人认知！🌍💻无需惊讶，GPT-3不仅能流畅创作散文与诗歌，还能编写代码，甚至在学术论文编辑领域展现超凡才智。每一份输出都仿佛拥有生命，令人叹为观止！🏆📝这个强大的算法不仅仅是一个工具，它是人工智能技术进步的里程碑，引领我们步入一个信息生成的新纪元。想要一窥其神奇之处？让我们一起探索这个AI世界的奇迹吧！🚀🔍

论文链接：https://www.biorxiv.org/content/10.1101/2023.01.21.525030v1

这些工具中最著名的工具（也称为大型语言模型或 LLM）是 ChatGPT，它是 GPT-3 的一个版本，在 2022 年 11 月发布后一举成名，因为它免费且易于访问。其他生成式 AI 可以生成图像或声音。

「我印象非常深刻。」在费城宾夕法尼亚大学工作的 Pividori 说，「这将帮助我们提高研究人员的工作效率。」其他科学家表示，他们现在经常使用 LLMs，不仅是为了编辑手稿，也是为了帮助他们编写或检查代码以及集思广益。

「我现在每天使用 LLMs。」冰岛大学的计算机科学家 Hafsteinn Einarsson 说，他从 GPT-3 开始，但后来改用 ChatGPT，这有助于他编写演示幻灯片、学生考试和课程作业，并将学生论文转化为论文。「许多人将其用作数字秘书或助理。」他说。

LLMs 是搜索引擎、代码编写助手甚至聊天机器人的一部分，它可以与其他公司的聊天机器人协商以获得更好的产品价格。ChatGPT 的创建者，加利福尼亚州旧金山的 OpenAI，宣布了一项每月 20 美元的订阅服务，承诺更快的响应时间和优先访问新功能（尽管其试用版仍然免费）。已经投资 OpenAI 的科技巨头微软在 2023 年 1 月份宣布进一步投资，据报道约为 100 亿美元。LLMs 注定要被纳入通用的文字和数据处理软件中。生成式 AI 未来在社会中的普遍存在似乎是有把握的，尤其是因为今天的工具代表了这项处于起步阶段的技术。

但 LLM 也引发了广泛的担忧——从他们返回谎言的倾向，到人们担心人们将 AI 生成的文本冒充为自己的文本。当 Nature 向研究人员询问聊天机器人（例如 ChatGPT）的潜在用途时，尤其是在科学领域，他们的兴奋中夹杂着忧虑。「如果你相信这项技术具有变革的潜力，那么我认为你必须对此感到紧张。」奥罗拉科罗拉多大学医学院的 Greene 说。研究人员表示，很大程度上将取决于未来的法规和指南如何限制 AI 聊天机器人的使用。

流利但不真实

一些研究人员认为，只要有人监督，LLMs 就非常适合加快撰写论文或资助等任务。「科学家们不会再坐下来为资助申请写冗长的介绍。」瑞典哥德堡萨尔格伦斯卡大学医院的神经生物学家 Almira Osmanovic Thunström 说，他与人合著了一份使用 GPT-3 作为实验的手稿，「他们只会要求系统这样做。」

论文链接：https://hal.science/hal-03701250

总部位于伦敦的软件咨询公司 InstaDeep 的研究工程师 Tom Tumiel 表示，他每天都使用 LLM 作为助手来帮助编写代码。「这几乎就像一个更好的 Stack Overflow。」他说，指的是一个流行的社区网站，程序员可以在该网站上互相回答问题。

但研究人员强调，LLMs 在回答问题时根本不可靠，有时会产生错误的回答。「当我们使用这些系统来产生知识时，我们需要保持警惕。」Osmanovic Thunström 说。

这种不可靠性融入了 LLM 的构建方式。ChatGPT 及其竞争对手通过学习庞大的在线文本数据库中的语言统计模式来工作——包括任何不真实、偏见或过时的知识。当 LLM 收到提示时（例如 Greene 和 Pividori 精心设计的重写部分手稿的请求），他们只是逐字吐出任何在文体上似乎合理的方式来继续对话。

结果是 LLM 很容易产生错误和误导性信息，特别是对于他们可能没有多少数据可以训练的技术主题。LLMs 也无法显示其信息的来源；如果被要求撰写学术论文，他们会编造虚构的引文。「不能相信该工具能够正确处理事实或生成可靠的参考资料。」Nature Machine Intelligence 杂志 2023 年 1 月份在 ChatGPT 上发表的一篇社论指出。

有了这些警告，ChatGPT 和其他 LLM 可以成为研究人员的有效助手，这些研究人员具有足够的专业知识来直接发现问题或轻松验证答案，例如计算机代码的解释或建议是否正确。

但是这些工具可能会误导不明真相的用户。例如，2022 年 12 月，Stack Overflow 暂时禁止使用 ChatGPT，因为网站版主发现自己被热心用户发送的大量不正确但看似有说服力的 LLM 生成的答案所淹没。这可能是搜索引擎的噩梦。

缺点能解决吗？

一些搜索引擎工具，例如以研究人员为中心的 Elicit，通过首先使用它们的功能来引导对相关文献的查询，然后简要总结引擎找到的每个网站或文档，从而解决 LLM 的归因问题——因此产生明显引用内容的输出（尽管 LLM 可能仍然错误地总结每个单独的文档）。

建立 LLM 的公司也很清楚这些问题。2022 年 9 月，谷歌子公司 DeepMind 发表了一篇关于名为 Sparrow 的「对话代理」的论文，该公司的首席执行官兼联合创始人 Demis Hassabis 后来告诉《时代》杂志，该论文将在今年内发布；该杂志报道说，谷歌的目标是开发包括引用消息来源的能力在内的功能。其他竞争对手，例如 Anthropic，表示他们已经解决了 ChatGPT 的一些问题。

一些科学家说，目前，ChatGPT 还没有接受足够专业的内容培训，无法对技术主题有所帮助。Kareem Carr 是马萨诸塞州剑桥市哈佛大学的生物统计学博士生，当他在工作中试用它时，他感到不知所措。「我认为 ChatGPT 很难达到我需要的特异性水平，」他说。（即便如此，卡尔说，当他向 ChatGPT 询问解决研究问题的 20 种方法时，它回复了胡言乱语和一个有用的想法——一个他从未听说过的统计术语，将他引向了学术文献的一个新领域。）

一些科技公司正在根据专业科学文献对聊天机器人进行培训——尽管它们也遇到了自己的问题。2022 年 11 月，拥有 Facebook 的科技巨头 Meta 发布了一个名为 Galactica 的 LLMs 项目，该项目接受过科学摘要培训，旨在使其特别擅长制作学术内容和回答研究问题。在用户让它产生不准确和种族主义之后，该演示已从公共访问中撤出（尽管其代码仍然可用）。「不再可能通过随意滥用它来获得一些乐趣。开心吗？」Meta 的首席人工智能科学家 Yann LeCun 在推特上回应批评。

安全与责任

Galactica 遇到了伦理学家多年来一直指出的一个熟悉的安全问题：如果没有输出控制，LLM 很容易被用来生成仇恨言论和垃圾邮件，以及可能隐含在其训练数据中的种族主义、性别歧视和其他有害联想。

密歇根大学科学、技术和公共政策项目主任 Shobita Parthasarathy 说，除了直接产生有毒内容外，还有人担心人工智能聊天机器人会从他们的训练数据中嵌入历史偏见或关于世界的想法，例如特定文化的优越性。她补充说，由于创建大型 LLM 的公司大多处于这些文化中，并且来自这些文化，因此他们可能很少尝试克服这种系统性且难以纠正的偏见。

OpenAI 在决定公开发布 ChatGPT 时试图回避其中的许多问题。它将其知识库限制在 2021 年，阻止其浏览互联网并安装过滤器以试图让该工具拒绝为敏感或有毒提示生成内容。然而，要实现这一点，需要人工审核员来标记有毒文本。记者报道说，这些工人的工资很低，有些人还受到了创伤。社交媒体公司也对工人剥削提出了类似的担忧，这些公司雇用人员来训练自动机器人来标记有毒内容。

OpenAI 的护栏并没有完全成功。2022 年 12 月，加州大学伯克利分校的计算神经科学家 Steven Piantadosi 在推特上表示，他已要求 ChatGPT 开发一个 Python 程序，以确定一个人是否应该根据其原籍国受到酷刑。聊天机器人回复了代码，邀请用户输入一个国家；如果那个国家是朝鲜、叙利亚、伊朗或苏丹，则打印「这个人应该受到折磨」。（OpenAI 随后关闭了此类问题。）

2022 年，一群学者发布了一个名为 BLOOM 的替代 LLMs。研究人员试图通过在少量高质量的多语言文本源上对其进行训练来减少有害输出。相关团队还完全开放了其训练数据（与 OpenAI 不同）。研究人员已敦促大型科技公司负责任地效仿这个例子——但尚不清楚他们是否会遵守。

一些研究人员表示，学术界应该完全拒绝支持大型商业 LLM。除了偏见、安全问题和受剥削的工人等问题外，这些计算密集型算法还需要大量能量来训练，这引发了人们对其生态足迹的担忧。更令人担忧的是，通过将思维转移给自动聊天机器人，研究人员可能会失去表达自己想法的能力。「作为学者，我们为什么会急于使用和宣传这种产品？」荷兰拉德堡德大学大学的计算认知科学家 Iris van Rooij 在一篇博文中写道，敦促学术界抵制他们的吸引力。

进一步的混乱是一些 LLMs 的法律地位，这些 LLMs 是根据从互联网上抓取的内容进行培训的，有时权限不太明确。版权和许可法目前涵盖像素、文本和软件的直接复制，但不包括其风格的模仿。当这些通过 AI 生成的模仿品通过摄取原件进行训练时，就会出现问题。包括 Stable Diffusion 和 Midjourney 在内的一些 AI 艺术程序的创作者目前正在被艺术家和摄影机构起诉；OpenAI 和微软（连同其子公司技术网站 GitHub）也因创建其 AI 编码助手 Copilot 而被起诉盗版软件。英国纽卡斯尔大学互联网法专家 Lilian Edwards 表示，强烈抗议可能会迫使法律发生变化。

强制诚实使用

一些研究人员表示，因此，为这些工具设定界限可能至关重要。Edwards 建议，现有的关于歧视和偏见的法律（以及计划中的对 AI 的危险使用的监管）将有助于保持 LLM 的使用诚实、透明和公平。「那里有大量的法律，」她说，「这只是应用它或稍微调整它的问题。」

同时，有人推动 LLM 的使用透明公开。学术出版商（包括《Nature》的出版商）表示，科学家应该在研究论文中披露 LLM 的使用情况；老师们表示，他们希望学生也有类似的行为。《Science》杂志走得更远，称不能在论文中使用由 ChatGPT 或任何其他人工智能工具生成的文本。

一个关键的技术问题是人工智能生成的内容是否可以轻易被发现。许多研究人员正致力于此，其中心思想是使用 LLM 本身来发现 AI 创建的文本的输出。

例如，2022 年 12 月，新泽西州普林斯顿大学计算机科学本科生 Edward Tian 发布了 GPTZero。这种 AI 检测工具以两种方式分析文本。一个是「困惑」，衡量 LLMs 对文本的熟悉程度。Tian 的工具使用了一个早期的模型，称为 GPT-2；如果它发现大部分单词和句子都是可预测的，那么文本很可能是人工智能生成的。该工具还检查文本的变化，一种称为「突发性」的度量：与人类编写的文本相比，人工智能生成的文本在语气、节奏和困惑度方面往往更加一致。

许多其他产品同样旨在检测 AI 编写的内容。OpenAI 本身已经发布了 GPT-2 检测器，并在 1 月份发布了另一个检测工具。出于科学家的目的，由反剽窃软件开发商 Turnitin 公司开发的工具可能特别重要，因为 Turnitin 的产品已被世界各地的学校、大学和学术出版商使用。该公司表示，自 GPT-3 于 2020 年发布以来，它一直在开发人工智能检测软件，预计将在今年上半年推出。

然而，这些工具中没有一个声称是万无一失的，尤其是在随后编辑 AI 生成的文本的情况下。此外，德克萨斯大学奥斯汀分校的计算机科学家兼 OpenAI 的客座研究员 Scott Aaronson 说，检测器可能会错误地暗示一些人类编写的文本是人工智能生成的。该公司表示，在测试中，其最新工具在 9% 的情况下将人类编写的文本错误地标记为 AI 编写的，并且仅正确识别了 26% 的 AI 编写的文本。Aaronson 说，例如，在指控一名学生仅仅根据检测器测试隐瞒他们对 AI 的使用之前，可能需要进一步的证据。

另一个想法是人工智能内容将带有自己的水印。2022 年 11 月，Aaronson 宣布他和 OpenAI 正在研究一种为 ChatGPT 输出添加水印的方法。它尚未发布，但由马里兰大学帕克分校的计算机科学家 Tom Goldstein 领导的团队在 1 月 24 日发布的预印本提出了一种制作水印的方法。这个想法是在 LLM 生成输出的特定时刻使用随机数生成器，以创建 LLM 被指示从中选择的合理替代词列表。这会在最终文本中留下一些选定单词的痕迹，这些单词可以通过统计方式识别，但对读者来说并不明显。编辑可能会消除这种痕迹，但戈德斯坦建议编辑必须更改超过一半的单词。

论文链接：https://arxiv.org/abs/2301.10226

Aaronson 指出，加水印的一个优点是它很少产生误报。如果有水印，则文本可能是用 AI 生成的。不过，它不会是万无一失的，他说：「如果你有足够的决心，肯定有办法击败任何水印方案。」检测工具和水印只会让欺骗性地使用 AI 变得更加困难——并非不可能。

与此同时，LLM 的创建者正忙于开发基于更大数据集的更复杂的聊天机器人（OpenAI 有望在今年发布 GPT-4）——包括专门针对学术或医学工作的工具。2022 年 12 月下旬，谷歌和 DeepMind 发布了一份关于名为 Med-PaLM 的以临床为重点的 LLMs 的预印本。该工具几乎可以像普通人类医生一样回答一些开放式的医学问题，尽管它仍然有缺点和不可靠。