大模型竞赛中，谷歌的‘护城河’是否会被打破？开放AI、LLM与未来开源趋势的碰撞🔥

ChatGPT与财务 3年前 (2023) lida

71 0 0

文章主题：关键词: 大语言模型, 开源, 质量差距, LoRA

666ChatGPT办公新姿势，助力做AI时代先行者！

鱼羊编辑整理

在这场大模型军备竞赛中，我们没有护城河，OpenAI也没有。

一份谷歌内部“泄密文件”，正在网上一石激起千层浪。

大模型竞赛中，谷歌的‘护城河’是否会被打破？开放AI、LLM与未来开源趋势的碰撞🔥

打开凤凰新闻，查看更多高清图片

全文挺长，但核心观点十分明确：开源大模型迅猛发展，正在侵蚀OpenAI和谷歌的阵地。

并且，“除非改变闭源的立场，否则开源替代品将最终使它们（包括ChatGPT）黯然失色”。

如此观点一出，立刻吸引了不少业内人士的关注。

🌟Simon Willison, a renowned Django framework expert, couldn’t help but share his enthusiasm with a heartfelt “🔥This is hands-down the most captivating piece on LLM I’ve come across recently” and an enthusiastic “Definitely read it, don’t miss out!” 📚✨ His endorsement adds weight to the significance of the content, making it a must-read for those interested in the field. #LLM #DjangoExpert #MustRead

大模型竞赛中，谷歌的‘护城河’是否会被打破？开放AI、LLM与未来开源趋势的碰撞🔥

🌟【揭秘】谷歌高级工程师 Luke Sernau 精心炮制的科技力作，业内轰动！💥🚀 你是否还在为那些枯燥乏味的技术文章头痛？👩‍💻 Google 著名软件天才 Luke Sernau 带来的震撼新作，瞬间点燃了科技界的火花！🔥內部文件？真相如何？👀 彭博社的权威报道，让这场揭秘行动迅速升温。👩‍💼 作为行业内的资深观察者，我们已核实其真实性，每一字句都透露着技术深度与创新精神。🔍 Luke 的技术视角独特，语言生动，不仅满足了专业人士的好奇心，也让普通读者能轻松理解科技的奥秘。📚 不是广告，而是对未来趋势的深度解读，让科技不再高冷！💻欲了解更多，敬请关注我们的平台，我们将持续分享他的精彩观点，带你领略科技世界的无限可能！🚀# Luke Sernau #谷歌内部文件 #技术揭秘 #未来趋势

大模型竞赛中，谷歌的‘护城河’是否会被打破？开放AI、LLM与未来开源趋势的碰撞🔥

话不多说，一起来看具体内容。

核心观点

与开源大模型相比，谷歌在大模型质量方面仍有优势，但差距正在以惊人的速度缩小。

🌟🚀大模型开源之路：稳定扩散的未来？🔍💡随着技术的进步，大语言模型（LLMs）是否能经历一场类似图像生成领域的“Stable Diffusion革命”，引发了行业内外的深度探讨。虽然这一临界点尚未到来，但其潜力与图像生成领域相似之处已不容忽视。🚀🌈开源或许为LLMs带来了更广泛的接纳和创新，就像OpenAI的Diffusion模型在图像领域所引领的那样，它推动了技术的稳健迭代和普及。但这并不意味着稳定和主导地位唾手可得——每个领域的崛起都需要时间与验证。🌱🔍关键在于，如何确保这些模型的普适性、准确性和伦理考量，以实现可持续且有益的社会影响。开发者们正面临挑战，如何在追求技术创新的同时，避免潜在的风险和误解。🤔🛡️未来，我们期待看到LLMs在透明度和监管的框架下稳步发展，为人类语言处理开启新篇章。一起见证这场技术与社会的深度对话，让智慧之光更加明亮！🌟

LoRA（低秩适应）在谷歌内部被低估了。

巨型模型正在使我们减速。从长远角度看，最好的模型是那些可以快速迭代的模型。

数据质量比数据规模更重要。

直接与开源竞争是不明智的。

（以下为原文分享，经编辑）

谷歌&OpenAI没有护城河

🌟🚀探索未来AI新纪元，大模型突破的背后秘籍在哪里？🔍💡曾经的领军者，如谷歌与OpenAI，面对技术迭代的挑战，正经历一场无声的革新竞赛。🏆虽然他们手握先机，却在那关键的跨越点上，面临前所未有的困扰。🤔👀是谁引领我们步入智能新时代？是那些默默耕耘、不断创新的团队，还是等待突破的新星？🔍他们或许隐藏在无名之辈中，正以独特的方式颠覆着我们的认知。🌱💡大模型并非终点，而是新起点。技术迭代的脚步从未停歇，下一个里程碑的桂冠，或将属于那些敢于挑战、拥抱变革的力量。🏆🚀SEO优化提示：使用行业术语如”AI新纪元”、”军备竞赛”、”创新团队”等，同时融入相关关键词如”突破点”、”智能新时代”和”技术迭代”，以提高搜索引擎排名。记得保持内容的连贯性和信息密度。

就在两边激烈竞争之时，第三方势力一直在悄悄侵蚀我们的阵地。

大模型竞赛中，谷歌的‘护城河’是否会被打破？开放AI、LLM与未来开源趋势的碰撞🔥

这个“第三方”，就是开源。现在，一些“主要开源问题”已经被解决，举几个例子：

🎉掌握未来！📱LLM技术已无缝融入日常设备，像Pixel 6这样的智能手机，只需轻轻一点，就能以惊人的每秒5个token速度启动基础模型，为你的信息海洋开启高效导航。🌍无需担心复杂性，轻松享受AI带来的便捷与力量。👩‍💻马上体验，引领科技潮流！🌟

可扩展的个人AI：人们可以在笔记本电脑上微调出个性化AI。

🎉 图像生成与文本生成领域的进步🌟 无需隐藏，这些显著成就得益于不懈的努力！虽然仍有改进空间，但我们已经看到了巨大的飞跃。网络上丰富的资源为学习者提供了无限可能，只需明智地利用它们。📚💻SEO优化提示：#图像生成进展 #文本生成突破 #无限学习资源

多模态：当前多模态ScienceQA的SOTA模型，1小时内就能完成训练。

虽然我们的模型在质量方面仍有优势，但差距正在以惊人的速度缩小。

开源模型更快、更可定制、更私密且功能更强大。关键是，开源力量在用100美元和130亿参数创造大模型，而我们在1000万美元和5400亿参数下苦苦挣扎。他们仅用几周，而非几个月就能完成大模型的训练。

这对我们产生了深远的影响：

我们没有秘密武器。我们最大的希望是学习谷歌之外其他人正在做的事，并与之合作。我们应该优先考虑实现第三方集成。

当免费、无限制的替代品在质量上有所突破，人们将不会为受限制的模型付费。我们应该思考我们真正的价值是什么。

巨型模型正在拖慢我们的速度。从长远来看，最好的模型是那些可以快速迭代的模型。既然我们知道在<200亿的参数范围内，模型有什么可能性，我们就应该更多地关注模型的小型变体。

大模型竞赛中，谷歌的‘护城河’是否会被打破？开放AI、LLM与未来开源趋势的碰撞🔥

大语言模型的Stable Diffusion时刻

今年三月初，Meta的大语言模型LLaMA被泄露，开源社区得到了第一个真正有实力的基础模型。

大模型竞赛中，谷歌的‘护城河’是否会被打破？开放AI、LLM与未来开源趋势的碰撞🔥

随即，“羊驼”家族疯狂涌现，每隔几天就有新的进展发生。

仅仅一个月，指令调优（instruction tuning）、量化、质量改进、人类评估、多模态、RLHF……就都出现了。

最重要的是，开源社区解决了扩展问题，使得人人都能参与其中亲自尝试。许多新想法都来自普通人。训练和实验的门槛，已经从一个大型研究机构的总产出，降低到了一个人、一晚上和一台高性能笔记本电脑。

很多人认为这是大语言模型（LLM）的“Stable Diffusion时刻”。

在图像生成和LLM领域，低成本的公共参与都是通过LoRA（低秩适应）实现的，同时还有规模上的重大突破（比如图像合成的latent diffusion、LLM的Chinchilla）。

结果就是，质量足够高的模型吸引来了全世界的人才和机构，围绕开源大模型产生的新想法和迭代，很快超过了大型企业。

大模型竞赛中，谷歌的‘护城河’是否会被打破？开放AI、LLM与未来开源趋势的碰撞🔥

在图像领域，这些贡献已经证明其价值：开源使Stable Diffusion走上了与DALL-E完全不同的道路，激发了DALL-E所没有的产品集成、市场、用户界面等等创新。

Stable Diffusion也因此出圈，产生了远超DALL-E的文化影响力。

在LLM领域，同样的事情是否会再次发生还有待观察，但基本要素是相同的。

谷歌忽略了什么

最近，开源所取得的创新成果直接解决了我们仍在努力克服的问题。更多关注开源工作，可以帮助我们避免重复造轮子。

其中，LoRA是一种非常强大的技术，我们应该加大关注。

LoRA通过低秩分解来表示模型权重的更新，这可以大大缩减更新矩阵的大小，使得模型微调的成本更低、时间更短。

大模型竞赛中，谷歌的‘护城河’是否会被打破？开放AI、LLM与未来开源趋势的碰撞🔥

在消费级硬件上，花几个小时微调出一个个性化语言模型，这是一项重要的突破。但这项技术在谷歌内部被低估了，尽管它直接影响了我们最雄心勃勃的几个项目。

另外，从头开始训练模型是一条艰难的道路。

LoRA如此有效的部分原因在于：和其他形式的微调一样，它是可堆叠的。虽然单独的微调是低秩的，但它们的总和不需要，模型的全秩更新可以随时间推移而累积。

这意味着，随着更好的数据集和任务的出现，模型可以低成本保持最新状态，而无需负担完整运行的成本。

相比之下，从头训练大模型不仅会丢掉预训练，还会丢失已经完成的迭代改进。在开源世界，这些改进会使模型很快占据主导地位，这就使得从头重新训练显得极为昂贵。

我们应该思考，新应用、新想法是否真的需要一个全新的模型来实现。如果我们确实有重大的架构改进，使得原有的模型权重无法复用，那么我们应该专注于更积极的蒸馏方法，尽可能地保留上一代的功能。

维护大模型使谷歌处于劣势

在最流行的模型规模上，LoRA的成本非常低（约100美元）。这意味着几乎每一个对大模型有想法的人，都可以把这些想法落到现实。

短至一天的训练时间已是常态。

以这样的速度，所有这些微调所产生的累积效应，很快就会弥补模型规模带来的劣势。

事实上，就工程师的工时而言，这些模型的改进速度大大超过了我们的大模型所能做的，其中最好已经跟ChatGPT几乎没有区别了。

专注于维护地球上一些最大的模型，实际上使我们处于劣势。

此外，数据质量比数据规模更重要。

直接与开源竞争是一种失败的主张

开源大模型最近的进展对我们的业务战略有直接的影响。如果有免费、高质量的替代方案，谁会为谷歌有限制的付费产品买单呢？

我们也不应指望能够赶上。现代互联网在开源的基础上运行是有原因的。开源有一些我们无法复制的显著优势。

我们需要开源，胜过开源社区需要我们。

对我们的技术保密其实是一个脆弱的主张。每过一段时间，都会有谷歌的研究人员离职去往其他公司。所以我们可以假定，他们了解我们所知道的一切。

但是，由于大语言模型的负担成本正在降低，保持技术优势会变得更加困难。

世界各地的研究机构都在相互借鉴，以一种比我们自身能力更广的方式探索解决方案。在这种外部创新不断挑战我们技术价值的情况下，我们可以选择紧守我们的秘密，或者尝试相互学习。

现在，开源大模型的很多创新，都是源于Meta LLaMA模型的泄露。但Meta又成为这一进程中一个明显的赢家——他们相当于获得了整个星球的免费劳动力。由于大多数开源创新都基于他们的架构，因此没有什么能阻止他们将这些迭代进化整合到他们的产品中。

拥有生态系统的价值怎么强调都不为过。谷歌本身已在开源产品，如Chrome和Android中，成功验证了这一点。通过拥有孵化创新的平台，谷歌巩固了自己作为意见领袖和方向制定者的地位，获得了塑造比自身更宏大的想法的能力。

△

Midjourney生成

我们对模型的控制越严密，开源替代方案的吸引力就越大。谷歌和OpenAI都倾向于防御性的发布模式，以确保他们能严格控制模型的使用方式。但这是徒劳的，任何想将LLM用于未经批准目的的人，都可以选择免费的开源模型。

谷歌应该让自己成为开源社区的领导者，通过更广泛的合作对话，而非忽视来起到带头作用。

这必然意味着放弃对我们模型的一些控制。但这种妥协是不可避免的。我们不能既希望推动创新，又要控制创新。

大模型竞赛中，谷歌的‘护城河’是否会被打破？开放AI、LLM与未来开源趋势的碰撞🔥

考虑到OpenAI当前的封闭策略，有人会觉得这些关于开源的讨论不公平。但事实是，我们已经通过挖对方墙脚的形式，与他们分享了一切。在这种趋势被扼制之前，保密是一个有争议的问题。

最后，OpenAI并不重要。在对于开源的态度上，他们犯了与我们相同的错误。他们保持优势的能力必然受到质疑。除非他们改变立场，否则开源替代品可以并最终将使其黯然失色。

至少在这方面，我们可以迈出第一步。

如何定义“护城河”

据彭博社消息，这篇文章是谷歌高级软件工程师Luke Sernau四月初在谷歌内网发布的。在被泄露之前，已经在谷歌内部被大量转发。

而原文一经流出，也引起了网友们的热烈讨论。

不过，也有不少网友并不认同Sernau的观点。

任何用过GPT-4的人都知道，开源模型与之相距甚远，甚至比不上GPT-3.5。OpenAI肯定有护城河，至少目前是这样。我不确定谷歌有没有，Bard反正是挺让人失望的。

大模型竞赛中，谷歌的‘护城河’是否会被打破？开放AI、LLM与未来开源趋势的碰撞🔥

有网友认为，Sernau关于与开源社区合作可以让模型更快改进的观点值得认同。但其实无论是开源还是闭源，改进得快的那一方都将获胜。

Midjourney目前比Stable Diffusion更受欢迎，因为它目前更好。但Midjourney是闭源的。

我想说的是，用户会盯紧最好的模型。开源并不总能获胜。

大模型竞赛中，谷歌的‘护城河’是否会被打破？开放AI、LLM与未来开源趋势的碰撞🔥

还有网友直接用一张图回怼：

大模型竞赛中，谷歌的‘护城河’是否会被打破？开放AI、LLM与未来开源趋势的碰撞🔥

但无论如何，“开源模型每周都在变得更好”。

而有关大模型的精彩故事，才刚刚开篇。

参考链接：

[1]https://www.semianalysis.com/p/google-we-have-no-moat-and-neither

[2]https://www.bloomberg.com/news/articles/2023-05-05/google-staffer-claims-in-leaked-ai-warning-we-have-no-secret-sauce

[3]https://news.ycombinator.com/item?id=35813322

[4]https://twitter.com/simonw/status/1654158105221922816

[5]https://www.reddit.com/r/MachineLearning/comments/137rxgw/d_google_we_have_no_moat_and_neither_does_openai/

— 完 —

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

版权声明：lida 发表于 2023年5月7日 am2:09。
转载请注明：大模型竞赛中，谷歌的‘护城河’是否会被打破？开放AI、LLM与未来开源趋势的碰撞🔥 | ChatGPT资源导航

人工智能热潮下，监管难题与未来挑战？

da, li

得ChatGPT者，得智能客服天下？

da, li

揭秘ChatGPT：深度解析其底层原理与实现技巧

da, li

【神秘链接大泄密】ChatGPT-4悄然亮相，网民：这是免费试玩吗？

da, li

跨越ChatGPT大模型和AI2.0的未来演讲PPT（附下载）

北纬科技业绩说明会聚焦热点，6G、物联网布局及游戏亮点满满？

da, li

113

大模型竞赛中，谷歌的‘护城河’是否会被打破？开放AI、LLM与未来开源趋势的碰撞🔥

百度财报引热议，50亿回购计划背后的故事，AI未来真的能照亮百度之路吗？

ChatGPT后浪汹涌，中国能否在一年内迎头赶上？超大规模训练的秘密与未来挑战

相关文章

相关文章