数据争夺战:ChatGPT背后的商战与用户买单之谜
文章主题:AI训练数据, StackOverflow, Reddit, 数据收费
金磊 发自 凹非寺
ChatGPT,遭到了一波反向收费。
而管OpenAI要钱的,正是全球最大程序员问答网站StackOverflow。
理由是这样的:
你们拿我家的数据去训练AI了。
无独有偶,在StackOverflow之前,Reddit近日也发出了类似的信号——计划开始向访问其API的公司收费。
Reddit老板给出的理由更是直白:
我们的数据非常有价值,不想免费提供给科技巨头们。
不得不说,这波围绕类ChatGPT展开的“商战”着实有点意思。
不过围观的网友们就不那么乐观了:
唯一没有获利的……好像就是用户了。
科技巨头们要为训练数据买单了
我们都知道,训练一个像诸如ChatGPT这样的AI,背后定然需要海量的数据。
无论是OpenAI、谷歌、微软、Meta或是其它公司都是如此。
但这些科技巨头们一般获取这些数据的方式都是从网上抓取,也因此不会给对应数据背后的公司掏钱。
他们所获取的数据来源,就包括了StackOverflow、Reddit在内的数千个在线“资源”。
然后科技巨头们就会将这些数据“喂”给大模型,让对话AI变得更聪明、更智能。
🌟🚀科技巨头们一旦让自家的产品步入成熟期,便会以付费订阅的形式推出升级版服务,比如备受瞩目的ChatGPT Plus和GitHub Copilot等热门工具。💡💰这些创新力十足的平台,将为用户提供更高级别的功能与便捷体验,引领技术潮流的同时,也将开启全新的盈利模式。 若要了解更多详情或寻求帮助,敬请关注相关领域的最新动态。📚💻
但在这么一个过程中,像StackOverflow和Reddit这样的网站,就有点惨了。
首先,就是我们刚才提到的,这些AI拿着他们家的数据做训练,变得更强更优秀。
其次,这些AI的诞生似乎对于它们来说并没有太大的益处,反倒可能会变成非常有竞争力的对手。
于是乎,Reddit就率先不干了,CEO Steve Huffman直接撂下狠话:
想白嫖,没门!得交钱。
🌟StackOverflow CEO Prashanth Chandrasekar fully endorses Reddit’s approach, expressing his support for their innovative practices. 🚀In a recent statement, the tech visionary shines light on Reddit’s commitment to fostering a vibrant and collaborative community, echoing the platform’s success in driving knowledge-sharing and problem-solving. By embracing this philosophy, StackOverflow continues to set the bar high in the realm of developer forums, demonstrating the power of open dialogue and collaboration. 💬💻Chandrasekar’s endorsement not only solidifies Reddit’s position as a go-to destination for developers but also underscores the importance of community-driven growth in today’s digital landscape. The combined efforts of these two industry leaders serve as a testament to the value of fostering a supportive environment where knowledge can freely flow and ideas take flight. 🌟🚀
不仅如此,他还认为这些大语言模型(LLM)的开发人员还违反了自家网站用户们的权益。
因为在StackOverflow条款中有这样的明确规定:
🌟💡你完全有权掌控在Stack Overflow上的每一篇创作,它们就像你的数字宝藏,受到全球认可的知识共享协议庇护。每一份贡献都需明确标注,成为未来创新者探索的线索。🌍🌐
🌟预测未来趋势🌟开发者困惑的背后秘密🔍随着科技巨头们的创新步伐日益加快,我们即将见证一款划时代的聊天机器人——类ChatGPT的诞生。然而,当这些技术巨头带着自家的尖端产品走向市场时,一个微妙却关键的问题将浮出水面:🤔模型训练的秘密,如何向客户和公众透明化?ChatGPT背后的StackOverflow问答库,就像科技界的基石,为模型提供了海量知识与智慧。开发者们可能会面临这样的挑战——如何在不泄露敏感信息的情况下,恰当地解释这些数据来源?👀这不仅是技术伦理的考量,也是SEO优化的微妙艺术。因为用户信任和数据隐私是任何成功产品的重要基石。🚀因此,未来的科技销售策略中,如何平衡创新与透明,将成为一大考验。让我们期待科技巨头们如何巧妙地解开这个谜团,用创新的语言和技术,引领我们进入一个既尊重隐私又能共享知识的新时代。💡—原文改写:🌟ChatGPT揭秘🔍技术巨头的透明挑战🌟StackOverflow问答库,ChatGPT成长的秘密武器,为AI模型注入智慧与力量。开发者们即将面临如何在保护用户隐私的同时,清晰展示训练数据来源的微妙难题。🤔随着科技产品走向市场,如何实现创新与透明并存,成为行业关注焦点。这不仅是技术伦理的考量,也是SEO优化策略中的关键环节。💡未来的科技销售,将不再仅仅关乎产品的功能,更是关于如何赢得用户信任和尊重隐私的艺术。让我们拭目以待,看巨头们如何巧妙地处理这一挑战,开启一个既创新又合规的新篇章。🚀
因此,他们违反了知识共享许可。
🌟【StackOverflow与Reddit:数据免费政策未明,价格待定】💡Stack Overflow和Reddit两大技术社区的收费策略引起了广泛关注。尽管两者都保持着对数据收取费用这一话题的谨慎态度,目前并未公开发布明确的收费标准公告。用户们正期待着官方的进一步声明,以确定这些科技巨头的数据服务是否将收取费用。价格悬而未决,引发了行业内外的猜测与讨论。🚀
但另一方面,各种大语言模型背后的企业,也正在努力降低开发的成本。
将来若是训练数据都要收费了……那这部分成本又将会有谁来买单呢?
反正Reddit CEO的表态是:
爬取Reddit数据产生了价值,却不将任何价值返还给我们的用户,这是个问题。
会怎么收费?
虽然目前StackOverflow和Reddit都没有明确训练数据的价格,但有媒体猜测,他们可能会借鉴马斯克推特的“定价路线”。
例如在这个月,马斯克就提高了访问推特数据的价格——42000美元/5000万条推文。
更戏剧性的是,马斯克前一阵子还以“OpenAI非法使用推特数据训练”为由,准备起诉OpenAI。
而不仅是文字领域,在图片生成领域,因训练数据而产生的纠纷也是屡见不鲜。
例如Getty Image就在此前起诉了OpenAI的对手Stability AI。
理由是涉嫌使用超过1200万张照片且之前没有寻求过许可。
……
至于像StackOverflow和Reddit最终将如何定价,还需要等待他们官方的表态。
但值得明确的一点是,随着这一波AIGC热潮的到来,其背后的各种“规矩”,是值得深入探讨、商定了。
— 完 —
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!