AI研究民主化：OpenAssistant推动语言模型及数据共享

ChatGPT与Excel 1年前 (2023) lida

48 0 0

文章主题：人工智能研究, 民主化, 大规模语言模型, OpenAssistant

站长之家4月17日消息:在 OpenAI 发布之后 ChatGPT，去年12月份开源项目 OpenAssistant 也发布了其第一个模型、训练数据和代码，功能类似于 OpenAI 的 ChatGPT。

打开凤凰新闻，查看更多高清图片

为什么重要:

在人工智能研究领域，尤其是大规模语言模型及其相关领域的标准化方面，目前主要由少数拥有丰富数据资源和训练能力的科研实验室所主导。然而，这种状况并不利于学科的广泛传播和深入发展。为了改变这一现状并推动研究的民主化进程，OpenAssistant应运而生，其发布的模型和数据集旨在让更多人参与到这个领域中来，从而实现研究资源的共享和多样化。通过这样的举措，我们可以提高研究的包容性，进一步促进人工智能技术在各行各业的应用与普及。

在一项针对志愿者进行的对比研究中，我们发现OpenAssistant的模型生成的结果与ChatGPT的gpt-3.5-turbo模型生成的结果非常接近。

本文将探讨一项计划，旨在抵制OpenAI在开发其语言模型和数据来源方面日益增加的透明度，并仅与少数精选专家合作的研究方法。

评析:

OpenAssistant是一个以开源方式打造的人工智能助手项目，其目标与OpenAI的ChatGPT功能一致。在众多志愿者的大力支持下，项目团队花费数月时间，成功搜集了包含“人工生成、人工注释的助理式对话语料库” data。这些收集到的宝贵数据将被运用到多种语言模型的优化和改进中，其中包括Meta的LLaMA模型以及EleutherAI的Pyhtia模型的变体。

在众多模型中，LLaMA模型的参数规模达到了惊人的300亿个，堪称巨匠。目前，Pythia模型已经正式上线，而 LLaMA模型也即将问世，预计不久后也将正式亮相。

该团队还采取措施检测并删除数据集中的有害消息，但并非万无一失。

OpenAssistant 的模型展示出了与大型语言模型普遍存在的“幻觉”问题相关的情况。此外，该模型所收集的训练数据大多由男性提供，其年龄中位数达到了26岁。

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！