AI研究民主化:OpenAssistant推动语言模型及数据共享
文章主题:人工智能研究, 民主化, 大规模语言模型, OpenAssistant
站长之家4月17日 消息:在 OpenAI 发布之后 ChatGPT,去年12月份开源项目 OpenAssistant 也发布了其第一个模型、训练数据和代码,功能类似于 OpenAI 的 ChatGPT。
为什么重要:
在人工智能研究领域,尤其是大规模语言模型及其相关领域的标准化方面,目前主要由少数拥有丰富数据资源和训练能力的科研实验室所主导。然而,这种状况并不利于学科的广泛传播和深入发展。为了改变这一现状并推动研究的民主化进程,OpenAssistant应运而生,其发布的模型和数据集旨在让更多人参与到这个领域中来,从而实现研究资源的共享和多样化。通过这样的举措,我们可以提高研究的包容性,进一步促进人工智能技术在各行各业的应用与普及。
在一项针对志愿者进行的对比研究中,我们发现OpenAssistant的模型生成的结果与ChatGPT的gpt-3.5-turbo模型生成的结果非常接近。
本文将探讨一项计划,旨在抵制OpenAI在开发其语言模型和数据来源方面日益增加的透明度,并仅与少数精选专家合作的研究方法。
评析:
OpenAssistant是一个以开源方式打造的人工智能助手项目,其目标与OpenAI的ChatGPT功能一致。在众多志愿者的大力支持下,项目团队花费数月时间,成功搜集了包含“人工生成、人工注释的助理式对话语料库” data。这些收集到的宝贵数据将被运用到多种语言模型的优化和改进中,其中包括Meta的LLaMA模型以及EleutherAI的Pyhtia模型的变体。
在众多模型中,LLaMA模型的参数规模达到了惊人的300亿个,堪称巨匠。目前,Pythia模型已经正式上线,而 LLaMA模型也即将问世,预计不久后也将正式亮相。
该团队还采取措施检测并删除数据集中的有害消息,但并非万无一失。
OpenAssistant 的模型展示出了与大型语言模型普遍存在的“幻觉”问题相关的情况。此外,该模型所收集的训练数据大多由男性提供,其年龄中位数达到了26岁。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!