AI研究民主化:OpenAssistant推动语言模型及数据共享

文章主题:人工智能研究, 民主化, 大规模语言模型, OpenAssistant

666ChatGPT办公新姿势,助力做AI时代先行者!

站长之家4月17日 消息:OpenAI 发布之后 ChatGPT,去年12月份开源项目 OpenAssistant 也发布了其第一个模型、训练数据和代码,功能类似于 OpenAI 的 ChatGPT。

AI研究民主化:OpenAssistant推动语言模型及数据共享

打开凤凰新闻,查看更多高清图片

为什么重要:

在人工智能研究领域,尤其是大规模语言模型及其相关领域的标准化方面,目前主要由少数拥有丰富数据资源和训练能力的科研实验室所主导。然而,这种状况并不利于学科的广泛传播和深入发展。为了改变这一现状并推动研究的民主化进程,OpenAssistant应运而生,其发布的模型和数据集旨在让更多人参与到这个领域中来,从而实现研究资源的共享和多样化。通过这样的举措,我们可以提高研究的包容性,进一步促进人工智能技术在各行各业的应用与普及。

在一项针对志愿者进行的对比研究中,我们发现OpenAssistant的模型生成的结果与ChatGPT的gpt-3.5-turbo模型生成的结果非常接近。

本文将探讨一项计划,旨在抵制OpenAI在开发其语言模型和数据来源方面日益增加的透明度,并仅与少数精选专家合作的研究方法。

评析:

OpenAssistant是一个以开源方式打造的人工智能助手项目,其目标与OpenAI的ChatGPT功能一致。在众多志愿者的大力支持下,项目团队花费数月时间,成功搜集了包含“人工生成、人工注释的助理式对话语料库” data。这些收集到的宝贵数据将被运用到多种语言模型的优化和改进中,其中包括Meta的LLaMA模型以及EleutherAI的Pyhtia模型的变体。

在众多模型中,LLaMA模型的参数规模达到了惊人的300亿个,堪称巨匠。目前,Pythia模型已经正式上线,而 LLaMA模型也即将问世,预计不久后也将正式亮相。

该团队还采取措施检测并删除数据集中的有害消息,但并非万无一失。

OpenAssistant 的模型展示出了与大型语言模型普遍存在的“幻觉”问题相关的情况。此外,该模型所收集的训练数据大多由男性提供,其年龄中位数达到了26岁。

AI研究民主化:OpenAssistant推动语言模型及数据共享

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

版权声明:lida 发表于 2023年12月23日 pm3:23。
转载请注明:AI研究民主化:OpenAssistant推动语言模型及数据共享 | ChatGPT资源导航

相关文章