智猩猩机器人新青年讲座由AI与硬科技知识分享社区「智猩猩」全新企划,致力于邀请全球知名高校、顶尖研究机构以及优秀企业的青年学者,主讲在具身智能、强化学习、多智能体系统、建模仿真等机器人关键前沿技术上的研究成果和开发实践。
近年来,大语言模型(LLM)和多模态大模型(LMM)在理解和生成语言、图像等方面展现出令人瞩目的能力。但LLM和LMM缺乏必要的物理交互,无法很好地将其应用到以语言为基础、类似人类的具身智能体中。
而现有平台存在着数据规模不足、只专注于特定的具身任务缺少泛化性,以及与当前的 LLM 和 LMM 不兼容等诸多问题。因此,如何将大模型应用于具身智能体,使其能够在物理世界中进行感知、推理和行动,仍然面临着巨大的挑战。
针对当前挑战,清华大学孙茂松教授团队提出了一个具身智能体开放平台LEGENT,用于开发使用 LLM 和 LMM 的具身智能体。
该平台具有一个功能强大的3D模拟环境,为具身智能体提供了丰富的训练场景,从而提升其泛化能力。平台具有逼真的物理效果,如重力、摩擦和碰撞等,使具身智能体能够更好地理解物理世界的规则。
此外,LEGENT构建了一套高效的具身数据生成框架,用于场景及具身智能体行为生成。该平台采用程序化及语言引导两种方式实现场景生成;还可以生成大规模、多样化的具身智能体行为轨迹,包括第一人称视觉观察和相应动作,用于具身智能体的训练。
实验结果显示,根据 LEGENT 生成的数据训练的视觉-语言-行为模型的雏形,在具身任务中超越了 GPT-4V,展示了良好的泛化能力。
6月20日晚7点,智猩猩邀请到项目负责人、清华大学THUNLP lab在读博士胡锦毅参与「智猩猩机器人新青年讲座」第8讲,主讲《面向多模态大模型的具身智能平台LEGENT》。
讲者
胡锦毅
清华大学THUNLP lab在读博士
清华大学博士生,师从孙茂松教授,研究方向为多模态大模型和具身智能体,在NeurIPS,ICLR,ACL,CVPR等顶级会议和期刊发表多篇文章。
第8讲
主 题
《面向多模态大模型的具身智能平台LEGENT》
提 纲
1、多模态大模型应用于具身智能体的挑战
2、具身智能体开放平台LEGENT
3、交互式3D模拟环境与具身数据生成框架
4、基于LEGENT训练的视觉-语言-行为模型
5、多模态大模型具身能力评测框架
直 播 信 息
直播时间:6月20日19:00
直播地点:智猩猩GenAI视频号
成果
论文标题
《LEGENT: Open Platform for Embodied Agents》
论文链接
https://arxiv.org/pdf/2404.18243
项目地址
https://github.com/thunlp/LEGENT
直播预约
本次讲座将在智猩猩GenAI视频号进行直播,欢迎预约~
入群申请
针对本次讲座,也组建了学习群,讲者将会加入交流。希望入群学习和交流的朋友,可以扫描下方二维码,添加小助手莓莓进行报名。已添加过莓莓的老朋友,可以给莓莓私信,发送“机器人讲座08”申请入群。
点个“在看”和大家一起聊聊
👇👇👇