ADAPT驾驶黑科技，车辆行为全知道，自动驾驶也能说’人话’？！

学会提问 3年前 (2023) lida

90 0 0

文章主题：自动驾驶, ADAPT, 视觉神经网络, 行为感知

666ChatGPT办公新姿势，助力做AI时代先行者！

还在玩ChatGPT？已经有自动驾驶算法能告诉你“我在干嘛”。

🌟🚀基于先进的视觉与神经网络技术，自动驾驶系统已进化到能够理解环境、模仿驾驶者习惯的境界。它无需直接接触，就能解读传感器数据，凭借深度学习的力量，实现智能判断和车辆操控。这是一种未来出行的智慧象征，让行车更加安全与流畅。🌍🚗

ADAPT驾驶黑科技，车辆行为全知道，自动驾驶也能说’人话’？！

打开凤凰新闻，查看更多高清图片

但是，算法基于什么做出的决策？特别是出现故障，也就是决策错误的时候，算法是怎么想的？这些一直被称为自动驾驶算法里的“黑匣子”，让算法缺乏透明度和可解释性。

🌟当然，对于这样的智能模型，它能预测驾驶行为并清晰阐述其决策依据的能力确实令人赞叹！就像一辆车在路口的智慧操作，基于交通信号的变化和行人的安全考虑，它能自动驾驶到合适的位置停车。这种技术不仅提升了行车安全性，也让车辆的决策过程变得更加透明，仿佛在为我们揭示一个无声的交通哲学。🌍

模型论文入选ICRA 2023，相关模型已开源。

那么，是一个什么样的算法？

ADAPT：驾驶行为感知说明大模型

这是一种叫ADAPT（Action-aware Driving Caption Transformer）的端到端算法，也是目前第一个基于Transformer的驾驶行为描述框架，可以感知和预测驾驶行为，并且输出自然语言叙述和推理。

ADAPT驾驶黑科技，车辆行为全知道，自动驾驶也能说’人话’？！

直白一点说，输入车辆视频后，这个算法可以判断车辆行为并告诉你：车在做什么，为什么要这么做。

ADAPT驾驶黑科技，车辆行为全知道，自动驾驶也能说’人话’？！

在论文作者提供的测试视频里，这个算法最终上车的效果是这样的。（红色字是车辆行为，蓝色字是解释）

“车在向前开。因为路上没有车。”

ADAPT驾驶黑科技，车辆行为全知道，自动驾驶也能说’人话’？！

驾驶行为变化后，算法也能及时感知：

“车靠左边停下了。因为要停车。”

ADAPT驾驶黑科技，车辆行为全知道，自动驾驶也能说’人话’？！

“车开始移动并且靠右行驶。因为路左边停着车。”

ADAPT驾驶黑科技，车辆行为全知道，自动驾驶也能说’人话’？！

算法不仅能识别路口，也能识别骑着车的人。

“车在十字路口停下了。因为要避开街上骑着自行车的人，”

ADAPT驾驶黑科技，车辆行为全知道，自动驾驶也能说’人话’？！

这是怎么实现的？

多任务框架下的联合训练

ADAPT框架可以分为两个部分：车辆行为描述（DCG，Driving Caption Generation）和车辆控制信号预测（CSP，Control Signal Prediction）。

ADAPT驾驶黑科技，车辆行为全知道，自动驾驶也能说’人话’？！

🚀Vehicle Insights Unleashed! 🚀初始步骤，尖端的Sensor Fusion捕获并处理高清视频，就像Video Swin Transformer这把超能解码钥匙，它以卓越的效能对车辆行为进行深度解析。每个帧的关键信息都转化为精炼的视频特征，这些特征随后被送往任务模块的深处，激活智能引擎。🚀特征驱动，任务模块协同运作 🚀这些独特的视频特征不仅丰富了系统的认知，还通过精确的路径引导，驱动着一系列关键任务的高效执行。从行为识别到安全监控，每个环节都精准无误，为驾驶者提供全方位的安全保障。🔍优化流程，SEO友好升级 🔍每一个精心设计的步骤都在为搜索引擎优化铺路，确保信息透明且易于被搜索引擎抓取，提升在线可见度，让您的车辆知识广而告之。🏆通过Video Swin Transformer，打造未来智能驾驶体验 🚀让我们一起揭开这个科技驱动安全的新篇章，Video Swin Transformer引领的不仅仅是视频处理技术的进步，更是智慧出行新纪元的先声。

在DCG模块，算法利用Vision-Language Transformer生成两个自然语句，也就是上文中提到的车辆行为描述和原因解释。

🌟🚀通过先进的CSP模块，我们对视频中的特定元素进行深度处理，提取关键特征，然后转化为实时的驾驶指令序列。就像自动驾驶界的光学大脑一样，它能精准地解读路况信息（速度、方向和加速度）并通过Motion Transformer模型的预测力量，确保车辆安全而流畅地行驶。🚀🌟

原文改写：通过车辆控制信号序列的实际与预测对比，作者构建了CSP模块，其评估指标为两者均方误差。在这个网络架构中，我们专注于优化控制信号的精确度，而非具体个人或联系方式。去除任何潜在的广告元素，确保内容对搜索引擎友好，使用简洁易懂的语言，并适当运用emoji以提升可读性。

ADAPT驾驶黑科技，车辆行为全知道，自动驾驶也能说’人话’？！

🌟在多任务环境下，将DCG与CSP进行协同训练是关键🌟，这有助于缩小车辆操作与文字表述间的差距，从而提升对控制指令的精准预判。通过这种策略，我们能更有效地优化决策流程，让智能系统更加流畅地执行复杂任务。🎯减少误解，提高效率，这就是未来自动驾驶技术迈向成熟的重要一步🚀。

论文里，作者们在包含控制信号和车辆视频的大规模数据集BDD-X上，利用机器评测和人工评测验证了ADAPT的有效性。

机器评测方面，使用的是BLEU4、METEOR、ROUGE-L和CIDEr（对应缩写分别为B4、M、R、C）等多种语言任务常用的指标。

ADAPT驾驶黑科技，车辆行为全知道，自动驾驶也能说’人话’？！

最终显示ADAPT达到了当前最优（State-of-the-Art）的结果，ADAPT在动作描述方面比原有先进方法CIDEr高出31.7，在原因解释方面高33.1。

ADAPT驾驶黑科技，车辆行为全知道，自动驾驶也能说’人话’？！

人工评测分为动作描述、原因解释和全句三个部分。通过人工判断，ADAPT在这三部分的准确性分别达到了90%，90.3%和82.7%，证明了ADAPT的有效性。

ADAPT驾驶黑科技，车辆行为全知道，自动驾驶也能说’人话’？！

在可视化结果里，也能看出ADAPT可以准确识别车辆行为以及决策原因。并且在黑夜、阴雨天等场景下，ADAPT也能保证准确度；即使有雨刷器干扰，ADAPT也可以识别道路上的停止标识。

为什么需要ADAPT？

自动驾驶行为的可解释性

在基于视觉的自动驾驶算法里，比较常见的解释图有视觉注意图（Attention Map），或者成本量图（Cost Volume），但不熟悉自动驾驶算法的人容易对这些图造成误解。

ADAPT驾驶黑科技，车辆行为全知道，自动驾驶也能说’人话’？！

△

上：视觉注意图；下：成本量图

因此，ADAPT这种能够生成自然语言、“说人话”的算法，能够帮助用户更好地理解自动驾驶算法在做什么、为什么要这么做，同时还能让用户更信任自动驾驶技术。

而对于算法工程师和研究人员来说，当发生极端情况时、或者发生故障（比如判断错误）时，ADAPT可以帮助他们获得更多信息，进而改进算法。

ADAPT驾驶黑科技，车辆行为全知道，自动驾驶也能说’人话’？！

作者们将进一步研究如何在模拟器和实际车辆上如何部署ADAPT，以及如何利用文本转语音技术，让生成的句子转化为语音，帮助普通乘客，特别是视力障碍乘客使用。

本文作者来自中国科学院自动化研究所、清华大学人工智能产业研究院（AIR）、北京大学、英特尔中国研究院、西安电子科技大学、南方科技大学和北京航空航天大学。

ADAPT驾驶黑科技，车辆行为全知道，自动驾驶也能说’人话’？！

论文一作晋步和三作郑宇鹏是来自中国科学院自动化研究所的研究生，晋步主要研究方向为多模态学习、视觉语言模型等。

通讯作者为刘新宇，清华大学自动化系学士和硕士，长期从事软件研发工作，著有《算法新解》。

作者之一李鹏飞是AIR在读博士生，本科毕业于中国科学院大学，主要研究智慧交通、机器人、计算机视觉等方向。

ADAPT驾驶黑科技，车辆行为全知道，自动驾驶也能说’人话’？！

另一位作者赵昊是AIR助理教授，本博毕业于清华大学电子工程系，曾任英特尔中国研究院研究员和北京大学联合博士后，研究方向为几何与认知层面的场景理解及其在机器人中的应用。

ADAPT驾驶黑科技，车辆行为全知道，自动驾驶也能说’人话’？！

另外，本文的模型已经开源，感兴趣的可以去试试看～

ADAPT驾驶黑科技，车辆行为全知道，自动驾驶也能说’人话’？！

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

ChatGPT 人工智能场景新闻

版权声明：lida 发表于 2023年3月31日 pm4:48。
转载请注明：ADAPT驾驶黑科技，车辆行为全知道，自动驾驶也能说’人话’？！ | ChatGPT资源导航

相关文章

ChatGPT：改变游戏规则的技术风暴，它将带来什么影响？

da, li

99

🎉ChatGPT加持！Bing全面开放搜索权限，你的免费搜索引擎升级了？🔍🔥

da, li

83

百度文心一言，能打破盈利魔咒吗？巨额成本与医疗广告流量战，一言难尽…

da, li

92

AI时代的创意困境：打工人如何应对

da, li

56

35岁职场困惑？！如何打破事业瓶颈，这里有一招！

da, li

72

ChatGPT热度背后，微软核聚变之路能否照亮未来能源？

da, li

80

666ChatGPT资源导航，集AI问答网址、资源、资讯于一体，涵盖百度文心一言，OPEN AI ChatGPT，通义千问，腾讯混元，讯飞星火等语言模型，助力于办公，写作效率提升，释放AI时代生产力！

Copyright © 2025 ChatGPT资源导航粤ICP备2021125297号-8