自动驾驶如何做到感知决策一体化？上海 AI Lab 自动驾驶团队分享最新成果

自从1988 的 Alvinn 开始，端到端自动驾驶便进入了人们的视野，不同于模块化的自动驾驶方案，端到端的自动驾驶将传感器原始输入直接通过网络得到规划轨迹/控制信号。端到端自动驾驶模型结构简单，直接优化最终的驾驶信号，近年来吸引了诸多学术界和工业界的注意。

但现阶段的端到端自动驾驶也存在着很多问题，如先前基于 RL/IL 的一系列工作往往是在特征提取后简单直接输出控制信号，是一个黑盒模型，对系统的安全性形成重大挑战；大量工作关注于感知部分的传感器融合、特征提取，而忽略了如何在决策输出部分提高鲁棒性；当前工业界端到端模型实际应用落地时会遇到哪些困难等。

针对这些问题，上海人工智能实验室自动驾驶团队的研究员在感知决策一体化方面做了诸多研究，在论文《Trajectory-guided Control Prediction for End-to-end Autonomous Driving: A Simple yet Strong Baseline》中，提出了仅依靠单相机在 CARLA AD Leaderboard 上获得第一的方法 TCP，以及被 ECCV 2022 接收的论文《ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning》中，提出的基于环视相机的具有中间特征可解释性的 ST-P3 框架等内容。

机器之心最新一期线上分享邀请到了上海人工智能实验室自动驾驶团队青年研究员陈立，将围绕未来决策智能发展的一个重要应用——端到端自动驾驶（感知决策一体化）介绍他们团队取得的一系列工作成果。

分享主题：感知决策一体化的自动驾驶框架

分享嘉宾：陈立，上海人工智能实验室自动驾驶团队青年研究员，主要研究方向为计算机视觉在自动驾驶领域的应用，包括环境感知、端到端自动驾驶（感知决策一体化）等。硕士毕业于美国密歇根大学；本科毕业于上海交通大学。

分享摘要：端到端自动驾驶（感知决策一体化）是未来决策智能发展的一个重要应用。本次分享将围绕这一主题介绍我们的一系列工作。首先是对工业界量产后装设备Openpilot 的深入分析与复现部署。随后是两个学术研究上的工作，ST-P3 和 TCP。ST-P3 聚焦于增强可解释性与时空特征学习，为使用环视相机实现端到端自动驾驶提供了一个思路。而 TCP 讨论了预测轨迹和控制的不同特点，并提出了两者有效结合的新范式。

相关链接：

ST-P3：

论文地址：https://arxiv.org/abs/2207.07601

项目地址：https://github.com/OpenPerceptionX/ST-P3

TCP：

论文地址：http://arxiv.org/pdf/2206.08129.pdf

项目地址：https://github.com/OpenPerceptionX/TCP

Openpilot：

论文地址：https://arxiv.org/abs/2206.08176

项目地址：https://github.com/OpenPerceptionX/Openpilot-Deepdive

webpage：https://sites.google.com/view/openpilot-deepdive/home

加群看直播