PTINet:一种融合 C-LSTM、LSTM-VAE 和 MLP 的多任务行人行为预测框架 !

2024-08-20 20:36:35 浏览数 (2)

社会感知型自动驾驶车辆的进步依赖于对人类行为的精确建模。在这一广泛范式中,具体的挑战在于准确预测行人的轨迹和意图。传统方法在很大程度上依赖于历史轨迹数据,经常忽略诸如行人特定特征和环境因素等关键上下文线索。此外,尽管轨迹和意图预测相互依赖,但它们在很大程度上被视为独立的问题,这之间存在显著的知识缺口。 为了填补这一缺口,作者引入了PTINet(行人轨迹与意图预测网络),它通过结合过去的轨迹观测、局部上下文特征(个体行人行为)和全局特征(标志、标线等)来共同学习轨迹和意图预测。作者方法的有效性在广泛使用的公开数据集JAAD和PIE上进行了评估,结果显示在轨迹和意图预测方面,PTINet的表现优于现有最先进模型。 作者的实验和消融研究有力地验证了PTINet在联合探索行人行为建模中的意图和轨迹预测方面的有效性。实验评估表明,在行人轨迹和意图预测中使用全局和局部上下文特征的优势。 PTINet在预测行人行为方面的有效性为开发能够在城市环境中与行人无缝互动的自动化系统铺平了道路。 作者的源代码可在https://github.com/aalto-mobile-robotics-group/PTINet.git获取。

I Introduction

自动驾驶车辆(AV)近年来发展迅速,安全性被视为首要任务[1]。确保安全的关键一步是准确预测行人的行为。这种能力使得自动驾驶车辆能够识别并避免潜在的碰撞。例如,如果无法预测行人穿越道路的意图,自动驾驶车辆将只能在行人出现在道路上时启动刹车。这限制了反应时间,显著增加了无法及时停车的风险,可能导致事故发生。因此,高效、准确地预测行人行为对于保障人-AV交互安全至关重要。

由于无法获取行人的完整内部状态,预测行人行为面临重大挑战,这迫使作者必须利用外部线索。在自动驾驶车辆穿越共享城市空间时,预测行人行为对安全至关重要[2]。

行人行为受两个因素影响:

一是行人历史轨迹,这反映了他们的潜在意图;

二是环境上下文,由可通行和受限区域界定[3]。一个有效的预测行人行为模型需要整合这两个关键因素。在研究方法中,模拟行人行为包括两种方法[4, 5, 6],分为:

i) 意图预测 和 ii) 轨迹预测

在这项工作中,作者提出了一个研究问题:不考虑后者而仅预测前者往往限制了从自动驾驶车辆的角度理解行人行为。

意图预测涉及预期行人的下一步行动。在城市环境中,意图预测在文献中主要通过建模因素进行研究,例如通过分析历史数据(位置和上下文特征,如步态[7]、活动[8]和手势[9])预测意图。虽然这些元素在解读行人意图方面起着关键作用,但它们主要从个体的角度建模意图,而没有充分考虑环境的影响。在文献中,除了上述以行人为中心的因素外,还研究了环境因素和局部属性来模拟行人意图预测[10, 11]。核心研究挑战在于将上下文和环境因素整合到一个协同框架中,以预测行人意图,旨在提高自动驾驶车辆的行为预测能力,尽管视觉线索已经在预期中证明是有效的。

由于意图预测与轨迹预测相互关联,如果不结合后者来制定前者,就不能完全捕捉行人的行为,可能导致不安全的人-自动驾驶车辆(AV)交互。将行人的意图和轨迹预测相结合,可以增强AV系统更准确预判行人动作的能力,从而直接提高安全机制,减少事故发生的可能性。在现有研究[12, 13, 14]中,行人轨迹预测通常仅依赖于过去的移动,忽略了与意图预测的相互依赖性。此外,这些研究通常忽视了解释人类行为的重要上下文和环境因素。近期研究[4, 14, 15, 16]开发了对周围环境和过去轨迹数据中行人交互进行强化的轨迹预测算法。其他研究通过场景图[12],障碍物地图[17]和 Heatmap [18]结合场景信息来预测可行的轨迹。然而,由于它们没有考虑特定的AV特征、行人属性或交通状况,因此在准确预测行人行为方面存在不足。这个限制在动态城市环境中尤为严重,因为各种因素可能导致行人行为不可预测地变化。

在本研究中,作者提出了一种全面的框架——行人轨迹与意图预测网络(PTINet),该网络考虑行人的过去轨迹、局部上下文特征(LCF)和全局特征(GF)同时预测轨迹和意图。作者提出的框架(PTINet)与以往研究不同,它整合了由自车视野摄像头收集的过去轨迹和视觉数据,而不是鸟瞰视角的数据。视觉数据作为LCF和全面的GF被纳入模型中。LCF捕捉特定于行人的属性,包括他们的行为和周围场景特征。这些特征被表示为向量,包括行人的属性,如年龄和性别,以及他们的行为,如手势、注视方向、动作和点头。此外,它们还包括与交通相关的信息,例如行人横道、道路类型、交通标志、车道数量和交通信号。LCF使模型能够理解和表示行人行为,捕捉他们即时交互的细节,这对于准确预测轨迹和意图至关重要。GF由连续帧中的图像数据和光流组成,被整合到模型中。引入图像和光流数据特别有利,因为它赋予了框架更全面的环境理解能力。图像数据提供了丰富的视觉信息,而光流使模型能够分辨视觉线索的时间演变。在所提出的多任务框架中,过去的轨迹、GF和LCF的协同整合对于分辨复杂的时空模式至关重要,最终增强了意图和轨迹预测的鲁棒性和准确性。

作者的工作主要贡献如下:

  1. 为了学习空间和时间表示,作者在一个统一的编码器网络中集成了C-LSTM、LSTM-VAE和MLP,随后是一个基于LSTM的意图和轨迹预测解码器。
  2. 作者的实验分析和消融研究显示,在广泛使用的基准数据集上,所提出的PTINet框架的有效性优于现有技术水平。
  3. 作者开发了一个新颖的多任务框架PTINet,它整合了局部上下文特征(LCF),由行人特定属性表示,以及全局特征(GF),由图像数据和光流表示。

II 相关工作

Intention Prediction

意图预测对于促进自动驾驶车辆(AV)与行人之间的互动至关重要,它涉及到预测行人的未来行为,例如横穿道路的可能性。这种能力对于让AV能够及时做出与安全相关的决策极为重要。早期关于意图预测的工作包括从静态驾驶场景中学习特征表示[23],随后通过结合行人姿态估计来改进特征表示以进行意图预测[2]。近期研究则应用了 Transformer 网络[24],这些网络被训练用于从与视频序列中行人的输入特征中提取时间相关性。这些网络同时建模行人的不确定性并预测意图。与作者的工作最相关的行人意图预测领域的最新研究包括PIE-intent[25],FF-STA[26],TAMformer[27],PedFormer[28]以及BiPed[29]。这些研究是根据输入模态、特征提取方法、评估指标以及与作者行人意图预测设置相一致的基准数据集来选择的。尽管这些方法作为坚实的 Baseline 方法,但它们在融合从自我车辆视角的全局语境方面存在不足。例如,FF-STA[26],PedFormer[28]和BiPed[29]将环境进行分割以建模全局语境,可能会忽略环境动态。相反,PIE-intent[25]和TAMformer[27]则过分依赖局部环境语境。在这项工作中,作者选择了这些最先进的方法,它们在建模局部语境和全局特征以预测行人意图方面与作者所提出方法的定量和定性比较中得到了体现。

两种最先进的方法PedFormer[28]和BiPed[29]与作者的工作紧密相关,它们使用基于LSTM的网络,利用局部图像、过去的轨迹和语义分割图来预测意图和轨迹。尽管这些方法对作者的研究产生了重大影响,但它们也带来了一些限制。例如,BiPed[29]和PedFormer[28]将全局数据以分割图的形式集成,这未能捕捉到微妙的空间时间动态,也无法准确建模复杂的行人行为。作者的工作通过融合局部语境特征(LCF)和全面的全局特征(GF)来区分自己,利用图像和光流的创新组合来更全面地理解行人和他们的环境。与PTINet相比,其他一些工作,例如PIE-intent,采用卷积LSTM网络编码过去的视觉数据,并结合边界框信息来预测行人的意图[25]。同样,TAMformer使用了类似于PIE-intent的特征,但采用基于 Transformer 架构来进行意图预测[27]。FF-STA使用两个独立的CNN提取行人外观和语境特征以及预计算的姿态数据[26]。

Trajectory Prediction

行人轨迹预测涉及根据行人当前和过去的地理位置、行为以及周围环境来预测其未来位置。轨迹预测算法通常依赖于鸟瞰图(BEV)数据,并从俯视角度进行操作,这简化了目标之间相对距离的计算[12, 30, 31]。例如,社会LSTM使用专门的池化模块来考虑其他智能体的影响[30]。其他方法,如对抗网络[15]和MID算法[13],也专注于建模交互作用。Trajectron 融合了语义地图和动态约束[12],而[32]则采用基于 Transformer 的模型来捕捉时间依赖性。尽管这些方法取得了进展,但它们通常依赖于过去的轨迹数据,这在预测复杂人类行为方面限制了其准确性,特别是在自动驾驶车辆的背景下。

与BEV方法相比,一些算法采用第一人称视角,由于自车运动的原因,增加了复杂性[25, 33]。这些方法主要通过预测轨迹来预测行人行为。在这种背景下,轨迹预测算法使用各种输入,如边界框、与自车的距离[5]和上下文信息[22, 34]。视觉特征和行为线索,如方向和意识水平也被考虑在内[35, 33, 21]。尽管集成了各种特征,但这些轨迹预测算法在PIE[25, 33]等数据集上的轨迹准确度提升有限。与上述方法[25, 33]相比,作者的方法在图像平面上纳入了行人的人际交流特征(LCF),如手势、行走方向和点头等,以及他们的属性,以增强对未来轨迹的预测。此外,作者整合了基于图像特征和光流运动信息的GF,以提升整体场景理解。

作者提出,意图和轨迹预测是相互关联的方面,对于从自车视角准确建模行人行为至关重要。如果只关注其中一个方面而忽视另一个,可能会导致行人行为表示不完整,因为这两个元素对于理解并预测行人在交通场景中的行为至关重要。

III Methodology

Methodology

本研究方法部分分为三个主要阶段。首先,作者介绍了数据收集与预处理的方法。其次,详细阐述了所采用的算法和模型架构。最后,描述了实验设计和评估标准。以下是各阶段的详细讨论。

Problem Formulation

本研究提出了一种多任务学习框架(PTINet),用于同时预测行人的轨迹和意图。除了以行人为中心的特征,如关键点、 Head 方向和过去轨迹外,作者的方法还扩展了其范围,包括了更全面的一组特征,特别是图1所示的GF(图像数据)和LCF(上下文特征)。通过融合这些额外的特征,作者的目标是更全面地捕捉人类行为的复杂性,最终提高对轨迹和意图的预测。作者框架的制定如下所述。

给定一个城市场景的视频序列,作者将一系列观察到的视频帧定义为,其中表示与单个图像帧()对应的离散时间步。作者的方法旨在估计行人横穿街道意图的概率,表示为,同时预测行人的未来轨迹。行人的轨迹由一系列边界框表征,其中是中心坐标,是宽度,是第个图像帧中的高度。在给定的时间步,作者的框架预测行人在个时间步预测范围内的未来轨迹和横穿意图。此预测基于行人过去的轨迹、和,这些特征在时间步的观测范围内。行人过去的轨迹包括位置和速度。在第个时刻的速度则估计为从上一帧位置变化。

在此框架内,LCF被分为行人属性、行为和场景属性。

  1. 行人属性:这些属性表示为,其中每个是一个向量,表示每个行人的年龄、性别和群体大小等人口统计特征。
  2. 行为属性:这些属性表述为,每个是一个二进制向量,包含一系列非言语行为线索,如看、点头、手势和动作。
  3. 场景属性:这些属性表示为,是多维向量,详细描述了行人周围的环境和基础设施元素。每个向量包含关于运动方向、车道数量、交通标志、行人横道、道路类型和交通信号的信息。

最后,框架还包括了,即图像数据和光流。图像数据表示为,捕捉了一系列帧中的视觉上下文,而光流详细表示为,量化了这些帧之间的运动。光流的整合尤为重要,因为它使模型能够考虑并适应环境的动态方面。通过分析连续帧之间的运动模式,光流提供了对场景内时间变化和运动的深入视角,从而增强了行人行为的预测。

Architecture

图1所示框架展示了一种预测行人轨迹和意图的综合方法,该方法结合了序列图像数据、光流以及动态行人属性。该方法采用编码器-解码器架构,每个编码器模块分别负责编码行人的过去轨迹、LCF(局部运动特征)和GF(全局运动特征)。

Iii-B1 Position-Velocity Encoding Module

图中所示的长期短期记忆变分自编码器(LSTM-VAE)模块被用于编码行人轨迹,该轨迹由行人位置和速度组成[36]。对于轨迹编码来说,LSTM-VAE是一个最佳选择,因为它有效地捕捉到了长期依赖性,并利用了处理序列数据的强大能力,这对于保持轨迹预测的时间连贯性至关重要。此外,LSTM处理序列数据的能力与变分自编码器(VAE)的生成建模能力相结合,为准确捕捉行人移动和意图的概率特性提供了一种全面的方法。这个模块作为一个序列到序列的自编码器,将一系列输入向量编码到潜在空间,然后从采样的潜在变量解码回输入序列。VAE被用来学习行人轨迹的生成过程,而LSTM-VAE模块则建模时间关系。对于LSTM-VAE编码器,条件分布和近似后验分布都被建模为对角高斯分布,分别如公式(1)和公式(2)所示。

在这里,和表示均值,和表示对数方差,它们由一个神经网络估计。先验被设置为以原点为中心的各向同性多变量高斯分布,具有64个维度。LSTM-VAE编码器由一个具有512个隐藏单元的两层LSTM来处理特征向量。其输出被合并并发送到高斯层以估计潜在变量()的均值和其对数方差。应用重参化技巧来重写潜在变量为,其中,表示逐元素乘法,是从中采样的。LSTM-VAE的解码器具有一个带有512个隐藏单元的两层LSTM,并采用采样的潜在变量来生成序列。每个生成的输出随后用作高斯参数层的输入,该层预测输入特征的单个时间步的均值和方差对数。

Iii-B2 Global Feature Module

这个编码器通过图像数据和光流综合整合了全局场景动态,捕捉影响行人移动的动态变化和相互作用。图像序列通过图2所示的卷积长短时记忆网络(C-LSTM)模块进行处理。该模块包含三个C-LSTM单元[37]。每个C-LSTM单元后跟一个最大池化层,最后一个单元则后接一个全连接层。每层的卷积核大小为5x5,步长为2x2,共有32个滤波器。这个模块特别适合处理图像序列,因为它被设计为同时学习空间和时间上的依赖关系。C-LSTM单元在处理输入序列时持续更新隐藏状态,这使得它们能够有效地建模非线性时间转换。此外,光流数据通过使用ResNet-50主干网络进行编码,提取出的特征被合并形成全局流(GF)。

Iii-B3 Local Contextual Feature

它直接处理与行人相关的属性,如人口统计信息、行为线索以及即时环境上下文,有助于全面理解行人行为。鉴于数据的异质性,每个属性类别都采用独特的编码方式以保留其独特特性。利用64层多层感知机(MLP)网络对时间不变的行人属性进行编码,该网络针对静态数据表示进行了优化。相比之下,展现时间变异性的行人行为属性和场景属性,则采用与前述相同的LSTM-VAE模块进行处理。该LSTM-VAE模块建模时间依赖性,并将其编码至潜在空间。这一潜在空间以概率形式构建,以反映行人行为和环境因素的复杂性,从而生成活跃动态的密集且信息丰富的表示。

如图1所示,从这些模块(LCF和GF)编码后的特征随后被送入解码器,解码器包括轨迹预测解码器和意图预测解码器,它们利用时间和空间上下文来预测未来行人轨迹和意图。

轨迹预测解码器: 轨迹解码器旨在对给定时间步长内的行人轨迹进行预测。作者选择LSTM是因为其固有的维持长期依赖关系的能力,使其非常适合轨迹预测所需的时间精度。轨迹解码器以初始隐藏状态开始,它是从编码器模块获得的最终 ConCat 特征向量,如图1所示。该解码器将最后观察到的边界框位置作为输入,并随后生成边界框的下一个预测位置,表示为。初始预测通过方程(3)得出:

随后,预测的隐藏状态通过一个全连接层计算输出速度,如方程(4)所示:

这里,表示轨迹解码器的权重矩阵,是输出层的权重矩阵,是其相关偏置向量。后续的轨迹预测通过迭代计算时间范围。在每次迭代中,隐藏状态被更新,最近的预测轨迹作为解码器的输入。

行人意图解码器: 与轨迹解码器类似,意图解码器也采用LSTM网络处理前述模块的编码特征,生成未来的意图预测。意图解码器以组合特征集作为其初始隐藏状态启动。它还接收最后观察到的边界框位置,记作,作为输入。解码器随后输出行人的下一个预测状态,如方程(5)所示。

在此背景下,代表意图解码器,是其权重矩阵,是输出层的权重矩阵,是相关的偏置向量。对未来时间步长的行人意图通过迭代计算,每次迭代中更新隐藏状态。最后,输出意图经过softmax激活层以计算与每个潜在结果相关的概率。

Loss Funtions

提出的损失函数包括两个部分:轨迹边界框预测损失 () 和意图预测损失 ()。轨迹边界框预测损失 () 由重构损失和Kullback-Leibler (KL) 散度组成,鼓励学习的潜在空间遵循预定义的高斯分布。具体来说,重构损失量化了预测边界框与真实值之间的差异,有助于模型准确预测未来状态。KL散度作为正则化项,确保潜在变量的分布不会显著偏离先验分布。从数学上讲,轨迹边界框预测损失 () 表达为:

其中 表示由 参数化的近似后验分布 和由 参数化的先验分布 之间的KL散度。实际轨迹点 和预测轨迹点 之间的均方根误差 (RMSE) 用于在时间步 上测量重构误差,对于 个训练样本,如等式 (7) 所示。参数 平衡KL散度的影响,允许控制对潜在空间的正则化程度。

对于意图预测损失 的任务,采用二元交叉熵 (BCE),由等式 (8) 给出。这种选择特别适合于可以将输出分为两类之一的问题,例如预测行人是否意图过马路。BCE损失函数测量预测概率 和实际的真实标签 (0或1)之间的差异。

所提出方法的完整损失函数是轨迹边界框预测损失和意图预测损失之和:

其中, 和 是平衡轨迹边界框预测损失和意图预测损失贡献的权重参数。在实验中,将 和 设置为更好的结果。这个复合损失函数对于同时优化行人轨迹和意图预测至关重要,这对于在动态和复杂环境中导航非常重要。

IV Experimentation and Results

Datasets

本方法的有效性通过两个专门用于移动车辆中行人行为预测的数据集进行评估:行人意图估计(PIE)数据集[25]和自动驾驶中的联合注意力(JAAD)数据集[23]。JAAD数据集包含346个高分辨率视频片段。

图3:展示了PTINet中使用的LSTM-VAE模块架构,该模块用于学习LCF并捕捉过去轨迹的时间表示。

表1:在JAAD和PIE数据集上对所提出的方法及现有最先进方法进行定量评估,重点关注在0.5秒、1秒和1.5秒时间段内的平均位移误差(ADE)和最终位移误差(FDE)指标。这些数据来自240小时驾驶视频,以30Hz的帧率进行标注,关注686名带有行人行为标注的行人。这些行人进一步分为训练、验证和测试子集,分别包含188、32和126人。数据集提供了全面的标注,包括行人行为、姿势以及特定场景细节,如交通标志。PIE数据集以1920 x 1080像素的分辨率和30 fps的帧率捕获,包含超过六小时的驾驶视频和1,842个标注的行人。这些行人分配在训练、验证和测试集中,分别有880、243和719人。PIE数据集不仅包含针对行人的特定标注,还包含场景中其他重要元素的 spatial metadata,例如交通基础设施和交互车辆。在这两个数据集中,作者都采用了数据集提供的标准划分方式。

Training Details

PTINet框架使用PyTorch库在GPU服务器上进行训练,网络从零开始进行端到端训练。考虑输入时间步长,对应0.5秒,以及输出时间步长分别为0.5秒、1秒和1.5秒。图像数据被调整至的尺寸,对输入图像不进行其他预处理或过滤。光流估计采用PyTorch工具包MMflow [40],其中包含各种最先进的方法。经过大量实验和比较分析后,作者选择了Recurrent All Pairs Field Transforms for Optical Flow (RAFT) [41]方法,因为它在捕捉详细运动模式方面的表现更为出色。光流计算是在连续的图像之间进行的。光流也被调整至的尺寸,并且没有进行其他预处理。行人属性、场景属性和行人行为数据以分类格式使用。训练优化使用Adam优化器,遵循学习率计划。初始学习率参数设为,epsilon和权重衰减值分别设置为和。训练阶段的幂设置为。训练进行个周期,批量大小为。

Evaluation Metrics

为了全面评估所提出的方法,应用了两套不同的评价指标,每套指标都针对预测的具体方面进行了定制。对于轨迹预测,采用了_平均位移误差_(Average Displacement Error, ADE)和_最终位移误差_(Final Displacement Error, FDE),两者均基于边界框位置计算。ADE测量了一段时间序列中个时间步内预测边界框坐标与实际坐标之间的平均欧氏距离。而FDE则只关注最后一个时间步的位置。所有评价指标均以像素为单位报告。

对于意图预测,F1分数和准确率作为评估指标,衡量网络正确识别行人意图的能力。F1分数是精确度和召回率的调和平均值。准确率是正确预测的实例数量占总实例数量的比例。这些指标共同为网络的轨迹预测和意图预测方面提供了全面的评估。

Results

本节展示了所提出的环境感知多任务学习框架在两个公开数据集JAAD和PIE上的评估结果。图4提供了定性数据,以阐明所提出的框架在JAAD和PIE数据集上的性能表现。图中的边界框指示了行人的当前位置,而虚线则表示预测的未来轨迹。图中的条形图指示行人的意图,即是穿越还是不穿越,在考虑的时间范围内。

与所提出的方法相比,采用语义分割、自我运动和轨迹数据的方法(如PedFormer和BiPed)的ADE和FDE得分较高。具体来说,对于1秒的时间范围,作者比BiPed和PedFormer分别提高了大约20.44%和9.36%的ADE,以及15.93%和5.16%的FDE。在PIE数据集中,如表格I所示,所提出的方法也优于现有技术水平的方法。所提出的方法在时间范围(0.5秒,1秒,1.5秒)分别获得ADE分数4.26、9.49和16.94,而在指定的时间范围内获得FDE分数9.01、23.15和49.025,这优于现有技术水平方法的ADE和FDE得分。

表2对JAAD和PIE数据集上意图预测算法进行了定量评估。结果显示,作者提出的框架在JAAD数据集上获得了0.92的F1分数和0.96的准确度,在PIE数据集上获得了0.965的F1分数和0.98的准确度。在JAAD数据集上,TAMformer也显示了有希望的结果,F1分数为0.8,准确度为0.73。该模型融合了边界框、姿态和局部上下文,并开发了一个基于 Transformer 的框架。与TAMformer相比,作者的方法在F1分数上提高了大约15%,在准确度上提高了31.5%。PedFormer是另一个值得注意的算法。尽管它在JAAD数据集上取得了高达0.93的准确度,但其F1分数为0.54。这表明PedFormer在某些预测方面可能表现优异,如正确识别真正阳性和阴性,但在减少假阳性和阴性方面可能面临挑战,这对于平衡F1分数是一个关键因素。对于PIE数据集,PedFormer和BiPed显示出稳健的性能。PedFormer的F1分数为0.87,准确度为0.93,而BiPed的F1分数为0.85,准确度为0.91。这两个算法都受益于多任务学习和轨迹与意图预测的相互增强。

结果表明,包括行人过去的轨迹、LCF和GF在内,为理解行人行为提供了全面且更深入的认识。

此外,多任务学习的应用似乎为轨迹预测和意图预测任务提供了相互受益的效果。

V Ablation Study

Evaluation on TITAN Dataset

为了评估作者提出方法的泛化效果,作者在TITAN数据集[42]上进行了一个案例研究。该数据集包含了通过车辆前视摄像头捕捉的700个视频序列,并为8,592个独特的行人提供了边界框标注,同时补充了描述行人属性和行为模式的上下文标签。必须指出的是,该数据集没有包含场景属性的标注,这在环境特征分析方面存在局限。在这种情况下,LCF仅包含行人属性和行为。作者实验设计中采用了[42]中指定的数据集标准划分,分配400个视频序列用于训练,200个用于验证,剩余的100个用于测试。在提取光流方面,作者采用了如前所述的RAFT算法。作者使用与第IV-B节中讨论相同的超参数进行实验。表3展示了在TITAN数据集上行人轨迹预测的定量分析,将作者的方法与最新的最先进方法进行了比较。作者的方法在准确性上有了显著提升。对于0.5秒的预测,ADE从18.4929开始,并在1.5秒时增加至57.20。FDE从0.5秒时的29.6652上升至1.5秒时的116.2543。这些结果表明,作者的模型在随时间进行准确预测方面表现出色。此外,作者方法的F1分数和准确度都很高,分别为0.95和0.97,这表明作者的模型在准确预测行人轨迹和意图方面是可靠的。比较分析突显了PTINet在多个时间跨度上的轨迹准确性和对行人意图可靠预测方面的性能。

Effect of Global Features on PTINet

在作者的实验中,进行了一项消融研究,以确定GF对PTINet性能的影响。这次评估包括分析在没有光流的情况下,以及在没有图像数据的情况下PTINet的表现。表3展示了在TITAN数据集上,针对行人轨迹预测,所提出方法与现有先进方法的定量评估,重点关注0.5秒、1秒和1.5秒时间跨度下的ADE(平均位移误差)和FDE(最终位移误差)指标。图5和图6分别说明了在JAAD、PIE和TITAN数据集上,轨迹预测对ADE和FDE的影响,以及对意图预测的F1分数和准确度。这项调查的结果展示了每个特征对提高预测准确性的重要性。去除光流后,准确度略有降低,突显了它在捕捉场景中动态元素方面的作用。尽管光流对于理解运动模式是有益的,但其缺失可以通过模型中的其他特征在一定程度上得到补偿。另一方面,排除图像数据导致模型性能显著下降。这归因于图像数据在提供环境的全面上下文洞察方面所发挥的关键作用,这对于准确预测行人轨迹和意图是不可或缺的。图像数据提供了解码复杂情境和精确预判未来移动至关重要的空间和上下文线索,而光流则提供了关于时间动态的重要但相对不那么关键的信息。这项分析强调了光流和图像数据在PTINet预测准确性中的重要作用,尤其是图像数据对于保持模型的鲁棒性和精确性至关重要。

Comparison with SOTA pedestrian trajectory prediction algorithms

在JAAD和PIE数据集上观察到的性能模式强调了迫切需要开发专注于城市场景中行人行为的算法。这样的算法对于增强自动驾驶车辆中实施的安全措施至关重要。

VI Conclusion

本研究提出了一种新颖的多任务学习框架,通过考虑行人轨迹与意图之间的相互依赖关系来进行预测。

该框架融合了多种特征,包括行人属性、行为、场景特性以及全局图像和光流特征。在JAAD和PIE数据集上对框架进行了全面评估,与现有的轨迹预测算法相比,在轨迹预测方面取得了更低的平均位移误差(ADE)和最终位移误差(FDE)得分,而在意图预测方面获得了更高的F1分数和准确度。

这些结果突显了在复杂城市环境中采用上下文感知的多任务学习策略,对于提高轨迹和意图预测的潜力优势,并为行人行为的整体理解提供了可能。

参考

[1].Context-aware Multi-task Learning for Pedestrian Intent and Trajectory Prediction.

0 人点赞