为了更好地了解人体的视频和图像,姿势检测是关键的一步。目前许多人已经在现有模型的支持下尝试了 2D 姿态估计。
Tensorflow 刚刚在 TF.js 姿势检测 API 中推出了第一个 3D 模型。TensorFlow.js 社区对 3D 姿态估计越来越感兴趣,这为健身、医疗和运动捕捉等应用开辟了新的设计机会。一个很好的例子是使用 3D 动作在浏览器上驱动角色动画 。
社区演示使用由 MediaPipe 和 TensorFlow.js 提供支持的多个模型(即 FaceMesh、BlazePose、Hand Pose)。它甚至无需安装应用程序即可运行,因为只需要一个网页即可享受体验。
与 2D 相比,后者可以通过人工注释获得,并在数据集中保留了良好的人类多样性水平。这对于 3D 数据来说变得具有挑战性,因为手动扫描需要实验室设置或专用硬件——引入了额外的挑战,例如保持环境多样性。一些研究人员选择构建一个完全合成的数据集,这也涉及领域适应的挑战。
所提出的方法使用称为 GHUM 的 3D 统计人体模型来获取姿势地面实况。在此过程中,研究人员拟合了 GHUM 模型并使用度量空间中的真实关键点坐标对其进行了扩展。拟合的目标是对齐 2D 图像证据,其中包括语义分割对齐和形状和姿势正则化项。
为了使注释过程更有效,研究人员要求注释者在它们确定的姿势骨架边缘之间提供深度顺序。由于 3D-2D 投影的性质,3D 中的多个点可以投影到同一个 2d 点上(即具有 X 和 Y 但不同的 Z)。因此拟合结果可能不明确,导致给定输入图像或视频帧的几个真实的身体姿势。这项任务比真正的深度注释更容易,显示了注释者之间的高度一致性(交叉验证为 98%),并将GHUM 重建中的错误从 25% 减少到 3%。
BlazePose GHUM 采用两步法进行人体姿势预测。该模型在裁剪图像上进行训练,预测对象臀部中心原点的相对坐标中的 3D 位置。
MediaPipe 与 TF.js 运行时