本篇是来自video-scale-2019的演讲,演讲者是来自Stanford University的Kayvon Fatahalian,演讲题目是“Machine Learning With A Multi-Year Video Corpus”。
新兴的视觉计算应用程序需要对大量可视数据存储库进行有效的分析和挖掘。在这些数据集上运行需要有效的系统来进行像素级数据访问以及跨大量机器的并行处理。演讲者创建了大规模高效视频分析系统Scanner,将抽象表示的视频分析应用程序调度到多核CPU、GPU和媒体处理ASIC上来进行高吞吐量的像素处理。这些应用程序可以用数千个云CPU或数百个GPU的规模查询、分析和挖掘视频集合。
接着演讲者对Scanner的各种应用程序进行了展示,包括从多摄像头装置中合成VR视频流,从视频中进行3D人体姿势重构以及对大型视频数据集进行数据挖掘。这些应用程序可以有效地扩展到数百台机器,从而使以前长时间运行的大视频数据分析任务可以在几分钟到几小时内完成。
附上演讲视频:
http://mpvideo.qpic.cn/0bf2vqaasaaa64aep6ddkvpfblgdbgwaacia.f10002.mp4?dis_k=6d66da61cd5d939d23a6bcc3d690f9af&dis_t=1584588306