NVIDIA 发布全新预训练模型,迁移学习工具包3.0全面公开可用

2021-07-23 09:41:29 浏览数 (1)

6月24日,英伟达在CVPR 2021期间发布了全新预训练模型,并宣布迁移学习工具包(TLT)3.0全面公开可用。

迁移学习工具包在NVIDIA TAO平台指导工作流程以创建AI的过程中,起到核心作用。新版本包括各种高精度和高性能计算机视觉和对话式AI预训练模型,以及一套强大的生产级功能,可将AI开发能力提升10倍。

此外,NVIDIA还公布了其用于视频会议的一个深度学习模型Vid2VidCameo。该模型借助生成式对抗网络(GAN),只需上传一张人物图像,即能让参会者在参会期间时刻保持跟上传图像相似的仪容。

无需从零训练,快速定制AI模型

对于许多尝试使用开源AI产品创建模型进行训练的工程和研究团队来说,在生产中部署自定义、高精度、高性能AI模型可能是一段十分艰难的开发历程。NVIDIA提供高质量的预训练模型和TLT以帮助降低大规模数据采集和标注成本,同时告别从头开始训练AI机器学习模型的负担。初入计算机视觉和语音服务市场的企业,现在也可以在不具备大规模AI开发团队的情况下部署生产级AI。

迁移学习,是将现有神经网络模型中的学习特征提取到新模型中,这降低了AI模型应用到某一具体领域的应用门槛。NVIDIA 迁移学习工具包(TLT),在一个简化的训练工具包中提供了迁移学习的能力,通过抽象出AI深度学习框架的复杂性来简化训练,使得开发人员只需用一小部分数据,就能快速定制出满足自身应用需求的高质量AI模型。

此外,TLT 3.0现在还与数家领先合作伙伴的平台集成,这些合作伙伴提供大量多样化的高质量标签数据,使端到端AI机器学习工作流程变得更快。现在可以使用这些合作伙伴的服务来生成和注释数据、通过与TLT无缝集成进行模型训练和优化并使用DeepStream SDK,或Jarvis部署模型以创建可靠的计算机视觉和对话式AI应用。

内置多款预训练模型,降低开发门槛

TLT 3.0内置多种新版预训练模型,范围包括计算机视觉和自然语言领域,像是车牌识别、心率监测、情绪识别、人脸特征点和语音识别等,要来加速企业采用AI的过程。预训练模型和迁移学习能降低AI模型的开发门槛,用户不必从零开始大规模收集训练资料、标注资料,而是以少量资料来微调预训练模型即可。

预训练模型有2大类,一是计算机视觉。新版特色包括比热门姿势预测模型OpenPose推论速度快9倍、支持边缘即时推论的BodyPostNet模型,还有用来侦测人员的语义分割网络PeopleSemSegNet,以及车牌侦测和识别、手势侦测、情绪识别、人脸特征点等。

另一类是自然语言相关的对话式AI,新版特色有全新的语音识别模型CitriNet、用于问答的新模型Megatron Uncased,以及数款可支持语音转文本、命名实体识别(Named-entity recognition)、标点符号和文本分类的预训练模型。

这些在市面上已经有出现的应用案例,比如Recycleye已经用TLT和后端的DeepStream SDK来做垃圾(waste)分类;还有Nota用类似的方案实现智慧交通,通过更好的调度来减少路面塞车时间。

重塑视频会议

用GAN改变参会者仪容

除了发布TLT 3.0外,NVIDIA还公布了其用于视频会议的一个深度学习模型Vid2Vid Cameo。该模型借助生成式对抗网络(GAN),仅用一张人物2D图像即可合成逼真的AI人脸说话动态,能让参会者在会议期间时刻保持着良好的参会状态。

用于视频会议的时,只需要上传一张个人照片——比如穿正装的照片,那么Vid2Vid Cameo就会藉由这张照片,加上会议过程中捕捉人物动作、面部表情,将动作应用于上传的静态照片,形成动态视频。在家参与网络会议时,即便现实中穿睡衣也能在画面中看起来是穿着正装的。此外,如果参会者往左转,该技术还能调整视角,使得参会者看起来是直接面朝摄像头的。

该模型基于NVIDIA DGX系统开发,使用包含18万个高质量人脸说话视频的数据集进行训练。相应网络学会了识别20个关键点,这些关键点可用于在没有人工标注的情况下对面部动作进行建模。这些点对特征(包括眼睛、嘴和鼻子)的位置进行编码。

然后,它会从通话主导者的参照图像中提取这些关键点,这些关键点可以提前发送给其他的视频会议参与者,也可以重新用于之前的会议。这样一来,视频会议平台只需发送演讲者面部关键点的移动情况数据,无需将某参与者的大量直播视频流推送给其他人。对于接收者一端,GAN模型会使用此信息,模拟参照图像的外观以合成一个视频。

通过仅来回压缩及发送头部位置和关键点,而不是完整的视频流,此技术将视频会议所需的带宽降低10倍,从而提供更流畅的用户体验。该模型可以进行调整,传输不同数量的关键点,以实现在不影响视觉质量的条件下,适应不同的带宽环境。这样在网络质量不佳的时候,也不会有问题。

以GPU出名的NVIDIA,驱动了PC游戏市场的增长,重新定义了现代计算机图形、高性能计算和人工智能。NVIDIA现在的软件实力也不容小觑,已经成为其关键竞争力。NVIDIA Omniverse就是专为虚拟协作和物理属性准确的实时模拟打造的开放式平台。在共享的虚拟空间中用户和团队主要设计工具、资源和项目以协同进行迭代,该平台也让创作者、设计师和工程师的复杂可视化工作流程发生转变。Omniverse平台目标应用场景和行业包括:建筑、工程和施工,制造业、媒体与娱乐产业、超级计算、云服务等平台。

从桌面到数据中心再到云端,NVIDIA的可视化平台一直在推动着创新的发展,同时带来了非凡的性能与功能。无论是在开发尖端产品、讲述沉浸式故事,亦或是重塑未来城市, NVIDIA的专业解决方案都能够帮助用户更快地取得更好的效果。NVIDIA逐步走到台前,软硬件协同,更好地解决了客户需求,加速客户的AI升级。

0 人点赞