NVIDIA的开源工具包NVIDIA NeMo(神经模型)是朝着对话型AI发展迈出的革命性一步。它基于PyTorch,允许人们快速构建,训练和微调对话式AI模型。
随着世界变得越来越数字化,会话式人工智能是实现人与计算机之间通信的一种方式。诸如自动消息传递,语音识别,语音聊天机器人,文本到语音等一些引人入胜的技术背后的技术集。它广泛地包括了AI研究的三个领域:自动语音识别(ASR),自然语言处理(NLP)和语音合成(或文字转语音,TTS)。
对话式AI塑造了人机交互的路径,使其更易于访问和令人兴奋。诸如NVIDIA NeMo之类的会话式AI的最新进展有助于弥合机器与人类之间的鸿沟。
NVIDIA NeMo由两个子部分组成:NeMo Core和NeMo Collections。NeMo Core通常处理所有模型,而NeMo Collections处理模型的特定领域。在Nemo的语音集合(nemo_asr)中,您将找到用于语音识别,命令识别,说话者识别,说话者验证和语音活动检测的模型和各种构建块。NeMo的NLP集合(nemo_nlp)包含用于任务解答,标点符号,命名实体识别等任务的模型。最后,在NeMo的语音合成(nemo_tts)中,您将找到几个频谱图生成器和声码器,这将使您生成合成语音。
NeMo中有三个主要概念:模型,神经模块和神经类型。
- 模型包含有关训练,微调,神经网络实现,令牌化,数据扩充,基础架构详细信息(如GPU节点数等),优化算法等所有必要信息。
- 神经模块是一种编码器-解码器体系结构,由负责不同任务的概念性构建块组成。它代表了神经网络的逻辑部分,并构成了描述模型及其训练过程的基础。集合具有许多神经模块,可以在需要时重用。
- 神经模块的输入和输出使用神经类型进行输入。神经类型是一对,其中包含有关张量的轴布局及其元素的语义的信息。每个神经模块都有input_types和output_types属性,这些属性描述此模块接受的输入类型以及返回的输出类型。
即使NeMo基于PyTorch,它也可以有效地与其他项目一起使用,例如 PyTorch Lightning 和 Hydra。与Lightning的集成使使用Tensor Core更加容易地以混合精度训练模型,并且可以将训练扩展到多个GPU和计算节点。它还具有日志记录,检查点,过拟合检查等功能。Hydra还允许对脚本进行参数化,以使其井井有条。它使为用户简化日常任务变得更加容易。
GitHub:
https://github.com/NVIDIA/NeMo#tutorials
网址:
https://developer.nvidia.com/nvidia-nemo