torchaudio:PyTorch 的音频库
torchaudio 的目标是将PyTorch应用到音频领域。通过支持 PyTorch,torchaudio 遵循相同的理念,即提供强大的 GPU 加速,通过 autograd 系统专注于可训练的特征,并具有一致的风格(张量名称和维度名称)。因此,它主要是一个机器学习库,而不是一个通用的信号处理库。PyTorch 的好处可以在 torchaudio 中看到,因为所有计算都通过 PyTorch 操作进行,这使得它易于使用并且感觉像是一个自然的扩展。
- 支持音频 I/O(加载文件、保存文件)
- 使用 SoX 将以下格式加载到 Torch Tensor 中
- mp3、wav、aac、ogg、flac、avr、cdda、cvs/vms、
- aiff, au, amr, mp2, mp4, ac3, avi, wmv,
- mpeg、ircam 和 libsox 支持的任何其他格式。
- Kaldi (方舟/SCP)
- 使用 SoX 将以下格式加载到 Torch Tensor 中
- 常见音频数据集的数据加载器(VCTK,YesNo)
- 常见的音频转换
- 频谱图、AmplitudeToDB、MelScale、MelSpectrogram、MFCC、MuLawEncoding、MuLawDecoding、重采样
- 合规性接口:使用 PyTorch 运行与其他库一致的代码
- Kaldi:频谱图、fbank、mfcc、resample_waveform
依赖关系
- PyTorch(兼容版本见下文)
- libsox v14.3.2 或更高版本(仅在从源代码构建时需要)
- [可选] vesis84/kaldi-io-for-python commit cb46cb1f44318a5d04d4941cf39084c5b021241e 或以上
以下是对应的torchaudio
版本和支持的Python版本。
torch | torchaudio | python |
---|---|---|
master / nightly | master / nightly | >=3.6 |
1.7.0 | 0.7.0 | >=3.6 |
1.6.0 | 0.6.0 | >=3.6 |
1.5.0 | 0.5.0 | >=3.5 |
1.4.0 | 0.4.0 | ==2.7, >=3.5,<=3.8 |
安装
二元分布
要使用 anaconda 安装最新版本,请运行:
代码语言:javascript复制conda install -c pytorch torchaudio
要安装最新的 pip 轮子,请运行:
代码语言:javascript复制pip install torchaudio -f https://download.pytorch.org/whl/torch_stable.html
(如果您还没有安装 Torch,这将默认从 PyPI 安装 Torch。如果您需要不同的 Torch 配置,请在运行此命令之前预安装 Torch。)
Nightly 构建
请注意,每晚构建是在 PyTorch 的每晚构建基础上构建的。因此,当您使用每晚构建的 torchaudio 时,您需要安装最新的 PyTorch。
pip
代码语言:javascript复制pip install numpy
pip install --pre torchaudio -f https://download.pytorch.org/whl/nightly/torch_nightly.html
conda
代码语言:javascript复制conda install -y -c pytorch-nightly torchaudio
从 Source
如果您的系统配置不在上述支持的配置中,您可以从源代码构建 torchaudio。
这将需要 libsox v14.3.2 或更高版本。
如何安装 SoX 的示例
OSX(自制软件):
代码语言:javascript复制brew install sox
Linux(Ubuntu):
代码语言:javascript复制sudo apt-get install sox libsox-dev libsox-fmt-all
Python
代码语言:javascript复制conda install -c conda-forge sox
代码语言:javascript复制# Linux
python setup.py install
# OSX
MACOSX_DEPLOYMENT_TARGET=10.9 CC=clang CXX=clang python setup.py install
或者,构建过程可以静态构建 libsox 和一些可选的编解码器,并且 torchaudio 可以通过设置环境变量来链接它们BUILD_SOX=1
。构建过程将在构建扩展之前获取并构建 libmad、lame、flac、vorbis、opus 和 libsox。此过程需要cmake
和pkg-config
。
# Linux
BUILD_SOX=1 python setup.py install # OSX
BUILD_SOX=1 MACOSX_DEPLOYMENT_TARGET=10.9 CC=clang CXX=clang python setup.py install
众所周知,这适用于 linux 和 unix 发行版,例如 Ubuntu 和 CentOS 7 以及 macOS。如果您在新系统上尝试此操作并找到使其工作的解决方案,请随时通过打开问题来共享它。
故障排除
检查构建系统类型… ./config.guess: 无法猜测系统类型
由于编解码器的配置文件较旧,因此无法正确检测新环境,例如 Jetson Aarch。需要用最新的或替换该config.guess
文件。./third_party/tmp/lame-3.99.5/config.guess``./third_party/tmp/libmad-0.15.1b/config.guess
:https://github.com/gcc-mirror/gcc/blob/master/config.guess
另见:#658
使用“BUILD_SOX”时对“tgetnum”的未定义引用
如果在 anaconda 环境中构建时遇到类似以下的错误:
代码语言:javascript复制../bin/ld: console.c:(.text 0xc1): undefined reference to `tgetnum'
安装ncurses
从conda-forge
运行前python setup.py install
:
# 从 conda-forge 安装 ncurses
conda install -c conda-forge ncurses
快速使用
代码语言:javascript复制import torchaudio
waveform, sample_rate = torchaudio.load('foo.wav') # load tensor from file
torchaudio.save('foo_save.wav', waveform, sample_rate) # save tensor to file
后端调度
默认情况下,在 OSX 和 Linux 中,torchaudio 使用 SoX 作为后端来加载和保存文件。可以使用以下命令将后端更改为SoundFile。有关安装说明,请参阅SoundFile。
代码语言:javascript复制import torchaudio
torchaudio.set_audio_backend("soundfile") # 切换后台
waveform, sample_rate = torchaudio.load('foo.wav') # 像通常一样从文件加载张量
torchaudio.save('foo_save.wav', waveform, sample_rate) # 像往常一样将张量保存到文件中
与 SoX 不同,SoundFile 目前不支持 mp3。
API 参考
API 参考位于此处:http://pytorch.org/audio/
公约
由于 torchaudio 是一个机器学习库,并且构建在 PyTorch 之上,torchaudio 围绕以下命名约定进行了标准化。假定张量将“通道”作为第一个维度,将时间作为最后一个维度(如果适用)。这使其与 PyTorch 的尺寸一致。对于大小名称,使用前缀n_
(例如“大小为 ( n_freq
, n_mel
)的张量”),而维度名称没有此前缀(例如“维度(通道,时间)的张量”)
waveform
:具有维度(通道、时间)的音频样本张量sample_rate
:音频维度的速率(每秒采样数)specgram
:具有维度(通道、频率、时间)的频谱图张量mel_specgram
:具有维度(通道、mel、时间)的mel谱图hop_length
:连续帧开始之间的样本数n_fft
:傅立叶箱的数量n_mel
,n_mfcc
: mel 和 MFCC bin 的数量n_freq
:线性频谱图中的 bin 数量min_freq
:频谱图中最低频段的最低频率max_freq
:频谱图中最高频段的最高频率win_length
: STFT 窗口的长度window_fn
: 对于创建窗口的函数,例如torch.hann_window
转换期望并返回以下维度。
Spectrogram
:(频道,时间)->(频道,频率,时间)AmplitudeToDB
:(频道,频率,时间)->(频道,频率,时间)MelScale
: (频道, 频率, 时间) -> (频道, mel, 时间)MelSpectrogram
:(频道,时间)->(频道,mel,时间)MFCC
:(频道,时间)->(频道,mfcc,时间)MuLawEncode
:(频道,时间)->(频道,时间)MuLawDecode
:(频道,时间)->(频道,时间)Resample
:(频道,时间)->(频道,时间)Fade
:(频道,时间)->(频道,时间)Vol
:(频道,时间)->(频道,时间)
复数经由(…,2)尺寸的张量支撑,并且提供torchaudiocomplex_norm
和angle
这样的张量转换成它的幅度和相位。在这里,在文档中,我们使用省略号“…”作为张量其余维度的占位符,例如可选的批处理和通道维度。
贡献指南
请参考CONTRIBUTING.md
数据集免责声明
这是一个下载和准备公共数据集的实用程序库。我们不托管或分发这些数据集,不保证其质量或公平性,也不声称您拥有使用该数据集的许可。您有责任确定您是否有权根据数据集的许可使用数据集。
如果您是数据集所有者并希望更新其中的任何部分(描述、引文等),或者不希望您的数据集包含在此库中,请通过 GitHub 问题与我们联系。感谢您对 ML 社区的贡献!
GitHub
https://github.com/pytorch/audio