Python librosa.frames_to_time()和librosa.samples_like()的用法

本文要实现的目标为：

假如：1个音频的总帧数=170880,采样率sr=48000,持续秒数=3.560000 假设音频数据为y： y = [-0.00856018 -0.00930786 -0.00827026 ..., -0.03897095 -0.03567505 -0.03329468]

要转化成的时间为times： times = [ 0.00000000e 00 2.08333333e-05 4.16666667e-05 ..., 3.55993750e 00 3.55995833e 00 3.55997917e 00]

即要实现：第1个音频帧y[0]对应的时间为0.00000000e 00，最后1个音频帧y[-1]对应的时间为3.55997917e 00。

采样使用y每个元素的下标除以采样率sr获取帧与帧的时间间隔的方法可能会更简单，本文仅是使用librosa.frames_to_time和librosa.samples_like来实现，代码在Ubuntu中实现，如下。

代码语言：javascript复制

import librosa

audio_full_name = r'/mnt/hgfs/win10_linux_shared_file/audio_larger.wav'
y,sr = librosa.load(audio_full_name,sr=None)#y为ndarray类型
print('y = %s'%y)
print('总帧数=%d,采样率=%d,持续秒数=%f'%(len(y),sr,len(y)/sr))
samples = librosa.samples_like(y,hop_length=1)
print('samples = %s'%samples)
times = librosa.frames_to_time(samples,sr=sr,hop_length=1)
print(len(times))
print('times = %s'%times)

代码中，librosa.samples_like仅用来获取音频帧的下标，librosa.frames_to_time用来根据音频帧的下标转化为时间，这两个函数的返回值是ndarray类型。

代码运行结果如下：

代码语言：javascript复制

y = [-0.00856018 -0.00930786 -0.00827026 ..., -0.03897095 -0.03567505 -0.03329468]
总帧数=170880,采样率=48000,持续秒数=3.560000
samples = [     0      1      2 ..., 170877 170878 170879]
170880
times = [  0.00000000e 00   2.08333333e-05   4.16666667e-05 ...,   3.55993750e 00 3.55995833e 00   3.55997917e 00]

python ubuntu frames time 音频

0 人点赞