Python librosa.frames_to_time()和librosa.samples_like()的用法

2023-03-21 14:02:42 浏览数 (1)

本文要实现的目标为:

假如:1个音频的总帧数=170880,采样率sr=48000,持续秒数=3.560000 假设音频数据为y: y = [-0.00856018 -0.00930786 -0.00827026 ..., -0.03897095 -0.03567505 -0.03329468]

要转化成的时间为times: times = [  0.00000000e 00   2.08333333e-05   4.16666667e-05 ...,   3.55993750e 00    3.55995833e 00   3.55997917e 00]

即要实现:第1个音频帧y[0]对应的时间为0.00000000e 00,最后1个音频帧y[-1]对应的时间为3.55997917e 00。

采样使用y每个元素的下标除以采样率sr获取帧与帧的时间间隔的方法可能会更简单,本文仅是使用librosa.frames_to_time和librosa.samples_like来实现,代码在Ubuntu中实现,如下。

代码语言:javascript复制
import librosa

audio_full_name = r'/mnt/hgfs/win10_linux_shared_file/audio_larger.wav'
y,sr = librosa.load(audio_full_name,sr=None)#y为ndarray类型
print('y = %s'%y)
print('总帧数=%d,采样率=%d,持续秒数=%f'%(len(y),sr,len(y)/sr))
samples = librosa.samples_like(y,hop_length=1)
print('samples = %s'%samples)
times = librosa.frames_to_time(samples,sr=sr,hop_length=1)
print(len(times))
print('times = %s'%times)

代码中,librosa.samples_like仅用来获取音频帧的下标,librosa.frames_to_time用来根据音频帧的下标转化为时间,这两个函数的返回值是ndarray类型。

代码运行结果如下:

代码语言:javascript复制
y = [-0.00856018 -0.00930786 -0.00827026 ..., -0.03897095 -0.03567505 -0.03329468]
总帧数=170880,采样率=48000,持续秒数=3.560000
samples = [     0      1      2 ..., 170877 170878 170879]
170880
times = [  0.00000000e 00   2.08333333e-05   4.16666667e-05 ...,   3.55993750e 00 3.55995833e 00   3.55997917e 00]

0 人点赞