本文要实现的目标为:
假如:1个音频的总帧数=170880,采样率sr=48000,持续秒数=3.560000 假设音频数据为y: y = [-0.00856018 -0.00930786 -0.00827026 ..., -0.03897095 -0.03567505 -0.03329468]
要转化成的时间为times: times = [ 0.00000000e 00 2.08333333e-05 4.16666667e-05 ..., 3.55993750e 00 3.55995833e 00 3.55997917e 00]
即要实现:第1个音频帧y[0]对应的时间为0.00000000e 00,最后1个音频帧y[-1]对应的时间为3.55997917e 00。
采样使用y每个元素的下标除以采样率sr获取帧与帧的时间间隔的方法可能会更简单,本文仅是使用librosa.frames_to_time和librosa.samples_like来实现,代码在Ubuntu中实现,如下。
代码语言:javascript复制import librosa
audio_full_name = r'/mnt/hgfs/win10_linux_shared_file/audio_larger.wav'
y,sr = librosa.load(audio_full_name,sr=None)#y为ndarray类型
print('y = %s'%y)
print('总帧数=%d,采样率=%d,持续秒数=%f'%(len(y),sr,len(y)/sr))
samples = librosa.samples_like(y,hop_length=1)
print('samples = %s'%samples)
times = librosa.frames_to_time(samples,sr=sr,hop_length=1)
print(len(times))
print('times = %s'%times)
代码中,librosa.samples_like仅用来获取音频帧的下标,librosa.frames_to_time用来根据音频帧的下标转化为时间,这两个函数的返回值是ndarray类型。
代码运行结果如下:
代码语言:javascript复制y = [-0.00856018 -0.00930786 -0.00827026 ..., -0.03897095 -0.03567505 -0.03329468]
总帧数=170880,采样率=48000,持续秒数=3.560000
samples = [ 0 1 2 ..., 170877 170878 170879]
170880
times = [ 0.00000000e 00 2.08333333e-05 4.16666667e-05 ..., 3.55993750e 00 3.55995833e 00 3.55997917e 00]