我正在使用 Python 将元素与音乐隔离开来。训练一个模型,我将我的音频分成几帧,每帧都有一个标签 - 1 或 0。不幸的是,由于舍入错误,我的标签总是短 1 或 2 帧。
将我的音频转换为帧,我得到一个值 (13, 3709)
s = []
for y in audio:
mfcc = librosa.feature.mfcc(y= y, sr = 16000, n_mfcc=13, n_fft=2048, hop_length = 1024)
s.append(mfcc)
将我的文本文件(对于我正在使用的 mp3)从毫秒转换为帧数,我得到一个向量值 3708。
output = []
for block in textCorpus:
block_start = int(float(block[0]) * 16000 / 1024) # Converted to frame number
block_end = int(float(block[1]) * 16000 / 1024) # Converted to frame number
singing = block[2]
block_range = np.arange(block_start, block_end, 1) # Step size is 1 (per frame number)
# extraneous code
我曾尝试使用Decimal
,math.floor
以及math.ceil
在我的block_start
和block_stop
变量中,但我似乎无法匹配我的音频帧长度。