软件工程

当前位置: 首页 > 计算机论文 > 软件工程

基于频谱包络分析的音乐推荐算法

软件工程 时间:2019-08-05 23:24:01 来源:软件导刊 作者:刘莹 赵彤洲 邹冲 赵娜

刘莹 赵彤洲 邹冲 赵娜

摘 要:音乐推荐算法是音乐检索系统的核心,传统算法复杂度高、降维速度慢。由于风格类似的音乐在主旋律上具有某种程度的相似性,该算法在对原始音频信号进行傅里叶谱分析的基础上,连同音乐声学体征,利用希尔伯特变换得到原始音频信号的频谱包络,并用Hausdorff维度对包络频谱进行维度分析,通过夹角余弦判别维度间的相似度,进而成为推荐系统的依據。该算法在音频分割阶段采用方差稳定性度量能快速降维,使移动端实现应用。实验表明,该算法是用户满意度较高的推荐结果。

关键词:音乐推荐算法;希尔伯特变换;频谱包络;Hausdorff维度;夹角余弦;K均值聚类

DOI:10.11907/rjdk.172828

中图分类号:TP312

文献标识码:A 文章编号:1672-7800(2018)006-0074-03

Abstract:Music recommendation algorithm is the core of music retrieval system, the traditional algorithm has high complexity and slow dimension reduction. Because of the similarity of similar music in the main melody, this algorithm obtains the spectrum of the original audio signal based on the Fourier spectrum analysis of the original audio signal, together with the musical acoustics sign processed by Hilbert transform, and the Hausdorff dimension is used to analyse the envelope spectrum, while the similarity between the dimensions is discriminated by the angle cosine, which becomes the basis of the recommendation system. The algorithm uses the variance stabilization phase measurement in the audio segmentation stage to reduce the dimension quickly, which makes mobile application possible. Experiments show that this algorithm can produce the recommended results with higher satisfaction.

Key Words:music recommendation algorithm; Hilbert transform; spectral envelope; Hausdorff dimension; angle cosine; K-means clustering

0 引言

随着移动互联网+快速发展,音乐推荐算法在手机端有广泛应用。音乐推荐算法目的是在候选音乐集中找到主旋律风格相似的音乐,并将其推荐给用户。评价音乐的相似度有多种度量方法,例如基于文本标注推荐算法、基于内容推荐算法等。基于文本标注推荐算法[1]主要依赖于手工对文本关键词的标注,这类推荐算法通过对文本语义进行分析而得到推荐结果,需要大量人工标注,对于从未标注过的音乐类型则无法识别。基于内容的音频推荐算法[2]以音频信号的本质特性为研究对象,包括音频信号能量、短时过零率、频谱特征等,这些特征描述了音频摘要信息,可作为音频特征的比较参数。在风格相似的音乐中,尽管音乐片段旋律不相同,但旋律整体具有一定相似性,即为音乐分类方法,例如百度音乐按“心情”分类有伤感、激情、安静、寂寞等。

在相似音乐集合内部,不同音乐之间所表达的主题类似,而在同一首音乐内的每个片段与整个旋律是协调的,即对一首音乐而言,旋律整体上与集合相似,音乐片段与个体相似,这种性质符合时间序列的自相似性[3]及长程相关性。本文提取音频特征后,利用Hausdorff维度对音乐进行维度上的度量,进而形成推荐依据。

1 音频特征提取

音频特征提取目的是寻找能代表音乐本质的信息,降低信息冗余[4]。本文选用音频短时频域能量、时域能量、MFCC以及频谱包络特征作为推荐算法的特征参数。

MFCC是一种在自动语音处理中广泛采用的信号特征,即Mel频谱倒普系数,Mel频率分析是基于人类听觉感知的[6]。将频谱通过一组Mel滤波器得到Mel频谱,在logX[k]上进行倒谱分析得到频率倒普系数MFCC。

频谱包络分析将原始信号从双边谱变为单边谱,避免频谱浪费。频谱包络通过希尔伯特变换求得,希尔伯特变换[7]将原始实信号变成复信号,取其虚部即为希尔伯特变换。

2 Hausdorff分形维数计算

分形维数是分形系统的重要参数,其描述复杂系统的真实属性与状态。具有分形特征的对象其有长程相关性及自相似性,即用不同尺度度量对象,通常在几何变换下具有标度不变性。在相似音乐集合内,音乐之间风格类似,而局部音乐切片与全部集合相似。Hausdorff提出了空间维数可以连续变化的连续空间概念,即用Hausdorff指标[8]度量目标对象属性:

3 相似性度量标准

本文采用夹角余弦方式度量两个个体的相似性。相比欧氏距离侧重于个体间的绝对差异,夹角余弦强调2个个体在方向上的差异[9],可作为度量音频信号的相似性。夹角余弦定义为:

4 实验结果与分析

本文在音乐网站上按照不同风格选取了4种不同类型的音乐各25首,共计100首音乐。分别对上述音乐进行预处理、特征提取、分形维数计算以及夹角余弦聚类分析。

在预处理阶段,首先进行分段及分帧处理。对1首音乐,其局部片段与整首音乐具有相似性,为减少信息冗余并加快运算速度,需要对一段長约为3~4分钟的音乐分段截取。在本实验中,将整首音乐切分成10段,取出每段70%的数据作为信号处理数据源。分帧滤波采用H(z)=1-αz-1,(α=0.95)函数,为防止低频部分泄漏采用加窗函数w(n)=0.54-0.46cos2πnN-1,0≤n≤N处理。

本文选择提取音频信号的时域能量、频域能量、频谱包络及MFCC特征。在选择三角滤波器时,中心频率f(m),m=1,2,…,M,此处M取24。频谱包络利用公式(1)进行希尔伯特变换后得到,长度为4 096。如图1所示,3首不同风格音乐的频谱包络,在频谱包络图上呈现出较大差异,尤其在低频部分。

本实验将上述特征向量整合成一个特征向量进行Hausdorff特征维数计算。经分帧及加窗处理,简化后的数据段仍然有大量特征,因此,对于每首音乐特征取前10%作为一个数据集形成的一个2 048维向量。

在利用夹角余弦进行聚类之前,需要对求得的向量进行规整。对于2首风格类似的音乐,并不是二者在对应帧上是相似的,向量序列仅仅能表示当前帧在本首音乐中的时间序列,因此,为提高音乐相似性的辨识率,需要忽略特征向量的顺序,同时统计每个段的相似性计数。

该算法描述了向量X中的每个元素都要与Y中的每个元素计算距离,统计最小距离的个数。将上述距离计算夹角余弦并采用K-Means方法聚类,得到分析结果。用分形维数作为夹角余弦进行聚类的结果如表1所示。4种音乐风格正确分类百分比统计如表2所示。

由实验结果可知,对于“激情”类音乐聚类效果比其它风格好,其它3类音乐与此有明显区别,其它3类音乐都或多或少有些相似。例如“伤感”类型可能也比较“安静”,这会导致分类结果错误。但从整体上看,聚类效果是理想的。

5 结语

本文将频谱包络及MFCC等特征进行融合并采用分形维数作为聚类分析依据,与基于文本标记的音乐推荐算法相比,能够从信号本质特征进行内容分析。实验结果表明,该算法能较好地实现聚类分析进而完成音乐推荐算法,对音乐风格差别较大的类型分类效果较好。同时,由于该算法在初期采样阶段,在保留主旋律信息基础上采用了基于方差平稳性度量的音频分割算法[10],减去约30%的数据,大大降低了数据冗余度、数据存储空间并提高了算法运算速度,因此可以在移动端实现。但该算法的音乐源为音乐网站,相对现实环境,这些在录音棚中录制的音乐较为纯粹,噪声少。因此,考虑噪声对特征识别的影响是下一个研究重点。

参考文献

[1] NESS S R, THEOCHARIS A, TZANETAKIS G, et al. Improving automatic music tag annotation using stacked generalization of probabilistic SVM outputs[C]. International Conference on Multimedia,2009:705-708.

[2] 陈捷.基于内容相似的音乐推荐系统[D].北京:北京师范大学,2015.

[3] 史文彬.时间序列的相关性及信息熵分析[D].北京:北京交通大学,2016.

[4] 杨立东,谷宇,张明.语音信号特征选择优化提取仿真研究[J].计算机仿真,2016,33(2):409-412.

[5] 徐琦喆.基于傅立叶变换的乐音分析和生成[J].电子世界,2017(4):90-91.

[6] ZHANG L, WU D, HAN X, et al. Feature extraction of underwater target signal using mel frequency cepstrum coefficients based on acoustic vector sensor[J]. Journal of Sensors,2016(4):1-11.

[7] CALDARELLI M, LERNER A, OMBROSI S. On a counter example related to weighted weak type estimates for singular integrals[J]. Proceedings of the American Mathematical Society,2017,145(7).

[8] ILIADIS S, IVANOV A.O, TUZHILIN A.A. Local structure of gromov-hausdorff space, and isometric embeddings of finite metric spaces into this space[J]. Topology & Its Applications,2017,221:393-398.

[9] ANALYTIC GEOMETRY. Mathematics for Computer Graphics[M]. London:Springer,2006:147-191.

[10] 冷娇娇,赵彤洲,方晖,等.基于方差稳定性度量的乐器音频分割算法[J].计算机工程与设计,2016,37(3):768-772.

(责任编辑:刘亭亭)