公務(wù)員期刊網(wǎng) 論文中心 正文

卷積神經(jīng)網(wǎng)絡(luò)下電子音樂(lè)辨識(shí)模型探析

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了卷積神經(jīng)網(wǎng)絡(luò)下電子音樂(lè)辨識(shí)模型探析范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

卷積神經(jīng)網(wǎng)絡(luò)下電子音樂(lè)辨識(shí)模型探析

摘要:現(xiàn)有音頻辨識(shí)變模型無(wú)法分辨電子音樂(lè)類型,辨識(shí)精度較低,為此,設(shè)計(jì)基于卷積神經(jīng)網(wǎng)絡(luò)電子音樂(lè)辨識(shí)模型。通過(guò)重建電子音樂(lè)信號(hào)頻譜內(nèi)諧波信息,對(duì)電子音樂(lè)信號(hào)進(jìn)行預(yù)處理,去除電子音樂(lè)信號(hào)頻譜內(nèi)的噪聲,并將去除噪聲后的電子音樂(lè)文件制作成波形圖。將電子音樂(lè)頻譜波形圖作為輸入,利用多層特征融合的混合和采樣方式提取輸入圖像內(nèi)的特性,利用反向傳播算法訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),通過(guò)SoftMax分類器試點(diǎn)電子音樂(lè)分類辨識(shí)。實(shí)驗(yàn)結(jié)果顯示,所設(shè)計(jì)模型能夠有效去除電子音樂(lè)內(nèi)的噪聲含量,在迭代次數(shù)達(dá)到100次時(shí)即可將模型擬合誤差降至下限值,且辨識(shí)率均值達(dá)到98.5%左右。

關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);電子音樂(lè);辨識(shí)模型;諧波信息;混合采樣

0引言

網(wǎng)絡(luò)技術(shù)的快速發(fā)展令互聯(lián)網(wǎng)中產(chǎn)生大量視頻與音頻等多媒體數(shù)據(jù)[1],電子音樂(lè)為網(wǎng)絡(luò)上最為普遍的多媒體音頻。電子音樂(lè)辨識(shí)作為音樂(lè)信號(hào)處理的核心問(wèn)題之一,在歌曲識(shí)別、音頻匹配與推薦等方面均具有關(guān)鍵作用。針對(duì)網(wǎng)絡(luò)數(shù)據(jù)的海量性特性,研究一種可在海量音頻中準(zhǔn)確快速地獲取感興趣的電子音樂(lè)是當(dāng)前音頻識(shí)別領(lǐng)域中的熱點(diǎn)研究問(wèn)題。文獻(xiàn)[2]提出一種雙向卷積神經(jīng)網(wǎng)絡(luò)的音樂(lè)識(shí)別模型。該模型構(gòu)建雙向卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),提取音樂(lè)細(xì)節(jié)特征,將細(xì)節(jié)特征合并成一維特征向量。但該模型無(wú)法去除電子音樂(lè)內(nèi)的噪聲含量。文獻(xiàn)[3]提出一種直接利用視音頻特征進(jìn)行識(shí)別的算法,該算法融合BoW、GIST、顏色矩特征、顏色直方圖和音頻特征進(jìn)行識(shí)別,但該方法無(wú)法分辨電子音樂(lè)類型,辨識(shí)精度較低。針對(duì)當(dāng)前普遍使用的音頻辨識(shí)變模型無(wú)法分辨電子音樂(lè)類型,辨識(shí)精度較低等難題,設(shè)計(jì)基于卷積神經(jīng)網(wǎng)絡(luò)的電子音樂(lè)辨識(shí)模型,并通過(guò)實(shí)驗(yàn)驗(yàn)證該模型的實(shí)際應(yīng)用性能。

1基于卷積神經(jīng)網(wǎng)絡(luò)的電子音樂(lè)辨識(shí)模型

1.1電子音樂(lè)信號(hào)預(yù)處理

由于電子音樂(lè)在演奏過(guò)程中容易產(chǎn)生音符掩蔽與音符缺失的問(wèn)題[4],這些問(wèn)題將對(duì)最終的音樂(lè)識(shí)別與錄制產(chǎn)生顯著影響。因此在構(gòu)建電子音樂(lè)辨識(shí)模型前需通過(guò)重建電子音樂(lè)信號(hào)頻譜內(nèi)諧波信息的方式對(duì)電子音樂(lè)信號(hào)進(jìn)行預(yù)處理,去除電子音樂(lè)信號(hào)頻譜內(nèi)的噪聲。設(shè)定采樣率為10080Hz,以此對(duì)電子音樂(lè)片段實(shí)施采樣處理,獲取一個(gè)音頻信號(hào)x(n),設(shè)該音頻信號(hào)長(zhǎng)度為I。利用窗函數(shù)W(n)對(duì)音頻信號(hào)x(n)實(shí)施預(yù)處理[5],設(shè)定窗函數(shù)中窗寬度為窗長(zhǎng)度的2倍,由此獲取加窗后待處理的電子音樂(lè)信號(hào)矩陣MN×K,其中K=2IN。用N×N的方陣表示傅里葉變換矩陣Ω,將電子音樂(lè)信號(hào)矩陣MN×K與傅里葉變換矩陣Ω相乘,由此獲取電子音樂(lè)分幀信號(hào)的頻譜矩陣S=Ω×M。依照信號(hào)理論能夠得到[6],電子音樂(lè)信號(hào)的諧波成分在諧波矩陣A上僅分布在分散的數(shù)個(gè)頻率成分上,同時(shí)在時(shí)間尺度上電子音樂(lè)存在顯著的重復(fù)性,由此得到矩陣A存在內(nèi)在的低秩特征,也就是電子音樂(lè)和弦波信息分布在低維子空間內(nèi)[7]。電子音樂(lè)非諧波成分E矩陣內(nèi)聚集各種不同類型噪聲,由于不同類型造成變化的頻繁性存在一定稀疏特性[8],基于此可利用秩函數(shù)構(gòu)建諧波成分模型,利用零范數(shù)構(gòu)建稀疏噪聲模型。由此可將灰度低秩矩陣定義為一個(gè)雙目標(biāo)優(yōu)化問(wèn)題,描述為式(1)。minA,E(rank(A),E0)s.t.S=A+E(1)式中,rank(A)和零范數(shù)·0分別表示矩陣A的秩函數(shù)和矩陣內(nèi)非零元素的數(shù)量;同時(shí)·0也可表示矩陣的稀疏程度。在式(1)內(nèi)引入大于零的折中因子λ,由此以單目標(biāo)優(yōu)化問(wèn)題替代式(1)所示的雙目標(biāo)優(yōu)化問(wèn)題,如式(2)。minA,Erank(A)+λE0s.t.S=A+E(2)式中,多描述的優(yōu)化問(wèn)題實(shí)質(zhì)上是1種多項(xiàng)式復(fù)雜程度的非確定性問(wèn)題,基于此,需確定合適的可取代秩函數(shù)與零范數(shù)的函數(shù)。以確保優(yōu)化問(wèn)題整體具有全局最優(yōu)解為目的[9],要求確定取代函數(shù)為原函數(shù)凸包絡(luò)。而矩陣的核范數(shù)表示矩陣內(nèi)全部奇異值相加的結(jié)果,可理解為是矩陣秩函數(shù)的凸包絡(luò),矩陣內(nèi)非零元素相加的結(jié)果可利用矩陣的1范數(shù)表示,一般情況下可經(jīng)其作為矩陣的稀疏算子,即0范數(shù)的凸包。基于此可將式(2)所示的單目標(biāo)優(yōu)化問(wèn)題轉(zhuǎn)化為式(3)所示的凸優(yōu)化問(wèn)題。minA,EA+λE1s.t.S=A+E(3)式(3)所示的凸優(yōu)化問(wèn)題可通過(guò)增廣拉格朗日乘子法解決,由此能夠獲取最優(yōu)解電子音樂(lè)諧波信息矩陣A,其為電子音樂(lè)原始信號(hào)頻譜重建后的諧波頻譜。重建后的諧波頻譜內(nèi)可分離稀疏噪聲,并重建了頻譜的低秩信息,由此可知,頻譜矩陣A內(nèi)具有一定魯棒性。將去除噪聲后的電子音樂(lè)文件制作成波形圖,利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)電子音樂(lè)辨識(shí)。

1.2基于卷積神經(jīng)網(wǎng)絡(luò)的辨識(shí)模型構(gòu)建

1.2.1典型卷積神經(jīng)網(wǎng)絡(luò)。輸入層、卷積層、下采樣層、全連接層標(biāo)和輸出層共同組成標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)[10]。卷積層與下采樣層結(jié)合是卷積神經(jīng)網(wǎng)絡(luò)提取目標(biāo)特征的主要結(jié)構(gòu)[11],將去除噪聲后的電子音樂(lè)頻譜波形圖作為輸入層輸入信息,可用T表示。以Xi表示卷積神經(jīng)網(wǎng)絡(luò)第i層的特征(X0=T)。在Xi為卷積層的條件下,描述為式(4)。Xi=f(Xi-1*Ki+bi)(4)式中,Ki和bi分別表示可訓(xùn)練的卷積核和偏置量;*和f(x)分別表示卷積運(yùn)算和激活函數(shù)。使用較為普遍的激活函數(shù)有sigmoid函數(shù)、tanb函數(shù)以及ReLu函數(shù)等[12]。綜合考慮不同激活函數(shù)性能,選取Re-Lu函數(shù)作為卷積層激活函數(shù),描述為式(5)。f(x)=max(0,x)(5)ReLu函數(shù)的主要優(yōu)勢(shì)主要體現(xiàn)在其可令卷積神經(jīng)網(wǎng)絡(luò)部分神經(jīng)元輸出為0,由此令卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生稀疏選性,降低計(jì)算過(guò)程的復(fù)雜性;同時(shí)ReLu函數(shù)可顯著提升卷積神經(jīng)網(wǎng)絡(luò)的分類能力,降低參數(shù)間的依賴性,在一定程度上改善卷積神經(jīng)網(wǎng)絡(luò)過(guò)擬合問(wèn)題;ReLu函數(shù)的導(dǎo)數(shù)僅為1或0,可改善卷積神經(jīng)網(wǎng)絡(luò)誤差反向傳播過(guò)程中的梯度消失問(wèn)題。下采樣層對(duì)卷積層獲取的各特征圖內(nèi)n×n區(qū)域的像素實(shí)施采樣處理,降低特征圖尺寸。普遍使用的采樣處理過(guò)程可分為上限值采樣與均值采樣[13]。在Xi表示下采樣層的條件下,上限值采樣與均值采樣表示為式(6)、式(7)。Xi=f(WiPmax(Xi-1)+bi)(6)Xi=f(WiPmean(Xi-1)+bi)(7)式中,Pmax(x)和Pmean(x)分別表示上限值采樣操作和均值采樣操作;Wi和bi分別表示取值與偏置值。下采樣層的主要功能是以保留原始特征信息為基礎(chǔ),進(jìn)行特征圖降維處理,防止出現(xiàn)維數(shù)災(zāi)難,提升變形魯棒性;同時(shí)利用下采樣層還可壓縮特征圖,令計(jì)算過(guò)程難度下降。通常情況下,全連接層處于卷積層、下采樣層同輸出層之間,可將其定義為一個(gè)同淺層神經(jīng)網(wǎng)絡(luò)功能相似的多層感知機(jī),其主要功能是將分布式特征表示映射至樣本標(biāo)記空間內(nèi),并在卷積神經(jīng)網(wǎng)絡(luò)模型表示能力遷移過(guò)程中發(fā)揮防火墻功能[14]。輸出層為一個(gè)解決多分類問(wèn)題的分類器,采用由Logis-tic回歸模型在多分類問(wèn)題方面演化處的SoftMax分類器??紤]Logistic函數(shù)僅可實(shí)現(xiàn)二分類功能,因此SoftMax分類器在繼承Logistic函數(shù)回歸的基礎(chǔ)上,通過(guò)多項(xiàng)Logistic回歸完成多分類任務(wù)。用y表示Logistic回歸內(nèi)的多分類標(biāo)簽,其取值范圍為不小于2,訓(xùn)練樣本集合為k個(gè)被標(biāo)簽的樣本,描述為式(8)。T={(x1,y1),(x2,y2),…,(xk,yk)}(8)式中,yi∈{1,2,…,k}和xi分別表示分類標(biāo)簽與樣本集合。j表示不同電子音樂(lè)類型,判斷j的概率值,表示單個(gè)電子音樂(lè)頻譜波形圖歸為第k類標(biāo)簽概率的表達(dá)式為式(9)。P(y=j(luò)|x)(j=1,2,…,k)(9)式中,能夠表示回歸樣本集合轉(zhuǎn)換為k維度的概率向量,概率向量的函數(shù)為式(10)。Max分類器的學(xué)習(xí)參數(shù)和歸一化處理概率并令概率總和為1的的數(shù)值。經(jīng)由樣本集訓(xùn)練與學(xué)習(xí),SoftMax分類器利用迭代優(yōu)化過(guò)程擬合數(shù)據(jù)曲線,并優(yōu)化參數(shù)θ以降低損失函數(shù)值,其損失函數(shù)描述如式(11)。式中,1{yi=j(luò)}表示若yi=j(luò),則兩者均為1,相反兩者均為0。損失函數(shù)迭代次數(shù)的提升可優(yōu)化SoftMax分類器參數(shù)[15-16],提升參數(shù)準(zhǔn)確定,實(shí)現(xiàn)不同電子音樂(lè)頻譜波形圖樣本的準(zhǔn)確辨識(shí)。1.2.2卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行一層層的映射,直至最后只將輸出層作為特征提取結(jié)果[17-18],這一過(guò)程中在中間層丟失大量關(guān)鍵圖像特征,降低辨識(shí)精度。針對(duì)這一問(wèn)題,結(jié)合層間特征融合思想,在輸出層輸出特征提取結(jié)果過(guò)程中輸出輸入圖像在卷積神經(jīng)網(wǎng)絡(luò)內(nèi)每一層的映射結(jié)果,選取主成分分析法對(duì)提取的全體輸出特征實(shí)施降維處理,將其融合為多層深度特征。同時(shí),在下采樣過(guò)程中將上限值采樣與均值采樣相結(jié)合,即利用混合采樣的方式充實(shí)采樣層的多樣性。利用混合采樣模式能夠同時(shí)得到上限值采樣與均值采樣獲取的特征值[19-20],得到更為豐富的圖像,提升卷積神經(jīng)網(wǎng)絡(luò)辨識(shí)的穩(wěn)定性,混合采樣模式的表達(dá)式為式(12)、式(13)。Ti=12(Pmean(Xi-1)+Pmax(Xi-1))(12)Xi=f(WiTi+bi)(13)基于特征提取方式的優(yōu)化能夠改善標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)中單一輸出層與采樣層特征提取不全面的問(wèn)題,可充分提取電子音樂(lè)頻譜波形圖的特征并實(shí)現(xiàn)特征融合,提升卷積神經(jīng)網(wǎng)絡(luò)辨識(shí)性能。利用反向傳播算法進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練,卷積神經(jīng)網(wǎng)絡(luò)經(jīng)由正向計(jì)算與反向傳播過(guò)程,持續(xù)優(yōu)化權(quán)值與閾值,令自身均方誤差函數(shù)持續(xù)下降,以滿足卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練需求。

2實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)為測(cè)試本文設(shè)計(jì)的基于卷積神經(jīng)網(wǎng)絡(luò)的電子音樂(lè)辨識(shí)模型對(duì)于電子音樂(lè)辨識(shí)的性能,選取國(guó)際音頻檢測(cè)賽事中所有數(shù)據(jù)的音頻數(shù)據(jù)集為實(shí)驗(yàn)對(duì)象,其中包含220首電子音樂(lè)(采樣率與比特率分別為10080Hz和16bits)。將實(shí)驗(yàn)對(duì)象內(nèi)全部電子音樂(lè)手動(dòng)標(biāo)記的標(biāo)簽文件作為實(shí)際標(biāo)簽文件,將這些標(biāo)簽文件作為測(cè)試數(shù)據(jù)的生成依據(jù)以及本文模型電子音樂(lè)辨識(shí)結(jié)果的對(duì)比依據(jù)。

2.1電子音樂(lè)預(yù)處理效果測(cè)試

利用本文模型對(duì)實(shí)驗(yàn)對(duì)象內(nèi)的電子音樂(lè)進(jìn)行預(yù)處理,研究對(duì)象中編號(hào)為22號(hào)的電子音樂(lè)預(yù)處理結(jié)果如圖1所示。分析圖1得到,采用本文模型對(duì)研究對(duì)象進(jìn)行預(yù)處理后,研究對(duì)象頻譜波動(dòng)更為平滑,這是由于本文模型中重建研究對(duì)象信號(hào)頻譜內(nèi)諧波信息,去除研究對(duì)象信號(hào)頻譜內(nèi)的噪聲,對(duì)去噪后的研究對(duì)象進(jìn)行辨識(shí),可提升本文模型辨識(shí)結(jié)果。

2.2模型訓(xùn)練過(guò)程測(cè)試

將研究對(duì)象內(nèi)全部220首電子音樂(lè)分為兩部分,分別定義為訓(xùn)練樣本集和測(cè)試樣本集,各樣本集內(nèi)電子音樂(lè)數(shù)量分別為160首和60首。在本文模型中輸入訓(xùn)練樣本集進(jìn)行訓(xùn)練,本文模型訓(xùn)練過(guò)程如圖2所示。分析圖2得到采用本文模型辨識(shí)研究對(duì)像過(guò)程中,卷積神經(jīng)網(wǎng)絡(luò)初次迭代時(shí),本文模型擬合誤差為0.067。隨著本文模型迭代次數(shù)逐漸上升,本文模型的擬合誤差呈逐漸下降狀態(tài)。本文模型迭代次數(shù)提升至30次時(shí),本文模型的擬合誤差下降至0.01。在本文模型迭代次數(shù)上升至100次時(shí),本文模型的擬合誤差下降至0.008。隨著本文模型迭代次數(shù)持續(xù)上升,本文模型的擬合誤差保持在0.008,由此說(shuō)明本文模型具有較快的訓(xùn)練效率,即本文模型具有較快的辨識(shí)效率。同時(shí)由圖2可知,隨著本文模型迭代次數(shù)逐漸上升,本文模型的擬合誤差呈逐漸下降狀態(tài),擬合誤差越小,表明擬合精度越高。這是因?yàn)槔肧oftMax分類器優(yōu)化迭代過(guò)程,使得損失函數(shù)迭代次數(shù)的提升可優(yōu)化SoftMax分類器參數(shù),進(jìn)一步提升參數(shù)準(zhǔn)確率。且ReLu函數(shù)可顯著提升卷積神經(jīng)網(wǎng)絡(luò)的分類能力,降低參數(shù)間的依賴性,在一定程度上改善卷積神經(jīng)網(wǎng)絡(luò)過(guò)擬合問(wèn)題,迭代次數(shù)的提升可進(jìn)一步提升擬合精度。

2.3不同方法下識(shí)別結(jié)果

為驗(yàn)證本文模型的有效性,將文獻(xiàn)[2]模型和文獻(xiàn)[3]模型作為對(duì)比對(duì)象,不同方法辨識(shí)結(jié)果如圖3所示。分析圖3得到,相比文獻(xiàn)[2]模型和文獻(xiàn)[3]模型,本文模型對(duì)測(cè)試樣本集內(nèi)各測(cè)試樣本進(jìn)行辨識(shí),所得辨識(shí)率均高于98.5%,由此說(shuō)明本文模型能夠準(zhǔn)確辨識(shí)測(cè)試樣本,具有較高的辨識(shí)率。

2.4模型采樣方式對(duì)辨識(shí)率的影響

為研究模型下采樣層不同采樣方式對(duì)模型辨識(shí)率的影響,在本文模型其他條件完全一致的條件下,對(duì)比下采樣層采用上限值采樣、均值采樣和混合采樣時(shí)本文模型的辨識(shí)率如圖4所示。分析圖4,本文模型采用上限值采樣方法、均值采樣方式和混合采樣方式進(jìn)行研究對(duì)象辨識(shí)的運(yùn)行時(shí)間差距較小,低于2s。說(shuō)明不同采樣方式對(duì)本文模型的辨識(shí)效率的影響并不顯著。但本文模型采用混合采樣方式進(jìn)行辨識(shí)的辨識(shí)率均值達(dá)到98.5%,顯著高于采用上限值采樣與均值采樣時(shí)的辨識(shí)率。由此說(shuō)明混合采樣方式可提升本文模型辨識(shí)率。

3總結(jié)

本文設(shè)計(jì)基于卷積神經(jīng)網(wǎng)絡(luò)的電子音樂(lè)辨識(shí)模型,在電子音樂(lè)信息預(yù)處理后,利用優(yōu)化后的卷積神經(jīng)網(wǎng)絡(luò)辨識(shí)電子音樂(lè)。實(shí)驗(yàn)結(jié)果顯示本文模型能夠準(zhǔn)確辨識(shí)電子音樂(lè),且具有較快的效率。在后續(xù)優(yōu)化過(guò)程中主要針對(duì)如何利用多尺度池化的理念進(jìn)一步優(yōu)化卷積神經(jīng)網(wǎng)絡(luò),令本文模型在保障辨識(shí)精度與效率的基礎(chǔ)上,能夠接受任意尺寸的輸入圖像。

作者:胡淑娟 單位:仙桃職業(yè)學(xué)院教育學(xué)院