公務(wù)員期刊網(wǎng) 精選范文 卷積神經(jīng)網(wǎng)絡(luò)核心思想范文

卷積神經(jīng)網(wǎng)絡(luò)核心思想精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經(jīng)網(wǎng)絡(luò)核心思想主題范文,僅供參考,歡迎閱讀并收藏。

卷積神經(jīng)網(wǎng)絡(luò)核心思想

第1篇:卷積神經(jīng)網(wǎng)絡(luò)核心思想范文

關(guān)鍵詞: 動態(tài)紋理分類; 慢特征分析; 深度學(xué)習(xí); 堆棧降噪自動編碼網(wǎng)絡(luò)模型

中圖分類號: TN919?34 文獻標(biāo)識碼: A 文章編號: 1004?373X(2015)06?0020?05

Dynamic texture classification method based on stacked denoising autoencoding model

WANG Cai?xia, WEI Xue?yun, WANG Biao

(School of Electronics and Information Engineering, Jiangsu University of Science and Technology, Zhenjiang 212003 China)

Abstract: To overcome the shortcomings of extracting the feature descriptors by manual operation and too high feature dimension for dynamic scene classification, a deep learning network model is proposed to extract dynamic texture features. Firstly, the slow feature analysis method is used to learn dynamic characteristics of each video sequence through before hand, and the learned feature is used as input data of deep learning to get the advanced representation of the input signal. The stacked denoising autoencoding model is selected for the deep learning network mode. SVM classification method is used for its classification. The experimental result proves that the feature dimension extracted by this method is low and can effectively describe dynamic textures.

Keywords: dynamic texture classification; slow feature analysis; deep learning; stacked denoising autoencoding model

0 引 言

動態(tài)紋理是指具有空間重復(fù)性、并隨時間變化的視覺模式,這種模式形成了一系列在時間域上具有某種不變性的圖像序列[1]。不同的動態(tài)紋理可能具有相似的外觀,但是卻具有不同的運動形式,所以表觀和運動是動態(tài)紋理特征的兩大方面。在目前的動態(tài)視頻分析系統(tǒng)中,最關(guān)鍵的步驟是如何提取有效的動態(tài)紋理特征描述符。在過去幾十年里,對紋理的研究大部分都集中在靜態(tài)紋理特征的研究,動態(tài)紋理的研究相對靜態(tài)紋理而言起步要晚的多。動態(tài)紋理的研究最早始于20世紀(jì)90年代初,由Nelson和Polana采用建立線性系統(tǒng)模型的方法對其進行研究[2],并且將視覺運動劃分為三類[3]:行為、運動事件以及動態(tài)紋理。隨后,Szummer 和 Picard提出采用時空自回歸模型(Spatio?Temporal Auto Regressive,STAR)[4]對動態(tài)紋理序列進行建模?;诠饬鞯淖R別法是目前比較流行的動態(tài)紋理識別法,因為其計算效率高,并且以一種很直觀的方式來描述圖像的局部動態(tài)紋理特征,F(xiàn)azekas和Chetverikov總結(jié)出,正則性(Regulated)全局流與普通流(Normal Flow)相比,普通流可以同時包含動態(tài)特性和形狀特性[5]。基于LBP的動態(tài)紋理方法是最近幾年才提出的一種有效算法,典型的是Zhao等人提出的兩種時空域上的描述子:時空局部二值模式(Volume Local Binary Pattern,VLBP)[6]和三正交面局部二值模式(Local Binary Pattern from Three Orthogonal Planes,LBP?TOP)[7],有效地結(jié)合“運動”和“外觀”特征。2007―2008年是動態(tài)紋理研究最多的兩年,各大期刊雜志連續(xù)刊登有關(guān)動態(tài)紋理的研究文章。

本文試圖解決動態(tài)自然場景的分類問題(例如:煙火、河流、風(fēng)暴、海洋、雪花等)。在計算機視覺領(lǐng)域,過去采用較多的是手動提取特征來表示物體運動信息(例如:HOF、基于STIP的HOG算法等),實驗表明該類方法對人體行為識別非常有效。但是由于自然環(huán)境比較復(fù)雜,動態(tài)紋理表現(xiàn)不穩(wěn)定,易受光照、遮擋等影響,而手動選取特征非常費力,需要大量的時間進行調(diào)節(jié),所以該類方法并不適用于動態(tài)場景分類。Theriault等人提出利用慢特征分析的方法來提取動態(tài)視頻序列的特征[8]。該方法雖然能有效表示動態(tài)紋理特征,但是其提取的特征維數(shù)較高。深度學(xué)習(xí)是機器學(xué)習(xí)研究中一個新的領(lǐng)域,其動機在于建立、模擬人腦進行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),近幾年深度學(xué)習(xí)網(wǎng)絡(luò)模型在大尺度圖像分類問題中成功應(yīng)用使得其得到越來越多人的重視。卷積神經(jīng)網(wǎng)絡(luò)、深度置信網(wǎng)絡(luò)和堆棧自編碼網(wǎng)絡(luò)是三種典型的深度學(xué)習(xí)網(wǎng)絡(luò)模型,而堆棧自編碼網(wǎng)絡(luò)模型不僅對高維數(shù)據(jù)有很好的表示,而且采用非監(jiān)督的學(xué)習(xí)模式對輸入數(shù)據(jù)進行特征提取,這對于傳統(tǒng)的手動提取特征。利用堆棧自編碼網(wǎng)絡(luò)模型對慢特征進行進一步學(xué)習(xí),不僅能降低數(shù)據(jù)維度,而且還能提取出數(shù)據(jù)更有效的特征表示。

1 基于堆棧自編碼網(wǎng)絡(luò)模型的慢特征分析法

1.1 慢特征分析法

文獻[9?10]中提到,慢特征分析算法的目標(biāo)是從不斷變化的輸入信號中學(xué)習(xí)不變量,即除了無意義的常值信號外,最具不變性質(zhì)的信息,其實質(zhì)也就是從快速變化的信號中提取緩慢變化的信號特征,這種特征是從混合信號中提取出來的源信號的高級表示,表征信號源的某些固有屬性[11]。

實驗證明,慢特征分析法在人體行為識別中有很好的描述作用,這為動態(tài)紋理分類提供了一個很好的選擇。慢特征分析算法的核心思想是相關(guān)矩陣的特征值分解,其本質(zhì)是在經(jīng)過非線性擴展特征空間對目標(biāo)函數(shù)進行優(yōu)化,尋找最優(yōu)解的線性組合。

給定一個時域輸入信號序列:

[vt=v1t,v2t,…,vDtT]

目標(biāo)就是學(xué)習(xí)一組映射函數(shù):

[Sv=S1v,S2v,…,SMv]

使得輸出信號[yt=y1t,y2t,…,yMtT]的各個分量[yj=Sjvt]的變化盡可能緩慢,而且仍然保留相關(guān)的重要信息。選用時域信號一階導(dǎo)數(shù)的均方值來衡量輸出信號個分量的變化率:

[minSj<y?2j>t] (1)

且滿足以下條件:

(1) [<yj>t=0];

(2) [<y2j>t=1];

(3) [?j<j':<yj,yj'>t=0]。

其中:[<y>t]是[y]的時域平均值;[y?j]是[yj]的時域一階導(dǎo)數(shù)。這三個約束條件保證慢特征分析的輸出信號的各分量的變化率盡可能小,其中條件1和條件2確保輸出沒有無意義的常信號值,條件3確保輸出各分量之間是非相關(guān)的,且不同慢特征承載著不同信息。值得注意的是,函數(shù)[Sv]是輸入信號的瞬時函數(shù),所以輸出結(jié)果不能看成是通過低通濾波器的結(jié)果,慢特征處理速度要比低通濾波器快很多。如圖1所示。

<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t1.tif>

圖1 時域輸入信號慢特征的提取

輸出信號各分量按照變化率從小到大排列,且互不相關(guān),其最優(yōu)解問題可以看成以下公式的解特征值問題:

[Sj:<v?v?T>tSj=λjSj] (2)

求解得到的特征值按從小到大的順序排列,即[λ1≤λ2≤???≤λM],輸出信號的慢特征和最小特征值息息相關(guān)。輸入信號[vt]可以是多種模式的圖像特征(例如色彩,梯度,SIFT特征,HOG特征)。

這里采用的是v1特征[12?13],該特征對圖像有很好的表示,確保預(yù)先學(xué)習(xí)到的慢特征能達到最優(yōu)。

1.2 堆棧自動編碼模型

自動編碼器模型是深度學(xué)習(xí)網(wǎng)絡(luò)模型之一,其盡可能復(fù)現(xiàn)輸入信號,捕捉代表輸入信號的主要成分。

如圖2所示,對于給定輸入信號[x],根據(jù)式(2)得到輸出[y],此過程為編碼過程:

[y=fθx=sWx+b] (3)

式中:[sx=11+θ-x];[W]是[d′×d]維權(quán)重矩陣;[b]是偏移向量。

為了驗證輸出[y]是否準(zhǔn)確表達原輸入信號,利用式(2)對其進行重構(gòu),得到重構(gòu)信號[z]。此過程為解碼/重構(gòu)過程:

[gθ′y=sW′y+b′] (4)

從輸入到輸出的權(quán)值記為[θ=W,b],從輸出到輸入的權(quán)值記為[θ′=W′,b′]。逐層進行參數(shù)[θ]和[θ′]的優(yōu)化,式(5)為其目標(biāo)函數(shù):

[θ?,θ′*=argminθ,θ′Lx,zLx,z=12x-z2] (5)

調(diào)整參數(shù),使得重構(gòu)誤差達到最小,因此可以得到[x]的第一層表示。

<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t2.tif>

圖2 普通DA和降噪DA

降噪自動編碼器(Denoising Auto Encoder,Dae)是在自動編碼器的基礎(chǔ)上給訓(xùn)練數(shù)據(jù)加入噪聲,編碼器需要學(xué)習(xí)去除噪聲而獲得沒有被噪聲污染的輸入信號,因此獲得輸入信號更加魯棒的表達。堆棧自動編碼模型(Sda)是將多個Dae堆疊起來形成的一種深度網(wǎng)絡(luò)模型。利用優(yōu)化后的參數(shù)[θ]得到當(dāng)前層的輸出[y](即下一層的輸入),將得到的[y]作為新一層的輸入數(shù)據(jù),逐層進行降噪自動編碼的過程,直到到達多層神經(jīng)網(wǎng)絡(luò)中間隱層的最后一層為止,算出該層輸出,即為輸出特征,如圖3所示。

<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t3.tif>

圖3 多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

1.3 基于Sda的慢特征分析法

基于Sda的慢特征分析方法利用慢特征分析法預(yù)先學(xué)習(xí)動態(tài)視頻序列的慢特征,將該特征作為模型輸入,進行多層降噪自動編碼網(wǎng)絡(luò)模型參數(shù)的學(xué)習(xí),最后使用SVM分類器對該模型的輸出特征進行分類,具體步驟如圖4所示。

2 實 驗

2.1 實驗數(shù)據(jù)集與評估準(zhǔn)則

實驗所用數(shù)據(jù)由10類動態(tài)場景構(gòu)成(包括海灘,電梯,森林煙火,高速公路,閃電,海洋,鐵路,河流,云,街道),且每一個類別由30個250×370 pixels大小的彩序列構(gòu)成。這些視頻序列全部來自于加拿大約克大學(xué)計算機視覺實驗室于2012年的YUPENN動態(tài)場景數(shù)據(jù)集[14],該數(shù)據(jù)庫主要強調(diào)的是對象和表層在短時間內(nèi)場景的實時信息。如圖5所示。

<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t4.tif>

圖4 基于Sda的慢特征分析步驟圖

<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t5.tif>

圖5 YUPENN動態(tài)數(shù)據(jù)庫

將所有彩序列進行尺度縮放,分別放大和縮小1.2倍,1.4倍,1.6倍,并且在每一個尺度上進行旋轉(zhuǎn),旋轉(zhuǎn)角度分別為[2°,4°,6°,-2°,-4°,-6°]。所以樣本總數(shù)為(10×30)×(6×6)=10 800個。實驗性能使用混淆矩陣(Confusion Matrix)進行衡量。混淆矩陣是多分類問題中常用的衡量準(zhǔn)則,它使得分類結(jié)果一目了然并能指出錯誤預(yù)測的影響。分類矩陣通過確定預(yù)測值是否與實際值匹配,將模型中的所有事例分為不同的類別。然后會對每個類別中的所有事例進行計數(shù),并在矩陣中顯示總計。實驗中一共有14個類別的數(shù)據(jù)集,所以最后會產(chǎn)生一個大小為14×14的混淆矩陣。

2.2 實驗結(jié)果與分析

實驗選用線性SVM分類器,采用Leave?One?Out 分析法進行分類。所有視頻序列全部轉(zhuǎn)換成灰度視頻進行慢特征分析,輸出大小為4 032維的慢特征向量作為Sda網(wǎng)絡(luò)模型的輸入數(shù)據(jù)。

2.2.1 Sda網(wǎng)絡(luò)模型大小

堆棧降噪自動編碼器網(wǎng)絡(luò)層數(shù)以及每一層的大小對輸出特征的魯棒性和SVM分類結(jié)果有重要的影響。當(dāng)網(wǎng)絡(luò)層數(shù)不一樣時,模型學(xué)習(xí)到的特征也就不一樣,網(wǎng)絡(luò)層數(shù)過低,學(xué)習(xí)力度可能不夠,特征達不到最佳表示效果,網(wǎng)絡(luò)層數(shù)太高,可能會出現(xiàn)過擬合現(xiàn)象,隱層的大小和最后的分類結(jié)果也息息相關(guān),所以選取不同網(wǎng)絡(luò)層數(shù)和隱層大小分別進行實驗,如圖6所示,選取網(wǎng)絡(luò)層數(shù)分別為1,2,3,隱層大小分別為500,1 000,2 000。由圖6可知,當(dāng)隱層大小為500時的分類得分顯然比1 000和2 000時高很多;在隱層大小為500時,隨著網(wǎng)絡(luò)層數(shù)不斷增加,實驗結(jié)果不斷提升,當(dāng)網(wǎng)絡(luò)層數(shù)由2層上升到3層時,實驗結(jié)果已經(jīng)非常接近(網(wǎng)絡(luò)層數(shù)為2時score=95.9%,網(wǎng)絡(luò)層數(shù)為3時score=96.3%)??梢缘弥?,隨著網(wǎng)絡(luò)層數(shù)不斷增加,分類的效果逐漸提高,當(dāng)網(wǎng)絡(luò)層數(shù)為3時,分類結(jié)果已非常接近。

<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t6.tif>

圖6 不同網(wǎng)絡(luò)層數(shù)和隱層大小的分類結(jié)果

2.2.2 噪聲

Sdae對每一層的輸入加入噪聲,編碼器自動學(xué)習(xí)如何去除噪聲而獲得更加魯棒的動態(tài)紋理特征,因此每一層所加入的噪聲的大小對提取的特征有很大的影響。因此,選取不同大小的噪聲分別進行實驗,如圖7所示,選取噪聲大小分別為10%,15%,20%,25%,30%,35%,40%,45%,50%,固定網(wǎng)絡(luò)層大小為[500,500,500];由圖可知,加入噪聲對分類得分的影響呈類似拋物線形狀,對每一層輸入數(shù)據(jù)加入25%的噪聲時score=0.964為最大值。

2.2.3 混淆矩陣以及實驗與現(xiàn)有方法的比較

圖8為實驗最優(yōu)參數(shù)所計算出的混淆矩陣,由圖可知,海灘、電梯、高速公路以及海洋的分類效果達到100%,噴泉(Fountain)的分類效果雖然最差,但也已經(jīng)達到83%左右,其容易被誤分成森林火災(zāi)(17%錯誤分類)。由該混淆矩陣可以得知,實驗所用方法能夠達到將近96.4%平均得分。表1是本文所用方法與現(xiàn)有幾個比較常用的動態(tài)紋理特征提取方法的比較,分別有HOF[15],GIST[16],Chaos[17],SFA[8]。由表格可以得知,SFA是幾個方法中效果最好的,可以達到76.7%的分類效果,而本文所用方法SFA+Sda比SFA方法提高了將近20%的分類得分,并且在每一個動態(tài)場景中分類效果總是優(yōu)于其他幾種方法。

<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t7.tif>

圖7 加入不同噪聲的分類結(jié)果

<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t8.tif>

圖8 混淆矩陣

表1 本實驗與現(xiàn)有方法比較

3 結(jié) 語

本文提出一種基于多層降噪自動編碼網(wǎng)絡(luò)模型的動態(tài)紋理分類方法:預(yù)先學(xué)習(xí)動態(tài)視頻序列的慢特征,以此作為多層降噪自編碼網(wǎng)絡(luò)模型的輸入數(shù)據(jù)進行非監(jiān)督的深度學(xué)習(xí),網(wǎng)絡(luò)最頂層的輸出即為所提取的動態(tài)紋理特征,采用SVM分類器對該特征進行分類。本文對實驗中的各種影響參數(shù)如網(wǎng)絡(luò)模型的深度、每一層的大小以及加入噪聲的大小做了充分的研究,實驗證明,該方法所提取的特征對動態(tài)紋理有很好的表示作用,分類效果不錯,在動態(tài)場景分類問題中有很大的應(yīng)用價值。

參考文獻

[1] DORETTO G, CHIUSO A, WU Y, et al. Dynamic textures [J]. International Journal on Computer Vision, 2003, 51(2): 91?109.

[2] NELSON R C, POLENA P. Qualitative recognition of motion using temporal texture [J]. CVGIP: Image Understanding, 1992, 56(1): 78?89.

[3] POLANA R, NELSON R. Temporal texture and activity recognition [J]. Motion?Based Recognition: Computational Imaging and Vision, 1997, 9: 87?124.

[4] SZUMMER M, PICARD R W. Temporal texture modeling [C]// Proceedings of 1996 International Conference on Image Processing. [S.l.]: [s.n.], 1996: 11?16.

[5] FAZEKAS S, CHETVERIKOV D. Normal versus complete ?ow in dynamic texture recognition a comparative study [C]// 2005 4th International Workshop on Texture Analysis and Synthesis (ICCV 2005). [S.l.]: [s.n.], 2005: 37?42.

[6] ZHAO G, PIETIK?INEN M. Dynamic texture recognition using volume local binary patterns [C]// European Conference on Computer Vision. [S.l.]: [s.n.], 2006: 165?177.

[7] PIETIK¨AINEN G Z M. Dynamic texture recognition using local binary patterns with an application to facial expression [J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2007, 29(6): 915?928.

[8] THERIAULT Christian, THOME Nicolas, CORD Matthieu. Dynamic scene classification: learning motion descriptors with slow features analysis [EB/OL]. [2014?09?17]. http://.

[9] FRANZIUS M, WILBERT N, WISKOTT L. Invariant object recognition with slow feature analysis [C]// ICANN 18th International Conference. Berlin: Springer?Verlag, 2008: 961?970.

[10] WISKOTT L, SEJNOWSKI T. Slow feature analysis: Unsupervised learning of invariances [J]. Neural Comput., 2002, 14: 715?770.

[11] 馬奎俊,韓彥軍,陶卿,等.基于核的慢特征分析算法[J].模式識別與人工智能,2011(2):79?84.

[12] DE VALOIS R, YUND E, HEPLER N. The orientation and direction selectivity of cells in macaque visual cortex [J]. Vision Research, 1982, 22: 531?544.

[13] HUBEL D, WIESEL T. Receptive fields of single neurons in the cat’s striate cortex [J]. Journal of Physiol, 1959, 4: 574?591.

[14] DERPANIS Konstantinos, LECCE M, DANIILIDIS K, et al. Dynamic scene understanding: the role of orientation features in space and time in scene classification [C]// International Conference on Computer Vision and Pattern Recognition. [S.l.]: [s.n.], 2012: 111?121.

[15] MARSZALEK M, LAPTEV I, SCHMID C. Actions in Context [C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2009: 2?6.