公務(wù)員期刊網(wǎng) 精選范文 卷積神經(jīng)網(wǎng)絡(luò)的定義范文

卷積神經(jīng)網(wǎng)絡(luò)的定義精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經(jīng)網(wǎng)絡(luò)的定義主題范文,僅供參考,歡迎閱讀并收藏。

卷積神經(jīng)網(wǎng)絡(luò)的定義

第1篇:卷積神經(jīng)網(wǎng)絡(luò)的定義范文

1.神經(jīng)網(wǎng)絡(luò)的架構(gòu)正變得越來(lái)越復(fù)雜。感知和翻譯等大多數(shù)神經(jīng)網(wǎng)絡(luò)的架構(gòu)正變得越來(lái)越復(fù)雜,遠(yuǎn)非此前簡(jiǎn)單的前饋神經(jīng)網(wǎng)絡(luò)或卷積神經(jīng)網(wǎng)絡(luò)(CNN)所能比。特別需要注意的是,神經(jīng)網(wǎng)絡(luò)正與不同的技術(shù)(如LSTMs、自定義目標(biāo)函數(shù)等)相混合。

神經(jīng)網(wǎng)絡(luò)是多數(shù)深度學(xué)習(xí)項(xiàng)目的根基。深度學(xué)習(xí)基于人腦結(jié)構(gòu),一層層互相連接的人工模擬神經(jīng)元模仿大腦的行為,處理視覺(jué)和語(yǔ)言等復(fù)雜問(wèn)題。這些人工神經(jīng)網(wǎng)絡(luò)可以收集信息,也可以對(duì)其做出反應(yīng)。它們能對(duì)事物的外形和聲音做出解釋?zhuān)€可以自行學(xué)習(xí)與工作。

2.長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTMs)。當(dāng)你閱讀本文時(shí),你是在理解前面詞語(yǔ)的基礎(chǔ)上來(lái)理解每個(gè)詞語(yǔ)的。你的思想具有連續(xù)性,你不會(huì)丟棄已知信息而從頭開(kāi)始思考。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的一大缺陷便無(wú)法做到這一點(diǎn),而遞歸神經(jīng)網(wǎng)絡(luò)能夠解決這一問(wèn)題。

RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))擁有循環(huán)結(jié)構(gòu),可以持續(xù)保存信息。過(guò)去幾年里,RNN在語(yǔ)音識(shí)別和翻譯等許多問(wèn)題上取得了難以置信的成功,而成功的關(guān)鍵在于一種特殊的RNN――長(zhǎng)短期記憶網(wǎng)絡(luò)。

3.“注意力模型”?!白⒁饬Α笔侵干窠?jīng)網(wǎng)絡(luò)在執(zhí)行任務(wù)時(shí)知道把焦點(diǎn)放在何處。我們可以讓神經(jīng)網(wǎng)絡(luò)在每一步都從更大的信息集中挑選信息作為輸入。例如,當(dāng)神經(jīng)網(wǎng)絡(luò)為一張圖片生成標(biāo)題時(shí),它可以挑選圖像的關(guān)鍵部分作為輸入。

4.神經(jīng)圖靈機(jī)依然有趣,但還無(wú)法勝任實(shí)際工作。當(dāng)你翻譯一句話時(shí),并不會(huì)逐詞進(jìn)行,而會(huì)從句子的整體結(jié)構(gòu)出發(fā)。機(jī)器難以做到這一點(diǎn),這一挑戰(zhàn)就被稱(chēng)為“強(qiáng)耦合輸出整體估計(jì)”。

神經(jīng)圖靈機(jī)就是研究者們?cè)诠杵兄噩F(xiàn)人類(lèi)大腦短期記憶的嘗試。它的背后是一種特殊類(lèi)型的神經(jīng)網(wǎng)絡(luò),它們可以適應(yīng)與外部存儲(chǔ)器共同工作,這使得神經(jīng)網(wǎng)絡(luò)可以存儲(chǔ)記憶,還能在此后檢索記憶并執(zhí)行一些有邏輯性的任務(wù)。

5.深度學(xué)習(xí)讓計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理不再是孤島。卷積神經(jīng)網(wǎng)絡(luò)最早出現(xiàn)在計(jì)算機(jī)視覺(jué)中,但現(xiàn)在許多自然語(yǔ)言處理(NLP)系統(tǒng)也會(huì)使用。LSTMs與遞歸神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)最早出現(xiàn)在NLP中,但現(xiàn)在也被納入計(jì)算機(jī)視覺(jué)神經(jīng)網(wǎng)絡(luò)。

此外,計(jì)算機(jī)視覺(jué)與NLP的交匯仍然擁有無(wú)限前景。

6.符號(hào)微分式越來(lái)越重要。隨著神經(jīng)網(wǎng)絡(luò)架構(gòu)及其目標(biāo)函數(shù)變得日益復(fù)雜,手動(dòng)推導(dǎo)出“反向傳播”的梯度也變得更加困難而且容易出錯(cuò)。谷歌的TensorFlow等最新的工具包已經(jīng)可以超負(fù)荷試驗(yàn)符號(hào)微分式,能夠自動(dòng)計(jì)算出正確的微分,以確保訓(xùn)練時(shí)誤差梯度可被反向傳播。

7.神經(jīng)網(wǎng)絡(luò)模型壓縮的驚人成果。多個(gè)團(tuán)隊(duì)以不同方法大幅壓縮了訓(xùn)練一個(gè)良好模型所需的素材體量,這些方法包括二值化、固定浮點(diǎn)數(shù)、迭代修剪和精細(xì)調(diào)優(yōu)步驟等。

這些技術(shù)潛在的應(yīng)用前景廣闊,可能將會(huì)適應(yīng)在移動(dòng)設(shè)備上進(jìn)行復(fù)雜模型的訓(xùn)練。例如,不需要延遲就可以得到語(yǔ)音識(shí)別結(jié)果。此外,如果運(yùn)算所需要的空間和時(shí)間極大降低,我們就可以極高幀率(如30 FPS)查詢一個(gè)模型,這樣,在移動(dòng)設(shè)備上也可以運(yùn)用復(fù)雜神經(jīng)網(wǎng)絡(luò)模型,近乎實(shí)時(shí)地完成計(jì)算機(jī)視覺(jué)任務(wù)。

8.深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)繼續(xù)交匯。在“端對(duì)端”機(jī)器人等領(lǐng)域出現(xiàn)了令人激動(dòng)的進(jìn)展,現(xiàn)在機(jī)器人已經(jīng)可以一起運(yùn)用深度和強(qiáng)化學(xué)習(xí),從而將原始感官數(shù)據(jù)直接轉(zhuǎn)化為實(shí)際動(dòng)作驅(qū)動(dòng)。我們正在超越“分類(lèi)”等簡(jiǎn)單工作,嘗試將“計(jì)劃”與“行動(dòng)”納入方程。

第2篇:卷積神經(jīng)網(wǎng)絡(luò)的定義范文

關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);人臉識(shí)別;大樣本;對(duì)抗生成網(wǎng)絡(luò)

中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2017)07-00-04

0 引 言

近幾年,基于大量訓(xùn)練數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)在目標(biāo)檢測(cè)、目標(biāo)識(shí)別、顯著性檢測(cè)、行為識(shí)別、人臉識(shí)別和對(duì)象分割等計(jì)算機(jī)視覺(jué)領(lǐng)域取得了舉世矚目的成果。這些令人鼓舞的成績(jī)主要?dú)w功于以下幾點(diǎn):

(1)將大量有標(biāo)簽的數(shù)據(jù)作為訓(xùn)練集,學(xué)習(xí)出具有百萬(wàn)參數(shù)的模型,從而使卷積神經(jīng)網(wǎng)絡(luò)能夠有效提取對(duì)象的本質(zhì)特征;

(2)不斷改進(jìn)性能優(yōu)異的網(wǎng)絡(luò)結(jié)構(gòu),如Very Deep VGG Network[1],Google Inception Network[2]和Deep Residual Networks[3]等;

(3)各種并行計(jì)算硬件設(shè)備(如GPU)的支持,大大提高了CNN訓(xùn)練模型的效率。其中,將標(biāo)簽的大量數(shù)據(jù)作為訓(xùn)練集起著至關(guān)重要的作用。

本文以人臉識(shí)別為例,討論和綜述多樣本算法的研究現(xiàn)狀和發(fā)展方向。

有效的特征是目標(biāo)識(shí)別的關(guān)鍵,對(duì)人臉識(shí)別問(wèn)題來(lái)說(shuō)亦如此。傳統(tǒng)的主成分分析(Principal Component Analysis,PCA)[4,5],線性區(qū)分分析(Linear Discriminant Analysis, LDA)[6]和局部二值模式化(Local Binary Pattern,LBP)[7,8]等取得了不錯(cuò)的成績(jī)?;趥鹘y(tǒng)特征的人臉識(shí)別受限于環(huán)境,此類(lèi)特征作用在復(fù)雜或者背景多變的人臉圖像時(shí),其識(shí)別性能往往大幅下降,如在LFW數(shù)據(jù)集上其識(shí)別率驟然下降[9]。

采用CNN作為特征提取模型,主要考慮到該模型的所有處理層,包括像素級(jí)別的輸入層,均可從數(shù)據(jù)中學(xué)習(xí)到可調(diào)節(jié)的參數(shù)。即CNN能自喲喲笫據(jù)中學(xué)習(xí)特征,無(wú)需人工設(shè)計(jì)特征。合理有效的特征需從大量數(shù)據(jù)和大量參數(shù)中自動(dòng)學(xué)習(xí)獲取,從而達(dá)到優(yōu)秀的識(shí)別性能?;诰矸e神經(jīng)網(wǎng)絡(luò)的世界領(lǐng)先方法均使用了上百萬(wàn)的數(shù)據(jù),其中最具有代表性的如VGG-Face網(wǎng)絡(luò)需要260萬(wàn)個(gè)人臉圖像樣本進(jìn)行訓(xùn)練[10],F(xiàn)acebook的DeepFace網(wǎng)絡(luò)需要440萬(wàn)個(gè)有標(biāo)簽的人臉圖像樣本訓(xùn)練[11]。而Google更使用了2億樣本數(shù)據(jù)來(lái)訓(xùn)練FaceNet網(wǎng)絡(luò)[12]。

1 多樣本獲取現(xiàn)狀

如引言所述,有效合理的特征是目標(biāo)識(shí)別的關(guān)鍵,而CNN能從大量有標(biāo)簽的數(shù)據(jù)中自動(dòng)學(xué)習(xí)圖像的本質(zhì)特征。獲得圖像特征的關(guān)鍵因素是有標(biāo)簽的大數(shù)據(jù)。因此許多研究的前提工作均聚焦在人工獲取數(shù)據(jù)和給數(shù)據(jù)加標(biāo)簽方面。然而,獲取百萬(wàn)級(jí)的數(shù)據(jù)并非易事。大數(shù)據(jù)獲取需要人工從網(wǎng)上下載、處理,然后給數(shù)據(jù)添加標(biāo)簽,耗費(fèi)大量的人力物力。雖然也有一些公開(kāi)免費(fèi)的數(shù)據(jù)集,且收集該類(lèi)數(shù)據(jù)相對(duì)比較容易,如CASIA-WebFace[13],有49萬(wàn)個(gè)圖像,但遠(yuǎn)少于Facebook和Google的數(shù)據(jù)集。在這種情況下,缺乏大量樣本直接阻礙了深度學(xué)習(xí)方法的使用,成為阻礙提高檢測(cè)率和識(shí)別率的瓶頸。除了深度學(xué)習(xí)技術(shù)提取特征需要大量樣本外,已有研究證明[14-19],基于傳統(tǒng)方法的技術(shù)同樣需要大量樣本作為支撐。在這種形勢(shì)下,通過(guò)圖像處理與機(jī)器學(xué)習(xí)技術(shù)自動(dòng)增加樣本集已成為必要手段。

無(wú)論基于傳統(tǒng)方法的識(shí)別問(wèn)題,還是基于深度學(xué)習(xí)的識(shí)別問(wèn)題,大量有標(biāo)簽的數(shù)據(jù)作為訓(xùn)練集在算法中起著舉足輕重的作用。如果樣本不足,算法往往過(guò)擬合,無(wú)法提高算法的性能。為了獲得更多樣本,一些研究工作從網(wǎng)絡(luò)上獲取數(shù)據(jù),例如在IMDb上,已經(jīng)把9萬(wàn)有標(biāo)簽的數(shù)據(jù)集擴(kuò)大到了26萬(wàn) [10]。除此之外,F(xiàn)acebook獲取了440萬(wàn)個(gè)有標(biāo)簽的人臉進(jìn)行DeepFace網(wǎng)絡(luò)訓(xùn)練[11],而Google使用2億個(gè)數(shù)據(jù)訓(xùn)練FaceNet網(wǎng)絡(luò)[12]。

目前獲取方法具有如下局限:

(1)現(xiàn)有方法耗時(shí)耗力,需要經(jīng)費(fèi)支持。獲取百萬(wàn)級(jí)的數(shù)據(jù)并非易事。大數(shù)據(jù)獲取需要人工從網(wǎng)上下載、處理,然后給數(shù)據(jù)添加標(biāo)簽,耗費(fèi)大量的人力物力。這種情況下,只有像Facebook和Google這樣的大公司會(huì)收集大量有標(biāo)簽的數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練。而大多數(shù)情況下的數(shù)據(jù)收集涉及個(gè)人隱私與財(cái)力物力等問(wèn)題,對(duì)于一般的小公司或科研院所而言,收集數(shù)據(jù)普遍難度較大。

(2)收集特殊圖片困難。對(duì)于一些特殊的圖像,如醫(yī)學(xué)圖像,遙感圖像,現(xiàn)實(shí)中數(shù)量本身就少,加之無(wú)法直接從網(wǎng)上獲取,因此小樣本很容易導(dǎo)致過(guò)擬合。

2 樣本集擴(kuò)大算法研究現(xiàn)狀

2.1 基于傳統(tǒng)方法的多樣本算法研究現(xiàn)狀

對(duì)于傳統(tǒng)的樣本生成算法,如果數(shù)據(jù)集中有足夠的訓(xùn)練樣本,均可得到比較滿意的識(shí)別結(jié)果,但在現(xiàn)實(shí)的人臉數(shù)據(jù)庫(kù)中,人臉的數(shù)據(jù)樣本卻是有限的。文獻(xiàn)[20]表明,增加圖像樣本的數(shù)量可以較大幅度提高識(shí)別的準(zhǔn)確率。

為了增加樣本數(shù)量,提高識(shí)別準(zhǔn)確率,科研工作者已做了大量工作。其中,借助原始樣本產(chǎn)生虛擬樣本是一種有效的增加數(shù)據(jù)集方法。這種方法大致分為如下幾類(lèi):

(1)通過(guò)人臉圖像的對(duì)稱(chēng)性來(lái)得到原始樣本的虛擬樣本,如Xu[14,15]和Liu等[21]提出借助原始圖像的“對(duì)稱(chēng)臉”和“鏡像臉”產(chǎn)生虛擬樣本,從而擴(kuò)大數(shù)據(jù)集并提高人臉識(shí)別的正確率,Song[22]也提出相應(yīng)的算法來(lái)改進(jìn)人臉識(shí)別的性能;

(2)通過(guò)改變圖像的光照、姿勢(shì)和表情等來(lái)產(chǎn)生虛擬樣本,例如Boom等用一種稱(chēng)為VIG的方法對(duì)未知光照情況進(jìn)行建模[16],Abdolali[17]和Ho[18]等提出了類(lèi)似的算法擴(kuò)大數(shù)據(jù)集;

(3)基于人臉圖像自身的特征生成虛擬樣本,Ryu等根據(jù)原始樣本的分布來(lái)產(chǎn)生虛擬樣本[19],Liu等也根據(jù)圖像本身特性來(lái)產(chǎn)生虛擬樣本[23]。

(4)基于數(shù)學(xué)的多樣本產(chǎn)生方法,如Zhang等提出利用奇異值分解的方法獲得基于原始樣本的虛擬樣本[24]。借助圖像合成方法生成的新樣本如圖1所示。

圖1 借助圖像合成方法生成新樣本

除了借助圖像處理方法獲得原始樣本的新樣本外,還可以利用圖像合成算法獲取多樣本,本研究做了相關(guān)實(shí)驗(yàn),其結(jié)果如圖1所示。假設(shè)數(shù)據(jù)集中有c類(lèi)人臉圖像,每類(lèi)有ni個(gè)樣本,令表示第i類(lèi)中的第j個(gè)樣本,這里i=1,2,…,c,j=1,2,…,ni,h和w分別代表樣本xij的高和寬(均為像素值)。用X=[X1,X2,…,Xc]代表所有樣本,則Xi=[xi1,xi2,…,xini],i=1,2,…,c代表第i類(lèi)樣本。則有:

其中, P(Xi)代表所生成的第i類(lèi)新樣本, f(g)表示圖像處理函數(shù),代表多個(gè)樣本的串聯(lián),即將多個(gè)樣本聯(lián)合起來(lái)得到一個(gè)類(lèi)別的新樣本。

2.2 基于深度學(xué)習(xí)的多樣本生成算法研究現(xiàn)狀

大量有標(biāo)簽的訓(xùn)練數(shù)據(jù)是機(jī)器學(xué)習(xí)成功的關(guān)鍵,尤其對(duì)于強(qiáng)大的深度學(xué)習(xí)技術(shù),大數(shù)據(jù)集能提高CNN的性能,防止過(guò)擬合[25]。為了擴(kuò)充數(shù)據(jù)集,已有一些工作在不改變圖像語(yǔ)義的情況下進(jìn)行,如水平鏡像[26]、不同尺度的剪裁[27,28]、旋轉(zhuǎn)[29]和光照變化[27]等傳統(tǒng)方法。

DeepID[30]采取了增大數(shù)據(jù)集手法來(lái)訓(xùn)練網(wǎng)絡(luò),只有大的數(shù)據(jù)集才能使得卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得更加充分,該研究采用兩種方法增大數(shù)據(jù)集:

(1)選擇采集好的數(shù)據(jù),即映入CelebFaces數(shù)據(jù)集。

(2)將原始數(shù)據(jù)集中的圖片多尺度、多通道、多區(qū)域的切分,然后分別進(jìn)行訓(xùn)練,再把得到的向量串聯(lián)起來(lái),即得到最后的向量。

以上方法僅局限于相對(duì)簡(jiǎn)單的圖像處理技術(shù),該類(lèi)方法生成的多樣本具有一定的局限性。比如,真正意義上的旋轉(zhuǎn)應(yīng)按一定的角度進(jìn)行3D旋轉(zhuǎn),而不僅僅是圖像本身的角度旋轉(zhuǎn)。合成數(shù)據(jù)能一定程度上解決以上問(wèn)題,如Shotton等通過(guò)隨機(jī)森林合成3D深度數(shù)據(jù)來(lái)估計(jì)人體姿勢(shì),Jaderberg等使用合成數(shù)據(jù)來(lái)訓(xùn)練CNN模型識(shí)別自然場(chǎng)景下的文字[31]。這些研究的結(jié)果均優(yōu)于使用剪裁,旋轉(zhuǎn)等傳統(tǒng)方法。但使用3D合成圖像比較復(fù)雜,需要較多的前期工作。

近年來(lái),借助生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GANs)來(lái)生成原始樣本的方法吸引了很多學(xué)者。2014年6月,Goodfellow 等發(fā)表了論文《Generative Adversarial Nets》[32],文中詳盡介紹了GANs的原理、優(yōu)點(diǎn)及其在圖像生成方面的應(yīng)用,標(biāo)志著GANs的誕生。早期的GANs模型存在許多問(wèn)題,如GANs網(wǎng)絡(luò)不穩(wěn)定,甚至有時(shí)該網(wǎng)絡(luò)永遠(yuǎn)不會(huì)開(kāi)始學(xué)習(xí),生成的結(jié)果無(wú)法令人滿意。文獻(xiàn)[32]中生成器生成的圖片十分模糊,針對(duì)此問(wèn)題,Denton等提出一個(gè)被稱(chēng)為 LAPGANs的模型[33],該模型用多個(gè)卷積神經(jīng)網(wǎng)絡(luò)連續(xù)生成圖像,這些新圖像的清晰度不斷提高,最終得到高分辨率圖像。GANs除了基于圖像生成圖像外,還可以通過(guò)文字生成圖像,如文獻(xiàn)[34]搭起了文本到圖像的橋梁,通過(guò)GANs將文本直接轉(zhuǎn)換成對(duì)的圖像。文獻(xiàn)[35]將GAN應(yīng)用于超分辨率中,該文獻(xiàn)提出了全新的損失函數(shù),使得 GANs 能對(duì)大幅降采樣后的圖像恢復(fù)其生動(dòng)紋理和小顆粒細(xì)節(jié)。另外,Radford 等提出了名為DCGANs的網(wǎng)絡(luò)[36],該文獻(xiàn)指出,用大數(shù)據(jù)集訓(xùn)練出的 GANs 能學(xué)習(xí)一整套層級(jí)的特征,并具有比其他無(wú)監(jiān)督學(xué)習(xí)模型更好的效果。以上方法均為基于一大類(lèi)原始樣本生成另一大類(lèi)圖像。

基于GAN生成樣本的過(guò)程如圖2所示。首先將同類(lèi)別的原始圖像輸入到生成對(duì)抗網(wǎng)絡(luò)GAN的生成器網(wǎng)絡(luò)G中,生成“假冒”圖像G1和G2,接著借助判別器D來(lái)判斷輸入的圖像是真實(shí)圖像還是“假冒”圖像。生成器G努力生成類(lèi)似原始樣本的圖像,力爭(zhēng)判別器D難以區(qū)分真假;而判別器D應(yīng)不斷提高自身性能,有能力鑒別出由生成器G生成的圖像為贗品。生成器G和判別器D的價(jià)值函數(shù)如下:

生成器G最小化log(1-D(G(z))),判別器D最大化logD(x),使得最大概率按照訓(xùn)練樣本的標(biāo)簽分類(lèi), 生成模型G隱式定義了一個(gè)概率分布Pg,希望Pg 收斂到數(shù)據(jù)真實(shí)分布Pdata。

圖2 GAN生成新樣本示意圖

3 結(jié) 語(yǔ)

綜上所述,基于原始樣本的多樣本生成算法是一個(gè)值得深入研究探索的問(wèn)題,具備清晰而明確的理論意義和現(xiàn)實(shí)應(yīng)用意義。雖然研究人員已經(jīng)對(duì)相關(guān)問(wèn)題進(jìn)行了一些研究,取得了一系列成果,但是多樣本的產(chǎn)生方法缺乏全面、深入的理解,尚未出現(xiàn)具有里程碑意義的研究成果。具體而言,本文認(rèn)為,基于原始樣本的多樣本生成問(wèn)題需要在如下幾個(gè)方面展開(kāi)深入的研究:

(1)在研究多樣本生成算法時(shí),保留原始樣本的本質(zhì)特征,如在人臉識(shí)別中,拋棄不必要信息(光照、表情和姿勢(shì))的影響是一項(xiàng)十分有意義的工作。

(2)在合成新樣本時(shí),設(shè)計(jì)合理有效的構(gòu)造元素,使合成的新表示更接近自然亦是一個(gè)值得研究的方向。

(3)基于生成對(duì)抗網(wǎng)絡(luò),研究某一類(lèi)對(duì)象的生成新樣本的核心算法是一項(xiàng)有意義的工作。

參考文獻(xiàn)

[1] K Simonyan, A Zisserman.Very deep convolutional networks for large-scale image recognition [Z]. Computer Science, 2014.

[2] C Szegedy,W Lin,Y Jia, et al. Going deeper with convolutions[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015.

[3] K He,X Zhang,S Ren,et al. Deep residual learning for image recognition[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016.

[4] Turk, Matthew, Pentland, et al.Eigenfaces for Recognition[J]. Journal of Cognitive Neuroscience, 2014,3(1): 71-86.

[5] A Pentland.Looking at People: Sensing for Ubiquitous and Wearable Computing[J].IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000,22(1): 107-119.

[6] C Liu, H Wechsler.Robust coding schemes for indexing and retrieval from large face databases[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2000,9(1): 132-137.

[7] T Ojala,M Pietik?inen.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2002,24(7): 404-420.

[8] T Ahonen, A Hadid, M Pietikainen.Face Description with Local Binary Patterns: Application to Face Recognition[J]. European Conference on Computer Vision, 2004,28(12): 469-481.

[9] GB Huang, M Mattar, T Berg,et al. Labeled faces in the wild: A database for studying face recognition in unconstrained environments[Z].Month,2008.

[10] OM Parkhi, A Vedaldi, A Zisserman.Deep Face Recognition[C]. British Machine Vision Conference, 2015.

[11] Y Taigman,M Yang, Marc, et al. DeepFace: Closing the Gap to Human-Level Performance in Face Verification[C]. in Conference on Computer Vision and Pattern Recognition,2014.

[12] F Schroff,D Kalenichenko,J Philbin.FaceNet: A unified embedding for face recognition and clustering[C]. in IEEE Conference on Computer Vision & Pattern Recognition,2015.

[13] D Yi,Z Lei, S Liao, et al.Learning face representation from scratch[Z]. Computer Science, 2014.

[14] Y Xu, X Zhu, Z Li, et al.Using the original and ‘symmetrical face’ training samples to perform representation based two-step face recognition[J]. Pattern Recognition, 2013,46(4): 1151-1158.

[15] Y Xu.Integrate the original face image and its mirror image for face recognition[J]. Neurocomputing, 2014,31(7): 191-199.

[16] BJ Boom, LJ Spreeuwers, RNJ Veldhuis.Virtual illumination grid for correction of uncontrolled illumination in facial images[J]. Pattern Recognition, 2011,44(9): 1980-1989.

[17] F Abdolali,S Seyyedsalehi. Improving pose manifold and virtual images using bidirectional neural networks in face recognition using single image per person[Z]. in International Symposium on Artificial Intelligence and Signal Processing,2011.

[18] HT Ho,R Chellappa. Pose-invariant face recognition using Markov random fields[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2013,22(4): 1573.

[19] Y.-S., Ryu.,S.-Y., O..Simple hybrid classifier for face recognition with adaptively generated virtual data[J]. Pattern Recognition Letters, 2012,23(7): 833-841.

[20] A Wagner,J Wright, A Ganesh,et al.Toward a Practical Face Recognition System: Robust Alignment and Illumination by Sparse Representation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012,34(2): 372-386.

[21] Z Liu,X Song,Z Tang.Integrating virtual samples and fuzzy discriminant analysis for sparse representation-based face classification[J]. Journal of Electronic Imaging, 2015,24(2): 23013.

[22] YJ Song,YG Kim,UD Chang,et al. Face recognition robust to left/right shadows; facial symmetry[J]. Pattern Recognition, 2006,39(8): 1542-1545.

[23] Z Liu, X Song, Z Tang.Fusing hierarchical multi-scale local binary patterns and virtual mirror samples to perform face recognition[J]. Neural Computing & Applications, 2015,26(8): 2013-2026.

[24] G Zhang,W Zou,X Zhang,et al. Singular value decomposition based sample diversity and adaptive weighted fusion for face recognition[J]. Digital Signal Processing, 2017,62: 150-156.

[25] K Chatfield,K Simonyan,A V edaldi,et al. Return of the devil in the details: Delving deep into convolutional nets[Z]. Computer science, 2014.

[26] H Yang, I Patras.Mirror, mirror on the wall, tell me, is the error small? [J]. Der Chirurg; Zeitschrift für alle Gebiete der,2015,69(12):235-240.

[27] A Krizhevsky, I Sutskever, GE Hinton. ImageNet Classification with Deep Convolutional Neural Networks [J]. Advances in Neural Information Processing Systems, 2012,25(2): 1097-1105.

[28] G Levi,T Hassner. Age and gender classification using convolutional neural networks[C].in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops,2015.

[29] S Xie, Z Tu. Holistically-nested edge detection[C]. in Proceedings of the IEEE International Conference on Computer Vision,2015.

[30] Y Sun, X Wang, X Tang.Deep Learning Face Representation from Predicting 10,000 Classes[C]. in Computer Vision and Pattern Recognition,2014.

[31] M Jaderberg, K Simonyan,A Vedaldi,et al.Synthetic data and artificial neural networks for natural scene text recognition[Z]. Eprint Arxiv, 2014.

[32] I Goodfellow,J Pougetabadie, M Mirza, et al. Generative adversarial nets[Z]. in Advances in neural information processing systems, 2014.

[33] E Denton,S Chintala,A Szlam. Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks[Z]. Computer science,2015.

[34] S Reed,Z Akata, X Yan,et al. Generative adversarial text to image synthesis[C]. in Proceedings of The 33rd International Conference on Machine Learning,2016.

第3篇:卷積神經(jīng)網(wǎng)絡(luò)的定義范文

【關(guān)鍵詞】:高速公路 防逃 人臉識(shí)別 高清視

中圖分類(lèi)號(hào):U412.36+6 文獻(xiàn)標(biāo)識(shí)碼:A

人臉識(shí)別的分類(lèi)與概述

人臉識(shí)別就是通過(guò)計(jì)算機(jī)提取人臉的特征,并根據(jù)這些特征進(jìn)行身份驗(yàn)證。人臉與人體的其他生物特征(指紋、虹膜等)一樣與生俱來(lái),它們所具有的唯一性和不易被復(fù)制的良好特性為身份鑒別提供了必要的前提;同其他生物特征識(shí)別技術(shù)相比,人臉識(shí)別技術(shù)具有操作簡(jiǎn)單、結(jié)果直觀、隱蔽性好的優(yōu)越性。人臉識(shí)別一般包括三個(gè)步驟:人臉檢測(cè)、人臉特征提取和人臉的識(shí)別與驗(yàn)證。其處理流程如圖

輸入圖像 人臉圖像人臉特征輸出結(jié)果

人臉識(shí)別的一般步驟

人臉識(shí)別方法繁多,早期研究較多的方法有基于幾何特征的人臉識(shí)別方法和基于模板匹配的人臉識(shí)別方法。目前人臉識(shí)別方法主要研究及應(yīng)用的是基于統(tǒng)計(jì)的識(shí)別方法、基于連接機(jī)制的識(shí)別方法以及其它一些綜合方法。下面是這幾類(lèi)方法的基本介紹:[2]

(1)基于幾何特征的人臉識(shí)別方法

幾何特征矢量是以人臉器官如眼睛、鼻子、嘴巴等的形狀和幾何關(guān)系為基礎(chǔ)的特征矢量,其分量通常包括人臉指定兩點(diǎn)間距離、曲率、角度等。早期的研究者Brunelli[3]等人采用改進(jìn)的積分投影法提取出用歐式距離表征的35維人臉特征矢量用于人臉識(shí)別。Huang Chung Lin等人[4]采用動(dòng)態(tài)模板[5,6,7]與活動(dòng)輪廓模型提取出人臉器官的輪廓[8,9,10]?;趲缀翁卣鞯娜四樧R(shí)別方法有如下優(yōu)點(diǎn):符合人類(lèi)識(shí)別人臉的機(jī)理,易于理解;對(duì)每幅圖像只需要存儲(chǔ)一個(gè)特征矢量,存儲(chǔ)量??;對(duì)光照變化不敏感。但這種方法同樣存在一些問(wèn)題,如從圖像中提取這些特征比較困難;對(duì)強(qiáng)烈的表情變化和姿態(tài)變化的魯棒性差等。

(2)基于模板匹配的人臉識(shí)別方法

模板匹配大都采用歸一化相關(guān),直接計(jì)算兩幅圖之間的匹配程度。最簡(jiǎn)單的人臉模板就是將人臉看成一個(gè)橢圓[10,11]。另一種方法就是將人臉用一組獨(dú)立的小模板表示,如眼睛模板、嘴巴模板、鼻子模板等,采用彈性模板方法提取這些模板特征[12]。Brunelli等人專(zhuān)門(mén)比較了基于幾何特征的人臉識(shí)別方法和基于模板匹配的人臉識(shí)別方法,他們得出的結(jié)論是:基于幾何特征的人臉識(shí)別方法具有識(shí)別速度快和內(nèi)存要求小等優(yōu)點(diǎn),但基于模板匹配的識(shí)別率要高于基于幾何特征的識(shí)別率。

(3)基于統(tǒng)計(jì)的人臉識(shí)別方法

基于統(tǒng)計(jì)特征的識(shí)別方法包括基于特征臉的方法和基于隱馬爾可夫模型的方法。特征臉(Eigenface)方法[13]是從主成分分析導(dǎo)出的一種人臉識(shí)別和描述技術(shù)。主成分分析實(shí)質(zhì)上是K-L展開(kāi)的網(wǎng)絡(luò)遞推實(shí)現(xiàn),K-L變換是圖像壓縮中的一種最優(yōu)正交變換,其生成矩陣一般為訓(xùn)練樣本的總體散布矩陣。特征臉?lè)椒ň褪菍四樀膱D像區(qū)域看作是一種隨機(jī)向量,因此可以采用K-L變換獲得其正交K-L基底。對(duì)應(yīng)其中較大特征值的基底具有與人臉相似的形狀,因此又稱(chēng)之為特征臉。

隱馬爾可夫模型(HMM)是用于描述信號(hào)統(tǒng)計(jì)特性的一組統(tǒng)計(jì)模型?;谌四槒纳系较隆淖蟮接业慕Y(jié)構(gòu)特征,Samaria等人[14]首先將1-D HMM和2-D Pseudo HMM用于人臉識(shí)別。Kohir等[15]采用1-D HMM將低頻DCT系數(shù)作為觀察矢量獲得了好的識(shí)別效果。Eickeler等[16]采用2-DPseudo HMM識(shí)別DCT壓縮的JPEG圖像中的人臉圖像。Nefian等[17]采用嵌入式HMM識(shí)別人臉。

(4)基于連接機(jī)制的人臉識(shí)別方法(神經(jīng)網(wǎng)絡(luò)彈性圖匹配)

基于連接機(jī)制的識(shí)別方法,包括一般的神經(jīng)網(wǎng)絡(luò)方法和彈性圖匹配(Elastic Graph Matching)方法。神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別應(yīng)用中有很長(zhǎng)的歷史[18]。Demers 等[19]提出采用PCA方法提取人臉圖像特征,用自相關(guān)神經(jīng)網(wǎng)絡(luò)進(jìn)一步壓縮特征,最后采用一個(gè)多層處理器來(lái)實(shí)現(xiàn)人臉識(shí)別。Laurence等[20]通過(guò)一個(gè)多級(jí)的SOM實(shí)現(xiàn)樣本的聚類(lèi),將卷積神經(jīng)網(wǎng)絡(luò)(CNN)用于人臉識(shí)別。Lin等[21]采用基于概率決策的神經(jīng)網(wǎng)絡(luò)(PDBNN)方法。最近,徑向基函數(shù)RBF神經(jīng)網(wǎng)絡(luò)因具有逼近性好、空間描述緊湊和訓(xùn)練速度快等特點(diǎn)而被用于人臉識(shí)別。Gutta等[22]提出了將RBF與樹(shù)分類(lèi)器結(jié)合起來(lái)進(jìn)行人臉識(shí)別的混合分類(lèi)器結(jié)構(gòu),后來(lái)他們用RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行了針對(duì)部分人臉的識(shí)別研究[23],他們的研究表明利用部分人臉也可以有效地識(shí)別人臉。Er等[24]采用PCA進(jìn)行維數(shù)壓縮,再用LDA抽取特征,然后基于RBF進(jìn)行人臉識(shí)別。Haddadnia 等[25]基于PZMI(Pseudo Zernike Moment Invariant)特征,并采用混合學(xué)習(xí)算法的RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行人臉識(shí)別。此外,Lucas 等采用連續(xù)的n-tuple網(wǎng)絡(luò)識(shí)別人臉。

彈性圖匹配方法是一種基于動(dòng)態(tài)鏈接結(jié)構(gòu)的方法[26]。在人臉圖像上放置一組矩形網(wǎng)格節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)的特征用該節(jié)點(diǎn)處的多尺度Gabor幅度特征描述,各節(jié)點(diǎn)之間的連接關(guān)系用幾何距離表示,從而構(gòu)成基于二維拓?fù)鋱D的人臉描述。根據(jù)兩個(gè)圖像中各節(jié)點(diǎn)和連接之間的相似性可以進(jìn)行人臉識(shí)別。Wiskott等[27]將人臉特征上的一些點(diǎn)作為基準(zhǔn)點(diǎn),強(qiáng)調(diào)了人臉特征的重要性。他們采用每個(gè)基準(zhǔn)點(diǎn)存儲(chǔ)一串具有代表性的特征矢量,大大減少了系統(tǒng)的存儲(chǔ)量。Würtz 等[28]只使用人臉面部的特征,進(jìn)一步消除了結(jié)構(gòu)中的冗余信息和背景信息,并使用一個(gè)多層的分級(jí)結(jié)構(gòu)。Grudin等[29]也采用分級(jí)結(jié)構(gòu)的彈性圖,通過(guò)去除了一些冗余節(jié)點(diǎn),形成稀疏的人臉描述結(jié)構(gòu)。Nastar等[30]提出將人臉圖像I(x,y)表示為可變形的3D網(wǎng)格表面(x, y, I(x,y)),將人臉匹配問(wèn)題轉(zhuǎn)換為曲面匹配問(wèn)題,利用有限元分析的方法進(jìn)行曲面變形,根據(jù)兩幅圖像之間變形匹配的程度識(shí)別人臉。

(5)基于形變模型的方法

基于形變模型的方法是一個(gè)受到重視的方法。通過(guò)合成新的視覺(jué)圖像,可以處理姿態(tài)變化的問(wèn)題。Lanitis等[31]通過(guò)在人臉特征邊沿選擇一些稀疏的基準(zhǔn)點(diǎn)描述人臉的形狀特征,然后將形狀變形到所有人臉圖像的平均形狀,再根據(jù)變形后的形狀進(jìn)行紋理(灰度)變形,形成與形狀無(wú)關(guān)的人臉圖像。然后分別對(duì)形狀和灰度進(jìn)行PCA變換,根據(jù)形狀和紋理的相關(guān)性,用PCA對(duì)各自的結(jié)果進(jìn)一步分析,最終得到描述人臉的AAM(Active Appearance Model)模型。通過(guò)改變這些參數(shù)可得到不同變化的人臉圖像,模型參數(shù)能夠用于人臉識(shí)別。Romdhani 等[32]采用激光掃描儀獲得人臉的3D數(shù)據(jù),分別對(duì)一些基準(zhǔn)點(diǎn)構(gòu)成的形狀和基準(zhǔn)點(diǎn)的灰度(或彩色)完成PCA,得到3D人臉形狀和灰度(彩色)基圖像,通過(guò)變化參數(shù)就可獲得不同的3D人臉模型。通過(guò)施加一些先驗(yàn)約束可以避免合成不真實(shí)的人臉圖像。利用線性形狀和紋理誤差,通過(guò)3D模型向2D輸入圖像的自動(dòng)匹配實(shí)現(xiàn)人臉識(shí)別。

項(xiàng)目采用的識(shí)別算法

人臉自動(dòng)識(shí)別技術(shù)經(jīng)過(guò)多年來(lái)的研究已經(jīng)積累了大量研究成果。但是仍然面臨很多問(wèn)題,尤其是在非約束環(huán)境下的人臉識(shí)別。結(jié)合本研究項(xiàng)目及應(yīng)用環(huán)境綜合考慮,采用特征臉?lè)椒▽?duì)視屏資料中的司機(jī)臉部進(jìn)行提取識(shí)別。

特征臉?lè)椒ㄊ?0年代初期由Turk和Pentland提出算法,具有簡(jiǎn)單有效的特點(diǎn), 也稱(chēng)為基于主成分分析(principal component analysis,簡(jiǎn)稱(chēng)PCA)的人臉識(shí)別方法。把人臉圖像空間線性投影到一個(gè)低維的特征空間。PCA實(shí)質(zhì)上是K-L展開(kāi)的網(wǎng)絡(luò)遞推實(shí)現(xiàn)。K-L變換是圖像壓縮技術(shù)中的一種最優(yōu)正交變換。人們將它用于統(tǒng)計(jì)特征提取。從而形成子空間法模式識(shí)別的基礎(chǔ)。若將K-L變換用于人臉識(shí)別,則需假設(shè)人臉處于低維線性空間。由高維圖像空間K-L變換后,可得到一組新的正交基,由此可以通過(guò)保留部分正交基獲得正交K-L基底。如將子空間對(duì)應(yīng)特征值較大的基底按照?qǐng)D像陣列排列,則可以看出這些正交基呈現(xiàn)出人臉的形狀。因此這些正交基也稱(chēng)為特征臉,這種人臉的識(shí)別方法也叫特征臉?lè)ā?/p>

特征子臉技術(shù)的基本思想是:從統(tǒng)計(jì)的觀點(diǎn),尋找人臉圖像分布的基本元素,即人臉圖像樣本集協(xié)方差矩陣的特征向量,以此近似地表征人臉圖像。這些特征向量稱(chēng)為特征臉(Eigenface)。

利用這些基底的線性組合可以描述、表達(dá)和逼近人臉圖像,因此可以進(jìn)行人臉識(shí)別與合成。識(shí)別過(guò)程就是將人臉圖像映射到由特征臉張成的子空間上,比較其與已知人臉在特征臉空間中的位置,具體步驟如下:[33]

(1)初始化,獲得人臉圖像的訓(xùn)練集并計(jì)算特征臉,定義為人臉空間;

(2)輸入待識(shí)別人臉圖像,將其映射到特征臉空間,得到一組權(quán)值;

(3)通過(guò)檢查圖像與人臉空間的距離判斷它是否為人臉;

(4)若為人臉,根據(jù)權(quán)值模式判斷它是否為數(shù)據(jù)庫(kù)中的某個(gè)人。

1. 計(jì)算特征臉

假設(shè)人臉圖像包含個(gè)像素,因此可以用維向量Γ表示。如人臉訓(xùn)練集由幅人臉圖像構(gòu)成,則可以用表示人臉訓(xùn)練集。

其均值為:

(2-1)

每幅圖像與均值的差為:

(2-2)

構(gòu)造人臉訓(xùn)練集的協(xié)方差矩陣:

(2-3)

其中 。

協(xié)方差矩陣的正交分解向量即為人臉空間的基向量,也即特征臉。

一般比較大(通常大于1000),所以對(duì)矩陣直接求解特征向量是不可能的,為此引出下列定理:

SVD定理:設(shè)是一秩為的維矩陣,則存在兩個(gè)正交矩陣:

(2-4)

(2-5)

以及對(duì)角陣:

(2-6)

滿足

其中:為矩陣和的非零特征值,和分別為和對(duì)應(yīng)于的特征矢量。上述分解成為矩陣的奇異值分解(SVD),為的奇異值。

推論:

(2-7)

由上述定理可知:

人臉訓(xùn)練集所包含的圖像一般要比圖像的像素?cái)?shù)小的多,因此可以轉(zhuǎn)求矩陣

(2-8)

的特征向量,M為人臉訓(xùn)練集圖像總數(shù)。

矩陣的特征向量由差值圖像與線性組合得到:

=(2-9)

實(shí)際上,m(m

(2-10)

識(shí)別

基于特征臉的人臉識(shí)別過(guò)程由訓(xùn)練階段和識(shí)別階段兩個(gè)階段組成。在訓(xùn)練階段,每個(gè)己知人臉映射由特征臉張成的子空間上,得到m維向量:

(2-11)

距離閾值定義如下:

(2-12)

在識(shí)別階段,首先把待識(shí)別的圖像映射到特征臉空間,得到向量

(2-13)

與每個(gè)人臉集的距離定義為

(2-14)

為了區(qū)分人臉和非人臉,還需計(jì)算原始圖像與其由特征臉空間重建的圖像之間的距離:

(2-15)

其中:

(2-16)

采用最小距離法對(duì)人臉進(jìn)行分類(lèi),分類(lèi)規(guī)則如下:

(1)若,則輸入圖像不是人臉圖像;

(2)若,則輸入圖像包含未知人臉;

(3)若,則輸入圖像為庫(kù)中的某個(gè)人臉。

實(shí)際上,特征臉?lè)从沉穗[含在人臉樣本集合內(nèi)部的信息和人臉的結(jié)構(gòu)關(guān)系。將眼睛、面頰、下頜的樣本集協(xié)方差矩陣的特征向量稱(chēng)為特征眼、特征頜和特征唇,統(tǒng)稱(chēng)特征子臉。特征子臉在相應(yīng)的圖像空間中生成子空間,稱(chēng)為子臉空間。計(jì)算出測(cè)試圖像窗口在子臉空間的投影距離,若窗口圖像滿足閾值比較條件,則判斷其為人臉。

基于特征分析的方法,也就是將人臉基準(zhǔn)點(diǎn)的相對(duì)比率和其它描述人臉臉部特征的形狀參數(shù)或類(lèi)別參數(shù)等一起構(gòu)成識(shí)別特征向量,這種基于整體臉的識(shí)別不僅保留了人臉部件之間的拓?fù)潢P(guān)系,而且也保留了各部件本身的信息,而基于部件的識(shí)別則是通過(guò)提取出局部輪廓信息及灰度信息來(lái)設(shè)計(jì)具體識(shí)別算法。現(xiàn)在Eigenface(PCA)算法已經(jīng)與經(jīng)典的模板匹配算法一起成為測(cè)試人臉識(shí)別系統(tǒng)性能的基準(zhǔn)算法;而自1991年特征臉技術(shù)誕生以來(lái),研究者對(duì)其進(jìn)行了各種各樣的實(shí)驗(yàn)和理論分析,F(xiàn)ERET測(cè)試結(jié)果也表明,改進(jìn)的特征臉?biāo)惴ㄊ侵髁鞯娜四樧R(shí)別技術(shù),也是具有最好性能的識(shí)別方法之一。

該方法是先確定眼虹膜、鼻翼、嘴角等面像五官輪廓的大小、位置、距離等屬性,然后再計(jì)算出它們的幾何特征量,而這些特征量形成一描述該面像的特征向量。其技術(shù)的核心實(shí)際為"局部人體特征分析"和"圖形/神經(jīng)識(shí)別算法。"這種算法是利用人體面部各器官及特征部位的方法。如對(duì)應(yīng)幾何關(guān)系多數(shù)據(jù)形成識(shí)別參數(shù)與數(shù)據(jù)庫(kù)中所有的原始參數(shù)進(jìn)行比較、判斷與確認(rèn)。Turk和Pentland提出特征臉的方法,它根據(jù)一組人臉訓(xùn)練圖像構(gòu)造主元子空間,由于主元具有臉的形狀,也稱(chēng)為特征臉,識(shí)別時(shí)將測(cè)試圖像投影到主元子空間上,得到一組投影系數(shù),和各個(gè)已知人的人臉圖像比較進(jìn)行識(shí)別。

結(jié)束語(yǔ)

從目前國(guó)情來(lái)講,在一段時(shí)間內(nèi)高速公路收費(fèi)還會(huì)繼續(xù)存在,某些司機(jī)逃費(fèi)的僥幸心也同樣會(huì)有。通過(guò)帶路徑識(shí)別功能的 RFID 復(fù)合卡作為通行卡,利用 RFID 卡的信息對(duì)車(chē)輛進(jìn)行跟蹤,在不增加硬件投入的情況下,直接可以給車(chē)道收費(fèi)系統(tǒng)提供抓拍高清圖像,以及其它報(bào)警聯(lián)動(dòng)系統(tǒng)提供圖像等,可有效解決高速公路沖卡逃費(fèi)問(wèn)題,可廣泛應(yīng)用于封閉式管理的公路收費(fèi)系統(tǒng)。

參考文獻(xiàn):

[1]江艷霞. 視頻人臉跟蹤識(shí)別算法研究. 上海交通大學(xué)博士學(xué)位論文,2007.

[2]Brunelli R and Poggio T., Feature Recognition: Features Versus Templates. IEEE Transactions on

PAMI, 1993, 15(10):1042 -1052.

[3]李剛. 基于特征臉?lè)ǖ恼嫒四樧R(shí)別研究. 國(guó)防科學(xué)技術(shù)大學(xué)碩士學(xué)位論文,2002.11

[4]JOHN CANNY. A Computational Approach to Edge Detection. IEEE TRANSACTIONS ON PATTERN

ANALYSIS AND MACHINE INTELLIGENCE, VOL.PAMI-8, NO.6, NOVEMBER 1986.

[5]張建飛、陳樹(shù)越等. 基于支持向量基的交通視頻人車(chē)識(shí)別研究[J]. 電視技術(shù),2011

[6]肖波、樊友平等. 復(fù)雜背景下基于運(yùn)動(dòng)特征的人面定位[J]. 重慶大學(xué)學(xué)報(bào),2002

[7] 《中華人民共和國(guó)交通部公路聯(lián)網(wǎng)收費(fèi)技術(shù)要求》,交通部

[8] 《廣東省高速公路聯(lián)網(wǎng)收費(fèi)系統(tǒng)》,DB44 127-2003,廣東省質(zhì)量技術(shù)監(jiān)督局

[9] 《視頻安防監(jiān)控?cái)?shù)字錄像設(shè)備》,GB 20815-2006

[10]《安全防范工程技術(shù)規(guī)范》,GB 50348-2004

第4篇:卷積神經(jīng)網(wǎng)絡(luò)的定義范文

關(guān)鍵詞:圖像分割 閾值分割 遺傳算法 小波變換

中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1002-2422(2010)02-0001-03

圖像分割是按照一定的規(guī)則把圖像劃分成若干個(gè)互不相交、具有一定性質(zhì)的區(qū)域,把人們關(guān)注的部分從圖像中提取出來(lái),進(jìn)一步加以研究分析和處理。圖像分割的結(jié)果是圖像特征提取和識(shí)別等圖像理解的基礎(chǔ),對(duì)圖像分割的研究一直是數(shù)字圖像處理技術(shù)研究中的熱點(diǎn)和焦點(diǎn)。圖像分割使得其后的圖像分析,識(shí)別等高級(jí)處理階段所要處理的數(shù)據(jù)量大大減少,同時(shí)又保留有關(guān)圖像結(jié)構(gòu)特征的信息。圖像分割在不同的領(lǐng)域也有其它名稱(chēng),如目標(biāo)輪廓技術(shù)、目標(biāo)檢測(cè)技術(shù)、閾值化技術(shù)、目標(biāo)跟蹤技術(shù)等,這些技術(shù)本身或其核心實(shí)際上也就是圖像分割技術(shù)。

1 經(jīng)典圖像分割方法

1,1閾值分割方法

閾值分割是常見(jiàn)的直接對(duì)圖像進(jìn)行分割的算法,根據(jù)圖像像素的灰度值的不同而定。對(duì)應(yīng)單一目標(biāo)圖像,只需選取一個(gè)閾值,即可將圖像分為目標(biāo)和背景兩大類(lèi),這個(gè)稱(chēng)為單閾值分割:如果目標(biāo)圖像復(fù)雜,選取多個(gè)閾值,才能將圖像中的目標(biāo)區(qū)域和背景被分割成多個(gè),這個(gè)稱(chēng)為多閾值分割,此時(shí)還需要區(qū)分檢測(cè)結(jié)果中的圖像目標(biāo),對(duì)各個(gè)圖像目標(biāo)區(qū)域進(jìn)行唯一的標(biāo)識(shí)進(jìn)行區(qū)分。閾值分割的顯著優(yōu)點(diǎn),成本低廉,實(shí)現(xiàn)簡(jiǎn)單。當(dāng)目標(biāo)和背景區(qū)域的像素灰度值或其它特征存在明顯差異的情況下,該算法能非常有效地實(shí)現(xiàn)對(duì)圖像的分割。閩值分割方法的關(guān)鍵是如何取得一個(gè)合適的閾值,近年來(lái)的方法有:用最大相關(guān)性原則選擇閾值的方法、基于圖像拓?fù)浞€(wěn)定狀態(tài)的方法、灰度共生矩陣方法、最大熵法和谷值分析法等,更多的情況下,閾值的選擇會(huì)綜合運(yùn)用兩種或兩種以上的方法,這也是圖像分割發(fā)展的一個(gè)趨勢(shì)。

1,2基于邊緣的圖像分割方法

邊緣總是以強(qiáng)度突變的形式出現(xiàn),可以定義為圖像局部特性的不連續(xù)性,如灰度的突變、紋理結(jié)構(gòu)的突變等。邊緣常常意味著一個(gè)區(qū)域的終結(jié)和另一個(gè)區(qū)域的開(kāi)始。對(duì)于邊緣的檢測(cè)常常借助空間微分算子進(jìn)行,通過(guò)將其模板與圖像卷積完成。兩個(gè)具有不同灰度值的相鄰區(qū)域之間總存在灰度邊緣,而這正是灰度值不連續(xù)的結(jié)果,這種不連續(xù)可以利用求一階和二階導(dǎo)數(shù)檢測(cè)到。當(dāng)今的邊緣檢測(cè)方法中,主要有一次微分、二次微分和模板操作等。這些邊緣檢測(cè)器對(duì)邊緣灰度值過(guò)渡比較尖銳且噪聲較小等不太復(fù)雜的圖像可以取得較好的效果。但對(duì)于邊緣復(fù)雜的圖像效果不太理想,如邊緣模糊、邊緣丟失、邊緣不連續(xù)等。噪聲的存在使基于導(dǎo)數(shù)的邊緣檢測(cè)方法效果明顯降低,在噪聲較大的情況下所用的邊緣檢測(cè)算子通常都是先對(duì)圖像進(jìn)行適當(dāng)?shù)钠交种圃肼?,然后求?dǎo)數(shù),或者對(duì)圖像進(jìn)行局部擬合,再用擬合光滑函數(shù)的導(dǎo)數(shù)來(lái)代替直接的數(shù)值導(dǎo)數(shù),如Mart算子、canny算子等。在未來(lái)的研究中,用于提取初始邊緣點(diǎn)的自適應(yīng)閾值選取、用于圖像層次分割的更大區(qū)域的選取以及如何確認(rèn)重要邊緣以去除假邊緣將變的非常重要。

1,3基于函數(shù)優(yōu)化的分割方法

此方法是圖像分割中另一大類(lèi)常用的方法。其基本思路是給出一個(gè)目標(biāo)函數(shù),通過(guò)該目標(biāo)函數(shù)的極大化或極小化來(lái)分割圖像。GA.Hewer等人提出了一個(gè)具有廣泛意義的目標(biāo)函數(shù)。統(tǒng)計(jì)學(xué)分割方法、結(jié)合區(qū)域與邊緣信息的方法、基于貝葉斯公式的分割方法等是目前幾種活躍的函數(shù)優(yōu)化方法。

統(tǒng)計(jì)學(xué)分割方法是把圖像中各個(gè)像素點(diǎn)的灰度值看作是具有一定概率分布的隨機(jī)變量,且觀察到的實(shí)際物體是作了某種變換并加入噪聲的結(jié)果。統(tǒng)計(jì)學(xué)分割方法包括基于馬爾科夫隨機(jī)場(chǎng)方法、標(biāo)號(hào)法、混合分布法等。

區(qū)域增長(zhǎng)法和分裂合并法是基于區(qū)域信息的圖像分割的主要方法。區(qū)域增長(zhǎng)有兩種方式,一種是先將圖像分割成很多的一致性較強(qiáng)的小區(qū)域,再按一定的規(guī)則將小區(qū)域融合成大區(qū)域,達(dá)到分割圖像的目的。另一種實(shí)現(xiàn)是給定圖像中要分割目標(biāo)的一個(gè)種子區(qū)域,再在種子區(qū)域基礎(chǔ)上將周?chē)南袼攸c(diǎn)以一定的規(guī)則加入其中,最終達(dá)到目標(biāo)與背景分離的目的;分裂合并法對(duì)圖像的分割是按區(qū)域生長(zhǎng)法沿相反方向進(jìn)行的,無(wú)需設(shè)置種子點(diǎn)。其基本思想是給定相似測(cè)度和同質(zhì)測(cè)度。從整幅圖像開(kāi)始,如果區(qū)域不滿足同質(zhì)測(cè)度,則分裂成任意大小的不重疊子區(qū)域,如果兩個(gè)鄰域的子區(qū)域滿足相似測(cè)度則合并。

2 結(jié)合特定工具的圖像分割算法

雖然圖像分割目前尚無(wú)通用的理論,但是近年來(lái)大量學(xué)者致力于將新概念、新方法應(yīng)用于圖像分割,結(jié)合特定理論的圖像分割方法在圖像分割方面取得了較好的應(yīng)用效果。如小波分析和小波變換、神經(jīng)網(wǎng)絡(luò)、遺傳算法等數(shù)學(xué)工具的利用,有效地改善了分割效果。

2,1基于遺傳算法的圖像分割

遺傳算法是模擬自然界生物進(jìn)化過(guò)程與機(jī)制求解問(wèn)題的一類(lèi)自組織與自適應(yīng)的人工智能技術(shù)。對(duì)此,科學(xué)家們進(jìn)行了大量的研究工作,并成功地運(yùn)用于各種類(lèi)型的優(yōu)化問(wèn)題,在分割復(fù)雜的圖像時(shí),人們往往采用多參量進(jìn)行信息融合,在多參量參與的最優(yōu)值求取過(guò)程中,優(yōu)化計(jì)算是最重要的,把自然進(jìn)化的特征應(yīng)用到計(jì)算機(jī)算法中,將能解決很多問(wèn)題。遺傳算法的出現(xiàn)為解決這類(lèi)問(wèn)題提供了新而有效的方法,不僅可以得到全局最優(yōu)解,而且大量縮短了計(jì)算時(shí)間。王月蘭等人提出的基于信息融合技術(shù)的彩色圖像分割方法,該方法應(yīng)用剝殼技術(shù)將問(wèn)題的復(fù)雜度降低,然后將信息融合技術(shù)應(yīng)用到彩色圖像分割中,為彩色分割在不同領(lǐng)域中的應(yīng)用提供了一種新的思路與解決辦法。

2,2基于人工神經(jīng)網(wǎng)絡(luò)技術(shù)的圖像分割

基于神經(jīng)網(wǎng)絡(luò)的分割方法的基本思想是先通過(guò)訓(xùn)練多層感知器來(lái)得到線性決策函數(shù),然后用決策函數(shù)對(duì)像素進(jìn)行分類(lèi)來(lái)達(dá)到分割的目的。近年來(lái),隨著神經(jīng)學(xué)的研究和進(jìn)展,第三代脈沖耦合神經(jīng)網(wǎng)絡(luò)(PCNN)作為一種新型人工神經(jīng)網(wǎng)絡(luò)模型,其獨(dú)特處理方式為圖像分割提供了新的思路。脈沖耦合神經(jīng)網(wǎng)絡(luò)具有捕獲特性,會(huì)產(chǎn)生點(diǎn)火脈沖傳播,對(duì)輸入圖像具有時(shí)空整合作用,相鄰的具有相似輸入的神經(jīng)元傾向于同時(shí)點(diǎn)火。因此對(duì)于灰度圖象,PCNN具有天然的分割能力,與輸入圖像中不同目標(biāo)區(qū)域?qū)?yīng)的神經(jīng)元在不同的時(shí)刻點(diǎn)火,從而將不同區(qū)域分割開(kāi)來(lái)。如果目標(biāo)區(qū)域灰度分布有重疊,由于PCNN的時(shí)空整合作用,如果灰度分布符合某種規(guī)律,PCNN也能克服灰度分布重疊所帶來(lái)的不利影響,從而實(shí)現(xiàn)較完美的分割。這是其一個(gè)突出的優(yōu)點(diǎn),而這恰恰是其他的分割方法所欠缺的,其在未來(lái)的圖像分割中將起主導(dǎo)作用。

2,3基于小波分析和變換的圖像分割

近年來(lái),小波理論得到了迅速的發(fā)展,而且由于其具有良好的時(shí)頻局部化特性和多分辨率分析能力,在圖像處理等領(lǐng)域得到了廣泛的應(yīng)用。小波變換是一種多尺度多通道分析工具,比較適合對(duì)圖像進(jìn)行多尺度的邊緣檢測(cè)。從圖像處理角度看,小波變換具有“變焦”特性,在低頻段可用高頻率分辨率和低時(shí)間分辨率,在高頻段可用低頻率分辨率和高時(shí)間分辨率,小波變換在實(shí)現(xiàn)上有快速算法具有多分辨率,也叫多尺度的特點(diǎn),可以由粗及精地逐步觀察信號(hào)等優(yōu)點(diǎn)。近年來(lái)多進(jìn)制小波也開(kāi)始用于邊緣檢測(cè)。另外,把小波變換和其它方法結(jié)合起來(lái)的圖像分割技術(shù)也是現(xiàn)在研究的熱點(diǎn)。

3 圖像分割的應(yīng)用現(xiàn)狀

在圖像處理中,圖像分割是一種重要的技術(shù),是圖像分析的基礎(chǔ)。隨著圖像分割技術(shù)研究的深入,其應(yīng)用日趨廣泛,幾乎出現(xiàn)在有關(guān)圖像處理的所有領(lǐng)域,并涉及各種類(lèi)型的圖像。凡屬需要對(duì)圖像目標(biāo)進(jìn)行提取、測(cè)量的工作都離不開(kāi)圖像分割。通常,圖像分割是為了進(jìn)一步對(duì)圖像進(jìn)行分析、識(shí)別、壓縮、編碼等,圖像分割的準(zhǔn)確性將直接影響后繼的工作,因此,分割的方法和精確程度是至關(guān)重要的。目前,圖像分割在圖像工程中占據(jù)非常重要的位置,圖像分割已在交通、醫(yī)學(xué)、遙感、通信、軍事和工業(yè)自動(dòng)化等諸多領(lǐng)域得到廣泛應(yīng)用。表1是應(yīng)用領(lǐng)域表。

第5篇:卷積神經(jīng)網(wǎng)絡(luò)的定義范文

關(guān)鍵詞:小波變換,非整數(shù)次諧波,諧波檢測(cè)

 

1 引言

近年來(lái),隨著電力電子技術(shù)的迅速發(fā)展,各種變頻器、變流器、開(kāi)關(guān)電源和電抗器等非線性設(shè)備的應(yīng)用日益增多,產(chǎn)生了大量的高次諧波,造成電力系統(tǒng)電壓、電流嚴(yán)重畸變,引發(fā)了一系列問(wèn)題。

傳統(tǒng)的快速傅氏變換以求和替代積分,以降低精度為代價(jià)來(lái)提取實(shí)時(shí)性,可以得出各次諧波的幅值相位。

瞬時(shí)無(wú)功功率理論自20世紀(jì)80年代提出后,突破了傳統(tǒng)的平均值為基礎(chǔ)的功率定義,具有較好的實(shí)時(shí)性,抗干擾能力強(qiáng)。

神經(jīng)網(wǎng)絡(luò)方法其特點(diǎn)是算法基于誤差曲面上的梯度下降,權(quán)調(diào)數(shù)量與輸入量一致,并保持與誤差的負(fù)梯度方向一致,因此能保證網(wǎng)絡(luò)的收斂性。

小波變換理論適合于對(duì)局部頻域進(jìn)行精確分析,它提供了一個(gè)自適應(yīng)的可調(diào)采樣窗口,具有更強(qiáng)的實(shí)時(shí)性。而且小波變換理論分析時(shí)頻問(wèn)題的良好特性使得它在檢測(cè)非整數(shù)次諧波方面優(yōu)于其他理論。本文采用連續(xù)小波變換分析系統(tǒng)中的整數(shù)次與非整數(shù)次諧波,并通過(guò)Matlab仿真得到了較好的分析結(jié)果,表明了小波變換具有檢測(cè)電力系統(tǒng)中各種諧波的良好功能。

2 諧波檢測(cè)原理

小波變換公式:。論文格式。

其中,為小波基函數(shù),a為伸縮因子,為平移因子,x(t)為待分析信號(hào)。

由上式可知,小波變換實(shí)質(zhì)上是信號(hào)x(t)與小波母函數(shù)的卷積,是對(duì)信號(hào)滿足一定附加條件的濾波。而濾波的范圍則是由參數(shù)α, 來(lái)決定,反映在小波母函數(shù)和小波因子的選擇上??梢?jiàn),小波變換是按頻帶而不是按頻點(diǎn)的方式處理頻域,因此信號(hào)頻率的微小波動(dòng)不會(huì)對(duì)處理產(chǎn)生很大影響,且不要求對(duì)信號(hào)進(jìn)行整周期采樣;其次,由小波變換的時(shí)間局部性可知,在信號(hào)局部發(fā)生波動(dòng)時(shí),它不會(huì)像傅立葉變換那樣把影響擴(kuò)散到整個(gè)頻譜,而只改變當(dāng)時(shí)一小段時(shí)間的頻譜分布,這使其可以跟蹤時(shí)變信號(hào)和暫態(tài)信號(hào)。

由于小波變換具有良好的時(shí)頻局部化特征,使得小波變換應(yīng)用于電力系統(tǒng)的諧波檢測(cè)有著很好的理論基礎(chǔ),可以根據(jù)不同尺度的小波變換系數(shù)的幅值來(lái)測(cè)量諧波的頻率。由連續(xù)小波變換公式可見(jiàn),信號(hào)的連續(xù)小波變換相當(dāng)于信號(hào)通過(guò)有限長(zhǎng)的帶通濾波器不同的尺度因子α決定帶通濾波器的帶通特性。如果能夠使不同頻率的諧波位于不同的頻帶中,就能夠把包括整數(shù)次非整數(shù)次的不同頻率的諧波分離出來(lái)。因此,利用小波變換可以實(shí)現(xiàn)整數(shù)次和非整數(shù)次的諧波含量的測(cè)量。

本文中采用Daubechies小波對(duì)函數(shù)進(jìn)行小波變換。論文格式。一般將其簡(jiǎn)寫(xiě)為dbN,N是小波的階數(shù)。dbN沒(méi)有明確的表達(dá)式(除了N=1外),但轉(zhuǎn)換函數(shù)h的平方模是很明確的。

令,其中為二項(xiàng)式的系數(shù),則有:

式中,。

3 仿真結(jié)果分析

對(duì)本文提出的檢測(cè)方法進(jìn)行數(shù)字仿真,其中3.1是對(duì)于含有基波、2、3.4次諧波檢測(cè)信號(hào)的仿真,3.2是對(duì)含噪的的諧波信號(hào)檢測(cè)的仿真。論文格式。

3.1 含有基波、2、3.4次諧波檢測(cè)信號(hào)的仿真

由于非線性元件和電力電子器件的廣泛應(yīng)用,使電力系統(tǒng)中存在著大量的整數(shù)次與非整數(shù)次諧波。采樣一個(gè)周期,而系統(tǒng)中分別有基波、2、3.4次諧波時(shí),采用db3小波對(duì)信號(hào)進(jìn)行5層分解。

圖1 線形組合后的信號(hào)

圖2 小波分解后各層的逼近信號(hào)

圖3 小波分解后各層的細(xì)節(jié)信號(hào)

當(dāng)信號(hào)中含有基波、2次、3.4次諧波時(shí),其線形組合后的信號(hào)如圖1所示,對(duì)組合信號(hào)進(jìn)行5層db3分解后的逼近信號(hào)如圖2所示,細(xì)節(jié)信號(hào)如圖3所示。從圖2可以看出,逼近信號(hào)a1顯示了3.4次諧波,逼近信號(hào)a2顯示了基波,二次諧波則出現(xiàn)在細(xì)節(jié)信號(hào)d2中。由此可知,對(duì)于常規(guī)傅立葉變換不能檢測(cè)非整數(shù)次諧波的問(wèn)題,可以利用小波變換分析系統(tǒng)中存在的非整次諧波。通過(guò)分析小波變換對(duì)諧波檢測(cè)的特點(diǎn),選用了db3小波變換并分析了含有非整次諧波的系統(tǒng),證明了小波變換對(duì)于解決含有非整次諧波的檢測(cè)和分析具有良好的特性。

3.2對(duì)含噪的諧波信號(hào)的仿真

在電網(wǎng)電壓中,由于各種現(xiàn)代電力電子設(shè)備的干擾,不但存在諧波信號(hào),而且有著廣泛的噪聲信號(hào)。采樣一個(gè)周期,而系統(tǒng)中分別含有3.7次諧波和噪聲信號(hào)時(shí),采用db3小波對(duì)信號(hào)進(jìn)行5層分解。

圖4 含噪聲信號(hào)線形組合后的信號(hào)

圖5 含噪聲信號(hào)小波分解后各層的逼近信號(hào)

圖6 含噪聲信號(hào)小波分解后各層的細(xì)節(jié)信號(hào)

當(dāng)信號(hào)中含有3.7次諧波和噪聲信號(hào)時(shí),其線形組合后的信號(hào)如圖4所示,對(duì)組合信號(hào)進(jìn)行5層db3分解后的逼近信號(hào)如圖5所示,細(xì)節(jié)信號(hào)如圖6所示。從圖6可以看出,3.7次諧波體現(xiàn)在逼近信號(hào)部分,而白噪聲體現(xiàn)在細(xì)節(jié)信號(hào)部分。由此可知,小波變換不但具有良好的非整次諧波的檢測(cè)能力還具有良好的噪聲分辨能力。

4 結(jié)論

小波變換是針對(duì)快速傅立葉變換在分析非穩(wěn)態(tài)信號(hào)方面的局限性形成和發(fā)展起來(lái)的一種十分有效的時(shí)頻分析工具,它克服了快速傅立葉變換的缺點(diǎn),采用不同尺度的分析方法,能在信號(hào)的不同部位得到最佳的時(shí)域分辨率和頻域分辨率,為非穩(wěn)態(tài)信號(hào)的分析提供了一條新的途徑,通過(guò)本文的仿真可知,它對(duì)于含有整數(shù)次、非整數(shù)次諧波和含噪諧波的檢測(cè)有著很大的優(yōu)越性。

參考文獻(xiàn)

1 石國(guó)萍、田立軍. 基于小波變換的統(tǒng)一電能質(zhì)量控制器檢測(cè)方法研究. 2004,16(1):34-37

2 林易群等. 基于小波多孔算法的暫態(tài)電能質(zhì)量檢測(cè)方法. 中國(guó)電力,2002,35(10):54-57

3 張慶超. 基于小波神經(jīng)網(wǎng)絡(luò)的輸電線路故障檢測(cè). 天津大學(xué)學(xué)報(bào),2003,36(6):710-713

4 薛蕙、楊仁剛. 利用Morlet連續(xù)小波實(shí)現(xiàn)非整次諧波檢測(cè). 電網(wǎng)技術(shù),2002,26(12):41-44

5 歐陽(yáng)森. 基于小波原理的電能質(zhì)量檢測(cè)數(shù)據(jù)實(shí)時(shí)壓縮方法. 電網(wǎng)技術(shù),2003,27(2):37-39

第6篇:卷積神經(jīng)網(wǎng)絡(luò)的定義范文

關(guān)鍵詞 Sobel算法;算子;邊緣檢測(cè);多方向模板;邊緣細(xì)化

中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)27-0159-03

Abstract: Edge extraction is an essential part of image research. In this paper, a variety of edge extraction methods were compared. The traditional Sobel algorithm is described. In view of the traditional Sobel algorithm, the existence of the detection direction is not strong and edge extraction of the characteristics of the rough, an improved 5*5 template extraction method for multi direction algorithm is proposed.. After getting the picture again using the algorithm to deal with edge thinning. According to the experimental results, it can be concluded that compared with the traditional Sobel, the improved algorithm is more fine and the direction is stronger than the traditional one.

Key words:sobel arithmetic; operator; edge detection; multi direction template; edge thinning

1 引言

唐卡在藏族文化、歷史、政治等各個(gè)領(lǐng)域都有涉及,凝聚著藏族人民的智慧,記載了藏族歷史發(fā)展,具有很高的研究?jī)r(jià)值。 在日常生活中,人們主要采用語(yǔ)音和圖像這兩種方式來(lái)進(jìn)行信息的傳遞[1],隨著科學(xué)技術(shù)和數(shù)字媒體的不斷發(fā)展,圖像所包含的信息越來(lái)越豐富。在醫(yī)學(xué)、氣象監(jiān)控、藝術(shù)創(chuàng)作、傳真、微生物工程等都有很大應(yīng)用,因而圖像處理的技術(shù)變得越來(lái)越重要。而圖像邊緣是整個(gè)圖像的整體概貌,圖像的邊緣提取也就成了圖像處理技術(shù)過(guò)程中最基礎(chǔ)也最重要的一步,人們也希望找到一種方法可以抗噪強(qiáng)、定位準(zhǔn)、不漏檢、不誤檢[2]。目前,邊緣提取算法主要可以分為三大類(lèi):

第一是基于導(dǎo)數(shù)的方法,比如[3]:1)Sobel算法:一階微分算法,在圖像空間利用兩個(gè)方向模板與圖像進(jìn)行卷積;2)Roberts算法:一階微分的邊緣檢測(cè)算子,利用相鄰對(duì)角方向的兩個(gè)像素之差檢測(cè)邊緣;3)Prewitt算法:一階微分算法,利用水平和垂直兩個(gè)方向的卷與圖像的每個(gè)像素進(jìn)行卷積,兩者得出的最大值即為結(jié)果;4)Kirsch算法:利用8個(gè)方向算子與圖像的像素進(jìn)行卷積檢測(cè)邊緣;5)Canny算法:一種多級(jí)算法;

第二是基于能量準(zhǔn)則的算法,比如:1)松弛算法: 指對(duì)于每個(gè)頂點(diǎn)v∈V,都設(shè)置一個(gè)屬性d[v],用來(lái)描述從源點(diǎn)s到v的最短路徑上權(quán)值的上界,稱(chēng)為最短路徑估計(jì);2)神經(jīng)網(wǎng)絡(luò)分析: 從神經(jīng)心理學(xué)和認(rèn)知科學(xué)研究成果出發(fā),應(yīng)用數(shù)學(xué)方法發(fā)展起來(lái)的一種具有高度并行計(jì)算能力、自學(xué)能力和容錯(cuò)能力的處理方法;3)Snake算法: 給出初始的輪廓,然后進(jìn)行迭代,使輪廓沿能量降低的方向靠近,最后得到一個(gè)優(yōu)化的邊界;

第三種是剛發(fā)展的一些新技術(shù),比如:小波變換: 一種新的變換分析方法,它繼承和發(fā)展了短時(shí)傅立葉變換局部化的思想,同時(shí)又克服了窗口大小不隨頻率變化等缺點(diǎn),能夠提供一個(gè)隨頻率改變的“時(shí)間-頻率”窗口,是進(jìn)行信號(hào)時(shí)頻分析和處理的理想工具。

2 常用邊緣提取算法的比較

傳統(tǒng)的邊緣算法主要有Sobel算法、Prewitt算法、Roberts算法、Kirsch算法、Canny算法。這些邊緣檢測(cè)算法操作簡(jiǎn)單,速度快,但是檢測(cè)的邊緣容易受到噪聲的干擾,所以都存在檢測(cè)出的邊緣不準(zhǔn)確,造成誤差的原因主要有:1)圖像本身所具有的真實(shí)灰度與我們想檢測(cè)的灰度值之間不完全吻合;2)算子模板方向固定,忽略了其他方向的邊緣;3)都比較容易受噪聲影響。[4]

表1對(duì)傳統(tǒng)邊緣提取的算法在邊緣輸出、漏檢、假檢、邊緣檢測(cè)精度、耗時(shí)、抗噪能力等方面進(jìn)行了比較。從表中可以看出,Sobel算法除了耗時(shí)比較長(zhǎng)以外,是幾種傳統(tǒng)算法中最實(shí)用的一種算法,本文通過(guò)比較,以傳統(tǒng)Sobel算法為基礎(chǔ),在此分析基礎(chǔ)上提出了一種改進(jìn)后的Sobel算法。

3 傳統(tǒng)的sobel算法

3.1 傳統(tǒng)Sobel算法基本理論

Sobel算法是基于梯度的一階導(dǎo)數(shù)的邊緣檢測(cè)方法,由于圖像的灰度邊緣處會(huì)有跳變的現(xiàn)象[6],從而根據(jù)此現(xiàn)象來(lái)進(jìn)行邊緣的檢測(cè)。傳統(tǒng)Sobel算子在圖像空間利用兩個(gè)方向模板與圖像進(jìn)行卷積,一個(gè)是水平梯度方向,來(lái)檢測(cè)垂直邊緣;一個(gè)是垂直梯度方向,來(lái)檢測(cè)水平邊緣。模板中的數(shù)字為模板系數(shù),中間的點(diǎn)表示中心元素,梯度方向與邊緣方向總是正交垂直。兩個(gè)方向的算子如圖1所示:

3.2 算法實(shí)現(xiàn)

首先分別將水平和垂直方向上的兩個(gè)模板的中心點(diǎn)與圖像中的每個(gè)像素對(duì)應(yīng);然后用模板與圖像進(jìn)行卷積;最后兩個(gè)模板與圖像進(jìn)行卷積后得出的兩個(gè)值,比較大小,選出最大值,則為某點(diǎn)的新的像素值。也可理解為是求最大值的方法,用公式定義如下:

g(i,j)=|f(i-1,j+1)+2f(i,j+1)+f(i+1,j+1)-f(i-1,j-1)-2f(i,j-1)-f(i+1,j-1)|+|f(i-1,j-1)+2f(i-1,j+1)+f(i+1,j-1)-2f(i+1,j)-f(i+1,j+1)|

卷積模板如圖1,卷積的最大值為該點(diǎn)的輸出值。由于傳統(tǒng)的Sobel算法只考慮了水平和垂直兩個(gè)方向,忽略了邊緣的多方向性;其次,檢測(cè)出的邊緣有很多的偽邊緣,并且檢測(cè)出的邊緣較粗,本文提出了8方向的5*5模板的改進(jìn)方法。

4 改進(jìn)后的sobel算法

4.1 8個(gè)方向模板

傳統(tǒng)的Sobel算法只考慮了水平和垂直兩個(gè)方向,檢測(cè)出的邊緣較粗,并且具有偽邊緣,因此,有人提出了一些改進(jìn)的方法,例如:1)先用Sobel進(jìn)行邊緣檢測(cè),用ostu二值化,最后用多像素邊緣細(xì)化算法進(jìn)行細(xì)化;2)先用Sobel進(jìn)行邊緣檢測(cè),用Sobel進(jìn)行細(xì)化,最后用自適應(yīng)的動(dòng)態(tài)閾值計(jì)算方法進(jìn)行二值化;3)基于Sobel算法梯度相乘的熱紅外圖像邊緣提取;4)自適應(yīng)權(quán)值的改進(jìn)算法等等。而本文的改進(jìn)方法是將邊緣方向擴(kuò)展為0°、45°、90°、135°、180°、225°、270°、315° 8個(gè)方向,以此增加邊緣方向的準(zhǔn)確性。如圖2,圖3所示[6]:

4.2 改進(jìn)后算法的實(shí)現(xiàn)

設(shè)(i,j)為圖像上各點(diǎn)像素坐標(biāo),g(i,j)為圖像在該點(diǎn)的灰度值,[g(i,j)]矩陣為將要檢測(cè)的圖像,w(i,j)為最后檢測(cè)所得的結(jié)果,由于8個(gè)方向模板為5*5,s[g(i,j)]即為以點(diǎn)(i,j)為中心的5*5模板,f(k)為圖3中8個(gè)模板(其中k為0、1、2、3、4、5、6、7、),m為長(zhǎng)度為8的數(shù)組。

第一步:將f(k)與s[g(i,j)]進(jìn)行卷積,將計(jì)算所得的結(jié)果的絕對(duì)值存放在數(shù)組m中;

第二步:目的是:查找第一步算出的8個(gè)結(jié)果中的最大值,在一組數(shù)組中查找最大最小值,有二分法、冒泡排序法、選擇排序法等等,由于本文涉及的數(shù)組中數(shù)據(jù)較少,因此選擇順序查找法來(lái)找出數(shù)組中的最大值,順序查找法就是假定要從n個(gè)整數(shù)中查找最大值, 則從頭到尾逐個(gè)查找。具體步驟如下:

a、 令max=m[0],k=1;

b、 若m[k]>max,則max=m[k];否則,k=k+1;

c、 若k

第三步:將max賦給w(i,j),即為該點(diǎn)的輸出值[7]。

最后的輸出值即為該點(diǎn)新的像素值。

4.3 邊緣細(xì)化

我們采用改進(jìn)后的算法對(duì)圖像進(jìn)行邊緣提取,得到的圖像1與原始的圖像相比,圖像1的邊緣灰度有變化,在此基礎(chǔ)上,我們?cè)趯?duì)圖像1進(jìn)行同樣的處理,再用改進(jìn)后算法進(jìn)行提取,得到的圖像2在圖像1的基礎(chǔ)上,中間的圖像部分變成了背景,得到的邊緣更細(xì),兩次所到的圖像邊緣進(jìn)行相減,即:2-1得到圖像3,關(guān)于圖像3,我們將其邊緣像素的負(fù)值全部改為0,所得到的圖像即為細(xì)化后的結(jié)果圖。

5 實(shí)驗(yàn)結(jié)果

為檢測(cè)改進(jìn)后的算法與傳統(tǒng)算法的效果,在VC++環(huán)境下,以轉(zhuǎn)經(jīng)筒和唐卡為例對(duì)進(jìn)行邊緣提取后的效果圖進(jìn)行對(duì)比。圖4圖5為原圖;圖6圖7為傳統(tǒng)算法提取的結(jié)果;圖8圖9為改進(jìn)后的效果圖。有圖可以看出,;圖6檢測(cè)出的邊緣相對(duì)清晰完整,而圖5提取的邊緣比較模糊,并且數(shù)據(jù)比較亂,圖6相對(duì)圖5檢測(cè)的邊緣更加豐富,總的來(lái)說(shuō),本文的方法很好保護(hù)了各方向的邊緣,得到了更好的效果。

6 結(jié)論

針對(duì)傳統(tǒng)Sobel算法的一些弊端,本文擴(kuò)展成5*5的8方向模板,重新定義了模板中的權(quán)值,和傳統(tǒng)Sobel算法相比,在一定程度較好的保留并檢測(cè)出了各個(gè)方向的邊緣,且相對(duì)簡(jiǎn)單,對(duì)于傳統(tǒng)的其他算法,如Roberts算法、Prewitt算法等都可以依據(jù)此方法進(jìn)行改進(jìn),增加模板、擴(kuò)展邊緣方向?yàn)?個(gè)或者更多,以此得到更好的應(yīng)用。

參考文獻(xiàn):

[1]鄭英娟.基于八方向Sobel算子的邊緣檢測(cè)[J].數(shù)字信息處理,2013(S2).

[2]章毓晉.圖像工程[M].北京:清華大學(xué)出版社,1999.

[3]何春華.基于改進(jìn)Sobel算子的邊緣檢測(cè)算法的研究[J].信息光學(xué)與圖像處理,2012(3).

[4]李安安.幾種圖像邊緣檢測(cè)算法的比較和展望[J].信息 技術(shù)與通信,2009(12).

[5]高飛.Sobel邊緣檢測(cè)算子的改進(jìn)研究[J].算法分析,2016(1).

第7篇:卷積神經(jīng)網(wǎng)絡(luò)的定義范文

本文結(jié)合計(jì)算機(jī)行業(yè)的發(fā)展,對(duì)計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)進(jìn)行了分析研究,希望能為計(jì)算機(jī)技術(shù)的進(jìn)步提供一定的理論支持。

一、計(jì)算機(jī)網(wǎng)絡(luò)的云計(jì)算技術(shù)概念

美國(guó)的網(wǎng)絡(luò)公司最早提出計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)的概念,隨著科學(xué)的進(jìn)步與發(fā)展已經(jīng)逐漸成為了一門(mén)成熟的技術(shù),有著豐富的理論基礎(chǔ)與實(shí)踐經(jīng)驗(yàn)?,F(xiàn)在的“云計(jì)算”技術(shù)是指能將網(wǎng)絡(luò)、硬件、設(shè)備相融合,同時(shí)實(shí)現(xiàn)規(guī)模性、安全性、虛擬性的技術(shù)。目前來(lái)看,對(duì)計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算的定義還沒(méi)有統(tǒng)一的趨勢(shì),每一名研究人員都有自己的研究與看法,通過(guò)研究與分析,本文對(duì)云計(jì)算的觀點(diǎn)是:首先,每一個(gè)“云”都是獨(dú)立的計(jì)算機(jī)分布體系,基于網(wǎng)絡(luò)化、虛擬化的計(jì)算機(jī)服務(wù)層,與計(jì)算機(jī)中的資源保持一定的節(jié)奏,實(shí)現(xiàn)計(jì)算機(jī)資源的同步。其次,計(jì)算機(jī)網(wǎng)絡(luò)云是一個(gè)綜合體,并非是獨(dú)立的,計(jì)算機(jī)軟件的開(kāi)發(fā)中離不開(kāi)云計(jì)算的環(huán)節(jié),其重點(diǎn)就是網(wǎng)絡(luò)云計(jì)算特征的研究。對(duì)于計(jì)算機(jī)網(wǎng)絡(luò)的使用者來(lái)說(shuō),計(jì)算機(jī)集成軟件層面,能被接受與理解的就是云計(jì)算,在本文重點(diǎn)突出的就是云計(jì)算的屬性。最后,計(jì)算機(jī)網(wǎng)絡(luò)的使用者沒(méi)有進(jìn)行長(zhǎng)期的規(guī)劃后使用,很容易出現(xiàn)浪費(fèi)現(xiàn)象,目前的云計(jì)算技術(shù)可以實(shí)現(xiàn)分或秒內(nèi)的數(shù)據(jù)計(jì)算,可以很好地避免資源過(guò)載或資源浪費(fèi)現(xiàn)象。

通過(guò)研究可以看出,計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)可以定義成計(jì)算機(jī)網(wǎng)絡(luò)中進(jìn)行的某種服務(wù)形式,其中相關(guān)的硬件設(shè)施與軟件系統(tǒng)統(tǒng)稱(chēng)為計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算。定義中包括網(wǎng)絡(luò)計(jì)算機(jī)、超級(jí)計(jì)算機(jī)、集成技術(shù)等,相關(guān)的技術(shù)既有區(qū)別又有聯(lián)系。計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)的原理是:大量的數(shù)據(jù)分布于分布式計(jì)算機(jī)中,同時(shí)保證用戶的數(shù)據(jù)系統(tǒng)與計(jì)算機(jī)同步運(yùn)行,進(jìn)而實(shí)現(xiàn)及時(shí)將需要的資源切換到相應(yīng)的應(yīng)用中,根據(jù)使用者的訪問(wèn)需求進(jìn)行存儲(chǔ)系統(tǒng)與計(jì)算機(jī)系統(tǒng)的定位。計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)可以基于用戶服務(wù)需求及時(shí)提供所需的網(wǎng)絡(luò)信息資源。計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)適應(yīng)性強(qiáng),彈性好,專(zhuān)業(yè)技術(shù)性高,發(fā)展前景十分好,應(yīng)用越來(lái)越廣泛。

二、計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)的分類(lèi)

基于多樣化的標(biāo)準(zhǔn),計(jì)算機(jī)云計(jì)算的分類(lèi)也有多種方式。比較常見(jiàn)的是:根據(jù)服務(wù)方式的不同,云計(jì)算可以分為私有云和公有云。私有云是根據(jù)用戶的自身情況進(jìn)行獨(dú)立使用,同時(shí)建立平臺(tái),操作性與實(shí)用性十分好。公有云是ζ淥用戶的資源進(jìn)行開(kāi)發(fā)利用。在選擇私有云與公有云時(shí),應(yīng)該考慮的主要因素是:

1.服務(wù)的延續(xù)性

大部分情況下,公有云提供的服務(wù)容易受外界影響,如網(wǎng)絡(luò)故障等情況,而私有云則不會(huì)出現(xiàn)這種問(wèn)題。

2.數(shù)據(jù)安全性

如果對(duì)于穩(wěn)定性與安全性不存在過(guò)高要求,則比較適合使用公有云。

3.綜合使用成本

通常狀況下,如果對(duì)于計(jì)算資源要求不高可以選用公有云,如果對(duì)于計(jì)算資源要求較高則比較適合建立自己的私有云平臺(tái)。

4.監(jiān)控能力

公有云可以將使用用戶對(duì)系統(tǒng)的監(jiān)控能力屏蔽起來(lái),這對(duì)于金融保險(xiǎn)投資行業(yè)是十分有必要的。

三、計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)的實(shí)現(xiàn)

為了將計(jì)算機(jī)系統(tǒng)的系統(tǒng)處理過(guò)程進(jìn)行簡(jiǎn)化,通常將該過(guò)程劃分為預(yù)處理過(guò)程與功能實(shí)現(xiàn)過(guò)程兩大部分。對(duì)系統(tǒng)的各項(xiàng)功能進(jìn)行分解,得到一些不需要進(jìn)行功能實(shí)現(xiàn)過(guò)程與預(yù)處理過(guò)程的功能。對(duì)于可以進(jìn)行預(yù)先處理過(guò)程的功能通常是一次性處理,在執(zhí)行過(guò)程中,可以將預(yù)處理過(guò)程得到的結(jié)果直接使用,以此完成特點(diǎn)的系統(tǒng)功能。該方法與原則的采用,極大地簡(jiǎn)化了系統(tǒng),大幅度提高了系統(tǒng)運(yùn)行效率。計(jì)算的云化中的系統(tǒng)就是計(jì)算云化系統(tǒng),它的計(jì)算量十分巨大,系統(tǒng)計(jì)算運(yùn)行效率極高。但因?yàn)橛?jì)算云化系統(tǒng)為一次處理系統(tǒng),只要計(jì)算云規(guī)則生成,計(jì)算云化系統(tǒng)的使命與任務(wù)也就完成,而不是在對(duì)計(jì)算機(jī)加以應(yīng)用時(shí)需要該系統(tǒng)。通常在計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算中形成的系統(tǒng)就是云計(jì)算系統(tǒng),是一個(gè)十分簡(jiǎn)單的系統(tǒng),對(duì)計(jì)算機(jī)的處理能力沒(méi)有過(guò)高要求,同時(shí)應(yīng)用于各類(lèi)計(jì)算機(jī)系統(tǒng)計(jì)算中。

四、計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算的計(jì)算與優(yōu)勢(shì)

建立計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算過(guò)程的第一步是服務(wù)器架構(gòu)的建立,其對(duì)計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)中的IAAS部分進(jìn)行充當(dāng)。目前來(lái)看,仍沒(méi)有關(guān)于網(wǎng)絡(luò)云計(jì)算服務(wù)器架構(gòu)的專(zhuān)門(mén)、統(tǒng)一的標(biāo)準(zhǔn)出現(xiàn),這需要一定的相關(guān)技術(shù)進(jìn)行支持,例如計(jì)算區(qū)域網(wǎng)SAN和附網(wǎng)NAS等,這都是應(yīng)用比較多的服務(wù)器架構(gòu)技術(shù)。NAS文件計(jì)算系統(tǒng)是松散結(jié)構(gòu)型的集群,它的架構(gòu)有很明顯的分布式特征。NAS文件系統(tǒng)集群中的各個(gè)節(jié)點(diǎn)具有互補(bǔ)與相互影響的特點(diǎn),文件是最小的單位,因?yàn)橹灰诩捍鎯?chǔ)文件就可以計(jì)算出文件的數(shù)據(jù)信息,直接減少了很多計(jì)算的冗余性。它的拓展性很高,同時(shí)成本較低,安全控制系統(tǒng)安全穩(wěn)定。如果客戶發(fā)出過(guò)多的請(qǐng)求,NAS系統(tǒng)的限制就表現(xiàn)出來(lái),二級(jí)計(jì)算就可以通過(guò)NAS的云服務(wù)完成。

SAN是一種緊密結(jié)合類(lèi)型的集群,在集群中存儲(chǔ)文件之后,可以分解成很多個(gè)數(shù)據(jù)塊。相比于集群之中的節(jié)點(diǎn),各數(shù)據(jù)塊之間能夠進(jìn)行相互訪問(wèn)。節(jié)點(diǎn)可以借助于訪問(wèn)文件間的數(shù)據(jù)塊針對(duì)客戶的請(qǐng)求進(jìn)行處理。SAN系統(tǒng)之中可以通過(guò)節(jié)點(diǎn)數(shù)量增減來(lái)響應(yīng)請(qǐng)求,同時(shí)提升界定本身的性能。為了能夠?qū)⒁許AN為基礎(chǔ)的OBS發(fā)展起來(lái),就需要更好的性能與更低的成本。而SAN計(jì)算建構(gòu)的硬件價(jià)格十分高,同時(shí)依托于SAN的服務(wù)價(jià)格,因此可以適當(dāng)?shù)亟档鸵幌滦阅?,保證更好的性能與更低的成本。

五、實(shí)例――基于谷歌云計(jì)算技術(shù)的AlphaGo亮點(diǎn)分析

AlphaGo通過(guò)谷歌云計(jì)算技術(shù),擁有與人類(lèi)棋手類(lèi)似的“棋感”,其技術(shù)遠(yuǎn)勝于1997年IBM公司研制的超級(jí)電腦“深藍(lán)”?!吧钏{(lán)”面對(duì)的是相對(duì)圍棋簡(jiǎn)單多的國(guó)際象棋,設(shè)計(jì)理念為根據(jù)棋局情況不斷演算各種可能的步驟,最終從各種步驟中選定走棋方案。AlphaGo背后的云計(jì)算技術(shù),可以讓AlphaGo無(wú)需“暴力”分析演算所有步驟,只需要把運(yùn)算能力都集中在“棋感策略”網(wǎng)絡(luò)中最有可能的情況上。其背后的深層算法,具備三大亮點(diǎn):(1)深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)技術(shù):“棋感策略”網(wǎng)絡(luò)的本質(zhì)學(xué)習(xí)人類(lèi)圍棋大師走法思維。AlphaGo藉此擁有強(qiáng)大的盤(pán)面評(píng)估能力。(2)增強(qiáng)學(xué)習(xí)算法技術(shù):此算法可通過(guò)自我對(duì)弈來(lái)持續(xù)提升AlhpaGo的棋感策略和盤(pán)面評(píng)估能力,并且給出落子選擇。(3)蒙特卡洛搜索技術(shù):“評(píng)價(jià)網(wǎng)絡(luò)”的核心,可以融合棋感策略和盤(pán)面評(píng)估能力,修正落子選擇而最終給出落子方案。

六、計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)發(fā)展遇到的問(wèn)題

在目前計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)廣泛地運(yùn)用到各個(gè)領(lǐng)域的過(guò)程中,云計(jì)算技術(shù)也存在一些缺陷與不足還需要引起我們的重視,同時(shí)在云計(jì)算的應(yīng)用過(guò)程中應(yīng)采用足夠的措施來(lái)對(duì)數(shù)據(jù)信息的安全性進(jìn)行可靠的保障,這是計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)發(fā)展過(guò)程中十分重要的一項(xiàng)課題?,F(xiàn)在的大部分云端是通過(guò)瀏覽器進(jìn)行接入的,瀏覽器是計(jì)算機(jī)系統(tǒng)中非常薄弱的地方,存在著很多的缺陷與漏洞,因此用戶的云端接入瀏覽器時(shí),用戶證書(shū)與認(rèn)證密鑰特別容易因?yàn)闉g覽器漏洞而產(chǎn)生泄密。同時(shí)由于不同的應(yīng)用都需要在云端中進(jìn)行認(rèn)證,這就需要保證認(rèn)證機(jī)制的高效性與安全性。在應(yīng)用服務(wù)層之中,應(yīng)該采取安全有效的措施來(lái)保護(hù)用書(shū)的隱私安全,在基礎(chǔ)設(shè)施層中要采取安全可靠的方法保C數(shù)據(jù)的安全性。

七、采取措施保障網(wǎng)民數(shù)據(jù)安全

如果數(shù)據(jù)的安全不能得到保障,就會(huì)對(duì)云計(jì)算的發(fā)展產(chǎn)生不利影響,所以為了能夠保障網(wǎng)民數(shù)據(jù)的安全。就需要采取切實(shí)可行的手段來(lái)保證數(shù)據(jù)的安全性。

1.隔離操作系統(tǒng)與數(shù)據(jù)

為了能夠切實(shí)有效地保障網(wǎng)民信息的安全,就需要充分使用Hypervisor,從而將網(wǎng)民的操作系統(tǒng)與數(shù)據(jù)資源隔離起來(lái),從而有效地保證了計(jì)算資源的安全性,避免了網(wǎng)民操作系統(tǒng)所帶來(lái)的可能的不利影響。

2.重置API保護(hù)層

服務(wù)商提供給用戶API,用戶根據(jù)需要進(jìn)行應(yīng)用。但同時(shí)第三方也有可能對(duì)這些API進(jìn)行使用。為了保證數(shù)據(jù)的安全性,就需要你安裝API保護(hù)層,重疊保護(hù)API。

3.嚴(yán)格身份認(rèn)證

服務(wù)商應(yīng)嚴(yán)格的執(zhí)行身份認(rèn)證,防范冒充網(wǎng)民身份的行為,加強(qiáng)對(duì)賬號(hào)與密碼的管理控制,確保網(wǎng)民只訪問(wèn)自己的程序與數(shù)據(jù),從而保證數(shù)據(jù)資源的安全性。

第8篇:卷積神經(jīng)網(wǎng)絡(luò)的定義范文

【關(guān)鍵詞】清晰度評(píng)價(jià)函數(shù);一體化攝像機(jī);高斯噪聲

The research of focusing evaluation function based on the room camera

HAN Seng-jie

(Civil Aviation University of China,College of Electronics and Information engineering,Tianjin,300300,China)

Abstract:Focusing evaluation function is important as to the room camera to achieve the focus of image and get high-quality image.We have a comprehensive performance comparison of several commonly used focusing evaluation functions,quantitative analysis of the efficiency of different algorithms including no bias,single peak and sensitivity according to the simplicity and real-time.The results showed that:Brenner functions and Laplace function is suitable for small-scale precision focusing for its relatively narrow peak width,high sensitivity.Tenengrad function,Robert function and squared gradient function is suitable for mid-range auto-focus, because they have relatively high sensitivity,and also they have a certain focus range.It’s instructive to the room camera to achieve automatic focusing.

Key words:focusing evaluation function;room camera;Gauss noise

1.引言

一般來(lái)說(shuō),一體化攝像機(jī)是指可以自動(dòng)聚焦、鏡頭內(nèi)建的小型攝像機(jī)。外觀上,具有美觀、小巧。應(yīng)用上,其電源、視頻、控制信號(hào)均有直接插口,安裝方便。功能上可自動(dòng)聚焦,近些年,一體化攝像機(jī)在視頻會(huì)議、安防監(jiān)控、高速公路監(jiān)控等場(chǎng)合的應(yīng)用越來(lái)越廣泛。

自動(dòng)聚焦技術(shù)的發(fā)展對(duì)一體化攝像機(jī)的廣泛應(yīng)用也起著非常重要的作用。傳統(tǒng)的聚焦方法基本屬于測(cè)距法,利用超聲波或者紅外線測(cè)量目標(biāo)與攝像機(jī)之間的距離從而調(diào)整焦距以實(shí)現(xiàn)自動(dòng)聚焦。由于要有發(fā)射和接收裝置,提高了成本,并且會(huì)使得攝像機(jī)顯得笨重。

隨著數(shù)字圖像處理理論的不斷成熟,越來(lái)越多的自動(dòng)聚焦算法是基于圖像處理理論的。數(shù)字圖像處理理論認(rèn)為,信號(hào)或圖像的大部分能量集中在幅度譜的低頻段和中頻段,但是圖像細(xì)節(jié)的豐富度和輪廓的銳度取決于圖像的高頻成分。因此,各種檢驗(yàn)圖像邊緣信息或計(jì)算圖像高頻分量的自動(dòng)聚焦算法應(yīng)運(yùn)而生。一幀圖像中的高頻成分值被稱(chēng)為清晰度評(píng)價(jià)函數(shù),自動(dòng)聚焦的過(guò)程就是求取清晰度評(píng)價(jià)函數(shù)最大值的過(guò)程。當(dāng)圖像清晰時(shí),圖像細(xì)節(jié)豐富,在空域表現(xiàn)為相鄰像素的特征值,如灰度、顏色等變化較大,在頻域表現(xiàn)為頻譜的高頻分量多。可以評(píng)判圖像中高頻分量的大小,并判斷對(duì)焦正確與否。

確定合適的清晰度評(píng)價(jià)函數(shù)是自動(dòng)調(diào)焦的核心問(wèn)題。理想的自動(dòng)調(diào)焦評(píng)價(jià)函數(shù)必須具備以下幾個(gè)特征[1]:

a.無(wú)偏性。計(jì)算出來(lái)的曲線要和圖像的清晰度變化事實(shí)相吻合;

b.單峰性。在成像系統(tǒng)的正焦位置取得單一的極值,不能出現(xiàn)其他局部極值;

c.靈敏度。是指對(duì)不同程度的離焦圖片,清晰度評(píng)價(jià)值要求有一定的差別;

d.具有足夠的信噪比。在一定的噪聲干擾條件下,保證系統(tǒng)正確地檢測(cè)到離焦信號(hào),完成自動(dòng)調(diào)焦;

e.高效性。計(jì)算能夠滿足實(shí)時(shí)性要求,保證迅速完成自動(dòng)調(diào)焦過(guò)程。

圖1是圖像高頻成分含量與聚焦鏡頭位置之間的關(guān)系。

2.常用清晰度評(píng)價(jià)函數(shù)的研究

圖像清晰度評(píng)價(jià)函數(shù)在基于圖像處理的自動(dòng)調(diào)焦技術(shù)中起著關(guān)鍵的作用。圖像清晰度識(shí)別技術(shù)近年來(lái)已引起國(guó)內(nèi)外學(xué)者的重視,其中最流行的是時(shí)域?qū)Ρ榷仍u(píng)價(jià)函數(shù),常用的有Brenner函數(shù)、Tenengrad函數(shù)、Robert函數(shù)、Laplace函數(shù)、方差函數(shù)和平方梯度等[2][3][4];還有頻域的頻譜評(píng)價(jià)函數(shù)[5];小波變換評(píng)價(jià)函數(shù)[6];基于DCT變換的評(píng)價(jià)函數(shù)[7];神經(jīng)網(wǎng)絡(luò)評(píng)價(jià)函數(shù)[8]。其中頻域類(lèi)、統(tǒng)計(jì)學(xué)類(lèi)等調(diào)焦函數(shù)由于在調(diào)焦過(guò)程中對(duì)環(huán)境的穩(wěn)定性要求較高,并且其調(diào)焦曲線非常不理想,大多數(shù)都不能正確的表達(dá)焦點(diǎn)的位置,同時(shí)考慮到聚焦速度和準(zhǔn)確性的要求,因此沒(méi)有列入,我們選擇常用的時(shí)域?qū)Ρ榷仍u(píng)價(jià)函數(shù)進(jìn)行分析。

Brenner函數(shù),是最簡(jiǎn)單的與梯度有關(guān)的評(píng)價(jià)函數(shù)[9][10][11],它只是計(jì)算相差兩個(gè)單位的兩個(gè)像素的灰度差,該函數(shù)的優(yōu)點(diǎn)是具有較高的靈敏度且計(jì)算量較小,其表達(dá)式為:

式中,I(x,y)表示圖像中第x行第y列像素的灰度值。當(dāng)調(diào)焦評(píng)價(jià)函數(shù)F(I)數(shù)值最大時(shí),圖像最清晰。

Robert梯度評(píng)價(jià)函數(shù),是在灰度差分絕對(duì)值之和算法基礎(chǔ)上考慮I(x,y)和I(x+1,y+1),灰度差的像元位置關(guān)系后,采用的一種評(píng)價(jià)函數(shù),其表達(dá)式如下:

式中I(x,y)表示圖像中第x行第y列像素的灰度值。

方差函數(shù),清晰聚焦的圖像應(yīng)有比模糊的圖像具有更大的灰度級(jí)差異,所以方差函數(shù)也可以作為一個(gè)對(duì)焦清晰的評(píng)價(jià)標(biāo)準(zhǔn)[9][12]。方差函數(shù)定義為:

式中μ為平均灰度級(jí),

I(x,y)表示圖像中第x行第y列像素的灰度值。

平方梯度函數(shù),它用相鄰點(diǎn)的差分計(jì)算一個(gè)點(diǎn)的梯度值[12],其算法如下:

其中I(x,y)為一幅圖像在點(diǎn)(x,y)的灰度值。

Tenengrad函數(shù),它使用Sobel算子來(lái)算圖像在水平方向和垂直方向的梯度,為了使圖像邊緣的梯度最大,對(duì)梯度進(jìn)行平方運(yùn)算,其表達(dá)式如下所示:

其中,S(x,y)>T(T為灰度閾值)

為梯度幅度Gx(x,y),Gy(x,y)的計(jì)算模版為

在此模版下,

Laplace函數(shù),使用Laplace算子和圖像進(jìn)行卷積得到圖像的二階微分,其微分平方和作為最后評(píng)價(jià)結(jié)果,其表達(dá)式如下:

3.清晰度評(píng)價(jià)函數(shù)的性能分析

為了便于比較這六種算法的性能和特點(diǎn),按照清晰度評(píng)價(jià)函數(shù)應(yīng)具備的特性,我們從三個(gè)角度對(duì)這六種清晰度評(píng)價(jià)函數(shù)的性能進(jìn)行分析。本文采用小龍電器公司自主研制生產(chǎn)的一體化攝像機(jī)SMC-480,其光學(xué)系統(tǒng)參數(shù)表如表1所示。

3.1 清晰度評(píng)價(jià)函數(shù)的曲線特性對(duì)比

本文為研究清晰度評(píng)價(jià)函數(shù),其數(shù)據(jù)源都是針對(duì)同一組圖像進(jìn)行處理,同時(shí)該組圖像是對(duì)同一平面目標(biāo),通過(guò)控制一體化攝像機(jī)調(diào)焦鏡頭的前后縱向位置來(lái)實(shí)現(xiàn)圖像的調(diào)焦,前后縱向移動(dòng)的步進(jìn)間隔距離為0.004mm。在聚焦點(diǎn)位置前后分別采集24個(gè)欠焦和24個(gè)過(guò)焦圖像。加上聚焦良好圖像,共得到50幅圖像。采集的圖像大小為640 pixel×480 pixel。本文的數(shù)據(jù)分析是以采集到的圖像數(shù)據(jù)為依據(jù),并將圖像序號(hào)按由最遠(yuǎn)的欠焦?fàn)顟B(tài)經(jīng)過(guò)聚焦?fàn)顟B(tài)后,再到過(guò)焦?fàn)顟B(tài)編排,共采集了50張圖片,如圖2給出了其中的12幅示意圖。

為了便于比較各種算法的性能和特點(diǎn),本文將上述六種算法的仿真結(jié)果描繪出來(lái),如圖3所示。它的縱坐標(biāo)表示各種算法的歸一化圖像清晰度評(píng)價(jià)值,橫坐標(biāo)表示不同程度的離焦圖片的序號(hào),共50張。圖4是對(duì)圖3函數(shù)極值的局部放大。

從圖3和圖4中可以得出如下結(jié)論:1)對(duì)圖像的單峰性來(lái)說(shuō),Brenner函數(shù)、Tenengrad函數(shù)、Robert函數(shù)、Laplace函數(shù)和平方梯度等能得到比較一致的結(jié)果,并且只有一個(gè)極值點(diǎn),具有單峰性,符合要求,而方差函數(shù)的極值點(diǎn)不夠突出,容易產(chǎn)生誤調(diào)焦,因此不能使用。2)從圖像的無(wú)偏性來(lái)說(shuō),Brenner函數(shù)、Tenengrad函數(shù)、Robert函數(shù)、Laplace函數(shù)和平方梯度等的清晰度評(píng)價(jià)值都隨著圖像的離焦或者變焦程度變化而變化,都在第25幅圖像位置取得最大值,這和肉眼看到的事實(shí)是相符合的。3)從圖像的靈敏度角度來(lái)看,Laplace函數(shù)和Brenner函數(shù)的峰頂寬度相對(duì)較窄,相對(duì)而言,Laplace函數(shù)更為尖銳,靈敏度高,因此適合于小范圍精確調(diào)焦。也就是說(shuō),對(duì)微小焦距的改變更為敏感,性能上更加優(yōu)良。Tenengrad函數(shù)、Robert函數(shù)和平方梯度的靈敏度居中,在焦點(diǎn)附近具有比較高的靈敏度,同時(shí)也有一定的調(diào)焦范圍,適于中等范圍的自動(dòng)調(diào)焦。

3.2 圖像加噪聲后清晰度評(píng)價(jià)函數(shù)的曲線特性

我們對(duì)標(biāo)準(zhǔn)圖像加入噪聲,根據(jù)模糊成像原理,可以用高斯函數(shù)對(duì)標(biāo)準(zhǔn)圖像進(jìn)行處理。高斯模糊的基本思路是根據(jù)二維正態(tài)分布公式生成一個(gè)高斯矩陣,求新圖像中的每一點(diǎn)時(shí),將高斯矩陣的中心對(duì)準(zhǔn)舊圖像的這一點(diǎn),并將所有點(diǎn)根據(jù)高斯矩陣上對(duì)應(yīng)的點(diǎn)加權(quán)平均。二維正態(tài)分布公式如下:

u,v分別為水平、豎直距離。高斯模糊的標(biāo)準(zhǔn)差σ,表示模糊的延伸距離,它的缺省值一般設(shè)為1。當(dāng)時(shí),高斯矩陣上對(duì)應(yīng)的權(quán)值已經(jīng)小得可以忽略,因此可以只計(jì)算一個(gè)大小為的矩陣。通過(guò)設(shè)置不同的模糊半徑(radius)參數(shù)即需要移位的像素?cái)?shù),達(dá)到不同程度的高斯模糊效果。圖像數(shù)據(jù)源仍是圖二所示中采集到的圖像,現(xiàn)在我們對(duì)標(biāo)準(zhǔn)圖像分別進(jìn)行1×1-6×6半徑的高斯模糊,同時(shí)添加方差為20的高斯噪聲,得到6幅圖像,圖5給出了其中一幅聚焦清晰和一幅清晰圖像的加噪圖像。

實(shí)驗(yàn)結(jié)果如圖6所示,縱坐標(biāo)是每個(gè)清晰度評(píng)價(jià)函數(shù)的歸一化值,橫坐標(biāo)是受不同噪聲影響的6幅不同圖像,從圖中可以看出,Laplace函數(shù)和Brenner函數(shù)在峰值附近變化明顯,在一定的噪聲干擾條件下,能識(shí)別出噪聲影響的程度,該函數(shù)性能靈敏度高,具有足夠的信噪比,其聚焦分辨力和抗噪性能明顯優(yōu)于其他方法。而Tenengrad函數(shù)、Robert函數(shù)和平方梯度的信噪比居中,方差函數(shù)的抗干擾性能則最差。

3.3 清晰度評(píng)價(jià)函數(shù)實(shí)驗(yàn)驗(yàn)證

上述中本文對(duì)清晰度評(píng)價(jià)函數(shù)的性能和特點(diǎn)進(jìn)行了分析,不過(guò)為了進(jìn)一步驗(yàn)證Laplace函數(shù)、Brenner函數(shù)、Tenengrad函數(shù)、Robert函數(shù)和平方梯度函數(shù)的性能,本文采集了另外圖像進(jìn)行驗(yàn)證。通過(guò)控制一體化攝像機(jī)調(diào)焦鏡頭的前后縱向位置來(lái)實(shí)現(xiàn)圖像的調(diào)焦,前后縱向移動(dòng)的步進(jìn)間隔距離為0.008mm。在聚焦點(diǎn)位置前后分別采集14個(gè)欠焦和14個(gè)過(guò)焦圖像。加上聚焦良好圖像,即第15幅,共得到29幅圖像。采集的圖像大小為630 pixel×490 pixel。

通過(guò)matlab仿真,本文得到如下結(jié)論,如圖8所示。

在圖7中,Laplace函數(shù)、Bren-

ner函數(shù)、Tenengrad函數(shù)、Robert函數(shù)和平方梯度函數(shù)的歸一化清晰度評(píng)價(jià)函數(shù)值的最大值都在圖像序號(hào)為15的位置,也剛好是最佳聚焦圖像。這和實(shí)際圖像采集中是相對(duì)應(yīng)的。同時(shí),就Laplace函數(shù)和Brenner函數(shù)相比較而言,他們都滿足單峰性,不過(guò)Laplace函數(shù)更為尖銳,靈敏度高。Tenengrad函數(shù)、Robert函數(shù)和平方梯度和圖3及圖4的結(jié)論相一致。

4.結(jié)論

清晰度評(píng)價(jià)函數(shù)是數(shù)字圖象處理的一個(gè)重要內(nèi)容之一,對(duì)于實(shí)現(xiàn)一體化攝像機(jī)自動(dòng)對(duì)焦具有重要的意義。本文在小龍電器公司生產(chǎn)的一體化攝像機(jī)SMC-480研究的基礎(chǔ)上,針對(duì)目前常用的清晰度評(píng)價(jià)函數(shù)的實(shí)用性能加以評(píng)價(jià),對(duì)比實(shí)驗(yàn)證明,Laplace函數(shù)和Brenner函數(shù)的峰頂寬度相對(duì)較窄,靈敏度高,因此適合于小范圍精確調(diào)焦。Tenengrad函數(shù)、Robert函數(shù)和平方梯度的靈敏度居中,在焦點(diǎn)附近具有比較高的靈敏度,同時(shí)也有一定的調(diào)焦范圍,適于中等范圍的自動(dòng)調(diào)焦。

參考文獻(xiàn)

[1]屈玉福.視覺(jué)瞄準(zhǔn)測(cè)頭的研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2001:20-24.

[2]沈庭芳,方子文.數(shù)字圖像處理及模式識(shí)別[M].北京:北京理工大學(xué)出版社,1998.

[3]夏德深,傅德盛.現(xiàn)代圖像處理技術(shù)與應(yīng)用[M].南京:東南大學(xué)出版社,1997.

[4]Castleman K R.數(shù)字圖像處理[M].北京:電子工業(yè)出版社,1998.

[5]李奇,馮華君,徐之海,等.數(shù)字圖像清晰度評(píng)價(jià)函數(shù)研究[J].光子學(xué)報(bào),2002,31(6):

736-738.

[6]謝攀,張利,康宗明,等.一種基于尺度變化的DCT自動(dòng)聚焦算法[J].清華大學(xué)學(xué)報(bào),2003,43(1):55-58.

[7]陳國(guó)金,朱妙芬,施滸立等.基于最小各向同性小波濾波的圖像清晰度識(shí)別[J].光子學(xué)報(bào),2008,37(2):395-399.

[8]陳國(guó)金,朱妙芬,施滸立.小波變換與神經(jīng)網(wǎng)絡(luò)復(fù)合的圖象清晰度識(shí)別研究[J].紅外技術(shù),2007,29(11):670-674.

[9]TTE Yeo,S H Ong,Jayasooriah and R Sinniah.Autofocusing for Tissue Microscope.Image and Vision Computing.1993,11(10):629-639.

[10]Lawrence Firestone,Kitty Cook,Kevin Culp,Neil Talsania,and Kendall,Preston,parison of Autofocus Methods for Automated Microscopy.1991(12):195-206.

[11]Brenner,J F,Dew,B S,Horton,J B,King,T,

Neirath,P W and Sellers,W D.An Automated Microscope for Cytologic Research.1971(24):

100-110.

第9篇:卷積神經(jīng)網(wǎng)絡(luò)的定義范文

1圖像特征表示方法概述

設(shè)計(jì)圖像的特征表示是計(jì)算機(jī)視覺(jué)中一項(xiàng)非?;镜难芯?jī)?nèi)容,圖像的分類(lèi)、檢索、標(biāo)注等工作都是以提取圖像特征為初始步驟,好的特征表示可以在相關(guān)圖像分析中取得更佳的效果.因此,圖像特征的設(shè)計(jì)與構(gòu)造,直接影響算法的性能.而如何定義一個(gè)好的圖像特征卻是非常困難的:一方面,設(shè)計(jì)的圖像特征對(duì)于同一類(lèi)別下圖像之間的變化(比如尺度、光照變化、對(duì)象位置變化等)要有足夠的魯棒性;另一方面,設(shè)計(jì)的圖像特征要具備足夠的判別性來(lái)處理不同類(lèi)別間圖像的變化.近年來(lái),研究者提出了大量的底層特征用于各種圖像分析任務(wù),其中最具有代表性的是基于梯度朝向直方圖的SIFT(scale-invariantfeaturetransform)[1]和HOG(histogramoforientedgradient)[2].盡管這類(lèi)特征取得了一定意義的成功,但研究者發(fā)現(xiàn),這類(lèi)單一的底層特征并不足以在某些應(yīng)用上達(dá)到更好的效果,因此提出了一類(lèi)中間層的圖像特征表示方法.其中,BoW(bagofwords)[3]是這類(lèi)圖像特征表示方法的典型代表,該方法在場(chǎng)景分類(lèi)中獲得了較好的性能.BoW算法生成圖像特征表示分為3個(gè)過(guò)程:圖像底層特征的獲取、學(xué)習(xí)過(guò)完備字典和計(jì)算圖像的碼字直方圖表示.然而,BoW方式并沒(méi)有考慮特征向量在圖像空間上的位置關(guān)系,使得其特征描述能力并沒(méi)有達(dá)到最大化.為了彌補(bǔ)這一缺陷,空間金字塔匹配(spatialpyramidmatching,簡(jiǎn)稱(chēng)SPM)[4]方法通過(guò)在一幅圖像的不同層次上計(jì)算碼字直方圖,形成了一個(gè)BoW多層特征,將BoW模型與圖像空間進(jìn)行合理融合.然而,由于SPM方法利用直方圖交核函數(shù)來(lái)度量?jī)煞鶊D像間的相似度,導(dǎo)致無(wú)法產(chǎn)生低維度的圖像特征表示,而且需要完整計(jì)算訓(xùn)練集圖像間相似度的Gram矩陣,因此,其算法復(fù)雜度為O(n2)(其中,n為訓(xùn)練集中圖像的個(gè)數(shù)).為了解決這一問(wèn)題,有效匹配核算法(efficientmatchkernel,簡(jiǎn)稱(chēng)EMK)[5]在碼字間相似性的基礎(chǔ)上構(gòu)造了一個(gè)低維特征映射空間,整個(gè)圖像的特征可以表示為碼字映射在這個(gè)低維特征空間后的平均,且可以采用線性SVM方法訓(xùn)練分類(lèi)器,在圖像分類(lèi)應(yīng)用中獲得了非常不錯(cuò)的效果.然而,有效匹配核算法仍然依賴于人為定義的圖像局部特征(如SIFT或HOG),只不過(guò)是通過(guò)計(jì)算有限維空間的局部線性特征表示來(lái)推出整體圖像的線性特征.

Bo等人擴(kuò)展了有效匹配核算法并提出了核描述子(kerneldescriptor,簡(jiǎn)稱(chēng)KD)[6]方法.這種方法只需定義任意兩個(gè)局部圖像塊之間的相似性,且該相似性函數(shù)滿足核函數(shù)定義.由于每個(gè)核函數(shù)都隱性定義了一個(gè)映射,它將圖像塊映射為再生核希爾伯特空間(reproducingkernelHilbertspace,簡(jiǎn)稱(chēng)RKHS)中一個(gè)非常高維的向量,這樣,核函數(shù)可以表示為RKHS中兩個(gè)高維向量的內(nèi)積,通過(guò)核主成分分析(kernelprincipalcomponentanalysis,簡(jiǎn)稱(chēng)KPCA)[7]算法,可以由核函數(shù)推出圖像塊特征的有限維線性表示.這種低維空間中的表示就稱(chēng)為核描述子,并且采用EMK算法將其推廣到整個(gè)圖像的特征表示.盡管核描述子方法的設(shè)計(jì)思想較為新穎,但仍然存在計(jì)算復(fù)雜度過(guò)高這一缺陷,限制了其在大規(guī)模圖像數(shù)據(jù)庫(kù)上的應(yīng)用.事實(shí)上,在KPCA方法的離線階段,所有聯(lián)合基向量對(duì)之間的相似性都需要計(jì)算,這是非常耗時(shí)的.更重要的是:在線階段計(jì)算一個(gè)新圖像塊的特征映射時(shí),該圖像塊與所有聯(lián)合基向量之間的相似性也是需要計(jì)算的,而這實(shí)際上是不需要的.Xie等人[8]通過(guò)使用不完整Cholesky分解替代KPCA算法,成功地解決了這個(gè)問(wèn)題,并且通過(guò)迭代,應(yīng)用不完整Cholesky分解算法表示整個(gè)圖像特征[9].但文獻(xiàn)[8,9]中,通過(guò)不完整Cholesky分解得到的標(biāo)志聯(lián)合基向量并沒(méi)有對(duì)應(yīng)實(shí)際的圖像塊,因此,其產(chǎn)生的特征判別能力并沒(méi)有最大化地得到利用.

Wang等人提出了有監(jiān)督的核描述子方法[10],該方法利用訓(xùn)練集中的圖像類(lèi)標(biāo)來(lái)輔助設(shè)計(jì)底層圖像塊特征.盡管他們利用該特征取得了不錯(cuò)的分類(lèi)效果,但這個(gè)算法運(yùn)行過(guò)程中需要大量有類(lèi)標(biāo)的圖像,并且對(duì)象優(yōu)化函數(shù)求解過(guò)程復(fù)雜,時(shí)間復(fù)雜度過(guò)高.除了上述生成圖像底層特征表示的方法以外,另外一類(lèi)構(gòu)成圖像特征的方法基于深度學(xué)習(xí)理論.2006年,Hinton等人[11,12]提出了用于深度信任網(wǎng)絡(luò)(deepbeliefnetwork,簡(jiǎn)稱(chēng)DBN)的無(wú)監(jiān)督學(xué)習(xí)算法,DBN的多層結(jié)構(gòu),使得它能夠?qū)W習(xí)得到層次化的特征表示,實(shí)現(xiàn)自動(dòng)特征抽象,文獻(xiàn)[12]將DBN模型成功用于手寫(xiě)數(shù)字識(shí)別應(yīng)用上.Bengio等人在文獻(xiàn)[13]中提出了基于自編碼器(auto-encoder)[14]的深度學(xué)習(xí)網(wǎng)絡(luò),在手寫(xiě)數(shù)字識(shí)別圖像數(shù)據(jù)庫(kù)上得到了類(lèi)似的實(shí)驗(yàn)結(jié)果.另外,文獻(xiàn)[1517]提出了一系列基于稀疏編碼的深層學(xué)習(xí)網(wǎng)絡(luò),在圖像應(yīng)用中取得了一定的成功.LeCun等人用誤差梯度設(shè)計(jì)并訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,簡(jiǎn)稱(chēng)CNN),其在圖像分類(lèi),特別是手寫(xiě)體字符識(shí)別應(yīng)用中得到優(yōu)越的性能.在此基礎(chǔ)上,Krizhevsky等人[21]將CNN模型應(yīng)用到分類(lèi)大規(guī)模ImageNet圖像數(shù)據(jù)庫(kù),更加充分地顯示了深度學(xué)習(xí)模型的表達(dá)能力.盡管在深度學(xué)習(xí)模型下獲得的圖像特征有很強(qiáng)的判別表示能力,但其要求計(jì)算機(jī)硬件條件較高,單機(jī)環(huán)境下很難實(shí)現(xiàn).除此之外,更加詳細(xì)地介紹圖像特征描述子領(lǐng)域的綜述可以參考文獻(xiàn)[23].本文在大數(shù)據(jù)時(shí)代背景下,為了能夠快速得到圖像塊的線性特征表示,提出了有效圖像塊描述子(efficientpatch-leveldescriptor,簡(jiǎn)稱(chēng)EPLd)方法.該方法在不完整Cholesky分解基礎(chǔ)上,可以自動(dòng)地進(jìn)行圖像塊篩選,對(duì)于求解新圖像塊的線性特征表示,只需計(jì)算它和一小部分基圖像塊的相似性就足夠了.有了圖像塊的特征表示之后,一幅圖像就對(duì)應(yīng)著一個(gè)圖像塊特征的集合,該集合可以看作是特征空間中基于某個(gè)分布的樣本集,這樣,兩幅圖像之間的差異可以看作兩個(gè)分布的距離.本文采用基于高維概率分布的MMD距離[24]進(jìn)行估算,進(jìn)而計(jì)算兩幅圖像間的相似性.本文首先介紹核描述子方法,然后給出有效圖像塊描述子算法的具體實(shí)現(xiàn)過(guò)程以及如何利用MMD距離計(jì)算兩幅圖像的相似性,并在幾個(gè)著名的圖像分類(lèi)數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn),最后給出工作的結(jié)論和展望.

2核描述子方法簡(jiǎn)介

核描述子方法是對(duì)圖像像素點(diǎn)屬性(梯度/形狀/顏色+位置)基礎(chǔ)上生成的聯(lián)合基向量應(yīng)用KPCA方法,從而計(jì)算新圖像塊的有限維特征表示.為了方便敘述,本文采用像素點(diǎn)的梯度屬性來(lái)介紹核描述子方法.通過(guò)公式(2)可以看到,核描述子方法的主要缺陷有以下3點(diǎn):(1)算法計(jì)算復(fù)雜度高,因?yàn)樾枰獙?duì)dodp維的聯(lián)合基向量形成的Gram矩陣計(jì)算特征值分解,如果聯(lián)合基向量的維度過(guò)高或者個(gè)數(shù)過(guò)多,KPCA算法甚至無(wú)法實(shí)施;(2)對(duì)聯(lián)合基向量進(jìn)行KPCA獲得的tij并不是稀疏的,這也就意味著在計(jì)算新圖像塊的特征表示時(shí),需要和所有的聯(lián)合基向量進(jìn)行在線計(jì)算,所以算法需要存儲(chǔ)全部的聯(lián)合基向量;(3)算法無(wú)法進(jìn)行特征選擇,即,并不知道聯(lián)合基向量中哪些樣本最具代表性.

3有效圖像塊描述子算法

針對(duì)核描述子方法的3點(diǎn)不足之處,文獻(xiàn)[8]解決了其主要缺陷的第一、第二兩點(diǎn),但是文獻(xiàn)[8]在本質(zhì)上仍然使用聯(lián)合基向量,所以沒(méi)有明確地進(jìn)行特征選擇,即,找出哪些圖像塊是最具代表性的,使得其特征表示能力并沒(méi)有達(dá)到最大化.為了更加完善地解決核描述子方法的缺陷,本文提出了一種新的圖像塊特征表示方法,稱(chēng)為有效圖像塊描述子.該方法基于對(duì)圖像塊相似度矩陣執(zhí)行不完整Cholesky分解??傮w上來(lái)說(shuō),有效圖像塊描述子算法由兩部分構(gòu)成:1)首先從訓(xùn)練圖像集中均勻抽取足夠的圖像塊,然后在這些圖像塊形成的Gram矩陣上執(zhí)行不完整Cholesky分解算法.如果設(shè)定N代表圖像塊的個(gè)數(shù),M代表分解后矩陣的秩,通常情況下,M<<N.這樣做的好處有兩點(diǎn):首先,在分解過(guò)程中只需要按需計(jì)算O(MN)個(gè)Gram矩陣元素的值;其次,對(duì)Gram矩陣執(zhí)行Cholesky分解的時(shí)間復(fù)雜度為O(M2N),遠(yuǎn)遠(yuǎn)低于KPCA算法的O(N3).2)經(jīng)過(guò)第1步分解步驟之后,選擇出了M個(gè)最具代表性的基圖像塊,新圖像塊的特征表示僅僅通過(guò)O(M)次計(jì)算就可以得到.算法的具體步驟將在以下部分詳細(xì)介紹.

3.1Gram矩陣的低秩近似半正定的Gram矩陣K可以分解為GGT,所以不完整Cholesky分解的目標(biāo)就是找到一個(gè)矩陣G,其大小為NM,使得TGG在M足夠小的情況下近似K.在執(zhí)行不完整Cholesky分解算法的過(guò)程中,選擇出M個(gè)最具代表性的基圖像塊,利用所有圖像塊和這M個(gè)基圖像塊之間的相似性,可以近似恢復(fù)Gram矩陣K.這里,M的值是可以通過(guò)算法在線確定的,由算法中提前給定的近似精度參數(shù)來(lái)控制.關(guān)于不完整Cholesky分解的詳細(xì)執(zhí)行過(guò)程可以參考文獻(xiàn)[26],其中,作為輸入?yún)?shù)的Gram矩陣K實(shí)際上是按需計(jì)算的,即,算法執(zhí)行過(guò)程中需要用到哪兩個(gè)訓(xùn)練圖像塊間的相似度,就按照公式(1)計(jì)算得到.算法執(zhí)行后,就得到了一些具有代表性的基圖像塊,用向量P保存基圖像塊的索引序號(hào),同時(shí)得到了矩陣G,使得.TGGK

3.2構(gòu)造圖像塊特征映射算法一旦獲得了NM的矩陣G,新圖像塊的特征(有效圖像塊描述子)就可以由G構(gòu)造.其中,新圖像塊特征維度大小由M確定,每一維度i的值可由新圖像塊與P(i)所指示的基圖像塊間相似性K(newpatch,P(i))恢復(fù)得到。通過(guò)算法1可以看到:選擇出的M個(gè)最具代表性的基圖像塊可以看成是一系列局部圖像塊的非線性濾波器,將每個(gè)新圖像塊和這些基圖像塊進(jìn)行相似性度量的過(guò)程,也可看成是對(duì)這個(gè)新圖像塊進(jìn)行特征提取的過(guò)程.另外,針對(duì)圖像塊相似度矩陣執(zhí)行不完整Cholesky分解往往可以保證獲得精度非常高的低秩近似,且分解過(guò)程中只與某些訓(xùn)練樣本(圖像塊)有關(guān).也就是說(shuō),利用這些訓(xùn)練樣本就可以很好地近似恢復(fù)相似度矩陣,所以訓(xùn)練集中的圖像塊具有不同程度的重要性.因此,我們稱(chēng)重要性最高的前M個(gè)圖像塊為“最具代表性”的基圖像塊.為了更加形象地展示這些重要的基圖像塊,我們?cè)赟cene-15圖像庫(kù)上提取了最重要的前16個(gè)基圖像塊,如圖1所示(每個(gè)圖像塊由其像素點(diǎn)的梯度幅值來(lái)表示).可以看到,每個(gè)圖像塊都包含了豐富的邊緣和紋理信息.本文提出的有效圖像塊描述子算法不只繼承了文獻(xiàn)[8]的有效性,而且很好地解決了核描述子算法中的第3點(diǎn)缺陷,最大限度地發(fā)揮了圖像塊特征的判別能力.

4利用MMD距離計(jì)算圖像間的相似性

基于算法1,每一個(gè)圖像塊都可以用有效圖像塊描述子來(lái)表示.一幅圖像通過(guò)稠密采樣確定很多關(guān)鍵點(diǎn),每一個(gè)關(guān)鍵點(diǎn)都對(duì)應(yīng)著一個(gè)局部的圖像塊,因此,一幅圖像就對(duì)應(yīng)著一個(gè)局部特征的集合.假定圖像I1包含m個(gè)圖像塊,則其特征集合可以表示為Fp(patchp1,patchp2,…,patchpm),圖像I2包含n個(gè)圖像塊,其特征集合表示為Fq(patchq1,patchq2,…,patchqn).Fp可以看作特征空間中來(lái)自分布p的一個(gè)樣本集,同樣,Fq也可以看作是來(lái)自分布q的樣本集.這樣,圖像I1與I2之間的差異性就可以由p和q兩個(gè)分布的距離表示.當(dāng)然,這兩個(gè)概率分布之間的距離只能通過(guò)這兩個(gè)樣本集進(jìn)行估算.為此,本文采用基于高維概率分布的MaximumMeanDiscrepancy(MMD)距離[24]進(jìn)行估算.MMD距離可以看作是將兩個(gè)概率分布,通過(guò)非線性核函數(shù)映射到再生核希爾伯特空間(RKHS)后均值的距離.對(duì)于上述分布p和q的MMD距離估計(jì)可由公式(3)計(jì)算。單純地利用公式(3),并沒(méi)有考慮局部特征在整幅圖像上的空間分布信息.為了解決這個(gè)問(wèn)題,本文首先采用空間金字塔方法將整幅圖像進(jìn)行逐層劃分;然后,在兩幅圖像每個(gè)層次對(duì)應(yīng)的小圖像上計(jì)算它們之間的MMD距離;最終,將所有層次的MMD距離按照其對(duì)應(yīng)層次的權(quán)重進(jìn)行匯總求和,然后度量?jī)煞鶊D像I1與I2之間的差異性.

5實(shí)驗(yàn)

本文使用像素點(diǎn)的梯度、形狀和顏色屬性分別構(gòu)造基于梯度的有效圖像塊描述子(EPLd-G)、基于形狀的有效圖像塊描述子(EPLd-S)和基于顏色的有效圖像塊描述子(EPLd-C).為了測(cè)試有效圖像塊描述子算法的性能,分別在3個(gè)著名的圖像分類(lèi)數(shù)據(jù)庫(kù)(Scene-15,Caltech-101[28]和UIUC-8[29])上做了實(shí)驗(yàn).在接下來(lái)的實(shí)驗(yàn)中,計(jì)算3個(gè)不同類(lèi)型的有效圖像塊描述子都是首先將圖像按照固定比率縮放到不超過(guò)300300像素點(diǎn);特別地,在計(jì)算EPLd-G和EPLd-S時(shí),將縮放后的圖像中的像素點(diǎn)的灰度值標(biāo)準(zhǔn)化為[0,1]范圍.圖像塊通過(guò)每隔8個(gè)像素點(diǎn)的稠密采樣方式從訓(xùn)練集圖像中進(jìn)行抽取,大小為1616像素點(diǎn).EPLd-All是將EPLd-G,EPLd-S和EPLd-C這3個(gè)描述子串接起來(lái)形成的.訓(xùn)練線性SVM分類(lèi)器使用LIBLINEAR[30],其中,圖像間的相似性利用MMD距離來(lái)定義.在計(jì)算MMD時(shí),將圖像按照11,22和33分為3個(gè)層次來(lái)匯總求和,尺度參數(shù)在不同的數(shù)據(jù)庫(kù)上利用交叉驗(yàn)證方法確定.所有的實(shí)驗(yàn)均重復(fù)10次,每次的訓(xùn)練集和測(cè)試集都隨機(jī)抽取確定,將10次分類(lèi)準(zhǔn)確率的平均值和方差記錄下來(lái).實(shí)驗(yàn)中的其他參數(shù)從公平比較的角度考慮,與文獻(xiàn)[6,8]設(shè)置相同.

5.1Scene-15Scene-15場(chǎng)景數(shù)據(jù)庫(kù)包含4485張圖片,這些圖片分屬15個(gè)類(lèi)別,有室內(nèi)場(chǎng)景和室外場(chǎng)景,每一個(gè)類(lèi)別包含200張~400張圖片不等.按照慣例,從每個(gè)類(lèi)別中隨機(jī)抽取100張圖片作為訓(xùn)練,剩余圖片作為測(cè)試.在算法中設(shè)置Pivots的個(gè)數(shù)為200,即,利用不完整Cholesky分解選出200個(gè)最具代表性的基圖像塊來(lái)構(gòu)造維度為200的有效圖像塊描述子.實(shí)驗(yàn)結(jié)果列在表1中(其中,KD代表核描述子方法[6],EKD代表有效核描述子方法[8],EPLd代表本文提出的有效圖像塊描述子方法),EPLd方法獲得在這個(gè)數(shù)據(jù)庫(kù)上的最佳分類(lèi)準(zhǔn)確率(87.0%).另外,EPLd方法在所有4種不同情況(梯度、形狀、顏色和上述3種屬性的匯總)下的性能均超過(guò)了文獻(xiàn)[6,8].在實(shí)驗(yàn)中,除了測(cè)試分類(lèi)準(zhǔn)確率來(lái)體現(xiàn)EPLd的判別能力,還通過(guò)不同維度下測(cè)試分類(lèi)準(zhǔn)確率來(lái)體現(xiàn)EPLd的有效性.我們發(fā)現(xiàn),在特征維度只有50維的情況下也獲得了接近最優(yōu)分類(lèi)準(zhǔn)確率的性能,這充分體現(xiàn)出EPLd算法的有效性和健壯性.事實(shí)上,通過(guò)表2可以看到:特征維度從50維增加到300維,分類(lèi)準(zhǔn)確率并沒(méi)有得到明顯的提升.造成這一現(xiàn)象的原因是,不完整Cholesky分解容易獲得高質(zhì)量的低秩近似.表2中的數(shù)據(jù)表明:即使是50維的低秩近似也足以體現(xiàn)Gram矩陣中的關(guān)鍵信息,而這些關(guān)鍵信息直接決定了分類(lèi)的性能.在后面的實(shí)驗(yàn)中,從算法效率的角度考慮都使用了100維的特征表示.

5.2Caltech-101Caltech-101圖像數(shù)據(jù)庫(kù)包含9144張圖片.這9144張圖片隸屬于101個(gè)對(duì)象類(lèi)別外加一個(gè)背景類(lèi)別,每個(gè)類(lèi)別中的圖片在31張~800張不等.表3中,將EPLd與其他有代表性的描述子算法進(jìn)行了對(duì)比.同樣根據(jù)慣例,每個(gè)類(lèi)別隨機(jī)挑出30張圖片進(jìn)行訓(xùn)練,從剩余圖片中挑選不超過(guò)50張進(jìn)行測(cè)試.可以看到:EPLd算法達(dá)到了最佳的分類(lèi)準(zhǔn)確率(77.1%),甚至在僅僅使用梯度屬性的情況下(EPLd-G)也達(dá)到了非常不錯(cuò)的分類(lèi)效果(73.7%).

5.3UIUC-8UIUC-8圖像數(shù)據(jù)庫(kù)包含1579張圖片,這1579張圖片隸屬于8個(gè)運(yùn)動(dòng)類(lèi)別,每個(gè)類(lèi)別下包含圖片137張~250張不等.按照慣例,隨機(jī)從每個(gè)類(lèi)別中抽取70張圖片進(jìn)行訓(xùn)練,從剩余圖片中挑選60張進(jìn)行測(cè)試.分類(lèi)準(zhǔn)確率結(jié)果列于表4中.通過(guò)表4可以看到,EPLd-All非常接近最佳分類(lèi)準(zhǔn)確率(87.2%vs.87.23%).在實(shí)驗(yàn)部分的最后,本文對(duì)比了構(gòu)造3種不同描述子(EPLdvs.KDvs.EKD)的計(jì)算效率.其中,最耗時(shí)的是形狀特征,一幅標(biāo)準(zhǔn)圖像(最大300300分辨率,圖像塊大小為1616像素點(diǎn),圖像塊間隔8個(gè)像素點(diǎn))上的EPLd-S與EKD-S描述子在Matlab環(huán)境下計(jì)算需要耗時(shí)2s,而KD-S需要耗時(shí)2.5s.對(duì)于梯度特征,EPLd-G與EKD-G描述子耗時(shí)0.9s,KD-G耗時(shí)1s.以上對(duì)比結(jié)果列在表5中.表5中的對(duì)比結(jié)果是在生成100維特征情況下得到的,如果提高特征的維度,EPLd與EKD的計(jì)算效率提升相對(duì)于KD會(huì)表現(xiàn)得更加明顯.另外一點(diǎn)需要指出的是:EPLd與EKD的計(jì)算耗時(shí)雖然基本相同,但EPLd描述子的特征判別能力相對(duì)于EKD描述子要強(qiáng)很多,這一點(diǎn)通過(guò)在3個(gè)圖像數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)對(duì)比結(jié)果可以得到印證.所以,綜合考慮,EPLd描述子無(wú)論在計(jì)算效率還是在判別能力上都要優(yōu)于EKD和KD描述子.

6結(jié)束語(yǔ)