公務員期刊網 精選范文 卷積神經網絡的特征范文

卷積神經網絡的特征精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經網絡的特征主題范文,僅供參考,歡迎閱讀并收藏。

卷積神經網絡的特征

第1篇:卷積神經網絡的特征范文

關鍵詞:深度學習;機器學習;卷積神經網絡

1概述

深度學習(Deep Learning)是人工智能、圖像建模、模式識別、神經網絡、最優(yōu)化理論和信號處理等領域的交叉學科,主要構建和模擬人腦進行分析學習,它屬于機器學習的新興領域。

2大數據與深度學習

目前,光學檢測、互聯網、用戶數據、互聯網、金融公司等許多領域都出現了海量數據,采用BP算法對于訓練神經網絡出現了梯度越來越稀疏、收斂到局部最小值只能用有標簽的數據來訓練等缺點。Hinton于2006年提出了深度學習的概念,Lecun等人提出了卷積神經網絡,卷積神經網絡利用空間關系減少參數數目以提高訓練性能。

CPU和GPU計算能力大幅提升,為深度學習提供了硬件平臺和技術手段,在海量大數據處理技術上解決了早期神經網絡訓練不足出現的過擬合、泛化能力差等問題。

大數據和深度學習必將互相支撐,推動科技發(fā)展。

3深度學習模型

深度學習模型實際上是一個包含多個隱藏層的神經網絡,目前主要有卷積神經網絡,深深度置信神經網絡,循環(huán)神經網絡。

1)卷積神經網絡

在機器學習領域,卷積神經網絡屬于前饋神經網絡的一種,神經元不再是全連接的模式,而是應用了局部感受區(qū)域的策略。然而傳統(tǒng)的神經網絡使用神經元間全連接的網絡結構來處理圖像任務,因此,出現了很多缺陷,導致模型⑹急劇增加,及其容易過擬合。

在卷積神經網絡中,網絡中的神經元只與前一層的部分神經元連接,利用圖像數據的空間結構,鄰近像素間具有更強的相關性,單個神經元僅對局部信息進行響應,相鄰神經元感受區(qū)域存在重疊,因此,綜合所有神經元可以得到全局信息的感知。

另外,一個卷積層中的所有神經元均由同一個卷積核對不同區(qū)域數據響應而得到,即共享同一個卷積核,使得卷積層訓練參數的數量急劇減少,提高了網絡的泛化能力。

一般在卷積層后面會進行降采樣操作,對卷積層提取的特征進行聚合統(tǒng)計。降采樣區(qū)域一般不存在重疊現象。降采樣簡化了卷積層的輸出信息,進一步減少了訓練參數的數量,增強了網絡的泛化能力。

卷積神經網絡實現了局部特征的自動提取,使得特征提取與模式分類同步進行,適用于處理高分辨率的圖像數據。目前,卷積神經網絡在圖像分類、自然語言處理等領域得到廣泛應用。

2)深度置信網絡

深度置信網絡是一種生成模型,網絡中有若干隱藏層,同一隱藏層內的神經元沒有連接,隱藏層間的神經元全連接。神經網絡經過“反向運行”得到輸入數據。

深度置信網絡可以用做生成模型,通過前期的逐層無監(jiān)督學習,神經網絡可以較好的對輸入數據進行描述,然后把訓練好的神經網絡看作深度神經網絡,最后得到分類任務的深度神經網絡。

深度置信網絡可以用于圖像識別、圖像生成等領域,深度置信網絡可以進行無監(jiān)督或半監(jiān)督的學習,利用無標記數據進行預訓練,提高神經網絡性能。但近幾年由于卷積神經網絡的飛速發(fā)展,深度置信網絡已經很少被提及。

3)循環(huán)神經網絡

循環(huán)神經網絡是一種專門用于處理時序數據的神經網絡,它與典型的前饋型神經網絡最大區(qū)別在于網絡中存在環(huán)形結構,隱藏層內部的神經元是互相連接的,可以存儲網絡的內部狀態(tài),其中包含序列輸入的歷史信息,實現了對時序動態(tài)行為的描述。這里的時序并非僅僅指代時間概念上的順序,也可以理解為序列化數據間的相對位置。如語音中的發(fā)音順序,某個英語單詞的拼寫順序等。序列化輸入的任務都可以用循環(huán)神經網絡來處理。如語音、視頻、文本等。對于序列化數據,每次處理時輸入為序列中的一個元素,比如單個字符、單詞、音節(jié),期望輸出為該輸入在序列數據中的后續(xù)元素。循環(huán)神經網絡可以處理任意長度的序列化數據。

循環(huán)神經網絡可以用于機器翻譯、連寫字識別、語音識別等。循環(huán)神經網絡和卷積網絡結合,將卷積神經網絡用于檢測并識別圖像中的物體,循環(huán)神經網絡用于識別出物體的名稱為輸入,生成合理的語句,從而實現對圖像內容的描述。

4深度學習應用

1)語音識別

語音識別技術主要包括特征提取技術、模式匹配準則及模型訓練技術三個方面。其應用領域主要有語音輸入系統(tǒng)、語音控制系統(tǒng)和智能對話查詢系統(tǒng),語音識別極大地推動了人工智能的快速發(fā)展。1952年Davis等人研究了世界上第一個能識別10個英文數字發(fā)音的實驗系統(tǒng)。大規(guī)模的語音識別研究是在20世紀70年代以后,在小詞匯量、孤立詞的識別方面取得了實質性的進展。2012年,微軟研究院使用深度神經網絡應用在語音識別上將識別錯誤率降低了20%,取得了突破性的進展。2015年11月17日,浪潮集團聯合全球可編程芯片巨頭Altera,以及中國最大的智能語音技術提供商科大訊飛,共同了一套DNN語音識別方案。

2)圖像分析

圖像是深度學習最早嘗試的應用領域。1989年,LeCun和他的同事們就發(fā)表了卷積神經網絡的工作。2012年10月,Hinton和他的兩個學生用更深的CNN在ImageNet挑戰(zhàn)上獲得了第一名,使圖像識別向前躍進了一大步。

自2012年以來,深度學習應用于圖像識別使得準確率大大上升,避免了消耗人工特征抽取的時間,極大地提升了效率,目前逐漸成為主流的圖像識別與檢測方法。

第2篇:卷積神經網絡的特征范文

關鍵詞:機器學習;深度學習;推薦算法;遠程教育

深度學習(DeepLearning),也叫階層學習,是機器學習領域研究的分支,它是學習樣本數據的表示層次和內在規(guī)律,在學習的過程中獲取某些信息,對于數據的解釋有巨大幫助。比如對文字數據的學習,在網絡上獲取關鍵字,對圖像數據的學習,進行人臉識別等等。

一、深度學習發(fā)展概述

深度學習是機器學習領域里一種對數據進行表征學習的方法。一句話總結三者之間的關系就是:“機器學習,實現人工智能的方法;深度學習,實現機器學習的技術。深度學習目前是機器學習和人工智能領域研究的主要方向,為計算機圖形學、計算機視覺等領域帶來了革命性的進步。機器學習最早在1980年被提出,1984年分類與回歸樹出現,直到1986年,Rumelhart等人反向傳播(BackPropaga-tion,BP)算法的提出,解決了感知模型只能處理線性分類的問題,1989年出現的卷積神經網絡(ConvolutionalNeuralNet-works,CNN)也因此得到了一定的發(fā)展。在1990年至2012年,機器學習逐漸成熟并施以應用,GeoffreyHinton在2006年設計出了深度信念網絡,解決了反向傳播算法神經網絡中梯度消失的問題,正式提出了深度學習的概念,逐漸走向深度學習飛速發(fā)展的時期。隨后,各種具有獨特神經處理單元和復雜層次結構的神經網絡不斷涌現,深度學習技術不斷提高人工智能領域應用方面的極限。

二、深度學習主要模型

1、卷積神經網絡卷積神經網絡(ConvolutionalNeuralNetworks,CNN)是指有著深度結構又包含著卷積計算的前饋神經網絡。卷積物理上理解為系統(tǒng)某一時刻的輸出是有多個輸入共同疊加的結果,就是相當于對一個原圖像的二次轉化,提取特點的過程。卷積神經網絡實際上就是一個不斷提取特征,進行特征選擇,然后進行分類的過程,卷積在CNN里,首先對原始圖像進行特征提取。所以卷積神經網絡能夠得到數據的特征,在模式識別、圖像處理等方面應用廣泛。一個卷積神經網絡主要由三層組成,即卷積層(convolutionlayer)、池化層(poolinglayer)、全連接層(fullyconnectedlayer)。卷積層是卷積神經網絡的核心部分,通過一系列對圖像像素值進行的卷積運算,得到圖像的特征信息,同時不斷地加深節(jié)點矩陣的深度,從而獲得圖像的深層特征;池化層的本質是對特征圖像進行采樣,除去冗雜信息,增加運算效率,不改變特征矩陣的深度;全連接將層間所有神經元兩兩連接在一起,對之前兩層的數據進行分類處理。CNN的訓練過程是有監(jiān)督的,各種參數在訓練的過程中不斷優(yōu)化,直到得到最好的結果。目前,卷積神經網絡的改進模型也被廣泛研究,如全卷積神經網絡(FullyConvolutionalNeuralNetworks,FCN)和深度卷積神經網絡(DeepConvolutionalNeuralNetworks,DCNN)等等。2、循環(huán)神經網絡區(qū)別于卷積神經網絡在圖片處理領域的應用,循環(huán)神經網絡(RecurrentNeuralNetwork,RNN)主要應用在自然語言處理領域。RNN最大的特點就是神經元的輸出可以繼續(xù)作為輸入,再次利用到神經元中循環(huán)使用。RNN是以序列的方式對數據進行讀取,這也是RNN最為獨特的特征。RNN的串聯式結構適用于時間序列的數據,可以完好保持數據中的依賴關系。循環(huán)神經網絡主要有三層結構,輸入層,隱藏層和輸出層。隱藏層的作用是對輸入層傳遞進來的數據進行一系列的運算,并將結果傳遞給輸出層進行輸出。RNN可用于許多不同的地方。下面是RNN應用最多的領域:1.語言建模和文本生成,給出一個詞語序列,試著預測下一個詞語的可能性。這在翻譯任務中是很有用的,因為最有可能的句子將是可能性最高的單詞組成的句子;2.語音識別;3.生成圖像描述,RNN一個非常廣泛的應用是理解圖像中發(fā)生了什么,從而做出合理的描述。這是CNN和RNN相結合的作用。CNN做圖像分割,RNN用分割后的數據重建描述。這種應用雖然基本,但可能性是無窮的;4.視頻標記,可以通過一幀一幀地標記視頻進行視頻搜索。3、深度神經網絡深度神經網絡(deepneuralnetworks,DNN)可以理解為有很多隱藏層的神經網絡。多層神經網絡和深度神經網絡DNN其實也是指的一個東西,DNN有時也叫做多層感知機(Mul-ti-Layerperceptron,MLP)。DNN內部的神經網絡層也是分為三類,輸入層,隱藏層和輸出層,一般來說第一層是輸入層,最后一層是輸出層,而中間的層數都是隱藏層。深度神經網絡(DNN)目前作為許多人工智能應用的基礎,并且在語音識別和圖像識別上有突破性應用。DNN的發(fā)展也非常迅猛,被應用到工業(yè)自動駕駛汽車、醫(yī)療癌癥檢測等領域。在這許多領域中,深度神經網絡技術能夠超越人類的準確率,但同時也存在著計算復雜度高的問題。因此,那些能夠解決深度神經網絡表現準確度或不會增加硬件成本高效處理的同時,又能提升效率和吞吐量的技術是現在人工智能領域能夠廣泛應用DNN技術的關鍵。

三、深度學習在教育領域的影響

1、學生學習方面通過網上學習的實時反饋數據對學生的學習模式進行研究,并修正現有教學模式存在的不足。分析網絡大數據,相對于傳統(tǒng)在線學習本質區(qū)別在于捕捉學生學習過程,有針對性,實現學生個性化學習。舉個例子,在學習過程中,可以通過學習平臺對學生學習課程所花費的時間,參與的程度,知識的偏好等等數據加以分析。也可以通過學生學習某門課程的次數,鼠標點擊次數、停留的時間等,來推斷學生學習情況。通過以上或類似數據匯總分析,可以正向引導學生學習,并給予積極的學習評價。這種利用計算機收集分析出來的客觀數據,很好展示了學生學習行為的結果,總結學習規(guī)律,而不需要教師多年的教學經驗來判斷。對于教育研究者而言,利用深度學習技術可以更客觀準確地了解學生,使教學工作良好發(fā)展更進一步。2、教學方面學習平臺的數據能夠對教學模式的適應度進行預測,通過學生的考試成績和對教師的線上評價等加以分析,能夠預測出某一階段的教學方式發(fā)發(fā)是否可行,影響如何。通過學生與教師的在線互動,學生測驗時完成的時間與完成的結果,都會產生大量的有效的數據,都可以為教師教學支持服務的更好開展提供幫助,從而避免低效率的教學模式造成教學資源的浪費。

四、成人遠程教育中深度學習技術的可應用性

深度學習方面的應用在眾多領域都取得了成功,比如電商商品推薦、圖像識別、自然語言處理、棋類博弈等等。在遠程教育方面,深度學習的技術還有很大的發(fā)揮空間,智能網絡教育的實現是人們的眾望所盼。若要將深度學習技術應用到遠程教育平臺,首先要清楚學生的需求和教學資源如何分配。1、針對學生的學習需求與學習特征進行分析美國斯坦福大學克里斯皮希研究團隊的研究成果顯示,通過對學生知識學習進行時間建模,可以精確預測出學生對知識點的掌握情況,以及學生在下一次學習中的表現。深度學習的應用可以幫助教師推測出學生的學習能力發(fā)展水平。通過學生與教學環(huán)境的交互行為,分析其學習風格,避免教師用經驗進行推斷而產生的誤差。2、教學資源的利用與分配深度學習技術能夠形成智能的分析結論。計算機實時采集數據集,對學生的學習情況加以分析,使教師對學生的學習狀態(tài)、情緒狀態(tài)等有更加清晰、準確的了解。有了上面良好的教學模式,教師對學生的學習狀態(tài)有了更準確的掌握,對學生的學習結果就有了更科學的教學評價。基于深度學習的人工智能技術,還可以輔助教師實現智能閱卷,通過智能閱卷自動總結出學習中出現的問題,幫助教師減少重復性勞動,減輕教師負擔。作為成人高校,遠程教育是我們的主要教學手段,也是核心教學方式,學校的教學必定是在學生方便學習的同時,以學生的學習效果為重。通過深度學習技術,可以科學地分析出學生的學習效果,對后續(xù)教與學給予科學、可靠的數據支撐。我們可以在平臺上為每位同學建立學習模型,根據學生的學習習慣為其定制個性化方案,按他們的興趣進行培養(yǎng),發(fā)揮他們專業(yè)的潛能。同時,可以將學生正式在線參加學習和考試的學習行為和非學習時間瀏覽網站的行為結合到一起,更加科學地分析出學生在學習網站上感興趣的地方。采用深度學習算法,根據學生學習行為產生的海量數據推算出學生當前狀態(tài)與目標狀態(tài)之間的差距,做到精準及時的學習需求反饋。有助于幫助學生明確學習目標,教師確立教學目標,真正做好因材施教?;谏疃葘W習各種智能識別技術,可以為教師的線上教學活動增光添彩,在反饋學生學習狀態(tài)的同時,采用多種形式的教學方法吸引學生的注意力,增強教學活動的互動性,達到良好的教學效果。

第3篇:卷積神經網絡的特征范文

關鍵詞:卷積神經網絡;語言模型;分析

1 卷積神經網絡語言模型

CNN語言模型基本結構包括輸入層、卷積層、池化層及后續(xù)的分類層。輸入層是表示語言的矩陣,該矩陣可以是通過Google word2vec或GloVe預訓練得到的詞嵌入表示,也可以是從原始數據重新訓練的語言的向量表示。輸入層之后是通過線性濾波器對輸入矩陣進行卷積操作的卷積層。在NLP問題中,輸入矩陣總是帶有固定順序的結構,因為矩陣的每一行都表示離散的符號,例如單詞或者詞組等。因此,使用等寬的濾波器是非常合理的設置。在這種設置下,僅需要考慮濾波器的高度既可以實現不同尺寸的濾波器做卷積操作。由此可知,在處理NLP問題時,卷積神經網絡的濾波器尺寸一般都是指濾波器的高度。

然后,將卷積層輸出的特征映射輸入池化層,通過池化函數為特征映射進行降維并且減少了待估計參數規(guī)模。一般的,CNN池化操作采用1-max池化函數。該函數能夠將輸入的特征映射統(tǒng)一生成維度相同的新映射。通過池化操作,可以將卷積層生成的特征連接成更抽象的高級特征,所得到的高級特征尺寸與輸入的句子不再存在直接關系。

最后,將得到的高級特征輸入softmax分類層進行分類操作。在softmax層,可以選擇應用dropout策略作為正則化手段,該方法是隨機地將向量中的一些值設置為0。另外還可以選擇增加l2范數約束,l2范數約束是指當它超過該值時,將向量的l2范數縮放到指定閾值。在訓練期間,要最小化的目標是分類的交叉熵損失,要估計的參數包括濾波器的權重向量,激活函數中的偏置項以及softmax函數的權重向量。

2 卷積神經網絡語言模型應用分析

CNN語言模型已經廣泛應用于諸如文本分類,關系挖掘以及個性化推薦等NLP任務,下面將對這些應用進行具體的介紹與分析。

2.1 CNN在文本分類中的應用分析

kim提出了利用CNN進行句子分類的方法。該方法涉及了較小規(guī)模的參數,并采用靜態(tài)通道的CNN實現了效果很優(yōu)異的句子分類方法。通過對輸入向量的調整,進一步提高了性能實現了包括情感極性分析以及話題分類的任務。在其基礎上為輸入的詞嵌入設計了兩種通道,一種是靜態(tài)通道,另一種是動態(tài)通道。在卷積層每一個濾波器都通過靜態(tài)與動態(tài)兩種通道進行計算,然后將計算結果進行拼接。在池化層采用dropout正則化策略,并對權值向量進行l(wèi)2約束。最后將該算法應用于MR、SST-1與SST-2、Subj、TREC、CR以及MPQA等數據集。MR數據集為電影評論數據集,內容為一句話的電影評論,其分類包括積極情感極性與消極情感極性兩類。SST-1與SST-2數據集為斯坦福情感樹庫是MR數據集的擴展,但該數據集已經劃分好了訓練集、驗證集及測試集并給出了細粒度的標記,標記包括非常積極、積極、中性、消極、非常消極等情感極性。Subj數據集為主觀性數據集,其分類任務是將句子分為主觀句與客觀句兩類。TREC數據集為問題數據集,其分類任務是將所有問題分為六類,例如關于數字、人物或位置等信息的問題。CR數據集為評論數據集,包括客戶對MP3、照相機等數碼產品的評論,其分類任務是將其分為積極評價與消極評價兩類。MPQA數據集是意見極性檢測任務數據集。通過實驗證明,該方法在這幾個典型數據集上都能取得非常優(yōu)異的效果。

2.2 CNN在關系挖掘中的應用分析

Shen等人提出了一種新的潛在語義模型,以詞序列作為輸入,利用卷積-池化結構為搜索查詢和Web文檔學習低維語義向量表示。為了在網絡查詢或網絡文本中捕捉上下文結構,通過輸入單詞序列上下文時間窗口中的每個單詞來獲取詞匯級的n-gram語法特征,將這些特征聚合成句子級特征向量。最后,應用非線性變換來提取高級語義信息以生成用于全文字符串的連續(xù)向量表示。該模型的不同之處在于,輸入層與卷積層之間加入了word-n-gram層與letter-trigram層,它們能夠將輸入的詞序列轉變?yōu)閘etter-trigram表示向量。在卷積層通過上下文特征窗口發(fā)現相鄰單詞的位置特征,并變現為n-gram形式。然后通過max池化將word-n-gram特征合并為句子級的高級特征。在池化層之后增加了語義層來提取更高級的語義表示向量。

2.3 CNN在個性化推薦中的應用分析

Weston等人提出了一種能夠利用標簽(hashtag)有監(jiān)督的學習網絡帖子短文本特征表示的卷e嵌入模型(Convolutional Embedding Model)。該方法利用提出的CNN模型在55億詞的大數據文本上通過預標注的100,000標簽進行訓練。該方法除了標簽預測任務本身能取得好的效果外,學習到的特征對于其它的文本表示任務也能起到非常有效的作用。該模型與其它的詞嵌入模型類似,輸入層為表示文本的矩陣,但是,在用查找表表示輸入文本的同時將標簽也使用查找表來表示。對于給定的文檔利用10萬條最頻繁出現的標簽通過評分函數對任何給定的主題標簽進行排序。

其中,econv(w)表示CNN的輸入文檔,elt(t)是候選標簽t的詞嵌入表示。因此,通過對分數f(w,t)進行排序可以獲取所有候選主題標簽中排序第一的話題進行推薦。實驗數據集采用了兩個大規(guī)模語料集,均來自流行的社交網絡文本并帶有標簽。第一個數據集稱作people數據集,包括搜集自社交網絡的2億1000萬條文本,共含有55億單詞。第二個數據集被稱作pages,包括3530萬條社交網絡文本,共含有16億單詞,內容包括企業(yè)、名人、品牌或產品。

3 結束語

卷積神經網絡應用于語言模型已經取得了非常大的發(fā)展,對于自然語言處理中的各項任務均取得了優(yōu)異的結果。本文通過對幾項典型工作的分析,探討了不同卷積神經網絡模型結構在不同任務中的表現。通過綜合分析可以得出以下結論。首先,CNN的輸入采用原始數據訓練的向量表示一般效果會優(yōu)于預訓練的詞嵌入表示;其次,在卷積層濾波器的尺寸一般采用寬度與輸入矩陣寬度相等的設置;最后,為了優(yōu)化結果可以采用dropout正則化處理。

第4篇:卷積神經網絡的特征范文

[關鍵詞]卷積網絡,mnist,深度學習;

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-914X(2017)02-0168-01

1 概述

幾年來,深度卷積網絡技術飛速發(fā)展,在圖像,語音,自然語言處理等多個人工智能領域紛紛取得領先。深度卷積網絡作為深度神經網絡的一種,其具有獨特的類似于人眼局部感受野的卷積核,以及類似于生物神經的層次級聯結構。由于權值共享的特性,網絡的參數大大減少,同時降低了對訓練數據過擬合的風險,具有比其他種類的深度網絡更加易于訓練的好處。

2 深度卷積網絡

2.1 深度卷積層的結構

一個典型的深度卷積網絡結構如圖2-1所示。

深度卷積網絡的第一層是輸入層,接下來是若干個卷基層和下采樣層,最后是一個分類器,如softmax分類器,由分類器輸出相應的分類結果。通常,每一個卷基層后面都緊跟一個下采樣層。在卷基層,利用局部連接和權值共享可以減少網絡的訓練參數,降低計算的復雜性。通過卷積運算,得到的卷積結果通過sigmoid等激活函數的輸出得到這一層的特征圖,然后作為下一層(下采樣層)的輸入。在下采樣層。將前一層對應的特征圖中相鄰若干個特征通過池化操作合并成一個特征。輸入的圖像數據可以直接傳送到第一個卷積層,進行逐層特征學習,最后利用有標簽樣本數據輸入到softmax分類器,通過后向反饋微調整個網絡的參數。

2.2 深度卷積網絡的學習算法

2.2.1 卷積層的學習

卷積層是利用局部連接和權值共享,減少網絡的自由參數個數,降低網絡參數選取復雜度。在每一個卷積層中,用一個可學習的卷積核與上一層若干個特征圖進行卷積,再通過一個激活函數f,如sigmoid利用式2-1就可以得到相應的輸入特征。

這里l表示層數,k是卷積核,*表示二維卷積,表示偏置,是輸入特征圖集合。

2.2.2 下采樣層的學習

下采樣層利用圖像局部相關性原理,對圖像進行子抽樣,在減少數據處理量的同時保留有用信息。這里通常是對前一層對應的特征圖中的向量特征進行池化操作。池化分為平均池化和最大池化等,池化后特征圖數量不變,但特征圖變小,輸出的特征可用式2-2計算。

其中對應權值,b表示相應偏置,dowm表示下采樣函數。

深度卷積網絡,輸入端直接輸入圖像像素,采用由前向后的逐層學習方式,計算損失函數,再通過bp算法對整個訓練參數進行調整。

3 深度學習中常用方法

3.1 線性校正單元

線性校正單元(ReLU)是當前最普遍使用的非線性激活函數,其函數形式為f(x)=max(x,0)。在過去神經網絡通常使用Tanh或Sigmoid函數作為激活函數。研究表明,生理神經元編碼可能是以稀疏分布的形式表示,因為神經元的活動電位和突出后效應消耗了絕大部分能量,同時能激活的神經元數量預測在1%至4%之間,所以大部分神經元處在靜息狀態(tài)。盡管ReLU非線性,并且在零點處不可微分,但是它可以生成真正的零來進行稀疏表示,所以對生理神經元激活的擬合更好。實驗表明,ReLU作為激活函數,在網絡中學習的更快。

3.2 Dropoup

在網絡的訓練過程中,過擬合是個常見的問題,尤其是在訓練大規(guī)模網絡的時候,Dropout 是處理這個問題的一種方法。Dropout 是指在訓練的時候,以隨機概率拋棄神經元的連接,進而增加網絡的健壯性。若在訓練中使用了 Dropout,則會導致網絡連接數變少,所以測試的時候需要通過對該層的所有權值等比例縮小,以平均近似訓練時的網絡。神經元與Dropout 隨機挑選的單元進行訓練,會使得每個單元不依賴于特定單元從而變得更加健壯,進而產生有用的特征信息。

4 仿真實驗

本文采用matlab仿真環(huán)境,網絡采用五層結構,前兩層為卷積層,卷積核分別為3和5。中間兩層為全連接,最后一層是softmax分類器。實驗結果如圖4-1所示。結果可以看到,錯誤率大約為0.48%左右,此網絡擁有很高的識別率。

參考文獻

[1] 段寶彬,韓立新. 改進的深度卷積網絡及在碎紙片拼接中的應用[J].計算機工程與應用,2014,50(9):176-181.

[2] 鄭昌艷,梅衛(wèi),王剛. 基于深度卷積神經網絡的蛇形機動航跡圖像識別[J].火力與指揮控制,2016.05.

[3] 張宏毅. 基于深度卷e網絡的同款商品圖像檢索研究[J].圖形圖像,2016.04.

[4] 劉暢. MRI腦影像的深度卷積網絡分割和三維可視化[D].

[5] Glorot X, Bordes A, Bengio Y.Deep sparse rectifier neural networks;International Conferenc e on Artificial Intelligence and Statistics[C], 2011.

[6] Lennie P.The cost of cortical computation [J].Current biology,2003,13(6):493-497.

第5篇:卷積神經網絡的特征范文

摘要:

針對帶鋼表面缺陷檢測系統(tǒng)的速度滯后,精度偏低等問題,在分析成像理論和圖像檢測理論的基礎上,設計并實現了一種帶鋼表面缺陷高速高精度在線檢測系統(tǒng).該系統(tǒng)首先采用大功率半導體均勻發(fā)光激光器技術、高速線掃描成像技術和基于圖形處理器的Gabor紋理濾波技術實現了高速高分辨率的圖像采集和處理,然后采用基于嵌套循環(huán)的K-折交叉驗證、信息增益率和BP神經網絡方法構建了高準確率的分類器,以達到對帶鋼表面缺陷高速高精度在線檢測.實驗結果表明,該系統(tǒng)滿足了現有帶鋼生產速度的要求,具有較高的精度和準確率.

關鍵詞:

圖像采集和處理;圖像檢測;Gabor紋理濾波;神經網絡

0引言

鋼鐵企業(yè)為了提高競爭力,對帶鋼的生產提出了新的要求,也對帶鋼表面檢測系統(tǒng)提出了更高的要求,既要有更高的檢測速度還要有更加準確的檢測精度[1].而與此同時,跟隨機器視覺技術的發(fā)展,帶鋼表面檢測系統(tǒng)也得到了廣泛的研究與應用[2].主要研究包括:①光源技術.由于帶鋼檢測對光源要求頻度高、體積小,這限制了傳統(tǒng)光源在其應用[3],激光具有方向性好、亮度高、體積小等優(yōu)點,被廣泛應用于帶鋼檢測應用中,國內的徐科等[4]提出熱軋鋼檢測中用綠光作為激光光源,但激光照明需解決均勻性問題.②掃描技術.由于電荷耦合元件能夠實現實時檢測,成為目前研究和應用的主流技術[5].但是,CCD電荷耦合器需在同步時鐘的控制下,以行為單位一位一位地輸出信息,速度較慢,而互補金屬氧化物半導體光電傳感器采集光信號的同時就可以取出電信號,還能同時處理各單元的圖像信息,速度比CCD電荷耦合器快很多[6].③圖像處理算法.受限于帶鋼加工過程的特性,帶鋼表面呈現出隨機紋理的特點,對于隨機紋理圖像的處理分析,目前常用的方法有共生矩陣法、頻域濾波法、分形法等.作為頻域濾波法的代表,二維Gabor濾波器有著與生物視覺系統(tǒng)相近的特點[7],廣泛應用于紋理圖像的處理分析.但是,CPU很難滿足現在的帶鋼檢測的實時要求[8].④分類算法.特征選擇的主流算法是主成分分析和信息增益.主成分分析存在特征向量方向不一致的問題,而且如何確定主成分存在主觀性[9].信息增益可以衡量特征的優(yōu)劣,利用它可對特征進行排序,方便后面的特征選擇,但信息增益適用于離散特征,信息增益率既適用于離散特征也適用于連續(xù)特征[10],被廣泛應用于特征選擇的過程中.圖像分類算法主流算法包括支持向量機和BP神經網絡.支持向量機不適用于大樣本的分類問題[11].BP神經網絡方法具有能夠解決非線性分類問題,對噪聲不敏感等優(yōu)點,被廣泛應用于帶鋼檢測中,如王成明等[12]提出的基于BP神經網絡的帶鋼表面質量檢測方法等,但是BP神經網絡的超參的設定往往具有隨機性,這嚴重影響了分類效果[13].本文首先介紹了帶鋼表面缺陷高速高分辨率成像系統(tǒng)的設計,針對光源的不均勻性、圖像處理速度慢等問題,提出改進方法,然后介紹了分類器的構建,針對樣本劃分的隨機性、特征選擇的隨機性以及BP神經網絡超參設定的隨機性問題,做出改進,最后介紹試驗結果.

1帶鋼表面缺陷高速高分辨率的成像系統(tǒng)的設計

1)大功率半導體均勻發(fā)光激光器技術.激光能夠保證帶鋼表面缺陷的檢出率[14],本系統(tǒng)選用808nm半導體激光器作為照明源,出光功率可達30W,亮度可達1500流明.激光照明需解決均勻性的問題,本文采用了基于鮑威爾棱鏡的激光線發(fā)生辦法,解決了激光照明的均勻性問題,其光路如圖1所示.該方法首先在激光聚焦位置放置圓形球面透鏡,負責將發(fā)散的激光束匯聚成準平行光,同時控制光柱的粗細,然后,利用鮑威爾棱鏡的擴散效果對圓柱的一個方向進行擴束,最終形成激光線.為保證亮度及寬度的適應性,激光器出光口距離圓透鏡、鮑威爾棱鏡的距離可以精密調整.為了降低反射亮度損失,在透鏡表面鍍上808±5nm的T≥99%的增透膜.

2)基于GPU的Gabor紋理濾波技術.二維Ga-bor濾波器具有易于調諧方向、徑向頻率帶寬及中心頻率等特征,本文采用該方法來進行圖像處理,二維Gabor函數為guv(x,y)=k2σ2exp-N2(x2+y2)2σ[]2×expi(k•()xy[])-exp-σ2{()}2(1)其中:k=kxk()y=kvcosψμkvsinψ()μ;kv=2-v+22π;ψμ=μπN;v的取值決定了Gabor濾波的波長;μ的取值表示Gabor核函數的方向;N為總的方向數.設f(x,y)為圖像函數,guv(x,y)為卷積函數,則卷積輸出N(u,v)可表示為N(u,v)=f(x,y)*guv(x,y)(2)二維Gabor濾波算法計算量較大,為了保證了帶鋼表面缺陷檢測的實時性,采用基于GPU的并行處理架構,其計算流程如圖2所示.GPU的算法分為兩個流程:訓練過程主要針對無缺陷圖像進行,通過訓練完成紋理圖像的背景建模,一方面消除背景變化帶來的干擾,另一方面形成有效的Gabor卷積參數,以便在檢測過程中得到最優(yōu)的檢出效果.檢測過程對實際拍攝的缺陷圖像進行分析,首先按照GPU的核心數和緩存大小對圖像進行分解,本文所有GPU的核心數為1024,顯存2G,因此將原始圖像分解為1000塊,分別加載到1000個核心中,同時并發(fā)運行卷積運算.最后將各個窗口的卷積結果合并到一起,得到完成的濾波結果,最后借助于背景模式,將背景的干擾消除,得到干凈的缺陷區(qū)域.

3)成像系統(tǒng).根據缺陷檢測的精度要求(1800m/min的檢測速度,0.25mm的精度),帶鋼的規(guī)格要求(1900mm規(guī)格),對帶鋼進行成像系統(tǒng)設計.基于互補金屬氧化物半導體(CMOS)的成像芯片具有速度快,用電低等優(yōu)勢.選用兩個4K線掃描CMOS相機作為成像核心器件,選用CameraLinkFull接口作為數據輸出.兩個4K掃描中間重疊100mm作為圖像拼接區(qū).兩組線激光光源與線掃描組成系統(tǒng)的主要成像模塊.成像系統(tǒng)結構如圖3所示.

2構建分類器

檢測缺陷類別及其特征描述如表1所示.

1)訓練集和樣本集劃分.主要缺陷類別有5個,每個類別收集樣本7000,共計35000個樣本.為了避免訓練集和樣本集劃分的盲目性,采用10-折交叉驗證的方式劃分訓練集和測試集,即將樣本集分成10份,從中選1份為測試集,剩下的為訓練集,如圖4所示,究竟選擇哪一份作為測試集,需在后面的嵌套循環(huán)中實現.

2)特征選擇.缺陷區(qū)域的長度、寬度、面積、區(qū)域對比度等共計138個特征形成初始特征集合,利用信息增益率來對各個特征排序.設樣本集T的某個特征子集S中,相異值構成集合A,集合A把特征子集S劃分為多個子集{S1,S2,Sv,…},|Sv|、|S|為集和大小,信息增益率的公式為Gainration(S,A)=Gain(S,A)Intrinsiclnfo(S,A)(3)式中Gain(S,A)為信息增益,是分裂前的信息減去分裂后的信息,公式為Gain(S,A)=InfoBefore(S)-InfoAfter(S)=Entropy(S)-∑v∈Values(A)|Sv||S|Entropy(Sv)(4)式中Entropy(S)為集合S的熵,公式為Entropy(S)=Entropy(p1,p2,…,pm)=-∑mi=1pilogpi(5)式中pi為第i個類別的概率.式(3)中,Intrinsiclnfo(S,A)為內在信息,公式為Intrinsiclnfo(S,A)=∑v∈Values(A)|Sv||S|log(|Sv||S|)(6)利用信息增益率對特征進行排序,再利用循環(huán)(從1到138循環(huán))實現最優(yōu)的特征個數的確定.

3)BP神經網絡隱含層節(jié)點數的確定.BP神經網絡應用到帶鋼表面質量檢測上具有很多優(yōu)勢,但也存在一些問題,主要體現在隱含層節(jié)點數選取的盲目性和初始權值選取的隨機性.對于隱含層節(jié)點數確定問題,利用隱含層節(jié)點數常用計算公式[15](2(m+n)+1,n+槡m+a,log2n,n為輸入層節(jié)點數,m為輸出層節(jié)點數,a為的[1,10]常數)求得節(jié)點數的可能取值集合n1,求得該集合最大值n1-max和最小值n1-min,從n1-min開始到n1-max,利用循環(huán),節(jié)點數逐個增加,確定最優(yōu)的隱含層節(jié)點數[16];

4)BP神經網絡初始權值的選?。旊[含層節(jié)點數確定后,需要確定輸入層和隱含層之間、隱含層和輸出層之間的初始權值.首先生成10組隨機數數組,利用循環(huán)確定最優(yōu)的隨機數數組.

5)判別標準和嵌套循環(huán).上述各循環(huán)中,分類效果好與壞的判別標準是分類的總體精度,公式為OA=∑niin(7)式中:nii為樣本被預測為類別i,n為樣本個數.上述各循環(huán)組合在一起就是一個嵌套循環(huán),其N-S盒圖如圖5所示,最外層是測試集和訓練集的10折交叉驗證,第1層是確定最優(yōu)的特征數,第3層是確定最優(yōu)的隱含層節(jié)點數,第4、5層是確定最優(yōu)的輸入層和隱含層、隱含層和輸出層的初始權值[17-20].經以上循環(huán),確定D3作為測試集,最優(yōu)特征數為23個,最優(yōu)的隱含層節(jié)點數是46個,同時也確定了最優(yōu)的初始權值,對應的3層BP神經網絡的網絡模型如圖6所示.

3實驗結果

1)鮑威爾棱鏡與柱透鏡進行對比在實際工作距離1.5m處,采用0.1m為間隔使用光功率計測試光源功率,如圖7所示,橫軸為測試點,縱軸為測試點的光功率.實驗表明,鮑威爾棱鏡均勻性優(yōu)于柱透鏡.

2)Gabor濾波方法與其他方法比較將動態(tài)閾值法+Blob分析法(方法A)和灰度共生矩陣紋理背景消除法(方法B)兩種方法與Gabor濾波方法進行比較,如圖8所示.由于缺陷與背景灰度相近(圖(a)),致使方法A缺陷丟失(圖(b)),由于缺陷與背景紋理相近(圖(d)),致使方法B產生噪聲(圖(e)),Gabor方法取得了不錯的效果(圖(e)、(圖(f))).

3)GPU與CPU比較以4096×4096的圖像為例,選10幅有代表性圖像,利用CPU(最新的inteli7-2600處理器,4核8線程,2.6GHz,內存8G)和GPU(nVidiaGTX970,4G緩存顯卡)進行Ga-bor運算,計算時間如表2所示,GPU計算效率明顯優(yōu)于CPU,其中CPU的平均耗時為290.4ms,而GPU的平均耗時為31.7ms.

4)檢測效果在產線速度為1775m/min,最小檢測缺陷的尺寸為0.25mm的檢測系統(tǒng)中,對帶鋼的主要4種類型缺陷進行檢測統(tǒng)計,檢測結果如表3所示.可計算出整體檢出率99.9%,檢測準確率99.4%.

4結論

本文提出將基于鮑威爾棱鏡的大功率激光器應用到光源的設計中,保證光源光照的均勻性;提出了新的帶鋼表面缺陷檢測系統(tǒng)的成像系統(tǒng)結構設計,保證了快速、高精度的生成圖像;提出了基于GPU的二維Gabor濾波圖像處理的算法,滿足了實時處理的要求;提出了基于嵌套循環(huán)的分類器擇優(yōu)算法,避免了樣本集選擇、特征選擇和BP神經網絡參數設定的盲目性.借助上述技術,系統(tǒng)實現了較好的效果,滿足當前帶鋼生產的檢測需求.

參考文獻:

[1]張長富.中國鋼鐵工業(yè)運行情況和發(fā)展展望[J].中國鋼鐵業(yè),2013(4):5-8.

[2]劉彩章.基于機器視覺的帶鋼表面缺陷成像系統(tǒng)理論與實驗研究[D].武漢:武漢科技大學,2012:2-4.

[3]高瑀含,安志勇,李娜娜等.高斯光束整形系統(tǒng)的光學設計[J].光學精密工程,2011,19(7):1464-1471.

[4]徐科,楊朝霖,周鵬.熱軋帶鋼表面缺陷在線檢測的方法與工業(yè)應用[J].機械工程學報,2009,45(4):111-114.

[5]李霞.基于CCD的鋼板測寬儀系統(tǒng)設計[D].秦皇島:燕山大學,2014:5-10.

[6]石東新,傅新宇,張遠.CMOS與CCD性能及高清應用比較[J].通訊技術,2010,43(12):174-179.

[7]高梓瑞.Gabor濾波器在紋理分析中的應用研究[D].武漢:武漢理工大學,2012:6-10.

[8]王成順.表面缺陷檢測GPU并行圖像處理技術[D].合肥:合肥工業(yè)大學,2012:3-6.

[9]徐永智,華慧川.對主成分分析三點不足的改進[J].科技管理研究,2009(6):128-130.

[10]李佳龍,閻威武,白曉慧,等.基于數據驅動與信息增益率多指標決策模型的生活飲用水水質評估[J].大連理工大學學報,2016,56(1):92-96.

[11]張曉雷.支持向量機若干問題的研究[D].北京:清華大學,2012:1-20.

[12]王成明,顏云輝,李駿,等.基于BP神經網絡的冷軋帶鋼表面質量檢測研究[J].機械設計與制造,2007(6):106-108.

[13]高正中,張曉燕,龔群英.基于BP神經網絡的超聲波流量計的設計[J].現代電子技術,2016,39(16):6-9.

[14]周洋,何平安,蔣千年等.激光束整形光學系統(tǒng)的設計與研究[J].光學與光電技術,2006,4(2):26-28.

[15]飛思科技產品研發(fā)中心.神經網絡理論與Matlab7實現[M].北京:電子工業(yè)出版社,2005.

[16]沈花玉,王兆霞,高成耀等.BP神經網絡隱含層單元數的確定[J].天津理工大學學報,2008,24(5):13-15.

[17]文冬林.BP神經網絡中一種逃離局部極小點的方法研究[D].貴陽:貴州大學,2008.

[18]甘勝豐.帶鋼表面缺陷圖像檢測與分類方法研究[D].北京:中國地質大學,2013:3-20.

[19]吳彬彬.機器視覺方法在帶鋼表面缺陷檢測中的應用研究[D].武漢:武漢科技大學,2015:4-50.

第6篇:卷積神經網絡的特征范文

關鍵詞:圖像分割;邊緣檢測;算子

中圖分類號: 文獻標識碼:A 文章編號:1007-9599(2011)22-0000-02

Image Segmentation Stud and Achievement Based on Visual C + + Image Edge Detection

Lei Xun,Cheng Luyu,Zheng Tao,Wang Xidi

(Xinjiang Agricultural University of Computer and Information Engineering,Urumqi 830052,China)

Abstract:Recalling the definition of image segmentation and classification algorithms,introduces the emerging modern image segmentation techniques:transform based on wavelet analysis and neural network-based image segmentation.In visual C++ platform to achieve several edge detection simulation.

Keywords:Image segmentation;Edge detection;Operators

圖像分割是計算機視覺領域中最基本、也是最困難的問題之一,分割結果的好壞直接影響到后續(xù)工作的優(yōu)劣。由于圖像的多樣性和復雜性,目前還沒有一種完全通用的分割方法可以實現對所有圖像的正確分割,因此圖像分割技術一直是圖像處理鄰域的研究熱點之一。

一、圖像分割算法介紹

(一)圖像閾值分割。對灰度圖像的閾值分割就是首先對圖像中的所有像素點根據灰度值來進行分級,之后通過算法來確定一個確定的閾值相比較,將大于以及小于閾值的灰度值對應的像素點進行分類,而后對兩類不同的像素點進行二值化??梢钥闯觯撝档拇_定是圖像閾值分割算法研究的重點。

(二)圖像邊緣檢測法。圖像的邊緣是指圖像局部區(qū)域亮度變化顯著的部分。該區(qū)域的灰度剖面一般可以看做一個階躍,即從一個灰度值的很小的緩沖區(qū)域內急劇變化到另一個灰度相差較大的灰度值。[1]邊緣檢測主要是圖像的灰度變化的度量,檢測和定位。邊緣檢測的基本思想:先利用邊緣增強算子,突出圖像中的局部邊緣,然后定義像素的“邊緣強度”,通過設置閾值的方法提取邊緣點集。[2]

(三)區(qū)域提取法。區(qū)域提取法有兩種方法:區(qū)域生長法和區(qū)域分裂合并法。區(qū)域生長法是從某個像素出發(fā),按照一定的準則,逐步合并鄰近像素形成所需的分割區(qū)域,當滿足一定的條件時,區(qū)域分割完畢;區(qū)域分裂合并法是從整個圖像出發(fā),逐漸分裂切割得到各個子區(qū)域。在實際應用當中通常是這兩種基本方法的結合。兩種方法的關鍵都是如何選擇合適的相似準則。

(四)結合特定理論工具的分割算法。基于小波分析和變換的分割方法:小波分析計算復雜度低,抗噪聲能力強,且容易與其它方法結合進行圖像分割。小波分析發(fā)展了傳統(tǒng)的傅立葉變換思想,對非平穩(wěn)信號具有更好的分析能力。[3]基于小波分析的動態(tài)閾值分割方法,先由二進制小波變換將圖像的直方圖分解為不同層次的小波系數, 然后依據一定的分割準則和小波系數選擇閾值門限,利用閾值標出圖像分割的區(qū)域。把小波分析引入圖像分割,利用小波分析動態(tài)取得閾值,可以實現很好的分割效果。

基于神經網絡的分割方法:人工神經網絡,也稱為神經網絡(Neural Networks),即從生物學神經系統(tǒng)的信號傳遞而抽象發(fā)展成的一種方法。是由大量模擬神經元的數學模型相互連接,模擬人腦處理信息的方式,通過學習可以進行并行分布處理的非線性網絡系統(tǒng)。在神經網絡的應用中,相當多的神經網絡模型都是采用BP神經網絡或者它的改進形式。

二、邊緣檢測的Visual C++實現

(一)原理和算法

邊緣是一定數量點灰度發(fā)生變化的地方,那么邊緣檢測大體上就是計算這個灰度變化帶的導數。對這種變化最有用得兩個特征是灰度的變化率和方向,分別以梯度向量的幅度和方向來表示它們。

基于灰度的一階導數可以得到了原始數據灰度的梯度,可以利用此數據搜尋圖像灰度峰值,基于灰度的二階導數實質上是灰度梯度的變化率。在理想的連續(xù)變化情況下,在二階導數中檢測過零點就是梯度中的局部最大值,峰值檢測就是邊線檢測,邊緣檢測算子檢查每個像素的鄰域并量化灰度變化率,也包括方向的確定。

1.Roberts邊緣檢測算子。Roberts邊緣檢測算子是2 X 2 算子模板,利用斜向上的4個像素交叉差分定義。因此該算子對45度和135度方向上的邊緣較為敏感。該模板數學表示為:g(x,y)=[ - ]2+ - ]2}1/2 ,其中f(x,y)是具有整數像素坐標的輸入圖像。

2.Prewitt邊緣算子

為了在邊緣檢測中減少噪聲的影響,1970年Prewitt提出Prewitt算子。Prewitt算子從加大邊緣檢測算子模板大小出發(fā),由2X2擴大到3X3來計算差分算子,其水平方向和垂直方向上的算子模板為以下兩個:

. .

3.Sobel邊緣算子

Sobel算子從不同的方向檢測邊緣,距離不同的像素具有不同的權值,在邊緣點處達到極值的現象進行邊緣檢測。圖像中的每個點都用下面這兩個卷積核做卷積,一個核對通常的垂直邊緣響應最大,而另一個對水平邊緣響應最大。

一個是檢測水平邊沿的 .一個是檢測豎直平邊沿的 。

4.拉普拉斯算子是對二維函數進行運算的二階導數算子。通常使用的拉普拉斯邊緣檢測算子如下:

.

由于拉普拉斯算子是一個二階導數,所以它將在邊緣處產生一個陡峭的零交叉。而噪聲點對邊緣檢測有一定的影響,所以可以利用平滑濾波器進行平滑后再進行邊緣檢測效果會更好,譬如高斯拉普拉斯算子。

(二)仿真實驗與分析

本實驗采用的軟件環(huán)境為Windows XP,編程環(huán)境Visual C++6.0,對bmp文件進行格式分析后先將24位位圖轉換為256位圖,二值化后再利用邊緣檢測算子對圖片分別進行卷積運算。

實驗結果如下所示:

原圖

Robert算子 Prewitt算子

Sobel算子 拉普拉斯算子

Robert算子利用4個像素進行計算,邊緣定位準,對噪聲敏感,適于處理陡峭的低噪聲圖像。Prewitt 算子對噪聲有抑制作用,但Prewitt算子對圖像邊緣的定位不如Robert算子,與Prewitt算子相比,Sobel算子對于像素的位置的影響做了加權,因此效果更好。Laplacian 算子同樣對噪聲比較敏感,所以通常都是用Laplacian 算子和平滑算子結合生成的模板進行圖像分割處理。

結論語:

本實驗只是利用各種邊緣檢測算子對灰度圖像的分割進行了研究,但通常圖像信息中空間復雜性和相關性都比較強,每種方法也只局限于特定的分割對象。實際應用中往往是各種算法的綜合處理。各種算法雖然都可以不斷改進,但如果要從根本上提高圖像處理質量的話,未來需要成功加入高層的語義信息才能滿足社會更多的需求。

參考文獻:

[1]殷國軍,秦莉.圖像分割算法研究綜述[J].河北工程技術高等??茖W校學報.2009,(02)

[2]黃鋒華,劉琪芳,冀金鳳.基于MATLAB數字圖像邊緣檢測算子的研究[J].機械工程與自動化,2011,(04)

[3]王彪,李建文,王鐘斐,基于小波分析的新閾值去噪方法,計算機工程與設計,2011,(03)

[作者簡介]

第7篇:卷積神經網絡的特征范文

關鍵詞: 積分投影; 循環(huán)神經網絡; 長短時記憶網絡; 防止過擬合技術; 精度; 留一法

中圖分類號:TP391.4 文獻標志碼:A 文章編號:1006-8228(2017)04-13-04

Abstract: The existing research on micro expression recognition is mainly based on the improved LBP (local binary patterns) algorithm and SVM (support vector machine). Recently, integral projection has been applied in the field of face recognition. The long and short memory network (LSTM), as a kind of recurrent neural network, can be used to process time series data. So LSTM-IP model, which combines integral projection with LSTM, is proposed, and experimented on the latest micro-expression database CASME II. The horizontal and vertical projection vectors obtained by integral projection are used as the input of LSTM and classified, and the over-fitting preventing method is used. The experimental results show that LSTM-IP algorithm gets better results than the previous method.

Key words: integral projection; recurrent neural network; long and short memory network; prevent over-fitting; accuracy; leave-one-subject-out cross validation

0 引言

人們表情的短時間變化,也叫微表情,心理學在這方面的研究很早就開始了。近年來,有關利用機器學習的方法來對微表情進行研究的學者越來越多,其成為當前一個熱門研究方向。微表情的研究成果可用于測謊[2-4]、臨床診斷等方面,因橐話閎思幢閌切睦硪繳也很難注意到1/25~1/5秒人表情的變化[1],而這時,機器可以很好的對微表情進行自動的識別。

最近,基于積分投影和紋理描述符的方法被用在人臉識別[5],然而,很少有研究將積分投影用于包含人臉的時間序列中進行識別。微表情與人臉識別有很大不同,特征很難單從每幀圖片中提取,這時就需要考慮時間軸。LSTM可以對時序數據進行分類,以前基本用在語音識別和自然語言處理的任務中,很少用于圖像識別,可能是因為LSTM處理的是一維的數據,而圖像是二維的數據。將圖像的二維信息積分投影到一維(水平方向和垂直方向),并以此作為LSTM的輸入并分類,這樣就能將二者很好的結合起來。

本文構造了基于積分投影和LSTM的深度學習的模型來對微表情進行識別。得到的結果不僅比以前的基于局部二值模式(LBP)的方法好,而且也略微的優(yōu)于最近基于積分投影的論文中的方法。

1 CASME II微表情數據集介紹

2014年,中科院心理研究所建立了更進一步改進的自然誘發(fā)的微表情數據庫CASMEII[8]。CASMEII有26個平均年齡為22歲左右的亞洲人,9類表情(happiness, surprise, disgust, fear, sadness, anger, repression, tense, negative)組成。用來錄制的高速相機為200 fps。高速相機可以捕捉更細節(jié)的微表情。CASMEII是據我們所知目前最好的自然誘發(fā)的微表情數據庫。

2 基于差分圖像的積分投影

Mateos等人的開拓性工作[6-7]表明積分投影可以提取同一人臉圖像的共同基本特征。積分投影將人臉的特征水平和垂直投影,可以用公式⑴和⑵表示:

其中It(x,y)表示時間為t時,圖像位于(x,y)時的像素值,Ht(y)和Vt(x)表示水平和垂直積分投影。直接將積分投影應用到CASME II微表情數據集上效果如圖1所示。

然而,由于微表情的變化是十分微小的,若直接采用上面的積分投影會有很多噪聲,從圖1(c)可以看出區(qū)分不是很明顯。因此,我們采用改進的積分投影方法。可以用公式⑶和⑷表示:

我們將每個視頻下的2到N幀微表情的圖像減去第1幀,將得到的差分圖像做積分投影,效果如圖2所示。

從圖2的(c)可以看出,采用基于差分圖像的水平積分投影效果更好,去掉了不必要的噪聲。

3 長短時記憶網絡

循環(huán)神經網絡(RNN)可以用來處理時序數據,但它有一個明顯的缺陷,就是不能記憶發(fā)生在較久以前的信息。長短時記憶網絡(LSTM)[9]是一種特殊的RNN,比RNN多了一些特殊的門和細胞,可以學習長期依賴信息。LSTM結構如圖3所示。

最上面橫著帶箭頭的線包含細胞單元,作用是記憶之前LSTM單元的信息。x和+表示點分的乘法與加法,表示Sigmoid激活函數(如公式⑸),tanh表示雙曲正切激活函數(如公式⑹)。

最下面圓圈中的X和最上面圓圈中的h分別表示時序輸入和輸出。

通用的LSTM結構可以參考圖4,圖4中,底層節(jié)點為輸入,頂層節(jié)點為輸出,中間層為隱藏層節(jié)點或記憶塊。(a)描述的是傳統(tǒng)的 感知機(MLP)網絡,即不考慮數據的時序性,認為數據是獨立的;(b)將輸入序列映射為一個定長向量(分類標簽),可用于文本、視頻分類;(c)輸入為單個數據點,輸出為序列數據,典型的代表為圖像標注;(d)這是一種結構序列到序列的任務,常被用于機器翻譯,兩個序列長度不一定相等;(e)這種結構會得到一個文本的生成模型,每詞都會預測下一時刻的字符。

4 LSTM-IP模型

因為CASME II數據集每個視頻下微表情圖像幀數是不一樣的,為了方便我們統(tǒng)一LSTM的輸入,所以我們提取了最能代表這個視頻微表情的10幀,同時,本文將整個數據集圖像的尺寸統(tǒng)一到200×200像素,將原來彩色圖像轉化為灰度圖像。通過基于差分圖像的積分投影,得到一個視頻下差分圖像每幀圖像的水平和垂直投影,一個圖像可以得到一個200維的水平向量和一個200維的垂直向量,因為差分圖像是后面9張減去了第一張圖像,所以一個視頻下共有9個水平向量和9個垂直向量,初始化兩個9×200大小的一維向量分別保存水平向量和垂直向量。

本文采用圖4(b)和圖4(e)結合的LSTM結構,如圖5所示。

頂層的X_IP表示將一個視頻下9個差分圖像的水平投影組成的9×200的一維特征向量作為輸入,經過第一層LSTM得到9×128的一維特征向量,接著經過第二層LSTM得到9×128的一維特征向量,最后經過一層LSTM得到一個128的特征向量,Y_IP也是同樣的處理過程。最后將這兩部分的128的特征向量連接起來作為一個256的特征向量輸入softmax分類器,結果輸出屬于五類微表情的哪一類。在圖5的每兩層之間加入一層Dropout層,Dropout的比率設為0.5。LSTM內部參數初始化采用了glorot_normal,相比較于其他初始化方法,glorot_normal效果最好。

Softmax和Dropout在深度學習中都是常用的技術。Softmax是邏輯斯特回歸應用于多分類的推廣。Dropout[10]這種技術的作用是減少過擬合,是一種正則化技術,通過防止由完全連接的層引起神經元的參數過多,有助于減少神經網絡的過度擬合問題。給定 dropout率p,其在我們的LSTM中被設置為0.5,50%單位將被保留,而另外50%將被放棄。簡單地說,“Dropout”只是隨機忽略一些神經元。然而在測試階段,每個神經元的輸出將通過因子1-p(保持率)加權以保持與訓練階段中產生相同的效果。如圖6所示。

我們的實驗采用基于Theano的keras框架,keras借b了Torch的搭建深度學習網絡的方式,而且使用筆者比較熟悉的Python語言(Torch使用Lua語言),keras的底層可以是Theano或者Tensorflow,可能是因為keras最先在Theano開發(fā)的,經過實驗比較單個GPU下,Theano的速度要比Tensorflow快,所以我們的底層采用Theano。

5 實驗結果與分析

現在微表情識別的算法主要是基于LBP改進的算法,例如LBP-TOP[11](Local Binary Pattern-Three Orthogonal Planes)、LBP-SIP[12](LBP-Six Intersection Points)和LOCP-TOP[13](Local ordinal contrast pattern-

TOP)等。我們將LSTM-IP算法與以前的方法做了比較,如表1所示。

實驗是在CASME II上做的,因為CASME II微表情數據集是最新最好的微表情數據集。STLBP-IP也是基于積分投影的,結合了1DLBP來提取特征。通過表1的比較我們發(fā)現,基于積分投影的算法效果好于原來基于LBP的算法,可以得出,采用提取積分投影特征的方法在微表情數據集CASME II上效果比較好??梢钥闯?,STLBP-IP的性能優(yōu)于文獻[27]的重新實現,STLBP-IP的精度提高了20.64%。從表1中可知,時間插值法(TIM)可以提高LBP-TOP的性能,其中LBP-TOP增加到39.68%。然而,與STLBP-IP相比,LBP-TOP在微表情識別上的效果上有很大的差距(19.43%)。比較兩種基于積分投影的方法,本文提出的方法略微好于STLBP-IP,但通過閱讀STLBP-IP的論文筆者發(fā)現,這種方法存在繁瑣的調參過程,比如圖像如何分塊,SVM核參數的選擇,而本文提出的LSTM-IP算法可以自動從差分圖像的積分投影中學習,調參的內容比較少,而且速度也很快。這些結果表明,LSTM-IP實現了令人滿意的效果,而不是LOCP-TOP和LBP-SIP。 這部分地解釋了LSTM-IP通過使用積分投影來保持形狀和辨識的能力。

實驗采用了留一法交叉驗證,CASME II有26個subjects,通過把每個subject作為測試,其余作為訓練,循環(huán)26次,最后把每次測試得到的正確視頻個數相加除以總的視頻數,得到識別精度,這種方法現在是微表情識別主流的驗證方法。

6 Y束語

基于差分圖像的積分投影方法,保存了我們微表情形狀的特征,然后增強微表情的辨別力。深度學習在圖像識別領域已經取得了很不錯的成績,而現在深度學習的技術還沒有應用于微表情識別。本文將差分圖像的積分投影與LSTM結合,從實驗結果上看,結果要好于以前的方法。我們認為深度學習的探索不會停止,會有越來越多新的網絡模型產生,也會有越來越多的深度學習的技術應用于微表情識別。

我們將繼續(xù)探索基于深度學習的微表情識別的方法及技術手段。卷積神經網絡在圖像識別上取得了很好的成績,但筆者也將卷積神經網絡應用于微表情上,效果并不好,可能是因為微表情在圖像上變化比較細微,卷積神經網絡不容易捕捉到特征,但如果考慮了一個視頻時間序列的特性,也許會有比較好的結果,對此還有待進一步研究。隨著技術的進步,相信微表情識別效果會越來越好,并最終能夠應用于我們的生活中。

參考文獻(References):

[1] Ekman P. Micro Expressions Training Tool[M]. Emotion-

srevealed. com,2003.

[2] Ekman P. Darwin, deception, and facial expression[J].

Annals of the New York Academy of Sciences,2003.1000(1):205-221

[3] Ekman P. Lie catching and microexpressions[J]. The

philosophy of deception,2009:118-133

[4] Ekman P, O'Sullivan M. From flawed self-assessment to

blatant whoppers: the utility of voluntary and involuntary behavior in detecting deception[J]. Behavioral sciences & the law,2006.24(5):673-686

[5] Benzaoui A, Boukrouche A. Face recognition using 1dlbp

texture analysis[J]. Proc. FCTA,2013: 14-19

[6] Mateos G G. Refining face tracking with integral projections

[C]//International Conference on Audio-and Video-Based Biometric Person Authentication. Springer Berlin Heidelberg,2003: 360-368

[7] García-Mateos G, Ruiz-Garcia A, López-de-Teruel P

E. Human face processing with 1.5 D models[C]//International Workshop on Analysis and Modeling of Faces and Gestures. Springer Berlin Heidelberg,2007:220-234

[8] Yan W J, Li X, Wang S J, et al. CASME II: An improved

spontaneous micro-expression database and the baseline evaluation[J]. PloS one, 2014.9(1):e86041

[9] Hochreiter S, Schmidhuber J. Long short-term memory[J].

Neural computation,1997.9(8):1735-1780

[10] Hinton G E, Srivastava N, Krizhevsky A, et al. Improving

neural networks by preventing co-adaptation of feature detectors[J]. Computer Science,2012.3(4):212-223

[11] Zhao G, Pietikainen M. Dynamic texture recognition

using local binary patterns with an application to facial expressions[J]. IEEE transactions on pattern analysis and machine intelligence,2007.29(6).

[12] Wang Y, See J, Phan R C W, et al. Lbp with six

intersection points: Reducing redundant information in lbp-top for micro-expression recognition[C]//Asian Conference on Computer Vision. Springer International Publishing,2014:525-537

[13] Chan C H, Goswami B, Kittler J, et al. Local ordinal

contrast pattern histograms for spatiotemporal, lip-based speaker authentication[J]. IEEE Transactions on Information Forensics and Security,2012.7(2):602-612

第8篇:卷積神經網絡的特征范文

關鍵詞:深度學習;器材管理;深度信念網絡;效率;損耗

1.引言

深度學習是機器學習的延伸和進一步發(fā)展,它基于機器學習,從廣義上講是機器學習的一種,但與機器學習有較大不同,深度學習的模型和人腦皮層結構有較大相似,從某種意義上講,深度學習是智能學習,可對復雜數據進行有效處理[1]。深度學習模型既可以作為特征提取器,也可以用作特征分類器,并且二者可以同時應用,直接得到想要的分類結果。器材有成千上萬種,每種器材的性能、數量、有效期、生產廠家這些基本要素Ю戳舜罅康氖據,而深度學習應用于大數據挖掘方面,實踐中已經取得較好的效果?,F在是一個“大數據+深度學習”的時代。本文研究在器材管理中如何運用深度學習,來探尋器材管理中蘊含的內在規(guī)律,通過得出的管理規(guī)則進行器材管理,來提高器材管理的信息化水平。

2.深度學習的典型模型

深度學習基礎是受限玻爾茲曼機(RBM),玻爾茲曼機( BM)可以認為是一種能量模型。即參數空間中每一種情況均有一個標量形式的能量與之對應。對全連通玻爾茲曼機進行簡化,其限制條件是在給定可見層或者隱層中的其中一層后,另一層的單元彼此獨立,即為受限玻爾茲曼機。深度學習的典型模型主要有:自動編碼器(AE),卷積神經網絡(CNN),深度信念網絡(DBN)三種[2]。

(1)自動編碼器

自編碼器的基本原理:將輸入的原始信號進行編碼,使用編碼得到的新信號重建原始信號,求得重建的元信號與原始信號相比重建誤差最小。它的優(yōu)點是可以有效的提取信號中的主要特征,減少信息冗余,提高信息處理效率。模式分類中經常用到的以下方法:K均值聚類、稀疏編碼、主成分分析等均可理解為是一個自動編碼器。

(2)卷積神經網絡

卷積神經網絡(CNN)善于提取數據局部特征,模型復雜度較低,權值的數量較少,它組合局部感受野(滑動窗口)、權重共享(減少自由參數數量)、和空間或時間上的子采樣這3 種結構去確保平移和變形上的不變性。

(3)深度信念網絡

深度信念網絡(DBN)主要采用貪婪逐層訓練方法。簡言之通過預先訓練與反向調節(jié)來訓練整個DBN網絡:在預先訓練階段,先逐個訓練每一個受限玻爾茲曼機RBM,逐層疊加,并將下一層的RBM 的輸出作為上一層RBM 的輸入; 在反向調節(jié)階段可以采用BP訓練,通過誤差函數進行反向調節(jié).

3.基于深度信念網絡(DBN)的器材管理方法

器材管理的目的是在最大器材利用率下所用資金最少,耗費管理人員精力最少。從模型分析上來說,這是一個求最優(yōu)化模型的問題。深度信念網絡在求取最優(yōu)化方面具有一定的優(yōu)越性。深度信念網絡(DBN)的優(yōu)點:(1)采用并行結構,可同時處理多組數據,計算效率得到較大提升,對處理大數據有優(yōu)勢;(2)可以用較小的模型參數波動得到較高的分類結果,模型穩(wěn)定性較好[3]。

對器材管理者來說如何制定性價比最高的器材采購方案,最優(yōu)的器材下發(fā)方案,最優(yōu)的器材存儲方案是急需解決的三個問題。

器材采購方案:其制定主要基于器材的價格,儲存年限,采購批次,采購量,售后服務等因素,針對每種器材的上述指標進行量化打分,再根據每種器材的側重點分配量化系數,整合成10種數據輸入。將這些數據輸入到訓練好的深度信念網絡(DBN)中得出每種器材的采購點數,根據點數決定采購的器材數量、品種、規(guī)格和型號。

器材的下發(fā)方案:器材的下發(fā)要考慮不同單位的需求,現有庫存情況,近期器材補充情況,近期大項工作需求情況,根據不同情況對不同單位,不同器材,具體工作設定不同顏色的標簽,通過標簽整合,將這些數據輸入到訓練好的深度信念網絡(DBN)中得到具體的下撥方案。

器材儲存方案:儲存主要包括使用單位庫存情況,倉庫庫存情況,供貨單位協議代儲情況,運用深度信念網絡(DBN)對器材消耗情況進行分析,進而得出,單位庫存的數質量,使用單位庫存的數質量,供貨單位協議代儲數質量,使三者處于一個最優(yōu)化狀態(tài),既不影響使用,又可降低庫存空間的需求,減少資金占用。

4. 實驗結果

本文采用深度信念網絡(DBN)對1000種器材采購、運輸、庫存、消耗使用以及不同品牌的通用器材采購成本進行了實驗分析,通過深度信念網絡(DBN)的優(yōu)化,采購效率提高10%,運輸時間縮短20%,庫存量降低15%,使用消耗準確度提高5%,采購成本降低18%。

5. 未來發(fā)展與展望

深度學習方法在器材管理中的應用還處于初步探索之中,但是初步運用表明,其在“大數據+云計算”時代,對提高器材管理的信息化水平具有較大的實用價值和經濟價值,用于器材管理的深度學習模型,還較為簡單,還有進一步發(fā)展的空間,實踐應用中對器材數據特征的提取還有待加強,只有深刻的理解器材管理的特征及需求,才能有針對性的建立模型,提高模型的可靠性和有效性。使器材管理水平更上一層樓,使器材管理跟上信息化發(fā)展的步伐。

參考文獻:

[1] 孫志軍,薛磊,許陽明.基于深度學習的邊際Fisher分析特征提取算法[J].電子與信息學報,2013,35(4):805-811.

[2] 孫志軍,薛磊,許陽明,等.深度學習研究綜述[J].計算機應用研究, 2012, 29( 8) : 2806 - 2810.

[3] 胡曉林,朱軍.深度學習―――機器學習領域的新熱點[J].中國計算機學會通訊, 2013,9( 7) : 64 - 69.

作者簡介:

康克成(1981.04-)河北昌黎人,研究生,碩士,工程師,中國人民92819部隊,研究方向:信息與通信工程;

王強(1981.02-)山東膠州人,本科,助理工程師,中國人民92819部隊,研究方向:裝備管理;

第9篇:卷積神經網絡的特征范文

關鍵詞:邊緣檢測;邊緣;梯度算子

中圖分類號:TP391

邊緣檢測是圖像處理中最基本最經典的技術問題之一,它對于圖像分析和圖像理解有著重要作用。因此,邊緣檢測在模式識別等高層次圖像處理領域有著重要的地位。然而由于圖像前期處理過程中的失誤易造成圖像的模糊和變形使得邊緣檢測很困難,這就要求研究性能更好的邊緣檢測算子。經過多年的發(fā)展,到現在算法已有成百上千種。

邊緣為圖像中灰度發(fā)生急劇變化的區(qū)域邊界,兩個具有不同灰度值的相鄰區(qū)域之間總存在著邊緣,可以利用微分運算方便地檢測到。人們提出了用圖像灰度分布的梯度來反映圖像灰度變化的微分邊緣算子,如1965年提出的Robert算子[1],在其基礎上改進得到的Sobel算子、Prewitt算子和Kirsch算子等。這些算子由于計算量小和操作簡單在當今使用較多,但易產生較寬的響應,故需作細化處理,影響了邊緣定位的精度。因而又產生了與邊緣方向無關的二階微分邊緣檢測算子,即Laplacian算子[2]。它利用圖像強度的二階導數零交叉點使邊緣的定位更準確。

近年來隨著應用的需要,傳統(tǒng)方法越來越難以滿足要求。針對這種情況,人們提出了許多新的邊緣檢測方法。這些新的方法利用各種新的理論工具對圖像進行邊緣檢測,例如基于數學形態(tài)學的檢測技術,借助統(tǒng)計學方法的檢測技術[4]、利用神經網絡的檢測技術[5]、利用模糊理論的檢測技術[6]、利用信息論的檢測技術[7]、利用遺傳算法的檢測技術等得到了興起與發(fā)展,表現異?;钴S。

由于實際圖像中含有噪聲和物理和光照等原因,利用一種邊緣檢測算子不可能有效的檢測出這些邊緣,當需要提取多空間范圍內的變化特性時,要考慮多算子的綜合應用。因此,傳統(tǒng)的邊緣檢測算法檢測效果并不理想。

1 邊緣檢測的步驟

1.1 邊緣檢測的步驟

(1)濾波:邊緣和噪聲同屬于圖像中強度劇烈變化部位,因此噪聲對邊緣檢測有很大的影響,于是有必要使用濾波器來改善邊緣檢測算子的性能。

(2)增強:增強邊緣的原理是確定圖像各點鄰域強度的變化值。增強算法可以將鄰域灰度值有顯著變化的點突顯出來。

(3)檢測:在圖像中,有許多點的梯度幅值比較大,而這些點并不都是邊緣,所以需要確定哪些點是真正的邊緣點。最簡單的辦法是利用梯度幅值的閾值作為判據。

(4)定位:邊緣定位即精確的確定邊緣點的具置。

圖像邊緣檢測的基本步驟如圖1所示:

1.2 邊緣檢測要求

對于圖像的邊緣檢測來說,一般在檢測過程中出現各種各樣的情況,導致誤差的出現。因此,對邊緣檢測有如下的要求:

(1)漏檢率與誤檢率較少。

(2)邊緣定位較準確。

(3)對于每一個邊緣只有一個響應。

2 經典邊緣檢測算法

2.1 經典邊緣檢測的基本算法

一階微分算子是通過梯度算子或一階導數算子估計圖像灰度變化的梯度方向,增強圖像中的灰度變化區(qū)域,然后將梯度值與給定的閾值進行比較來確定具體的邊緣。

對于連續(xù)函數 ,它在點 處的x方向,y方向和 方向的一階方向導數為:

它在點 處的梯度是一個矢量,即

梯度幅值為:

梯度方向角為:

基于上述理論人們提出了許多經典算子的,如Sobel算子、Roberts算子、Prewitt算子等。但在實際應用中,常常以圖像的一階差分運算代替圖像的一階微分運算。所有這些基于梯度的邊緣檢測算法主要有兩點區(qū)別:1)邊緣檢測算子的方向。2)在同一方向上近似圖像一階導數合成梯度算子的方式。

2.1.1 Sobel算子

Sobel是一種將方向差分運算與局部平均相結合的邊緣檢測方法。它計算一個圖像強度的梯度近似值。該算子是在以(x,y)為中心的3 3鄰域上計算 的偏導數。為了抑制噪聲,給它的中心點加一個權重,則它的數字梯度近似等于下式:

梯度大小為:

它的卷積模板算子如下:

用以上模板與圖像進行卷積運算后,按照式9可以求出圖像的梯度幅度值g(x,y),然后選擇適當的閾值T,如果在(x,y)處g(x,y)>T,則此點為邊緣點;否則為非邊緣點。

在較小的鄰域范圍內,Sobel算子比較理想,受噪聲的影響比較小。當使用到大的鄰域時,抗噪聲特性會更好,但計算量會增加,得出的邊緣較粗。因為局部平均計算的原因,易產生誤檢,造成邊緣定位精度不夠高。因此,Sobel算子在精度要求不高的情況下,是一種不錯的邊緣檢測算法。Sobel算子對噪聲具有平滑作用,提供較為精確的邊緣方向信息。如果它與其他的算法相結合可能會達到更好的檢測效果。

2.1.2 Canny算子

Canny邊緣檢測方法是通過計算圖像像素點的梯度,根據局部極值來獲得邊緣信息的方法。1986年,Canny通過對過去一系列邊緣檢測算子的方法和應用,進行總結分析,用數學的形式推導出最優(yōu)邊緣檢測算子。Canny認為一個良好的邊緣檢測算法應滿足以下幾點要求:

(1)定位能力好。檢測出的邊緣點盡可能落在實際圖像邊緣的中心。

(2)優(yōu)良的檢測性能。誤檢和漏檢的概率小。

(3)單一響應。盡可能減少虛假邊緣的響應和多個響應的發(fā)生,最好是單一邊緣只產生一個響應。

Canny邊緣檢測算法主要步驟:

第一步:平滑。使用高斯函數對待檢測圖像進行平滑濾波處理,得到平滑圖像。

第二步:計算平滑圖像中每個像素點的局部梯度幅度值和邊緣方向。

第三步:對梯度進行非極大值抑制。在梯度幅度的集合圖像中,在邊緣強度的極大值附近會產生屋脊帶。為了細化邊緣,尋找梯度幅值圖像中極大值的點,并將所有非極大值的像素設為零。

第四步:得到圖像邊緣信息。給定兩個閾值T1和T2,T1

Canny邊緣檢測算子的缺點與改進:1)高斯濾波對于某些特定的噪聲效果不是很好,還有待改進,提供性能更好的自適應去噪方法。2)雙閥值的參數是人為設定,不能根據圖像的邊緣特征來確定的,有可能對噪聲的抑制不是很好,同時也可能丟失邊緣信息,導致邊緣檢測效果是很理想,即對于不同的圖像不具有自適應性。因此,有必要根據圖像的特征自適應確定圖像的閥值來達到理想的檢測效果。3)在多角度上計算梯度。

3 基于形態(tài)學邊緣檢測

設g(x,y)為輸入圖像,E(x,y)表示圖像的邊緣函數,f(x,y)為檢測算子。形態(tài)學中的膨脹會縮小圖像的背景區(qū)域,擴張圖像的目標區(qū)域;而腐蝕恰恰相反,它會擴張背景區(qū)域,縮小目標區(qū)域。根據這樣性質,可以構造圖像的邊緣檢測算子如下:

灰度膨脹運算表示: (11)

同理灰度腐蝕運算表示: (12)

那么膨脹腐蝕型邊緣檢測算子可如下表示:

由以上的操作運算,我們知道膨脹運算會使圖像邊緣變的模糊,腐蝕運算會使圖像邊緣信息損失一些細節(jié)信息。為了避免上述情況,對上述算子加以修改:

邊緣算子修正為:

邊緣算子改進以后,添加了一些原圖像邊緣信息,也可能添加了一些噪聲。

4 神經網絡邊緣檢測算法

為了檢測有256灰度值的灰度圖像的邊緣,可以考慮一個類似BP神經網絡[3][9]的模型,該模型由8個子BP神經網絡組成,每一個子網絡可以檢測2值圖像的邊緣。每一個子BP神經網絡對應灰度圖像的一個位平面。每個神經網絡的輸出會根據每個位平面的權重做調整。8個位平面的權重依次為1/256、2/256、4/256、8/256、16/256、32/256、64/256、128/256。通過類似的模型,可以很精確的檢測出灰度圖像的邊緣。結構如圖2所示:

5 總結

邊緣檢測是圖像處理領域中最基本的問題,也是圖像處理其他工作的基礎。如何準確、快速地進行邊緣檢測一直是圖像處理領域的熱點。一個邊緣檢測算法的好壞主要體現在能否做到以下兩點:一是正確地檢測出所有邊緣并不出現偽邊緣;二是盡可能地抑制噪聲對圖像的影響,即去噪能力。通過上面的分析可知,前人提出的很多經典算法,比如微分算子法,BP神經網絡算法,基于形態(tài)學的檢測算法,基于關聯規(guī)則的檢測算法[8]等,對于現在邊緣檢測的要求而言,其效果都不是特別理想。這就需要我們尋找更好的算法,其研究更多的向多尺度、多領域、多方法融合的方向發(fā)展。

參考文獻:

[1]岡薩雷斯.數字圖像處理[M].北京:電子工業(yè)出版社,2007:467-471.

[2]孫即祥.數字圖像處理[M].河北出版社,1993.

[3]Weiqing Li,Chengbiao Wang,Qun Wang,Guangshe Chen,An Edge Detection Method Based on Optimized BP Neural Network. ? 2008 IEEE DOI 10.1109/ISISE.2008,310.

[4]S.Konishi,A.Yuille and J.Coughlan.A statistical approach to multi-scale edge detection.Image and Vision Computing,2003,21:37-485.

[5]S.C.Douglas,T.H.Meng.Design of Edge Detection Templates Using a Neural Network.Proc.International Joint Conference on Neural Networks,1990,2:331-334.

[6]D.S.Kim,W.H.Lee and I.S.Kweon.Automatic edge detection using 3*3 ideal binary pixel patterns and fuzzy-based edge thresholding.Pattern Recognition Letters,2004,25:101-106.

[7]Q.Tian,X.Li and N.M.Bilgutay.Multiple Target Detection Using Split Spectrum Processing and Group Delay Moving Entropy.IEEE Trans.On UFFC,1995,42(6):1075-1886.

[8]洪俊田,陶劍鋒,李剛.基于灰色關聯的數字圖像去噪研究[J].武漢理工大學學報,2006,2:15-17.

[9[S.C.Douglas.TH.Meng.Design of Edge Detection Templates Using a Neural Network.Proc.International Joint Conference on Neural Networks,1990,2:331-334.