亚洲视频在线香蕉,又黄又爽一区二区免费看

前言：想要寫出一篇引人入勝的文章？我們特意為您整理了置信網(wǎng)絡(luò)融合模型手寫漢字識別探析范文，希望能給你帶來靈感和參考，敬請閱讀。

置信網(wǎng)絡(luò)融合模型手寫漢字識別探析

摘要：針對離線手寫漢字的特征提取困難、不能準確識別等問題，提出了一種膠囊網(wǎng)絡(luò)與深度置信網(wǎng)絡(luò)的融合模型。首先從CASIA-HWDB1數(shù)據(jù)集中隨機選擇了一些文本分別訓(xùn)練膠囊網(wǎng)絡(luò)和深度置信網(wǎng)絡(luò)，然后采用膠囊網(wǎng)絡(luò)和深度置信網(wǎng)絡(luò)的融合策略進行了手寫漢字識別實驗。實驗結(jié)果表明，在不確定方向上使用漢字融合模型的錯誤率降低了5.2％，與單獨使用膠囊網(wǎng)絡(luò)和深度置信網(wǎng)絡(luò)相比，具有更好的識別效果。

關(guān)鍵詞：手寫漢字；深度學(xué)習(xí)；膠囊網(wǎng)絡(luò)；深度置信網(wǎng)絡(luò)

1引言(Introduction)

漢字識別的研究涉及人工智能、模式識別、圖像處理、統(tǒng)計決策理論等學(xué)科，在辦公、銀行、郵政等自動分類領(lǐng)域具有重要的理論意義和實踐價值[1]。漢字識別可分為印刷漢字識別和手寫漢字識別兩大類。手寫漢字識別可分為在線手寫漢字識別和離線手寫漢字識別。在線漢字識別是指在通過觸摸屏等輸入設(shè)備手寫漢字過程中，計算機根據(jù)書寫漢字的筆畫走向、筆畫順序、書寫速度等多種信息進行識別，由于信息量多且具有連續(xù)性，因此識別難度較小，識別準確率也較高[2]。離線漢字識別提供的信息量少，僅僅通過識別一個漢字的二維圖像來提取漢字特征，所以識別難度較大，識別準確率也較低[3]。各大高校和研究所致力于漢字識別的研究，由于漢字具有類別多、字形復(fù)雜、相似等特點，因此每個人手寫漢字千差萬別，導(dǎo)致手寫漢字識別困難，故手寫漢字識別一直是研究的熱點和難點[4-5]。手寫漢字識別是一個極具挑戰(zhàn)性的模式識別與機器學(xué)習(xí)問題，特征如下：一是漢字類別中的漢字數(shù)量很多。二是字體結(jié)構(gòu)復(fù)雜。三是字形變化很大。離線手寫漢字主要用在日常生活中。手寫字是任意的，缺乏規(guī)范性，水平、垂直、點等筆觸容易變形，例如筆直變彎，筆觸成圓弧，短橫、短豎成點等。四是有很多類似的詞。漢字集合中有很多相似詞，如：“已—己—巳，盲—肓，兔—免”等，可能由于預(yù)處理不當從而導(dǎo)致字符錯誤。總之，諸多研究人員已經(jīng)做了大量的離線手寫漢字識別工作。針對離線手寫漢字識別的難點，文獻[6]提出了一種CNN-DBN手寫漢字融合模型，比單獨分別使用CNN和DBN的識別效果好。文獻[7]從GoogLeNet網(wǎng)絡(luò)構(gòu)建了卷積神經(jīng)網(wǎng)絡(luò)，并使用隨機彈性變換算法擴展了訓(xùn)練數(shù)據(jù)。文獻[8]結(jié)合ResNet網(wǎng)絡(luò)，通過使用作業(yè)圖像中漢字筆跡測試結(jié)果中的每個有效檢測區(qū)域作為輸入，實現(xiàn)基于深度學(xué)習(xí)模型的漢字筆跡識別。文獻[9]提出了一種基于PCCG-GAN的手寫漢字歸一化方法，實現(xiàn)了從手寫到打印的漢字生成任務(wù)。利用對稱網(wǎng)絡(luò)提取手寫漢字多尺度信息并進行特征融合，減少了輸入輸出之間共享的底層信息量，減少了欠采樣過程中信息的丟失。文獻[10]由于卷積神經(jīng)網(wǎng)絡(luò)對手寫漢字的識別速度較慢，二維主成分分析(2DPCA)和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合來識別手寫漢字與基于Alexnet的CNN模型相比,時間減少了78％，與基于ACNN的模型相比，時間減少了80％。文獻[11]針對傳統(tǒng)手寫漢字識別特征提取過程復(fù)雜、識別率低、分類模型能力弱的問題，設(shè)計了一種多通道交叉融合的深度殘差網(wǎng)絡(luò)模型，并設(shè)計了中心損失函數(shù)，比之前的算法提高了2.3%識別率。近年來，隨著深度學(xué)習(xí)的興起和不斷發(fā)展，各種智能算法在計算機視覺領(lǐng)域取得了突破性的成果，使得手寫漢字的識別率也越來越高。為了進一步探索線下手寫漢字的識別方法，本文擬提出一種膠囊網(wǎng)絡(luò)與深度置信網(wǎng)絡(luò)融合的識別模型，以提高手寫漢字的識別能力。

2相關(guān)工作研究(RelatedWorkResearch)

2.1膠囊網(wǎng)絡(luò)

Hinton等人在2017年提出了膠囊網(wǎng)絡(luò)(CapsuleNetwork,CapsNet)。CapsNet是建立在卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)基礎(chǔ)上的圖像分類識別技術(shù)，CNN的缺陷是對于物體間的空間識別能力及物體旋轉(zhuǎn)后的識別能力不強，而CapsNet能很好地解決這兩個問題，如圖1所示。CapsNet結(jié)構(gòu)層次淺，由卷積層、主膠囊層、數(shù)字膠囊層構(gòu)成，其結(jié)構(gòu)如圖2所示。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)是由神經(jīng)元組成的，神經(jīng)元表示對象中的各種屬性。膠囊(Capsule)稱為向量神經(jīng)元，向量長度表示對象存在的概率，向量方向表示對象的屬性，它包含多個神經(jīng)元。CapsNet用膠囊代替?zhèn)鹘y(tǒng)神經(jīng)元，它的輸入輸出都是一個向量。低層封裝需要將輸出傳遞給該輸出的高層封裝。具體地說，路由數(shù)據(jù)的傳輸是通過低層膠囊的輸入與高層膠囊的輸出的相似性來確定的。如果低層膠囊的預(yù)測矢量與高層膠囊的有效矢量具有高度相似性，則表明這兩個膠囊高度相關(guān)。CapsNet中使用了迭代動態(tài)路由算法，以與輸出向量相似的方向在膠囊中獲取向量，并且與向量的數(shù)量和模塊的長度呈正相關(guān)。為了避免將內(nèi)部乘積用作無上限情況的度量，將矢量壓縮到輸出之前。

2.2深度置信網(wǎng)絡(luò)

深度置信網(wǎng)絡(luò)(DBN)由多層有限Boltzmann機器(RBM)和一層分類器組成，經(jīng)典的DBN網(wǎng)絡(luò)結(jié)構(gòu)是由多層RBM和一層BP組成的深度神經(jīng)網(wǎng)絡(luò)。該深度模型廣泛應(yīng)用于圖像分類識別、語音識別等領(lǐng)域。DBN是基于生物神經(jīng)網(wǎng)絡(luò)的研究和淺層神經(jīng)網(wǎng)絡(luò)的發(fā)展而來的，并且從聯(lián)合概率分布中推斷出概率樣本模型的數(shù)據(jù)樣本分布。DBN生成模型通過訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)中神經(jīng)元之間的權(quán)重，整個神經(jīng)網(wǎng)絡(luò)根據(jù)最大概率生成訓(xùn)練數(shù)據(jù)，形成高級抽象特征，并提高了模型的分類性能。DBN使用自下而上的傳輸，底層神經(jīng)元接收原始特征向量，不斷抽象到更高的水平，頂層神經(jīng)網(wǎng)絡(luò)形成易于組合的特征向量。通過添加層，可以抽象出更大的特征向量，并且網(wǎng)絡(luò)的每一層都會削弱前一層的錯誤信息和輔助信息，以確保深度網(wǎng)絡(luò)的準確性。DBN結(jié)構(gòu)如圖3所示。受限的Boltzmann機器由兩個神經(jīng)元節(jié)點組成，即隱藏層和可見層。2.2.1受限玻耳茲曼機(RBM)。首先，DBN模型是基于人工神經(jīng)網(wǎng)絡(luò)的，由接收輸入數(shù)據(jù)的顯性神經(jīng)元和特征提取的隱性神經(jīng)元組成。DBN的關(guān)鍵組件是RBM，它通過將多層RBM與最終分類器結(jié)合在一起來檢測、識別和分類輸入數(shù)據(jù)。RBM組成結(jié)構(gòu)包含兩層神經(jīng)元，每一層都可以由一個向量表示，向量的維數(shù)由每一層中神經(jīng)元的數(shù)量確定，如圖4所示。由圖4可知，為了保證層中神經(jīng)元的獨立性，RBM各層中的神經(jīng)元之間無連接，層間神經(jīng)元雙向連接，即與給定元素相對應(yīng)的隱藏元素的值無關(guān)，并且當該元素被賦予隱藏元素值時，將保留相同的特性。2.2.2DBN模型的構(gòu)建。DBN就是一些堆疊在一起的RBM，前一個RBM的輸出就是后一個RBM的輸入。本文以兩層RBM和Softmax分類層為例構(gòu)建DBN模型。如圖3所示，v代表顯示層神經(jīng)元，h代表隱藏層神經(jīng)元，y代表標簽已知的樣本，o代表分類結(jié)果輸出。DBN模型的構(gòu)造如下：固定第一個訓(xùn)練后的RBM的權(quán)重和偏差，將其隱藏元素的狀態(tài)作為第二個RBM的輸入；訓(xùn)練后將第二個RBM堆疊在第一個RBM上；重復(fù)上述過程進行多次逐層學(xué)習(xí)。如果訓(xùn)練數(shù)據(jù)集包含標記的樣本，則需要在第二次RBM訓(xùn)練期間將其添加，最后使用Softmax對數(shù)據(jù)進行分類。深度置信網(wǎng)絡(luò)在檢測識別領(lǐng)域的應(yīng)用效果分析，如表1所示。樣本數(shù)據(jù)主要是手寫數(shù)字、頻譜圖像和語音。

2.3CapsNet與DBN融合模型

CapsNet模型和DBN模型都可以應(yīng)用于線下手寫漢字識別任務(wù)，CapsNet解決了CNN的缺點，能捕捉特征位置、相對大小、特征方向等屬性間的關(guān)系。DBN通過采用逐層訓(xùn)練的方式為整個網(wǎng)絡(luò)賦予了較好的初始權(quán)值，以重構(gòu)數(shù)據(jù)為目標，使網(wǎng)絡(luò)只要微調(diào)就可以達到最優(yōu)解，這在無監(jiān)督的環(huán)境中是非常有用的。由于CapsNet和DBN網(wǎng)絡(luò)結(jié)構(gòu)不同，因此提取特征的優(yōu)勢不同，如字形特征不明顯，或與其他字形相似，那么不同的人識別的結(jié)果可能也不一樣。本文提出的CapsNet和DBN融合模型結(jié)合了兩者的優(yōu)勢，比單獨使用CapsNet和DBN識別漢字具有更高的識別能力，這種模型稱為CapsNet-DBN融合模型，包括訓(xùn)練和識別過程，如圖5所示。

3仿真與測試(SimulationandTest)

3.1實驗準備

使用數(shù)據(jù)集CASIA-HWDB1.1進行訓(xùn)練和測試，該數(shù)據(jù)集于2010年5月公布，為手寫單字，分別由300人書寫，包含171個英文數(shù)字符號，3,755個GB2312一級漢字，共300套，總計1,172,907個有效樣本。表2列出了CapsNet-DBN模型中的各層參數(shù)。

3.2實驗結(jié)果與分析

本文實驗環(huán)境：Windows1064位操作系統(tǒng)，處理器為Intel(R)Core(TM)i7-6500UCPU，主頻為2.5GHz，內(nèi)存為16GB，實驗平臺為Python3.8版本。實驗數(shù)據(jù)來自。表3為CapsNet網(wǎng)絡(luò)、DBN網(wǎng)絡(luò)及其融合網(wǎng)絡(luò)的準確率。CapsNet、DBN、CapsNet-DBN對不同寫法的漢字識別能力的比較如圖6所示。圖7表明三種算法對不同漢字的識別能力，CapsNet-DBN在大部分情況下都比CapsNet和DBN對不同漢字的識別能力要高。圖8和圖9分別顯示了CapsNet-DBN網(wǎng)絡(luò)訓(xùn)練過程準確率和訓(xùn)練損失。Fig.9LossofCapsNet-DBNnetworktrainingprocess使用相同數(shù)據(jù)集驗證并比較表1中的各種模型算法和本文所述的融合模型的識別準確率，從表4中可知，ResNet-BLSTM+DBN方法對手寫漢字的識別效果良好，本文提出的CapsNet-DBN融合模型也可以獲得較高的精度。本文在CapsNet-DBN模型的基礎(chǔ)上嘗試增加隱藏層和隱藏單元數(shù)目及在不同的迭代次數(shù)中進行測試，分別增加了隱藏層個數(shù)及隱藏單元數(shù)。圖10(a)隱藏層參數(shù)為(32*3*3)-(16*2*2)-(2*2)-(2*2)-(64*2*2)-(2*2)-(512)，圖10(b)隱藏層參數(shù)為(32*3*3)-(2*2)-(16*2*2)-(2*2)-(32*2*2)-(2*2)-(64*2*2)-(2*2)-(512)，圖10(b)比圖10(a)增加了2個隱藏層。圖11(a)隱藏層參數(shù)為(32*3*3)-(2*2)-(32*2*2)-(2*2)-(96*2*2)-(2*2)-(128*2*2)-(2*2)-(512)，圖11(b)隱藏層參數(shù)為(32*3*3)-(2*2)-(64*2*2)-(2*2)-(96*2*2)-(2*2)-(128*2*2)-(2*2)-(512)，圖11(b)其中一個隱藏層單元數(shù)為圖11(a)的2倍。實驗結(jié)果說明了隱藏層個數(shù)和隱藏單元數(shù)目的增加可以將大量信息擴展到維度較大的中間空間，這樣會將模型的驗證精度提高7.2%。當然，隱藏層個數(shù)和隱藏單元數(shù)目也不是越多越好，需要根據(jù)具體問題進行調(diào)整。

4結(jié)論

(Conclusion)本文針對離線手寫漢字的特征提取困難、不能準確識別等問題，提出了一種膠囊網(wǎng)絡(luò)與深度置信網(wǎng)絡(luò)的融合模型，從CASIA-HWDB1.1數(shù)據(jù)集中隨機選擇了一些文本進行手寫漢字識別實驗。實驗結(jié)果表明，與單獨的CapsNet和DBN及傳統(tǒng)的機器學(xué)習(xí)方法相比，CapsNet-DBN融合模型在數(shù)據(jù)集上獲得了更好的識別結(jié)果。

作者:管小衛(wèi) 丁琳單位:江蘇財經(jīng)職業(yè)技術(shù)學(xué)院

置信網(wǎng)絡(luò)融合模型手寫漢字識別探析

相關(guān)文章閱讀