公務(wù)員期刊網(wǎng) 精選范文 語音識(shí)別系統(tǒng)范文

語音識(shí)別系統(tǒng)精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的語音識(shí)別系統(tǒng)主題范文,僅供參考,歡迎閱讀并收藏。

語音識(shí)別系統(tǒng)

第1篇:語音識(shí)別系統(tǒng)范文

關(guān)鍵詞: 語音識(shí)別;DHMM;Viterbi;嵌入式系統(tǒng);ARM

中圖分類號(hào):TP399 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1006-4311(2012)04-0126-020引言

隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,各種各樣的應(yīng)用層出不窮,其中使用語音與計(jì)算機(jī)程序進(jìn)行交互成為了最近熱門的研究方向。語音作為人類與計(jì)算機(jī)之間無形的連接方式,可以使人們方便、快捷地控制和使用計(jì)算機(jī)。語音識(shí)別技術(shù)是能夠讓原來非智能的計(jì)算設(shè)備理解人類思想的高科技技術(shù),融合了信號(hào)處理、人工智能以及自動(dòng)化等多學(xué)科、多領(lǐng)域的研究成果,是目前實(shí)現(xiàn)人工智慧的主要途徑之一。

根據(jù)不同的分類標(biāo)準(zhǔn),語音識(shí)別可分為不同的種類,例如依據(jù)識(shí)別對(duì)象的不同,可分為特定人語音識(shí)別及非特定人語音識(shí)別;又根據(jù)人類的講話方式可分為孤立詞識(shí)別、連接詞識(shí)別以及連續(xù)語音識(shí)別。不同的識(shí)別系統(tǒng)雖然在語音識(shí)別過程中步驟相似,但根據(jù)不同系統(tǒng)的需求及特點(diǎn)其實(shí)現(xiàn)方式及具體細(xì)節(jié)是不同的[1]。

嵌入式技術(shù)的迅猛進(jìn)步,使得語音識(shí)別技術(shù)的應(yīng)用更加廣泛,不再局限于實(shí)驗(yàn)室以及大型場(chǎng)合;其已經(jīng)被嵌入各種移動(dòng)設(shè)備,為人們對(duì)移動(dòng)設(shè)備的操作方式提供了一種嶄新途徑和使用體驗(yàn)。本文就針對(duì)移動(dòng)設(shè)備的特點(diǎn),設(shè)計(jì)了一種面向非特定人的孤立詞語音識(shí)別系統(tǒng)。

1語音識(shí)別的工作原理

原始的自然語音信號(hào)中不僅含有人體自身的聲音信號(hào),同樣也包含了大量的雜音、噪聲等混雜在一起的隨機(jī)干擾信號(hào),尤其作為移動(dòng)、嵌入式設(shè)備被使用者隨身攜帶使用,會(huì)有更多的環(huán)境噪聲信號(hào)。針對(duì)大量噪聲的數(shù)據(jù)計(jì)算以及嵌入式設(shè)備有限的計(jì)算資源,為保證系統(tǒng)的對(duì)自然語言的正確識(shí)別率,并且有效減少處理原始語音信號(hào)的大量數(shù)據(jù)密集計(jì)算,有必要研究語音信號(hào)的預(yù)處理技術(shù),以期高效提取語音特征參數(shù),并選取合適的壓縮算法進(jìn)行語音數(shù)據(jù)壓縮,之后再進(jìn)行語音的模式匹配[2]。

如圖1所示,人本身的語音信號(hào)從語音錄入設(shè)備進(jìn)入后,將進(jìn)行預(yù)處理、端點(diǎn)檢測(cè)、特征提取,轉(zhuǎn)換為可以對(duì)比的信號(hào)參數(shù),然后將特征參數(shù)通過選取的特征匹配方法與參考樣例庫中的模板樣例進(jìn)行語言匹配,選擇符合度最大的語言樣例進(jìn)行相應(yīng)處理,得出識(shí)別結(jié)果。

2系統(tǒng)硬件設(shè)計(jì)

系統(tǒng)的硬件結(jié)構(gòu)示意圖如圖2所示。

系統(tǒng)的處理核心采用了韓國三星公司的一款基于ARM 920T內(nèi)核的S3C2440微處理器;此款處理器中的CMOS宏單元和存儲(chǔ)單元采用了0.18um電子工藝,內(nèi)部總線采用Advanced Microcontroller Bus Architecture(AMBA)新型總線結(jié)構(gòu),具備出色的全靜態(tài)設(shè)計(jì),利用了多項(xiàng)低功耗技術(shù),系統(tǒng)架構(gòu)精簡(jiǎn),特別為價(jià)格和功耗敏感的應(yīng)用而精心打造。除此之外,它特別為各種外設(shè)準(zhǔn)備了豐富的中斷處理資源,包括總計(jì)共有60個(gè)中斷源(其中包括5個(gè)定時(shí)器硬中斷,9個(gè)串口中斷,24個(gè)外部中斷,1個(gè)看門狗定時(shí)器,4個(gè)DMA,2個(gè)ADC,1個(gè)LCD,1個(gè)電池故障,1個(gè)IIC,2個(gè)SPI,1個(gè)SDI,2個(gè)USB,1個(gè)NAND FLASH口,2個(gè)視頻口和1個(gè)AC97音頻口),這些中斷既可以使用電平/邊沿觸發(fā)模式進(jìn)行外部中斷的觸發(fā),也可以使用軟件編程的方式改變邊沿/電平觸發(fā)極性,能夠?yàn)榫o急中斷請(qǐng)求提供快速中斷(FIQ)服務(wù)[3]。

系統(tǒng)工作時(shí),人的語音信號(hào)經(jīng)過MIC輸入,并通過濾波、去噪等操作后,在S3C2440上執(zhí)行語音特征提取、語音模式匹配算法,最終輸出結(jié)果;系統(tǒng)中的USB接口可以方便系統(tǒng)外擴(kuò)各種標(biāo)準(zhǔn)USB外設(shè),以便使用語音識(shí)別結(jié)果進(jìn)行各種設(shè)備控制。

3系統(tǒng)軟件設(shè)計(jì)

3.1 Linux內(nèi)核移植移植Linux內(nèi)核一般分為幾個(gè)固定的步驟,目前較為流行快速開發(fā)方法通常先在內(nèi)核的處理器架構(gòu)目錄下,選擇與目標(biāo)開發(fā)板硬件結(jié)構(gòu)最接近的并且各種配置較為完善的開發(fā)板目錄作為移植模板。接著針對(duì)本開發(fā)板與目標(biāo)開發(fā)板的硬件具體差別,進(jìn)行對(duì)應(yīng)的修改或使用前人的移植補(bǔ)丁進(jìn)行升級(jí)。針對(duì)本開發(fā)板,我們使用了穩(wěn)定的Linux-2.6.15內(nèi)核進(jìn)行移植,考慮到本系統(tǒng)的具體硬件配置,最后選擇了SMDK2440開發(fā)板模板作為移植的目標(biāo)開發(fā)板模板。在編譯和配置內(nèi)核前,建議使用menuconfig或其它配置工具對(duì)內(nèi)核進(jìn)行適當(dāng)?shù)牟眉簦€可以進(jìn)一步編寫配置腳本。嵌入式Linux內(nèi)核的裁減類似于PC上Linux內(nèi)核的裁減,主要的工作是根據(jù)硬件和系統(tǒng)需求增添需要支持的模塊,并除去無用的功能模塊,以使Linux內(nèi)核與目標(biāo)硬件系統(tǒng)緊密相依,但要注意嵌入式Linux內(nèi)核的特征是小、精、有效。內(nèi)核的編譯則通常是通過修改根目錄以及其它子目錄下的Makefile,以及在預(yù)編譯前設(shè)置編譯參數(shù)值時(shí)進(jìn)行選定,或是使用編譯工具[4]。

最后,使用make工具生成U-boot可以識(shí)別的uImage引導(dǎo)程序鏡像文件。uImage鏡像文件通過U-Boot引導(dǎo)程序從FLASH中取出并解壓縮,裝入內(nèi)存后,Linux內(nèi)核便取得系統(tǒng)控制權(quán)。

Linux內(nèi)核移植的整個(gè)過程如圖3所示。

3.2 系統(tǒng)軟件設(shè)計(jì)整個(gè)系統(tǒng)軟件結(jié)構(gòu)如圖4所示。面向終端用戶的軟件形勢(shì)分為兩種:web插件和普通的軟件界面;web插件可以使用在瀏覽器中,方面用戶控制網(wǎng)頁瀏覽。下面是命令解析層Command layer,負(fù)責(zé)解釋兩種界面發(fā)送的命令,調(diào)用相應(yīng)的程序接口并返回執(zhí)行后的結(jié)果。功能模塊Function modules主要封裝軟件API,負(fù)責(zé)提供各種常用的功能服務(wù)??刂颇KControl modules負(fù)責(zé)管理和控制語音識(shí)別引擎,建立語音樣例庫以及調(diào)整語音設(shè)備引擎的內(nèi)部參數(shù),將來還可以加入新的語音模式匹配算法。再下面一層是統(tǒng)一APIs層,主要對(duì)核心語音識(shí)別引擎進(jìn)行簡(jiǎn)單的API封裝,同時(shí)預(yù)留了將來要擴(kuò)展的功能接口,以便后續(xù)的功能升級(jí)和代碼維護(hù);最下面的就是核心語音識(shí)別引擎,主要提供模式匹配算法以及對(duì)底層系統(tǒng)級(jí)的控制功能。

3.3 語音識(shí)別算法本語音識(shí)別系統(tǒng)的識(shí)別任務(wù)主要為針對(duì)設(shè)備持有者的小詞匯量孤立詞的語音識(shí)別,功能較為簡(jiǎn)單,需要使用者進(jìn)行一定量的訓(xùn)練后,系統(tǒng)對(duì)應(yīng)建立語音樣例庫,然后針對(duì)每次的聲音進(jìn)行模式匹配即可,所以算法的重點(diǎn)在于模式匹配算法。綜合計(jì)算性能需要、存儲(chǔ)資源消耗以及價(jià)格成本考慮,目前流行的DHMM語言識(shí)別模型對(duì)本系統(tǒng)較為合適。DHMM模型是一種隨機(jī)統(tǒng)計(jì)過程,通過大量的模板訓(xùn)練過程提取語音特征,可滿足語音實(shí)時(shí)變化且識(shí)別實(shí)時(shí)性要求較高的應(yīng)用場(chǎng)合。

本系統(tǒng)采用了當(dāng)前性價(jià)比較高的Viterbi算法實(shí)現(xiàn)DHMM模型。Viterbi算法可以由如下公式描述[5]:

?啄t(i)=■p(s1,s2,…,st=si,O1,O2,…,Ot|?姿)

其中,?啄t(i)為被識(shí)別語音序列t時(shí)刻的最大概率密度;其中t時(shí)刻前經(jīng)過的語音狀態(tài)序列為s1,s2,...st,且t時(shí)刻狀態(tài)為si,對(duì)應(yīng)輸出觀察符序列為O1,O2,...Ot。

4結(jié)束語

人類與計(jì)算機(jī)之間的交流的方式經(jīng)過了按鍵輸入、鍵盤輸入、手寫輸入以及觸摸輸入的階段,但這已經(jīng)不能滿足人們對(duì)于便捷、快速輸入的更高需求,而語音識(shí)別技術(shù)的發(fā)展和應(yīng)用,使得人們看到了計(jì)算機(jī)輸入的未來趨勢(shì)。相信隨著電子技術(shù)和信號(hào)處理技術(shù)的進(jìn)一步提高,語音輸入將會(huì)廣泛應(yīng)用于各種計(jì)算機(jī)以及嵌入式設(shè)備中。

參考文獻(xiàn):

[1]馬莉,黨幼云.特定人孤立詞語音識(shí)別系統(tǒng)的仿真與分析[J].西安工程科技學(xué)院學(xué)報(bào),2007,(03).

[2]邢銘生,朱浩,王宏斌.語音識(shí)別技術(shù)綜述[J].科協(xié)論壇(下半月),2010,(03).

[3]涂剛,陽富民等.嵌入式操作系統(tǒng)綜述[J].計(jì)算機(jī)應(yīng)用研究,2000,17(11):4-6.

第2篇:語音識(shí)別系統(tǒng)范文

關(guān)鍵詞:語音識(shí)別;LD3320;STM32F407;W25Q128

隨著科技的發(fā)展,人們的操作模式從最初的按鍵操作到觸屏操作,再到現(xiàn)在的語音操作,其越來越便捷,越來越人性化。語音操作的基礎(chǔ)就是語音識(shí)別技術(shù)(Automatic Speech Recognition),簡(jiǎn)稱ASR,其目標(biāo)就將人類語言轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入。語音識(shí)別作為一門交叉學(xué)科,從產(chǎn)生到現(xiàn)在已取得了顯著的進(jìn)步,現(xiàn)在已逐步走向市場(chǎng),并且人們預(yù)計(jì),語音識(shí)別技術(shù)在未來10年將會(huì)應(yīng)用于人們生活的各個(gè)領(lǐng)域。

根據(jù)發(fā)音人的不同,語音識(shí)別技術(shù)可分為特定人語音識(shí)別和非特定人語音識(shí)別兩類,前者只能識(shí)別一個(gè)或幾個(gè)人的語音,而后者則能被任何人使用。本文設(shè)計(jì)的多鼉壩鏌羰侗鶼低塵褪粲詵翹囟ㄈ擻鏌羰侗鷲庖煥啵其以嵌入式微處理器STM32F407為核心,采用ICRoute公司的LD3320語音識(shí)別芯片,并配以存儲(chǔ)空間為16M字節(jié)的W25Q128芯片,能夠?qū)崿F(xiàn)2000個(gè)場(chǎng)景共計(jì)識(shí)別句100000條的語音識(shí)別操作。

1 系統(tǒng)整體結(jié)構(gòu)

如圖1所示,整個(gè)系統(tǒng)主要是由STM32F407處理器、LD3320語音識(shí)別芯片以及W25Q128Flash芯片構(gòu)成。其中STM32F407處理器用于切換場(chǎng)景和場(chǎng)景關(guān)鍵詞更改;LD3320語音識(shí)別芯片用于語音識(shí)別,W25Q128Flash芯片用于存識(shí)別句,兩種都是通過SPI總線與處理器相連。整套系統(tǒng)與外部其他系統(tǒng)則是通過串口進(jìn)行通信。

2 系統(tǒng)硬件介紹及存儲(chǔ)空間設(shè)計(jì)

2.1 系統(tǒng)硬件介紹

2.1.1 STM32F407ZGT6處理器

STM32F407ZGT6采用Cortex_M4內(nèi)核,集成FPU和DSP指令,具有192KB SRAM、1024KB FLASH、3個(gè)SPI、6個(gè)串口等?;谄鋸?qiáng)大的配置,所以本系統(tǒng)的處理器選用該芯片。

2.1.2 LD3320語音識(shí)別模塊

LD3320語音識(shí)別模塊是ICRoute公司的一款產(chǎn)品,其特有的快速而穩(wěn)定的優(yōu)化算法,能夠完成非特定人語音識(shí)別,識(shí)別準(zhǔn)確率高達(dá)95%。該模塊每次最多可以設(shè)置50條候選識(shí)別詞或識(shí)別句,只要單個(gè)詞或句長度不超過10個(gè)漢字和79字節(jié)的拼音串,同時(shí)我們可以對(duì)識(shí)別內(nèi)容動(dòng)態(tài)編輯。模塊的通訊方式有并行和串行兩種,根據(jù)需求的不同可以選擇不同的通訊方式。除了語音識(shí)別這一功能之外,模塊還支持MP3播放功能,只要MCU將MP3數(shù)據(jù)依次送入芯片,就能夠從芯片的PIN引腳輸出聲音。

2.1.3 W25Q128Flash芯片

W25Q128是華邦公司推出的大容量SPIFLASH產(chǎn)品,容量為128Mbit,即16M。該芯片將16M空間分為256塊,每塊64KB,每塊又分為16個(gè)扇區(qū),每個(gè)扇區(qū)4KB。由于W25Q128的最小擦除單位為一扇區(qū),也就是說每次擦除4KB。

2.2 存儲(chǔ)空間設(shè)計(jì)

由于W25Q128芯片每次擦除的單位為4KB,而每句識(shí)別語句至少有80字節(jié),一個(gè)場(chǎng)景有50句識(shí)別語句,所以一個(gè)扇區(qū)用于一個(gè)場(chǎng)景是不夠的,因此我們將兩個(gè)扇區(qū)劃為一個(gè)場(chǎng)景;圖2是單個(gè)場(chǎng)景數(shù)據(jù)存儲(chǔ)關(guān)系圖,圖中每個(gè)場(chǎng)景占8192字節(jié),每條識(shí)別語句占100個(gè)字節(jié),其中第一個(gè)字節(jié)為識(shí)別語句編號(hào),范圍為1-50;單個(gè)場(chǎng)景的第一個(gè)扇區(qū)可以存儲(chǔ)40條識(shí)別語句,第二個(gè)扇區(qū)可以存儲(chǔ)10條識(shí)別語句,其中第4000B-4096B和5096B-8190B保留,不存儲(chǔ)數(shù)據(jù),整個(gè)場(chǎng)景的最后兩個(gè)字節(jié)用于存儲(chǔ)場(chǎng)景編號(hào),范圍為1-2000。W25Q128共有4096個(gè)扇區(qū),理論上可以劃分2048個(gè)場(chǎng)景,但是我們只劃分2000個(gè)場(chǎng)景,也就是4000個(gè)扇區(qū);還剩下96個(gè)扇區(qū),剩下的第1-50扇區(qū)用于存放每個(gè)場(chǎng)景的相關(guān)信息,計(jì)算可以得到每個(gè)場(chǎng)景有1KB的存儲(chǔ)空間,然后我們將最后一個(gè)扇區(qū)的最后兩個(gè)字節(jié)存儲(chǔ)現(xiàn)在所在場(chǎng)景編號(hào),剩下的空間保留。

3 系統(tǒng)軟件設(shè)計(jì)

3.1 通訊協(xié)議格式設(shè)置

整個(gè)系統(tǒng)主要具有場(chǎng)景切換和場(chǎng)景識(shí)別語句存取功能,表1是部分對(duì)應(yīng)協(xié)議格式。

3.2 初始化函數(shù)及操作函數(shù)介紹

STM32處理器與其他各個(gè)模塊建立通信連接,除了連接好對(duì)應(yīng)IO口后,還需要對(duì)各個(gè)IO進(jìn)行初始化,這樣才能進(jìn)行數(shù)據(jù)的收發(fā),以下是主函數(shù)中相關(guān)初始化函數(shù):

NVIC_PriorityGroupConfig(NVIC_PriorityGroup_2);//首先設(shè)置系統(tǒng)中斷優(yōu)先級(jí)分組

delay_init(168); //初始化延時(shí)函數(shù)

LED_Init();//指示燈初始化

KEY_Init();//按鍵初始化

IWDOG_Init();//看門狗初始化

USART1_Init(9600);//初始化串口1

W25QXX_Init();//W25Q128初始化

LD3320_Init();//LD3320初始化

while(W25QXX_ReadID()!=W25Q128) //檢測(cè)是否存在W25Q128

{

LED0=!LED0; //如果檢測(cè)不到W25Q128指示燈1會(huì)不停閃爍

}

第3篇:語音識(shí)別系統(tǒng)范文

關(guān)鍵詞:連續(xù)語音識(shí)別;動(dòng)態(tài)范圍調(diào)整;歸一化;算法

中圖分類號(hào):TN912.34

當(dāng)噪音引起連續(xù)語音信號(hào)失真時(shí),提取的連續(xù)語音特征曲線也會(huì)在時(shí)域和頻域內(nèi)失真[1]。如果用帶噪特征去匹配純凈語音的特征模型,會(huì)造成帶噪特征與模型之間的不匹配,這就導(dǎo)致了識(shí)別率的下降。

在連續(xù)語音識(shí)別中為了減少上述不匹配的問題,有三種主要解決技術(shù)。一是多條件或者多類型的訓(xùn)練方法,也就是使用帶噪數(shù)據(jù)來進(jìn)行訓(xùn)練[2]。雖然這個(gè)方法能夠在特定的噪音環(huán)境下可以得到較好的識(shí)別精度,但是如果噪音環(huán)境發(fā)生變化識(shí)別精度還會(huì)急劇的降低。換言之,如果待識(shí)別數(shù)據(jù)與模型數(shù)據(jù)的條件(環(huán)境)不同,如:信噪比或者噪聲類型,在待識(shí)別數(shù)據(jù)和模型之間仍會(huì)存在不匹配的現(xiàn)象。二是采用自適應(yīng)模型方法[3],通過自適應(yīng)模型來減少不匹配的問題。這種訓(xùn)練模型方法同時(shí)使用純凈和噪音數(shù)據(jù)來進(jìn)行訓(xùn)練,這又會(huì)導(dǎo)致模型的區(qū)分度不高,同樣會(huì)是識(shí)別精度下降。三是采用特征歸一化方法,這種方法雖然不能從根本上改變待識(shí)別特征與模型之間的不匹配,但是在一定程度上會(huì)保留模型的區(qū)分度并減少由于環(huán)境變化導(dǎo)致帶噪語音失真的影響。本文主要研究第三種方法。

語音增強(qiáng)和特征補(bǔ)償方法以恢復(fù)語音特征為目的,但是特征歸一化方法只是對(duì)語音特征的某些統(tǒng)計(jì)信息進(jìn)行改變,并期望由此減少噪聲引起的失真。不論是語音補(bǔ)償還是特征補(bǔ)償,都需要改變語音的特征向量,而傳統(tǒng)的歸一化方法只是對(duì)語音特征統(tǒng)計(jì)信息的范圍進(jìn)行處理,提出的算法在保證原有語音統(tǒng)計(jì)信息的前提下,適當(dāng)改變部分語音特征向量。從而減少由噪音引起的語音特征曲線的失真。

動(dòng)態(tài)范圍調(diào)整方法屬于歸一化方法的一種,能夠?qū)Ω蓛艉蛶г胝Z音的特征統(tǒng)計(jì)信息處理到相對(duì)較小的一個(gè)范圍內(nèi)。歸一化方法能夠根據(jù)一些模板值減少噪音特征在統(tǒng)計(jì)信息上的影響。相比使用歸一化方法之前,在干凈語音特征和帶噪語音特征之間的不匹配部分會(huì)顯著減少。語音增強(qiáng)一般應(yīng)用在時(shí)域和頻域中恢復(fù)語音特征的質(zhì)量。特征補(bǔ)償方法通常應(yīng)用在加強(qiáng)連續(xù)語音系數(shù)在對(duì)數(shù)濾波階數(shù)和頻譜域使用。

減少待識(shí)別語音特征和模型的不匹配的方法雖然不是提高語音識(shí)別魯棒性的唯一方法,但卻是一種很有效的方法。通過這種方法可以減少待識(shí)別特征和模型之間的不匹配使得識(shí)別性能得以提高。

1 噪音對(duì)孤立詞語音數(shù)據(jù)的影響

加法性噪音和乘法性噪音是影響語音信號(hào)最普通的兩種噪音類型。例如:加法性噪音包含背景噪音,交通噪音,等等。乘法性噪音主要是傳輸過程中產(chǎn)生的信道失真。例如麥克風(fēng)自身的噪音,房間的反射噪音等等。干凈的語音信號(hào)首先被信道失真所干擾,進(jìn)一步被加法性噪音干擾。

包含噪音的頻譜可以用如下公式描述:

噪音干擾在增益部分和直流分量部分的影響是不同的,如圖1所示:在孤立詞識(shí)別中,很多實(shí)驗(yàn)表明使用DRA方法對(duì)加法性噪音和乘法性噪音都具有很好的性能。

圖2展示了噪音影響在孤立詞中的性能。在圖2中,有兩條不同的特征曲線,曲線表示了干凈語音和10db信噪比的噪音特征在第二項(xiàng)MFCC中。者兩條曲線來源于同一個(gè)語音數(shù)據(jù)。

然而,由于噪音嚴(yán)重的影響,噪音下的MFCC特征曲線的動(dòng)態(tài)范圍要小于干凈語音的MFCC特征曲線的動(dòng)態(tài)范圍。如果使用干凈語音特征建立HMM訓(xùn)練模型,能夠獲得理想的模型并在同等條件下獲得更高的識(shí)別率。但是對(duì)噪音下的語音識(shí)別,由于上述的原因,自動(dòng)語音識(shí)別系統(tǒng)無法在任何噪音下獲得正確的識(shí)別結(jié)果。雖然DRA歸一化方法能夠在孤立詞識(shí)別中獲得較好的識(shí)別結(jié)果,但直接用于連續(xù)語音識(shí)別并不是特別的理想。

圖2展示了在孤立詞中不匹配的峰值。DRA歸一化方法算法使用最大值的方法將頻譜系數(shù)范圍標(biāo)準(zhǔn)化到一個(gè)統(tǒng)一的范圍。在每個(gè)維度,DRA方法將干凈或者帶噪語音頻譜系數(shù)的動(dòng)態(tài)范圍調(diào)整到同一個(gè)標(biāo)準(zhǔn)范圍中。但在孤立詞識(shí)別中,特征曲線中的峰值是有限的。歸一化方法非常適用于孤立詞識(shí)別。而連續(xù)語音識(shí)別特征曲線的峰值要遠(yuǎn)多于孤立詞識(shí)別,歸一化方法并不直接適用。

2 噪音對(duì)連續(xù)語音數(shù)據(jù)的影響

對(duì)連續(xù)語音特征曲線來說,不匹配的峰值隨著語音特征曲線的增長而增加,語音特征曲線的動(dòng)態(tài)范圍隨著噪音的增加而減少。因此簡(jiǎn)單的歸一化算法不能有效適用連續(xù)語音識(shí)別。

我們的目標(biāo)是縮小待識(shí)別噪音特征曲線與干凈的語音特征曲線之間的差異。經(jīng)過噪音魯棒性方法和DRA方法,語音信號(hào)中的直流分量的不同得以減少,特征曲線中不匹配的峰值也得以減少。

基于前面提到的孤立詞識(shí)別的歸一化方法,我們可以假設(shè)噪音沒有改變?cè)械奶卣髑€的統(tǒng)計(jì)順序,也就是在語音特征曲線上會(huì)存在很多峰值,如第一高峰值,第二高峰值,等等。在連續(xù)語音特征中,全局的統(tǒng)計(jì)信息的匹配就在整個(gè)訓(xùn)練數(shù)據(jù)集中顯得比較重要。一般來說,這些特征曲線上的峰值信息代表了元音的語音特征。隨著訓(xùn)練量的增加,這些峰值信息一般會(huì)集中到相對(duì)穩(wěn)定的區(qū)域。但實(shí)際上,噪音通常會(huì)改變特征曲線的統(tǒng)計(jì)順序。如果能恢復(fù)部分特征曲線上統(tǒng)計(jì)信息的順序,就能增加這些峰值的匹配幾率。

雖然通過上述的圖示可以看出通過歸一化方法可以增加干凈語音特征曲線和帶噪語音特征曲線的擬合程度,連續(xù)語音特征曲線中存在較多的峰值,帶噪語音特征曲線會(huì)改變一些峰值的統(tǒng)計(jì)信息,因此把歸一化方法簡(jiǎn)單的使用到連續(xù)語音識(shí)別中無法達(dá)到如圖的擬合程度。提出的算法可以盡最大可能恢復(fù)帶噪語音的峰值統(tǒng)計(jì)信息。

使用DRA歸一化能提高特征曲線的峰值匹配概率。孤立詞特征曲線通常不含靜音部分,但在連續(xù)語音中,語音之間存在由于思考或者換氣產(chǎn)生的靜音,在此部分仍然使用歸一化方法在過渡位置會(huì)放大只有噪音的信號(hào)特征。這就導(dǎo)致了連續(xù)語音特征在此部分無法匹配。

根據(jù)上面的討論,可以通過下面兩步對(duì)特征曲線進(jìn)行處理。

第一步:從連續(xù)語音數(shù)據(jù)中提取所有的短句子。

估計(jì)無音部分。連續(xù)語音包含許多無音部分和只有噪音的部分,因?yàn)檫@些部分不適合使用DRA。在下一步中消除連續(xù)語音特征曲線中各個(gè)動(dòng)態(tài)范圍的不平衡性。

第二步:把選取出來的短句子分成更小的片段,在每個(gè)片段中使用歸一化方法。

如果片段的長度接近短句長度,導(dǎo)致識(shí)別結(jié)果與傳統(tǒng)DRA方法接近,如果片段的長度特別小,則導(dǎo)致識(shí)別精度急劇下降。根據(jù)實(shí)驗(yàn)得到經(jīng)驗(yàn)數(shù)據(jù)當(dāng)片段長度為80幀時(shí),識(shí)別精度最高。不同片段長度得到的識(shí)別結(jié)果如下圖:

3 小結(jié)

在訓(xùn)練過程中使用大量的數(shù)據(jù)可以使各個(gè)音素的模型逐漸集中在某一個(gè)范圍。對(duì)于測(cè)試數(shù)據(jù)來說,音素的范圍很有可能與模型不在同一個(gè)范圍內(nèi),待識(shí)別音素是有限的,不可知的。

使用噪音魯棒性方法和DRA在建立區(qū)分度較高模型方法,這些魯棒性方法在發(fā)音較短的孤立詞識(shí)別中展現(xiàn)了良好的識(shí)別性能,并說明了這些方法無法直接在連續(xù)語音識(shí)別中的原因。

雖然在帶噪語音特征曲線和干凈語音特征曲線仍然有不匹配的峰值,需要指出的是,對(duì)比使用傳統(tǒng)的DRA算法,減少了不匹配的峰值。由此可以看出,使用提出的算法調(diào)整帶噪語音特征曲線可以增加峰值部分的匹配幾率。使用該算法在干凈和噪音環(huán)境下可以提高整體的識(shí)別性能。特別指出的是,提出的算法大幅提高了在噪音環(huán)境下的連續(xù)語音識(shí)別性能,根本原因就是相對(duì)于傳統(tǒng)的DRA,選擇了更合適的調(diào)整值,適當(dāng)?shù)姆糯罅朔逯怠T撍惴ㄔ谡Z音頻譜系數(shù)的對(duì)數(shù)系數(shù)特征里也適用。

參考文獻(xiàn):

[1]張雄偉等編著.現(xiàn)代語音處理技術(shù)及應(yīng)用[M].機(jī)械工業(yè)出版社,2003.

第4篇:語音識(shí)別系統(tǒng)范文

關(guān)鍵詞:語音識(shí)別;智能家居;HR7P194單片機(jī)

前言

隨著科技的發(fā)展,語音交互逐步走了進(jìn)人們的生活中。例如蘋果手機(jī)中Siri和Win10系統(tǒng)中小娜都已被人們所熟悉,小米語音識(shí)別遙控器也給智能家居帶來新體驗(yàn)??紤]到智能語音識(shí)別技術(shù)在未來科技和生活中的普及是必然,我國在上世紀(jì)末期已開展對(duì)其的研究。因此,將非特定性語音識(shí)別技術(shù)運(yùn)用到智能家居中,并以語音控制方式進(jìn)行控制家具電器設(shè)備,為人們的生活帶來了很大的便捷[1]。

1 語音識(shí)別系統(tǒng)簡(jiǎn)介

語音識(shí)別技術(shù)其任務(wù)是將人類的聲音轉(zhuǎn)換成計(jì)算機(jī)可識(shí)別的信息。語音識(shí)別技術(shù)過程為:語音信號(hào)采集、預(yù)處理、特征信號(hào)提取、根據(jù)庫模板測(cè)度估計(jì)、語音識(shí)別、語音輸出[1]。

語音識(shí)別技術(shù)有兩方面的應(yīng)用[2]:一是連續(xù)語音大詞匯語音識(shí)別系統(tǒng),應(yīng)用于聽寫機(jī)及語言信息查詢服務(wù)系統(tǒng);二是體積小、方便攜帶的語音設(shè)備,如智能手機(jī)、玩具、家電遙控器等。

語音識(shí)別技術(shù)就是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高級(jí)技術(shù)[3]。語音識(shí)別技術(shù)過程為:語音信號(hào)采集、預(yù)處理、特征信號(hào)提取、根據(jù)庫模板測(cè)度估計(jì)、語音識(shí)別、語音輸出。

2 系統(tǒng)主要硬件組成

2.1 語音識(shí)別系統(tǒng)的硬件總體設(shè)計(jì)

本系統(tǒng)包括語音信號(hào)采集模塊、語音信號(hào)調(diào)理模塊、單片機(jī)控制模塊、語音識(shí)別模塊、液晶顯示模塊、控制執(zhí)行模塊等[1]。

語音信號(hào)調(diào)理模塊包括自動(dòng)調(diào)整增益電路和帶通濾波電路。語音信號(hào)強(qiáng)度會(huì)隨傳播距離的增加成指數(shù)下降,為了防止近距離出現(xiàn)飽和限幅現(xiàn)象,因此采用自動(dòng)調(diào)整增益電路[1]。人類的語音信號(hào)主要分布在300Hz-3.4KHz,帶通濾波電路可以有效地防止造成干擾,提高識(shí)別效率[1]。

2.2 單片機(jī)控制模塊電路設(shè)計(jì)

市面上可用于語音識(shí)別的單片機(jī)多種多樣,文章所用的是HR7P194單片機(jī)。HR7P194單片機(jī)具有單時(shí)鐘周期短、運(yùn)行速度快、性能穩(wěn)定的特性,采用哈弗型RISC,66條精簡(jiǎn)指令集,工作頻率最高16MHz,支持硬件除法器,支持17個(gè)中斷處理,具有8KB Flash程序儲(chǔ)存器、496字節(jié)的SRAM、1路8位定時(shí)器T8N、3路8位PWM時(shí)基定時(shí)器T8P1/T8P2/T8P3、1路16位門控定時(shí)器T16G、10位模擬數(shù)字轉(zhuǎn)換器ADC、液晶顯示控制器LCDC、41根I/O口線以及1個(gè)全雙工異步串行口和1路IIC總線主控器IICM等。

HR7P194單片機(jī)控制模塊最小工作系統(tǒng)電路如圖1所示。

2.3 語音識(shí)別模塊

以LD3320為核心的語音識(shí)別技術(shù)有語音識(shí)別和聲音控制方面的優(yōu)勢(shì),其優(yōu)點(diǎn)是在不需要存儲(chǔ)器及模數(shù)轉(zhuǎn)換器的情況下,由HR7P194進(jìn)行獨(dú)立控制;此外LD3320是一款自定義關(guān)鍵詞進(jìn)行識(shí)別的芯片,用戶語音操作便捷。

2.4 液晶顯示系統(tǒng)

相較于其他顯示方式液晶顯示具有顯示便捷、功耗小、使用壽命長的優(yōu)勢(shì)[4],基于液晶顯示的優(yōu)點(diǎn)文章采用LCD128*64液晶顯示屏。LCD128*64這種通用模塊其優(yōu)點(diǎn)主要在能夠顯示文字、數(shù)字、字母及圖形。利用該模塊主要顯示語音識(shí)別出的命令、處理器發(fā)出的控制指令及系統(tǒng)狀態(tài),同時(shí)利用其可以顯示圖形的特點(diǎn),可以模擬顯示人的聲音動(dòng)態(tài)波形,科技感更強(qiáng)。

3 系統(tǒng)軟件設(shè)計(jì)

主程序開始先對(duì)包括單片機(jī)在內(nèi)的所有元件進(jìn)行初始化[4],包括單片機(jī)控制模塊初始化、語音識(shí)別模塊初始化、液晶顯示模塊初始化、控制執(zhí)行模塊初始化。初始化之后進(jìn)行語音識(shí)別,通過對(duì)LD3320讀寫芯片的控制,獲取語音命令,根據(jù)識(shí)別情況判斷是否調(diào)用相應(yīng)的子程序并進(jìn)行數(shù)據(jù)處理,最后控制繼電器和液晶顯示。

4 系統(tǒng)測(cè)試

系統(tǒng)硬件實(shí)驗(yàn)平臺(tái)設(shè)計(jì)、組裝調(diào)試好后,通過東軟載波單片機(jī)開發(fā)工具HR10M將程序下載到HR7P194單片機(jī)中。然后分別在一個(gè)沒有噪音室內(nèi)環(huán)境中和具有一定噪音的室外環(huán)境中進(jìn)行語音訓(xùn)練。通過訓(xùn)練后分別在兩種環(huán)境中進(jìn)行測(cè)試:通過5人分別說出“開燈”“關(guān)燈”等命令來進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果為:語音識(shí)別系統(tǒng)對(duì)5種不同的聲音均可良好的識(shí)別并做出相應(yīng)的動(dòng)作,在外界環(huán)境良好的狀況下(無噪音的情況下),識(shí)別效率在92%以上;在具有一定噪音的室外環(huán)境中,識(shí)別效率有所降低,在85%以上。

經(jīng)過長期、多次測(cè)試結(jié)果表明:本系統(tǒng)能夠識(shí)別語音信息,識(shí)別效率高、性能穩(wěn)定,適合智能家居環(huán)境的語音交互系統(tǒng)。

5 結(jié)束語

文章所構(gòu)建基于HR7P194單片機(jī)和LD3320芯片的智能家居語音識(shí)別系統(tǒng),能夠有效地識(shí)別人的聲音,實(shí)現(xiàn)語音控制電燈開關(guān)、風(fēng)扇轉(zhuǎn)速、電視及熱水器等家用電器,同時(shí)東軟載波單片機(jī)具有非常良好的穩(wěn)定性,在后期產(chǎn)品穩(wěn)定性測(cè)試中發(fā)揮重要作用。

參考文獻(xiàn)

[1]陳濤,高必梵,艾菊梅.語音識(shí)別技術(shù)在智能家居控制系統(tǒng)中的應(yīng)用研究[J].電子質(zhì)量,2015(3):1-3.

[2]語音識(shí)別技術(shù)新熱點(diǎn)――語音識(shí)別專用芯片[J].世界電子元器件,2002(2):26-27.

第5篇:語音識(shí)別系統(tǒng)范文

【關(guān)鍵詞】手指靜脈識(shí)別 門禁系y 設(shè)計(jì)

1 前言

手指靜脈識(shí)別技術(shù)是一種新的生物特征識(shí)別技術(shù),依據(jù)人類手指中流動(dòng)的血液可吸收特定波長光線的原理,得到手指靜脈的清晰圖像。利用這一固有的科學(xué)特征,將實(shí)現(xiàn)對(duì)獲取的影像進(jìn)行分析、處理,從而得到手指靜脈的生物特征,再將得到的手指靜脈特征信息與注冊(cè)樣本的手指靜脈特征進(jìn)行提取比對(duì),從而確認(rèn)身份的真實(shí)性。由于必須是具有一定血壓的活體才能采集到血管結(jié)構(gòu)特征,真正的活體生物特征;靜脈血管人人具有,適應(yīng)范圍廣,據(jù)研究結(jié)果表明,只有0.01%的人識(shí)別率偏低,幾乎人人可用。

兩者的有機(jī)結(jié)合,勢(shì)必會(huì)有效提高銀行金融系統(tǒng)的安全方法等級(jí),給人員安全管理帶來很大的便利性。

2 系統(tǒng)概述

聯(lián)網(wǎng)型門禁系統(tǒng)是最典型、功能強(qiáng)大的門禁管理系統(tǒng),系統(tǒng)由專用以太網(wǎng)門禁控制器、指靜脈儀、電鎖、門磁、紅外、煙感、出門按紐、網(wǎng)絡(luò)轉(zhuǎn)換器、聯(lián)動(dòng)報(bào)警系統(tǒng)、管理軟件、計(jì)算機(jī)及配套設(shè)備組成,還可實(shí)現(xiàn)聲音提示、監(jiān)控聯(lián)動(dòng)等功能。

智能門禁管理系統(tǒng)將指靜脈識(shí)別與電控鎖有機(jī)地結(jié)合起來,進(jìn)而由指靜脈替代鑰匙,配合上位機(jī)管理軟件,聯(lián)動(dòng)監(jiān)控系統(tǒng),實(shí)行智能化管理,有效地解決了傳統(tǒng)門鎖的多種不足,其拓展功能――人力資源的管理更是給人們帶來意想不到的方便。

3 系統(tǒng)工作流程

通道AB門雙門互鎖門禁點(diǎn)位于現(xiàn)金營業(yè)廳工作場(chǎng)所進(jìn)出通道,兩扇門的中間是一個(gè)通道,要求雙門互鎖聯(lián)動(dòng)。A門外(受保護(hù)區(qū)域外)安裝一臺(tái)HJ-300A指靜脈終端,A門內(nèi)安裝出門按鈕,B門內(nèi)安裝一臺(tái)HJ-300A指靜脈終端,B門外安裝出門按鈕。打開A門進(jìn)入通道,必須把A門關(guān)好,才能打開B門通行,如果此時(shí)A門沒關(guān)閉好,便無法打開B門,防止犯罪分子尾隨等,為區(qū)域內(nèi)安全提供了更高一級(jí)的保障。門禁控制器可通過TCP/IP局域網(wǎng)或RS485網(wǎng)絡(luò)與管理工作站聯(lián)網(wǎng)。

在各分行設(shè)置加鈔間門禁點(diǎn),中心網(wǎng)點(diǎn)可對(duì)各分行加鈔間門禁點(diǎn)進(jìn)行監(jiān)控、遠(yuǎn)程開門、禁止開門等操作,以及開門權(quán)限的設(shè)置等??蓪?shí)現(xiàn)本地“N+1確認(rèn)(按指靜脈、刷卡或密碼隨意組合)開門”、本地確認(rèn)中心軟件遠(yuǎn)程開門、本地紅外等探測(cè)器聯(lián)動(dòng)報(bào)警、DVR聯(lián)動(dòng)控制、語音提示、遭遇脅迫時(shí)開門同時(shí)報(bào)警等等功能。

系統(tǒng)提供專門為銀行門禁設(shè)計(jì)的CHD802D1CP銀行加鈔間門禁控制器,該控制器可實(shí)現(xiàn)多人權(quán)限開門功能,即需要多個(gè)按指靜脈及密碼且均為合法才能開門,該開門方式更適于銀行高安全區(qū)域的管理方式,開門時(shí)必須有多名員工或多名員工以及一名高級(jí)管理人員同時(shí)在場(chǎng),防止了銀行內(nèi)部個(gè)別人員利用職務(wù)之便進(jìn)行犯罪行為。

門外安裝指靜脈識(shí)別儀(讀卡器)、門上安裝電控鎖、門內(nèi)安裝出門按鈕,門內(nèi)門外均在門的上方合適位置安裝揚(yáng)聲器,控制器與語音驅(qū)動(dòng)板、電源等設(shè)備則放置于一專用鐵盒內(nèi)安裝于門內(nèi)墻上或隱蔽處。

4 系統(tǒng)手指靜脈識(shí)別終端參數(shù)表

作為銀行門禁系統(tǒng)中的重要組成部分,我們?cè)O(shè)計(jì)的手指靜脈識(shí)別終端的參數(shù)如表1所示。

5 結(jié)論

本設(shè)計(jì)方案很好的融合了最新的生物特征識(shí)別技術(shù)與金融安防系統(tǒng),有效的提高了安全防范級(jí)別,為諸如金庫、監(jiān)獄等重要機(jī)構(gòu)提供了參考依據(jù)。

參考文獻(xiàn)

[1]KONO M,UEKI H,UMEMURA S I.A flew method for the identification of individuals by using of vein pattern matching of a finger[C]Fifteenth Symposium on Pattern Measurement,2014:9-12.

[2]管風(fēng)旭.王科俊.基于自動(dòng)調(diào)光功能的手指靜脈圖像采集系統(tǒng)[J].電子技術(shù)應(yīng)用,2013,36(10):120-123

第6篇:語音識(shí)別系統(tǒng)范文

關(guān)鍵詞 機(jī)器人 語音識(shí)別 聲學(xué)模型 語音特征參數(shù)

中圖分類號(hào):TP242 文獻(xiàn)標(biāo)識(shí)碼:A

1語音識(shí)別技術(shù)的研究意義

人們使用的聲音語言是一種人在特定高度思維和意識(shí)活動(dòng)下的產(chǎn)品。語言是人類最直接以及最理想的交流方式,也是人機(jī)通信是最方便的方式。在機(jī)器人發(fā)展的高級(jí)發(fā)展階段中,機(jī)器人的智能語音識(shí)別與人類的活動(dòng)是密切相關(guān)的,有聲語言的人機(jī)交互信息成為重要的手段。例如,語音識(shí)別獲取外界信息很自然,沒有特殊的訓(xùn)練方法,隨著機(jī)器人技術(shù)的發(fā)展和廣泛應(yīng)用,有越來越多的機(jī)會(huì)來接觸人類和機(jī)器人,所以人們希望通過語音識(shí)別和機(jī)器人去處理,不管誰能能準(zhǔn)確安全,方便地操縱機(jī)器人。機(jī)器人和人類之間的信息交互,表現(xiàn)在兩個(gè)方面,一是對(duì)更高層次的機(jī)器人操作,方便軟件的設(shè)計(jì)開發(fā),這種多為教學(xué)機(jī)器人,另一種是在實(shí)際操作的要求下完成信息交互任務(wù)的機(jī)器人。智能機(jī)器人作為機(jī)器人技術(shù)發(fā)展的高級(jí)階段,其發(fā)展趨勢(shì)是:不僅要求機(jī)器人具有高度的自治能力,還要使機(jī)器人和人類之間的協(xié)調(diào)也具有一定的智能性。這就要求機(jī)器人具有不同的高性能主動(dòng)做事能力,而不是被動(dòng)地接受任務(wù),為了實(shí)現(xiàn)這一目標(biāo),自然語言作為人機(jī)信息交換將發(fā)揮越來越重要的作用。目前,智能機(jī)器人已成為機(jī)器人研究領(lǐng)域的一個(gè)熱點(diǎn)。工業(yè)機(jī)器人是智能機(jī)器人的一個(gè)重要研究領(lǐng)域。當(dāng)今,工業(yè)機(jī)器人的發(fā)展方興未艾,巨大的市場(chǎng)潛力,使真正的工業(yè)機(jī)器人的已經(jīng)在市場(chǎng)上嶄露頭角,以滿足人們?nèi)找嬖鲩L的需求,我們不能沒有一個(gè)高性能的語音識(shí)別系統(tǒng)。由于工業(yè)機(jī)器人是面向生產(chǎn)實(shí)際的需要,最好的工作方式是讓機(jī)器人能顧聽懂最常見的人類語言,完成指定的工作,并能與人交流。機(jī)器人語音識(shí)別是機(jī)器人研究領(lǐng)域中的語音識(shí)別應(yīng)用,最終的目標(biāo)是讓機(jī)器人了解人們的口頭語言,然后按照人們的命令來行動(dòng)或反應(yīng),從而形成一個(gè)良好的人機(jī)對(duì)話系統(tǒng)。為了能夠進(jìn)一步推動(dòng)智能機(jī)器人的開發(fā)應(yīng)用,因此,在語音識(shí)別機(jī)器人的研究領(lǐng)域中,機(jī)器人語音識(shí)別系統(tǒng)是工業(yè)機(jī)器人的實(shí)際推廣應(yīng)用,具有重要的意義。

語音識(shí)別技術(shù)在智能機(jī)器人中的應(yīng)用已經(jīng)有很多年的歷史,作為智能機(jī)器人的一個(gè)分支,工業(yè)機(jī)器人得到了迅速發(fā)展,工業(yè)機(jī)器人通過語音識(shí)別從工業(yè)噪聲中提取有效的語音命令。為了實(shí)現(xiàn)機(jī)器人在一些特殊工業(yè)環(huán)境中工作的目的,機(jī)器人要能夠識(shí)別命令意圖。語音識(shí)別技術(shù),可以實(shí)現(xiàn)人機(jī)對(duì)話,從而讓機(jī)器能模仿人類完成所有工作的分配,使其在各行各業(yè)中能夠得以應(yīng)用。目前所面臨的實(shí)際問題是:噪聲和干擾環(huán)境下對(duì)大型工業(yè)機(jī)器人的語音識(shí)別有嚴(yán)重的影響。在機(jī)器人識(shí)別領(lǐng)域,工業(yè)環(huán)境中的實(shí)時(shí)性是一個(gè)非常重要的任務(wù)。機(jī)器人在工業(yè)環(huán)境下應(yīng)用的聽覺識(shí)別是使智能機(jī)器人發(fā)展速率低的瓶頸。

2語音識(shí)別系統(tǒng)的發(fā)展

2.1語音識(shí)別系統(tǒng)的發(fā)展方向

語音識(shí)別系統(tǒng)是基于一套應(yīng)用軟件系統(tǒng)的硬件平臺(tái)和操作系統(tǒng)的一些。語音識(shí)別一般分為兩個(gè)步驟。第一步是學(xué)習(xí)或培訓(xùn)。這一階段的任務(wù)是建立基本單元的聲學(xué)模型來進(jìn)行識(shí)別和模型的語音語法分析等。第二步是識(shí)別或測(cè)試。根據(jù)識(shí)別系統(tǒng)的類型可以滿足一個(gè)識(shí)別方法的要求,使用語音分析的方法來分析語音特征參數(shù),并建立了比較和測(cè)量系統(tǒng)模型,根據(jù)一定的標(biāo)準(zhǔn),鑒定結(jié)果。

語音識(shí)別系統(tǒng)的應(yīng)用可分為兩個(gè)發(fā)展方向,其中一個(gè)是大詞匯連續(xù)語音識(shí)別系統(tǒng),主要應(yīng)用于計(jì)算機(jī)的聽寫機(jī),以及結(jié)合電話網(wǎng)或互聯(lián)網(wǎng)的語音信息服務(wù)系統(tǒng),這些系統(tǒng)是在計(jì)算機(jī)平臺(tái)上的一個(gè)重要發(fā)展方向。其次是應(yīng)用的小型化,便攜式音頻產(chǎn)品,如無線移動(dòng)電話的撥號(hào),語音控制車載設(shè)備,智能玩具,家用電器和其他方面的應(yīng)用的遠(yuǎn)程控制,這些應(yīng)用系統(tǒng)大多采用特殊的硬件系統(tǒng)來實(shí)現(xiàn),特別是語音信號(hào)處理芯片和語音識(shí)別芯片,最近幾年快速發(fā)展,為其廣泛應(yīng)用創(chuàng)造了極為有利的條件。

2.2語音識(shí)別系統(tǒng)的模型與模式

語音識(shí)別系統(tǒng)的核心是聲學(xué)模型和模式分類。首先通過學(xué)習(xí)算法,訓(xùn)練語音聲學(xué)模型的特點(diǎn)是通過學(xué)習(xí)過程來生成聲學(xué)模型,這是識(shí)別潛在的模型的前提,是最關(guān)鍵的語音識(shí)別系統(tǒng)的一部分。聲學(xué)模型的目的是提供一種有效的方法來計(jì)算特征向量的聲音序列和每個(gè)發(fā)音模板之間的距離。人的發(fā)音在每一刻發(fā)音之前和之后都會(huì)受到影響。

為了模仿自然連續(xù)的協(xié)同發(fā)音和識(shí)別不同的發(fā)音,通常需要使用復(fù)雜的聲學(xué)模型。聲學(xué)模型和語言的發(fā)音特點(diǎn)的設(shè)計(jì)是密切相關(guān)的。聲學(xué)模型單元大小與單詞發(fā)音,音節(jié)模式和音位語音訓(xùn)練數(shù)據(jù)大小有關(guān),故要求其系統(tǒng)識(shí)別具有很大的靈活性。大詞匯量語音識(shí)別系統(tǒng),通常采用較小的單元和少量的計(jì)算,該模型只有較小的存儲(chǔ)容量,減少訓(xùn)練數(shù)據(jù)的數(shù)量,但相應(yīng)的聲音定位和分割問題就顯得更加困難,規(guī)則識(shí)別模型變得越來越復(fù)雜。通常大型模型中識(shí)別單元包括協(xié)同發(fā)音,這有利于提高系統(tǒng)的識(shí)別率,但訓(xùn)練數(shù)據(jù)也相對(duì)增加。必須根據(jù)不同語言的特點(diǎn)來識(shí)別詞匯,詞匯量大小決定單位大小。

參考文獻(xiàn)

第7篇:語音識(shí)別系統(tǒng)范文

關(guān)鍵詞:孤立詞識(shí)別 免疫粒子群優(yōu)化 LBG算法 DHMM

中圖分類號(hào):TN912.34 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2013)01-0111-03

語音識(shí)別是一項(xiàng)極具魅力且大有作為的新興技術(shù),其涉及語音語言學(xué)、生理心理學(xué)、信號(hào)處理及計(jì)算機(jī)科學(xué)等眾多學(xué)科。該技術(shù)的目標(biāo)主要是利用人機(jī)接口來實(shí)現(xiàn)人與機(jī)器的直接對(duì)話,并能夠使機(jī)器根據(jù)人的語音執(zhí)行各種相應(yīng)的命令。作為語音識(shí)別的一個(gè)分支,孤立詞語音識(shí)別已廣泛應(yīng)用于移動(dòng)通信中的查詢和語音撥號(hào)、汽車導(dǎo)航中的語音控制、語音檢索等[1][2],具有重要的理論研究意義和實(shí)際應(yīng)用價(jià)值。

然而,很多應(yīng)用產(chǎn)品的效果仍不夠理想,如識(shí)別率低、語音庫詞匯量少、識(shí)別速度慢等都嚴(yán)重制約著語音識(shí)別技術(shù)在生產(chǎn)生活中的推廣應(yīng)用。目前,語音識(shí)別中運(yùn)用較多的是隱馬爾科夫模型(HMM)、矢量量化(VQ)、動(dòng)態(tài)時(shí)間規(guī)整(DTW)、人工神經(jīng)網(wǎng)絡(luò)(ANN)以及支持向量機(jī)(SVM)等方法[3]。其中,HMM和VQ在孤立詞語音識(shí)別中應(yīng)用較為成功。

在HMM的孤立詞識(shí)別系統(tǒng)中,首先是提取用于訓(xùn)練的語音特征矢量,然后對(duì)其進(jìn)行矢量量化。矢量量化中,用LBG算法訓(xùn)練得出矢量量化器,再用矢量量化器量化訓(xùn)練參數(shù)。最后,訓(xùn)練參數(shù)進(jìn)入HMM語音識(shí)別系統(tǒng)中進(jìn)行訓(xùn)練識(shí)別。但是,經(jīng)典的LBG算法對(duì)初始碼書的選取較為敏感,易陷入局部最優(yōu)[4]。因此,本文運(yùn)用免疫粒子群優(yōu)化(IPSO)算法改進(jìn)LBG初始碼書設(shè)計(jì),并通過HMM語音識(shí)別系統(tǒng)進(jìn)行實(shí)驗(yàn)測(cè)試。實(shí)驗(yàn)結(jié)果證明,該方法極大的提高了系統(tǒng)的識(shí)別率,具有一定的可行性。

1 DHMM孤立詞語音識(shí)別方法

隱馬爾可夫模型作為一種語音信號(hào)處理中廣泛運(yùn)用的統(tǒng)計(jì)模型,可實(shí)現(xiàn)雙重隨機(jī)過程[5],既可以描述直接觀測(cè)到的信號(hào)瞬態(tài)特征,又可以描述隱含在觀測(cè)序列中的動(dòng)態(tài)特征。HMM分為離散HMM(DHMM)、半連續(xù)HMM(SCHMM)和連續(xù)HMM(CHMM)三種[6]。本文中側(cè)重孤立詞語音識(shí)別研究,鑒于DHMM輸出離散分布概率,實(shí)現(xiàn)時(shí)所需的計(jì)算量以及存儲(chǔ)量都較小,因此選用DHMM模型(圖1)。

DHMM語音識(shí)別的系統(tǒng)框圖如圖1所示。假設(shè)為一個(gè)觀察序列,為HMM參數(shù)組,DHMM語音識(shí)別過程需要進(jìn)行如下三步:(1)給定模型的條件下,計(jì)算得出觀測(cè)序列的概率;(2)選擇一個(gè)最優(yōu)的狀態(tài)序列來表達(dá)觀測(cè)序列;(3)通過調(diào)整模型參數(shù),以使最大。

在DHMM孤立詞語音識(shí)別中,要計(jì)算觀測(cè)序列對(duì)模型的概率,可以使用Baum-Welch算法和Viterbi算法[7]。Baum-Welch算法用于計(jì)算所有可能狀態(tài)序列所對(duì)應(yīng)概率,Viterbi算法用于計(jì)算最大似然狀態(tài)序列對(duì)應(yīng)的概率。它們均是動(dòng)態(tài)匹配過程,計(jì)算觀測(cè)序列與模型之間的最佳匹配,兩種算法具有幾乎相同的計(jì)算量。但是Viterbi算法能將浮點(diǎn)乘法轉(zhuǎn)為定點(diǎn)加法,還能將概率對(duì)數(shù)化,從而能夠提高識(shí)別的速度。本文的DHMM的語音識(shí)別系統(tǒng)采用Viterbi算法來進(jìn)行識(shí)別。

2 免疫粒子群優(yōu)化(IPSO)算法

Kennedy和Eberhart通過研究鳥群捕食行為,在1995開發(fā)了一種仿生進(jìn)化算法——粒子群優(yōu)化(PSO)算法[8]。PSO算法和其他優(yōu)化算法相似,運(yùn)用群體進(jìn)化的方式,假設(shè)單個(gè)粒子無體積無重量,以一定速度在搜索空間中飛行。根據(jù)自身及群體的飛行經(jīng)驗(yàn),空間中的粒子不斷調(diào)整自身的飛行速度,通過調(diào)節(jié)并改變飛行方向和距離,在空間中根據(jù)最優(yōu)粒子的位置進(jìn)行搜索,經(jīng)過不斷迭代獲得最優(yōu)解。

在PSO算法中,假設(shè)一個(gè)D維搜索空間,群體由N個(gè)粒子組成。在聚類過程中,先對(duì)這群粒子隨機(jī)初始化。在迭代過程中,通過跟蹤個(gè)體最優(yōu)值和全局最優(yōu)值的變化,每個(gè)粒子不斷更新自己的位置及速度。設(shè)第個(gè)粒子的速度為,第個(gè)粒子的位置為,則粒子優(yōu)化計(jì)算如下式:

(1)

(2)

式中,、是對(duì)應(yīng)的學(xué)習(xí)因子,取值通常為2,和取[0,1]間的隨機(jī)數(shù),代表慣性權(quán)重,其取值將影響算法的收斂性,取值太大會(huì)導(dǎo)致算法不收斂,因此權(quán)重大小的選擇很重要。

設(shè)第個(gè)粒子為最優(yōu)位置,在求解最小化問題時(shí),目標(biāo)函數(shù)值越小,則適應(yīng)度就越好,則個(gè)體最優(yōu)值:

(3)

設(shè)目標(biāo)函數(shù)為,為所有粒子搜索到的位置最優(yōu)值,則有全局最優(yōu)值:

(4)

式中,、、和分別表示第次迭代過程中,粒子在第維的速度、位置、個(gè)體最優(yōu)位置和整個(gè)種群的全局最優(yōu)位置。在進(jìn)化的過程中,為了避免粒子飛出搜索空間外,通常取值為,取值為,則將有,。

PSO雖然算法簡(jiǎn)單,實(shí)現(xiàn)容易,但仍存在一定缺陷。PSO算法的各種參數(shù)值往往是通過經(jīng)驗(yàn)來確定,其很難保證種群的多樣性,算法容易陷入早熟。因此,本文設(shè)計(jì)了免疫粒子群算法(IPSO)。通過將免疫記憶、免疫調(diào)節(jié)及接種疫苗等處理機(jī)制[9]運(yùn)用到PSO算法中,每個(gè)粒子都作為一個(gè)抗體,使算法有了全局收斂能力,避免陷入早熟,提高了粒子群的多樣性和收斂速度。

在本文中,將每次迭代生成的最優(yōu)粒子作為記憶細(xì)胞保存起來,當(dāng)部分粒子適應(yīng)度較低,不合要求時(shí)用記憶細(xì)胞來代替,從而加快搜索速度。在粒子群更新的過程中,本文利用免疫系統(tǒng)的調(diào)節(jié)作用,當(dāng)抗體(即粒子)的濃度增高時(shí),系統(tǒng)對(duì)其進(jìn)行抑制的作用就增大,選擇的概率就減?。环粗?,選擇的概率增大。這樣就可保證粒子具有多樣性。

通過下式可計(jì)算第個(gè)粒子的濃度為:

(5)

通過式(5)可計(jì)算第個(gè)粒子濃度的選擇概率為:

(6)

其中,表示第個(gè)粒子的適應(yīng)度函數(shù)值。從公式(6)可以看出,與粒子相似的粒子數(shù)量越多,粒子被選擇的概率就越?。环粗?,粒子被選擇的概率就越大。

3 基于IPSO算法的碼書設(shè)計(jì)

3.1 參數(shù)設(shè)計(jì)

LBG算法是經(jīng)典的碼書設(shè)計(jì)方法[10],但LBG中初始碼書的好壞對(duì)碼書收斂的速度和最終碼書的性能都會(huì)產(chǎn)生很大的影響。因此,本文充分利用IPSO算法的全局搜索性能,將每個(gè)粒子看作一個(gè)碼書,經(jīng)過聚類、迭代得出最優(yōu)解,然后將最優(yōu)解作為初始碼書,再用LBG算法優(yōu)化得到最優(yōu)碼書。

本文所用免疫粒子群改進(jìn)LBG算法中參數(shù)的設(shè)計(jì)為:粒子群規(guī)模;新增粒子數(shù);粒子維數(shù);最大迭代計(jì)算次數(shù);學(xué)習(xí)因子;慣性權(quán)重及適應(yīng)度函數(shù)分別通過公式(7)及公式(8)進(jìn)行計(jì)算。

(7)

式中,為慣性因子最大值,取值為1.0,為慣性因子最小值,取值為0.4,為迭代次數(shù),為最大迭代代數(shù)。

(8)

其中,表示第個(gè)聚類中心,為屬于第個(gè)聚類中心的數(shù)據(jù)集合,為聚類類別數(shù)。適應(yīng)度越小,說明聚類越緊湊,碼書性能越好。

3.2 碼書設(shè)計(jì)

基于IPSO的碼書設(shè)計(jì)算法的具體步驟為:

步驟1:種群初始化。隨機(jī)地從語音庫訓(xùn)練矢量集中選取D個(gè)矢量作為一個(gè)粒子(即碼書),矢量的維數(shù)為,反復(fù)進(jìn)行N次得到N個(gè)粒子,初始化粒子的速度,位置。

步驟2:計(jì)算各個(gè)粒子的適應(yīng)度值,對(duì)個(gè)體最優(yōu)值和全局最優(yōu)值進(jìn)行更新,將作為免疫記憶粒子保存。

步驟3:根據(jù)公式(1),(2)對(duì)粒子當(dāng)前速度和所在位置進(jìn)行進(jìn)化計(jì)算。

步驟4:隨機(jī)產(chǎn)生個(gè)粒子,形成新的粒子群。

步驟5:對(duì)N+M個(gè)粒子的濃度選擇概率通過公式(6)進(jìn)行計(jì)算,將概率大的個(gè)粒子選出,進(jìn)入下一代。

步驟6:選取為疫苗,隨機(jī)確定一段基因,將步驟5中選出的粒子與疫苗對(duì)應(yīng)的基因進(jìn)行替換。

步驟7:計(jì)算被替換粒子的適應(yīng)度值,與父代進(jìn)行比較,若不如父代,則取消接種,反之保留該粒子,形成新的粒子群。

步驟8:對(duì)每一個(gè)粒子(即碼書)按照最近鄰法則,重新確定聚類劃分,計(jì)算出新的聚類中心,形成新碼書。

步驟9:當(dāng)計(jì)算達(dá)到最大迭代次數(shù)就結(jié)束,否則,跳轉(zhuǎn)至步驟2后重復(fù)進(jìn)行。

4 實(shí)驗(yàn)仿真分析

4.1 實(shí)驗(yàn)建立

孤立詞語音識(shí)別仿真實(shí)驗(yàn)需要語音特征提取、矢量量化、模型訓(xùn)練及識(shí)別測(cè)試4步:

首先,分幀提取待訓(xùn)練和識(shí)別的語音信號(hào)特征參數(shù),每幀為一個(gè)矢量,構(gòu)成矢量序列。本文采用過零峰值幅度(ZCPA)語音特征,形成1024維特征矢量。

其次,對(duì)高數(shù)據(jù)率矢量序列進(jìn)行矢量量化。本文通過IPSO改進(jìn)LBG算法來形成矢量量化器,將訓(xùn)練數(shù)據(jù)庫中10人在不同噪聲、不同詞匯量下的語音特征矢量量化形成相應(yīng)碼書。

第三,將上步得到的碼書輸入到DHMM模型的孤立詞語音識(shí)別系統(tǒng)中,采用5狀態(tài)單詞模型,27個(gè)樣本訓(xùn)練一個(gè)單詞,將每個(gè)單詞運(yùn)用Baum-Welch算法訓(xùn)練成一個(gè)模板。

第四,運(yùn)用矢量量化器對(duì)待測(cè)試的8個(gè)人在不同噪聲、不同詞匯量下形成的數(shù)據(jù)進(jìn)行矢量量化,形成測(cè)試碼書。然后用Viterbi算法得到測(cè)試語音數(shù)據(jù)與上步形成的模板所匹配的概率,最大概率值極為識(shí)別結(jié)果。

4.2 仿真分析

本文通過C++語言編程,在PC機(jī)上建立基于過零峰值幅度語音特征的IPSO-LBG改進(jìn)DHMM的孤立詞識(shí)別系統(tǒng)。實(shí)驗(yàn)中選用在不同高斯白噪聲條件下(包含15dB、20dB、25dB、30dB和無噪音),18個(gè)人都分別采集10詞、20詞、30詞、40詞、50詞,每人每個(gè)詞發(fā)音三次,形成實(shí)驗(yàn)語音數(shù)據(jù),其中10人的語音數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)庫,另外8個(gè)人的語音數(shù)據(jù)作為識(shí)別數(shù)據(jù)庫。這樣,通過PC機(jī)編程仿真,得到了不同噪聲和詞匯量下的基于免疫粒子群優(yōu)化LBG算法的DHMM語音識(shí)別結(jié)果。

表1所示為在不同詞匯量和不同SNR下,分別基于LBG算法和IPSO-LBG算法的DHMM在語音識(shí)別實(shí)驗(yàn)中的識(shí)別結(jié)果。從表中可以看出,基于IPSO-LBG算法的識(shí)別率在不同詞匯量和不同信噪比下都比基于LBG的高,正確識(shí)別的詞匯量也增多,這說明IPSO-LBG算法跳出了局部最優(yōu)值,提高了系統(tǒng)的識(shí)別性能,尤其在大詞匯量的語音識(shí)別中表現(xiàn)出更加明顯的優(yōu)勢(shì)。

(圖2)和(圖3)分別是基于LBG、IPSO-LBG兩種算法的DHMM語音識(shí)別系統(tǒng)在不同詞匯量下的平均識(shí)別率柱狀圖和在不同信噪比下平均識(shí)別率的柱狀圖。從兩圖中可以看出,在不同詞匯量下識(shí)別率都有所提高,且隨著詞匯量的增多,識(shí)別率的提高也加快。在不同的信噪比條件下,識(shí)別率的提高速度差不多,在無噪聲的情況下識(shí)別率最好,系統(tǒng)的抗噪性能還有待提高??傮w上驗(yàn)證了基于IPSO-LBG算法的語音識(shí)別系統(tǒng)的有效性。

5 結(jié)語

本文將免疫粒子群算法運(yùn)用到碼書設(shè)計(jì)中,設(shè)計(jì)了IPSO-LBG算法,并將IPSO-LBG算法用于DHMM孤立詞語音識(shí)別系統(tǒng)中,并給出了實(shí)驗(yàn)的結(jié)果及分析。通過與基于傳統(tǒng)LBG算法的DHMM孤立詞語音識(shí)別系統(tǒng)相比,證明了IPSO優(yōu)化的識(shí)別系統(tǒng)有較好的識(shí)別率,對(duì)今后孤立詞語音識(shí)別研究具有重要的借鑒作用。

參考文獻(xiàn)

[1]袁里馳.基于改進(jìn)的隱馬爾科夫模型的語音識(shí)別方法[J].中南大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,06:1303-1308.

[2]M. Benzeghiba, R. De Mori, O. Deroo, S. Dupont. Automatic speech recognition and speech variability: A review[J].Speech Communication,2007,49(10):763–786.

[3]任杰.語音識(shí)別技術(shù)概述[J].大眾科技,2010,08:21.

[4]王社國,魏艷娜.基于遺傳算法的VQ碼本設(shè)計(jì)及語音識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2007,17:71-73.

[5]A-V.I. Rosti, M.J.F. Gales. Factor analyzed hidden Markov models for speech recognition[J].Computer Speech and Language,2004,18(2):181-200.

[6]高清倫,譚月輝,王嘉禎.基于離散隱馬爾科夫模型的語音識(shí)別技術(shù)[J].河北省科學(xué)院學(xué)報(bào),2007,02:8-11.

[7]于倩,李春利.自適應(yīng)矢量量化在語音識(shí)別中的應(yīng)用[J].現(xiàn)代電子技術(shù),2007,06:128-130.

[8]陳立偉,宋憲晨,章東升,楊洪利.一種基于優(yōu)化小波神經(jīng)網(wǎng)絡(luò)的語音識(shí)別[J].應(yīng)用科技,2008,02:17-20.

第8篇:語音識(shí)別系統(tǒng)范文

關(guān)鍵詞:嵌入式系統(tǒng);語音識(shí)別;隱馬爾可夫;智能家居

中圖分類號(hào):TP316.9

文獻(xiàn)標(biāo)識(shí)碼:A

DOI:10.3969/j.issn.1003-6970.2015.07.021

0 引言

隨著計(jì)算機(jī)的發(fā)展,智能家居在近幾年也得到了大家的重視,智能家居利用各種通信、網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)家居設(shè)備集成,為用戶提供了更加舒適高效的環(huán)境。近幾年人們對(duì)智能家居的便利程度提出了更高的要求,同時(shí)語音識(shí)別技術(shù)也進(jìn)一步的發(fā)展,但是語音在智能家居中的應(yīng)用還是相對(duì)較少,一般還要依靠遙控、手機(jī)等中控設(shè)備。語言是信息交流的重要手段,語音識(shí)別可以用聲音來控制設(shè)備完成一些特定的命令,減少用戶如手機(jī),遙控等中控設(shè)備的依賴,使生活更加方便。

本文通過對(duì)語音識(shí)別技術(shù)與嵌入式控制技術(shù)的研究,用語音命令實(shí)現(xiàn)直接管控從而可以取代以往利用手機(jī)或者遙控方式來控制的方法,方便操作而又能提高效率。本系統(tǒng)基于NL6621板與語音芯片VS1003實(shí)現(xiàn)語音采集,并采用當(dāng)今語音識(shí)別領(lǐng)域的主流技術(shù)一一隱馬爾科夫模型(Hidden Markov Model,HMM)算法實(shí)現(xiàn)對(duì)人語音命令的識(shí)別主要是進(jìn)行模型訓(xùn)練和匹配。實(shí)驗(yàn)證明在多個(gè)語音樣本對(duì)系統(tǒng)的訓(xùn)練識(shí)別下,系統(tǒng)在非特定人、孤立詞語識(shí)別上具有良好的效果。

1 語音識(shí)別與智能家居

1.1 語音識(shí)別技術(shù)

語音識(shí)別技術(shù)本質(zhì)上是一種模式匹配識(shí)別的過程,是機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變成相應(yīng)的文本文件或命令的技術(shù)。根據(jù)模式匹配過程語音識(shí)別系統(tǒng)可以如下圖表示。語音識(shí)別系統(tǒng)可以分為:特定人和非特定人的識(shí)別、獨(dú)立詞和連續(xù)詞的識(shí)別等,無論哪種識(shí)別系統(tǒng)識(shí)別過程都主要包括了語音信號(hào)預(yù)處理、特征提取、訓(xùn)練等。分別通過對(duì)信號(hào)的預(yù)處理分析和計(jì)算建立模板,當(dāng)對(duì)語音進(jìn)行識(shí)別時(shí),需要將輸入的語音與系統(tǒng)中存放的語音進(jìn)行比較從而得到識(shí)別結(jié)果。

1.2 語音識(shí)別算法

人的言語過程是一個(gè)雙重隨機(jī)過程。因?yàn)檎Z音信號(hào)本身是一個(gè)可觀察的序列,而它又是由大腦里的不可觀察的、根據(jù)言語需要和語法知識(shí)狀態(tài)選擇所發(fā)出的音素(詞、句)的參數(shù)流,大量實(shí)驗(yàn)表明,隱馬爾可夫模型(HMM)的確可以非常精確地描述語音信號(hào)的產(chǎn)生過程。隱馬爾可夫模型是對(duì)語音信號(hào)的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型,將之看作一個(gè)數(shù)學(xué)上的雙重隨機(jī)過程,采用HMM進(jìn)行語音識(shí)別,實(shí)質(zhì)上是一種概率運(yùn)算,根據(jù)訓(xùn)練集數(shù)據(jù)計(jì)算得出模型參數(shù)后,測(cè)試集數(shù)據(jù)只需分別計(jì)算各模型的條件概率(Viterbi算法),取此概率最大者即為識(shí)別結(jié)果。一階離散馬爾可夫模型可表示為:有N個(gè)狀態(tài),Sl,S2... SN,存在一個(gè)離散的時(shí)間序列t=0,t=1…在每個(gè)時(shí)刻t,系統(tǒng)只能處于唯一一個(gè)狀態(tài)qt,下一個(gè)時(shí)刻所處的狀態(tài)是隨機(jī)出現(xiàn)的,當(dāng)前狀態(tài)qt只與前面相鄰的一個(gè)狀態(tài)qt-l有關(guān), 與其他狀態(tài)無關(guān),用表達(dá)式

HMM語音識(shí)別的一般過程:

1.前向后向算法計(jì)算

已知觀測(cè)序列 和模型 ,如何有效的計(jì)算在給定模型條件下產(chǎn)生觀測(cè)序列O的概率

2.Baum-Welch算法求出最優(yōu)解 :

(1)初始化

(2)迭代計(jì)算

(3)最后計(jì)算

3.Viterbi算法解出最佳狀態(tài)轉(zhuǎn)移序列:

已知觀測(cè)序列 和模型 ,如何選擇在某種意義上最佳的狀態(tài)序列。

(1)初始化

(2)迭代計(jì)算:

4.根據(jù)最佳狀態(tài)序列對(duì)應(yīng)的九給出候選音節(jié)或聲韻母

5.通過語言模型形成詞和句子

2 基于NL6621嵌入式硬件設(shè)計(jì)

語音識(shí)別的硬件平臺(tái)主要包括中央處理器NL6621,可讀寫存儲(chǔ)器,聲卡芯片vs1003以及一些設(shè)備,硬件體系結(jié)構(gòu)如圖2所示。

主系統(tǒng)使用新岸線公司的NL6621。MCU采用的最高主頻為160MHz,支持802.llb/g/n/i/e/p和Wi-Fidirect,BSS STA,軟AP,WiFi保護(hù)設(shè)置以及WMM-PS和WPA/WPA2安全協(xié)議。codec芯片是vs1003,它與核心控制器NL6621的數(shù)據(jù)通信是通過SPI總線方式進(jìn)行的。它集成了麥克風(fēng)輸入接口,音頻輸出接口,對(duì)話筒輸入或者線路輸入進(jìn)行IMA ADPCM編碼,能有效的接受和播放音頻信息。

硬件電路實(shí)現(xiàn):VS1003通過xCS、xDCS引腳的置高或低來確認(rèn)是哪一個(gè)接口處于傳送狀態(tài)。通過串行命令接口(SCI)和串行數(shù)據(jù)接口(SDI)來接收NL6621的控制命令和數(shù)據(jù),通過SCI HDAT1來獲取語音流;VS1003的功能控制,如初始化、軟復(fù)位、暫停、音量控制、播放時(shí)間的讀取等,均是通過SCI口寫入特定寄存器實(shí)現(xiàn)的。兩條SCI指令之間要通過DREQ引腳信號(hào)判斷上一次處理是否完成。

3 基于NL6621嵌入式軟件設(shè)計(jì)

軟件設(shè)計(jì)主要包括兩部分實(shí)現(xiàn)軟件控制嵌入式系統(tǒng)和基于HMM技術(shù)的語音識(shí)別算法編寫,基本的軟件架構(gòu)如圖3所示。

針對(duì)嵌入式系統(tǒng)控制部分,包括硬件初始化以及采集音頻信號(hào)。主要是使用NL6621提供的軟件開發(fā)包,利用SDK編寫應(yīng)用程序,包括硬件管腳初始化,波特率匹配,錄音文件配置,WiFi配置,錄音,音頻文件格式轉(zhuǎn)化、程序編寫完成后需要用燒寫工具進(jìn)行燒寫。系統(tǒng)啟動(dòng)后,先初始化硬件模塊。然后系統(tǒng)開始工作,通過語音輸入設(shè)備MIC采集語音,并通過聲卡VS1003輸入語音。當(dāng)系統(tǒng)監(jiān)聽到語音輸入,開始語音識(shí)別,判斷識(shí)別是否正確,若正確,將命令發(fā)送給執(zhí)行設(shè)備,入耳不正確,給出相應(yīng)

的錯(cuò)誤提示,不執(zhí)行語音命令。判斷識(shí)別是否結(jié)束,如果結(jié)束則退出,否則繼續(xù)下一輪的識(shí)別?;贖MM技術(shù)的語音識(shí)別算法編寫,還包括了語音預(yù)處理,特征值提取和匹配識(shí)別的部分。主要的原理如圖4所示,輸入語音經(jīng)過預(yù)處理后,語音信號(hào)的特征被提取出來,首先在此基礎(chǔ)上建立所需的模板,這個(gè)建立模板的過程稱為訓(xùn)練過程。根據(jù)語音識(shí)別整體模型,將輸入的語音信號(hào)特征與存在的語音模板(參考模式)進(jìn)行比較,找出一系列最優(yōu)的與輸入的語音相匹配的模板。然后,根據(jù)此模板號(hào)的定義,通過查表就可以給出計(jì)算機(jī)的識(shí)別結(jié)果。采用HMM進(jìn)行語音識(shí)別,實(shí)質(zhì)上是一種概率運(yùn)算。根據(jù)訓(xùn)練集數(shù)據(jù)計(jì)算得出模型參數(shù)后,測(cè)試集數(shù)據(jù)只需分別計(jì)算各模型的條件概率(Viterbi算法),取此概率最大者即為識(shí)別結(jié)果。除訓(xùn)練時(shí)需運(yùn)算量較大外,識(shí)別時(shí)的運(yùn)算量僅有模式匹配法的幾分之一。

第9篇:語音識(shí)別系統(tǒng)范文

[關(guān)鍵詞]語音識(shí)別;頻譜歸一化;三音素;狀態(tài)綁定;

[中圖分類號(hào)]G71 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1672-5158(2013)06-0325-02

目前,現(xiàn)已發(fā)行的HTK穩(wěn)定版是3.4。本系統(tǒng)即是在其基礎(chǔ)上來搭建??梢苑奖阌行У慕⒓安僮鱄MM。HMM已經(jīng)被廣泛地應(yīng)用在了諸多的科研領(lǐng)域,比如AI(Artificial Intelligence,人工智能)和生物工程,HTK也主要針對(duì)智能語音技術(shù)的應(yīng)用及研究而設(shè)計(jì)。

本系統(tǒng)是針對(duì)所有的中文詞匯能夠做識(shí)別,這種識(shí)別過程是基于三音素(Triphone)的自動(dòng)拼接過程,因此,我們?cè)O(shè)計(jì)了一個(gè)詞庫,包含403個(gè)中文詞匯,覆蓋了所有的聲韻拼接,并且我們借助HTK的輔助錄音工具來采集足夠的語音數(shù)據(jù)用于模型訓(xùn)練。此外,為能夠使得識(shí)別系統(tǒng)能夠針對(duì)不同的采樣率做識(shí)別,又特別加入了一種采用率下采樣(Downsampling)自動(dòng)轉(zhuǎn)換機(jī)制,以使得系統(tǒng)能夠針對(duì)待識(shí)別語音做采用率自動(dòng)轉(zhuǎn)換識(shí)別的功能。

1 聲韻母基元

1.1 模型基元定義

模型識(shí)別基元的選擇對(duì)于語音識(shí)別率以及訓(xùn)練數(shù)據(jù)量的大小都有較大的影響。音素(Phoneme)、聲韻母(Initial/Final)、音節(jié)(Syllable)、整詞(Word)都是中文語音識(shí)別中常用到的建模單元,漢語中有409個(gè)無調(diào)音節(jié)和1300多個(gè)有調(diào)音節(jié)。

采用聲韻母建立聲學(xué)模型是相對(duì)比較合適的,特別說明本文中使用的問題集是基于語音學(xué)知識(shí)的?;谝羲兀≒honeme)的語音識(shí)別已經(jīng)被廣泛地應(yīng)用在英文識(shí)別中并且取得了很好的識(shí)別性能。本文所采用的基元集是由37個(gè)韻母,24個(gè)聲母和1個(gè)靜音模型共同組成,參見(表1):

2 基于Triphones模型的自動(dòng)拼詞識(shí)別機(jī)制實(shí)現(xiàn)

2.1 原理介紹

首先解碼原始音頻數(shù)據(jù)進(jìn)行識(shí)別,得到初步的單音素以及前后階音素的關(guān)系,然后依據(jù)得到的這種上下文依賴關(guān)系,查找其對(duì)應(yīng)的映射文件,進(jìn)而確定相應(yīng)的三音素模型。再根據(jù)這種聲韻拼接信息,通過查找Triphone模型的上下文相關(guān)模型映射文件生成了最終的全詞匹配結(jié)果。

2.2 實(shí)現(xiàn)過程

該模塊旨在實(shí)現(xiàn)待識(shí)別詞匯表的自動(dòng)更新識(shí)別功能。整個(gè)識(shí)別過程是不需要重新訓(xùn)練的。之前已經(jīng)完成了漢字轉(zhuǎn)拼音的轉(zhuǎn)換程序,在此基礎(chǔ)之上又進(jìn)—步實(shí)現(xiàn)了系統(tǒng)自動(dòng)拼詞的機(jī)制。其目的在于允許用戶傳送詞匯表(并不在訓(xùn)練集當(dāng)中),自動(dòng)做拼接識(shí)別。

處理結(jié)束后,還要調(diào)用自動(dòng)映射處理模塊將用戶傳過來的新詞匯表映射到已存在的詞表當(dāng)中,并相應(yīng)的標(biāo)出漢語,以便于在反饋用戶結(jié)果的時(shí)候?qū)⑵匆魧?duì)應(yīng)的漢語一并反饋給用戶(圖1)。

3 HTK上實(shí)現(xiàn)Downsampling自動(dòng)轉(zhuǎn)換機(jī)制

3.1 原理介紹

通過修改功能模塊,我們將SSRC自動(dòng)采樣率的轉(zhuǎn)換功能嵌套在HTK當(dāng)中,實(shí)現(xiàn)了下采樣的自動(dòng)轉(zhuǎn)換功能,前端采樣自動(dòng)檢測(cè)準(zhǔn)確與否,直接影響到語音識(shí)別系統(tǒng)的識(shí)別性能。

3.2 實(shí)現(xiàn)方法

該模塊提供一種采樣速率自動(dòng)轉(zhuǎn)換機(jī)制,用于提高最終的語音識(shí)別率。首先,我們需要引入一個(gè)新的開源工具包SSRC,其功能是實(shí)現(xiàn)采樣率的自動(dòng)轉(zhuǎn)換。通過做SSRC使測(cè)試語音與訓(xùn)練時(shí)語音采樣速率保持一致,也是優(yōu)化識(shí)別系統(tǒng)整體識(shí)別性能的一種方法,進(jìn)一步減少因?yàn)椴蓸勇什灰恢露鴮?dǎo)致的誤識(shí)率(圖2)。

整體的采樣率自動(dòng)轉(zhuǎn)換功能模塊參照下面步驟運(yùn)行:

對(duì)從客戶端采集到的聲音文件進(jìn)行初步的判斷,采樣率是否滿足系統(tǒng)的要求,如果上圖第一次判斷走了“NO”分支,要接著進(jìn)行SSRC的采樣率自動(dòng)轉(zhuǎn)換,統(tǒng)一將從客戶端采集到的聲音文件的采樣率標(biāo)準(zhǔn)化;然后,抽取相應(yīng)的Mel頻譜參數(shù)(MFCC),再將特征參數(shù)傳人識(shí)別系統(tǒng)的核心模塊Recognizer,得到識(shí)別結(jié)果。

4 實(shí)驗(yàn)結(jié)果

本實(shí)驗(yàn)采用的訓(xùn)練數(shù)據(jù)是由12個(gè)人借助HTK錄音工具共同錄制的包含4200個(gè)詞條的語音庫。測(cè)試數(shù)據(jù)集是由三個(gè)人采用平板電腦錄制的30個(gè)連續(xù)發(fā)音詞條(每人10條)。然后又通過CoolEdit工具[9]將其手工切分為彼此分離開來的詞條,即每一個(gè)單獨(dú)的詞匯保存與一個(gè)獨(dú)立的WAV文件中,然后對(duì)所有這些WAV片段做識(shí)別(表2)。

由上面結(jié)果容易看出,CMN可以大大提升識(shí)別系統(tǒng)的識(shí)別性能。倒譜均值歸一化算法(CMN)對(duì)于語音識(shí)別系統(tǒng)抗噪聲性能的提高十分有效。接下來,我們將測(cè)試語音經(jīng)過SSRC做采樣率自動(dòng)轉(zhuǎn)換,都同一轉(zhuǎn)換為16KHz,然后將錄音測(cè)試詞(2/3)加入訓(xùn)練集。剩余1/3做集外測(cè)試,并重估參數(shù),得出的實(shí)驗(yàn)結(jié)果如(表3):

①在未將測(cè)試詞加入訓(xùn)練集,并作CMN,SSRC:識(shí)別結(jié)果18/28=68%

②將測(cè)試詞加入訓(xùn)練集,并作CMN,SSRC處理:識(shí)別結(jié)果20/28=71%

③將測(cè)試詞加入訓(xùn)練集,并作CMN處理,采樣率按照初始(44100HZ),未作SSRc處理:識(shí)別結(jié)果很低,基本不能識(shí)別。另外,以上是針對(duì)原始音頻格式wAV所做的識(shí)別結(jié)果。而對(duì)于3GPP音頻文件的識(shí)別結(jié)果準(zhǔn)確度卻比較低(圖4):

由以上實(shí)驗(yàn)結(jié)果可以看出,本識(shí)別系統(tǒng)對(duì)于3gpp格式的媒體文件尚不能夠有很好的識(shí)別率,因此,綜上所述本系統(tǒng)目前對(duì)3GPP格式的識(shí)別相對(duì)較低(39%),而對(duì)WAV格式的音頻支持相對(duì)較好(71%)。