公務(wù)員期刊網(wǎng) 論文中心 正文

計算機(jī)輔助框架英語依賴性翻譯研究

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了計算機(jī)輔助框架英語依賴性翻譯研究范文,希望能給你帶來靈感和參考,敬請閱讀。

計算機(jī)輔助框架英語依賴性翻譯研究

摘要:英語翻譯的核心在于對上下文依賴性的分析,本文介紹了最小依賴翻譯(MinimalDependencyTranslation,MDT),旨在開發(fā)基于規(guī)則的框架,以創(chuàng)建基本的雙語詞典語法。通過機(jī)器翻譯和計算機(jī)輔助翻譯的融合,實現(xiàn)英語到其他語言的翻譯,MDT中的基本單位(稱為組)是帶標(biāo)題的多項目序列。除單詞形式外,組還可以包含詞素、句法語義類別和語法特征。每個組與一個或多個翻譯相關(guān)聯(lián),每個翻譯都是目標(biāo)語言中的一個組。在翻譯過程中,約束滿足用于選擇輸入句子的一組源語言組并在相關(guān)的目標(biāo)語言組中對單詞進(jìn)行排序。

關(guān)鍵詞:英語翻譯;最小依賴翻譯;機(jī)器翻譯;多項目序列;語法特征

1引言

對于世界上大多數(shù)語言,由于缺乏足夠的語法資源,因此無法采用機(jī)器學(xué)習(xí)技術(shù)完成語言的翻譯。尤其對于機(jī)器翻譯(MachineTranslation,MT)和計算機(jī)輔助翻譯(Computer-AssistedTranslation,CAT),語法缺陷造成機(jī)器算法無法識別,因為機(jī)器學(xué)習(xí)所需的是句子對齊的翻譯,相比單語語料庫更為復(fù)雜。但是,對于資源匱乏的許多語言確實存在語言描述和相當(dāng)多的母語使用者群體,包括亞洲語言(例如漢語、緬甸語),非洲語言(例如豪薩語)以及美洲原住民語言(例如蓋丘亞語和瓜拉尼語)。因此,需要一種計算機(jī)框架,該框架有助于人們快速創(chuàng)建計算語法和詞典,并通過可用的有限語料庫對其進(jìn)行自動擴(kuò)展[1-2]。本文著重于將MT(尤其是CAT)轉(zhuǎn)化為漢語之類的語言,通過信息系統(tǒng),允許很少或沒有語言經(jīng)驗的用戶編寫針對低資源語言的雙語詞典語法,這些語法也可以在語料庫基礎(chǔ)上更新,并且可以輕松集成進(jìn)入CAT系統(tǒng)。利用最小依賴翻譯(MDT)思想,設(shè)計了針對MT和CAT的詞匯語法框架。MDT的核心是稱為組的短語單元詞典。群組的條目將翻譯指定為一種或多種其他語言的群組。

2輔助框架設(shè)計

翻譯系統(tǒng)的核心是對語言詞組、短語的識別以及語句詞法的交互,因此輔助框架的設(shè)計在于對以上核心內(nèi)容的實驗,本章節(jié)主要按照詞組詞典、短語詞典、詞典語法交易等模塊進(jìn)行簡要設(shè)計。(1)詞組詞典將短語而不是單個單詞視為語言的基本單位的想法至少可以追溯到貝克爾提出的“短語詞典”。近年來,該模式在構(gòu)造語法[3]和框架語義[4]的相關(guān)框架以及基于短語的統(tǒng)計機(jī)器翻譯中得到了廣泛的應(yīng)用。支持短語單元的論點通常是根據(jù)慣用性的普遍性來構(gòu)架的,即偏離嚴(yán)格的構(gòu)成性。從另一角度看,短語單元可以解決詞匯歧義的普遍性。如果動詞的解釋取決于其賓語或主語,則將動詞與特定賓語或主語的組合視為自身的單位可能更有意義。基于慣用性和歧義性的論點是語義性的,但它們自然地擴(kuò)展到翻譯。如果源語言短語的含義不能嚴(yán)格表達(dá)該短語中單詞的含義,則該短語的翻譯不太可能是源語言單詞的翻譯的組合。向歧義詞添加詞法上下文可以允許MT系統(tǒng)選擇適當(dāng)?shù)姆g。(2)簡單的短語詞典MDT的基本詞匯條目是稱為組的多詞單元。每個組代表一個鏈組合,鏈超出了組成部分,包括在依賴關(guān)系樹中在垂直維度上連續(xù)的元素的所有組合。例如,在該句子中“Igaveherapieceofmymind”,{I,gave}和{gave,her,piece}是鏈組合,但并不是句子的組成部分[5-6]。鏈有一個頭,每個MDT組也必須有一個頭,該頭在詞典中索引該組。該組中的其他元素是頭部的從屬,但該組沒有詳細(xì)的結(jié)構(gòu)。因此,該組就構(gòu)成一個最小的依賴結(jié)構(gòu)。組的條目還約束了以一種或多種其他語言對小組的翻譯,對于每種語言的翻譯,組的條目給出一個對齊方式,表示元素之間的組間對應(yīng)關(guān)系,如下所示:在基于短語的統(tǒng)計機(jī)器翻譯的詞組中,如圖1所示顯示了這種簡單的組條目。英語詞組<onewayortheother>,在翻譯過程中將<一種方式,另一方式>作為漢語翻譯詞組該組在漢語詞典中有自己的對應(yīng)條目,在對齊過程中,英語組中的三個單詞與漢語詞組中的位置相關(guān),而其他字符(\0)在漢語詞組中不存在任何單詞對應(yīng)。(3)詞典語法交易基本詞典在兩個意義上實現(xiàn)較為簡單:給定適當(dāng)?shù)慕涌?,不具有語言學(xué)正式知識的用戶可以以直接的方式添加條目,并且易于理解所得的條目。這樣的詞典允許翻譯作為組條目中單詞形式的組合的句子,只要在整個語言中保持組順序并且組之間不存在會影響目標(biāo)語言詞的形式的約束即可。但是,這樣的詞典不允許將其推廣到詞典中未明確顯示的字形組合,對于每個合理可能的字形組合,都需要一個組條目。在MDT系統(tǒng)中,目標(biāo)是從純詞匯(和短語)到句法/語法的連續(xù)性范圍內(nèi)的各種可能性,重點是易于創(chuàng)建和解釋條目。(4)詞匯/語法類別跨組概括的另一種直接方法是引入句法或語義類別,可以通過用包括可能影響該位置的字形的類別替換組中特定位置的特定字形,來概括特定的單詞序列,由于按類別劃分的組位置未指定表面形式,因此在翻譯過程中必須將它們與匹配該類別的其他組合并并指定一種形式。例如,在翻譯嘲弄市長的序列時,組<makevfunof$sbd>中的位置4可能會被組<themayor>的首位占據(jù),此節(jié)點合并過程如圖1所示。

3系統(tǒng)算法設(shè)計

本文為MT開發(fā)基于規(guī)則的開源系統(tǒng),并且在相對淺薄的分塊語法框架內(nèi)工作。本文提供了一系列的語法可能性,從一個極端的完全詞法到由一個詞素和一個或多個句法/語義類別組成的短語單元,并不擔(dān)心MDT語法會接受許多不合語法的源語言句子,甚至輸出不合語法(與語法一起)的翻譯。因為MDT專注于短語的翻譯,并且輸出通常會輸出多種翻譯而不是完整的句子,所以它比MT更適合于CAT。盡管MDT并非旨在作為一種語言理論,但它把語言知識視為本質(zhì)上的短語,像同步上下文無關(guān)文法一樣,它以兩種語言關(guān)聯(lián)多字單元,對齊單元的元素并在每種語言中表示單詞順序。MDT與不同,它沒有重寫規(guī)則或非終止規(guī)則,MDT屬于依存于語法理論族,因為其短語單元的頭是單詞或詞素,而不是非末尾。但是,它仍然是語法理論族的一種非常原始的形式,只允許在具有未標(biāo)記弧的結(jié)構(gòu)上使用,這意味著只能通過特定的組來捕獲復(fù)雜的語法現(xiàn)象,例如長距離依賴性和字序可變性。本文基于MDT的語言翻譯思想來約束滿意度作為評價標(biāo)準(zhǔn),如圖1所示以“Shemadefunofthemayor”作為翻譯對象,按照最小依賴度算法進(jìn)行翻譯的過程描述[7]。具體算法步驟描述如下:1)在對輸入句子進(jìn)行標(biāo)記化之后,對句子中的詞形進(jìn)行詞性標(biāo)注并進(jìn)行詞法分析;2)接下來,將被分析單詞的序列與詞法轉(zhuǎn)換規(guī)則匹配;3)在例句中,有兩個規(guī)則匹配,一個規(guī)則用于她,后跟一個過去式動詞,一個規(guī)則用于后跟一個名詞。第一個規(guī)則為動詞分配完美的方面并將其刪除,第二個將名詞定義為名詞,然后刪除;4)由該第一遍產(chǎn)生的單詞或詞素用于在組字典中查找候選組。為了完成句子分析,系統(tǒng)將一組組分配給輸入句子。成功的組分配將句子中盡可能多的詞與一個組相關(guān)聯(lián),并且沒有一個單詞與一個以上的組相關(guān)聯(lián),除非該詞表示一個節(jié)點合并。較長的組比較短的組的序列長。在此示例中,組<make_vfunof$sbd>的實例中的$sbd節(jié)點與組<mayor_n>的實例合并(第五步)。在翻譯階段,源語言組分配將轉(zhuǎn)換為主要目標(biāo)語言組的分配(第六步)。在此過程中,將根據(jù)來自源組條目的跨語言協(xié)議約束,為某些目標(biāo)語言項目分配語法特征。在例句中,漢語動詞從英語動詞獲取其tam和sb特征值,而名詞從英語名詞獲取其def特征值。就長期實現(xiàn)而言,MDT利用知識獲取技術(shù)和天真的單語種信息提供者來開發(fā)將低資源語言翻譯成英語的MT系統(tǒng)。盡管MDT并非旨在作為一種語言理論,像構(gòu)造語法和框架語義學(xué)[8]一樣,它把語言知識視為本質(zhì)上的短語。對MDT實施的評估應(yīng)該分為兩種類型:翻譯的準(zhǔn)確性和具有CAT的系統(tǒng)的可用性。有幾種商業(yè)英語{Am-haric機(jī)器翻譯系統(tǒng),包括由Ethio-Cloud開發(fā)的GoogleTranslate和AbyssinicaTranslator。通過檢查Google翻譯的語法結(jié)構(gòu),我們可以突出本算法的優(yōu)勢,該語法模式是旨在捕獲的。給定該系統(tǒng)要進(jìn)行Amharic翻譯的大約2700個英語動詞,其結(jié)果是成千上萬的可翻譯模式,從可能的動詞模式,代詞和六個常用動詞中隨機(jī)選擇。在由此產(chǎn)生的54個句子中,Google翻譯僅輸出一個語法正確的動詞。另一方面,該算法在三個句子翻譯上只犯了一個小錯誤,把他寫成直接而不是間接的對象。

4結(jié)束語

語言翻譯的核心是復(fù)雜語法的計算,以及語法上下文間的解析及最終語句的生成。本文提出一種采用最小依賴性翻譯的計算機(jī)輔助框架,可快速的實現(xiàn)語言翻譯的部署,從翻譯過程中的詞語詞典、短語詞典、詞典語法交易以及詞匯/語法類別等方面進(jìn)行了介紹,并以簡單的示例介紹了MDT算法。

參考文獻(xiàn):

[1]于濤.基于索引行聚類的英語動詞型式自動識別與提取研究[D].北京:北京外國語大學(xué),2015.

[2]林鴻飛,張冬瑜,楊亮,鄭樸琪.情感隱喻計算及其應(yīng)用研究[J].大連理工大學(xué)學(xué)報,2015,55(6):661-670.

[5]哈里旦木•阿布都克里木,劉洋,孫茂松.神經(jīng)機(jī)器翻譯系統(tǒng)在維吾爾語-漢語翻譯中的性能對比[J].清華大學(xué)學(xué)報(自然科學(xué)版),2017,57(8):878-883.

[6]張永花,吳穎.基于語料庫的機(jī)輔翻譯錯誤分析[J].海外英語,2017(6):116-117.

[7]張仲偉,曹雷,陳希亮,寇大磊,宋天挺.基于神經(jīng)網(wǎng)絡(luò)的知識推理研究綜述[J].計算機(jī)工程與應(yīng)用,2019,55(12):8-19,36.

作者:高艷梅 單位:咸陽師范學(xué)院外國語學(xué)院