前言:想要寫出一篇引人入勝的文章?我們特意為您整理了融合多語言交互下的在線翻譯輔助系統(tǒng)范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:隨著機器學習技術的發(fā)展,目前翻譯行業(yè)也逐漸引入該技術用來提升翻譯效果。文章以實現(xiàn)在線學習為目標,為了學習人員能夠在不斷糾正過程中進行學習,設計了一套端到端平臺,該平臺將機器翻譯服務器集成到專業(yè)翻譯人員最常用的用戶界面中,實現(xiàn)在機器不斷從人的選擇中學習并根據(jù)特定領域或用戶風格調整模型的同時,節(jié)省學習人員后期的編輯工作,提升了在線翻譯過程中的輔助效果。
關鍵詞:機器學習;翻譯行業(yè);端到端平臺;翻譯模型
引言
在翻譯行業(yè)中,翻譯的效果至關重要,直接關系著業(yè)務人員的工作效率。如今,翻譯行業(yè)的高效性需求必須滿足快速的商業(yè)需求,為此,需要在較短的時間內(nèi)為用戶提供準備高質量的翻譯結果。隨著機器學習技術的發(fā)展,文獻[1]中提出使用支持向量機(一種監(jiān)督學習模型)獲得了安德森雜質模型的格林函數(shù),用來實現(xiàn)自學習提升。機器學習技術的快速發(fā)展,為翻譯行業(yè)提供了可高效、快捷翻譯結果的途徑,即“人性化”翻譯,稱為后期編輯(PE),該模式目前在翻譯行業(yè)中被證明是有效的[2],被稱為是機器翻譯(MachineTranslation,MT),隨著MT功能的不斷完善,此工作流程已成為翻譯行業(yè)的重要內(nèi)容。PE過程本身就在不斷生成新的雙語數(shù)據(jù),此數(shù)據(jù)通常用于創(chuàng)建特定于域的語料庫,可用于將系統(tǒng)從更廣泛的域改編為特定的域客戶端或樣式。在線學習(OnlineLearning,OL)范式指在PE過程中執(zhí)行這種調整[3]:每次用戶驗證后期編輯的翻譯時,系統(tǒng)都會在考慮到此數(shù)據(jù)的情況下進行更新。因此,當產(chǎn)生下一個翻譯時,系統(tǒng)將考慮先前的版本,從而將產(chǎn)生更好的翻譯(或更切近于人類語言用于規(guī)范)。OL范式已迅速引起研究人員和行業(yè)的關注,基于短語的統(tǒng)計MT系統(tǒng)從用戶后期編輯中逐步改編而成,最近,OL技術也被應用于神經(jīng)機器翻譯(NMT)系統(tǒng)[4],本文介紹了內(nèi)部OL框架的演示系統(tǒng),在該系統(tǒng)中,將翻譯服務器與翻譯程序的用戶友好界面SDLTradosStudio集成在一起,從而提升了多語言交互翻譯過程中的效率。
1系統(tǒng)設計
從用戶在PE流程中生成的后期編輯中提升翻譯效果,為此,通過即時更新系統(tǒng),即,一旦者確認了句子,便會立即進行更新,在用戶確認編輯之后,立即使用源語句和后編輯作為培訓來更新NMT(NeuralMachineTranslation)系統(tǒng)的模型。這種適應可以在梯度下降之后進行,梯度下降是神經(jīng)網(wǎng)絡的常規(guī)訓練方法。本文設計的OL框架體系結構由三個主要模塊組成:MT引擎、用戶界面和鏈接兩者的翻譯服務器。此外,還添加了一個日志記錄選項,以使用戶能夠跟蹤擊鍵、時間和鼠標移動等信息,該系統(tǒng)的體系架構,如圖1所示。翻譯過程包括將機器翻譯傳遞到用戶界面,培訓過程使用用戶提供的反饋對MT引擎進行再培訓。這兩個過程都是通過客戶端-服務器通信執(zhí)行的,接下來,詳細描述各個模塊的具體功能。(1)機器翻譯引擎MT引擎的核心由生成翻譯的模型組成,可以在需要時進行重新訓練。每個翻譯項目都有其自己的模型,其模型是根據(jù)項目的需要設置的,所有模型都是基于神經(jīng)網(wǎng)絡的,并使用OpenNMT-py進行了訓練[5]。每個MT模型都有其自己的配置文件,其中包含個性化的翻譯和OL選項,例如標記化、子詞分段和學習率等。(2)翻譯服務器翻譯服務器與MT模型進行通信,以生成翻譯并根據(jù)用戶的版本來修改系統(tǒng)。該服務器基于OpenNMT-py的REST服務器,并使用HTTP協(xié)議定義消息以服務于用戶的請求。翻譯服務器的代碼已公開且可用,在OpenNMT-py中創(chuàng)建了一個分支,該分支具有此服務器并與其所有不同模型兼容。用戶界面和MT引擎之間的通信是通過GET和POST請求執(zhí)行的。服務器等待翻譯請求,收到請求后,這些請求將以JSON格式發(fā)送到機器翻譯引擎,當用戶對機器翻譯片段進行更正時,將更正發(fā)送到翻譯引擎。(3)用戶界面在翻譯行業(yè)中,翻譯人員最常用的用戶界面是SDLTradosStudio。系統(tǒng)用戶界面,如圖2所示。用戶在如下情況自動獲得機器翻譯輸出:單擊界面中線段的目標部分,然后,用戶對片段進行后期編輯,并在糾正翻譯后對其進行確認。SDL允許開發(fā)TradosStudio插件來增強和擴展該工具。此外,SDL擁有龐大的開發(fā)人員社區(qū)[5],可通過附加軟件和應用程序來更快的學習該框架。本文將自適應框架整合為TradosStudio插件,該插件將用戶界面、TradosStudio與翻譯服務器互聯(lián)。當用戶確認后期編輯時,已審核的細分將發(fā)送回MT引擎,以使用此新信息進行重新訓練。(4)日志記錄為了衡量PE過程中OL的翻譯效率和有效性,系統(tǒng)集成了工具來記錄在后期編輯給定文件中涉及的時間、擊鍵和鼠標移動等動作。為此,Trados合并了Qualitivity[6]插件。該插件生成一個XML日志文件,其中包含每個段的所有按鍵時間信息,如圖3所示。利用這些日志信息,可以衡量將MT與OL一起用于后期編輯文件所需的工作量。使用專業(yè)翻譯人員在模擬和真實環(huán)境中進行的初步實驗[6]報告稱,MT系統(tǒng)生成的翻譯質量有了顯著提高。
2實驗分析
本章節(jié)分析了在用戶試用中獲得的結果,如表1所示。表1顯示了與使用參考樣本進行更新的非NMT系統(tǒng)相比,NMT系統(tǒng)的翻譯質量的結果[7-9]。通過這種綜合設置獲得的結果支持通過在線學習進行智能化翻譯的有用性。在所有情況下,NMT系統(tǒng)都比非NMT系統(tǒng)獲得更好的TER和BLEU(機器翻譯的評價指標)。我們從TER的角度獲得的結果表明后期編輯這些樣本所需的人力更少。接下來進行人工后期編輯實驗,三名專業(yè)翻譯參與了實驗。對于NMT系統(tǒng)測試,所有后期編輯人員都使用相同的系統(tǒng)啟動任務,該系統(tǒng)使用每個人自己的后期編輯工具進行調整。因此,在在線學習過程結束時,每個后期編輯都獲得了相關的翻譯服務。對于靜態(tài)實驗,最初的NMT系統(tǒng)在整個過程中均保持不變,為了避免多次翻譯相同文本的影響,每個參與者在每種情況下后編輯了一個不同的測試集,如表2所示。該實驗的測試結果如表3所示。這些數(shù)字是不同后期編輯所獲得結果的平均值,對于集合T1,每個句子的后期編輯時間的大幅減少尤其重要(每個句子平均7.5秒)。在測試集T2中,NMT系統(tǒng)的后期編輯時間也比非NMT系統(tǒng)的稍短一些,為0.7秒。
3總結
本文介紹了一個在線翻譯框架,該框架結合了通過在線學習對系統(tǒng)進行即時調整的功能。這種模式允許翻譯人員/后期編輯人員產(chǎn)生更多具有人類品質的文本,即提升翻譯效率,因為系統(tǒng)不斷從用戶的后期編輯中學習,從而避免了重復錯誤。本文已將MT服務器集成到SDLTradosStudio用戶界面中,實驗結果證明該系統(tǒng)在翻譯過程中有較高的效率。
參考文獻
[7]林寒.基于多語言交互的英語翻譯在線輔助系統(tǒng)設計[J].現(xiàn)代電子技術,2019,42(6):22-25.
[8]夏吾吉,華卻才讓.基于有限狀態(tài)自動機阿拉伯數(shù)字與藏文數(shù)詞自動翻譯[J].計算機工程與科學,2018,40(3):550-554.
[9]余倩.基于特征提取算法的交互式英漢翻譯系統(tǒng)設計[J].現(xiàn)代電子技術,2018,41(4):161-163.
作者:胡曉榕 單位:咸陽師范學院