公務(wù)員期刊網(wǎng) 論文中心 正文

計(jì)算機(jī)專業(yè)手語(yǔ)語(yǔ)料庫(kù)建設(shè)

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了計(jì)算機(jī)專業(yè)手語(yǔ)語(yǔ)料庫(kù)建設(shè)范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

計(jì)算機(jī)專業(yè)手語(yǔ)語(yǔ)料庫(kù)建設(shè)

摘要:

計(jì)算機(jī)專業(yè)手語(yǔ)語(yǔ)料庫(kù)從聾人學(xué)生計(jì)算機(jī)專業(yè)教學(xué)的情景視頻庫(kù)中選取手語(yǔ)視頻語(yǔ)料,采用多媒體轉(zhuǎn)寫標(biāo)注軟件ELAN進(jìn)行手語(yǔ)語(yǔ)序轉(zhuǎn)寫、漢語(yǔ)翻譯和文本標(biāo)注,將其轉(zhuǎn)換為文本語(yǔ)料,建成“計(jì)算機(jī)專業(yè)手語(yǔ)語(yǔ)料庫(kù)”,從手勢(shì)動(dòng)作、身體姿勢(shì)、面部表情三方面特征對(duì)計(jì)算機(jī)專業(yè)手語(yǔ)詞匯展開詞義構(gòu)成分析和描寫,分析計(jì)算機(jī)專業(yè)手語(yǔ)詞匯的手勢(shì)特點(diǎn)及內(nèi)在成因。

關(guān)鍵詞:手語(yǔ);語(yǔ)料庫(kù);轉(zhuǎn)寫;標(biāo)注

0引言

根據(jù)中國(guó)殘聯(lián)提供的數(shù)字,我國(guó)現(xiàn)有聾人約2200萬(wàn),18歲以下應(yīng)受教育的聾啞人達(dá)400多萬(wàn),7歲以下為80萬(wàn)。這是一個(gè)龐大的弱勢(shì)群體。因其在學(xué)習(xí)、工作和生活上有許多常人難于想象的艱辛和障礙。[1]計(jì)算機(jī)專業(yè)手語(yǔ)語(yǔ)料庫(kù)從聾人學(xué)生計(jì)算機(jī)專業(yè)教學(xué)的情景語(yǔ)料庫(kù)中選取手語(yǔ)視頻語(yǔ)料進(jìn)行手語(yǔ)語(yǔ)序轉(zhuǎn)寫、漢語(yǔ)翻譯和文本標(biāo)注,將其轉(zhuǎn)換為文本語(yǔ)料,建成“計(jì)算機(jī)專業(yè)手語(yǔ)語(yǔ)料庫(kù)”,從手勢(shì)動(dòng)作、身體姿勢(shì)、面部表情三方面特征對(duì)計(jì)算機(jī)專業(yè)手語(yǔ)詞匯展開詞義構(gòu)成分析和描寫,分析計(jì)算機(jī)專業(yè)手語(yǔ)詞匯的手勢(shì)特點(diǎn)及內(nèi)在成因,指導(dǎo)聾人高等工科教育中的手語(yǔ)教學(xué)。同時(shí)也能為聾人高等工科教育提供教學(xué)資源、教學(xué)設(shè)計(jì)、教材編寫、課堂教學(xué)與學(xué)習(xí)評(píng)估等方面科學(xué)的決策與指導(dǎo)。如同其他語(yǔ)言建立語(yǔ)料庫(kù)一樣,計(jì)算機(jī)專業(yè)手語(yǔ)也可以充分利用計(jì)算機(jī)和網(wǎng)絡(luò)資源,根據(jù)計(jì)算機(jī)專業(yè)手語(yǔ)的特點(diǎn),建立手語(yǔ)語(yǔ)料庫(kù)[2]。手語(yǔ)語(yǔ)料庫(kù)的建立在手語(yǔ)的語(yǔ)言學(xué)研究、手語(yǔ)的規(guī)范化研究及手語(yǔ)識(shí)別和機(jī)器翻譯領(lǐng)域有著重要的應(yīng)用意義。因此,國(guó)外學(xué)者對(duì)此做了大量的研究。美國(guó)的手語(yǔ)研究者于1995年對(duì)7個(gè)主要城市的聾人使用的手語(yǔ)的音系、詞匯和句法開展了詳細(xì)的調(diào)查,積累了大量的手語(yǔ)樣本后建立了世界上第一個(gè)手語(yǔ)語(yǔ)料庫(kù)即美國(guó)手語(yǔ)語(yǔ)料庫(kù)(Lucas,2005)。近年來(lái),越來(lái)越多的國(guó)家和地區(qū)相繼建立起手語(yǔ)語(yǔ)料庫(kù),其中包括英國(guó)手語(yǔ)語(yǔ)料庫(kù)項(xiàng)目、北美手語(yǔ)語(yǔ)料庫(kù)工作坊、澳大利亞手語(yǔ)語(yǔ)料庫(kù)、荷蘭手語(yǔ)基本詞匯語(yǔ)料庫(kù)、德國(guó)手語(yǔ)語(yǔ)料庫(kù),中國(guó)香港的亞太地區(qū)手語(yǔ)語(yǔ)料庫(kù)等都對(duì)我國(guó)建立手語(yǔ)語(yǔ)料庫(kù)有借鑒意義。李恒(2013)認(rèn)為目前最為成熟的手語(yǔ)語(yǔ)料庫(kù)是由Johnston等人創(chuàng)建的澳大利亞手語(yǔ)語(yǔ)料庫(kù)。Johnston(2009)提出,手語(yǔ)語(yǔ)料庫(kù)應(yīng)當(dāng)包括大量可以機(jī)讀的標(biāo)注文本,而非語(yǔ)篇和文本的隨意堆砌。McEnery和Wilson(1996)也認(rèn)為樣本的代表性以及語(yǔ)料的機(jī)讀形式化是語(yǔ)料庫(kù)兩個(gè)最重要的特征。以此標(biāo)準(zhǔn)建立的語(yǔ)料庫(kù),對(duì)于包括音系、詞匯、句法、語(yǔ)篇等各種層次的手語(yǔ)研究,尤其是詞典編纂都有積極的促進(jìn)作用。王敏等則認(rèn)為英國(guó)手語(yǔ)語(yǔ)料庫(kù)項(xiàng)目和北美手語(yǔ)語(yǔ)料庫(kù)工作坊兩個(gè)手語(yǔ)語(yǔ)料項(xiàng)目在設(shè)計(jì)理念、技術(shù)手段、人員協(xié)作等方面值得研究與借鑒。目前國(guó)外較為通行的做法是,科研人員可根據(jù)研究需要建立私人語(yǔ)料庫(kù),在一定范圍內(nèi)實(shí)現(xiàn)共享和交流[4]。

1設(shè)計(jì)實(shí)現(xiàn)的功能

系統(tǒng)采用ELAN建立計(jì)算機(jī)專業(yè)手語(yǔ)語(yǔ)料庫(kù),從一個(gè)小型專業(yè)手語(yǔ)語(yǔ)料庫(kù)的建設(shè)入手,先建立各個(gè)子庫(kù),比如計(jì)算機(jī)網(wǎng)絡(luò)手語(yǔ)、圖形圖像手語(yǔ)、動(dòng)畫設(shè)計(jì)手語(yǔ)等等,再集成完成數(shù)據(jù)庫(kù),探索專業(yè)手語(yǔ)語(yǔ)料庫(kù)建立的方法和途徑[3]。通過(guò)轉(zhuǎn)寫和標(biāo)注,分析手語(yǔ)的特點(diǎn),以便于計(jì)算機(jī)對(duì)特定語(yǔ)料進(jìn)行識(shí)別和提取。實(shí)現(xiàn)語(yǔ)料庫(kù)的機(jī)讀化,提高語(yǔ)料的利用價(jià)值,增加語(yǔ)料的重復(fù)使用性以及增強(qiáng)語(yǔ)料庫(kù)的多功能性。以此標(biāo)準(zhǔn)建立的語(yǔ)料庫(kù),對(duì)于包括音系、詞匯、句法、語(yǔ)篇等各種層次的手語(yǔ)研究,尤其是詞典編纂都有積極的促進(jìn)作用。

1.1語(yǔ)料樣本形式的選取

語(yǔ)料的選擇和編制是建立語(yǔ)料庫(kù)的環(huán)節(jié)之一,調(diào)查通常包括如下部分。

(1)詞匯。以計(jì)算機(jī)專業(yè)手語(yǔ)視頻數(shù)據(jù)庫(kù)中的視頻文件作為本課題的語(yǔ)料樣本。該視頻庫(kù)中的計(jì)算機(jī)專業(yè)手語(yǔ)詞匯由來(lái)自全國(guó)各地的聾生做手語(yǔ)來(lái)描述。選取使用頻率高的課堂教學(xué)詞匯。配合采用田野調(diào)查的“詞匯記錄”法,確保真實(shí)地記錄手語(yǔ)中的特有詞匯。(2)語(yǔ)法。以“誘導(dǎo)法”和“自然產(chǎn)出法”兩種方法為主體,具體采用訪談、自由交流以及讓聾人進(jìn)行自我介紹等方式獲得語(yǔ)料信息。

(3)地域。由于我國(guó)地域遼闊,如同有聲語(yǔ)言存在方言差別一樣,手語(yǔ)也有不同的地域語(yǔ)言變體。因此語(yǔ)料庫(kù)樣本的地域的選取應(yīng)盡可能廣泛。如果不能覆蓋全國(guó)各個(gè)省市,也應(yīng)具備東北、華北、華東、華南等地區(qū)的代表性。語(yǔ)料樣本的選取應(yīng)當(dāng)注意到不同地區(qū)聾人文化和聽人文化的差異、聾人文化內(nèi)部之間的差異對(duì)手語(yǔ)方言形成的作用。這樣采集的樣本才能為計(jì)算機(jī)專業(yè)手語(yǔ)的規(guī)范化研究提供理論依據(jù)。

1.2操作方法

在建立計(jì)算機(jī)專業(yè)手語(yǔ)語(yǔ)料庫(kù)時(shí),根據(jù)計(jì)算機(jī)專業(yè)教學(xué)的實(shí)際需要決定標(biāo)注來(lái)完成元數(shù)據(jù)的標(biāo)準(zhǔn)化和手語(yǔ)視頻詞匯的規(guī)范化,同時(shí)要兼顧實(shí)用性,避免因數(shù)據(jù)量過(guò)小而降低語(yǔ)料庫(kù)的利用價(jià)值。目前較為常見的手語(yǔ)元數(shù)據(jù)描述格式是由荷蘭馬克思•普朗克心理語(yǔ)言學(xué)研究所開發(fā)應(yīng)用的im-di元數(shù)據(jù)庫(kù)。這主要用在多媒體和多模態(tài)語(yǔ)言集成。更好地實(shí)驗(yàn)語(yǔ)言數(shù)據(jù)和元數(shù)據(jù)之間的匹配,提供檢索和計(jì)算之用。另一個(gè)ELAN軟件,這主要有三種模式:分割模式、轉(zhuǎn)寫模式、標(biāo)注模式。在過(guò)程中,為避免對(duì)手語(yǔ)不熟悉,保證數(shù)據(jù)分割的準(zhǔn)確性,最好由手語(yǔ)語(yǔ)言學(xué)專業(yè)出身的人來(lái)完成。因此在建設(shè)手語(yǔ)語(yǔ)料庫(kù)過(guò)程中,應(yīng)當(dāng)注意到以下幾個(gè)問(wèn)題:

(1)作為語(yǔ)料庫(kù)研究者來(lái)看,應(yīng)該在標(biāo)注系統(tǒng)的詳略度和標(biāo)注方案的可行性之間找到平衡點(diǎn)。

(2)從用戶的使用角度來(lái)研究,語(yǔ)料庫(kù)的標(biāo)注應(yīng)該越詳細(xì)越好,可以讓用戶容易理解;假如標(biāo)注信息過(guò)于繁多,將不利于標(biāo)注者進(jìn)行實(shí)際操作。

(3)從建設(shè)整體來(lái)看,我國(guó)的手語(yǔ)視頻庫(kù)以及語(yǔ)料庫(kù)大多數(shù)經(jīng)由國(guó)家出資而建立,在此提倡應(yīng)當(dāng)由大學(xué)各個(gè)機(jī)構(gòu)和高等學(xué)校自主建立專屬的手語(yǔ)語(yǔ)料庫(kù)。

2Elan自建語(yǔ)料庫(kù)的方法

2.1基本概念

Elan的四個(gè)基本概念是:轉(zhuǎn)寫;標(biāo)注;層;語(yǔ)言學(xué)類型。在此,對(duì)其闡釋如下:

(1)轉(zhuǎn)寫。根據(jù)音頻和視頻內(nèi)容錄入文字或其它字符(國(guó)際音標(biāo)、拼音等)的操作。

(2)標(biāo)注。針對(duì)音頻或視頻內(nèi)容所轉(zhuǎn)寫的文字、國(guó)際音標(biāo)或者對(duì)內(nèi)容進(jìn)行的標(biāo)記、注釋等等,都可以稱為“標(biāo)注”。在ELAN中,“標(biāo)注”包括“轉(zhuǎn)寫”。另外,“標(biāo)注”也可以指某一層上沒有轉(zhuǎn)寫任何內(nèi)容的空段,即“空標(biāo)注”。

(3)層。轉(zhuǎn)寫和標(biāo)注以“層”為依托,不同的層里有不同的標(biāo)注內(nèi)容。如文本轉(zhuǎn)寫層、國(guó)際音標(biāo)層、注釋層等等。

(4)語(yǔ)言學(xué)類型。從語(yǔ)言學(xué)角度對(duì)“層”屬性的一種定義,如某一層標(biāo)注的內(nèi)容是國(guó)際音標(biāo),就可以把該層的語(yǔ)言學(xué)類型定義為“IPA”,某一層是方言轉(zhuǎn)寫,就可以把這一層的語(yǔ)言學(xué)類型定義為“Dialect”,等等。

2.2操作模式

運(yùn)行ELAN,導(dǎo)入音頻或視頻文件后,ELAN在“選項(xiàng)”菜單中設(shè)計(jì)有五種操作模式可供選擇:分割、轉(zhuǎn)寫、標(biāo)注、同步、線性交錯(cuò)。前三種模式在轉(zhuǎn)寫與標(biāo)注的過(guò)程中使用頻繁,常常需要在各種模式之間切換;后兩種模式則使用較少。下面即對(duì)前三種模式展開具體論述。

(1)分割模式。這是轉(zhuǎn)寫模式的基礎(chǔ),主要用于在轉(zhuǎn)寫前對(duì)錄音或視頻進(jìn)行時(shí)間段(按實(shí)際語(yǔ)流的停頓“分割段”可能是半句話、一句話或更多)的分割標(biāo)記,使用時(shí)只需要在相應(yīng)的時(shí)間點(diǎn)按“回車鍵”就可以逐段分割,進(jìn)行標(biāo)記。

(2)轉(zhuǎn)寫模式。該模式以分割模式為基礎(chǔ),在分割模式中完成對(duì)轉(zhuǎn)寫的內(nèi)容逐段分割標(biāo)記后切換到轉(zhuǎn)寫模式,在表格中逐句轉(zhuǎn)寫,轉(zhuǎn)寫完成一句以后,即按回車鍵進(jìn)入到下一句。如需重復(fù)播放當(dāng)前句,按Tab鍵即可,操作簡(jiǎn)單高效,省去了頻繁回放的麻煩。

(3)標(biāo)注模式。是對(duì)一個(gè)手語(yǔ)專業(yè)的人打手語(yǔ)拍攝的轉(zhuǎn)寫和標(biāo)注,標(biāo)注人是鐘鵬,參與者是手語(yǔ)語(yǔ)言學(xué)專業(yè)的人,詞匯是“安全”。

2.3制作流程

(1)新建導(dǎo)入視頻之后,在菜單上的選項(xiàng)單擊,找到分割模式。

(2)按回車鍵設(shè)置第一個(gè)標(biāo)記,設(shè)置到第二個(gè)標(biāo)記連成一個(gè)標(biāo)注段,即一個(gè)字一個(gè)標(biāo)注段。

(3)設(shè)置標(biāo)注段后,選項(xiàng)→轉(zhuǎn)寫模式。(4)設(shè)置幾個(gè)表欄數(shù)目,第一個(gè)列數(shù)量選擇default-it,最后點(diǎn)選“應(yīng)用”。

(5)完成之后,在序號(hào)1輸入“安”,序號(hào)2輸入“全”。選項(xiàng)>標(biāo)注模式。

(6)鼠標(biāo)光標(biāo)移動(dòng)default,按鼠標(biāo)右鍵,選擇更改此層屬性。

(7)更改層名、參與者、標(biāo)注人、輸入法,單擊確定。

(8)在菜單欄選擇“層>復(fù)制層”然后在彈出的復(fù)制層窗口中選好正文,然后下一個(gè)。

(9)單擊下一個(gè),進(jìn)入選轉(zhuǎn)寫(無(wú)父層)。

(10)單擊下一個(gè)按鈕,最后一步,結(jié)束。復(fù)制層之后更改此層屬。

(11)在標(biāo)注段雙擊就進(jìn)行編輯狀態(tài),分別輸入一手橫伸,掌心向下,自胸部向下(時(shí)間段為0~2秒);伸出拇指順時(shí)針平行轉(zhuǎn)一圈(時(shí)間段為2~3.5秒),

2.4ELAN自建手語(yǔ)語(yǔ)料庫(kù)的結(jié)論

計(jì)算機(jī)專業(yè)手語(yǔ)語(yǔ)料庫(kù)對(duì)于聾人高等教育領(lǐng)域的教師、全國(guó)聾生發(fā)揮著集成地方手語(yǔ)、以及將涉獵手語(yǔ)互相對(duì)比、查詢、學(xué)習(xí)的作用,使聾人能夠精確地了解、并熟練使用一些專業(yè)性手語(yǔ)。研究中為了使聾人能夠更趨便利地達(dá)成溝通,使用ELAN軟件處理拍攝視頻,利用該專業(yè)手語(yǔ)詞匯,肢體上的動(dòng)作講解來(lái)實(shí)現(xiàn)手語(yǔ)語(yǔ)料庫(kù)的基本構(gòu)建。ELAN軟件對(duì)于收集手語(yǔ)具有更好的效果優(yōu)勢(shì)。

3結(jié)束語(yǔ)

計(jì)算機(jī)專業(yè)手語(yǔ)語(yǔ)料庫(kù)建設(shè)的研究是研究所在聾人工學(xué)院的重大項(xiàng)目,對(duì)于計(jì)算機(jī)專業(yè)手語(yǔ)詞匯,句子的手勢(shì)進(jìn)行采集、分割、轉(zhuǎn)寫、標(biāo)注種種來(lái)完成計(jì)算機(jī)專業(yè)手語(yǔ)詞匯語(yǔ)料庫(kù)、計(jì)算機(jī)專業(yè)手語(yǔ)句子語(yǔ)料庫(kù)的建設(shè)。尤需一提的是,計(jì)算機(jī)專業(yè)手語(yǔ)詞匯的采集匯聚,在這一過(guò)程中需要通過(guò)各地方聾人打手勢(shì)的長(zhǎng)期積累、精細(xì)篩選,更需要制作臻于完善的文案來(lái)完成拍攝任務(wù),另外還需要操作軟件耗費(fèi)時(shí)間以完成標(biāo)注、轉(zhuǎn)寫等等,至此方可完成計(jì)算機(jī)專業(yè)手語(yǔ)語(yǔ)料庫(kù)的最終圓滿建設(shè)。

參考文獻(xiàn):

[1]李凱.韓梅.聾人手語(yǔ)動(dòng)漫教學(xué)系統(tǒng)的設(shè)計(jì)[J].智能計(jì)算機(jī)與應(yīng)用,2012,2(6):41-45.

[2]李凱,張書珍.計(jì)算機(jī)專業(yè)詞匯手語(yǔ)手勢(shì)的表達(dá)設(shè)想[J].中國(guó)聽力語(yǔ)言康復(fù)科學(xué)雜志,2004(3):36-37.

[3]李斌.用Elan建設(shè)單點(diǎn)方言多媒體語(yǔ)料庫(kù)[J].方言,2012(2):178-190.

[4]李恒.手語(yǔ)語(yǔ)言學(xué)方法論研究綜述[J].中國(guó)特殊教育,2012(6):22-26.

作者:孫筱玥 付南鈞 楊煉 李凱 韓梅 單位:天津理工大學(xué)聾人工學(xué)院