孫筱玥 付南鈞 楊煉 李凱 韓梅
摘 要:計算機(jī)專業(yè)手語語料庫從聾人學(xué)生計算機(jī)專業(yè)教學(xué)的情景視頻庫中選取手語視頻語料,采用多媒體轉(zhuǎn)寫標(biāo)注軟件ELAN進(jìn)行手語語序轉(zhuǎn)寫、漢語翻譯和文本標(biāo)注,將其轉(zhuǎn)換為文本語料,建成“計算機(jī)專業(yè)手語語料庫”, 從手勢動作、身體姿勢、面部表情三方面特征對計算機(jī)專業(yè)手語詞匯展開詞義構(gòu)成分析和描寫,分析計算機(jī)專業(yè)手語詞匯的手勢特點及內(nèi)在成因。
關(guān)鍵詞:手語 ;語料庫;轉(zhuǎn)寫;標(biāo)注
中圖分類號:TP317 文獻(xiàn)標(biāo)識碼 A文章編號:2095-2163(2015)06-
Abstract:Computer professional sign language corpus selects sign language video corpusfrom the deaf students in computer specialty teaching scene corpus. The construction uses multimedia transcription annotation software Elan sign language to realize transliteration of the word order, Chinese translation and text marking, and converse the related resultsinto corpus, therefore
build computer professional sign language corpus ". Based on the aboved, from the three aspects of features of gestures, body posture, facial expressions,the paperanalyzes and describes computer professional sign language vocabulary expansion semantic structure, after that analyzes computer professional sign language gesture feature and internal causes.
Keywords: Sign Language; Corpus; Transliteration; Annotation
0 引言
根據(jù)中國殘聯(lián)提供的數(shù)字,我國現(xiàn)有聾人約2200萬,18歲以下應(yīng)受教育的聾啞人達(dá)400多萬,7歲以下為80萬。這是一個龐大的弱勢群體。因其在學(xué)習(xí)、工作和生活上有許多常人難于想象的艱辛和障礙。[1]計算機(jī)專業(yè)手語語料庫從聾人學(xué)生計算機(jī)專業(yè)教學(xué)的情景語料庫中選取手語視頻語料進(jìn)行手語語序轉(zhuǎn)寫、漢語翻譯和文本標(biāo)注,將其轉(zhuǎn)換為文本語料,建成“計算機(jī)專業(yè)手語語料庫”, 從手勢動作、身體姿勢、面部表情三方面特征對計算機(jī)專業(yè)手語詞匯展開詞義構(gòu)成分析和描寫,分析計算機(jī)專業(yè)手語詞匯的手勢特點及內(nèi)在成因,指導(dǎo)聾人高等工科教育中的手語教學(xué)。同時也能為聾人高等工科教育提供教學(xué)資源、教學(xué)設(shè)計、教材編寫、課堂教學(xué)與學(xué)習(xí)評估等方面科學(xué)的決策與指導(dǎo)。如同其他語言建立語料庫一樣,計算機(jī)專業(yè)手語也可以充分利用計算機(jī)和網(wǎng)絡(luò)資源,根據(jù)計算機(jī)專業(yè)手語的特點,建立手語語料庫[2]。
手語語料庫的建立在手語的語言學(xué)研究、手語的規(guī)范化研究及手語識別和機(jī)器翻譯領(lǐng)域有著重要的應(yīng)用意義。因此,國外學(xué)者對此做了大量的研究。美國的手語研究者于1995年對7個主要城市的聾人使用的手語的音系、詞匯和句法開展了詳細(xì)的調(diào)查,積累了大量的手語樣本后建立了世界上第一個手語語料庫即美國手語語料庫(Lucas, 2005)。近年來,越來越多的國家和地區(qū)相繼建立起手語語料庫,其中包括英國手語語料庫項目、北美手語語料庫工作坊、澳大利亞手語語料庫、荷蘭手語基本詞匯語料庫、德國手語語料庫,中國香港的亞太地區(qū)手語語料庫等都對我國建立手語語料庫有借鑒意義。李恒(2013)認(rèn)為目前最為成熟的手語語料庫是由Johnston等人創(chuàng)建的澳大利亞手語語料庫。Johnston(2009)提出,手語語料庫應(yīng)當(dāng)包括大量可以機(jī)讀的標(biāo)注文本,而非語篇和文本的隨意堆砌。McEnery和Wilson(1996)也認(rèn)為樣本的代表性以及語料的機(jī)讀形式化是語料庫兩個最重要的特征。以此標(biāo)準(zhǔn)建立的語料庫,對于包括音系、詞匯、句法、語篇等各種層次的手語研究,尤其是詞典編纂都有積極的促進(jìn)作用。王敏等則認(rèn)為英國手語語料庫項目和北美手語語料庫工作坊兩個手語語料項目在設(shè)計理念、技術(shù)手段、人員協(xié)作等方面值得研究與借鑒。目前國外較為通行的做法是,科研人員可根據(jù)研究需要建立私人語料庫,在一定范圍內(nèi)實現(xiàn)共享和交流[4]。
1 設(shè)計實現(xiàn)的功能
系統(tǒng)采用ELAN建立計算機(jī)專業(yè)手語語料庫,從一個小型專業(yè)手語語料庫的建設(shè)入手,先建立各個子庫,比如計算機(jī)網(wǎng)絡(luò)手語、圖形圖像手語、動畫設(shè)計手語等等,再集成完成數(shù)據(jù)庫,探索專業(yè)手語語料庫建立的方法和途徑[3]。通過轉(zhuǎn)寫和標(biāo)注,分析手語的特點,以便于計算機(jī)對特定語料進(jìn)行識別和提取。實現(xiàn)語料庫的機(jī)讀化,提高語料的利用價值,增加語料的重復(fù)使用性以及增強(qiáng)語料庫的多功能性。以此標(biāo)準(zhǔn)建立的語料庫,對于包括音系、詞匯、句法、語篇等各種層次的手語研究,尤其是詞典編纂都有積極的促進(jìn)作用。
1.1語料樣本形式的選取
語料的選擇和編制是建立語料庫的環(huán)節(jié)之一, 調(diào)查通常包括如下部分。
(1)詞匯:。以計算機(jī)專業(yè)手語視頻數(shù)據(jù)庫中的視頻文件作為本課題的語料樣本。該視頻庫中的計算機(jī)專業(yè)手語詞匯由來自全國各地的聾生做手語來描述。選取使用頻率高的課堂教學(xué)詞匯。配合采用田野調(diào)查的“詞匯記錄”法, 確保忠實地記錄手語中的特有詞匯。
(2) 語法。以“誘導(dǎo)法”和“自然產(chǎn)出法”兩種方法為主體, 具體采用訪談、自由交流以及讓聾人進(jìn)行自我介紹等方式獲得語料信息。
(3)地域。由于我國地域遼闊,如同有聲語言存在方言差別一樣,手語也有不同的地域語言變體。因此語料庫樣本的地域的選取應(yīng)盡可能廣泛。如果不能覆蓋全國各個省市,也應(yīng)具備東北、華北、華東、華南等地區(qū)的代表性。語料樣本的選取應(yīng)當(dāng)注意到不同地區(qū)聾人文化和聽人文化的差異、聾人文化內(nèi)部之間的差異對手語方言形成的作用。這樣采集的樣本才能為計算機(jī)專業(yè)手語的規(guī)范化研究提供理論依據(jù)。
1.2 操作方法
在建立計算機(jī)專業(yè)手語語料庫時,根據(jù)計算機(jī)專業(yè)教學(xué)的實際需要決定標(biāo)注來完成元數(shù)據(jù)的標(biāo)準(zhǔn)化和手語視頻詞匯的規(guī)范化,同時要兼顧實用性,避免因數(shù)據(jù)量過小而降低語料庫的利用價值。目前較為常見的手語元數(shù)據(jù)描述格式是由荷蘭馬克思·普朗克心理語言學(xué)研究所開發(fā)應(yīng)用的imdi元數(shù)據(jù)庫。這主要用在多媒體和多模態(tài)語言集成。更好的實驗語言數(shù)據(jù)和元數(shù)據(jù)之間的匹配,提供檢索和計算之用。另一個ELAN軟件,這主要有三種模式:分割模式,轉(zhuǎn)寫模式,標(biāo)注模式。在過程中,為避免對手語不熟悉,保證數(shù)據(jù)分割的準(zhǔn)確性,最好由手語語言學(xué)專業(yè)出身來完成。因此在建設(shè)手語語料庫過程中,應(yīng)當(dāng)注意到以下幾個問題:
(1) 作為語料庫研究者來看,應(yīng)該在標(biāo)注系統(tǒng)的詳略度和標(biāo)注方案的可行性之間找到平衡點。
(2) 從用戶的角度性來研究, 語料庫的標(biāo)注應(yīng)該越詳細(xì)越好,可以用戶讓容易理解;假如標(biāo)注信息過于繁多,這將不利于標(biāo)注者進(jìn)行實際操作。
(3) 從建設(shè)整體來看,我國的手語視頻庫以及語料庫大多數(shù)是為國家出資而建立,在此提倡應(yīng)當(dāng)由大學(xué)各個機(jī)構(gòu)和高等學(xué)校自主建立專屬的手語語料庫。
2 Elan自建語料庫的方法
2.1 基本概念
Elan的四個基本概念是:轉(zhuǎn)寫;標(biāo)注;層;語言學(xué)類型。在此,對其闡釋如下:
(1)轉(zhuǎn)寫。根據(jù)音頻和視頻內(nèi)容錄入文字或其它字符(國際音標(biāo)、拼音等)的操作。
(2)標(biāo)注。針對音頻或視頻內(nèi)容所轉(zhuǎn)寫的文字、國際音標(biāo)或者對內(nèi)容進(jìn)行的標(biāo)記、注釋等等,都可以稱為“標(biāo)注”。在Elan 中,“標(biāo)注”包括“轉(zhuǎn)寫”。另外,“標(biāo)注”也可以指某一層上沒有轉(zhuǎn)寫任何內(nèi)容的空段,即“空標(biāo)注”。
(3)層。轉(zhuǎn)寫和標(biāo)注以“層”為依托,不同的層里有不同的標(biāo)注內(nèi)容。如文本轉(zhuǎn)寫層、國際音標(biāo)層、注釋層等等。
(4)語言學(xué)類型。從語言學(xué)角度對“層”屬性的一種定義,如某一層標(biāo)注的內(nèi)容是國際音標(biāo),就可以把該層的語言學(xué)類型定義為“ IPA”,某一層是方言轉(zhuǎn)寫,就可以把這一層的語言學(xué)類型定義為“ Dialect”,等等。
2.2操作模式
運(yùn)行Elan ,導(dǎo)入音頻或視頻文件后, Elan 在“選項”菜單中設(shè)計有五種操作模式可供選擇:分割、轉(zhuǎn)寫、標(biāo)注、同步、線性交錯。前三種模式在轉(zhuǎn)寫與標(biāo)注的過程中使用頻繁,常常需要在各種模式之間切換;后兩種模式則使用較少。下面即對前三種模式展開具體論述。
(1)分割模式。這是轉(zhuǎn)寫模式的基礎(chǔ),主要用于在轉(zhuǎn)寫前對錄音或視頻進(jìn)行時間段(按實際語流的停頓“分割段”可能是半句話、一句話或更多)的分割標(biāo)記,使用時只需要在相應(yīng)的時間點按“回車鍵”就可以逐段分割,進(jìn)行標(biāo)記。
(2)轉(zhuǎn)寫模式。該模式以分割模式為基礎(chǔ),在分割模式中完成對轉(zhuǎn)寫的內(nèi)容逐段分割標(biāo)記后切換到轉(zhuǎn)寫模式,在表格中逐句轉(zhuǎn)寫,轉(zhuǎn)寫完成一句以后,即按回車鍵進(jìn)入到下一句。如需重復(fù)播放當(dāng)前句,按 Tab 鍵即可,操作簡單高效,省去了頻繁回放的麻煩。
(3)標(biāo)注模式。圖1所示是對一個手語專業(yè)的人打手語拍攝的轉(zhuǎn)寫和標(biāo)注 ,標(biāo)注人是鐘鵬,參與者是手語語言學(xué)專業(yè)的人,詞匯是“安全”。
2.3 制作流程
(1)新建導(dǎo)入視頻之后,在菜單上的選項單擊,找到分割模式。
(2)按回車鍵設(shè)置第一個標(biāo)記,設(shè)置到第二個標(biāo)記連成一個標(biāo)注段,即一個字一個標(biāo)注段。
(3)設(shè)置標(biāo)注段后,選項轉(zhuǎn)寫模式。
(4)設(shè)置幾個表欄數(shù)目,第一個列數(shù)量選擇default-it,最后點選“應(yīng)用”。
(5)完成之后,在序號1輸入安,序號2輸入全。選項>標(biāo)注模式。
(6)鼠標(biāo)光標(biāo)移動default,按鼠標(biāo)右鍵,選擇更改此層屬性。
(7)更改層名、參與者、標(biāo)注人、輸入法,單擊確定。
(8)在菜單欄選擇“層>復(fù)制層” 然后在彈出的復(fù)制層窗口中選好正文,然后下一個。
(9)單擊下一個,進(jìn)入選轉(zhuǎn)寫(無父層)。
(10)單擊下一個按鈕,最后一步,結(jié)束。復(fù)制層之后更改此層屬。
(11)在標(biāo)注段雙擊就進(jìn)行編輯狀態(tài),分別輸入一手橫伸,掌心向下,自胸部向下(時間段為0~2秒);伸出拇指順時針平行轉(zhuǎn)一圈(時間段為2~3.5秒),如圖2所示。
2.4 Elan自建手語語料庫的結(jié)論
計算機(jī)專業(yè)手語語料庫對于聾人高等教育領(lǐng)域的教師、全國聾生發(fā)揮著集成地方手語、以及將涉獵手語互相對比、查詢、學(xué)習(xí)的作用,使聾人能夠精確地了解,并熟練使用一些專業(yè)性手語。研究中為了使聾人能夠更趨便利地達(dá)成溝通,使用Elan軟件處理拍攝視頻,利用該專業(yè)手語詞匯,肢體上的動作講解來實現(xiàn)手語語料庫的基本構(gòu)建。Elan軟件對于收集手語具有更好的專業(yè)優(yōu)勢。
3 結(jié)束語
計算機(jī)專業(yè)手語語料庫建設(shè)的研究是研究所在聾人工學(xué)院重大的項目,對于計算機(jī)專業(yè)手語詞匯,句子的手勢進(jìn)行采集、分割、轉(zhuǎn)寫、標(biāo)注種種來完成計算機(jī)專業(yè)手語詞匯語料庫,計算機(jī)專業(yè)手語句子語料庫的建設(shè)。尤需一提的是,計算機(jī)專業(yè)手語詞匯的采集積累,在這一過程中需要通過各地方聾人打手勢的長期積累、精細(xì)篩選,需要制作臻于完善的文案完成拍攝任務(wù),還需要操作軟件耗費時間完成標(biāo)注,轉(zhuǎn)寫等等,才可以完成計算機(jī)專業(yè)手語語料庫的最終圓滿建設(shè)。
參考文獻(xiàn):
[1]李凱.韓梅.聾人手語動漫教學(xué)系統(tǒng)的設(shè)計[J].智能計算機(jī)與應(yīng)用,2012,2(6):41-45.
[2]李凱.計算機(jī)專業(yè)詞匯手語手勢的表達(dá)設(shè)想[J]天津, 2004(1):1-3.
[3]李斌.用Elan建設(shè)單點方言多媒體語料庫[J].方言, 2012(2):178-190.
[4]李恒. 手語語言學(xué)方法論研究綜述[J].中國特殊教育,2012(6):22-26.