張曉梅
(長春大學特殊教育研究中心,長春 130022)
自然手語語料庫建設與研究
張曉梅
(長春大學特殊教育研究中心,長春 130022)
手語是聾人交流思想的主要語言工具,自然手語是聾人日常交流廣泛使用的語言形式,也是我國語言文字的重要組成部分。建設自然手語語料庫是加快中國手語研究和推廣手語使用的重要內容。本文概述了自然手語語料庫建設的研究背景,分析了自然手語語料庫建設中的問題,探討了自然手語語料庫建設的方法及程序。
自然手語;語料庫;建設
手語是聾人的交際工具,作為一種語言形式,被越來越多的人所了解和應用。我國有2004萬聾人,手語是聾人交流的主要語言工具,也是我國語言文字的重要組成部分。中國手語一般分為自然手語(natural sign 1anguage)和規(guī)約手語(conventional sign 1anguage)。[1]規(guī)約手語是在漢語這種有聲語言的基礎上形成的一套手語體系,多為聾校教師及健聽人所使用。自然手語作為聾人群體的第一語言,在其群體內部進行日常社會交際使用的、經(jīng)世世代代傳承下來的人類語言形式,是聾人群體在長期相互交流中自然發(fā)展而來的一種復雜的視覺空間語言。[2]如同其他語言建立語料庫一樣,自然手語也可以充分利用計算機和網(wǎng)絡資源,根據(jù)自然手語的特點,建立自然手語語料庫。自然手語是聾人日常交流廣泛使用的語言形式,建設自然手語語料庫具有重要的意義和價值:第一,可以促進中國手語研究和推廣。語料庫提供大量真實手語視頻語料,詳細地反映出我國各地自然手語的異同,對于深入進行中國手語研究,推廣中國手語的使用及針對聾人學生的教學都具有極其重要的意義。對自然手語符號與思維間關系的研究,可以為語言學、文字學理論研究提供重要的啟示。第二,可以豐富手語語料庫的研究。語料庫是對真實語境下手語視頻進行加工形成的“熟語料庫”,網(wǎng)狀交叉檢索設計,達到語料的最大使用率。動態(tài)分布式存儲,動態(tài)智能檢索,自動增量更新,開放的上傳下載接口,可以不斷補充新的語料,提供上傳和下載功能。第三,可以為手語學習者提供學習資源。語料庫中的視頻語料,便于人們學習和了解聾人自然手語,為人們學習聾人手語提供學習資源?,F(xiàn)在越來越多的健聽人有學習手語的愿望和需求,這是對聾人手語的認同也是對聾人的尊重,對構建和諧社會有積極的促進作用。第四,可以提高聾校的教學質量、促進聾兒康復教育的發(fā)展。目前聾校教師絕大多數(shù)都是采用規(guī)約手語作為教學語言,與聾生日常交流使用的自然手語相差甚遠。使用規(guī)約手語進行教學勢必影響到聾生對所學的科學文化知識的理解,也直接影響到老師對學生進行思想道德教育的效果。聾兒的康復訓練中沒有直接使用聾兒的第一語言——自然手語,也是造成了聾兒康復訓練效果欠佳的一個重要因素。因此,開發(fā)建設自然手語的語料庫,能夠破解聾校語言教學中的困境,同時也能為聾兒語言康復與語言教學提供教學資源。
隨著社會對殘疾人事業(yè)的關注,世界各國都很重視語言信息無障礙的研究,利用現(xiàn)代信息技術為聽覺障礙群體提供服務。國外手語語料庫建設與研究已經(jīng)取得了很多成果,借鑒國外手語語料庫建設的前瞻性思想和前沿性研究,加快我國手語語料庫建設與研究的進程。2011年,我國在《中國殘疾人事業(yè)“十二五”發(fā)展綱要》中提出“加強殘疾人事業(yè)領域的科技創(chuàng)新和成果應用及信息化建設工作,提高殘疾人事業(yè)的信息化管理水平,為殘疾人社會保障體系和服務體系提供技術支撐”[3]。在《國家中長期語言文字事業(yè)改革和發(fā)展規(guī)劃綱要(2010-2020年)》中提出,建設“語言數(shù)據(jù)庫和語料庫”,加強手語“信息化”建設[4]。自然手語語料庫建設與研究通過“信息化”的手段促進聾人語言和諧發(fā)展,體現(xiàn)社會公平與教育公平。
1.1 國內外研究概況
隨著計算機技術在各個領域的廣泛應用,從20世紀60年代的布朗語料庫(Brown)[5]開始,這種利用計算機對存入的語料進行分析和研究的語料庫建設逐步發(fā)展起來。也正是在20世紀60年代手語語言學在美國建立,[6]確立了手語在人類語言發(fā)展史上的重要地位。信息技術、手語語言學和語料庫語言學發(fā)展,促進了各國手語語料庫的發(fā)展。世界上第一個大型的手語語料庫是美國手語語料庫,[7]還有澳大利亞手語語料庫、英國手語語料庫、荷蘭手語語料庫、德國手語語料庫、愛爾蘭手語語料庫、亞太地區(qū)手語語料庫等,目前最為成熟的是由Johnston等人創(chuàng)建的澳大利亞手語語料庫。我國的手語語料庫研究是在近十年開始的,還處在剛剛起步階段。中國手語語料庫的研究可以分為兩個階段:第一個階段是一些個人在搜集和整理資料的基礎上形成的小規(guī)模的語料庫,如:衣玉敏在博士論文《上海手語的語音調查報告》(2008年)中以上海聾人的自然手語為研究對象,通過調查形成4784個詞的手語視頻短片以及數(shù)小時的手語錄像,從中選取了時長為75分鐘的手語錄像為研究樣本,建立了為自己研究所使用的語料庫。何宇茵、馬賽在《基于語料庫的中國手語象似性研究》(2010)中提到將中國手語里的207個斯瓦迪士核心詞建成語料庫。黃曉曉在撰寫碩士論文《基于情景語料庫的自然手語構詞研究》(2012)時,選取了230分鐘的手語視頻語料,建成了多模態(tài)聾人日常交流手語語料庫,共收錄文本語料129953字。第二個階段是從事科學研究的群體以項目研究的形式進行的大規(guī)模手語語料庫建設研究。由復旦大學龔群虎教授擔任首席專家的2012年國家社科基金重大項目“基于漢語和部分少數(shù)民族語言的手語語料庫建設研究”已經(jīng)完成了開題論證,進入了實質性的研究階段。2012年度國家語委重大項目“國家手語詞匯語料庫建設”也已經(jīng)完成了開題論證,進入了實質性的研究階段。2014年度國家社會科學基金項目課題指南(語言學)中提出了“手語語料庫建設和神經(jīng)機制研究”的項目。
1.2 我國現(xiàn)有手語語料庫存在的問題
我國的手語語料庫在語言學與計算機科學領域都有所研究和應用,但由于起步比較晚,普遍存在語料取材范圍窄,語料收集和應用的經(jīng)濟性及效率均難如人意。
(1)起步時間較晚。我國的手語語料庫建設剛剛起步,近幾年才有關于手語語料庫的研究出現(xiàn),近兩年正在通過一些國家級的項目推進手語語料庫的建設。我國目前還未建成較為系統(tǒng)完善的手語語料庫。
(2)語料素材范圍窄。由于我國幅員遼闊,各地聾人所使用的手語如同口語中方言一樣各有特色,各有不同。同時受到研究人員的數(shù)量、研究經(jīng)費等原因的限制,很難在全國范圍內進行手語調查并獲取語料素材,所以研究者一般會采取分地域的方式,選取有代表性的地區(qū)或者就近就地取材。
(3)語料庫使用效率低?,F(xiàn)有的語料庫還只是小型、單一的語料庫,存在語料數(shù)量少,檢索方式單一,不能提供資源共享,缺乏動態(tài)管理等問題,在應用上還不廣泛,使用率、推廣率較低。
隨著我國對特殊需要人群關注程度的提高和語料庫技術的成熟,我國手語語料庫建設研究正在向展現(xiàn)中國手語普遍性特點的縱深方向發(fā)展。作為聾人第一語言的自然手語研究是近年來的熱點研究問題,自然手語語料庫的建設與研究是手語研究領域中的一個重要發(fā)展趨勢。自然手語語料庫是手語語料庫的重要組成部分,是對中國手語語料庫建設研究的重要探索。自然手語語料庫建設研究可以借鑒國外手語語料庫建設的技術經(jīng)驗,結合中國自然手語的特點,針對目前我國手語語料庫建設中存在的問題,建立有自身特色的自然手語語料庫。
2.1 語料內容選擇
自然手語語料庫內容由詞語、句子、段落表達三個部分組成。
詞語部分是由207個斯瓦迪士核心詞匯組成。斯瓦迪士核心詞匯是由美國語言學家莫里斯·斯瓦迪士(Morris Swadesh)從統(tǒng)計學的角度分析不同的語言(以印歐語系語言為主)得出的核心詞列表。他認為,基本上所有語言的詞匯都應該包含這200多個詞語;另一方面,只要認識這200多個詞語,亦可以利用該種語言作最基本的溝通。[8]
句子部分是從《新漢語水平考試》HSK(三級)中精挑細選了30個有代表性的句子?!缎聺h語水平考試》是由國家漢辦/孔子學院總部編譯,代表漢語水平的考試標準。通過這30個句子,可以觀察不同地域的聾人對代詞、副詞、指示詞、介詞、嘆詞及自然手語語序的運用和理解。
段落分為兩個內容,第一個內容是用自然手語翻譯一個漢語段落,這個段落選取自《新漢語水平考試》HSK(四級),是由151個字組成的一段話。主要描述了森林中的各種動物為晚會做得各種準備工作??梢愿鶕?jù)聾人對段落的表述情況來了解聾人對漢語文字的理解,以及用自然手語翻譯漢語時的自然手語與漢語的對應關系等。第二個內容是根據(jù)一幅連環(huán)畫,讓聾人用自然手語進行自主表達。連環(huán)畫《圖釘?shù)拿钣谩愤x自德國幽默大師誒·卜勞恩的作品《父與子》。描繪了兒子巧妙運用圖釘和父親一起制伏進屋行竊小偷的故事。通過自主表達可以考察聾人在沒有中文參照的狀態(tài)下用自然手語表述事件情節(jié)的能力,以及聾人日常習慣的自然手語表達狀態(tài)。
2.2 語料采集和整理
表1 聾人志愿者籍貫表
為了獲得帶有獨特地域性特點的手語,控制來自不同省份間學生的交流引起的手語習慣改變,研究中挑選了34位來自17個省份的大學一年級剛剛入學的新生志愿者進行語料采集。語料采集過程如下:
(1)充分做好前期準備工作。將已經(jīng)選好的語料制作成幻燈片;協(xié)調合理的拍攝時間和地點;準備筆記本電腦、DV機、移動硬盤、燈光等拍攝設備。
(2)與聾人充分溝通。在拍攝前,給聾人志愿者充分的時間熟悉語料內容,并告知聾人用自然手語和最自然的狀態(tài)打出手語。通過訪談采集聾人的個人信息資料,包括姓名、性別、年齡、籍貫、原畢業(yè)學校、手語習慣(主要是自然手語和規(guī)約手語的使用比例)。
(3)拍攝工作。選取適當?shù)慕嵌群途嚯x,使用DV機進行語料拍攝,為了確保整體效果,選擇統(tǒng)一的背景,及時做好語料儲存。
(4)同步配音。聾人所打的每個手語都做出相應的中文配音,方便進一步復查、切割和標注。
(5)語料檢查。對所拍攝語料視頻進行二次檢查,對有瑕疵和遺漏的語料及時進行補拍。
完成了語料采集后,進入到語料整理階段。采用“會聲會影”軟件以斯瓦迪士的207個詞匯為基礎,以聾人打手語過程中的起手和落手為左右界限進行切割。經(jīng)過整理和歸納,共采集了詞匯視頻7038個,句子視頻1020個,段落和連環(huán)畫的視頻68個。這8126個視頻構成了整個語料庫的核心部分。
2.3 語料采集中發(fā)現(xiàn)的情況
2.3.1 詞語采集中發(fā)現(xiàn)的情況
聾人志愿者在打“我”“你”“他”等有具體指向的代詞時手語差別不大。在處理一些比較抽象的詞時出現(xiàn)了明顯的地域差異。如“綠”在34位聾人志愿者中出現(xiàn)了9種不同的打法。
2.3.2 句子采集中發(fā)現(xiàn)的情況
通過語料信息發(fā)現(xiàn)聾人打句子時的一些習慣。首先,聾人會用表情和手勢幅度的改變代替部分詞匯內容,將句子以最簡略的形式呈現(xiàn)出來。例如“雨越下越大”,聾人不會直接按照漢語逐字逐句地進行翻譯,而是只打出“下雨”這個手語,并逐漸加強“下雨”這個手語的幅度來表示雨越下越大。其次,聾人自然手語的語序也與漢語的語序不盡相同。如“你要喝茶還是和咖啡?”聾人用手語表述的結果往往是“茶,咖啡,你選哪個?”的結構。
2.3.3 段落表達中發(fā)現(xiàn)的情況
將有文字參照的段落和沒有文字參照完全靠主觀理解的連環(huán)畫表達做對比,發(fā)現(xiàn)聾人用手語表述連環(huán)畫時顯得更為流暢、自然。其主要原因是聾人在表述漢語段落時,存在一種將中文翻譯為手語的思考過程。這種將一種語言翻譯為另一種語言的過程會影響聾人打手語的速度和表現(xiàn)力。
2.3.4 關于志愿者的一些情況
(1)志愿者的籍貫分布情況。受到志愿者來源的限制,在收錄語料信息時,缺少部分省份的語料信息,特別是西部地區(qū)的語料信息。在將來的語料庫完善工作中要著重尋找來自缺失省份的語料,不斷豐富語料庫。各省自然手語與規(guī)約手語都有所差異,南部沿海各省自然手語與規(guī)約手語的差別尤為明顯。
(2)志愿者的年齡階段和學歷水平有局限性。聾人志愿者的年齡都在18-25歲之間;學歷均為高中畢業(yè)的在校大學生。缺少來自兒童、中年人和老年人以及不同學歷層次的語料信息。由于志愿者都是高中畢業(yè),所以對漢語段落理解比較好,用自然手語的表述上也較為流暢。
(3)志愿者的手語表達存在性別差異。志愿者男、女各17人,男女比例為1:1??傮w來看,男生打的手語比女生更為活潑,男生的表現(xiàn)欲更強烈。尤其在打連環(huán)畫的環(huán)節(jié)表現(xiàn)突出,男生不僅僅打出手語,還加入豐富的表情和其他肢體動作等表演成份,將連環(huán)畫內容表現(xiàn)得惟妙惟肖。女生的手語比較拘謹、動作幅度不大,動作比較清晰、準確。
(4)志愿者對個別漢語詞匯有歧義理解。由于將斯瓦迪士核心詞翻譯成中文時多為用單個字表示的詞匯,這樣的詞匯呈現(xiàn)給聾人時,他們往往會產(chǎn)生歧義。如第168個斯瓦迪士核心詞“灰”(ashes),本意是“灰塵”的意思,而部分志愿者將其理解為“灰色”的意思。這樣類型的詞還有“角(horn)”“斗(fight)”“游(swim)”。
(5)志愿者的衣著對拍攝效果的影響。在整理歸納全部語料信息后,發(fā)現(xiàn)不同顏色和款式的衣服對手語錄制的效果有影響。即使是同一個人打同一個手語,穿深色的服裝有襯托手勢動作的作用,使手勢更清晰。
自然手語語料庫建設涉及了語言學與計算機學科的交叉,語料的搜集和整理是語料庫建設的基礎,語料庫程序設計是語料庫的技術實現(xiàn)。目前自然手語語料采集范圍大,技術開發(fā)及語料庫的后期建設和維護都需要很大的花銷,直接構建成大型語料庫成本較高。所以,在這種情況下借鑒一般語料建設中常用的三種開發(fā)方法:原型法、積木法、逐步求解法,先構建小型自然手語語料庫,在整體的設計與規(guī)劃下,不斷增加新語料,逐步修改、完善語料庫,由小型語料庫逐漸向大型語料庫過渡發(fā)展。
3.1 對手語視頻語料進行分類存儲
準確、清晰的手語視頻是手語語料庫建立的保障,當進行語料檢索操作時,充分保證語料詞匯檢索的命中效率,同時在對語料視頻索引化時,可以從本地相對快速地獲得語料視頻對其進行處理,也方便今后增加和減少語料視頻。例如將7038個手語詞匯視頻以“省份/斯瓦迪士核心詞數(shù)序+斯瓦迪士核心詞”的格式保存。那么,來自吉林省的志愿者所打的“我”的手語視頻,被命名為“吉林/1我”。
3.2 使用VB.NET對手語視頻語料進行智能搜索
采用VB.NET來幫助建立語料庫。VB.NET是Visual Basic.Net的簡稱。Visual Basic是Windows環(huán)境下的一種簡單、易學的編程語言,由于其開發(fā)程序的快速、高效,深受程序員的喜愛。在Visual Basic 6.0之后,微軟公司推出了全新的“.NEt構架”,在其第一個版本-Visual Studio.NET 7.0中,集成了Visual Basic 7.0、Visual C++7.0及C#,其中的Visual Basic 7.0(vb 7.0),即是VB.NET的第一個版本。
在詞匯搜索方面,采取的方案是在輸入欄中任意輸入斯瓦迪士的207個核心詞都可獲得相應的視頻語料。即可以直接對所需的詞匯進行搜索,語料結果會伴隨著語料信息(籍貫和詞匯名)一同顯示。
在句子搜索方面,考慮到句子字數(shù)較詞匯多,在軟件左側標有1-30的序號鏈接分別代表30個句子,單擊序號可獲取句子的搜索結果。
在段落方面,分別有一個段落和連環(huán)畫的鏈接來幫助獲得相應的語料信息。
3.3 語料庫的后期完善
自然手語語料庫設計為動態(tài)語料庫,即可以不斷向語料庫中補充新的語料。將來不斷補充來自更多地域和來自兒童、中年人和老年人以及不同學歷層次的語料信息,以滾雪球的方式不斷增加新語料。將視頻根目錄下的文件儲存位置做成索引,能更快捷地找到指定文件。在今后對語料信息進行更新時,只需將新添內容放入索引,即可保證搜索成功。還可以定位各個文件的具體路經(jīng),雙擊其名進行播放。
[1]王東.自然手語與規(guī)約手語之研究[J].中國特殊教育,2003 (3):33.
[2]國華.自然手語習得與有聲語言習得之比較及其啟示[J].中國特殊教育,2007(3):21.
[3]中國殘疾人聯(lián)合會.中國殘疾人事業(yè)“十二五”發(fā)展綱要[EB/ OL].(2011-06-09)[2014-04-01].http://www.cdpf.org. cn/index/2011-06/09/content-30340867-9.htm.
[4]中國新聞網(wǎng).國家中長期語言文字事業(yè)改革和發(fā)展規(guī)劃綱要(2012—2020年)[EB/OL].(2013-01-06)[2014-04-01].http://www.chinanews.com/cul/2013/01-06/4462831. shtm.
[5]何常麗.語料庫語言學研究綜述[J].渤海大學學報,2009(3): 149.
[6]鐘衛(wèi).手語的視覺語言性[J].重慶科技學院學報:社會科學版,2012(1):131.
[7]Stokoe W,Casterline D,Croneberg C.A Dictionary of American Sign Language on Linguistic Principles[M].Silver Spring,MD: Linstok,1965:1-5.
[8]維基百科.斯瓦迪士核心詞列表[EB/OL].(2014-02-24)[2014-04-01].http://zh.wikipedia.org/wiki/斯瓦迪士核心詞列表.
責任編輯:李鳳英
Construction and Research on Corpus of Natural Sign Language
ZHANG Xiaomei
(Center for Special Education Research,Changchun University,Changchun 130022,China)
Sign language is an essential tool for communication among hearing impaired people,and natural sign language is a language form widely used by the deaf in daily communication and it is an important part of language and characters in our country aswell.The construction of natural sign language corpus is an important content for accelerating sign language research and popularizing the use of sign language.This thesis explains the research background of natural sign language corpus,analyzes the existed problems and discusses themethods and programs for the construction of natural sign language corpus.
natural sign language;corpus;construction
G762.2
A
1009-3907(2014)09-1279-04
2014-04-18
吉林省教育科學規(guī)劃課題(GH13052)
張曉梅(1974-),女,吉林長春人,助理研究員,碩士,主要從事特殊教育研究。