鄭麗芳,唐朝輝
(廈門理工學(xué)院外國語學(xué)院,福建 廈門 361024)
潛在語義分析的英漢口譯語料庫挖掘
鄭麗芳,唐朝輝
(廈門理工學(xué)院外國語學(xué)院,福建 廈門 361024)
分析潛在語義分析的理論基礎(chǔ),結(jié)合英漢口譯語料庫的相關(guān)特點(diǎn),提出了基于潛在語義分析的口譯語料相似度的度量方法.基于PACCEL英漢口譯語料庫的實(shí)驗(yàn)表明,該方法的檢索精度為0.79,召回率為0.59,F(xiàn)1為0.68,檢索時(shí)間為1.124 s,在檢索精度、召回率、F1值以及時(shí)間效率上均顯著優(yōu)于實(shí)驗(yàn)的參照方法.該方法能為用戶提供更有效的檢索推薦以及在擴(kuò)展語料庫時(shí)自動(dòng)探析語料庫存在的數(shù)據(jù)冗余,為語料庫的構(gòu)建和擴(kuò)展提供了有效指導(dǎo).
語料庫;英漢口譯;知識(shí)挖掘;潛在語義分析
1998年基于語料庫的口譯研究由Miriam Shlesinger首次提出[1].日本名古屋大學(xué)從1999年至2003年研究并開發(fā)了包含英語、日語的同傳語料庫(簡稱CIAIR),收錄的撰寫材料達(dá)到100萬字,是當(dāng)前規(guī)模最大的同聲傳譯語料庫[2].意大利博洛尼亞大學(xué)于2004年研發(fā)了“歐洲議會(huì)口譯語料庫”(簡稱EPIC)[3],庫容約18萬字,是一個(gè)包含英語、西班牙語、意大利語的多語平行同聲傳譯語料庫.除上述兩個(gè)大型口譯語料庫之外,國外部分研究者開始獨(dú)自研發(fā)中小型專題語料庫,用實(shí)證研究的方式來補(bǔ)充傳統(tǒng)的思辨內(nèi)省模式的口譯研究方式.
國內(nèi)關(guān)于口譯語料庫的研究起步相對(duì)較晚,于2007年才陸續(xù)出現(xiàn)這方面的研究成果[4-6].目前依據(jù)語料庫語言學(xué)通行模式建成并投入使用的口譯語料庫只有2個(gè).2008年,文秋芳教授主持建立了中國大學(xué)生英漢漢英口筆譯語料庫(簡稱PACCEL)[7],是中國首個(gè)僅有的學(xué)習(xí)者口譯語料庫.由于其語料缺少充分標(biāo)注,基于該語料庫的口譯研究較少.2010年,上海交通大學(xué)胡開寶教授主持研發(fā)了“漢英會(huì)議口譯語料庫”[4](簡稱CECIC),該語料庫分為3部分:新聞發(fā)布會(huì)漢英平行語料子庫、新聞發(fā)布會(huì)英語原創(chuàng)語料子庫和政府工作報(bào)告漢英平行語料子庫.語料來源為國內(nèi)外新聞發(fā)布會(huì)口譯活動(dòng),庫容已從初期的19萬字左右擴(kuò)展為約54萬字.文獻(xiàn)[8]探討了大規(guī)模英漢平行語料庫的開發(fā)與其實(shí)用性,但目前基于該語料庫的研究主要集中在翻譯共性及漢英口譯語言特征等領(lǐng)域,尚未涉及其在口譯教學(xué)與培訓(xùn)中的應(yīng)用.
雖然目前已經(jīng)存在一定數(shù)量的英漢口譯語料庫,但對(duì)語料庫的挖掘研究還相對(duì)較少.目前對(duì)知識(shí)庫進(jìn)行挖掘的模型中,統(tǒng)計(jì)語言模型是一種較為成熟、應(yīng)用最為廣泛的工具[9-12].針對(duì)英漢口譯語料庫的特點(diǎn),本文結(jié)合潛在語義分析的理論,提出了基于潛在語義分析的英漢口譯語料庫挖掘方法,通過理論分析、實(shí)例推演以及實(shí)驗(yàn)證明了該方法的有效性.
潛在語義分析方法基于統(tǒng)計(jì)學(xué),具有嚴(yán)格的數(shù)學(xué)證明與理論推導(dǎo),通過對(duì)統(tǒng)計(jì)信息對(duì)應(yīng)的矩陣進(jìn)行奇異值分解,提取數(shù)據(jù)的語義信息.在計(jì)算機(jī)不足以理解數(shù)據(jù)語義的情況下,潛在語義分析可以為數(shù)據(jù)“語義"的提取提供有力的支持.
1.1矩陣奇異值分解
奇異值分解(singular value decomposition,SVD)是線性代數(shù)中一種很重要的矩陣分解,多用于信號(hào)處理、自然語言處理等領(lǐng)域[13].
假設(shè)M是一個(gè)m×n的矩陣,其中的元素全部屬于實(shí)數(shù)域,則矩陣可以表示成矩陣乘積,記為M=USVT,其中:U是m×m階酉矩陣;S是半正定m×n階對(duì)角矩陣;VT是n×n階酉矩陣.把M=USVT稱作矩陣U的奇異值分解.S對(duì)角線上的元素為矩陣M的奇異值,在求解矩陣奇異值分解時(shí)通常將奇異值由大而小排列,如下所示:
1.2語義空間與語義子空間
在對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行語義分析之前,要先構(gòu)造統(tǒng)計(jì)信息對(duì)應(yīng)的矩陣M,然后利用矩陣的SVD分解M=USVT來獲取統(tǒng)計(jì)數(shù)據(jù)對(duì)應(yīng)的語義子空間U與VT,處理過程中通常只需要取語義空間U,VT的前幾列.
英漢口譯語料庫的英語語料可以表示成“語料-詞匯”矩陣的形式,矩陣中的每個(gè)值表示檢索詞匯在語料中的出現(xiàn)頻率,如表1所示.通過使用矩陣SVD分解來提取“語料-詞匯"矩陣的語義空間,從語義空間提取的語料相似度是語料中詞匯對(duì)應(yīng)的上下文語境統(tǒng)計(jì)信息的綜合體現(xiàn),從而可以更有效地計(jì)算出語料之間的語義相似度.處理過程如圖1所示,具體處理流程如下:
表1 一個(gè)簡化的英漢口譯語料庫英文語料
Itembabychildguidehealthhomeinfantproofingsafetytoddlerx1000001001x2110010000x3010010010x4100101011x5100000100x6001000100x7101000000
1)通過語料庫獲取“語料-詞匯”矩陣M.當(dāng)語料庫具備一定的規(guī)模,這個(gè)過程通常會(huì)比較耗時(shí),因?yàn)樾枰_定整個(gè)語料庫的所有檢索詞匯表并計(jì)算出這些檢索詞匯在每個(gè)語料庫中的出現(xiàn)頻率.易知,該矩陣是高度稀疏的,即矩陣中存在很多的0.
2)對(duì)矩陣M進(jìn)行奇異值分解M=USVT,得到語料語義空間以及詞匯語義空間.其中:U表示語料語義空間;VT表示詞匯語義空間;S中的值為“語料-詞匯”矩陣M的非零奇異值,當(dāng)以降序排列這些非零奇異值,同時(shí)取最大幾個(gè)奇異值所對(duì)應(yīng)的U的列與VT的行分別作為語料語義子空間、詞匯語義子空間.通常當(dāng)語料庫達(dá)到一定的規(guī)模,語義子空間的存儲(chǔ)規(guī)模至少要比M的存儲(chǔ)規(guī)模小3個(gè)數(shù)量級(jí)(1 000倍).
3)在語料子空間計(jì)算兩兩語料之間、兩兩詞匯之間的語義距離相似度/距離.在低維語料語義空間計(jì)算出來的語料之間的相似度,與在M中計(jì)算相似度相比,其計(jì)算速率和計(jì)算精度都會(huì)有很大的提高.
4)通過計(jì)算出來的語料語義相似度/距離,可以為語料庫的使用者提供更準(zhǔn)確有效的檢索推薦.同時(shí)當(dāng)有新的語料添加時(shí),可以通過SVD分解的逆運(yùn)算,計(jì)算出新的語料在原有詞匯語義空間的投影,便可以得到該語料的語義向量,從而可以得出新語料與語料庫原有語料的語義相似度,使得語料庫的維護(hù)者可以更有效地維護(hù)語料庫,不至于出現(xiàn)太多無效的語料冗余.
本節(jié)通過實(shí)例推導(dǎo)與在實(shí)際語料庫上的實(shí)驗(yàn)效果來驗(yàn)證基于潛在語義分析的英漢口譯語料庫挖掘方法的有效性.
為便于闡述,本文首先采用包含7個(gè)語料、9個(gè)檢索詞匯的一個(gè)簡單英漢口譯語料庫,并且只考慮每個(gè)語料的英文部分.因?yàn)橛h口譯語料庫中語料相似度的度量通常是基于英文語料.如表1所示,其中xi表示英漢口譯語料庫中的一個(gè)英語語料,baby、child、guide、health、home、infant、proofing、safety、toddler表示語料庫包含的詞匯,表中每個(gè)值代表詞匯在對(duì)應(yīng)英文語料中出現(xiàn)的頻率.最后在實(shí)際的語料庫中驗(yàn)證潛在語義分析方法的有效性.
3.1基于語料語義子空間的語料相似度的度量
對(duì)表1對(duì)應(yīng)的“語料-詞匯”矩陣M進(jìn)行奇異值分解,其結(jié)果對(duì)應(yīng)的U、S、VT矩陣分別如下:
不失一般性,本例中取語義子空間的維度為2,記為δ=2,則U、VT中用方框圈起來的部分就是語料“語義”子空間,VT矩陣對(duì)應(yīng)就是詞匯“語義”子空間.
由U矩陣可知,7個(gè)語料在語料語義子空間的坐標(biāo)分別為(0.252 7,-0.442 1)、(0.419 7,0.543 4)、(0.338 2,0.468 6)、(0.702 5,-0.498 5)、(0.267 2,0.121 7)、(0.096 1,0.107 9)、(0.267 2,0.121 7).
因?yàn)閷?duì)稱性,所以只需要計(jì)算對(duì)角線一邊就可以了.距離越小,代表對(duì)應(yīng)的語料相似度越大,反之亦然.
表2 語料在語料語義子空間中的距離度量結(jié)果
3.2基于詞匯語義子空間的詞匯相似度的度量
基于VT對(duì)應(yīng)的詞匯語義空間,可以計(jì)算出9個(gè)詞匯在詞匯語義子空間的坐標(biāo)分別為(0.602 6,0.275 7)、(0.139 8,0.490 6)、(0.378 3,-0.298 3)、(-0.660 4,0.119 5)、(0.000 0,0.000 0)、(0.096 1,0.107 9)、(0.267 2,0.121 7).
同上,可以計(jì)算出9個(gè)詞匯在詞匯語義子空間中的語義相似度.這種詞匯相似度計(jì)算方式的優(yōu)勢在于它不是基于詞典中詞條的解釋,而是基于詞語在所有語料中的上下文統(tǒng)計(jì)信息.可以看到,要有效計(jì)算出詞匯的語義相似度,需要大量的語料上下文環(huán)境.本例中只有7個(gè)語料,不能很有效地獲取足夠多的詞匯在語料上下文中的統(tǒng)計(jì)信息,因而無法有效計(jì)算出詞匯間的語義相似度,但當(dāng)語料庫逐漸擴(kuò)展到一定的規(guī)模,這種計(jì)算方法的優(yōu)勢將變得明顯.
3.3潛在語義分析在PACCEL上的實(shí)驗(yàn)效果
《中國大學(xué)生英漢漢英口筆譯語料庫》[7],簡稱PACCEL,是國內(nèi)目前使用較為廣泛的語料庫.本節(jié)實(shí)驗(yàn)采用的英漢口譯語料庫從PACCEL中抽取,將潛在語義分析方法應(yīng)用到從PACCEL上抽取的英漢口譯語料庫;潛在語義分析的矩陣奇異值分解是離線處理,處理時(shí)間不必計(jì)入在線檢索時(shí)間,且語義空間維度δ=3.
檢索的任務(wù)是將語料庫中的語料標(biāo)記為檢索語料的相似類(positive)或不相似類(negative).因此有4種情況:如果一個(gè)語料與檢索語料相似并且也被預(yù)測成相似類,即為真相似類(truepositive),滿足這類條件的語料個(gè)數(shù)記為TP;如果語料與檢索語料不相似,但預(yù)測為相似類,則稱之為假相似類(falsepositive),個(gè)數(shù)記為FP;如果語料與檢索語料不相似并且該語料被預(yù)測成不相似類,稱之為真不相似類(truenegative),個(gè)數(shù)記為TN;相似類被預(yù)測成不相似類則為假不相似類(falsenegative),個(gè)數(shù)記為FN.
表3 在PACCEL使用潛在語義分析的檢索性能(δ=3)Table3 RetrievalinPACCELusingLSA(δ=3)性能指標(biāo)常規(guī)檢索方法潛在語義分析方法P0.630.79R0.320.59F10.420.68平均檢索時(shí)間/s1.7321.124
實(shí)驗(yàn)采用檢索精度(P)、召回率(R)以及P與R的加權(quán)平均F1值來衡量本文所提方法在PACCEL上的檢索性能.計(jì)算公式分別為P=TP/(TP+FP),R=TP/(TP+FN),F1=2(P-1+R-1)-1.檢索性能測試結(jié)果如表3所示.
由表3可知,潛在語義分析方法在PACCEL英漢口譯語料庫中的檢索精度、召回率、F1值以及時(shí)間效率上均較顯著地優(yōu)于常規(guī)檢索方法.由此可見,采用潛在語義分析方法挖掘英漢口譯語料庫,可以大大提高語料庫的檢索性能和效率;當(dāng)語料庫規(guī)模增大時(shí),潛在語義分析方法的時(shí)間性能與檢索性能會(huì)有相應(yīng)的提升,因?yàn)檎Z料會(huì)被更充分的統(tǒng)計(jì),因而語義空間會(huì)更緊湊、更準(zhǔn)確.
本文通過引入潛在語義分析技術(shù)對(duì)所有英語語料對(duì)應(yīng)的“語料-詞匯”矩陣進(jìn)行分析,得出“語料-詞匯”矩陣的“語義”子空間;在得到的“語義”子空間進(jìn)行英語語料之間的語義相似度度量、新語料與語料庫中語料的相似度度量以及詞匯之間的語義相似度度量,不但可以提高處理的時(shí)間效率,同時(shí)還可以提高計(jì)算的精度.實(shí)例證明,本文提出的基于潛在語義分析的英漢口譯語料庫挖掘方法對(duì)于具有一定規(guī)模的語料庫是有效可行的.由于漢語語料處理存在分詞上的困難,本方法在處理漢語語料時(shí)不能有效獲取漢語語料的潛在語義,因此在后續(xù)的研究中將引入適當(dāng)?shù)闹形姆衷~機(jī)制以有效獲取中文語料的潛在語義,從而提高英漢雙語語料庫的挖掘精度與效率.
[1]SHLESINGERM.Corpus-basedinterpretingstudiesasanoffshootofcorpus-basedtranslationstudies[J].Meta,1998(4):486- 493.
[2]張威.近十年來口譯語料庫的研究現(xiàn)狀及發(fā)展趨勢[J].浙江大學(xué)學(xué)報(bào):人文社會(huì)科學(xué)版,2012,42(2):136-143.
[3]MONTIC,BENDAZZOLIC,SANDRELLIA,etal.Studyingdirectionalityinsimultaneousinterpretingthroughanelectroniccorpus:EPIC(Europeanparliamentinterpretingcorpus)[J].Meta,2005(4):114-129.
[4]胡開寶,吳勇,陶慶.語料庫與譯學(xué)研究:趨勢與問題[J].外國語,2007(5):64-69.
[5]張威.口譯語料庫的開發(fā)與建設(shè):理論與實(shí)踐的若干問題[J].中國翻譯,2009(3):54-59.
[6]胡開寶,陶慶.漢英會(huì)議語料庫的創(chuàng)建與應(yīng)用研究[J].中國翻譯,2010(5):49-56.
[7]文秋芳,王金銓.中國大學(xué)生英漢漢英口筆譯語料庫[M].北京:外語教學(xué)與研究出版社,2008.
[8]趙巍,王雷.大規(guī)模英漢平行語料庫的開發(fā)與實(shí)用性探討[J].牡丹江師范學(xué)院學(xué)報(bào):哲學(xué)社會(huì)科學(xué)版,2014(4):117-118.
[9]ZHOUGD,LUAKIMTENG.Interpolationofn-gramandmutual-informationbasedtriggerpairlanguagemodelsformandarinspeechrecognition[J].ComputerSpeechandLanguage,1999,13(2):125-141.
[10]STANLEYFCHEN.Buildingprobabilisticmodelsfornaturallanguage[D].Cambridge:HarvardUniversity,1996.
[11]NIESLERTR,CWOODLANDP.Variable-lengthcategoryn-gramlanguagemodels[J].ComputerSpeechandLanguage,1999,13(1):99-124.
[12]袁里馳.基于統(tǒng)計(jì)的句法分析方法[J].中南大學(xué)學(xué)報(bào):自然科學(xué)版,2014,45(8):2 669-2 674.
[13]VIRGINIACKLEMA,ALANJLAUB.Thesingularvaluedecomposition:itscomputationandsomeapplications[J].IEEETransactiononAutomaticControl,1980,25(2):164-175.
(責(zé)任編輯雨松)
LSA-based Mining of English-Chinese Interpreting Corpus
ZHENG Li-fang,TANG Chao-hui
(SchoolofInternationalLanguages,XiamenUniversityofTechnology,Xiamen361024,China)
LSA-baseddatasimilaritymetricsintheinterpretingcorpusisthusproposedonanin-depthanalysisofthetheoreticalbasisoflatentsemanticanalysisinviewofthecharacteristicsofEnglish-ChineseInterpretingCorpus.ExperimentresultsbasedonPACCELshowthat:P=0.79,R=0.59,F1=0.68,t=1.124s,sothemethodissignificantlybetterthanthereferencedmethodformininginterpretingcorpusinretrievalprecision,recallrate,F1andtimeefficiency.Themethodprovidesmoreeffectivesearchrecommendationsandmakesautomaticdetectingofdataredundancywhenthecorpusisextended.
corpus;English-Chineseinterpreting;knowledgemining;latentsemanticanalysis
2014-10-01
2015-01-15
福建省教育廳科技項(xiàng)目(JB12252S,JB14082);廈門理工學(xué)院教改項(xiàng)目(JGY201315);國家級(jí)大學(xué)生創(chuàng)新項(xiàng)目(201411062043)
鄭麗芳(1983-),女,講師,碩士,研究方向?yàn)橛⒄Z語料庫.E-mail:2011110301@xmut.edu.cn
TP181;H315
A
1673-4432(2015)01-0086-05