彭 杰
英漢口譯語(yǔ)料庫(kù)潛在語(yǔ)義分析數(shù)據(jù)的挖掘探討
彭 杰
當(dāng)今社會(huì),人們?cè)趯?duì)英漢口譯語(yǔ)料庫(kù)的挖掘時(shí),要在對(duì)潛在的語(yǔ)義分析這一理論進(jìn)行深入的研究與探討,了解其中的真正含義,并結(jié)合我國(guó)英漢口譯語(yǔ)料庫(kù)的特點(diǎn),提出基于英漢口譯語(yǔ)料庫(kù)的特點(diǎn)探索出最為合理的度量方法。筆者將根據(jù)以往的經(jīng)驗(yàn),對(duì)如何在我國(guó)潛在的語(yǔ)義分析這一大環(huán)境下對(duì)英漢口語(yǔ)料庫(kù)進(jìn)行挖掘研究與探討。
語(yǔ)料庫(kù) 知識(shí)挖掘 語(yǔ)義分析 英漢口譯 潛在的
對(duì)口譯最早開(kāi)始研究是在1998年,由日本的名古屋大學(xué)開(kāi)始著手的,在經(jīng)過(guò)了由1999年至2003年這四年的研究當(dāng)中,名古屋的研究學(xué)者研究開(kāi)發(fā)出了包含有英語(yǔ)和日語(yǔ)的語(yǔ)料庫(kù),關(guān)于這一研究的結(jié)論,研究者撰寫(xiě)出了一本近100萬(wàn)字的關(guān)于同聲傳譯語(yǔ)料庫(kù)的書(shū)籍。之久在2004年意大利的博洛尼亞大學(xué)對(duì)這一書(shū)籍進(jìn)行了完善與總結(jié),研發(fā)出了一本叫做“歐洲議會(huì)口譯語(yǔ)料庫(kù)”,這是一個(gè)包含英語(yǔ),西班牙語(yǔ)和意大利語(yǔ)的語(yǔ)料庫(kù),這一語(yǔ)料庫(kù)是多語(yǔ)的平行同聲傳譯的語(yǔ)料庫(kù)。以上兩個(gè)語(yǔ)料庫(kù)是全世界最具有代表性的兩個(gè)大型語(yǔ)料庫(kù),在這兩個(gè)語(yǔ)料庫(kù)的基礎(chǔ)上,世界各個(gè)國(guó)家都開(kāi)始對(duì)自己國(guó)家的語(yǔ)言進(jìn)行研究,得出了一些基于本土文化內(nèi)涵的口譯語(yǔ)料庫(kù)。
我國(guó)開(kāi)始對(duì)口譯語(yǔ)料庫(kù)的重視是在2007年,可以說(shuō),從世界當(dāng)中的口譯語(yǔ)料庫(kù)的發(fā)展情況來(lái)看,我國(guó)的語(yǔ)料庫(kù)研究起步較晚,研究成果不是很全面。但目前依據(jù)我國(guó)的語(yǔ)料庫(kù)研究成果來(lái)看,我國(guó)共有兩個(gè)口譯語(yǔ)料庫(kù),一個(gè)是在2008年由我國(guó)文秋芳教授建立的,名為中國(guó)大學(xué)生英漢漢英口筆語(yǔ)料庫(kù),這是我國(guó)第一個(gè)學(xué)習(xí)者口譯語(yǔ)料庫(kù),但這一語(yǔ)料庫(kù)缺少充足全面的備注,而且對(duì)于我國(guó)文字的研究比較不全面。第二個(gè)是在2010年,由上海交通大學(xué)的胡開(kāi)寶教授主導(dǎo)研究的,研究出的語(yǔ)料庫(kù)為“漢英會(huì)議口譯語(yǔ)料庫(kù)”,這一語(yǔ)料庫(kù)是基于我國(guó)的新聞發(fā)布會(huì)的漢英平行語(yǔ)料庫(kù),新聞發(fā)布會(huì)的英語(yǔ)原創(chuàng)語(yǔ)料庫(kù)和我國(guó)政府的工作報(bào)告的漢英平行語(yǔ)料庫(kù)。經(jīng)過(guò)多年的積累,我國(guó)這一語(yǔ)料庫(kù)已經(jīng)積累了54萬(wàn)字,這比我國(guó)最初的19萬(wàn)字,是一個(gè)巨大的飛躍。
目前,雖然我國(guó)的口譯語(yǔ)料庫(kù)發(fā)展不是很完善,對(duì)其進(jìn)行研究的研究人員也不足,但基于我國(guó)漢語(yǔ)的博大精深,我國(guó)的口譯語(yǔ)料庫(kù)的發(fā)展前途還是很有發(fā)展前途的。我國(guó)要是想對(duì)現(xiàn)有的口譯語(yǔ)料庫(kù)進(jìn)行完善與發(fā)展,就要基于我國(guó)原有的研究成果,從我國(guó)的實(shí)際出發(fā),來(lái)完善我國(guó)的口譯語(yǔ)料庫(kù),培養(yǎng)可以完善我國(guó)口譯語(yǔ)料庫(kù)的研究人員。
利用“口譯語(yǔ)料庫(kù)”對(duì)我國(guó)的發(fā)展情況可以緩解口譯發(fā)展緩慢的學(xué)術(shù)壓力,使國(guó)家節(jié)約對(duì)完善我國(guó)口譯語(yǔ)料庫(kù)的投入成本,避免一些不必要的經(jīng)濟(jì)費(fèi)用浪費(fèi),例如那些購(gòu)買(mǎi)服務(wù)器,購(gòu)買(mǎi)版權(quán),購(gòu)買(mǎi)數(shù)據(jù)和培養(yǎng)研究人員的費(fèi)用都得到了節(jié)約。而且合理利用“口譯語(yǔ)料庫(kù)”可以及時(shí)獲得最新的信息服務(wù)信息和業(yè)務(wù)運(yùn)行法案,解決我國(guó)的口譯發(fā)展進(jìn)程問(wèn)題。
傳統(tǒng)的完善口譯語(yǔ)料庫(kù)需要培養(yǎng)一些關(guān)于口譯研究的人員和完善我國(guó)已有的口譯語(yǔ)料庫(kù)系統(tǒng),其中培養(yǎng)研究人員的費(fèi)用就非常的昂貴,國(guó)家需要投入大量的人力,物力,財(cái)力來(lái)培養(yǎng)這一研究水平極高的研究人員。而“口譯語(yǔ)料庫(kù)”的利用可以在提高我國(guó)的口譯水平的基礎(chǔ)上,是我國(guó)可以充分發(fā)揮自身的戰(zhàn)略措施,最大限度地降低國(guó)家的研究投入費(fèi)用,減少政府開(kāi)支,提高政府的所得研究利潤(rùn)。
“口譯語(yǔ)料庫(kù)”在國(guó)家中的利用可以促進(jìn)我英漢口譯的專(zhuān)業(yè)化管理和規(guī)?;瘮U(kuò)大。我國(guó)國(guó)家對(duì)“口譯語(yǔ)料庫(kù)”進(jìn)行合理利用可以促進(jìn)我國(guó)對(duì)新的語(yǔ)義分析的接受程度,滿(mǎn)足國(guó)家對(duì)英漢口譯語(yǔ)料庫(kù)的需求,降低研究人員對(duì)于“口譯語(yǔ)料庫(kù)”研究的風(fēng)險(xiǎn)與門(mén)檻,使企業(yè)的英漢口譯語(yǔ)料庫(kù)的建設(shè)不斷完善,提高研究人員的研究效率。
國(guó)家對(duì)“口譯語(yǔ)料庫(kù)”這一最具有專(zhuān)業(yè)技術(shù)的學(xué)術(shù)項(xiàng)目進(jìn)行合理的研究,意味著國(guó)家的英漢口譯語(yǔ)料庫(kù)的研究得到了進(jìn)一步的專(zhuān)業(yè)化。“口譯語(yǔ)料庫(kù)”是一個(gè)集中了全國(guó)的人力和精力的最有水準(zhǔn)的研究項(xiàng)目。它可以深化國(guó)家的語(yǔ)言研究規(guī)模,完善國(guó)家的人員培養(yǎng)制度,使國(guó)家的口譯語(yǔ)料庫(kù)管理更加合理,使國(guó)家的語(yǔ)義分析更新速度順應(yīng)時(shí)代的需求。關(guān)注“口譯語(yǔ)料庫(kù)”在我國(guó)語(yǔ)義分析中應(yīng)用的重要性
如今,社會(huì)主義市場(chǎng)經(jīng)濟(jì)不斷地發(fā)展,物質(zhì)生活豐富的同時(shí)人們更加注重傳統(tǒng)文化的傳承。對(duì)傳統(tǒng)文化進(jìn)行傳承使英漢口譯語(yǔ)料庫(kù)必須進(jìn)行合理的應(yīng)用。針對(duì)這種情況。要明確口譯語(yǔ)料庫(kù)在漢英潛在語(yǔ)義中發(fā)揮的重要性進(jìn)行分析,重視口譯語(yǔ)料庫(kù)建設(shè)。能夠充分地發(fā)揮口譯語(yǔ)料庫(kù)的作用。隨著人們對(duì)語(yǔ)言研究不斷地深入,我國(guó)具有高素質(zhì)的居民人口數(shù)量增多,這就導(dǎo)致了國(guó)家對(duì)英漢口譯語(yǔ)料庫(kù)的完善,而“口譯語(yǔ)料庫(kù)”中詞匯的需求數(shù)量也大大增加,我國(guó)就業(yè)人口數(shù)量居高不下,而中小企業(yè)數(shù)量在不斷地增多,發(fā)展我國(guó)的傳統(tǒng)文化可以緩解我國(guó)的就業(yè)壓力,提高人民的生活水平。而如何提高我國(guó)“口譯語(yǔ)料庫(kù)”在的利用效果已經(jīng)非常重要了。目前,由于我國(guó)人口的學(xué)歷在不斷提高,這就使我國(guó)居民的綜合素質(zhì)的認(rèn)知水平得到了很大的提高,而從事研究的口譯語(yǔ)料庫(kù)的研究人員素質(zhì)水平有了很大水平的提高,國(guó)家也希望通過(guò)“口譯語(yǔ)料庫(kù)”這一方式,使我國(guó)的“口譯語(yǔ)料庫(kù)”發(fā)展更加完善。而“口譯語(yǔ)料庫(kù)”是英漢口譯語(yǔ)料庫(kù)管理中最為常見(jiàn)的一種,它在我國(guó)的需求量非常大,我國(guó)對(duì)如何提高“口譯語(yǔ)料庫(kù)”的應(yīng)用非常值得重視,而保障其有效的利用是對(duì)英漢口譯語(yǔ)料庫(kù)管理的手段。因此可以說(shuō)我國(guó)加強(qiáng)對(duì)“口譯語(yǔ)料庫(kù)”的管理應(yīng)用是適應(yīng)社會(huì)發(fā)展與時(shí)代變遷的需要。
電子存儲(chǔ)文本在信息技術(shù)不斷發(fā)展的前提下應(yīng)用越來(lái)越廣泛,在推動(dòng)人們信息傳播的同時(shí)也產(chǎn)生了大量的垃圾信息。在眾多文本中獲取到有用的信息成為存儲(chǔ)的重點(diǎn)建設(shè)項(xiàng)目。對(duì)于中文進(jìn)行深入性的研究可以通過(guò)文本分類(lèi)器獲取到有用的信息。根據(jù)要求提取訓(xùn)練樣本,在相同特征基礎(chǔ)上構(gòu)建分類(lèi)標(biāo)準(zhǔn),通過(guò)文本表現(xiàn)形式驗(yàn)證語(yǔ)料的性能。在統(tǒng)計(jì)基礎(chǔ)上進(jìn)行的傳統(tǒng)文本分類(lèi)方式,主要依據(jù)的是詞頻,并沒(méi)有重視詞序或者詞義的重要性。語(yǔ)義信息能夠使加權(quán)階段的特征方式具有指導(dǎo)作用,并且在這基礎(chǔ)上對(duì)標(biāo)簽數(shù)據(jù)中的訓(xùn)練將會(huì)提升。
語(yǔ)義基礎(chǔ)上的文本分類(lèi)方式與統(tǒng)計(jì)基礎(chǔ)上的分本分類(lèi)方式相比,在形式上更加具有特征性,能夠深入性的挖掘內(nèi)在的含義。因?yàn)檫@一方法需要對(duì)整個(gè)語(yǔ)料庫(kù)的詞匯進(jìn)行確認(rèn),還要計(jì)算出語(yǔ)料庫(kù)中的詞語(yǔ)的出現(xiàn)頻率。通過(guò)這方法,研究人員可得出關(guān)于矩陣的稀疏成度。在語(yǔ)義基礎(chǔ)上的文本提取將會(huì)使文本特征更加的明顯,并且對(duì)加權(quán)步驟提出相應(yīng)的指導(dǎo)意見(jiàn)?!锻x詞語(yǔ)林》在進(jìn)行文本特征分類(lèi)的時(shí)候主要采用的就是在語(yǔ)義基礎(chǔ)上對(duì)文本進(jìn)行的處理。抑郁分析的英豪口譯語(yǔ)料庫(kù)中材料較少,需要配合《同義詞詞林》共同使用。在這之前還沒(méi)有系統(tǒng)的文本處理分類(lèi)方式。完整的語(yǔ)義分析使對(duì)英漢口譯語(yǔ)料庫(kù)進(jìn)行深入性挖掘的重要形式,能夠提升《同義詞語(yǔ)林》的特性,并且消除多義詞,利用同義詞進(jìn)行轉(zhuǎn)換使用,自由的進(jìn)行詞組的搭配使用。對(duì)加權(quán)方式進(jìn)行特征改進(jìn),在傳統(tǒng)加權(quán)方式中沒(méi)有明確的指導(dǎo)作用,不能夠根據(jù)數(shù)據(jù)特性進(jìn)行詳細(xì)的分類(lèi)。這樣就不能夠在根本上反應(yīng)類(lèi)別之間的關(guān)系。利用加權(quán)方式進(jìn)行特征改善,強(qiáng)化指導(dǎo)作用。這種方式的創(chuàng)新能夠提升傳統(tǒng)加權(quán)方式的指導(dǎo)意義。并且充分的考慮整體詞語(yǔ)文本之間的關(guān)系。利用加權(quán)方式進(jìn)行特征指導(dǎo)是對(duì)文本與整體詞之間的綜合考慮。根據(jù)這種特點(diǎn)在經(jīng)過(guò)試驗(yàn)之后在《同義詞語(yǔ)林》中的應(yīng)用將會(huì)降低文本特征維度,使向量更加的明確,能夠在根本上提升文本分類(lèi)精度。
英漢口譯語(yǔ)料庫(kù)中的英語(yǔ)部分從幾何學(xué)的角度可理解為是一種矩陣式結(jié)構(gòu),即“語(yǔ)料-詞匯”。矩陣中的每一個(gè)值都表示檢索詞匯在語(yǔ)料應(yīng)用中的出現(xiàn)頻率,這一頻率是個(gè)比較有規(guī)律的。而從語(yǔ)義空間當(dāng)中來(lái)提取的相似的語(yǔ)料詞匯,是一種對(duì)上下文語(yǔ)境進(jìn)行統(tǒng)計(jì)信息的綜合體現(xiàn),這一方法可以有效地計(jì)算出語(yǔ)料之間的語(yǔ)義相似度。其具體流程為以下幾點(diǎn):
(1)“語(yǔ)料-詞匯”這一M矩陣是通過(guò)對(duì)語(yǔ)料庫(kù)進(jìn)行獲取來(lái)得出的。當(dāng)我國(guó)的語(yǔ)料庫(kù)具有一定規(guī)模之后,這一挖掘方法會(huì)特別耗時(shí),因?yàn)檫@一方法需要對(duì)整個(gè)語(yǔ)料庫(kù)的詞匯進(jìn)行確認(rèn),還要計(jì)算出語(yǔ)料庫(kù)中的詞語(yǔ)的出現(xiàn)頻率。通過(guò)這方法,研究人員可得出關(guān)于矩陣的稀疏成度。
(2)對(duì)“語(yǔ)料-詞匯”這一M矩陣進(jìn)行奇異值分解這樣可以得出關(guān)于語(yǔ)料語(yǔ)義的利用的空間情況和詞匯語(yǔ)義的空間利用情況,通過(guò)對(duì)語(yǔ)料進(jìn)行降序排列,可以得出一些非零的奇異數(shù)值,通過(guò)得出這些數(shù)值,可以更加生動(dòng)形象地了解到我國(guó)英漢口譯語(yǔ)料庫(kù)中語(yǔ)義詞匯的使用情況。
隨著我國(guó)的綜合國(guó)力的不斷提高,我國(guó)的經(jīng)濟(jì)發(fā)展水平和政治改革水平都在不斷地發(fā)展與完善。只有強(qiáng)化經(jīng)濟(jì)基礎(chǔ)才能夠促進(jìn)社會(huì)各個(gè)方面的發(fā)展,我國(guó)政治建設(shè)在經(jīng)濟(jì)不斷鞏固基礎(chǔ)上水平持續(xù)的提升,能夠?qū)⒏嗟年P(guān)注點(diǎn)放在民生問(wèn)題上。中小企業(yè)的建設(shè)是我國(guó)民生問(wèn)題的主要關(guān)注對(duì)象,如何提高我國(guó)的中小企業(yè)的發(fā)展水平,提高中小企業(yè)的競(jìng)爭(zhēng)力,以解決我國(guó)居民的就業(yè)難問(wèn)題,我國(guó)要從實(shí)際情況出發(fā),實(shí)事求是將“口譯語(yǔ)料庫(kù)”再中小企業(yè)中進(jìn)行合理的利用,把企業(yè)的會(huì)計(jì)信息化問(wèn)題進(jìn)行合理的解決。
我國(guó)經(jīng)濟(jì)水平不斷地提升與人們的努力聯(lián)系密切,社會(huì)的持續(xù)進(jìn)步使人與人之間的交流逐步的擴(kuò)大。我國(guó)中小企業(yè)對(duì)“口譯語(yǔ)料庫(kù)”的需求量不斷增加,如何降低中小企業(yè)的財(cái)務(wù)成本,提高企業(yè)的經(jīng)濟(jì)收入,使中小企業(yè)的發(fā)展適應(yīng)我國(guó)經(jīng)濟(jì)發(fā)展水平,社會(huì)進(jìn)步和人們需求。
“口譯語(yǔ)料庫(kù)”可以減少中小企業(yè)對(duì)于會(huì)計(jì)信息化的投資和利用成本,降低中小企業(yè)進(jìn)入信息化,實(shí)現(xiàn)“口譯語(yǔ)料庫(kù)”的門(mén)檻,提升中小企業(yè)的競(jìng)爭(zhēng)力,我國(guó)要結(jié)合以往的國(guó)情,對(duì)中小企業(yè)進(jìn)行合理“口譯語(yǔ)料庫(kù)”模式規(guī)劃,提高中小企業(yè)的信息化水平使我國(guó)的企業(yè)發(fā)展水平與國(guó)際水平接軌,提高我國(guó)的綜合國(guó)力和競(jìng)爭(zhēng)力,使我國(guó)的國(guó)際地位進(jìn)一步提高,世界話(huà)語(yǔ)權(quán)越來(lái)越大。
“口譯語(yǔ)料庫(kù)”的應(yīng)用提高了企業(yè)的競(jìng)爭(zhēng)力,使我國(guó)許多中小企業(yè)的規(guī)模進(jìn)一步擴(kuò)大,相應(yīng)性的增加了就業(yè)崗位數(shù)量,能夠在一定程度上解決人們的就業(yè)問(wèn)題,緩解生活壓力。對(duì)于社會(huì)就業(yè)水平的解決具有很大的促進(jìn)作用。社會(huì)不斷發(fā)展促進(jìn)了經(jīng)濟(jì)建設(shè)水平越來(lái)越高,不斷地滿(mǎn)足人們的基本生活需求。而如何中小企業(yè)的競(jìng)爭(zhēng)力,提高居民就業(yè)水平,增強(qiáng)綜合國(guó)力,使企業(yè)的信息化管理順應(yīng)時(shí)代的需求。此外,居民就業(yè)水平的提高可以提高居民的經(jīng)濟(jì)收入,提高生活水平。
[1]范守義.評(píng)翻譯界五十年之爭(zhēng)(1894- 1948)[J].中國(guó)翻譯,1986(1):2~8.
[2]文秋芳,王金栓.中國(guó)大學(xué)生英漢漢英口筆譯語(yǔ)料庫(kù)[M].北京:外語(yǔ)教學(xué)與研究出版社,2008.
[3]王巖.記者招待會(huì)現(xiàn)場(chǎng)漢英口譯語(yǔ)料庫(kù)的研制與應(yīng)用[J].海外英語(yǔ),2014(17):164~168.
[4]趙巍,王雷.大規(guī)模英漢平行語(yǔ)料庫(kù)的開(kāi)發(fā)與使用性探討[J].牡丹江師范學(xué)院報(bào):哲學(xué)社會(huì)科學(xué)版,2014(4):116~117.
[5]張威.口譯語(yǔ)料庫(kù)的開(kāi)發(fā)與建設(shè):理論與實(shí)踐的若干問(wèn)題[J].中國(guó)翻譯,2009(3):56~61,98.
[6]張威.口譯語(yǔ)料庫(kù)研究的原則與方法[J].外語(yǔ)電化教學(xué),2013(1):65~70.
(作者單位:紅河學(xué)院)
本文系2014年紅河學(xué)院科研基金項(xiàng)目(XJ14Y20):模糊數(shù)學(xué)在翻譯質(zhì)量評(píng)估(TQA)中的參數(shù)參照分析作用研究。
彭杰(1980-),男,云南屏邊人,講師,澳大利亞Macuqarie大學(xué)MTI碩士,研究方向:英語(yǔ)口筆譯理論與實(shí)踐。