朱琳 戴玉剛 李艾林 郝大鵬
摘 要: 本文以電子商務為平臺,以藏語和漢語語言特點為基礎,以藏漢雙語可比語料為資源,分析當前自然語言處理技術,把雙語詞典和主題空間模型相結合,搭建藏漢跨語言信息檢索總體框架。為下一步把多語言電子商務、跨語言檢索、民族自然語言處理技術進行結合提供了新的思路和途徑。
關鍵詞:電子商務 跨語言檢索 雙語詞典 主題空間模型
中圖分類號:TP391.3 文獻標識碼:A 文章編號:1003-9082(2016)06-0015-02
一、引言
跨語言信息檢索(Cross Language Information Retrieval,CLIR),就是當用戶用一種語言輸入要檢索的信息時,檢索的信息也可以用另外一種語言進行呈現(xiàn)。它是一種打破語言障礙,涉及語言學、計算機科學、數(shù)學等多門學科知識進行檢索信息的技術[1]。
1973年,G..Salton先生發(fā)表的《Experiments in multilingual information retrieval》,是對這項技術的最早研究。當時所研究的檢索主要是對國際聯(lián)機進行的,另外加上檢索系統(tǒng)不普及等因素,并沒有引起人們的關注。90年代后期,隨著Internet的迅猛發(fā)展, Internet的全球化信息結構引發(fā)了人們對跨語言信息檢索的迫切需要,此時這項檢索技術真正成為了研究熱點[2]。現(xiàn)在,許多公司都把檢索技術應用到電子商務中,比如京東,雅虎,阿里巴巴等,但把跨語言技術應用到電商中卻寥寥無幾,這與民族自然語言的特點與難點有關,由于民族自然語言的特殊性,國外的一些自然語言處理技術研究成果也無法應用到對國內(nèi)民族語言進行處理。而針對藏漢跨語言檢索的研究成果更是甚少,所以把民族語言處理技術、跨語言檢索技術等應用到面向電子商務中愈來愈重要。
二、搭建面向電子商務平臺的藏漢跨語言信息檢索總體框架
用戶輸入查詢語后,如何在查詢語和檢索語之間搭建有效的橋梁樞紐,就是跨語言信息檢索技術研究的最核心最關鍵的問題[3]。本文擬融合字典和語料庫兩種技術來實現(xiàn)跨語言信息檢索模型的研究,從而克服單種方法的不足。本文采用了一種基于翻譯的技術進行CLTR,這種技術的一個顯著特點就是將翻譯過程和檢索過程分離,即:先借助于跨語言的語義資源或者機器翻譯系統(tǒng)將語言內(nèi)容翻譯成目標語言表示的內(nèi)容,然后使用成熟的單語言信息檢索模型進行檢索[4]。其分離的翻譯過程將導致目標語言的語義空間與原始語義空間的語義偏離。為了解決語義偏離問題,本文引入雙語主題模型技術,將目標語言的語義空間與原始語義空間的語義進行相似性計算。
三、構建藏漢可比語料庫
藏漢雙語平行資源嚴重不足或沒有是當前所面臨的嚴峻問題,可比語料具有來源廣、涉及領域全面、內(nèi)容豐富、易獲取等特點。本文擬建立面向跨語言信息檢索的藏漢可比語料庫,同時也可以為藏漢機器翻譯、雙語詞對和術語抽取、構建語義詞典等研究提供基礎資源。主要從兩個方面進行開展:1)從國內(nèi)公開發(fā)布的雙語電商網(wǎng)站搜集藏漢農(nóng)產(chǎn)品雙語語料;2)首先從互聯(lián)網(wǎng)上搜集藏語農(nóng)產(chǎn)品語料,然后進行聚類,識別出相應的主題,然后根據(jù)主題詞,人工翻譯成中文,據(jù)此采集相應的中文農(nóng)產(chǎn)品語料。
本文主要從兩個方面進行考慮:
(1)從支持藏漢雙語的網(wǎng)站上進行采集
①搜集網(wǎng)頁:確定藏漢雙語主題相同的候選網(wǎng)站的平行網(wǎng)頁,設計網(wǎng)頁爬蟲程序自動從這些網(wǎng)站盡可能提取藏漢雙語主題平行的網(wǎng)頁;
②提取網(wǎng)頁內(nèi)容:分析各網(wǎng)站的網(wǎng)頁結構,并過濾非文本內(nèi)容,主要提取網(wǎng)頁的 Title、Body 和Time等內(nèi)容,進行格式轉換,添加標記,最后生成 XML 文件。
③XML 文件預處理:XML 文件進行初步的預處理,包括去除僅有單語言的文件、網(wǎng)頁去重、非法字符過濾等。然后進行一些必要的人工檢查和初的統(tǒng)計。如,刪除每個文件中的圖片標題、錨文本等不相關的文本內(nèi)容;
④文檔對齊:對預處理后的 XML 文件進行文檔自動對齊,對結果進行人工檢查和校對。
⑤文檔類別標注:目的是為了后續(xù)進行跨語言分類分類和聚類的研究,從而建立跨語言文本分類語料庫,先對部分藏漢雙語文檔使用 K-Means 算法聚類分析,確定文檔的類別。使用 SVM 分類模型訓練已標注類別的文檔,然后對未標注的文檔進行類別標注。根據(jù)文檔內(nèi)容進行人工類別標注進行校對和調整。
(2)先從互聯(lián)網(wǎng)上的藏文網(wǎng)站采集有關藏文農(nóng)產(chǎn)品新聞語料,然后對藏文新聞語料進行聚類分類,再找出類別主題詞,將聚類出的所有類別的主題詞翻譯成中文,根據(jù)中文主題詞搜索采集與之對應主題的中文可比語料。具體的可比語料存儲舉例如下所示:
1.雙語相似性主題詞抽取和共現(xiàn)主題詞統(tǒng)計
本文針對文檔主題對偶空間的表示和構建進行重點研究:綜合考慮雙語可比語料庫的語義特性,即通過提取雙語主題對構造主題對偶空間,由此構建詞的語義關系和文檔的語義關系。在信息檢索中,一個主題(或者概念)可以理解為描述該主題的關鍵詞項集合。本質上,除關鍵詞項外的其余詞與主題存在一定的相關性,在建模時賦予關鍵詞更大的權重,而其余詞賦予更小的權重。假如只考慮線性空間的方式,一個主題則表示為所有詞項表的線性組合。
本文通過實驗需設置一個閾值,并從雙語主題中分別找出權重大于的詞項(主題詞),并根據(jù)這些主題詞在文中的位置、上下文關系進行篩選,然后構建雙語主題相關的主題詞對應關系,本文稱之為相似性主題詞。根據(jù)抽取出的雙語主題詞,將其返回到與之對應的篇章結構當中,找出主題詞所在句子中的上下文中的相關詞,構建共現(xiàn)詞網(wǎng)絡。
2.基于藏漢雙語電子詞典的跨語言檢索技術研究
本文采用基于詞典的查詢翻譯策略,把藏漢雙語電子詞典與雙語相似性主題詞對進行結合。對于每個源語查詢項,可以用電子詞典中自動抽取的一種或多種目標語翻譯進行替換[6],獲取相應的正確目標語翻譯知識,這樣就在源語詞典以及目標語詞典之間建立起鏈接,對譯詞在目標語生成過程中就能獲取。另外,為了提高搜索的召回率,在查詢處理策略方面,根據(jù)現(xiàn)代同義詞電子詞典查詢的擴展,再通過詞共現(xiàn)網(wǎng)絡進行消歧。
結語
中國是擁有56個民族語言的大國,把民族自然語言加入到現(xiàn)代科技信息技術中,促進了語言應用領域的拓展和原有應用領域的發(fā)展。本文通過分析研究自然語言處理的相關知識和技術,構建了面向電子商務平臺的藏漢跨語言信息檢索框架。本文研究工作還有很多不足之處,但為多種民族語言信息處理技術應用到其他領域提供了很好的實例和基礎,進而打破語言障礙,增進各民族交流,加快社會經(jīng)濟發(fā)展和民族文化的進步。
參考文獻
[1]王曉偉.基于機器翻譯的查詢結果Rerank技術[D].內(nèi)蒙古大學,2011.
[2]郭宇鋒.跨語言信息檢索在機器人信息數(shù)據(jù)庫中的應用研究[D].上海交通大學,2006.
[3]鞏文婧.基于語言模型的跨漢蒙信息檢索技術研究[D].內(nèi)蒙古大學,2012.
[4]朱培焱,夏棟梁.漢英跨語言信息檢索研究[J].計算機與現(xiàn)代化,2011,08:13-16.
[5]趙耀紅.基于向量空間模型的信息檢索系統(tǒng)的研究與實現(xiàn)[J].長春大學學報(自然科學版),2009,08:25-27.
[6]楊輝,張玥杰,張濤.基于詞典的英漢雙向跨語言檢索方法[J].計算機工程,2009,16:273-277.
作者簡介:朱琳(1990.9-),山東菏澤人,女,碩士研究生,研究方向為智能信息服務系統(tǒng)。