高紅梅魏西峰王崧華扎西
(西藏大學(xué)藏文信息技術(shù)研究中心西藏拉薩850000)
語(yǔ)義詞庫(kù)關(guān)聯(lián)的藏文Web語(yǔ)義檢索系統(tǒng)研究與實(shí)現(xiàn)
高紅梅魏西峰王崧華扎西
(西藏大學(xué)藏文信息技術(shù)研究中心西藏拉薩850000)
文章依據(jù)所抓取的大量藏文網(wǎng)頁(yè)URL,對(duì)相關(guān)的藏文信息網(wǎng)頁(yè)進(jìn)行除噪去重處理,得到較為完善的藏文信息庫(kù)。對(duì)用戶要查詢的藏文信息進(jìn)行預(yù)處理和藏文語(yǔ)義標(biāo)注,通過基于本體的詞匯相關(guān)性算法,擴(kuò)展藏文的查詢?cè)~匯,建立一對(duì)多的藏語(yǔ)詞匯聯(lián)系,從而實(shí)現(xiàn)藏文查詢中的相關(guān)性檢索,得到更加符合用戶需求的語(yǔ)義關(guān)聯(lián)網(wǎng)頁(yè)信息。
藏文網(wǎng)頁(yè);信息庫(kù);藏文語(yǔ)義相關(guān);藏文語(yǔ)義擴(kuò)展
艾瑞報(bào)告顯示,2015年第一季度,中國(guó)搜索引擎市場(chǎng)規(guī)模達(dá)到156.4億元,同比增長(zhǎng)34.6%,同比增速較上季度下降10.6個(gè)百分點(diǎn)[1]。雖然移動(dòng)互聯(lián)網(wǎng)發(fā)展如火如荼,但是傳統(tǒng)互聯(lián)網(wǎng)依舊是市場(chǎng)的主流。隨著藏文信息處理技術(shù)的發(fā)展,使用藏文網(wǎng)頁(yè)的人群也越來(lái)越多,覆蓋區(qū)域越來(lái)越廣。Google和微軟等公司都在藏文檢索方面有所研究,但目前還都是基于關(guān)鍵字的搜索應(yīng)用,準(zhǔn)確率與查全率都不盡人意。
目前,國(guó)內(nèi)藏文搜索研究還處于摸索期,海南藏族自治州藏文信息技術(shù)研究中心以青海湖藏漢文網(wǎng)站為平臺(tái),于2013年4月正式啟動(dòng)了藏文搜索引擎系統(tǒng)的開發(fā),但至今仍未投入使用。同時(shí),很多研究機(jī)構(gòu)開始進(jìn)行藏文語(yǔ)義搜索研究。本文通過構(gòu)建語(yǔ)義知識(shí)庫(kù)實(shí)現(xiàn)藏文語(yǔ)義檢索來(lái)完善當(dāng)前藏文檢索方式的不足,使檢索系統(tǒng)能自動(dòng)“聯(lián)想”到與其同義或者近意的詞,提高信息匹配的準(zhǔn)確度,達(dá)到提高檢索系統(tǒng)整體性能的目的。
1.1 藏文分詞
藏文字為拼音文字的印度字體體系,每一組單音節(jié)藏文字符串代表藏語(yǔ)中的一個(gè)音節(jié),每個(gè)音節(jié)代表藏語(yǔ)中的一個(gè)詞或詞素[2],每個(gè)藏語(yǔ)句子由音節(jié)字構(gòu)成,每個(gè)音節(jié)字又由音節(jié)點(diǎn)或其它符號(hào)隔開。目前,西藏大學(xué)、中科院、青海民族大學(xué)等多家高校和研究機(jī)構(gòu)根據(jù)藏文語(yǔ)言文字的特性,進(jìn)行了多種規(guī)則研究和統(tǒng)計(jì)研究,各有側(cè)重點(diǎn),但沒有形成規(guī)模的藏文分詞系統(tǒng)。因此,本文仍采用基于詞典的最大匹配法進(jìn)行分詞。
1.2 藏文網(wǎng)頁(yè)除噪去重
網(wǎng)址庫(kù)抓取的藏文網(wǎng)頁(yè)包含多種噪聲信息,如廣告、版權(quán)、導(dǎo)航條、網(wǎng)站目錄等,可以通過去掉HTML文檔中的修飾標(biāo)簽、去掉網(wǎng)址中包含的“?”、“#”、“=”、“(”等鏈接,或者去掉藏文文本中包含等鏈接的方式去噪。由于下載的網(wǎng)頁(yè)重復(fù)率較高,會(huì)使檢索的網(wǎng)頁(yè)數(shù)據(jù)量異常龐大和冗余,因此還需對(duì)除噪后的網(wǎng)頁(yè)進(jìn)行去重處理。通過對(duì)下載的300多篇藏文網(wǎng)頁(yè)信息進(jìn)行分析后發(fā)現(xiàn),目前網(wǎng)頁(yè)重復(fù)現(xiàn)象主要表現(xiàn)為完全重復(fù)和近似重復(fù)兩種情況。前者稱為鏡像網(wǎng)頁(yè),可用“If URL(P1)≠URL(P2)and Tit le(P1)=Tit le(P2)”語(yǔ)句直觀判斷,如果為真,比較文檔首行和最后一行,若判斷相同放棄;后者用MD5算法為每個(gè)文檔計(jì)算出一組摘要,如果網(wǎng)頁(yè)P(yáng)1和P2計(jì)算出的摘要滿足判定條件,則可判斷網(wǎng)頁(yè)信息內(nèi)容部分重復(fù),不再進(jìn)行保存和處理。
2.1 藏文語(yǔ)義檢索模型
信息檢索是根據(jù)用戶檢索請(qǐng)求,從大量信息源中找出滿足請(qǐng)求的信息,將結(jié)果按照用戶檢索詞的相關(guān)性大小進(jìn)行排序后反饋給用戶。如果對(duì)已經(jīng)存在的大量信息源不做任何處理,檢索效率會(huì)降低。對(duì)文本進(jìn)行預(yù)處理,才能達(dá)到提高檢索效率的目的,使用戶搜索出的信息更加有用。
劃分信息檢索模型一般有3種依據(jù):表示文本和查詢、判斷查詢內(nèi)容與資源相關(guān)以及計(jì)算相似度。信息檢索分為數(shù)據(jù)檢索、全文檢索和語(yǔ)義檢索3種,其中較為常用的是數(shù)據(jù)檢索和全文檢索,而語(yǔ)義檢索難度較大[3]。
本文從文本信息中提取出有用信息文檔是預(yù)處理的目的,根據(jù)領(lǐng)域知識(shí)建立文本的詞匯與概念之間的映射關(guān)系,將非結(jié)構(gòu)化的文本信息與結(jié)構(gòu)化的領(lǐng)域知識(shí)建立關(guān)聯(lián),從而利用結(jié)構(gòu)化的知識(shí)來(lái)協(xié)助檢索非結(jié)構(gòu)化的文本信息,處理過程見圖1。
2.2 藏文文本語(yǔ)義映射構(gòu)建
如圖2所示,將已經(jīng)下載的網(wǎng)頁(yè)信息保存為text文檔格式,分析網(wǎng)頁(yè)并判斷出符合要求的藏文信息,提取出網(wǎng)頁(yè)的鏈接和文檔藏文標(biāo)題,并同時(shí)用“主要內(nèi)容”、“關(guān)鍵詞”、“高頻詞”和其他與文本內(nèi)容有關(guān)的藏文詞匯對(duì)文檔進(jìn)行修飾,建立一對(duì)多的相關(guān)性文檔匹配庫(kù),將文檔直接抽象成藏文詞匯。形成文本內(nèi)容語(yǔ)匯關(guān)聯(lián),生成Web頁(yè)碼入口的索引。
那天,我們一進(jìn)屋,就見炕沿上坐著一位身材苗條,衣著講究,模樣漂亮的姑娘,瞇著好看的大眼睛向我們直笑。霎時(shí),我們就像進(jìn)了老師的辦公室,規(guī)規(guī)矩矩地總想往別人后面站。
圖1 文本處理過程
圖2 藏文索引文檔保存流程圖
2.3 文本語(yǔ)義提取
表1 藏語(yǔ)詞匯關(guān)聯(lián)庫(kù)
表1顯示,通過分析文檔內(nèi)容的藏語(yǔ)特征詞匯,通常為文本標(biāo)題詞匯、關(guān)鍵字、高頻詞和其他補(bǔ)充信息詞匯等,構(gòu)建藏語(yǔ)詞匯與文檔語(yǔ)義之間的映射關(guān)系。實(shí)驗(yàn)對(duì)400多名有藏文搜索體驗(yàn)的用戶進(jìn)行調(diào)查發(fā)現(xiàn),對(duì)檢索結(jié)果中標(biāo)題相關(guān)的關(guān)注率為64.4%、對(duì)關(guān)鍵字的關(guān)注率為40.2%、對(duì)高頻詞的關(guān)注率為32.7%、其補(bǔ)充信息諸如體裁、文體格式等的關(guān)注率為20.9%。給以上數(shù)據(jù)不同的權(quán)重值,使文檔與詞匯有明確的數(shù)量級(jí)關(guān)系,再分析知識(shí)庫(kù)中詞匯的語(yǔ)義,評(píng)價(jià)其是否存在于已經(jīng)抽取的特征詞匯中。若存在,將包含該語(yǔ)義的文檔以及權(quán)值一并標(biāo)在該語(yǔ)義旁,達(dá)到將文檔和知識(shí)庫(kù)關(guān)聯(lián)起來(lái)的目的,即用詞匯表現(xiàn)出文檔隱含的語(yǔ)義信息。表2為圖2中下載保存文檔提取的主題詞、高頻詞、格式和內(nèi)容等詞匯和URL的映射關(guān)系。檢索詞匯時(shí)可以先通過表1拓展查詢范圍,再和表2進(jìn)行關(guān)聯(lián),就可以得到更多的地址值,起到增加查詢范圍的目的。
2.4 語(yǔ)義知識(shí)庫(kù)的構(gòu)建
在檢索中,以某一領(lǐng)域的知識(shí)體系為基礎(chǔ),形成該領(lǐng)域所有知識(shí)的信息庫(kù),對(duì)信息庫(kù)中的信息進(jìn)行邏輯推理和分析,構(gòu)建信息的組織體系和對(duì)文檔進(jìn)行語(yǔ)義標(biāo)注,可以從語(yǔ)義上理解用戶的查詢目的,從而實(shí)
現(xiàn)語(yǔ)義層面的信息檢索[4]。對(duì)藏文文本建立基于概念的索引,本質(zhì)上是在對(duì)藏文文本內(nèi)容特征提取的基礎(chǔ)上生成索引,其目的是要在索引中反映出文本標(biāo)引詞之間的內(nèi)在聯(lián)系?;诟拍畹乃饕绞绞峭ㄟ^將每一個(gè)詞匯庫(kù)內(nèi)的藏文詞匯進(jìn)行語(yǔ)義分析,對(duì)同義詞或近義詞進(jìn)行線性相關(guān)的連接,使藏文詞匯之間產(chǎn)生聯(lián)系,起到“舉一反三”的效果,從而使詞庫(kù)中的藏文詞匯與之前沒有任何聯(lián)系的藏文文本之間建立關(guān)系。如圖3“日喀則”概念實(shí)體舉例中,需要先創(chuàng)建地區(qū)類,其中包括特色旅游、交通方式和所屬縣等,然后再創(chuàng)建日喀則對(duì)象,對(duì)其定義相關(guān)內(nèi)容進(jìn)行使用,實(shí)現(xiàn)對(duì)象實(shí)例化。
表2 URL映射關(guān)系庫(kù)
圖3 語(yǔ)義知識(shí)庫(kù)
圖4為藏文相關(guān)性檢索流程圖,通過對(duì)輸入的檢索詞進(jìn)行分詞處理后,首選先判斷是否有檢索結(jié)果,沒有則改變檢索條件再次進(jìn)行匹配。在有檢索結(jié)果的情況下通過詞匯關(guān)聯(lián)和語(yǔ)義知識(shí)庫(kù)關(guān)聯(lián),把檢索結(jié)果進(jìn)行相似度計(jì)算,最后得出顯示結(jié)果。
3.1 檢索信息詞匯處理
用戶先在已有的檢索界面輸入目標(biāo)藏文檢索詞或語(yǔ)句,然后對(duì)檢索信息進(jìn)行分詞,去掉藏文文本中的虛詞,僅取有實(shí)際意義的詞或詞組。如果條件允許,還可對(duì)文本信息進(jìn)行情感分析。選擇索引項(xiàng),確定可用作索引元素的詞(詞干、詞組),獲得能正確表達(dá)藏文文本內(nèi)容的概念性詞或詞組。如在句子中和是問句中的主要信息,其他均為虛詞,在處理過程中,可以去除這些對(duì)用戶目的無(wú)影響的無(wú)關(guān)因素,留下有實(shí)際意義的藏文詞匯作為查詢?cè)~傳遞給查詢轉(zhuǎn)換模塊。然后在已有的語(yǔ)義表中查找出相應(yīng)的詞匯概念,若藏文詞庫(kù)中找不到的概念詞進(jìn)行保留操作,隨后反饋給用戶,讓用戶及時(shí)調(diào)整檢索策略,重新定義目標(biāo)詞。
圖4 藏文相關(guān)性檢索流程圖
3.2 詞匯關(guān)聯(lián)庫(kù)匹配
3.3 基于語(yǔ)義知識(shí)庫(kù)的藏文語(yǔ)義查詢擴(kuò)展
在普通信息檢索中,經(jīng)常出現(xiàn)由于用戶所選擇的詞和文檔中出現(xiàn)的目標(biāo)詞不匹配或者匹配度不高等問題,導(dǎo)致了檢索效率低下乃至整個(gè)檢索失敗。在藏文信息檢索中,由于藏文網(wǎng)頁(yè)較少,用戶所選藏文詞匯與目標(biāo)藏文詞匯的匹配度更低,甚至?xí)霈F(xiàn)用戶搜索的藏文信息在信息庫(kù)中無(wú)法查詢的現(xiàn)象。在此情況下,查詢擴(kuò)展技術(shù)(QueryExpansionTechnology)在原有查詢技術(shù)的基礎(chǔ)上增加了與用戶輸入的查詢?cè)~相關(guān)聯(lián)的相關(guān)詞,使查詢信息的表達(dá)詞匯更長(zhǎng)、更準(zhǔn)確,這樣可以在一定程度上彌補(bǔ)用戶查詢信息不足的缺陷。藏文查詢擴(kuò)展技術(shù)借助如圖3所示的藏文語(yǔ)義知識(shí)庫(kù)及其推理機(jī)制,對(duì)用戶要查詢的藏文信息進(jìn)行語(yǔ)義層次的不同方向的擴(kuò)展,使檢索系統(tǒng)可以更好地分析出較完整的用戶查詢意圖,清楚用戶的查詢目標(biāo)。這樣將擴(kuò)大檢索信息范圍,用戶更容易找到想要的目標(biāo)信息。
3.4 基于領(lǐng)域知識(shí)庫(kù)的藏文文本相似度計(jì)算方法
在藏文信息檢索的整個(gè)過程中,檢索系統(tǒng)首先要參照領(lǐng)域知識(shí)庫(kù)對(duì)用戶所輸入的藏文查詢信息進(jìn)行預(yù)處理。在對(duì)輸入的藏文查詢信息預(yù)處理后,還要解決用戶查詢信息概念的“多義詞”,基本明確用戶的信息檢索意圖,結(jié)合概念在自然語(yǔ)言領(lǐng)域中的上下文語(yǔ)境,初步得出藏文語(yǔ)義信息。以為例,其近義詞為和通過概念在自然語(yǔ)言中的環(huán)境相似度,對(duì)詞匯與詞匯之間建立聯(lián)系。
但要解決藏文查詢信息中經(jīng)過預(yù)處理抽離出的藏文詞匯中的“多義詞”,對(duì)用戶查詢請(qǐng)求中的關(guān)鍵藏文詞匯進(jìn)行語(yǔ)義擴(kuò)展,仍需要借助藏文詞匯相關(guān)性和相似性的計(jì)算來(lái)處理。藏文語(yǔ)義擴(kuò)展的主要依據(jù)即是藏文詞匯相似性和相關(guān)性,所以提高藏文詞匯間的相似度和相關(guān)度計(jì)算精度,就是藏文語(yǔ)義信息檢索的核心技術(shù)。
本文采用JaccardSimi larity方法計(jì)算文檔相似度。采用兩個(gè)文檔主題詞以及其相關(guān)的同義詞和近義詞集合的交集除以兩個(gè)集合的并集,得到的值即為兩個(gè)集合的相似度。
數(shù)學(xué)表達(dá)式是:s1={主題詞1U標(biāo)題1U關(guān)鍵詞1U其同義詞1U近義詞1}
S2={主題詞2U標(biāo)題2U關(guān)鍵詞2U其同義詞2U近義詞2}
Sim(s1,s2)=|s1∩s2|/|s1U s2
此方法容易實(shí)現(xiàn),計(jì)算結(jié)果按相似度從大到小進(jìn)行排序,最后在用戶界面中顯示出查詢的排序結(jié)果,由用戶自行選擇需要的目標(biāo)結(jié)果。對(duì)匹配結(jié)果的排序并不是無(wú)休止的,對(duì)查詢結(jié)果的顯示進(jìn)行閥值設(shè)定,只需對(duì)閥值以上的結(jié)果進(jìn)行排序即可,閥值以下的目標(biāo)結(jié)果可理解為相關(guān)性極低或無(wú)相關(guān)性,對(duì)其不予處理。
本文給出了一種的藏文語(yǔ)義檢索模式,在用戶對(duì)目標(biāo)信息進(jìn)行描述后,通過對(duì)用戶輸入信息的判斷,將所得處理結(jié)果和領(lǐng)域知識(shí)庫(kù)內(nèi)的藏文詞匯進(jìn)行匹配,并通過相似度計(jì)算,根據(jù)閥值篩選出滿足用戶需求的藏文網(wǎng)頁(yè)鏈接,點(diǎn)擊進(jìn)入目標(biāo)頁(yè)面。與傳統(tǒng)的藏文檢索結(jié)果相比較,運(yùn)用基于概念索引和基于領(lǐng)域知識(shí)庫(kù)查詢的檢索方式的查全率和查準(zhǔn)率均有所提高。
[1]張希,艾瑞:2015Q 1中國(guó)搜索引擎市場(chǎng)規(guī)模156.4億元[EB/OL][2015-11-10].http://report.iresearch.cn/htm l/20150515/ 250202.shtm l.
[2]劉濤,楊秀霞.中國(guó)多民族文字信息處理中的Unicode編程[J].計(jì)算機(jī)工程與設(shè)計(jì),2006(6):2021-2025.
[3]毛會(huì)芳.基于本體的Web語(yǔ)義檢索方法的研究[D].廣州:華南理工大學(xué),2011:7-8.
[4]張健.BIM環(huán)境下基于建設(shè)領(lǐng)域本體的語(yǔ)義檢索研究[D].大連:大連理工大學(xué),2013:6-7.
[5]余傳明.語(yǔ)義檢索的原理及其實(shí)現(xiàn)[J].理論與探索,2007(2):182-183.
Research on Searching Tibetan W eb’Semantic related to Semantic Association Thesaurus
Gao Hong-mei WeiXi-feng Wang Song-hua Zha xi
(Research Centerof Tibetan Information Technology,TibetUniversity,Lhasa 850000,China)
Tibetan information pagewasmanipulated by de-noising and de-duplicating process to obtain an im?proved Tibetan information database based on the a large number of Tibetan web page URL grasped.Semantic tagging and preprocessing was conducted for the querying Tibetan information user wanted and association of one tomany Tibetan vocabularieswas established based on the running the vocabulary correlation algorithm,ex?tending the querying Tibetan words so as to realize the relevance of Tibetan query retrievaland to obtain related semanticweb information in linewith needsofuser.
Tibetanweb page;information library;Tibetan semantic relevancy;Tibetan semantic extension
10.16249/j.cnki.54-1034/c.2015.02.015
TP393.092
A
1005-5738(2015)02-090-06
[責(zé)任編輯:索郎桑姆]
2015-09-17
2014年度西藏大學(xué)國(guó)家級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目“藏文Web語(yǔ)義檢索的研究與實(shí)現(xiàn)”(項(xiàng)目號(hào):201410694018);2013年度國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目子課題“藏文詞法分析系統(tǒng)與輿情監(jiān)測(cè)知識(shí)庫(kù)構(gòu)建”(項(xiàng)目號(hào):61331013);2013年度青年科研培育基金項(xiàng)目“西藏旅游目的地營(yíng)銷系統(tǒng)運(yùn)營(yíng)模式研究”(項(xiàng)目號(hào):ZDPJSK2013080)階段性成果。
高紅梅,女,漢族,四川樂山人,西藏大學(xué)藏文信息技術(shù)研究中心講師,主要研究方向?yàn)檎Z(yǔ)義網(wǎng)。
西藏大學(xué)學(xué)報(bào)(自然科學(xué)版)2015年2期