趙俊生,王鑫宇,尹玉潔,張 林
(1.內(nèi)蒙古工業(yè)大學信息工程學院,內(nèi)蒙古 呼和浩特 010080;2.特警學院基礎部,北京 100875)
由于蒙古語的研究持續(xù)深入和對研究成果的普及推廣,蒙古語記載的文字得到了快速網(wǎng)絡化,促使傳統(tǒng)Web向語義Web發(fā)展,導致語義Web的數(shù)據(jù)量迅速增長。語義Web作為當下研究的熱點,在西文和中文領域發(fā)展迅速,但是在少數(shù)民族的語言文字領域卻發(fā)展緩慢。由于蒙古族的文明與文化越來越受到國內(nèi)外的關注,許多機構(gòu)和學者開始對蒙古族文化進行探索和研究。而語言作為文化的載體,在文化的傳承和研究中起著重要的作用。蒙古語是蒙古民族使用的語言,屬于阿爾泰語系,且我國蒙古語的方言較多,主要有中部方言、東北部方言、西部方言,分別是內(nèi)蒙古方言、衛(wèi)拉特方言和巴爾虎布里亞特方言,方言中有不同的讀音和詞法,亟需統(tǒng)一,而畏吾體蒙古文就是各種方言通用的蒙古文。
隨著蒙古文信息檢索技術(shù)的不斷發(fā)展以及Windows對蒙古文的支持,使用蒙古文檢索的用戶越來越多。內(nèi)蒙古地區(qū)各個盟市,已經(jīng)有各自的蒙古語官方新聞網(wǎng)站[1],但是網(wǎng)站數(shù)量多且繁雜,使得蒙古族人民在眾多網(wǎng)站中查找自己需要的內(nèi)容很困難,實現(xiàn)一個可以讓蒙古語使用者使用的新聞領域語義Web檢索系統(tǒng)已成為迫在眉睫的任務。
目前對于蒙古語語義Web的研究也在逐漸開展,文獻[2]構(gòu)建了“人工智能”蒙古語領域本體,實現(xiàn)了蒙古語“人工智能領域”的學習系統(tǒng)。文獻[3]旨在提出一種構(gòu)建蒙古語名詞語義詞典的方法,該詞典收納了使用頻率較高的常用名詞18 000條,翔實描述了每個詞語的各種語義屬性,為多義詞的消歧、同形異義詞的辨別和短語結(jié)構(gòu)關系的判定提供了形式化的語義知識。文獻[4]提出了一種融合主題模型LDA與語言模型的方法,更好地實現(xiàn)了蒙古文文檔的主題語義檢索,提高了檢索的準確性。但是,目前的研究大多都是在單機環(huán)境下實現(xiàn)的,對于分布式環(huán)境下的蒙古語檢索研究還比較少。
本文利用構(gòu)建本體的原則和方法以及本體的相關理論[5 - 11]構(gòu)建蒙古語新聞領域的本體,并將語義Web檢索技術(shù)與分布式計算環(huán)境相結(jié)合,實現(xiàn)對蒙古語的新聞領域信息檢索。分別將系統(tǒng)部署在單機環(huán)境和分布式環(huán)境下,對單機環(huán)境下的查詢響應時間和分布式環(huán)境下的查詢響應時間進行實驗對比,驗證分布式環(huán)境下的檢索優(yōu)勢。該方法的實現(xiàn)可以推動蒙古語信息檢索技術(shù)的發(fā)展,對于蒙古語信息資源共享具有重要意義。
(1)需求分析。
新聞是當下各用戶獲取信息最直接的載體,而近幾年隨著政府對蒙古語推廣力度的加大,蒙古語新聞逐漸增多,蒙古語新聞網(wǎng)站也層出不窮,例如:中國蒙古語新聞網(wǎng)、新華社蒙古文網(wǎng)、人民網(wǎng)蒙古文網(wǎng)、蒙古語央視網(wǎng)和中國蒙古語廣播網(wǎng)等。在內(nèi)蒙古自治區(qū)各個旗縣盟市也陸續(xù)有了新聞媒體、黨政機關和教育機構(gòu)的蒙古語網(wǎng)站。蒙古語網(wǎng)站建設取得了顯著成績,蒙古語資源也呈指數(shù)級增長。但是,從未來發(fā)展的角度來看,對這些網(wǎng)絡資源進行集成處理將是蒙古語網(wǎng)絡建設者亟需解決的新課題。
傳統(tǒng)的基于關鍵字的信息檢索技術(shù)會產(chǎn)生“詞語孤島”問題,這種方法往往存在檢索出的結(jié)果不全、不完整和質(zhì)量不高的問題,從而無法滿足用戶的需求,用戶要在海量數(shù)據(jù)中找到自己需要的信息困難較大。而語義Web信息檢索技術(shù)可有效提高獲取信息的查準率和查全率,減少信息搜索的時間,是滿足用戶檢索需求的好方法。語義Web的技術(shù)核心是領域本體,通過對本體網(wǎng)的語義相似性計算,將關鍵詞進行語義擴展之后再進行檢索,就可以在一定程度上提升檢索的查全率和查準率。新聞領域本體與實例的數(shù)據(jù)量龐雜,容量可達TB級別,而 Hadoop的分布式計算環(huán)境可以方便地解決大數(shù)據(jù)量的存儲與運算問題,所以將新聞領域本體與分布式系統(tǒng)結(jié)合,實現(xiàn)蒙古語語義Web信息檢索是必然的解決方案。
(2)本體構(gòu)建方法。
目前為止,本體構(gòu)建仍沒有統(tǒng)一的標準,在構(gòu)建領域本體的過程中,還是需要有領域?qū)<业膮⑴c和協(xié)同工作,即需要人工構(gòu)建本體。對于研究人員或者用戶來說,構(gòu)建本體的方法有很多種,沒有特定的方法去建立本體,且不同領域的本體語義不相同。對于任意一個學科領域,應針對學科領域的特點和需求來選擇某一種適合的方法。本文選擇七步法結(jié)合骨架法來構(gòu)建蒙古語新聞領域本體,采用Protégé應用軟件和支持蒙古語的OWL(Web Ontology Language)網(wǎng)絡本體描述語言來具體實現(xiàn)本體的建立。
(1)蒙古語言的特點。
蒙古語在語音、詞匯和語法上與漢語有較大的區(qū)別。蒙古語將音節(jié)分為元音和輔音2部分,是根據(jù)音素本身的性質(zhì)分析的。蒙古語沒有字的單位,主要以多音節(jié)詞為主,詞匯一般分為詞根和詞綴2部分,詞根由1個或2個音節(jié)構(gòu)成,詞綴僅含有一種意義,屬于實詞的一般分為靜詞類和不變詞類。蒙古語的語法是主語-賓語-謂語的句式,與漢語剛好相反。相同的是蒙古語也有同義詞、多義詞、同形異義詞、同義異形詞、近義詞、上位詞和下位詞等。蒙古語的這些特點是分析蒙古語新聞領域本體概念間的語義關系和層次結(jié)構(gòu)的依據(jù)和基礎。
(2)領域本體概念之間的關系及層次結(jié)構(gòu)。
Figure 1 One level concept structure of news ontology
Figure 2 Structure chart of ontology concept under economics concept
Figure 3 Structure chart of ontology concept under politics concept
Figure 4 Structure chart of ontology concept under society concept
Figure 5 Structure chart of ontology concept under culture concept
Figure 6 Structure chart of ontology concept under education concept
按照類之間的關系及關聯(lián)性,依次自上而下、從左到右構(gòu)建本體的2級、3級、4級、5級和6級概念,共計包含了137個領域概念類,形成了完整的蒙古語新聞領域本體結(jié)構(gòu)。本體中各節(jié)點序號對應的概念信息如表1所示。
Table 1 Mongolian news domain ontology
本文選擇的本體構(gòu)建工具是Protégé,它是基于Java語言開發(fā)的知識獲取本體和本體編輯軟件,也是基于知識的編輯器,屬于開放源代碼軟件,主要用來構(gòu)建語義Web中的本體。Protégé為開發(fā)人員提供了定義本體概念的功能,開發(fā)人員也可以定義本體之間的關系、屬性和實例。因為該軟件屏蔽了具體的本體描述語言,開發(fā)人員不會看到概念層次以下的結(jié)構(gòu),只需在概念層次上構(gòu)建領域本體模型。
本文選擇OWL語言實現(xiàn)本體數(shù)據(jù)的描述,OWL是RDFS(Resource Description Framework Schema)的一個擴展,OWL具有靈活快速的數(shù)據(jù)建模能力,并且可以進行高效的自動推理。OWL可以描述類、屬性、個體和公理等類型的數(shù)據(jù),本體模型中的概念在OWL中被描述成類,類中包含屬性和實例對象。RDFS是基于RDF(Resource Description Framework)提出的,RDFS包括了類(rdfs:Class)、屬性(rdfs:Property)、子類(rdfs:subClassOf)、子類屬性(rdfs:PropertyOf)、定義域(rdfs:domain)和值域(rdfs:range)等。RDF本質(zhì)是一個數(shù)據(jù)模型DM(Data Model),用三元組(s,p,o)來表示數(shù)據(jù),其中,s、p和o分別代表主語(subject)、謂語(predicate)和賓語(object)。主語和謂語確定唯一的URI資源,賓語可以是資源或文字。RDF提供了處理元數(shù)據(jù)的基礎設施和互操作標準,從而使計算機可以理解元數(shù)據(jù)的精確含義。RDF可使用自己的詞匯表描述任何資源,并使計算機理解我們描述資源所使用的詞匯表,自動便捷地處理Web上的各種資源,使得語義搜索更加準確和智能,解決了搜索引擎中返回無關數(shù)據(jù)的情況。下面是一個RDF/XML的展示。
〈rdf:RDF
xmlns:rdf="http://www.w3.org/2000/01/rdf-schema#"
xmlns:cd="http://www.semanticweb.org/chen/ontologies/2019/2/12/biye#"〉
〈rdf:Description
〈cd:from〉CCTV〈/cd:from〉
〈cd:time〉 2019/6/11 11:03 〈/cd:time〉
〈/rdf:Description〉
〈/rdf:RDF〉
其中,rdf:RDF定義了RDF文檔根元素;xmlns:rdf定義了命名空間,規(guī)定了帶有前綴rdf 的元素來自的命名空間;rdf:Description包含了被 rdf:about屬性標識的資源描述;rdf:about定義了唯一標識的一個資源,剩下的就是資源的屬性。
定義好類和類屬性以及類之間的關系后,要為每一個類創(chuàng)建實例。應用網(wǎng)絡爬蟲從蒙古語新聞網(wǎng)站爬取的大量新聞數(shù)據(jù)已存入MySQL數(shù)據(jù)庫中,在數(shù)據(jù)表中的各個字段對應本體的各個數(shù)據(jù)屬性,存儲的每條記錄對應本體類的一個實例。Jena是一個開源的基于Java的語義Web工具包,可以處理基于RDF的本體數(shù)據(jù),為OWL和RDFS 提供不同的接口支持,并支持MySQL的數(shù)據(jù)存儲及存取訪問。本文使用Jena API將MySQL表的一條記錄創(chuàng)建為本體的一個實例,并分配唯一的標識符,然后將MySQL表的字段值轉(zhuǎn)換為本體類的相應數(shù)據(jù)屬性值,用記錄的外鍵索引來創(chuàng)建本體實例之間的關系,從而實現(xiàn)了由數(shù)據(jù)庫為本體類創(chuàng)建實例的過程[7]。
蒙古語新聞領域本體可依據(jù)概念定義的明確性、客觀性、完整性、一致性、最大單向可擴展性和最少約束等規(guī)則來進行定性評價[10],評價合格則完成本體構(gòu)建,評價不合格則重新獲取概念,并修改類間關系及層次結(jié)構(gòu),依照本體的構(gòu)建步驟進行修改和完善,直到本體進化合格為止。
語義相似度是衡量詞語之間關系的一個重要指標,也是語義Web中最重要的一部分。國內(nèi)學者朱征宇等[12]給出的定義是幾個詞語或詞語之間可能替代或相互交換的程度。通過語義相似度的計算結(jié)果實現(xiàn)隱藏概念的擴充和語義的擴展,利于檢索關鍵詞的語義解析和檢索范圍的擴大,從而提高檢索的查全率和查準率[12-14]。
首先依據(jù)本體的層次結(jié)構(gòu),從頂級概念開始,依自上而下、從左到右的次序賦予每個概念節(jié)點的id序號為1,2,3,…。在本體層次結(jié)構(gòu)中用路徑長度和概念之間的深度差來表示概念之間的語義距離。概念之間的語義距離和語義相似度成反比,當2個概念之間有較大的語義距離時,它們的相似度較低;相反,則它們的相似度較高。語義距離與路徑長度和深度有關,用Distance(a,b)表示在本體中概念a到達概念b中所需要的最少的邊數(shù)。Depth(a,b)表示概念a與概念b的深度差,計算深度值又與自身深度和共有祖先深度有關,2個概念深度差越大,說明2個概念距離越遠,語義相似度越低;反之,語義相似度較高。用式(1)表示為:
(1)
其中,d(NCA(a,b))代表共同祖先深度,d(a)代表概念a的深度,d(b)代表概念b的深度。
令根節(jié)點新聞的深度為1,則4層本體結(jié)構(gòu)的概念深度最大為5。任意2個概念a和b之間的語義距離Distance(a,b)應介于0~2*Depth(T),Depth(T)是樹的最大深度。再考慮到距離和深度的關系應是同增同減,那么基于距離深度的概念語義相似度計算如式(2)所示為:
(2)
其中,Simdistance(a,b)∈[0,1]。
在本體層次結(jié)構(gòu)中,對于父節(jié)點來說,它的每一個概念子節(jié)點都是對其概念的細化和具體化,所以可以通過比較概念之間所包含的信息量和公共祖先概念節(jié)點的信息量來衡量概念之間的相似度。信息量的計算方式如式(3)所示:
IC(c)=-lbP
(3)
其中P代表概念節(jié)點c出現(xiàn)的概率,用概率來表示概念的信息量。概率P的計算如式(4)所示:
(4)
其中,countleaves是葉子節(jié)點的個數(shù)。當p為葉子節(jié)點時,p出現(xiàn)的概率就是總?cè)~子節(jié)點數(shù)的倒數(shù);當p為非葉子節(jié)點時,p出現(xiàn)的概率就是p的子節(jié)點出現(xiàn)的概率之和。其中C(p)是p節(jié)點的子節(jié)點個數(shù),ci是p節(jié)點的第i個子節(jié)點,而P(ci)是ci出現(xiàn)的概率。
根據(jù)分析可知,概念a和b信息量的相似度也取決于最近共同祖先節(jié)點的信息量,所以本文基于內(nèi)容的語義相似度計算方式如式(5)所示:
(5)
其中,σ是平衡因子,以確保分子不為0。經(jīng)過實驗得知,平衡因子取0.5時,語義相似度計算的結(jié)果與主觀判斷的結(jié)果相符度高。
語義重合度是指概念擁有相同的祖先節(jié)點的個數(shù),相同祖先節(jié)點越少,表明它們不在一個分支,則相似度越低;反之,語義相似度越高。而語義密度是指概念所擁有的子節(jié)點的個數(shù)。在本體層次中不同分支節(jié)點擁有的子節(jié)點的數(shù)量不同。如果在本體中,某一概念的節(jié)點密度越大,說明對該節(jié)點概念的具體化、細化程度越高,語義相似度越高?;谡Z義重合和語義密度的語義相似度計算如式(6)所示:
Simpro(a,b)=
(6)
其中,Count(a∩b)代表概念a與b的共同父節(jié)點數(shù);Density(a∩b)代表概念a與b的共同子節(jié)點數(shù);Count(T)則是整棵樹的父節(jié)點數(shù);Densitymax(T)則是整棵樹密度最大的節(jié)點數(shù),也就是擁有子節(jié)點數(shù)最大的那個概念的子節(jié)點數(shù)。
本文采用混合式語義相似度計算方式,根據(jù)實際情況進行混合,同時考慮了概念詞的位置信息、概念詞的信息量和概念詞的密度等,如式(7)所示:
Sim(a,b)=α*Simdistance(a,b)+
β*Simic (a,b)+γ*Simpro(a,b)
(7)
因為每一個因素對語義相似度的影響不同,所以所占的比例也不同,故要對α、β、γ這3個參數(shù)的值進行實驗確定。已知α+β+γ=1 ,用函數(shù)生成隨機的60組滿足條件的α、β、γ。通過實驗得到,當α=0.35,β=0.2,γ=0.45時,既可以表達出父子節(jié)點的關系,也可以看出距離、信息量和語義密度以及重合度對語義相似度的影響。
表2中給出了4種語義相似度計算方法的實驗結(jié)果。
Table 2 Comparison of experimental results of four semantic similarity calculation methods
首先看基于距離的語義相似度,本體概念1與本體概念2、本體概念3、本體概念4、本體概念5是兄弟關系,根據(jù)距離與深度計算的結(jié)果都是0.25,因為本體概念2含有的子節(jié)點比較多,所以說本體概念1和本體概念2的相似度應該比其他兄弟本體概念的語義相似度高;再看基于信息量的計算結(jié)果,當2個本體概念所包含的子節(jié)點個數(shù)相同但處于不同的分支時,比如本體概念1和本體概念9,本體概念1和本體概念39,它們基于信息量的語義相似度一樣,所以該方法沒有辦法考慮到位置信息;本體概念7和本體概念8均是本體概念1的子節(jié)點,本體概念11~13是本體概念1兄弟節(jié)點的子節(jié)點,而根據(jù)語義重合度的計算結(jié)果,無法判斷哪個本體概念是兄弟節(jié)點,哪個本體概念是兄弟節(jié)點的子節(jié)點,所以也不適用于本文的本體。
經(jīng)過對表2的分析,把數(shù)據(jù)結(jié)果大于0.5的本體概念取出,認為本體概念b和a相似。由實驗結(jié)果得出,基于語義距離深度的語義相似度計算方法簡單,易于實施,但是不能很好地體現(xiàn)節(jié)點密度和節(jié)點信息量之間的關系。基于信息量的語義相似度計算相對比較客觀,能綜合反映本體概念之間的相似性和差異,但是又不能完全分辨2個本體概念的位置信息?;谡Z義重合和語義密度的語義相似度計算必須依靠具有完備概念的概念集,本體概念語義重合和語義密度越大語義相似度越高,但不能反映概念節(jié)點距離和信息量之間的差異。
混合式的計算方法是將前3種計算方法混合起來,并且把每一個因素按照不同占比相加,最后所得出的語義相似度結(jié)果比單一因素的語義相似度結(jié)果更加準確。所以,本文采用混合式的語義相似度計算方法來對查詢關鍵詞進行語義擴展,然后在已經(jīng)標記索引的本體實例庫中進行搜索,從而得到所需的查詢結(jié)果,最終充分提高檢索的查全率和查準率。
將蒙古語新聞領域本體作為底層的知識組織基礎,利用本體良好的概念層次結(jié)構(gòu)和語義關系對用戶查詢請求進行規(guī)范化預處理和查詢擴展,該模型主要由蒙古語新聞領域本體、用戶界面模塊、語義擴展模塊、索引模塊和Web信息管理庫組成,如圖7所示,只有Web信息管理庫在本地。
Figure 7 Model of Mongolian news domain retrieval system in distributed environment
本系統(tǒng)是基于Hadoop平臺而設計的,Hadoop提供了基礎的功能服務,因此要對Hadoop分布式平臺進行規(guī)劃和部署[15,16]。系統(tǒng)將使用3個節(jié)點,其中1個是master節(jié)點,其余2個為sla- ver節(jié)點。部署3臺虛擬機系統(tǒng)為Ubuntu14.04版本,先部署Hadoop,再部署HBase(Hadoop Database),并使用HBase自帶的ZooKeeper。因Hadoop和HBase版本要對應,所以本文使用的是Hadoop-2.7.3、HBase-1.2.4、Sqoop-1.4.7。機器名稱和分配的地址如表3所示。
Table 3 Machine name and assigned address
HBase是構(gòu)建在HDFS(Hadoop Distributed File System)之上的分布式、面向列的數(shù)據(jù)庫,HBase表由行和列組成,列分為若干個列族,行和列的坐標交叉決定了一個單元格,一個單元格需要根據(jù)行鍵、列族、列限定符和時間戳來確定,單元格中的數(shù)據(jù)都是字符串,沒有類型。每個表的每一行都有一個可以排序的主鍵RowKey和任意多的列組成,列可以根據(jù)需要動態(tài)增加,同一個表中不同的行可以有截然不同的列。一個表可以有上億行,上百萬列,故能進行海量存儲。HBase表是稀疏的,當表中某單元格沒有數(shù)據(jù)時,該單元格將不會占用存儲空間,因此減少了需要的存儲量。由于HBase表由若干行組成,每行有一個行鍵RowKey作為這一行的唯一標識,則有如下3種方式訪問表中的行:第1種是通過單個RowKey進行查詢;第2種是通過RowKey的一個區(qū)間來訪問;第3種是全表掃描。依上所述,RowKey是HBase表結(jié)構(gòu)設計中重要的環(huán)節(jié),其設計的好壞直接影響程序和HBase交互的效率和數(shù)據(jù)存儲的性能[17,18]。在單機實驗中,已將數(shù)據(jù)保存到了MySQL中,現(xiàn)在將借用Sqoop來將MySQL的數(shù)據(jù)存入HBase。根據(jù)上述考慮,將設計3個表,分別是:alldb表、idx表和sim表。alldb表存儲的是所有本體的實例,idx表存儲的是所有索引,sim表存儲的是語義相似度的計算結(jié)果。
在alldb表中RowKey是本體的id,列名分別是f1、f2、f3。在f1列下存儲實例的新聞鏈接(link)、新聞標題(top)和新聞內(nèi)容(text);f2列下存儲新聞的來源(from)和新聞的作者(author);f3列下存儲新聞發(fā)布的時間(time)和新聞的id(num)。sim表中RowKey是本體概念的id,列名分別是f1、f2。在f1列下存儲蒙古語本體概念(ont)和其中文含義(chn),f2列下存儲每個蒙古語本體概念(1,2,3,…137)的語義相似度計算結(jié)果。idx表中RowKey是蒙古語本體概念(ont),列名分別是f1、f2。f1列下存儲本體概念的id和索引(idx),f2列下存儲中文含義(chn)。
本系統(tǒng)采用B/S結(jié)構(gòu),用Sqoop來進行批量數(shù)據(jù)傳輸。Sqoop可以分割數(shù)據(jù)集并創(chuàng)建MapReduce任務來處理每個區(qū)塊的任務,可以將一個關系型數(shù)據(jù)庫(例如:MySQL、Oracle、Postgres等)中的數(shù)據(jù)導入Hadoop的HDFS、HBase和Hive中,也可以將HDFS的數(shù)據(jù)導入關系型數(shù)據(jù)庫中[19]。Sqoop底層用MapReduce程序?qū)崿F(xiàn)抽取、轉(zhuǎn)換和加載,本體數(shù)據(jù)的檢索過程由MapReduce算法完成。與傳統(tǒng)的ETL(Extract Transform Load)工具(如:Kettle等)相比,Sqoop中由于MapReduce的特性保證了并行化和高容錯率。Sqoop的MapReduce任務在Hadoop集群上運行,減少了ETL服務器資源的使用。在特定情況下,抽取過程會有很大的性能提升。如果要使用Sqoop,因MapReduce任務的啟動依賴于本地的Hadoop,所以必須在PC上正確地安裝并配置Hadoop,MySQL數(shù)據(jù)庫的JDBC(Java Data Base Connectivity)驅(qū)動也要放到Sqoop的lib目錄下。
Figure 8 Query results
當用戶把查詢詞提交到檢索系統(tǒng)后,系統(tǒng)首先進行語義的擴展,在idx表中得到與查詢詞語義相似度大于0.5的本體id,然后在實例庫表alldb中將本體id中的新聞實例取出,返回給查詢結(jié)果顯示模塊。
本文通過對比單機環(huán)境和分布式環(huán)境下單用戶和多用戶的查詢響應時間來反映查詢效率。
(1)單機環(huán)境下的實驗結(jié)果分析。
隨機選擇10個概念作為響應時間實驗的對象。同時訪問MySQL數(shù)據(jù)庫進行檢索操作,得到的結(jié)果如圖9中單機環(huán)境下的單用戶和多用戶查詢響應時間曲線所示。
由圖9可以看出,單機環(huán)境下單用戶查詢不同關鍵詞的響應時間普遍在30~35 s,對于用戶來說這個檢索時間就很長了,如果同時有10個用戶訪問服務器進行查詢,那么查詢響應時間普遍在148~236 s,這對于當下的使用環(huán)境,用戶體驗是極其不友好的。
(2)分布式環(huán)境下的實驗結(jié)果分析。
將單機環(huán)境下所選擇的10個關鍵詞同樣用到Hadoop上做實驗[20,21],得到的結(jié)果如圖9中分布式環(huán)境下的單用戶和多用戶查詢響應時間曲線所示。
由圖9可以看出,在分布式環(huán)境下查詢不同關鍵詞的響應時間普遍在5~15 s左右,相比較單機環(huán)境檢索的響應時間有所下降,如果同時有10個用戶訪問服務器進行查詢,那么查詢響應時間普遍在60~70 s。
(3)單機和分布式環(huán)境下的響應時間對比分析。
由圖9可知,單機環(huán)境下查詢處理的時間是分布式環(huán)境下的處理時間的2~3倍,分布式環(huán)境下多用戶的查詢響應時間大幅度縮短,隨著并發(fā)用戶數(shù)的大幅增加,減少的幅度會更加明顯,差距會越來越大。所以,本文將大量的數(shù)據(jù)放在分布式環(huán)境下來縮短檢索的響應時間是可行的。
Figure 9 Comparison of query response time between single machine environment and distributed environment
本文采用查全率和查準率相結(jié)合的綜合評價指標F值來對蒙古語新聞檢索系統(tǒng)的傳統(tǒng)檢索法和基于距離、信息量、語義重合和密度及混合語義相似度的檢索方法作出評價,客觀地反映混合語義相似度檢索方法的優(yōu)勢和穩(wěn)定性。
因為查全率和查準率有時會出現(xiàn)矛盾的情況,所以需要綜合考慮查全率和查準率。本文中查準率P(Precision)是檢索出的相關信息量與檢索出的信息總量的百分比。而查全率R(Recall)是檢索出的相關信息量與檢索系統(tǒng)中相關信息總量的百分比。通常采用綜合了查全率R和查準率P的評價指標F值,如式(8)所示。
(8)
F綜合了P和R的結(jié)果,當F較高時,說明本文提出的方法比較有效。選擇5.1節(jié)中的10個概念進行實驗,分別計算不同語義相似度檢索方法下檢索的查全率R、查準率P和綜合評價指標F,得到的F值比較結(jié)果如圖10所示。
Figure 10 Comparison of retrieval evaluation index F of different semantic similarity calculation methods
由圖10實驗結(jié)果得出,傳統(tǒng)檢索方法的綜合評價指標F值平均為21.5%,普遍低于語義Web的。而基于距離的語義相似度檢索方法的F值平均為68.2%,基于信息量的語義相似度檢索方法的F值平均為70.1%,基于語義重合和密度的語義相似度檢索方法的F值平均為68.6%,以上3種檢索方法的綜合評價指標基本相當。本文改進的基于混合語義相似度檢索方法的F值平均為81.3%,綜合評價指標得到了較大的提升,從而表明混合語義相似度檢索方法有效地提高了關鍵詞查詢的查全率和查準率。從圖10可看出,混合語義相似度檢索的綜合評價指標的穩(wěn)定性也明顯好于其他方法的,沒有出現(xiàn)太大的波動,并且普遍高于其他語義相似度的檢索方法,所以本文改進的混合語義相似度檢索方法提升了蒙古語新聞領域信息檢索的查全率和查準率。
面對日益增長的蒙古語數(shù)據(jù)量和新聞網(wǎng)站,如果能快速、準確、全面地獲取到需要的蒙古語新聞網(wǎng)絡信息資源,就能很好地滿足蒙古族人民在新聞領域中對信息檢索的大量需求,滿足對蒙古族文化傳播和信息共享的需要。本文在建立蒙古語新聞領域本體的基礎上,研究合適的混合式語義相似度計算方法進行語義擴展,分別研究和實現(xiàn)了單機環(huán)境下和分布式環(huán)境下的蒙古語新聞領域語義Web信息檢索系統(tǒng)。系統(tǒng)性能分析結(jié)果表明,在支持大規(guī)模本體數(shù)據(jù)存儲擴展的同時,分布式環(huán)境下的查詢響應時間遠少于單機環(huán)境下的查詢響應時間,有效提高了蒙古語新聞的檢索速度,同時也提高了蒙古語新聞關鍵詞查詢的查全率和查準率。