亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于情境的語義索引方法*

        2014-09-13 12:35:16徐守坤
        計算機工程與科學 2014年8期
        關鍵詞:關鍵字本體文檔

        石 林,馬 慰,祁 君,徐守坤

        (常州大學信息科學與工程學院,江蘇 常州 213164)

        一種基于情境的語義索引方法*

        石 林,馬 慰,祁 君,徐守坤

        (常州大學信息科學與工程學院,江蘇 常州 213164)

        搜索引擎中的索引方法是目前研究的活躍領域之一。為了解決基于關鍵字索引方法中由同義詞和多義詞帶來的語義混淆與分歧問題,在已有的研究基礎上,提出了一種語義索引方法。通過使用本體對索引中情境信息的細化來控制檢索的范圍,應用概念匹配的方式保證了檢索結果相關程度并減少了漏檢程度,同時給出了結果排序方法;利用該索引方法檢索在精準程度方面有明顯提高。實驗表明,該方法提高了檢索的查準率和查全率,排序具有較好的效果。

        情境;語義索引;本體;概念匹配

        1 引言

        網(wǎng)絡信息的數(shù)量和復雜性正在急劇增加。當前的搜索引擎大部分依靠基于關鍵字(Keyword-based)的索引進行檢索,這種傳統(tǒng)的索引方法用途廣泛,具有較好的效率。但是,信息資源中有許多同義詞和多義詞,造成計算機無法理解其語義,使得用戶獲取的信息價值不斷下降。因此,能夠語義化處理數(shù)據(jù)的工具與技術此刻顯得愈加重要。

        搜索引擎的索引工作可以看作是一個Web內容挖掘過程[1]。如果索引的建立僅考慮以關鍵字匹配為核心來檢索,那么就會出現(xiàn)信息資源真實語義信息的流失。基于關鍵字的索引方法現(xiàn)在主要面臨這樣的問題:多義和同義概念帶來的意義混淆與分歧,也稱為“詞典問題”[2]。為此,不少學者提出了一些基于上下文情境(Context-based)的索引方法,這種方法以情境為核心,優(yōu)先考慮用戶查詢可能涉及到的情境或領域,根據(jù)不同的上下文情境建立對應的索引。如此,索引工作的重心從篩選合適的關鍵字轉移到了被檢索資源的情境上。情境提供了額外的信息,有利于識別用戶查詢主要意圖,從而提高檢索結果相關性。

        Gupta P和Sharma A K曾提出了一種基于情境的索引方法[1],但是該索引中對情境信息的范圍未能較好規(guī)劃,同時還存在同義概念漏檢的現(xiàn)象。針對這些問題,本文在Gupta P和Sharma A K的研究基礎上提出了一種基于情境的語義索引方法,利用現(xiàn)有的本體資源對Web文檔進行處理,將索引項內容與其情境結合,以情境為切入點構建索引,進一步細化了情境信息,把基于關鍵字的匹配方式修改為基于概念的匹配方式,用以實現(xiàn)語義索引,最后組織仿真實驗進行了驗證。

        Figure 1 Architecture of index implementation圖1 索引實施框架

        2 相關工作

        研究人員在基于關鍵字索引方法中植入了知識層面的解決方案,提出過多種方法應對“信息泛濫而知識缺乏”[2]的現(xiàn)象。其中,Lawrence S[3]較早總結了情境信息對下一代搜索引擎的重要性與可能面臨的問題。K?hler J等[4]研究了一種基于本體的文本索引方式的搜索引擎構建方案。該方案包含了本體間相同概念的映射方法及文本信息與本體概念的映射方法。但是,該研究主要是對傳統(tǒng)的索引進行改善,通過關鍵詞對本體概念的可映射程度對文檔執(zhí)行語義標注,再對原索引進行消歧處理。這種以數(shù)值計算區(qū)分同義詞的方式較依賴閾值界定,處理語義模糊問題不夠徹底。Gupta P和Sharma A K[1]提出了普遍適用的基于情境的索引方法及其系統(tǒng)框架,但其研究僅描述了一個開端,并未考慮到同情境下的語義模糊情況。Jonquet C等[5]開發(fā)了Resource Index,該索引整合了來自世界各地不同組織不同平臺不同格式的超過200個有效的生物醫(yī)學領域的本體及類似資源,利用本體對資源進行語義標注,為科學家提供了統(tǒng)一的快捷訪問平臺。但是,該研究的成本較高,需要具有一定規(guī)模的生物醫(yī)藥資源庫和大量權威發(fā)布的生物醫(yī)藥本體作為基礎。劉莉等[6]利用數(shù)據(jù)空間中數(shù)據(jù)之間的關系,抽取有關數(shù)據(jù)組成基本信息單元,建立了基于基本信息單元的索引;與本文方法的區(qū)別在于其依舊執(zhí)行了基于關鍵字匹配,但直接檢索得到的是基本信息單元,通過處理基本信息單元獲取相關信息,而本文優(yōu)先對關鍵字進行處理,使檢索變?yōu)榛诟拍畹钠ヅ?,結果直接得到文檔;相較而言,建立基本信息單元工藝復雜,可行性上本文的方法更易于實現(xiàn)。Kara S等[7]在傳統(tǒng)基于關鍵字檢索方式的基礎上運用本體等語義技術,以足球賽事為背景提出了一種基于關鍵字的語義檢索方式。該方式包括一種特殊索引,充分利用了本體描述能力和推理特性,能夠發(fā)掘潛在的知識。該方法針對一些具有特定特征的領域效果很好,例如體育賽事等大部分信息可用主體謂詞客體描述的領域,但在其他領域方面表現(xiàn)未必出色。由此可見,研究人員試圖通過各種方式在各個領域實現(xiàn)語義化的索引。

        3 索引的運作方案

        3.1 實施框架

        Web搜索引擎的工作總體分為三個步驟:搜集信息、索引和接受查詢[8]。根據(jù)Gupta P和Sharma A K的方案[1],基于情境的索引的實施框架如圖1所示。其中主要組成部分的說明如下:

        (1)網(wǎng)頁存儲庫(Repository of web pages)。這是一個用來存儲由爬行器(Web crawler)搜集的Web文檔的數(shù)據(jù)庫,其中Web文檔經(jīng)壓縮后存儲。

        (2)索引器(Indexer)。索引器在爬行器搜集了Web文檔后為這些文檔創(chuàng)建基于關鍵字的基本索引,索引中包括必要的關鍵字字段、包含對應關鍵字的文檔號字段和其他一些基本信息的字段。

        (3)文檔預處理(Preprocessing of the documents)。對文檔進行預處理,將文檔內容詞干化(Stemming),去除沒有語義的詞,例如介詞、冠詞和一些無用詞等。

        (4)可能情境的識別(Recognizing potential contexts)。用于識別文檔可能對應的全部情境(具體識別過程在3.2節(jié)中描述),包含了兩個重要部件,第一個是來自網(wǎng)絡的詞典Thesaurus(Thesaurus.com),可以用來查找辨析多義和同義的詞匯;第二個是情境存儲庫,存儲了不同類型的情境數(shù)據(jù),通過Thesaurus中尋找得到的新情境也會添加到這個庫中。

        (5)本體存儲庫(Ontology repository)。本體是可共享的概念化明確規(guī)范[9]。本體庫包含現(xiàn)存的一些具有權威性的本體,例如:SUMO[10]、FOAF[11]、OpenCyc[12]等。利用本體中準確表達的概念與概念間的關系解析Web文檔內容。本體具有層次化的概念結構,易于得到某個概念所處的具體上下文情境。

        (6)文檔的情境(Context of documents)。文檔的情境代表了文檔的主題范圍,是通過情境存儲庫、網(wǎng)絡詞典Thesaurus和本體存儲庫共同確定的一個詞匯或短語,對基于情境的索引創(chuàng)建十分關鍵。

        (7)索引創(chuàng)建(Index creation)。在得到文檔的具體情境之后創(chuàng)建最終的索引。不僅包含關鍵字字段,而且是優(yōu)先建立情境信息字段,之后的字段存放與該情境相關文檔的關鍵字,最后是該情境下包含這些關鍵字的文檔號字段和其他備注字段。

        (8)搜索界面(Search interface)。與普通搜索界面相似,但是要求用戶在查詢的時候附上指定的情境信息。本文認為這不會增加用戶負擔,主動添加情境信息有助于提高檢索結果相關程度。

        3.2 語義索引構建方法

        在上述內容中已經(jīng)提及了基于情境的索引的大致輪廓,如圖1中左下方所示,這種索引已經(jīng)包括了情境、關鍵字、文檔號和一些備注信息。然而,Gupta P和Sharma A K的索引構建方法[1]尚存在兩個問題。(1)情境具有范圍不穩(wěn)定性,情境可視為一個領域范圍,在實際應用中會出現(xiàn)最終獲得的情境所指定范圍大小參差不齊,通常越大的情境范圍所包含的該類別文檔就越多,相比之下在更小情境范圍中尋找目標效率要高一些。(2)同義概念易疏漏,即在確定的情境之中,依照用戶給出的查詢關鍵詞只能檢索到與之匹配的文檔,換言之若存在關鍵詞不同的兩個文檔卻指代同樣的主題就會丟失其一。例如,兩個文檔的關鍵詞分別為“泰坦尼克號”和“鐵達尼號”,雖然文檔的內容字面上相異,但實質上描述的是同一個事物,如果用戶查詢的關鍵詞只有其中一個,那么另一個關鍵詞對應的文檔就會漏檢。

        在獲取情境時規(guī)定其范圍比較困難,因此本文選擇了細化情境這種方式將情境切割,把原有的思想進行嵌套,構成情境中的情境。被細分后情境粒度基本在同一級別,這樣做不僅能較好地控制情境的范圍,并且能減少同一個情境下的概念混淆與歧義情況。針對同義概念丟失問題,本文把原索引中“Term”字段“仿指針化”,將其替換成一組編號,每一個編號指代一個關鍵字所對應的語義概念,同時此概念亦囊括其他同義的關鍵字詞匯。概念及其所包含的關鍵字詞匯存儲于另一輔助索引中,如此便實現(xiàn)了概念化匹配,在檢索時先識別用戶查詢關鍵字的概念,并轉換成對應的概念ID,而后根據(jù)情境信息和概念ID在主索引中匹配。索引結構如圖2所示,比原來的索引增加了一組字段用來表示細化的情境,修改了原關鍵字字段。細化的情境是領域相關的,可根據(jù)領域(大情境)的不同而調整。

        Figure 2 Structure of semantic index圖2 語義索引的結構

        根據(jù)以上分析,索引的構建步驟如下:

        (1)網(wǎng)絡爬行器搜集的文檔存入網(wǎng)頁存儲庫,索引器加載這些Web文檔進行預處理。預處理步驟包括:分別提取文檔標題和內容,去除HTML標記變成文本,識別文本中的詞匯并去除沒有語義的詞,將文檔詞干化(Stemming)。

        (2)文檔預處理完成之后,將文檔內容中詞項(Terms)與文檔標題中詞項匹配程度最高的詞項抽取出作為該文檔的關鍵詞(Keyword)。

        (3)將文檔的關鍵詞在網(wǎng)絡詞典Thesaurus和情境存儲庫中搜索,找到該關鍵詞所處的情境。但是,一個關鍵詞可能對應多個情境,需要把這些對應情境暫時保存。

        (4)通過把文檔內容中詞項與本體中描述概念及概念間關系的術語進行匹配,在本體中概念匹配次數(shù)最多區(qū)域所處的上下文情境即為該文檔對應的具體情境。在索引中先建立情境的字段。

        (5)文檔的情境確定后,開始對情境進行細化。首先,計算出文檔的關鍵詞與情境在本體中的語義距離,即在包含兩者的本體中對應的兩個概念節(jié)點間最短路徑的距離。其中路徑記為:Rt(keyword,context),語義距離記為:Dist(keyword,context)。計算公式如下:

        (1)

        其中,weight(i)代表概念節(jié)點A和B之間最短路徑上第i條邊的權重,為方便計算,每條邊的權重設為1。如圖3所示,概念Vehicle和Jaguar的語義距離為4。然后,在本體中從關鍵詞對應的概念節(jié)點沿其父類方向向上行進Dist(keyword, context)的距離,直至到達文檔情境所對應的概念節(jié)點,記錄下該路徑的沿途節(jié)點。在圖3中,概念Jaguar到Vehicle的沿途節(jié)點依次為:High-endCar,Car,MotorVehicle。最后獲取情境對應概念節(jié)點的所有屬性(Properties),包括其相關實例的屬性值。

        Figure 3 Ontology concept example圖3 本體中概念示例

        (6)將路徑Rt(keyword,context)上的沿途概

        念節(jié)點集C={c1,c2,c3,…,cn}和情境概念的屬性集P={p1,p2,p3,…,pn}分別作為細化情境中的字段集,節(jié)點集C表示更進一步的分類信息,為其定義字段名categi,i∈N+;屬性集對應的字段名即為屬性名簡稱。細化情境字段集無嚴格的順序要求,因為索引主要供機器閱讀使用。

        (7)細化情境字段集構建完成之后,剩下的索引字段有:TCID字段,即關鍵字對應語義概念的ID;DocID字段,即具體情境下包含主題為具體概念的文檔號;Remarks字段,即備注字段,用于提供可擴展性,例如加入該條記錄被檢索到的次數(shù)、創(chuàng)建時間、最近更新時間等等。

        (8)主要語義索引建立完成之后,還需建立一個概念索引,用來表達關鍵字詞匯與概念之間對應關系。如圖4所示,概念索引主要包括TCID字段、概念簡要描述字段、概念涵蓋的關鍵詞字段和備注字段。該索引的概念與詞匯關系參考于詞典系統(tǒng),例如WordNet[13],作用是輔助主語義索引,使之實現(xiàn)概念匹配。

        TCIDConceptRelKWRemarks1001TableTenisTable-Tennis,Ping-Pong,PingPong……

        Figure 4 A part of concept index

        圖4 概念索引示例

        圖5是一個語義索引的片段示例。索引工作完成后,當用戶提交附帶具體情境信息的查詢后,搜索引擎優(yōu)先將查詢的關鍵字轉換成對應概念的TCID號,并在索引中查找相應的情境,再在索引中確定的情境記錄中進行概念匹配,檢索到的文檔根據(jù)相關程度依次返回給用戶。檢索的流程如圖6所示。

        IdxIDContextDetailedContextCateg1Categ1CategiThemefnProductioncompanyReleasedatePlatformpiTCIDDocIDRemarks001VideoGameTVGameACT…GodofWar:CollectionSantaMonica/SCE2009-11-10PS3…50014,9,12,17,50…002VideoGameTVGameACT…GodofWar:OriginsCollectionReadyAtDawnStudios2011-09-13PS3…50021,3,5,13,23…003VideoGameTVGameRPG…FinalFantasyVIISQUARE1998-05-31PS/PSP/PC…50032,7,8,13,23…004VideoGameTVGameRPG…CrisisCoreFinalFantasyVIISQUARE-ENIXDawnStudios2007-09-13PSP…50046,12,23,76…

        Figure 5 A part of semantic index

        圖5 語義索引片段示例

        Figure 6 Retrieval process圖6 檢索的流程

        3.3 結果排序

        為了使檢索結果更加“公平”地呈現(xiàn)給用戶,本文采用較為客觀的方式根據(jù)文檔質量對檢索結果進行了排序。排序方法如下:

        (1)通過檢索到的文檔編號在網(wǎng)頁存儲庫中得到文檔集D={d1,d2,d3,…,dn},并獲取每個Web文檔中元數(shù)據(jù)信息,包括文檔標題、創(chuàng)建時間、訪問量、來源等。

        (2)為每個文檔賦予匹配程度的評分,分數(shù)利用如下公式計算:

        (2)

        其中,TotalVisits代表該文檔的總訪問量;tcreated代表文檔的創(chuàng)建時間,tquery代表用戶查詢觸發(fā)的時間,時間單位以小時計算,不足一小時(即創(chuàng)建時間與查詢時間在同一小時范圍內)按一小時計算;k是一個影響因子,用于在某些類型的查詢中約束匹配分數(shù)。score的值主要代表單位時間內該文檔已經(jīng)被引用的次數(shù),可視為待關注價值。

        (3)匹配分數(shù)越高則文檔的待關注價值越高,即相關程度也越高。最后將文檔集D按匹配評分降序排列返回給用戶。上述排序方法中,影響因子k有如下幾種表達形式:

        (3)

        (4)

        (5)

        其中,k1表示某文檔中關鍵詞出現(xiàn)次數(shù)占全部(文檔預處理后)詞項數(shù)目的百分比;k2表示某文檔的平均用戶駐留時間占一天時間的百分比;k3表示用戶在查詢具有地址屬性的目標時,利用函數(shù)S計算目標地址對應坐標與用戶IP對應坐標之間的距離,將距離取倒數(shù),即距離越近值越高。在實際應用中,考慮具體的情況選擇k的具體形式,條件允許時則可使用多個影響因子的乘積。需要說明的是只有當檢索結果文檔全部具備某項數(shù)據(jù)時,才能采用相應的k來計算。例如,并不是所有Web文檔都會記錄自己的用戶駐留時間。

        4 仿真實驗

        4.1 實驗設計

        為了評估索引方法的實際表現(xiàn),在可控制的環(huán)境下設計了兩組實驗。第一組實驗分別使用傳統(tǒng)的基于普通關鍵字的索引、GuptaP與SharmaAK的基于情境的索引[1]和本文提出的基于情境的語義索引檢索相同的內容,其中對基于普通關鍵字的索引分別使用了“查詢關鍵詞”匹配和“查詢關鍵詞+情境關鍵詞”都匹配兩種檢索方式,對比并分析實驗結果。實驗結果的評價標準選擇信息檢索領域經(jīng)典的查準率(Precision)、查全率(Recall)和F-measure,定義如下:

        (6)

        (7)

        (8)

        實驗的數(shù)據(jù)樣本由300個關于電影的Web文檔和300個關于電視游戲的Web文檔組成,分別來自較權威的電影社區(qū)網(wǎng)站“Mtime時光網(wǎng)”(mtime.com)和電視游戲門戶網(wǎng)站“TGbus電玩巴士”(tgbus.com)。為了實現(xiàn)語義索引,引用了W3C發(fā)布的媒體本體“Ontology for Media Resources 1.0”[14],另外采用斯坦福大學開發(fā)的本體編輯工具Protégé 4.1建立了一個電視游戲本體,它們用于支持細化情境的構建。

        第二組實驗使用本文提出的語義索引檢索,分別對檢索結果采用普通基于訪問量的排序方法和本文提出的排序方法進行排序,對比分析結果。采用的評價標準類似查準率,具體方法是對檢索結果列表前x個進行專業(yè)人工鑒別,觀察其中具備較高參考價值的結果占x的比例。對于確定的x,比例越高排序效果越好。實驗中x取5、10、15、20。

        仿真實驗環(huán)境在一臺Intel Core2 E4600 2.4 GHz CPU、2 GB內存的臺式計算機上進行,操作系統(tǒng)為Windows XP Professional SP3。使用C#(IDE為Visual Studio 2008)和SQL Server 2005開發(fā)了一個仿真實驗的Demo系統(tǒng),其基本架構如圖7所示,分別構建了三種模式的索引,以表的形式存放于數(shù)據(jù)庫中。

        Figure 7 Architecture of demo system圖7 實驗Demo系統(tǒng)的架構

        4.2 結果與分析

        針對樣本數(shù)據(jù)組織了五名在相關領域有一定見解的學生分別用三種索引進行檢索,每名學生完成三個查詢,所有的查詢如表1所示,括號中內容為情境信息(第一個詞為主要情境)。實驗中,采用基于普通關鍵字的索引檢索時,第一次情境信息不作為關鍵詞查詢,第二次將關鍵詞和情境關鍵詞一起匹配查詢;采用其余兩種索引檢索時,按括號中情境信息順序匹配,若情境匹配失敗,則直接匹配關鍵字或概念,只有當整條查詢概念匹配失敗時,才拆分查詢關鍵詞重新匹配概念。兩組實驗的結果如表2所示。

        Table 1 Experimental queries表1 實驗查詢

        表2中Pi、Ri、Fi(i= 1, 2, 3, 4)表示使用三種索引共計四次檢索的查準率、查全率和F-measure。從實驗結果來看,P1總體小于P2,R1總體大于R2,主要是因為兩次檢索采用了不同的匹配方法,使用基于普通關鍵字索引第一次檢索采用了對查詢關鍵字的寬松匹配,返回結果中Noise(無關項)較多導致查準率低;相對第二次檢索減少了限制條件,因此查全率較高。第二次檢索采用了“查詢關鍵詞+情境關鍵詞”都匹配的方式,通常情境關鍵詞代表的是一個較廣的概念,有些文檔雖通篇未提到情境關鍵詞,但是確屬確定的情境之下。例如,一個文檔整篇都在討論“Jaguar XF”,包括性能參數(shù)、價格,顯然文檔描述的是捷豹XF型汽車,但沒有明確寫出“Vehicle(車輛)”或“Animal(動物)”表示情境的詞,此類文檔未能夠被檢索到;能夠剛好兩個關鍵詞都匹配的文檔數(shù)量較少,而且?guī)缀醵际切枨笄榫诚碌膬热?所有相關文檔的一部分),因此返回的文檔數(shù)量非常少、查準率高、查全率很低。從F-measure的值來看,F(xiàn)2總體略高于F1,即第二次檢索的整體效果要好于第一次。P3總體大于P1、小于P2,R3與R1基本沒有差別,R3總體也高于R2,原因是第三次檢索使用了基于情境的索引,優(yōu)先考慮情境信息再進行關鍵字匹配,縮小了檢索范圍,返回結果中Noise明顯減少,查準率相對P1得以提高。但是,由于第二次檢索返回文檔很少,所以P3總體小于P2。R1、R3中某些查詢的查全率較低是因為該查詢中存在同義詞,僅對當前查詢匹配導致漏檢同一概念下的其他相關文檔。P4總體大于P1、P3,略高于P2,R4總體大于R1、R2、R3。因為第四次檢索方式使用了基于情境的語義索引,普通基于情境的索引對情境信息的處理不夠細化,未能考慮到同一情境下存在子情境,導致無謂的Noise參雜在檢索結果中,使用本文提出的索引方法能夠較精準地鎖定檢索范圍,進一步減少因子概念歧義產生的Noise,提高了查準率。R4很高的主要原因是概念匹配,本文提出的索引方法追求的就是概念匹配,因此有效改善了同義詞漏檢問題,不僅找到匹配查詢的結果,也找到了其同義概念的結果。結果中發(fā)現(xiàn)P4某些查詢在查準率方面相對P3下降是因為查詢的需求為兩個概念間關系,如Q41中當“WLK CTM”無法匹配概念時,將其拆分再檢索,結果得到了所有與“WLK”和“CTM”概念匹配的文檔,但實際與需求相關的文檔只有少數(shù)。R4中某些查詢的查全率未能有效提高,是由于某些文檔同時覆蓋了多個概念,按照內容中概念所占的比例來劃分其歸屬,所以可能產生一種情況,即一篇文檔包含了少部分查詢需求的內容,但并未包含在索引中查詢概念記錄的文檔集中,客觀上不能將其判別為不相關項,導致少部分漏檢,如Q23、Q51。通過實驗可以發(fā)現(xiàn),本文提出的語義索引提高了檢索的查準率和查全率,但同時發(fā)現(xiàn)在檢索中對于多概念之間關系的處理不夠理想。索引實際表現(xiàn)的直觀對比如圖8所示,圖中數(shù)據(jù)為15次查詢的平均值,能夠看出本文提出的語義索引具有一定優(yōu)勢。

        Table 2 Experimental results of the first group表2 第一組實驗結果

        Figure 8 Comparison of actual performances of the three indexes圖8 三種索引的實際表現(xiàn)比較

        第二組實驗的查詢是從第一組實驗中任意抽取的返回結果數(shù)不小于20個的五條查詢。由有關領域資深人員鑒別出對每個確定的x符合要求且質量較高的文檔,統(tǒng)計比例。實驗結果如圖9所示,查詢選擇的是Q21、Q22、Q31、Q42、Q53,其中每個點的取值為在不同的排序方法下五次查詢的平均值。實驗中,返回的文檔都是與查詢相關的,然而它們具有的參考價值(即質量)是不同的;有些文檔雖然相關但并不具有很好的參考價值,例如某Web文檔是一個轉載文檔,轉載了原創(chuàng)內容,顯然原創(chuàng)的文檔對用戶更具參考價值,轉載文檔難免會有信息丟失。排序的目的應當是將更具參考價值的文檔盡量優(yōu)先。設具有高參考價值文檔的數(shù)量為nvd,其占x的比例為Rv=nvd/x。從圖中可以發(fā)現(xiàn)比例值越來越小,最后兩種排序比例值逐漸重合。原因是隨x固定增長,nvd也會有所增長,但nvd平均增長幅度會越來越小,直至達到最大值。本文提出的排序方法相比普通基于訪問量的排序方法能在相同的x增長下更快地接近并達到nvd最大值,當x增長到一定程度時,nvd最終到達最大值,兩種排序的比例值重合。

        Figure 9 Comparison experiment of the two ranking methods圖9 兩種排序方法對比實驗

        綜合以上結果來看,雖然本文提出的方法在一定程度上提高了檢索的效率,但實質上也犧牲了某些其他方面的效率。在字段存儲冗余方面,因為細化情境是領域相關的,主索引由多個根據(jù)領域構建的語義索引組成,所以在主語義索引與概念索引之間“術語概念ID(TCID)”字段冗余;在主索引群(表群)的不同領域索引(表)之間,盡管可能有字段名相同,但內容是不同的,沒有冗余。在空間方面,由于增加了子情境信息,比原來增加了約17個字段,另外還增加了一個概念索引四個字段,因此空間上有所增加,空間效率降低。在時間方面,本文認為對時間的評價應當考慮一個完整的檢索行為,不僅包括機器計算的階段,還應包括人力計算階段,即用戶從返回結果中找到滿意信息的階段,加入子情境和概念匹配使得檢索范圍縮小,優(yōu)化了檢索結果,用戶能夠更快地找到需要的信息,時間效率提高。

        5 結束語

        本文描述了一種基于情境的語義索引方法,對已有的方法進行了修改和完善,增強了情境信息的可利用程度,采用了基于概念匹配的方式,并做了實驗分析。仿真實驗結果表明了方法的可行性,并且擴大了原有方法的正面收益??傮w來看,研究特點在于細化了索引中的情境信息,同時采用輔助索引方式將關鍵字轉換成對應概念,完成了基于概念的匹配。

        雖然本文提出的語義索引方法能夠改善檢索效率,但是仍存在一些缺點,主要有:構建索引的前期工作量較大,需要投入相當?shù)臅r間和資源,空間效率降低;索引處理包含多概念關系的查詢能力較為薄弱。下一步的工作是研究如何更有效地使用戶給出的情境信息與索引中的情境信息關聯(lián),同時繼續(xù)改進索引提高其處理多概念組合查詢的能力。

        [1] Gupta P, Sharma A K. Context based indexing in search engines using ontology[J]. International Journal of Computer Applications, 2010, 1(14):49-52.

        [2] Wang Rui-qin,Kong Fan-sheng.Semantic retrieval based on query expansion and word sense disambiguation[J]. Journal of the China Society for Scientific and Technical Information, 2010, 29(1):16-21. (in Chinese)

        [3] Lawrence S. Context in web search[J]. IEEE Data Engineering Bulletin, 2000, 23(3):25-32.

        [4] K?hler J, Philippi S, Specht M, et al. Ontology based text indexing and querying for the semantic web[J]. Knowledge-Based Systems, 2006, 19(8):744-754.

        [5] Jonquet C, Lependu P, Falconer S, et al. NCBO resource index:Ontology-based search and mining of biomedical resources[J]. Journal of Web Semantics(Online), 2011, 9(3):316-324.

        [6] Liu Li,Guo Yan-yan,Wu Yang-yang.An index based on basic information units[J]. Computer Engineering & Science, 2011, 33(9):117-122. (in Chinese)

        [7] Kara S, Alan ?, Sabuncu O, et al. An ontology-based retrieval system using semantic indexing[J]. Information Systems, 2012, 37(4):294-305.

        [8] Web search engine[EB/OL].[2012-06-28]. http://en.wikipedia.org/wiki/Web_search_engine/.

        [9] Gruber T R. A translation approach to portable ontology specifications[J]. Knowledge Acquisition, 1993, 5(2):199-220.

        [10] Suggested Upper Merged Ontology(SUMO)[EB/OL]. [2012-07-02]. http://www.ontologyportal.org/.

        [11] Brickley D, Miller L. Introducing FOAF[EB/OL]. [2012-07-02]. http://www.foaf-project.org/original-intro/.

        [12] OpenCyc [EB/OL]. [2012-07-02]. http://www.opencyc.org/.

        [13] WordNet:A lexical database for English[EB/OL]. [2012-07-02]. http://wordnet.princeton.edu/.

        [14] Lee W, Bailer W, Bürger T, et al. Ontology for media resources 1.0[EB/OL]. [2012-02-09]. http://www.w3.org/TR/mediaont-10/.

        附中文參考文獻:

        [2] 王瑞琴, 孔繁勝. 基于查詢擴展和詞義消歧的語義檢索[J]. 情報學報, 2010, 29(1):16-21.

        [6] 劉莉, 郭艷艷, 吳揚揚. 一種基于基本信息單元的索引[J]. 計算機工程與科學, 2011, 33(9):117-121.

        SHILin,born in 1979,MS,lecturer,CCF member(E200023843M),his research interests include data integration, and cloud traceability.

        Asemanticindexingmethodbasedoncontext

        SHI Lin,MA Wei,QI Jun,XU Shou-kun

        (School of Information Science and Engineering,Changzhou University,Changzhou 213164,China)

        Indexing becomes an active area of current researches in search engines. In order to relieve the problem of semantic confusion or divergence caused by synonym and polysemy, based on the existing researches, a semantic indexing method is proposed. Through refining the contextual information with ontology in the index, the search range can be controlled well. The relevance is ensured and the missing degree is reduced by applying the concept matching retrieval approach. Additionally, a ranking method is given. The proposed method obviously improves the accuracy. The experiments show that the method enhances the precision and recall and the ranking method has a good effect.

        context;semantic indexing;ontology;concept matching

        1007-130X(2014)08-1615-08

        2012-08-10;

        :2013-03-05

        國家重點實驗室開放基金資助項目(SKLRS-2010-2D-09)

        TP391.3

        :A

        10.3969/j.issn.1007-130X.2014.08.034

        石林(1979-),男,江蘇常州人,碩士,講師,CCF會員(E200023843M),研究方向為數(shù)據(jù)集成和云追溯。E-mail:sljpu@163.com

        通信地址:213164 江蘇省常州市常州大學信息科學與工程學院

        Address:School of Information Science and Engineering,Changzhou University,Changzhou 213164,Jiangsu,P.R.China

        猜你喜歡
        關鍵字本體文檔
        Abstracts and Key Words
        哲學分析(2023年4期)2023-12-21 05:30:27
        履職盡責求實效 真抓實干勇作為——十個關鍵字,盤點江蘇統(tǒng)戰(zhàn)的2021
        華人時刊(2022年1期)2022-04-26 13:39:28
        有人一聲不吭向你扔了個文檔
        對姜夔自度曲音樂本體的現(xiàn)代解讀
        中國音樂學(2020年4期)2020-12-25 02:58:06
        成功避開“關鍵字”
        基于RI碼計算的Word復制文檔鑒別
        《我應該感到自豪才對》的本體性教學內容及啟示
        文學教育(2016年27期)2016-02-28 02:35:15
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        Care about the virtue moral education
        卷宗(2013年6期)2013-10-21 21:07:52
        基于用戶反饋的關系數(shù)據(jù)庫關鍵字查詢系統(tǒng)
        国外亚洲成av人片在线观看| 亚洲一区亚洲二区视频在线| 亚洲av成人无网码天堂| 国产视频一区二区在线免费观看 | 日韩一线无码av毛片免费| 2017天天爽夜夜爽精品视频| 国产中文字幕一区二区视频| 一级老熟女免费黄色片| 婷婷综合另类小说色区| 999国内精品永久免费视频| 国产情侣一区在线| 日韩精品人妻一区二区三区蜜桃臀 | 国产综合自拍| 手机在线免费av网址| 蜜桃成熟时在线观看免费视频| 18禁黄久久久aaa片| 一本一本久久a久久| 美腿丝袜一区在线观看| 精品国产sm最大网站| 亚洲色www成人永久网址| 亚洲AV无码久久精品国产老人| 手机在线国产福利av| 日本成本人片视频免费| 久久婷婷香蕉热狠狠综合| 免费大学生国产在线观看p| 亚洲丰满熟女一区二亚洲亚洲| 亚洲愉拍99热成人精品热久久| 亚洲精品国产美女久久久| 亚洲成av人片在线天堂无| 日韩少妇人妻中文字幕| 又粗又硬又黄又爽的免费视频| 国产日韩成人内射视频| 手机免费日韩中文字幕| 国产在线一区二区三精品乱码| 麻豆成人精品国产免费| 国产在线观看黄| 久久成人永久婷婷99精品| 中文无码伦av中文字幕| 精品国产高清a毛片无毒不卡| 久久久亚洲女精品aa| 一区二区三区美女免费视频|