林 捷
(泉州師范學(xué)院 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建 泉州 362000)
信息檢索模型[1]作為一項(xiàng)至關(guān)重要的技術(shù)被廣泛運(yùn)用在各類垂直搜索[2]引擎中.傳統(tǒng)的信息檢索模型,如經(jīng)典的布爾模型、向量空間模型、概率模型、統(tǒng)計(jì)語言模型等,顯著提高了查詢結(jié)果的精確度.雖然這些傳統(tǒng)的信息檢索模型解決了許多信息檢索方面的問題,但是仍然存在著各自的缺陷.例如通過這些信息檢索模型進(jìn)行信息檢索的時(shí)候,用戶經(jīng)常發(fā)現(xiàn)查全率往往無法滿足具體的要求,大量相關(guān)的信息或者文檔被遺漏,無法獲取足夠的信息.
針對這些問題,國內(nèi)外的專家提出了許多新的模型以及改進(jìn)方法,其中包括融入商空間理論對檢索模型的優(yōu)化,本文提出了一種基于商空間理論的開放式信息檢索模型,通過計(jì)算主題關(guān)鍵字語義團(tuán)的粒度,從語義識(shí)別的角度改善查全率不足的問題,并且運(yùn)用于某企業(yè)情報(bào)采集分析系統(tǒng),大大提高了企業(yè)的情報(bào)采集能力,提高了企業(yè)效率.
商空間理論[3]是一種多粒度計(jì)算的理論,來源于Hobss所認(rèn)為的“人類問題求解的基本特征之一,就是具有從不同的粒度上觀察世界,并很容易地從一個(gè)抽象層次轉(zhuǎn)換到其它層次的能力,即分層次地處理它們”.在國內(nèi),清華大學(xué)的張拔院士和張鈴教授提出了一種基于商空間的粒度計(jì)算模型.在該模型中,用不同集合表示不同粒度等級的概念,一簇就構(gòu)成空間的一個(gè)知識(shí)基劃分,不同的集合簇就構(gòu)成不同的商空間.而商空間粒度的問題,也就等價(jià)于研究在給定知識(shí)基上的各種子集合之間的關(guān)系和變換.通過這種方式大大的降低了目標(biāo)問題的復(fù)雜度.
在問題求解過程中,通常使用一個(gè)三元組(X,F(xiàn),T)來描述某個(gè)問題.其中,X表示問題研究對象的集合,稱為論域.F表示論域X的各種屬性函數(shù)集合,對于論域X中的任何元素x∈X,都存在F(x)用于表示x所具備的屬性.對于不同的元素x,F(xiàn)(x)既可以是固定值,也可能是一個(gè)范圍.T(x)表示論域X的結(jié)構(gòu),表示X中所有元素間的結(jié)構(gòu)關(guān)系.那么,求解問題(x,F(xiàn)(x),T(x))實(shí)際上就是指對論域及其相關(guān)的結(jié)構(gòu)、屬性進(jìn)行分析和研究.
由于人類能從不同粒度來處理問題,假設(shè)x是論域中最細(xì)的粒度,從一個(gè)較粗的角度看問題,把x和與其性質(zhì)相近的對象看成是等價(jià)的,并作為一個(gè)整體或者一個(gè)元素而構(gòu)成粒度較大的新論域[X],這一轉(zhuǎn)換過程正是借鑒了數(shù)學(xué)中商集的概念.
開放式信息檢索模型通過對主題關(guān)鍵字語義團(tuán)采用論域劃分技術(shù)來尋求復(fù)雜問題在不同粒度層次的解.
通常的論域劃分技術(shù)分以下幾種:
屬性劃分法:對于三元組(X,F(xiàn),T)上的屬性F選擇不同粗細(xì)的粒度,從屬性F的粒度層次的角度對論域X進(jìn)行劃分,從而獲得降低粒度的目的.
結(jié)構(gòu)劃分法:對于三元組(X,F(xiàn),T)上的結(jié)構(gòu)T選擇不同粗細(xì)的粒度,從結(jié)構(gòu)T的粒度層次的角度對論域X進(jìn)行劃分,從而獲得降低粒度的目的.
投影劃分法:假設(shè)元素X的屬性函數(shù)F是n維的,如果有多個(gè)屬性函數(shù)分量 F1,F(xiàn)2,F(xiàn)3,F(xiàn)4…Fn,如果忽略其中的 i個(gè)屬性(其中 i 約束劃分法:假設(shè)論域X存在多個(gè)約束條件,分別為C1,C2…Cn,那么可按 Ci進(jìn)行劃分. 保假原理 首先將命題在商空間上的三元組(X,F(xiàn),T)上的描述轉(zhuǎn)化為低粒度空間([X],[F],[T])上討論,對于問題求解,即從已知前提X而推出所需結(jié)論Y.如果將推導(dǎo)過程看成由X經(jīng)X1,X2…Xn,最后推得Y,我們可得出一條由X到Y(jié)推理路徑X→X1→X2→X3→…Xn→Y.數(shù)學(xué)邏輯上可以描述為:由 X推出Y有解的充分必要條件是x、y在X上的同一條連通路徑中.采用拓?fù)鋵W(xué)方法,得出以下保假原理結(jié)論. 定理1.1 假設(shè)(X,T)是([X],[T])的一個(gè)低粒度空間,如果求[X1]到[Y1]的問題在([X],[T])域上無解,那么求解X到Y(jié)的問題在(X,T)上也無解. 綜上所述,保假原理可表示當(dāng)某命題在粒度較大空間中是假命題,那么該命題在比粒度較小的商空間中也將被認(rèn)定為假命題. 保真原理 保真原理是商空間理論粒度計(jì)算中的一個(gè)重要定理,同時(shí)也是作為上述保假原理的一個(gè)重要補(bǔ)充,保假原理從問題分析的反面角度出發(fā),去掉不包含問題解的部分,有效縮小檢索范圍.對于大部分滿足商空間理論粒度計(jì)算的結(jié)論都僅具有保假性,但在某些條件下也同時(shí)具有保真性. 定理 1.2 設(shè)(X1,T1),(X2,T2)是(X,T)上兩個(gè)不相同的半序空間,如果Xi(其中i=1、2)從作為某一前提滿足Xi→Yi的問題有解,那么對于合成空間(X3,T3)如果滿足X3=X1∩X2,Y3=Y1∩Y2,那么 X3→Y3同樣有解. 綜上所述,保真原理可表示為當(dāng)某個(gè)命題在兩個(gè)較大粒度的商空間中為真時(shí),那么在特定條件下,該命題在上述兩個(gè)商空間的并集中也判定為真. 為了驗(yàn)證基于商空間的開發(fā)式信息檢索模型能夠改善查全率不足的問題,本文將該模型運(yùn)用于某企業(yè)競爭情報(bào)分析系統(tǒng)中,擬解決原有系統(tǒng)中數(shù)據(jù)分析能力薄弱的問題,系統(tǒng)架構(gòu)如圖1所示: 圖1 基于商空間的開放式信息檢索模型框架圖 從系統(tǒng)框架圖可知,本文模型主要可以分為三個(gè)模塊,包括源信息收集處理和索引庫的建立、用戶信息檢索模塊以及基于商空間的粒度計(jì)算模塊. 其中,源信息收集處理和索引庫的建立通過多種不同的來源,比如互聯(lián)網(wǎng)、本地文件系統(tǒng)以及本地或者遠(yuǎn)程的數(shù)據(jù)庫系統(tǒng)采集海量的數(shù)據(jù),介于采集到的數(shù)據(jù)存在著格式和結(jié)構(gòu)上差異較大,信息冗余度較大,系統(tǒng)將對數(shù)據(jù)源進(jìn)行有效信息的抽取以及相關(guān)預(yù)處理,包括了信息統(tǒng)一結(jié)構(gòu)化、文檔去重等工作,處理之后形成文檔檢索庫,再通過快速索引技術(shù)建立索引庫提供索引服務(wù). 用戶信息檢索模塊是用戶與系統(tǒng)交互的借口,接受用戶提交的查詢關(guān)鍵字交由搜索器進(jìn)行進(jìn)一步的查詢.該模塊具備友好的用戶界面以及高效的搜索器能夠從索引庫中迅速獲取與關(guān)鍵字匹配的結(jié)果序列. 基于商空間的粒度計(jì)算模塊包括商空間開放式信息知識(shí)庫、粒計(jì)算模塊以及檢索結(jié)果質(zhì)量判斷模塊.該模塊屬于本文提出的基于商空間的開發(fā)式信息檢索模型在企業(yè)情報(bào)信息檢索系統(tǒng)中的運(yùn)用. 商空間開放式信息知識(shí)庫的建立 商空間開放式信息知識(shí)庫工作時(shí)采用本文中提及的論域劃分技術(shù)建立商空間概念字典提供進(jìn)一步的粒度計(jì)算支撐.對于每一個(gè)詞元,我們引用商空間三元組(X,F(xiàn),T)描述,X表示語義相同的關(guān)鍵詞組,F(xiàn)表示論域的屬性集,T用于描述不同劃分方式的之間的比重.例如,如果用“動(dòng)物”來表示關(guān)鍵詞組 X,那么“[昆蟲 |非昆蟲]”和“[冷血?jiǎng)游?|恒溫動(dòng)物]”都作為屬性集F中的元素存在,但是這兩種元素是對關(guān)鍵詞組的不同粒度的劃分,并且前者T的比重要大于后者. 建立知識(shí)庫的過程如下: 步驟1:使用關(guān)鍵字訓(xùn)練集為數(shù)據(jù)記錄集合加注標(biāo)記 步驟2:采用基于粒度計(jì)算原理的聚類算法[4]進(jìn)行聚類,輸出各類樣本組合及該分支的閾值T 步驟3:定義基于商空間的分類標(biāo)準(zhǔn)并進(jìn)行屬性切分 步驟4:重新分類當(dāng)前數(shù)據(jù)記錄集合 步驟5:重構(gòu)形成新的三元組,存入知識(shí)庫 其中,基于粒度計(jì)算原理的聚類算法如下: 步驟1:對所有數(shù)據(jù)類別進(jìn)行層次編號,對樣本進(jìn)行序列化 步驟2:設(shè)初始閾值為最大閾值r,采用傳統(tǒng)聚類方法[5]對樣本進(jìn)行聚類計(jì)算,從而得到聚類層次圖. 步驟3:在閾值T處切分聚類譜系圖G得到分支,每個(gè)分支構(gòu)成一個(gè)子類Si 步驟4: 步驟5:對既定的數(shù)據(jù)樣本集進(jìn)一步分類,計(jì)算數(shù)據(jù)樣本的各個(gè)子類類別重心.鑒于不同數(shù)據(jù)樣本集的規(guī)模并不平均,所以在進(jìn)行分類時(shí)需要調(diào)整各個(gè)子類的類別重心,如果樣本數(shù)較少,則類別重心需要適當(dāng)擴(kuò)張,反之,類別重心適當(dāng)向內(nèi)退縮. 步驟6:計(jì)算各樣本與調(diào)整后的各個(gè)子類的類別重心之間的SVM夾角余弦cosθ,將各個(gè)樣本并入cosθ值最大的子類中. 粒度計(jì)算模塊 粒度計(jì)算模塊的主要功能是通過將關(guān)鍵詞放入商空間開放式信息知識(shí)庫中進(jìn)行檢索,獲取不同粒度層面上的解,即將原始論域X轉(zhuǎn)化為新論域[X]的過程.通過這種方式提高信息檢索的查全率,該模塊主要工作流程如下: 步驟1:根據(jù)前一階段的搜索結(jié)果序列判定結(jié)果 步驟2:利用商空間開放式信息知識(shí)庫對關(guān)鍵詞集構(gòu)造粒度層次樹 步驟4:將各個(gè)粒度層次上的搜索結(jié)果進(jìn)行合成. 本章實(shí)驗(yàn)基礎(chǔ)是采用Java開發(fā)的企業(yè)情報(bào)信息采集系統(tǒng)[6].對于企業(yè)情報(bào)信息采集,本章采用基于商空間的粒度計(jì)算分類算法,查詢結(jié)果取得了更高的檢索查全率.首先在用戶界面模塊中,采用基于詞典的分詞方法對主題關(guān)鍵詞團(tuán)進(jìn)行切詞,所使用的測試集包含3625個(gè)去重后的詞.然后采用本文提出的粒度計(jì)算方法進(jìn)行文本檢索,并且根據(jù)不同領(lǐng)域分類顯示搜索結(jié)果.表1給出了各類經(jīng)典搜索方法和本文方法檢索的查全率和查準(zhǔn)率的比較. 圖2將上述實(shí)驗(yàn)結(jié)果采用直方圖的方式展示出來,通過與各種經(jīng)典算法查詢出來的結(jié)果進(jìn)行比較,本文算法能夠保證一定的查準(zhǔn)率范圍,極大程度的提高了查詢的查全率. 表1 網(wǎng)頁搜索結(jié)果比較 圖2 各類搜索結(jié)果比較 本文針對大部分垂直搜索中查全率不足的問題提出一種基于商空間的開放式信息檢索模型,通過建立商空間信息知識(shí)庫,采用粒度計(jì)算的方法對關(guān)鍵詞團(tuán)進(jìn)行擴(kuò)展,尋求其在不同粒度層面的解,改進(jìn)查全率不足的問題.本文將該模型運(yùn)用于某企業(yè)競爭情報(bào)分析系統(tǒng)中,改善原有系統(tǒng)中數(shù)據(jù)分析能力薄弱的問題. 本文提出的基于商空間的開放式信息檢索模型還存在不少需要完善和改進(jìn)的部分,比如對動(dòng)態(tài)粒度閾值控制和商空間論域元素模型等,這些將是今后研究的重點(diǎn). 本文作者創(chuàng)新點(diǎn):提出一種基于商空間的開發(fā)式信息檢索模型,將粒計(jì)算方法用于改進(jìn)垂直檢索中查全率不足的問題,并且運(yùn)用于某企業(yè)競爭情報(bào)分析系統(tǒng),取得良好的成效. 〔1〕李曉玲.Internet信息檢索探討 [J].重慶交通學(xué)院學(xué)報(bào),2001,03. 〔2〕林文清.B2B垂直搜索引擎在信息獲取技術(shù)中的應(yīng)用[J].情報(bào)雜志,2007,9:120~121. 〔3〕張鈴,張鈸.模糊商空間理論(模糊粒度計(jì)算方法)[J].軟件學(xué)報(bào),2003,14. 〔4〕東波,白碩,李國杰.聚類,分類中的粒度原理[J].計(jì)算機(jī)學(xué)報(bào),2002,25(8):810—816. 〔5〕郭偉,唐曉君,劉萬軍.一種基于劃分的聚類算法分析與改進(jìn)[J].遼寧工程技術(shù)大學(xué)學(xué)報(bào),2004,06. 〔6〕余志紅.競爭情報(bào)在企業(yè)發(fā)展中的價(jià)值初探[J].貴陽學(xué)院學(xué)報(bào)(自然科學(xué)版),2006,02.3.2 商空間粒度推理模型
4 系統(tǒng)架構(gòu)以及相關(guān)關(guān)鍵技術(shù)
4.1 系統(tǒng)架構(gòu)
4.2 關(guān)鍵技術(shù)分析
5 實(shí)驗(yàn)環(huán)境與結(jié)構(gòu)分析
6 結(jié)束語
赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版2015年24期