摘 要:在傳統(tǒng)粒計(jì)算理論的基礎(chǔ)上,針對(duì)一種新的粒表示方法,因?yàn)槠浣Y(jié)構(gòu)更適合進(jìn)行層次分析,在其基礎(chǔ)上進(jìn)而構(gòu)建映射系統(tǒng),并嘗試將該理論應(yīng)用數(shù)據(jù)信息檢索查詢中,發(fā)現(xiàn)當(dāng)粒度層次映射到特征庫中,便可得到信息的層次結(jié)構(gòu)圖。結(jié)合用戶檢索時(shí)的興趣點(diǎn),通過添加或刪除約束條件對(duì)檢索的特征粒進(jìn)行泛化或細(xì)化運(yùn)算,從而引導(dǎo)用戶找到滿足興趣點(diǎn)的信息,最后探討了該方法在協(xié)助用戶獲取滿足興趣點(diǎn)的信息時(shí)的特點(diǎn)。并利用這個(gè)特點(diǎn)嘗試構(gòu)建基于粒結(jié)構(gòu)的信息檢索模型,討論了該粒結(jié)構(gòu)在協(xié)助用戶獲取信息時(shí)的特點(diǎn)。
關(guān)鍵詞:粒計(jì)算;粒結(jié)構(gòu);投影;信息檢索
中圖分類號(hào):TP301
粒計(jì)算是一種新的基于問題概念空間劃分的智能計(jì)算方法[1-4]。通??梢詮膬蓚€(gè)方面來研究粒計(jì)算的問題,一方面是粒的結(jié)構(gòu),另一方面是粒的計(jì)算,粒的結(jié)構(gòu)主要對(duì)粒的形成,表示和解釋進(jìn)行討論。而粒的計(jì)算主要討論如何使用粒的問題。在目前粒計(jì)算理論研究上,許多學(xué)者對(duì)粒的結(jié)構(gòu)和構(gòu)建方面的問題進(jìn)行了研究,比較典型的有從內(nèi)容,結(jié)構(gòu),用法三個(gè)角度對(duì)粒的結(jié)構(gòu)進(jìn)行構(gòu)建和分析,還有把一個(gè)基本粒表示成一個(gè)語法和語義的二元組等等。文獻(xiàn)[5]結(jié)合實(shí)際應(yīng)用,結(jié)合眾多粒表示方法,采用一種適不但適應(yīng)數(shù)據(jù)上具有離散性的原子粒,而且適用于不具離散性的數(shù)據(jù)。另一方面,信息檢索特點(diǎn)和發(fā)展瓶頸也體現(xiàn)在具有模糊性和不確定性上,因此粒計(jì)算理論這種計(jì)算方法非常適合信息檢索。
本文結(jié)合傳統(tǒng)粒計(jì)算理論,針對(duì)一種新的粒表示方法,在其基礎(chǔ)上進(jìn)而構(gòu)建映射系統(tǒng),并嘗試將該理論應(yīng)用數(shù)據(jù)信息檢索查詢中,發(fā)現(xiàn)當(dāng)粒度層次映射到特征庫中,便可得到信息的層次結(jié)構(gòu)圖。結(jié)合用戶檢索時(shí)的興趣點(diǎn),通過添加或刪除約束條件對(duì)檢索的特征粒進(jìn)行泛化或細(xì)化運(yùn)算,從而引導(dǎo)用戶找到滿足興趣點(diǎn)的信息,最后探討了該方法在協(xié)助用戶獲取滿足興趣點(diǎn)的信息時(shí)的特點(diǎn)。并利用這個(gè)特點(diǎn)嘗試構(gòu)建基于粒結(jié)構(gòu)的信息檢索模型,討論了該粒結(jié)構(gòu)在協(xié)助用戶獲取信息時(shí)的特點(diǎn),提高了數(shù)據(jù)分析的效率。
1 相關(guān)基本定義
1.1 假設(shè)在一個(gè)四元組特征庫(U,A,V,F(xiàn) )中,令屬性a∈A, 值域MVa,則將原子公式定義為(a,M),或記為aM,定義的粗糙邏輯公式如下:[5]
(1)aM是原子公式,原子公式是公式;若M=Va,則aM對(duì)應(yīng)的對(duì)象為整個(gè)論域,并把該類原子公式記為T;若M=,則稱aM為空公式。
(2)如果A和B是原子公式,那么A∧B是公式,使用連接詞∧進(jìn)行有限次運(yùn)算所組成的式子是公式。
1.2函數(shù)h(a,M)表示所有在屬性a(a∈A)上的值屬于M(MVa)的對(duì)象集,即h(a,M)={x|a(x)∈M},其中x∈U,則信息系統(tǒng)S=(U,A,V, f )中粒的定義為:[5]
Gr=((a, M), h(a,M)),
其中原子公式(a, M)為粒Gr的語法,Gr被稱為信息系統(tǒng)中的原子粒。
1.3 [6]設(shè)U表示特征庫中表示對(duì)象的集合,G為表示特征庫中特征粒的集合, N,N1,N2U,M,M1,M2G,F(xiàn): (G)→(U)為特征粒集合G映射到對(duì)象集U的映射算子;L: (U)→(G)表示從對(duì)象集合U到特征粒上的映射算子。
2 粒的分層結(jié)構(gòu)
2.1 (映射系統(tǒng))假設(shè)Gr=(Ψ,(Ψ))為四元組特征庫(U,A,V,F(xiàn))中一個(gè)任意粒,其中公式Ψ可以描述為(a1, M1)∧(a2, M2)∧…∧ (an, Mn), Gr通過分解(分解算法參見文獻(xiàn)[5])可以得到一個(gè)粒子集{Gr1,Gr2,…,Grn},則將Gr在S中映射系統(tǒng)表示(U’,G,I),其中U’=U – {x|(x,Gri)I , Gri },I為U’于滿足G,的運(yùn)算關(guān)系。
2.2 假設(shè)在一個(gè)組特征庫中,Gr對(duì)應(yīng)的映射系統(tǒng)為(U,G,I),設(shè)Q={(x,F(xiàn)(x))|x∈G, x= L(F(x))},則存在唯一的有序二元對(duì)Z與之對(duì)應(yīng)。我們稱這個(gè)有序二元對(duì)Z形成的數(shù)據(jù)結(jié)構(gòu)為Gr在信息系統(tǒng)S中的投影。
對(duì)于特征庫中任意一個(gè)粒子,都可以通過算法3.1找到與之對(duì)應(yīng)的映射系統(tǒng),在這個(gè)映射系統(tǒng)中每個(gè)粒子節(jié)點(diǎn)都滿足以下特點(diǎn),即每個(gè)粒子節(jié)點(diǎn)都有且只有一個(gè)最小子節(jié)點(diǎn),每個(gè)粒子都有且只有一個(gè)最大父節(jié)點(diǎn)。由此特點(diǎn)可以再該映射系統(tǒng)找到該粒子的對(duì)應(yīng)的信息系統(tǒng)中的投影。該投影描述的數(shù)據(jù)結(jié)構(gòu)其實(shí)就是該粒子對(duì)應(yīng)的粒度層次結(jié)構(gòu)。
3 基于粒分層結(jié)構(gòu)的信息檢索
從大量的數(shù)據(jù)庫中,檢索出具有相似特征的信息是一個(gè)處理不確定信息的過程。這里要解決的問題是如何將查詢特征與特征庫中的資料按照一定的算法進(jìn)行形似匹配,將滿足一定相似性的一組候選結(jié)果按最優(yōu)排序返回給用戶。將查詢特征形式化為一個(gè)組合粒,特征庫形式化為信息系統(tǒng),則特征與特征庫中的數(shù)據(jù)形似匹配的過程轉(zhuǎn)換為對(duì)特征粒的粒層次結(jié)構(gòu)遍歷的過程。
文獻(xiàn)[4]討論了用粒結(jié)構(gòu)進(jìn)行信息檢索的可行性和有效性。本文在構(gòu)建新的粒結(jié)構(gòu),提高粒的適用性的基礎(chǔ)上,根據(jù)文獻(xiàn)[4],給出基于新的粒結(jié)構(gòu)的信息檢索的初步模型,圖1是模型構(gòu)建的流程。
圖1 基于新的粒結(jié)構(gòu)的信息檢索
這里基于粒結(jié)構(gòu)的信息檢索是特點(diǎn)在于在精確的檢索進(jìn)行之前,通過領(lǐng)域信息和用戶背景將用戶的檢索條件形式化為特征粒,當(dāng)把該特征粒投影到特征庫時(shí)形成映射系統(tǒng),與原系統(tǒng)比較映射系統(tǒng)的數(shù)據(jù)信息都是用戶感興趣的相關(guān)信息,所有這些相關(guān)數(shù)據(jù)信息形成一個(gè)不同粒度層次的粒結(jié)構(gòu),用戶在對(duì)感興趣數(shù)據(jù)信息的粒結(jié)構(gòu)的檢索時(shí),根據(jù)自己的興趣點(diǎn),如果當(dāng)前選擇的特征粒相對(duì)興趣點(diǎn)過于泛化的情況,可以采取細(xì)化運(yùn)算。
4 結(jié)束語
本文在傳統(tǒng)粒計(jì)算理論的基礎(chǔ)上,針對(duì)一種新的粒表示方法,因?yàn)槠浣Y(jié)構(gòu)更適合進(jìn)行層次分析,在其基礎(chǔ)對(duì)其粒度層次進(jìn)行分析,并嘗試將該理論應(yīng)用數(shù)據(jù)信息檢索查詢中,發(fā)現(xiàn)當(dāng)力度層次映射到數(shù)據(jù)中,便可得到信息的層次結(jié)構(gòu)圖。結(jié)合用戶檢索時(shí)的興趣點(diǎn),通過添加或刪除約束條件對(duì)檢索的特征粒進(jìn)行泛化或細(xì)化運(yùn)算,從而引導(dǎo)用戶找到滿足興趣點(diǎn)的信息,最后嘗試構(gòu)建基于粒度分層的信息檢索模型,并探討了該方法在協(xié)助用戶獲取滿足興趣點(diǎn)的信息時(shí)的特點(diǎn)。下一步的工作主要研究新的粒結(jié)構(gòu)下信息粒的泛化和細(xì)分運(yùn)算,并完成基于該理論的信息檢索系統(tǒng)的具體設(shè)計(jì)與實(shí)現(xiàn)。
參考文獻(xiàn):
[1]Yao Y Y.Granular computing: Basic issue and possible solutions[C].Proceeding of the 5th Joint Conference on Information Sciences.2000:186-189.
[2]Lin Yan,Qing Liu.Formalization for on Granular Computing Based on Logical Formaulas[J].Volume,2006(02):60-65.
[3]劉清,劉群.粒及粒計(jì)算在邏輯推理中的應(yīng)用[J].計(jì)算機(jī)研究與發(fā)展,2004(04):546-551.
[4]曾毅,姚一豫,鐘寧.基于粒結(jié)構(gòu)的知識(shí)檢索[J].計(jì)算機(jī)科學(xué),2008(03).
[5]徐久成,成萬里,孫林.一種新的粒表示方法及其距離計(jì)算[J].計(jì)算機(jī)應(yīng)用研究,2010(06):2035-2038.
作者單位:解放軍95007部隊(duì),廣州 510410;95020部隊(duì),廣州 510630