張 波 向 陽 王 堅
(同濟大學電子信息與工程學院 上海 201804)
面對互聯網中浩如煙海的信息,人們往往為無法準確獲取自己真正關心的信息而束手無策。如何準確有效地為用戶獲取信息,實現個性化信息獲取,是當前信息檢索領域一個重要的課題。信息過濾是將用戶需求和動態(tài)信息流進行近似計算,從信息流中抽取符合用戶個性化需求的信息并主動推送給用戶的系統化方法[1,2]。盡管傳統的信息系統及其信息獲取技術(如搜索引擎等)已經取得了長足的發(fā)展[1?4],但是由于無法真正針對不同用戶進行個性化的服務,人們依舊需要通過不停地變換關鍵詞進行重復搜索,或者面對大量搜索返回信息進行再次檢索。信息中所包含的大量內容以及用戶的真實意圖無法被機器真正理解,導致信息獲取效果不佳。
信息過濾的研究在國內外已經開展了很多。Cohen[5]提出了利用基于RIPPER規(guī)則學習算法和關鍵詞學習規(guī)則進行郵件分類。文獻[6]中提出了隱私意識交互作用下的垃圾信息協同過濾方法;文獻[7]則提出了一種基于隱馬爾可夫模型的通用過濾算法;文獻[8]提出了一種規(guī)范化的交互信息特征選擇方法,利用信息特征規(guī)范化表示和選擇等實現交互信息的過濾。在國內,清華大學的曾春等提出利用領域分類模型上的概率分布表達用戶的興趣模型,給出相似性計算和用戶興趣模型更新方法[9]。文獻[10]提出了一種建立信息流二元近似關系模型,輔助信息過濾系統識別和屏蔽反饋中的噪聲。在眾多基于語義技術的信息過濾研究中,文獻[11]提出了一種基于本體的信息檢索技術,利用本體概念的語義描述能力實現信息準確檢索。文獻[12]則提出利用OWL描述信息語義,進而在語義網環(huán)境中實現信息過濾。文獻[13]則給出了一種通過奇異值分解以及獨立分量分析獲取的潛在語義描述方法實現信息過濾。然而目前有很多信息過濾系統[3,4,14],最大問題在于計算機無法自動對用戶需求和網絡信息進行自動理解和處理,無法將用戶個性化需求和信息所包含內容進行有效識別,從中獲取最為相符的結果。
針對上述問題本文首先給出信息語義的定義,并且給出了信息語義被信息領域本體理解的判定方法。然后定義了信息過濾過程中的用戶需求語義和用戶興趣語義,并分別提出了用戶需求語義被信息領域本體理解的判定方法,及用戶興趣語義的權重計算。最后給出了一種語義可理解基礎上的信息過濾算法。實驗證明這種信息過濾算法能夠有效地提高信息獲取的效率。
信息領域本體IO是4元組:IO=(C,SR,IR,P),其中C表示概念名;SR表示概念之間的上下位結構性關系;IR表示概念之間的非結構性關系;P表示描述概念的屬性。IO中概念的權重rc與屬性的權重rp滿足如下條件1)本文后面所采用的概念權重計算方式為,若c''是c'的直接子概念,則rc''=rc'/n;屬性權重計算為,若概念c'存在m個描述屬性c'?pj ,則rpj =1/m。:
(1)根概念節(jié)點的權重為1;
(2)存在n概念c'與概念c''具備如下關系:c''={x|?x∈IO.C∧SR(c',x)},即c''是c'的直接子概念,則滿足
(3)概念ci存在m個描述屬性c'.pj,則對于一個概念的所有屬性而言,其權重滿足
定義1 概念語義擴展是指在信息領域本體IO中,對于一個概念c'來說,若存在概念c''∈IO.C,滿足c''={x|SR(c',x)∨SR(x, c')∨IR(c',x)∨IR(x,c')},則稱概念c''為概念c'的語義擴展,概念語義擴展得到的集合記為rel_c(c')。
若信息中的概念在該信息中的重要度大于給定閾值,則稱該概念為特征項,記做CT。特征項CT若存在對其性質的描述集合CS,描述集合中的個體csk?CS 稱為特征項CT的解釋,cs的值記為cs_val。
信息I完整的語義可以表示為如下形式:
其中特征項cti的權重為righti; 序對|_val表示特征項cti的第k個解釋及其解釋的值。
定義2 對于信息領域本體IO,給定的特征項及其解釋集合(ct,(cs1|cs1_val,cs2|cs2_val,…))若存在賦值映射N,滿足Nct→IO.c,且存在至少一個解釋csk=IO.c. p,則稱該信息特征項可被IO理j解;若所有解釋csk=IO.c. pj,則稱該信息特征項可被IO完全理解。
定義3 信息I可被IO理解,當且僅當所有特征項cti?CT 可被IO理解;信息I可被IO完全理解,當且僅當所有特征項cti?CT 可被IO完全理解。
算法1 信息被信息領域本體理解判定算法
上述算法中,函數find(cti,IO)用于找到并返回特征項在IO中的匹配概念;函數match(,IO)判斷find函數中返回的概念屬性是否與解釋cs匹配。
信息特征項權重分為3類:詞頻權重、位置權重以及本體權重。特征項權重計算的公式定義為
其中p(ctiLr)表示詞cti在位置Lr上的出現次數;而對于那些無位置結構關系的信息而言,位置權重忽略計算。
其中rco表示概念IO.co的權重;表示描述概念IO.co的所有IO.co. pj屬性的權重總和;0≤λ≤1是預設參數。
用戶需求包含用戶直接輸入的需求特征以及其潛在可能的需求特征項。用戶需求語義可表示為:R=<(definite_R,latent_R)>,其中definite_R為顯性需求集合,latent_R為隱性需求集合。本文引入需求內涵與外延兩個方面表征用戶需求。用戶需求的內涵connotation是有關用戶需求的內容、中心含義,用戶需求外延extention是有關主題涉及的范圍、特征等。
定義4 對于給定IO,以及給定的用戶需求r的內涵、外延集合(connotation,(extention1,extention2…)),如果存在一個賦值映射N,對于該用戶需求的內涵而言,使得Nr.connotation→IO.c ,且滿足存在至少一個外延extentionu=IO.c. pj,那么該用戶需求稱為可被信息領域本體IO理解。
對于給定的用戶需求集合R,若至少存在一個用戶需求r∈R可被信息領域本體IO理解,則稱該用戶需求集合R可以被信息領域本體IO理解;若所有的r∈R都可以被信息領域本體IO理解,則稱該用戶需求集合R可以被信息領域本體IO完全理解。
定義5 若一個顯性需求definite_rv可被信息領域本體理解,對應的本體概念為IO.co,則其相對應的隱性需求集合滿足latent_R=rel_c(IO.co)。
算法2 顯性需求理解判定與隱性需求獲取算法
算法2中,find()函數與算法1中相同,get()函數為概念語義擴展函數,返回是否找到語義擴展概念以及這些語義擴展概念集合。
用戶興趣是若干用戶主題組成的對信息的復雜心態(tài)。用戶主題表示為序對Ts|ws,其中Ts表示主題的概念,ws表示該主題的用戶關心度。本文定義兩類評價結果:積極評價positive_Ts和消極評價negative_Ts。評價附加權重η計算為
假設有固定樣本集合N,對于某一個主題T而言,其在信息領域本體中對應的概念為ci,描述屬性為ci. pj,而通過語義擴展得到的相關概念為rel_c(ci),函數P(x)表示對象x在固定樣本集合N中的出現概率。那么該主題的權重w可以表示為
其中a, b, c分別為調節(jié)參數,滿足0≤a≤1,0≤b≤1,0≤c≤1,且a+b+c=1。
本文采用概念映射索引(CMI)和屬性映射索引(PMI)表示信息領域本體中對應的概念和屬性。
定義6 概念映射索引是一個2元組CMI=(IO.C, M(IO.C)),其中IO.C是信息領域本體中概念集合,M(CT)是概念IO.c在信息中滿足賦值映射Nct→IO.c的信息項ct;或滿足賦值映射Nr.connotation→IO.c 的用戶需求r的集合。
定義7 屬性映射索引是一個3元組PMI=(IO.C. P, M(IO.C. P),CMI),其中IO.C. P是信息領域本體中概念的屬性集合,M(IO.C. P)是信息領域本體中該屬性對應的信息特征項的解釋集合,或用戶需求的外延集合,CMI指明屬性與解釋如何通過概念與特征項建立對應關系。
在CMI中,若滿足Nct→IO.c∧Nr.connotation→IO.c ,則稱信息特征項與用戶需求內涵建立了映射索引,同理在PMI中可建立信息特征項解釋與用戶需求外延的映射索引。CMI映射索引函數形如f(r.connotation)=ct ;PMI映射索引函數形如f(r.extention)=ct.cs 。
信息語義I與用戶需求語義R之間的映射索引相似度Sim_MI(I, R)可以表示如下:
其中函數P(x)表示x出現次數;函數f(x)表示x在映射索引CMI和PMI中建立映射的對象,right為對應信息特征項的權重值,rp為信息特征項的解釋對應的信息領域本體中概念屬性的權重。
本文采用未知信息表(UIT)存放不能被信息領域本體理解的信息語義,同時采用未知需求表(URT)存放無法被信息領域本體理解的用戶顯性需求。不可理解的信息語義和用戶需求語義之間的未知相似度Sim_U(I, R)可以用式(9)計算:
其中函數m(I.ct,R.r.connotation)表示有哪些不可理解的信息特征項與不可理解的用戶需求內涵完全匹配;m(I.ct.cs,R.r.extention)則表示哪些不可理解的信息特征項的解釋與不可理解的用戶需求外延匹配。
本文將通過計算出興趣主題與信息特征項之間的相似關系,從而得到盡可能符合用戶興趣的信息。假設信息語義為I,其中可以被信息領域本體理解的特征項記為mctj;不可被信息領域本體理解的特征項記為nctj;用戶興趣為In。用戶興趣主題與信息特征項相似度可計算如下:
設信息I可被信息領域本體理解的特征項記為mctj;不可被信息領域本體理解的特征項記為nctj;用戶興趣為In,本文采用如下信息過濾算法流程:
(1)對于信息中的所有特征項,利用算法1判定該信息被信息領域本體理解的程度,分為3類情況:
(a)若信息為可完全理解的,則將該信息中所有特征項與本體概念形成概念映射索引(CMI),同時將特征項解釋與對應的本體概念屬性形成屬性映射索引(PMI);
(b)若信息為可理解的,則按照(a)形成CMI和PMI。同時將未被理解的特征項及其解釋提取,形成未知信息表;
(c)若信息是不可理解,則按照(b)方法將該信息特征項與解釋形成未知圖存儲;
(2)對于一個用戶請求Pro,首先利用算法2判定顯性需求被理解的情況,并獲取隱性需求集合latent_R。分為以下情況:
(a)若用戶需求為可完全理解,則建立用戶需求與信息本體間CMI和PMI;
(b)若用戶需求為可理解的,則按照(a)方法建立CMI和PMI,并將不可理解對顯性需求的內涵和外延形成URT;
(c)若用戶需求不可理解,按照(b)中方法形成URT,此時用戶需求中的隱性需求集合為空;
(3)計算Sim_MI(I, R)與Sim_U(I, R);
(4)信息語義與用戶需求語義相似度為(公式中θ為預設調節(jié)參數):
(5)將Sim(I, R)的值大于預設閾值的信息保留,其他結果去除;
(6)計算Sim(Ts,mctj),進而計算μs=(sim(Ts,mctj)+ws+rightj)/3;
(7)計算sim(Ts,nctj),進而計算σs=(sim(Ts,nctj)+ws+rightj)/3;
(8)計算信息與用戶需求的語義相似度為(?為預設調節(jié)參數):
(9)根據用戶設定進行信息推送2)本文所指的用戶設定信息推送方式由用戶事先指定。。
本文利用自主開發(fā)的計算機領域學術論文過濾原型系統來驗證提出的信息過濾方法的有效性。該系統包括自主開發(fā)的計算機領域本體,中文詞語分析系統以及論文過濾系統3個部分。計算機領域本體采用protege3.1開發(fā);中文分詞系統在eclipse下采用JAVA開發(fā);論文過濾系統采用JAVA開發(fā)。實驗中有關公式計算的取值如下:式(2)中的計算符*為3個權重的算術平均值;所有式中的預設參數以及預設閾值均為0.5;式(6)和式(8)中取值為a=0.4,b=0.3,c=0.3,公式(7)中α=0.3,β=0.3,γ=0.4。
實驗1 用戶需求語義理解對信息過濾的影響
本文測試時采集了300篇學術論文用于過濾,經過前期測試,其中142篇可以被計算機領域本體完全理解,記為Group 1;117篇可以被計算機領域本體理解,記為Group 2;另外41篇不能被理解(非計算機領域論文),記為Group 3。
實驗方案:該實驗將3組論文合并一起,同時作為信息過濾的候選論文集。此時,由于經過前期測試,所有論文的信息語義被理解狀態(tài)已經確定。因此,過濾效果依賴于所輸入的用戶需求語義被理解的情況。我們進行了20次用戶語義理解對信息過濾的效果測試,每一輸入一次用戶需求語義則僅針對全體候選集合進行一次信息過濾實驗。為了檢驗用戶需求語義理解程度對過濾效果的影響,前10次過濾為用戶需求語義被計算機完全理解,第11到第15次為用戶需求語義被計算機理解,第16到第20次,用戶輸入需求語義不能理解。
在每次信息過濾實驗完畢后,我們將系統所返回的論文依據其來源將其人工歸類到原有Group中,并從中挑選用戶真正滿意的不同Group中的論文。該效果檢驗值計算方式可表達如下:
圖1中可以看出,前10次過濾由于用戶需求語義明顯理解清晰,因此效果最好;第11到15次,由于語義仍有能被計算機理解,因此過濾效果也好于最后5次。可見能得到語義可理解的信息和用戶需求,其過濾效果最好。
實驗2 信息語義理解對信息過濾的影響
本實驗測試時,我們給出了3組不同的用戶需求。第1組為20個可被計算機完全理解的用戶需求語義,記為Group 4;第2組為20個可被計算機理解的用戶需求語義,記為Group 5;第3組為20個不可被理解的用戶需求語義,記為Group 6。
實驗方案:該實驗在用戶需求語義理解狀態(tài)確定的情況下針對不同信息語義理解對過濾效果的影響測試。從實驗1的3組論文中選取信息語義理解效果不同的對象,進行測試。實驗針對不同的用戶需求語義分為3組,每組同時進行20次過濾。前10次實驗中所采用的候選論文集均為實驗1中Group 1的論文;第11到15次所采用的過濾候選集為實驗1中Group 2中的論文;最后5次過濾候選集為實驗1中Group 3中的論文。檢驗標準計算方式如式(15)。
從圖2中可以看出,與前一個測試相似,語義被完全理解的情況下,過濾效果最佳,而不能被理解語義的情況下,過濾效果明顯較低。
實驗3 信息過濾算法有效性實驗
實驗方案:為了驗證本文過濾方案的有效性,我們采取3組信息獲取手段,分析3組手段中對獲得有效信息的情況。Group 7采用傳統的直接輸入關鍵字進行學術論文搜索;Group 8采用本文開發(fā)的原型系統,但是改組過濾時不對無法被計算機理解的信息特征項或用戶需求進行語義計算,僅僅對不能理解的項進行傳統的匹配;Group 9采用開發(fā)的完整原型系統進行信息過濾。每組進行10人次的信息獲取,每次的需求均不相同。系統進行分析的對象是我們所采集的1000篇內容不同的學術論文(有一部分是非計算機領域論文)。我們進行實驗的評價標準按式(15)計算。結果如圖3所示。從對比實驗看出,由于沒有進行相應的層次過濾,Group 7直接用關鍵詞匹配的方法,獲得的效果最差。Group 7、Group 8中,能夠體現用戶興趣的搜索,效率提高在后期搜索中能夠得到很好的體現。而Group 8中,對于無法被本體理解的那些特征項和需求,僅僅做了單一的匹配計算,所以效果總體上低于Group 9中進行完整過濾的方法。
圖1 用戶需求語義理解對信息過濾的影響
圖2 信息語義理解對信息過濾的影響
圖3 實驗對比效果圖
使計算機擁有自動處理信息內容和用戶需求的能力的關鍵就是能夠找到有效的信息語義和用戶語義表達方式,并在此基礎上使這些語義能夠得到很好的理解。本文嘗試通過信息領域本體來表達語義,通過有效的語義判定方法使信息語義和用戶語義得到很好的處理。在此基礎上,本文提出一種信息過濾方法,利用有效的語義表達方法針對信息進行用戶需求過濾和用戶興趣過濾,使計算機能夠在理解語義的基礎上提高信息過濾的效果。通過實驗分析,證明本文的算法是可行且有效的。我們的進一步工作將集中在信息領域本體的理解能力的完善研究和語義表達的細粒度化工作上,提升信息過濾效果。
[1] Peter F W and Susan D T. Personalized information delivery:An analysis of information filtering methods.Communications of the ACM, 1992, 35(12): 51-60.
[2] Belkin N J and Bruce Croft W. Information filtering and information retrieval: Two sides of the same cion.Communications of the ACM, 1992, 35(12): 29-38.
[3] Bhandarkar Suchendra M and Luo Xing-zhi. Integrated detection and tracking of multiple faces using particle filtering and optical flow-based elastic matching, Computer Vision and Image Understanding, 2009, 113(6): 708-725.
[4] 徐小龍,王汝傳. 基于智能Agent 的多維權值信息檢索模型.電子與信息學報, 2008, 30(2): 482-485.Xu Xiao-long and Wang Ru-chuan. The agent-based information retrieval model with multi-weight ranking algorithm. Journal of Electronics and Information Technology,2008, 30(2): 482-485.
[5] Cohen W. Learning rules that classify email. AAAI Spring Symposium on Machine Learning in information Access,Stanford, USA, March 1996: 18-25.
[6] Li Kang, Zhong Zhen-yu, and Ramaswamy Lakshmish.Privacy-aware collaborative spam filtering. IEEE Transactions on Parallel and Distributed Systems, 2009, 20(5):725-739.
[7] Moon Taesup and Weissman Tsachy. Universal filtering via hidden Markov modeling. IEEE Transactions on Information Theory, 2008, 54(2): 692-708.
[8] Estévez Pablo A, Tesmer Michel, Perez Claudio A, and Zurada Jacek M. Normalized mutual information feature selection. IEEE Transactions on Neural Networks, 2009,20(2): 189-201.
[9] 曾春,邢春曉,周立柱. 基于內容過濾的個性化搜索算法. 軟件學報. 2003, 14(5): 999-1004.Zeng Chun, Xing Chun-xiao, and Zhou Li-zhu. A personalized search algorithm by using content-based filtering. Journal of Software, 2003, 14(5): 999-1004.
[10] 洪宇, 張宇, 鄭偉, 劉挺, 李生. 信息過濾中基于二元近似關系分布的噪聲屏蔽算法. 軟件學報, 2008, 19(11): 2887-2898.Hong Y, Zhang Y, Zheng W, Liu T, and Li S. Algorithm of shielding noises in information filtering based on distribution of two-dimension similarity relation. Journal of Software,2008, 19(11): 2887-2898.
[11] Dridi Olfa and Ahmed Mohamed Ben. Building an ontology-based framework for semantic information retrieval:application to breast cancer, 2008 3rd International Conference on Information and Communication Technologis:from Theory to Applications, Damascus, Syria, April 2008.
[12] Wang Shuda and Yang Jing. Research on the information filtering of OWL text based on semantic analysis, 2008 International Conference on Wireless Communications,Networking and Mobile Computing, Dalian, China,September 2008.
[13] Yokoi Takeru, Yanagimoto Hidekazu, and Omatu Sigeru.Information filtering using latent semantics. Electrical Engineering in Japan, 2008, 165(2): 53-59.
[14] Salvador NietoSanchez, Triantaphyllu Evangelos, and Donald Kraft. A feature mining based approach for the classification of text documents into disjoint classed Information.Processing and Hamagement, 2002, 38(4): 583-604.