美子, , ,
(1.上海師范大學(xué) 信息與機電工程學(xué)院,上海 200234;2.泰山護理職業(yè)學(xué)院 公共教學(xué)部計算機教研室,泰安 271000)
一種基于語義的網(wǎng)絡(luò)信息過濾三層模型設(shè)計
李美子1,李欣2*,潘建國1,沈滌1
(1.上海師范大學(xué) 信息與機電工程學(xué)院,上海200234;2.泰山護理職業(yè)學(xué)院 公共教學(xué)部計算機教研室,泰安271000)
提出了一種面向網(wǎng)絡(luò)信息的層次過濾模型及其體系架構(gòu),該模型分為本體過濾層、需求過濾層和興趣過濾層.本體過濾層中,利用本體為基礎(chǔ)對信息內(nèi)容進行語義描述,實現(xiàn)信息的計算機理解與過濾;在需求過濾層,模型通過理解用戶所提出的需求中所包含的語義,進而更加準確地通過過濾規(guī)則進行信息流過濾;在興趣過濾層,用戶興趣通過特定方式表達,并通過語義相似度計算實現(xiàn)第三過濾層.
語義; 信息過濾; 層次模型; 本體
面對大數(shù)據(jù)時代的信息海洋,人們往往面臨著“信息過載、信息迷航”等問題.信息過濾技術(shù)為用戶提供了從動態(tài)海量信息中選擇出滿足用戶需求的信息的能力[1-3].這種個性化的服務(wù)方式使用戶真正擺脫了信息海洋的困境,從根本上解決了主動式信息服務(wù)的問題.
本文作者提出并設(shè)計了一個引入了三過濾層(Semantic based Three-layer Web Information Filtering Model,SFM)方法的網(wǎng)絡(luò)信息過濾系統(tǒng).SFM系統(tǒng)主要面向來自網(wǎng)絡(luò)的各類信息,經(jīng)過需求過濾、興趣過濾和語義近似計算過濾3個階段實現(xiàn)比傳統(tǒng)的信息過濾技術(shù)更好的過濾效果.
SFM的核心思想是:將信息過濾的流程分為3個層次,即本體過濾層、需求過濾層和興趣過濾層;其過程包括:在本體過濾層,將各類網(wǎng)絡(luò)信息通過形式化語義描述,并精確地得到本體標注的第一層過濾;在需求過濾層,模型通過理解用戶所提出的需求中所包含的語義,進而更加準確地通過過濾規(guī)則進行信息流過濾;在興趣過濾層,用戶興趣通過特定方式表達,并通過語義相似度計算實現(xiàn)第三層過濾.
1.1SFM的系統(tǒng)的總體設(shè)計
SFM模型主要框架分為:用戶模板空間、領(lǐng)域本體、信息流空間、信息過濾核心模塊和人機交互模塊等5個部分,其組成示意圖如圖1所示.
圖1 SFM模型總體架構(gòu)
用戶模板(Profile)空間:用戶模板空間主要由用戶需求、用戶屬性以及用戶興趣庫組成.用戶模板空間從用戶的操作行為、用戶的閱讀習(xí)慣、用戶歷史過濾記錄和新獲得的訓(xùn)練樣本中得到符合用戶過濾的興趣等,從而更新用戶主題和用戶興趣庫.
領(lǐng)域本體:領(lǐng)域本體是SFM中用來進行語義表示的關(guān)鍵,同時也是對獲取的信息流進行計算機語義理解的核心.領(lǐng)域本體對特定領(lǐng)域中所包含的知識、術(shù)語等進行形式化、概念化的描述;同時,本體作為計算機實現(xiàn)語義理解的基礎(chǔ)手段,使信息中的知識在最大程度上得到語義描述,形成內(nèi)涵、外延等具體語義形式,從而使機器能夠自動理解信息中所表達的內(nèi)容.
信息空間:信息空間即網(wǎng)絡(luò)信息流在SFM中未被過濾前所存在的儲存空間.信息流空間依據(jù)領(lǐng)域本體定義的不同類別,將信息流中不同信息劃分為若干個由信息領(lǐng)域本體描述的語義;進而在信息內(nèi)容特征語義獲取模塊中組織成為具有特征的語義向量,利用主特征和副特征來描述信息,最后進行信息語義擴展.
信息過濾核心:信息過濾核心是利用現(xiàn)有的用戶興趣庫,結(jié)合用戶需求,對信息流空間中處理完畢的動態(tài)信息流進行信息過濾的過程,其工作原理為本文作者給出的三層信息過濾方法.
人機交互模塊:人機交互模塊是為用戶提供了可供用戶輸入具體信息需求的界面.針對用戶輸入的需求,系統(tǒng)將需求進行語義化處理,通過粒度分析獲得需求語義,提供給信息過濾核心;同時,SFM的在信息過濾過程中的有兩種交互方式:根據(jù)用戶具體需求過濾以及根據(jù)用戶瀏覽歷史、訓(xùn)練樣本過濾.
1.2SFM的三過濾層結(jié)構(gòu)
圖2 SFM三過濾層圖
SFM采用了三過濾層的結(jié)構(gòu),將信息分類、信息過濾、冗余消除等結(jié)合在一起,如圖2所示.
本體過濾層:本體過濾層核心任務(wù)在于將網(wǎng)絡(luò)中雜亂無章的信息流按照一定的領(lǐng)域進行分類.本體過濾層的意義在于,去除了那些不符合SFM擁有理解能力的信息,使保留下來的信息具備了領(lǐng)域語義.
需求過濾層:需求過濾層主要通過用戶需求粒度分析、用戶需求語義獲取以及信息需求過濾等方面的工作,將本體過濾層中已經(jīng)被初步處理的信息進行分離,獲得能夠符合用戶需求的信息.
興趣過濾層:興趣是對用戶以往進行的閱讀偏好、習(xí)慣等各種用戶個性化信息的簡稱.SFM通過用戶模板空間和人機交互模塊,為用戶提供了個性化的輸入窗口.SFM利用用戶興趣語義,將符合用戶興趣要求的信息盡量往前排列,同時將用戶歷史上不關(guān)心的信息進行后置或者刪除處理,從而得到最可能符合用戶要求的信息.
2.1本體層信息過濾方法
2.1.1 信息領(lǐng)域本體相關(guān)概念與語義相似度計算
首先,定義SFM中的信息領(lǐng)域本體如下:
定義1信息領(lǐng)域本體IO是一個七元組:
IO=(C,SR,IR,P,SF,V,I),
(1)
其中C表示領(lǐng)域本體的概念名;SR表示概念在該領(lǐng)域中的上下位結(jié)構(gòu)性關(guān)系,也就是父子關(guān)系;IR表示概念與概念之間存在的非結(jié)構(gòu)性關(guān)系;P表示描述概念所使用的屬性;SF是一個二元組SF=(O,x),用以表示該概念與其他本體O之間存在的語義關(guān)聯(lián)度x;V為該概念的同義詞典;I表示屬于概念的實例.
每一條信息如果看作是對一個事件或一個狀態(tài)的描述,那么描述的格式就應(yīng)該有結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化等各種方式.本體就是一種提供結(jié)構(gòu)化知識的最好工具,因此對于信息過濾而言,所處理的最佳對象就是結(jié)構(gòu)化信息.在處理以前,就需要將非結(jié)構(gòu)化或者半結(jié)構(gòu)化的信息轉(zhuǎn)化為結(jié)構(gòu)化的信息.這個過程可以看作是對信息內(nèi)容的特征提取.
定義2對于一個給定的閾值,如果在信息中出現(xiàn)的概念相對于該文檔的重要度大于該閾值,那么這個概念可以看作是信息的主特征,記做MC;否則,該概念記為信息副特征,記為NC;信息的特征向量C為由主特征和副特征組成的向量集合,表示為C=(MC,NC).
信息內(nèi)容的特征向量可以表示為如下特征:
F(c)={((mc1,mr1),(mc2,mr2),…,(mci,mri)),((nc1,nr1),(nc2,nr2),…,(ncj,nrj))},
(2)
其中F(c)是信息的特征向量集合;mci是第i個主特征項,mri是該主特征項的權(quán)重;ncj是第j的副特征項,nrj是該副特征項的權(quán)重.關(guān)于權(quán)重計算的方法,作者在[8]中詳細闡明.
當(dāng)信息特征已經(jīng)確定之后,那么特征之間的相似度就可以看做是兩個特征在本體中的語義相似度的計算.下面給出兩個概念的語義相似度計算方法.
定義3本體層次樹中兩個概念的語義距離為同一本體中不同類間關(guān)系鏈中最短關(guān)系鏈長度的一種度量方法,與相似度的對應(yīng)關(guān)系需要滿足以下條件:
1) 兩個概念語義距離為0時,其相似度為1;
2) 兩個概念語義距離為無窮大時,其相似度為0;
3) 兩個概念語義距離越大,其相似度越小.
定義5在本體層次樹中,概念在層次樹中越深,語義距離越小.概念的分類越細致,語義距離越小.概念C在樹中的深度D(c)為該節(jié)點到樹根的最短路徑,將從概念C引出的邊的權(quán)值記為概念C的權(quán)值w(c),C的父節(jié)點記為p(c),wid(c) 為概念C的寬度,即其孩子節(jié)點的數(shù)目.定義概念的權(quán)重計算公式為:
(3)
定義6語義距離與相似度相互轉(zhuǎn)換公式為:
(4)
其中t為一個可調(diào)節(jié)的參數(shù).
2.1.2 基于語義相似度的本體過濾層
本體層信息過濾實現(xiàn)在信息語義分類的基礎(chǔ)上,抽取出SFM能夠理解其語義的信息,將這些信息作為本體概念的實例.本體過濾層的主要流程為:
1) 對于信息的一個特征t,搜索其在信息領(lǐng)域本體庫中的本體Oi(0
3) 搜索信息領(lǐng)域本體庫中所有本體,直到所有概念都獲取完畢;
4) 對該信息的所有主特征進行上述步驟的計算;
5) 將沒有成為本體庫中概念的實例的信息直接存入一級緩存庫中.
2.2用戶需求層信息過濾
用戶的需求是由用戶主動輸入得到,有若干個特征詞組成的表達式.用戶需求由若干特征詞組成,這些需求定義如下:
定義7用戶需求是指用戶所關(guān)心的概念,用戶需求特征詞可以表示為一個序?qū)i|wi,其中Ti表示特征詞的概念,wi表示該需求特征詞的用戶關(guān)心度[8].
用戶需求進行本體解釋的原理如下:輸入后,首先為用戶建立一個需求特征,即對用戶輸入的特征詞進行本體標注,從而使計算機能夠利用自有的信息領(lǐng)域本體對用戶輸入的主題進行一定程度的理解.用戶需求特征詞即為本體中的概念名.
經(jīng)過本體過濾層獲得信息流中的被識別的信息,SFM通過需求特征和信息特征之間的相似度計算進行過濾.需求過濾層的工作流程如下:
3) 將該需求特征與信息中所有主特征和副特征進行相似計算,記需求特征x的所有可記錄相似度為f(x)=a∑l(x)+b∑l(x)(公式中a,b為調(diào)節(jié)參數(shù),分別代表與x所計算的信息特征為主特征和副特征的參數(shù),并且a+b=1);
4) 將所有需求特征與信息中所有特征進行計算;
5) 需求與信息的語義相似度為∑f(x);
6) 若∑f(x)≥θ(θ為預(yù)設(shè)過濾閾值),則將該信息存入緩存數(shù)據(jù)庫,否則將該信息丟棄.
2.3基于用戶興趣語義的過濾
首先定義用戶興趣表示方法如下:
定義8用戶興趣是若干用戶主題組成的對信息的復(fù)雜心態(tài).用戶興趣形式化表示為:
I=<(T1|w1,T2|w2,T3|w3,…,Ti|wi),F>,
(5)
其中主題序?qū)Ρ硎九d趣具體的主題組成,斷言公式集合F是指主題的邏輯組合方式.
SFM將根據(jù)用戶歷史上對信息過濾的經(jīng)驗進行過濾,找出盡量符合用戶興趣和習(xí)慣的信息.
假設(shè)一個用戶興趣為I=<(T1|w1,T2|w2,…,Ti|wi,…,Tn|wn),F>,其中Ti表示主題的概念,wi表示該主題的用戶關(guān)心度,斷言公式集合F是指主題之間的組合方.信息的特征為F(c)={((mc1,mr1),(mc2,mr2),…,(mci,mri)),((nc1,nr1),(nc2,nr2),…,(ncj,nrj))}其中F(c)是信息的特征向量集合;mci是第i個主特征項,mri是該主特征項的權(quán)重;ncj是第j的副特征項,nrj是該副特征項的權(quán)重.過濾算法流程如下:
1) 計算sim(Ti,mcj),進而計算λi=(sim(Ti,mcj)+wi+mrj)/3;
2) 計算sim(Ti,ncj),進而計算σi=(sim(Ti,ncj)+wi+nrj)/3;
3) 設(shè)斷言公式為析取范式,其形式為(T1∪…∪Tm)∩Ti∩…∩Tn,則信息與用戶需求的語義相似度為:
(6)
其中η∈[0,1]為預(yù)設(shè)調(diào)節(jié)參數(shù);
4) 根據(jù)用戶設(shè)定進行信息推送.
本文作者設(shè)計了針對計算機領(lǐng)域內(nèi)的論文自動過濾模型,該模型通過構(gòu)建計算機領(lǐng)域本體進行知識表示,提供語義支持;利用了中科院計算所的分類詞典進行中文分詞,從而獲取過濾需求的語義;采用三層過濾模型進行論文的過濾.
3.1基于本體的論文過濾實驗
為了驗證所提出的依賴于本體進行信息過濾的效果,采用來自互聯(lián)網(wǎng)的中文論文數(shù)據(jù)源進行測試.測試的中文論文分為兩組:第一組300篇,全部為計算機領(lǐng)域的學(xué)術(shù)論文;第二組300篇,其中150篇為計算機領(lǐng)域的論文,150篇為計算機領(lǐng)域與非計算機領(lǐng)域的交叉學(xué)科論文(包括30篇非計算機領(lǐng)域論文),并且這600篇論文不重復(fù).分別記錄了兩組論文的過濾識別率和錯誤率,如圖3所示.
圖3 基于本體的信息過濾分析
從圖3中看出,依賴于本體進行信息過濾基本能夠?qū)崿F(xiàn)不同領(lǐng)域論文的過濾.然而兩組論文過濾平均識別率分別為55.2%和50.6%,錯誤率分別為10.7%和17.9%,可見僅依賴與本體進行過濾,其性能仍有待提升.分析原因在于:本體設(shè)計缺陷,即由于本體中所包含的專業(yè)術(shù)語數(shù)量有限,并不一定能夠準確地識別出論文中出現(xiàn)的各類詞匯.這種情況主要有兩種:一是術(shù)語識別錯誤,二是術(shù)語缺失.
3.2信息過濾性能分析
為了驗證該原型系統(tǒng)的信息過濾效果,設(shè)計了利用百度搜索引擎、Google學(xué)術(shù)論文搜索引擎、CNKI中文學(xué)術(shù)引擎以及所提出原型進行對比的實驗.實驗中,用戶針對同樣的計算機論文需求進行過濾.在百度搜索引擎和Google學(xué)術(shù)論文中,記錄前100個記錄中符合用戶興趣的主題數(shù)量;在CNKI中文學(xué)術(shù)引擎中,依據(jù)輸入需求記錄全部搜索記錄中符合用戶需求的論文數(shù);在設(shè)計的原型中記錄全部搜索中符合用戶需求的論文數(shù)(最優(yōu)數(shù)據(jù)預(yù)先人工設(shè)定).
圖4 SFM信息過濾性能分析
實驗進行了8組,每組進行20次需求過濾,并針對每組記錄平均準確率.如圖4中所示,由于本設(shè)計的原型采用了計算機領(lǐng)域本體的語義支持,因此其過濾效果優(yōu)于其他方案.同時,本設(shè)計的原型系統(tǒng)由于存在一定的用戶積累效果,準確率逐次提高,用戶查看論文花費的時間相對較少.
本文作者提出了一種基于語義的信息三層過濾系統(tǒng)SFM,并且詳細介紹了該系統(tǒng)的框架結(jié)構(gòu)設(shè)計.SFM對信息的過濾主要可以分為本體過濾層、需求過濾層和興趣過濾層.這三層過濾的主要功能分別對應(yīng)于信息過濾需要的領(lǐng)域分類、用戶要求和用戶興趣3個方面.本體層過濾主要負責(zé)將來自互聯(lián)網(wǎng)的動態(tài)信息流依據(jù)信息領(lǐng)域本體庫的標準進行領(lǐng)域劃分,從而提高以后進行信息過濾的效率.需求層過濾主要針對用戶所提出的具體信息要求,獲取用戶對信息要求的準確語義,然后針對這些需求語義進行信息的過濾.興趣層過濾在前面兩層過濾的基礎(chǔ)上,針對具體用戶之間的差別,分析不同用戶可能出現(xiàn)的興趣、習(xí)慣以及閱讀傾向等,進而挑選出符合用戶興趣習(xí)慣的信息推送給用戶.
未來工作的重點包括以下方面:(1)本體庫的完善.計算機領(lǐng)域本體庫只是信息領(lǐng)域本體庫中的一個組成部分.而本設(shè)計的計算機領(lǐng)域本體庫還比較粗糙,所包含的術(shù)語知識數(shù)量不夠充分,屬性描述比較簡單,還需要進一步補充完善;(2)各類語義獲取方法的準確度提高.通過中文切詞獲得語義是一種普遍采用的方法,但是中文切詞也存在很多缺陷,例如對歧義的處理等等.因此以后工作需研究如何提高語義獲取的準確性.
[1] Huang X J,Xia Y J,Wu L D.A text filtering system based on vector space model [J].2003,14(3):435-442.
[2] Sánchez S N,Triantaphyllou E,Kraft D.A feature mining based approach for the classification of text documents into disjoint classes [J].Information Processing & Management,2002,38(01):583-604.
[3] Zeng C,Xing C X,Zhou L Z.A personalized search algorithm by using content-based filtering [J].Journey Software,2003,14(5):999-1004.
[4] Song W J,Guo Q,Liu J G.Improved hybrid information filtering based on limited time window [J].Physica A:Statistical Mechanics and its Applications,2014,416:192-197.
[5] Liu J H,Zhang Z K,Yang C,et al.Gravity effects on information filtering and network evolving [J].PloS one,2014,9(3):e91070.
[6] Tian F J,Li C R,Wang D X.Evolving information filtering method [J].Journey Software,2000,11(3):328-333.
[7] Liu Q,Li J H.Research on network content security administration system and its key technologies [J].Computer Engineering,2003,29(2):287-289.
[8] Zhang B,Xiang Y,Wang J.Information filtering algorithm based on semantic understanding [J].Journal of Electronics & Information Technology,2010,32(10):2324-2330.
[9] Yu X L.Information filtering model based on ontology [J].Computer Applications and Software,2014,31(2):119-122.
[10] Ma L,Chen Q X,Cai L H.An improved model for adaptive text information filtering [J].Journal of Computer Research and Development,2015,42(1):79-84.
(責(zé)任編輯:包震宇)
Thedesignofsemanticbasedthree-layerwebinformationfilteringmodel
Li Meizi1,LiXin2*,PanJianguo1,ShenDi1
(1.The College of Information,Mechanical and Electrical Engineering,Shanghai Normal University,Shanghai200234,China;2.Computer Teaching Section of Public Teaching Department,Taishan Vocational College of Nursing,Taian271000,China)
Asemantic based three-layer web information filtering model and its architecture are presented,which comprises ontology filtering layer,requirement filtering layer,and interest filtering layer.In ontology filtering layer,contents of information are described formally based on ontology,and those information which cannot be understood by ontology can be recognized and filtered;in requirement filtering layer,web information would be filtered through calculating the semantic similarity degrees between user requirements and information features;in interest filtering layer,the user interests are described based on formal semantic,and further,the information can be filtered by comparing the similarity of user interest and information content.
semantic; information filtering; layer model; ontology
2015-11-18
國家自然科學(xué)基金(61572326,61103069),上海教委教育規(guī)劃一般項目(C160049)
李美子(1979-),女,講師,主要從事智能信息處理,數(shù)據(jù)挖掘方面的研究.E-mail:Limeizi@shnu.edu.cn
*通信作者: 李 欣(1978-),女,講師,主要從事智能信息處理教育信息化方面的研究.E-mail:lifebest78@163.com
TP391
:A
:1000-5137(2017)04-0514-07