李燕妮,李海生,蔡 強(qiáng)
(北京工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院,北京 100048)
基于語(yǔ)義相似度的領(lǐng)域知識(shí)推薦研究
李燕妮,李海生,蔡 強(qiáng)
(北京工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院,北京 100048)
提出一種基于語(yǔ)義的領(lǐng)域知識(shí)推薦方法,通過(guò)判斷用戶輸入類型,分別進(jìn)行概念相似度和短句相似度的計(jì)算。其中概念相似度計(jì)算是通過(guò)計(jì)算概念的信息內(nèi)容值進(jìn)行的,短句相似度計(jì)算分為語(yǔ)義相似度和句法結(jié)構(gòu)相似度。實(shí)驗(yàn)結(jié)果表明,該方法有效地對(duì)用戶的查詢請(qǐng)求進(jìn)行概念擴(kuò)充,提高了搜索的查全率與查準(zhǔn)率。
信息內(nèi)容;相似度;語(yǔ)義;知識(shí)推薦
知識(shí)在人們的生活和工作中發(fā)揮著巨大的作用。隨著互聯(lián)網(wǎng)的進(jìn)一步發(fā)展,知識(shí)傳播更新的速度也會(huì)越來(lái)越快。通過(guò)搜索引擎從互聯(lián)網(wǎng)獲取所需信息的方式,顯然不符合人類的習(xí)慣。研究顯示,用戶查詢經(jīng)常含有歧義或意圖不清,這導(dǎo)致用戶經(jīng)常搜索失?。?]。查詢推薦是一種能夠有效提高用戶搜索體驗(yàn)的信息檢索交互技術(shù)[2],目的在于推測(cè)用戶多種可能的意圖。推薦查詢應(yīng)該盡量涵蓋各種可能的查詢,因此召回率就顯得更為重要[3]。生活中的實(shí)際問(wèn)題大都來(lái)自于特定的領(lǐng)域,因此領(lǐng)域知識(shí)與領(lǐng)域智能的應(yīng)用在實(shí)現(xiàn)知識(shí)推送中也就非常重要,而且領(lǐng)域知識(shí)的劃分也可以提高知識(shí)推送的精度。
與傳統(tǒng)依賴關(guān)鍵詞的推薦相比,領(lǐng)域信息推薦是根據(jù)用戶提交的領(lǐng)域關(guān)鍵字或短句,再結(jié)合具體領(lǐng)域本體進(jìn)行推薦,而不是簡(jiǎn)單地按字面意思匹配,具有更高的查準(zhǔn)率與查全率。其中,概念的相似度計(jì)算決定了語(yǔ)義匹配的精確度,是語(yǔ)義推薦的基礎(chǔ),所以提高概念相似度計(jì)算的精確度成為本體應(yīng)用的關(guān)鍵。
本文結(jié)合WordNet[4]詞典本身結(jié)構(gòu),綜合考慮概念在分類樹中的子節(jié)點(diǎn)信息、深度信息、公共父節(jié)點(diǎn)信息,提出了一個(gè)新的基于信息內(nèi)容的概念語(yǔ)義相似度算法,這種基于WordNet本身結(jié)構(gòu)的求解方法不需要其他語(yǔ)料庫(kù)的參與,簡(jiǎn)單易行。在此基礎(chǔ)上,對(duì)句子結(jié)構(gòu)進(jìn)行分析,通過(guò)語(yǔ)義相似度與結(jié)構(gòu)相似度計(jì)算句子相似度。最后本文利用WordNet詞典及專家知識(shí),構(gòu)建了旅游領(lǐng)域本體,對(duì)實(shí)驗(yàn)結(jié)果的統(tǒng)計(jì)分析表明,該方法更好地滿足了用戶的檢索需求。
根據(jù)信息理論中的定義,信息內(nèi)容表示為-logP(c),含義是一個(gè)概念的出現(xiàn)的概率越大,則該概念的自信息量就越?。?]。
概念信息內(nèi)容的精確與否直接影響到概念間相似度的比較。經(jīng)過(guò)分析,本文認(rèn)為影響概念信息內(nèi)容及概念間相似度的因素有:
1)被比較概念在本體樹中的深度。概念深度越小,出現(xiàn)頻率越高,越抽象,所涵蓋的信息內(nèi)容越少。底層概念間的語(yǔ)義相似度一般大于高層概念間的相似度。
2)被比較概念在本體樹中所在簇[6]的密度。簇中概念節(jié)點(diǎn)越多,密度越大,說(shuō)明對(duì)該簇根節(jié)點(diǎn)概念的細(xì)化程度越大,所對(duì)應(yīng)的子節(jié)點(diǎn)的信息內(nèi)容就越大,相似度越高。
3)被比較概念最近祖先節(jié)點(diǎn)(Least Common Subsumer,LCS)的信息內(nèi)容。在密度、深度及路徑長(zhǎng)度相同的情況下,被比較概念最近祖先節(jié)點(diǎn)的信息內(nèi)容越大,概念的信息內(nèi)容也就越大。
基于以上分析,提出了基于信息內(nèi)容特征參數(shù)求解的新模型:
其中,Cnode_max為概念c所在簇的概念節(jié)點(diǎn)總個(gè)數(shù),Tnode_max為本體樹所有概念節(jié)點(diǎn)的個(gè)數(shù),AIC為概念c最近公共祖先節(jié)點(diǎn)的IC值,Hnode為概念c最近祖先節(jié)點(diǎn)擁有的與c深度相同的子節(jié)點(diǎn)個(gè)數(shù),hypo(c)為概念c的所有子節(jié)點(diǎn),depth(c)為概念c的深度,Tdepth_max為本體樹的最大深度。
式(1)的分母把信息內(nèi)容值約束在[0,1]之間,本體樹中頂層概念節(jié)點(diǎn)信息內(nèi)容值為0,底層概念節(jié)點(diǎn)信息內(nèi)容值為1,如此規(guī)律遞增。概念節(jié)點(diǎn)越向上,說(shuō)明概念出現(xiàn)的頻率越高,所包含的信息內(nèi)容越少,反之亦然。同樣,概念節(jié)點(diǎn)所包含的子節(jié)點(diǎn)越多,則出現(xiàn)的頻率越高,涵蓋的信息內(nèi)容也少。在深度、密度、子節(jié)點(diǎn)數(shù)都相同的情況下,如果父節(jié)點(diǎn)的信息內(nèi)容值越大,則子節(jié)點(diǎn)的信息內(nèi)容值也越大。
目前基于相關(guān)詞匯的算法在長(zhǎng)文本的語(yǔ)義匹配方面取得了不錯(cuò)的效果,然而在短句相似度方面,由于簡(jiǎn)單的幾個(gè)詞匯不足以完全概括短文的意思,因此傳統(tǒng)的計(jì)算方法就失去了意義[7]。本文通過(guò)采用對(duì)短文進(jìn)行分詞,分別從詞匯相似度和句子的句法結(jié)構(gòu)兩方面來(lái)計(jì)算短文的相似度。詞匯相似度計(jì)算的是將詞匯按照一定的順序組成向量,分別計(jì)算詞匯之間的語(yǔ)義相似度,然后運(yùn)用余弦公式計(jì)算兩個(gè)句子的語(yǔ)義相似度[8];句法結(jié)構(gòu)是將詞匯按照句子的順序組成向量,計(jì)算句子間結(jié)構(gòu)之間的相似度。最終短文相似度算法模型通過(guò)采用加權(quán)的算法綜合兩方面的因素去計(jì)算所得的最終短句相似度值,具體如圖1所示。
1)給定兩個(gè)短句S1和S2,短句所包含的詞語(yǔ)構(gòu)成聯(lián)合集S,并將此聯(lián)合集定義為語(yǔ)義詞匯向量。
2)如果這個(gè)語(yǔ)義詞匯向量中存在的詞匯,在短文S1中存在,則在此位置上S1的語(yǔ)義向量取值為1;如果在S1中不存在語(yǔ)義詞匯向量中包含的詞匯,則在S1的語(yǔ)義向量上計(jì)算此詞匯與S1中所有的詞匯之間的相似度,取最大值。
然后利用余弦算法計(jì)算兩篇短文的相似度:
圖1 短句相似度計(jì)算Fig.1 Short sentences semantic similarity
其中,wk,d1為詞匯Wk在向量d1中的權(quán)重,計(jì)算所得的值越大,表明兩篇短文越相似。
給定兩個(gè)句子:
兩個(gè)句子中的詞匯組成集合:
分別對(duì)每個(gè)句子中的詞匯順序進(jìn)行標(biāo)注,以S1中的詞匯順序?yàn)閰⒄?,可以得到?/p>
然后通過(guò)句法結(jié)構(gòu)計(jì)算公式可得到S1與S2兩個(gè)句子句法結(jié)構(gòu)的相似度:
最后本文的短文相似度算法模型通過(guò)采用加權(quán)的算法綜合兩方面的因素去計(jì)算所得的最終短文相似度值:
推薦知識(shí)主要是依據(jù)用戶輸入的關(guān)鍵詞或短句進(jìn)行的。在推薦過(guò)程中,通過(guò)對(duì)用戶提交的關(guān)鍵字的理解,以此作為推薦的依據(jù),結(jié)合領(lǐng)域本體,通過(guò)計(jì)算本體樹中概念之間的相似度,找出該詞的同義詞、近義詞,達(dá)到概念擴(kuò)充的目的。從而選出與概念相關(guān)的文檔,并推薦給用戶。同時(shí),如果用戶輸入的是短句形式,可對(duì)該短句進(jìn)行預(yù)處理后計(jì)算該短句與庫(kù)中短句間的語(yǔ)義相似度和句法結(jié)構(gòu)相似度,設(shè)定相似度閾值并進(jìn)行相應(yīng)的推薦。
流程圖如圖2所示,首先判斷用戶輸入是概念或短句。若為概念,在領(lǐng)域本體中進(jìn)行查找,如果關(guān)該鍵字不存在于本體中,計(jì)算該關(guān)鍵字與領(lǐng)域本體中其它概念的相似度,計(jì)算出相似度后,取相似度大于某一閾值的概念,得到一組擴(kuò)展概念集合,計(jì)算關(guān)鍵字與這一組擴(kuò)展概念的相似度,根據(jù)相似度大小把知識(shí)推薦給用戶。同理,若用戶輸入為短句,先在庫(kù)中查找有無(wú)此短句,沒(méi)有再計(jì)算該短句與庫(kù)中短句間的語(yǔ)義相似度及結(jié)構(gòu)相似度,最后根據(jù)相似度值進(jìn)行推薦。
圖2 推薦流程圖Fig.2 Recommendation process
在驗(yàn)證知識(shí)推薦時(shí),本文的實(shí)驗(yàn)數(shù)據(jù)采用旅游領(lǐng)域100篇文章,抽取其主題,并用Stanford parser[9]解析成概念集合;在計(jì)算用戶關(guān)鍵字與概念結(jié)合的相似度時(shí),構(gòu)建了旅游領(lǐng)域本體,如圖3所示。依據(jù)旅游本體擴(kuò)展后的概念相似度大于設(shè)定閾值的文章推薦給用戶,同時(shí),主題與用戶輸入短句相似度大于閾值的文章也進(jìn)行推薦。這里用查全率和查準(zhǔn)率來(lái)判定推薦結(jié)果(見表1)。
圖3 旅游本體片段Fig.3 Travel ontology
實(shí)驗(yàn)結(jié)果表明,本文基于信息內(nèi)容特征參數(shù)的領(lǐng)域知識(shí)推薦方法獲得了比較高的查全率和查準(zhǔn)率,提高了檢索結(jié)果與用戶需求的相關(guān)性,進(jìn)而提高了用戶的滿意度。
表1 推薦結(jié)果比較Tab.1 Recommendation results comparison
Internet越來(lái)越重視用戶的個(gè)性化需求,在基于關(guān)鍵字的知識(shí)推薦中,關(guān)鍵字是被孤立的,僅僅靠用戶輸入的關(guān)鍵字并不能很好地表達(dá)用戶的真正需求。利用本體進(jìn)行語(yǔ)義擴(kuò)展,能夠很好地描述概念與概念之間、短句與短句之間的關(guān)系。在計(jì)算概念間的語(yǔ)義相似度中,本文結(jié)合一些經(jīng)典的基于領(lǐng)域本體的語(yǔ)義相似度計(jì)算方法,在此基礎(chǔ)上將概念所處于樹中最近公共祖先節(jié)點(diǎn)、簇中同深度的節(jié)點(diǎn)數(shù)等納入模型當(dāng)中,使得概念的信息內(nèi)容值和概念間相似度更為精確,從而也就使得檢索結(jié)果更能滿足用戶需求。
[1]Song R,Luo Z,Wen J R,et al.Identifying ambiguous queries in web search[C]//Proceedings of the 16th International World Wide Web Conference(WWW2007).Banff,Alberta,Canada:ACM,2007:1169-1170.
[2]Huang C K,Chien L F,Oyang Y J.Relevant term suggestion in interactive web search based on contextual information in query session logs[J].Journal of the American Society for Information Science and Technology,2003,54(7):638-649.
[3]李亞楠,王斌,李錦濤,等.給互聯(lián)網(wǎng)建立索引:基于詞關(guān)系網(wǎng)絡(luò)的智能查詢推薦[J].軟件學(xué)報(bào),2011,22(8):1771-1784.
Li Ya’nan,Wang Bin,Li Jintao,et al.Indexing the world wide web:intelligent query suggestion based on term relation network[J].Journal of Software,2011,22(8):1771-1784.
[4]Princeton University.Wordnet:a lexical datebase for English[DB/OL].[2011-10-10].http://wordnet.princeton.edu/.
[5]Resnik P.Using information content to evaluate semantic similarity in a taxonomy[DB/OL].[2012-11-10].http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.55.5277.
[6]Gómez-Pérez A,F(xiàn)ernández-López M,Corcho O.Ontological Engineering[M].2nd ed.Berlin:Springer-Verlag,2004.
[7]李海生.知識(shí)管理技術(shù)與應(yīng)用[M].北京:北京郵電大學(xué)出版社,2012.
[8]Tian Y,Li H SH,Cai Q,et al.Measuring the similarity of short texts by word similarity and tree kernels[DB/OL].[2012-11-10].http://d.wanfangdata.com.cn/Conference_WFHYXW442849.aspx.
[9]The Stanford Natural Language Processing Group.The Stanford parser:a statistical parser[DB/OL].[2012-10-10].http://nlp.stanford.edu/software/lex-parser.shtml.
Research on Knowledge Recommendation for Domain Ontology Based on Semantic Similarity
LI Yan-ni,LI Hai-sheng,CAI Qiang
(College of Computer and Information Engineering,Technology and Business University,Beijing 100048,China)
With the explosive growth of web resource,it is difficult for keyword-based knowledge recommendation to meet the professional needs of users.In this paper,a knowledge recommandation calculation algorithm based on semantic similarity method is proposed.According to the style of user’s input,we calculate similarity of concepts based on information content and similarity of sentences based on semantic similarity and structure similarity.Experiment results show that the user’s inquiry request has been expanded its concept effectively,and the recall and accuracy of retrieval have been improved obviously.
information content;similarity;semantic;knowledge recommendation
TP391.1
A
1672-3813(2013)03-0050-05
2012-12-04
北京市教委科技發(fā)展計(jì)劃面上項(xiàng)目(KM200910011007);北京市屬高等學(xué)校人才強(qiáng)教計(jì)劃資助項(xiàng)目(PHR201108075)
李燕妮(1986-),女,山東濰坊人,碩士研究生,主要研究方向?yàn)楸倔w與知識(shí)管理。
李海生(1974-),男,山東寧津人,博士,教授,主要研究方向?yàn)楸倔w與知識(shí)管理,可視化。
(責(zé)任編輯 李進(jìn))