閆婧
摘要:[目的]捕捉用戶興趣的動態(tài)性變化,優(yōu)化個性化信息推薦效果。[應(yīng)用背景]高效的個性化信息推薦方法可以根據(jù)用戶行為特征主動為用戶提供合適的信息資源,使信息的獲取和利用更加快捷、準(zhǔn)確。[方法]以“新浪微博”為例,通過挖掘用戶及其關(guān)注者的微博數(shù)據(jù),提取標(biāo)簽,計算二者興趣相似度及親密度,確定用戶興趣標(biāo)簽并優(yōu)化標(biāo)簽描述,從而構(gòu)建用戶個性化“輕量級”本體,使得語義網(wǎng)資源能夠準(zhǔn)確地投放到用戶界面。[結(jié)果]有效緩解了信息爆炸式增長所造成的“信息迷航”現(xiàn)象。[局限]微博數(shù)據(jù)中的雜音(廣告轉(zhuǎn)發(fā)、多語言描述)、數(shù)據(jù)不充分等,可能影響標(biāo)簽提取的準(zhǔn)確性。關(guān)鍵詞:標(biāo)簽本體;個性化推薦;社交網(wǎng)絡(luò)
1 引言
隨著Web2.0的發(fā)展,互聯(lián)網(wǎng)從信息傳播的媒介逐漸轉(zhuǎn)變?yōu)樾畔①Y源共享和社會交流的平臺。用戶既是信息的使用者,也是信息的創(chuàng)造者。用戶和信息的爆炸式增長,為人們帶來豐富信息資源的同時,也造成用戶難以準(zhǔn)確找到感興趣的資源。高效的個性化信息推薦方法可以根據(jù)用戶行為特征主動為用戶提供合適信息,使信息的獲取和利用更加快捷、準(zhǔn)確。
社會化標(biāo)簽方法是一種更強(qiáng)調(diào)“感知性”的信息組織方法,它由用戶自發(fā)對資源進(jìn)行標(biāo)注所產(chǎn)生的標(biāo)簽組成,為發(fā)現(xiàn)用戶關(guān)注點、進(jìn)行個性化信息推薦提供了重要的數(shù)據(jù)基礎(chǔ)。與此同時,標(biāo)簽本身所暴露出的描述不規(guī)范、無序化、多樣性、缺乏語義關(guān)系等,很大程度上制約了其在提取個性化信息方面所發(fā)揮的作用。而本體是共享概念模型的明確形式化規(guī)范說明,能系統(tǒng)地表示概念間的內(nèi)在語義關(guān)系,是語義構(gòu)建的重要手段,可以有效地彌補上述缺陷。目前,在個性化信息推薦方面有關(guān)應(yīng)用標(biāo)簽和本體的研究相互間比較孤立,缺少將兩者結(jié)合起來建立模型的思想。本文以主流社交網(wǎng)絡(luò)“新浪微博”為例,提供了一種在社會化標(biāo)簽系統(tǒng)中基于本體的個性化信息推薦方法,用以捕捉用戶興趣的動態(tài)性變化,優(yōu)化個性化信息推薦效果。
2 相關(guān)研究
標(biāo)簽是用戶主觀地對感興趣的資源進(jìn)行發(fā)布時所使用的關(guān)鍵詞,它在體現(xiàn)用戶興趣取向的同時,也反映了資源本身的特征屬性。標(biāo)簽在由用戶、標(biāo)簽、資源三者組成的社會化標(biāo)簽系統(tǒng)中扮演著核心角色,是用戶與資源之間的橋梁。規(guī)范標(biāo)簽的使用、實現(xiàn)標(biāo)簽語義的明確化表述,是降低標(biāo)簽濫用率、提高檢索效率的有效手段。
近年來,針對個性化推薦方法的研究不勝枚舉。根據(jù)推薦算法的不同,YooDonghee等提出了UCTag新型標(biāo)注方法,設(shè)計了基于Web的文件管理系統(tǒng)原型,用戶提交某一標(biāo)簽后,根據(jù)相應(yīng)的規(guī)則得到的標(biāo)簽本體,系統(tǒng)會自動推薦一系列符合用戶興趣的標(biāo)簽。Kawakubo等提出一種基于Folksonomy的圖片本體的自動構(gòu)建模型,并利用Flickr網(wǎng)站的數(shù)據(jù)進(jìn)行實驗舊。張云中提出一種基于FCA的半自動構(gòu)建本體方法,使用造格算法將形式背景轉(zhuǎn)化成相應(yīng)概念格,再由知識工程師對概念格進(jìn)行分析,將結(jié)果上傳到社區(qū),經(jīng)由社區(qū)成員對本體校正或補充得出改進(jìn)后的本體模型,重新應(yīng)用到社區(qū)中。
目前大多數(shù)應(yīng)用標(biāo)簽系統(tǒng)進(jìn)行個性化信息推薦的研究集中在推薦算法的設(shè)計優(yōu)化上,沒有考慮標(biāo)簽本身的局限性,降低了個性化信息推薦的準(zhǔn)確性。本文將本體與標(biāo)簽相結(jié)合,用以提高社會化標(biāo)注系統(tǒng)的推薦效果。
3 研究方法
本文將用戶Ul及其關(guān)注用戶V發(fā)布的微博數(shù)據(jù)作為研究樣本,分別對樣本進(jìn)行預(yù)處理、提取標(biāo)簽。計算用戶Ul的標(biāo)簽集IU1中的每一個興趣i與用戶V標(biāo)簽IV1、IV2……IVn間的相似度及親密度來判斷二者間的社會相關(guān)度,從而得到可以代表用戶Ul興趣的標(biāo)簽集。該標(biāo)簽集是從用戶及其關(guān)注者發(fā)布微博的內(nèi)容角度入手,得到的結(jié)果集是無層次結(jié)構(gòu);而本體是一類規(guī)范的集合,具有層次結(jié)構(gòu)和語義性。因而,將標(biāo)簽與本體相結(jié)合,對用戶興趣標(biāo)簽集進(jìn)行規(guī)范化、層次化處理、通過分析標(biāo)簽之間的語義關(guān)系,建立能夠反映用戶興趣的標(biāo)簽概念空間模型,構(gòu)建用戶自身的“輕量級本體”,映射已標(biāo)記語義網(wǎng)資源的標(biāo)簽集,系統(tǒng)自動將匹配Top-k標(biāo)簽的資源信息反饋給用戶。
4 基于本體的個性化信息推薦模型
4.1 構(gòu)建模型
本文將標(biāo)簽系統(tǒng)與本體二者相結(jié)合,構(gòu)建了一種適用于社交網(wǎng)絡(luò)的個性化信息推薦模型,如圖1所示。該模型對社會化標(biāo)簽的含義做了進(jìn)一步擴(kuò)展,使標(biāo)簽不再是用戶以標(biāo)注某個資源為目的去標(biāo)注的,而是用戶在進(jìn)行正常的網(wǎng)絡(luò)社交活動中,系統(tǒng)自動根據(jù)用戶的活動數(shù)據(jù)信息進(jìn)行提取的,這種方式在很大程度上提高了標(biāo)簽的容錯性和準(zhǔn)確性,能夠?qū)崟r、準(zhǔn)確地監(jiān)測用戶興趣變化,更加高效地向用戶提供所需資源,優(yōu)化了社交網(wǎng)絡(luò)中個性化信息推薦服務(wù)的效果。
4.2 標(biāo)簽提取模塊
如圖1所示,根據(jù)用戶微博內(nèi)容,提取關(guān)鍵詞作為該用戶的標(biāo)簽。本文采用哈爾濱工業(yè)大學(xué)語言技術(shù)開發(fā)平臺LTP對原始微博數(shù)據(jù)進(jìn)行句法分析,具體分為:(1)提取微博語句中的無動賓結(jié)構(gòu)時語句的核心謂語以及動賓結(jié)構(gòu)下的核心謂語和賓語的中心詞。例如,“我下午去打球”提取“打球”和“他昨天下午去打羽毛球了”中的“打羽毛球”。(2)構(gòu)建趨向動詞表對核心謂語和賓語中心詞進(jìn)行修正,該表包含“上”“下”“來”“去”等趨向動詞。例如上例中的“去”這個干擾動詞。(3)提取修正有無動賓結(jié)構(gòu)時的核心謂語。(4)將全部提取的核心謂語和賓語構(gòu)建成動名詞關(guān)鍵詞表,即該用戶的初始興趣標(biāo)簽集。
4.3 用戶興趣發(fā)現(xiàn)模塊
評論一個字詞在文檔中的重要程度,多采用TF-IDF統(tǒng)計方法。其公式為:
tf-idf=tf x logN/n
其中tf表示詞語t在文檔d中出現(xiàn)的次數(shù),idf=logN/n表示逆文檔頻率,是一個詞語普遍重要性的度量;N表示總文檔數(shù);n表示包含詞語t的文檔數(shù)。
從中不難看出,詞語t的重要程度與它出現(xiàn)在當(dāng)前文檔中的頻率成正比,與文檔集合中出現(xiàn)的頻率成反比。這對于微博社交網(wǎng)絡(luò)而言,可能因為用戶發(fā)表的微博數(shù)量不足,而導(dǎo)致興趣誤判。針對這個問題,本文為tf設(shè)定一個閾值m,當(dāng)tf>m時保留tf,否則tf取“0”,具體流程如圖2所示。最后取新標(biāo)簽集中的Top-k為用戶U1的標(biāo)簽庫Du1,利用同種方式求出用戶關(guān)注用戶的Du2……Dun。
利用標(biāo)簽庫信息,求出用戶U1的關(guān)注用戶V與U1標(biāo)簽庫中標(biāo)簽的親密度及相似度,發(fā)現(xiàn)用戶U1的興趣集。
4.4 用戶興趣本體構(gòu)建模塊
用戶興趣本體是提供個性化信息服務(wù)的基礎(chǔ),其質(zhì)量直接決定推薦內(nèi)容的準(zhǔn)確性。用戶興趣本體的建立是依托于語義網(wǎng)中的領(lǐng)域本體,在描述概念間關(guān)系的同時,也為術(shù)語賦予了相應(yīng)的語義網(wǎng)背景知識,因為有利于知識的復(fù)用與共享,改善傳統(tǒng)用戶模型標(biāo)簽描述隨意性的缺陷。構(gòu)建用戶個體的輕量級興趣本體主要通過對標(biāo)簽進(jìn)行聚類分析,構(gòu)造自頂向下的概念樹模型。表示用戶興趣的大類表現(xiàn)在高層節(jié)點,興趣的顆粒度劃分表現(xiàn)在底層節(jié)點,原始提取的用戶標(biāo)簽表現(xiàn)在最底層節(jié)點。在構(gòu)建用戶興趣本體時,系統(tǒng)根據(jù)用戶不同時期發(fā)布文章的標(biāo)簽提取出不同的興趣標(biāo)簽集,這種方法可以及時有效地捕捉用戶興趣的動態(tài)性變化,保證興趣本體的準(zhǔn)確性。
4.5 用戶社群構(gòu)建模塊
具有相同或相似興趣的用戶聚集而成的群體稱為用戶社群。利用本文描述的用戶興趣本體,結(jié)合社會復(fù)雜網(wǎng)絡(luò)技術(shù)、聚類組合等方式可以構(gòu)建用戶間的社群網(wǎng)絡(luò)。反過來,通過社群網(wǎng)絡(luò),系統(tǒng)會根據(jù)用戶興趣向用戶推薦同類興趣的社群,供用戶可以快速地找到并加入適合自己的群體。
4.6 個性化推薦模塊
該模塊主要向用戶推送相關(guān)個性化信息資源。系統(tǒng)根據(jù)資源庫所提供的資源與標(biāo)簽的對應(yīng)關(guān)系,將用戶興趣集中的個性化標(biāo)簽與語義網(wǎng)中的資源進(jìn)行語義匹配,得到符合用戶興趣的資源集合,最后將推薦結(jié)果在用戶主頁推薦模塊中進(jìn)行展示,提供給用戶。個人應(yīng)用最廣泛的有:好友推薦、興趣社區(qū)推薦、文章推薦等。商業(yè)方面,可以進(jìn)行準(zhǔn)確的廣告投放,在同等的成本消耗下,使廣告的回報率達(dá)到最大值。
5 結(jié)語
社交網(wǎng)絡(luò)中的個性化推薦是學(xué)界的一個研究熱點,但很少有學(xué)者將個性化推薦與社會化標(biāo)簽和本體聯(lián)系起來。文章從用戶的直觀表述出發(fā),提取文章關(guān)鍵詞作為用戶興趣的標(biāo)簽的同時,參考用戶關(guān)注者的興趣標(biāo)簽,將二者綜合,高效地獲取反應(yīng)用戶興趣的標(biāo)簽,并生成獨特的能夠反映用戶興趣的輕量級本體。建立了基于本體的個性化信息推薦模型。但是,文章只是對該模型進(jìn)行了理論上的探討,并沒有在實踐中建模驗證它的推薦準(zhǔn)確度。在接下來的實踐過程中,對于微博數(shù)據(jù)的提取、語義網(wǎng)中資源的標(biāo)注等問題,都是值得進(jìn)一步去關(guān)注和解決的。