方 超,暴建民,薛四猛
(南京郵電大學(xué) 物聯(lián)網(wǎng)學(xué)院,江蘇 南京 210003)
基于領(lǐng)域特征值的協(xié)同過(guò)濾個(gè)性化推薦方法
方 超,暴建民,薛四猛
(南京郵電大學(xué) 物聯(lián)網(wǎng)學(xué)院,江蘇 南京 210003)
知識(shí)發(fā)現(xiàn)領(lǐng)域中,個(gè)性化推薦技術(shù)因其應(yīng)用廣泛受到了業(yè)界的廣泛關(guān)注和高度重視。但由于用戶隱私保護(hù)方面的限制,現(xiàn)有的推薦系統(tǒng)不能直接挖掘用戶的個(gè)人信息,因此只能采用表征用戶愛(ài)好的特征值來(lái)間接地挖掘用戶信息。針對(duì)此類(lèi)問(wèn)題,提出了一種新的推薦方法。該方法可自動(dòng)提取相應(yīng)領(lǐng)域的特征值,并基于領(lǐng)域關(guān)鍵詞過(guò)濾冗余的領(lǐng)域特征值,從而據(jù)此構(gòu)建用戶偏好模型,并與協(xié)同過(guò)濾算法綁定,生成最終的推薦結(jié)果。為驗(yàn)證所提出推薦方法的有效性和可行性,基于實(shí)時(shí)數(shù)據(jù)集與其他已有的推薦方法進(jìn)行了對(duì)比實(shí)驗(yàn),并基于對(duì)比實(shí)驗(yàn)結(jié)果進(jìn)行了相關(guān)的分析研究。對(duì)比驗(yàn)證實(shí)驗(yàn)結(jié)果及其分析表明,該推薦方法能夠有效地提取領(lǐng)域特征值,其推薦的精準(zhǔn)度也有所提高。
領(lǐng)域特征值;協(xié)同過(guò)濾;用戶偏好模型;個(gè)性化推薦
當(dāng)今社會(huì)正處于一個(gè)數(shù)據(jù)爆發(fā)式增長(zhǎng)的時(shí)代。由于信息的增長(zhǎng),用戶得到他們想要的有用信息越發(fā)困難[1],這種信息過(guò)載的問(wèn)題越來(lái)越嚴(yán)重。因此個(gè)性化推薦系統(tǒng)應(yīng)運(yùn)而生,它利用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù)從大數(shù)據(jù)中挖掘用戶的需求與偏好,并為用戶提供精確的物品推薦[2]。
近年來(lái),在學(xué)術(shù)與工業(yè)領(lǐng)域開(kāi)發(fā)了許多推薦系統(tǒng)。其中協(xié)同過(guò)濾算法被廣泛應(yīng)用于推薦系統(tǒng)中,是最好的推薦算法之一[3-8]。協(xié)同過(guò)濾算法主要使用鄰近技術(shù)計(jì)算用戶與用戶之間的聯(lián)系,然后預(yù)測(cè)目標(biāo)用戶對(duì)物品的偏好,物品的預(yù)估值是用這個(gè)偏好的最近鄰居權(quán)重值來(lái)表示。最后,推薦系統(tǒng)為目標(biāo)用戶推薦物品是利用這個(gè)預(yù)估值來(lái)推薦。協(xié)同過(guò)濾的好處是它對(duì)推薦目標(biāo)沒(méi)有特殊要求,并且能有效地處理復(fù)雜的非結(jié)構(gòu)化目標(biāo),例如書(shū)籍或者電影。但是,其性能也存在數(shù)據(jù)的稀疏性、冷啟動(dòng)以及可擴(kuò)展性等諸多限制。
為了解決協(xié)同過(guò)濾算法存在的問(wèn)題,學(xué)者們提出了許多改進(jìn)方法來(lái)增強(qiáng)推薦系統(tǒng)的性能。Hu L等提出了一種基于物品特征值與用戶偏好的混合協(xié)同過(guò)濾推薦算法[9],該算法提高了推薦系統(tǒng)的精確性,并能更加容易地處理數(shù)據(jù)的稀疏性。Jung S.Y等提出了一種用戶偏好模型,有效緩解了數(shù)據(jù)的稀疏性,提高了預(yù)測(cè)結(jié)果的精確性[10]。Choi S H等提出了混合推薦方法以減少大數(shù)據(jù)量[11],該方法通過(guò)計(jì)算最遠(yuǎn)用戶間的距離以減少數(shù)據(jù)集的規(guī)模,成功避免了大數(shù)據(jù)帶來(lái)的可擴(kuò)展性與稀疏性的問(wèn)題。
此外,用戶偏好是個(gè)性化應(yīng)用的關(guān)鍵因素,是個(gè)性化推薦系統(tǒng)的本質(zhì)所在。然而,查詢用戶顯性的信息很困難,不能直接挖掘出用戶偏好。相反,能查詢用戶隱性的信息[12]。所以,研究者們致力于開(kāi)發(fā)隱性啟發(fā)方法挖掘用戶記錄與行為信息,從中得到有效的用戶偏好集。Chen Y Y等針對(duì)個(gè)性化的旅游推薦[13],從照片內(nèi)容中挖掘人們的基本屬性與旅游類(lèi)型信息,以此構(gòu)建用戶偏好集。該方法提高了推薦的精度。Zhang J等提出了一種新的推薦方法,從物品及其評(píng)價(jià)信息中挖掘物品的特征,構(gòu)建用戶偏好模型[14],但沒(méi)有很好地解決用戶隱私問(wèn)題。
同時(shí),物品的特征在不同的領(lǐng)域內(nèi)是不同的,因此開(kāi)發(fā)了有針對(duì)性的領(lǐng)域推薦系統(tǒng)。Anand S T等提出了書(shū)籍推薦系統(tǒng),將內(nèi)容過(guò)濾的特征、協(xié)同過(guò)濾算法以及相關(guān)規(guī)則挖掘綁定[15]。Chen J H等提出了混合過(guò)濾算法,提供了多功能的旅游信息[16]。Chen R C等提出一個(gè)糖尿病醫(yī)藥推薦系統(tǒng),采用了基于醫(yī)院專家提供的知識(shí)領(lǐng)域本體[17]。
在此,文中提出一種新的推薦方法,其能夠自動(dòng)提取物品的領(lǐng)域特征值,并通過(guò)領(lǐng)域關(guān)鍵詞驗(yàn)證過(guò)濾冗余的領(lǐng)域特征值,根據(jù)得到的領(lǐng)域特征值集構(gòu)建用戶偏好模型,將用戶偏好模型與協(xié)同過(guò)濾算法綁定產(chǎn)生推薦結(jié)果。
1.1領(lǐng)域特征值自動(dòng)提取
1.1.1 數(shù)據(jù)預(yù)處理
一般來(lái)說(shuō),大多數(shù)已存在的數(shù)據(jù)庫(kù)文件以網(wǎng)頁(yè)頁(yè)面的形式存在,例如HTML或者XML標(biāo)簽。因此,必須過(guò)濾這些標(biāo)簽,得到需要的數(shù)據(jù)集。使用一個(gè)實(shí)時(shí)的數(shù)據(jù)集,在數(shù)據(jù)預(yù)處理前,采用開(kāi)放網(wǎng)頁(yè)爬蟲(chóng)軟件Hertrix收集用戶數(shù)據(jù),并存儲(chǔ)在數(shù)據(jù)庫(kù)中。然后對(duì)這些數(shù)據(jù)進(jìn)行格式化,得到下一步特征值提取時(shí)輸入的標(biāo)準(zhǔn)數(shù)據(jù)集。
1.1.2 領(lǐng)域特征值提取
圖1是特征值提取的整個(gè)框架流程。
首先,使用解析器(FudanNL-Process)解析所有的句子,得到詞袋。然后,通過(guò)驗(yàn)證簡(jiǎn)單的名詞與動(dòng)詞組來(lái)幫助找到能明確表達(dá)領(lǐng)域特征值的詞。最后,利用關(guān)聯(lián)規(guī)則挖掘領(lǐng)域中所有相關(guān)的特征值,得到領(lǐng)域特征值集。然而,領(lǐng)域特征值集可能有許多用戶并不感興趣或者存在冗余的特征值,所以,需要通過(guò)清洗特征值移除不準(zhǔn)確的特征值。領(lǐng)域關(guān)鍵詞是在某一個(gè)領(lǐng)域中描述物品特征值的詞。它能夠進(jìn)一步清洗特征值,過(guò)濾冗余特征值。在驗(yàn)證領(lǐng)域特征值之后,將得到最終的物品領(lǐng)域特征值集。
圖1 領(lǐng)域特征值提取流程
將用戶的領(lǐng)域特征值集合定義為D={D1,D2,…,DM},其中DM(1≤M 1.2推薦引擎 1.2.1 用戶偏好模型構(gòu)建 在個(gè)性化推薦系統(tǒng)中,物品與用戶是其兩個(gè)主要的實(shí)體。將物品集合定義為I={I1,I2,…,Ii},用戶集合定義為U={U1,U2,…,Uj}。 同時(shí),定義物品評(píng)分集為Sj={sji|j∈U,i∈Ij,Ij?I}。由物品評(píng)分集Sj與特征值集Fj,得到用戶j的偏好矩陣,如下: (1) 然后,計(jì)算用戶j的偏好向量。 (2) 1.2.2 相似度計(jì)算 使用余弦相似度計(jì)算已推薦用戶與歷史用戶的相似度。 (3) 1.2.3 產(chǎn)生推薦 為已推薦用戶,采用一個(gè)權(quán)重平均值的方法來(lái)預(yù)估物品預(yù)測(cè)分?jǐn)?shù)pji。 (4) (5) 得到的物品預(yù)測(cè)評(píng)分按照從大到小依次排序,將序列的前N項(xiàng)物品推薦給目標(biāo)用戶。 2.1實(shí)驗(yàn)數(shù)據(jù)集和評(píng)價(jià)標(biāo)準(zhǔn) 為了預(yù)估推薦方法的精確度,使用一個(gè)實(shí)時(shí)的數(shù)據(jù)集。采用的領(lǐng)域數(shù)據(jù)集是在著名的旅游網(wǎng)站(www.tripadvisor.com)上抓取的,主要收集了網(wǎng)站上北京酒店的數(shù)據(jù)。得到了2 467個(gè)用戶與245個(gè)酒店的213 566條記錄,其中80%的數(shù)據(jù)用來(lái)訓(xùn)練模型,20%的數(shù)據(jù)用來(lái)測(cè)試方法性能。 利用歸一化平均絕對(duì)差(NMAE)、精確度(Precision)這兩個(gè)指標(biāo)來(lái)預(yù)估提出的推薦方法的性能。 NMAE對(duì)預(yù)測(cè)的準(zhǔn)確性進(jìn)行預(yù)估,計(jì)算公式為: (6) 其中,rj為用戶j的預(yù)測(cè)評(píng)分;prj為用戶j的實(shí)際評(píng)分;M為用戶數(shù);Δr為最大值rmax與最小值rmin差的絕對(duì)值。 Precision定義為一個(gè)用戶對(duì)已推薦產(chǎn)品感興趣的可能性,是用戶推薦列表的數(shù)量與總的產(chǎn)品數(shù)之比。計(jì)算公式為: (7) 其中,N為用戶數(shù);Tj為用戶j排名;Rtj為用戶j選取的物品評(píng)分。 2.2實(shí)驗(yàn)結(jié)果與分析 在個(gè)性化推薦系統(tǒng)中,有三種其他的推薦方法,包括基于物品(Items-Based)的協(xié)同過(guò)濾推薦方法、基于評(píng)分(Rates-Based)的協(xié)同過(guò)濾推薦方法以及模糊偏好集的多屬性決策協(xié)同過(guò)濾推薦方法(F-MADM)。基于物品的協(xié)同過(guò)濾方法的目的是找到用戶選擇相似物品的鄰居,通過(guò)余弦相似度方法,并與傳統(tǒng)協(xié)同過(guò)濾算法相結(jié)合產(chǎn)生推薦結(jié)果?;谠u(píng)分的方法通過(guò)計(jì)算余弦相似度得到已評(píng)分用戶的鄰居用戶,再綁定傳統(tǒng)的協(xié)同過(guò)濾算法產(chǎn)生推薦結(jié)果。F-MADM方法是基于模糊用戶偏好集構(gòu)建用戶偏好模型,然后綁定協(xié)同過(guò)濾算法產(chǎn)生推薦結(jié)果。 更低的NMAE是具有更好精確度的推薦。從圖2中可以發(fā)現(xiàn),文中方法的NMAE最低,F(xiàn)-MADM的NMAE次之,基于物品和基于評(píng)分的方法的NMAE最不好,但是兩者相近。相比而言,文中推薦方法的精確性較好。 圖2 歸一化平均絕對(duì)差對(duì)比 圖3 精確度對(duì)比 如圖3所示,當(dāng)橫坐標(biāo)為60時(shí),文中方法與F-MADM相比,精確度提高超過(guò)6%。同時(shí)也可以發(fā)現(xiàn),基于物品的推薦方法的性能與基于評(píng)分的性能是接近的。與以上兩種方法相比,可以發(fā)現(xiàn)在橫坐標(biāo)為60時(shí),精確度提高超過(guò)20%,表明文中方法的精確性較好。 針對(duì)個(gè)性化推薦技術(shù)存在的問(wèn)題,提出一種新的推薦方法。該方法能實(shí)現(xiàn)自動(dòng)提取物品的領(lǐng)域特征值,并通過(guò)領(lǐng)域關(guān)鍵詞驗(yàn)證過(guò)濾冗余的領(lǐng)域特征值,由得到的領(lǐng)域特征值集構(gòu)建用戶偏好模型,并將用戶偏好模型與協(xié)同過(guò)濾算法綁定產(chǎn)生推薦結(jié)果。與相應(yīng)的推薦方法進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果表明,文中方法具有更好的準(zhǔn)確性,同時(shí)能夠有效地挖掘領(lǐng)域特征值并構(gòu)建用戶偏好模型。未來(lái)研究將會(huì)增加領(lǐng)域特征值的數(shù)量以提高推薦方法的多樣性,同時(shí)在其他領(lǐng)域驗(yàn)證該方法的準(zhǔn)確性。 [1] Huang H,Huang J,Ziavras S G,et al.A personalized recommendation algorithm based on Hadoop[C]//5th international conference on electronics information and emergency communication.[s.l.]:IEEE,2015:406-409. [2] Pera M S,Ng Y K.Analyzing book-related features to recommend books for emergent readers[C]//Proceedings of the 26th ACM conference on hypertext & social media.[s.l.]:ACM,2015:221-230. [3] Chen T,Han W L,Wang H D,et al.Content recommendation system based on private dynamic user profile[C]//International conference on machine learning and cybernetics.[s.l.]:IEEE,2007:2112-2118. [4] 王全民,王 莉,曹建奇.基于評(píng)論挖掘的改進(jìn)的協(xié)同過(guò)濾推薦算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015,25(10):24-28. [5] 黃創(chuàng)光,印 鑒,汪 靜,等.不確定近鄰的協(xié)同過(guò)濾推薦算法[J].計(jì)算機(jī)學(xué)報(bào),2010,33(8):1369-1377. [6] 李 聰,梁昌勇,馬 麗.基于領(lǐng)域最近鄰的協(xié)同過(guò)濾推薦算法[J].計(jì)算機(jī)研究與發(fā)展,2008,45(9):1532-1538. [7] 鄭 丹,王名揚(yáng),陳廣勝.基于Weighted-slope One的用戶聚類(lèi)推薦算法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2016,26(4):51-55. [8] 高 倩,何聚厚.改進(jìn)的面向數(shù)據(jù)稀疏的協(xié)同過(guò)濾推薦算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2016,26(3):63-66. [9] Hu L,Song G,Xie Z,et al.Personalized recommendation algorithm based on preference features[J].清華大學(xué)學(xué)報(bào):自然科學(xué)英文版,2014,19(3):293-299. [10] Jung S Y,Hong J H,Kim T S.A statistical model for user preference[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(6):834-843. [11] Choi S H,Jeong Y S,Jeong M K.A hybrid recommendation method with reduced data for large-scale application[J].IEEE Transactions on Systems,Man,and Cybernetics,Part C (Applications and Reviews),2010,40(5):557-566. [12] Ha V,Haddawy P.Similarity of personal preferences:theoretical foundations and empirical analysis[J].Artificial Intelligence,2003,146(2):149-173. [13] Chen Y Y,Cheng A J,Hsu W H.Travel recommendation by mining people attributes and travel group types from community-contributed photos[J].IEEE Transactions on Multimedia,2013,15(6):1283-1295. [14] Zhang J,Peng Q,Sun S,et al.Employing F-MADM to derive user preference model from item features and rating information for personalized recommendation[C]//IEEE international conference on information and automation.[s.l.]:IEEE,2015:2997-3002. [15] Tewari A S,Kumar A,Barman A G.Book recommendation system based on combine features of content based filtering, collaborative filtering and association rule mining[C]//International conference on advance computing.[s.l.]:IEEE,2014:500-503. [16] Chen J H,Chao K M,Shah N.Hybrid recommendation system for tourism[C]//10th international conference on e-business engineering.[s.l.]:IEEE,2013:156-161. [17] Chen R C,Huang Y H,Bau C T,et al.A recommendation system based on domain ontology and SWRL for anti-diabetic drugs selection[J].Expert Systems with Applications,2012,39(4):3995-4006. APersonalizedCollaborativeFilteringRecommendationMethodBasedonDomainFeatures FANG Chao,BAO Jian-min,XUE Si-meng (College of Internet of Things,Nanjing University of Posts and Telecommunications,Nanjing 210003,China) In knowledge discovery,personalized recommendation technology has extensive concern and high attention because of its wide application.However,due to the limitations of user privacy protection,the existing recommendation system can’t directly mine the user’s personal information.So,the features which imply user preference to indirectly mine user information can be utilized.In order to solve above problem,a new recommendation method is proposed which can automatically extract relevant domain features and filter the redundant domain features based on domain keywords to construct a user preference model and generate the final recommendation result in combination with the collaborative filtering algorithm.To verify its effectiveness and feasibility,compared with other existing recommendation methods based on a real time data sets the experiments for verification are conducted.The results of contrast experiments and relevant analysis show that it can effectively extract the domain features and its accuracy of the recommendation is improved. domain features;collaborative filtering;user preference model;personalized recommendation 2016-11-19 2017-03-10 < class="emphasis_bold">網(wǎng)絡(luò)出版時(shí)間 時(shí)間:2017-07-19 國(guó)家自然科學(xué)基金資助項(xiàng)目(61100213);南京郵電大學(xué)教育部重點(diǎn)實(shí)驗(yàn)室開(kāi)放研究基金(ZS035NY11005) 方 超(1991-),男,碩士研究生,研究方向?yàn)閿?shù)據(jù)挖掘;暴建民,正高級(jí)工程師,碩士生導(dǎo)師,研究方向?yàn)槲锫?lián)網(wǎng)、大數(shù)據(jù)。 http://kns.cnki.net/kcms/detail/61.1450.TP.20170719.1112.076.html TP301 A 1673-629X(2017)11-0088-04 10.3969/j.issn.1673-629X.2017.11.0192 實(shí) 驗(yàn)
3 結(jié)束語(yǔ)