王 紅,張燕平,錢(qián)付蘭,陳功平
1.安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230601
2.六安職業(yè)技術(shù)學(xué)院 信息與電子工程學(xué)院,安徽 六安 237158
EM最優(yōu)參數(shù)求解的概率粗糙集推薦算法*
王紅1,2+,張燕平1,錢(qián)付蘭1,陳功平2
1.安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230601
2.六安職業(yè)技術(shù)學(xué)院 信息與電子工程學(xué)院,安徽 六安 237158
WANG Hong,ZHANG Yanping,QIAN Fulan,et al.Recommendation algorithm of probability rough set based on optimal parameters of EM.Journal of Frontiers of Computer Science and Technology,2016,10(2):285-292.
推薦系統(tǒng)根據(jù)用戶(hù)對(duì)項(xiàng)目的歷史評(píng)分實(shí)施推薦,評(píng)分矩陣的稀疏性導(dǎo)致推薦的先驗(yàn)知識(shí)不足,降低推薦準(zhǔn)確率。粗糙集理論能夠利用不完備知識(shí)實(shí)施有效推理,從而提出了基于人口統(tǒng)計(jì)學(xué)的概率粗糙集推薦模型,使用概率粗糙集理論劃分等價(jià)類(lèi),降低了評(píng)分矩陣稀疏性對(duì)推薦結(jié)果的影響。使用基于最大期望(expectation maximization,EM)思想的參數(shù)求解算法求解參數(shù)α和β的最優(yōu)值,將Pawlak粗糙集的邊界域分解到正域或負(fù)域中,提升推薦效果。實(shí)驗(yàn)結(jié)果表明,概率粗糙集模型能夠有效提高在評(píng)分矩陣非常稀疏情況下的推薦準(zhǔn)確率,其在MovieLens數(shù)據(jù)集上的推薦準(zhǔn)確率最高達(dá)到71.42%,覆蓋率指標(biāo)最高達(dá)到99.18%。
粗糙集;推薦算法;參數(shù)求解;最大期望(EM)算法
網(wǎng)絡(luò)的普及應(yīng)用導(dǎo)致信息過(guò)載(information overload)問(wèn)題[1],用戶(hù)渴望去蕪存菁,讓感興趣的信息脫穎而出,減少檢索時(shí)間。推薦系統(tǒng)(recommender system,RS)[2]不僅能夠緩解信息過(guò)載問(wèn)題,還能挖掘用戶(hù)的潛在興趣。網(wǎng)頁(yè)上隨處可見(jiàn)的“猜你喜歡”、“好友推薦”等就是推薦系統(tǒng)的典型應(yīng)用。
推薦系統(tǒng)從用戶(hù)的歷史行為中挖掘用戶(hù)興趣從而實(shí)施推薦。一般使用評(píng)分矩陣中的分值高低刻畫(huà)用戶(hù)與項(xiàng)目之間的喜好程度關(guān)系。真實(shí)的推薦系統(tǒng)中由于每個(gè)用戶(hù)所關(guān)注的項(xiàng)目數(shù)量有限,導(dǎo)致評(píng)分矩陣十分稀疏,這對(duì)推薦結(jié)果的準(zhǔn)確率影響較大。
粗糙集[3]理論能夠使用不完備的模糊知識(shí)實(shí)施推理。推薦系統(tǒng)中稀疏的評(píng)分矩陣是一種典型的不完備知識(shí)系統(tǒng),為了能夠在不完備的評(píng)分矩陣中實(shí)施合理的推理,提高推薦準(zhǔn)確率,本文研究概率粗糙集理論在推薦系統(tǒng)中的應(yīng)用。首先將評(píng)分矩陣作為概率粗糙集理論的屬性庫(kù),保留評(píng)分?jǐn)?shù)量最多的前n個(gè)項(xiàng)目的評(píng)分矩陣作為條件屬性;其次采用基于最大期望(expectation maximization,EM)思想的最優(yōu)參數(shù)求解算法,將F-Score評(píng)價(jià)指標(biāo)作為期望值,以Pawlak粗糙集模型為起點(diǎn),學(xué)習(xí)參數(shù)α、β的最優(yōu)值;最后分解Pawlak粗糙集模型的邊界域到正域或負(fù)域,從等價(jià)類(lèi)中挖掘規(guī)則實(shí)施推薦,提高推薦的準(zhǔn)確率。
實(shí)驗(yàn)表明,概率粗糙集推薦模型在MovieLens 100k數(shù)據(jù)集上的推薦準(zhǔn)確率最高達(dá)到71.42%,覆蓋率指標(biāo)最高達(dá)到99.18%,比Pawlak粗糙集模型的性能更優(yōu)。
本文組織結(jié)構(gòu)如下:第2章介紹了推薦系統(tǒng)的發(fā)展及使用粗糙集理論實(shí)施推薦的相關(guān)研究;第3章詳細(xì)介紹了概率粗糙集推薦模型的原理和算法;第4章使用MovieLens 100k數(shù)據(jù)集驗(yàn)證算法的有效性,分析實(shí)驗(yàn)結(jié)果;第5章總結(jié)全文并展望未來(lái)工作方向。
推薦系統(tǒng)的任務(wù)是將用戶(hù)(user)感興趣的項(xiàng)目(item)按照推薦算法從項(xiàng)目源中篩選出來(lái),激發(fā)用戶(hù)做某件事的欲望,提高網(wǎng)站的訪問(wèn)量,增長(zhǎng)客戶(hù)瀏覽網(wǎng)站的時(shí)間。對(duì)于在線交易類(lèi)網(wǎng)站,推薦有助于激發(fā)客戶(hù)的潛在興趣,提升銷(xiāo)售業(yè)績(jī)。
協(xié)同過(guò)濾推薦算法[4](collaborative filtering,CF)根據(jù)用戶(hù)的歷史行為實(shí)施推薦。基于用戶(hù)最近鄰協(xié)同過(guò)濾推薦(UserCF)從目標(biāo)用戶(hù)關(guān)聯(lián)的項(xiàng)目出發(fā),得到興趣相似用戶(hù)集,將集合中用戶(hù)感興趣且和目標(biāo)用戶(hù)未關(guān)聯(lián)的Top-N項(xiàng)目推薦給目標(biāo)用戶(hù);基于項(xiàng)目的最近鄰?fù)扑]算法(ItemCF)先計(jì)算項(xiàng)目間的相似度,然后根據(jù)項(xiàng)目的相似度和用戶(hù)的歷史行為生成推薦列表。
基于人口統(tǒng)計(jì)學(xué)的推薦算法是協(xié)同過(guò)濾推薦算法的擴(kuò)展,從大量用戶(hù)的歷史行為中學(xué)習(xí)規(guī)則實(shí)施推薦,屬于統(tǒng)計(jì)推理范疇[5]。本文提出的概率粗糙集模型中的等價(jià)類(lèi)(條件屬性)和決策屬性就采用統(tǒng)計(jì)推理原理,借助集群智慧,根據(jù)用戶(hù)的個(gè)人屬性完成推薦。
粗糙集的經(jīng)典模型為Pawlak模型,僅考慮模型中絕對(duì)正確的正負(fù)域,不考慮正確與錯(cuò)誤參半的邊界域[6],而在實(shí)際應(yīng)用中,合理利用邊界域能夠達(dá)到更理想的效果[7]。概率粗糙集模型[8-9]使用α、β參數(shù)來(lái)分解邊界域到正域或負(fù)域,常用的概率粗糙集模型有決策理論粗糙集模型[10]、貝葉斯粗糙集模型[11]、變精度粗糙集模型[12]等。
近幾年,粗糙集理論在推薦系統(tǒng)研究領(lǐng)域得到了較多的關(guān)注。Kudo等人[13]通過(guò)用戶(hù)的歷史查詢(xún)數(shù)據(jù)構(gòu)造粗糙集決策規(guī)則,推薦滿(mǎn)足決策規(guī)則的產(chǎn)品給用戶(hù),在構(gòu)造粗糙集過(guò)程中僅利用用戶(hù)自身的歷史數(shù)據(jù),沒(méi)有考慮協(xié)同推薦的融合;Kashima等人[14]通過(guò)用戶(hù)對(duì)菜單的選擇形成簡(jiǎn)單規(guī)則實(shí)施推薦;Azam等人[15]采用博弈理論訓(xùn)練推薦模型的參數(shù),將推薦精度和一般性指標(biāo)作為博弈理論的雙方,以得到合適的參數(shù)值。參數(shù)學(xué)習(xí)和推薦時(shí)沒(méi)有考慮數(shù)據(jù)稀疏性問(wèn)題,僅從MovieLens數(shù)據(jù)集中隨機(jī)選擇10部訪問(wèn)量較高的電影進(jìn)行10倍交叉實(shí)驗(yàn),驗(yàn)證算法有效性,沒(méi)有考慮到全數(shù)據(jù)集的推薦應(yīng)用問(wèn)題,也沒(méi)有提到粗糙集中屬性約簡(jiǎn)方法,對(duì)于算法的下一步應(yīng)用沒(méi)有提出解決策略。
為了解決Pawlak粗糙集模型不能容錯(cuò)的問(wèn)題,概率粗糙集模型是利用集合X與邊界域等價(jià)關(guān)系的重疊度,借助參數(shù)α、β細(xì)化Pawlak粗糙集模型的邊界域而得到的新模型[16]。
當(dāng)參數(shù)α=1,β=0時(shí),概率粗糙集模型轉(zhuǎn)化為Pawlak粗糙集模型;當(dāng)α<1時(shí),Pawlak粗糙集模型中的一部分邊界域?qū)澐值秸蛑?,?dāng)β>0時(shí),一部分邊界域?qū)澐值截?fù)域中,將Pawlak粗糙集模型轉(zhuǎn)化為概率粗糙集模型[17]。
3.1基于概率粗糙集的推薦
基于概率粗糙集的推薦要先從信息表中訓(xùn)練出決策表,然后從決策表中獲得推薦策略實(shí)施推薦。表1是一個(gè)小數(shù)量的用戶(hù)對(duì)電影的評(píng)價(jià)矩陣,可看作一張信息表,這里將電影1~電影3的評(píng)價(jià)作為條件屬性,電影4的評(píng)價(jià)作為決策屬性。
Table 1 Rating of movies表1 電影評(píng)分表
3.1.1劃分等價(jià)關(guān)系
將條件屬性值相同的用戶(hù)劃分到同一等價(jià)類(lèi)中,劃分結(jié)果如表2的第1列所示。
Table 2 Equivalence class partitioning and conditional probability calculation based on Table 1表2 基于表1的等價(jià)類(lèi)劃分及條件概率計(jì)算
3.1.2計(jì)算條件概率
由表1可得出R1類(lèi)對(duì)電影4的評(píng)分全部為1,即R1等價(jià)類(lèi)對(duì)電影4評(píng)分為1的概率為100%,若有新用戶(hù)劃分到R1,基于人口統(tǒng)計(jì)學(xué)的統(tǒng)計(jì)推理認(rèn)為新用戶(hù)對(duì)電影4評(píng)分為1的概率是100%;R2對(duì)電影4的評(píng)分為1的概率為2/3=66.67%。以此類(lèi)推,得到電影4的決策表如表3所示。
3.1.3選擇評(píng)價(jià)指標(biāo)
推薦系統(tǒng)的評(píng)價(jià)指標(biāo)有很多,如召回率(Recall)、準(zhǔn)確率(Precision)、覆蓋率(Coverage)、F-Score等,鑒于粗糙集推薦的特殊性,以準(zhǔn)確率、覆蓋率以及兩個(gè)指標(biāo)為參數(shù)的F-Score值作為評(píng)價(jià)指標(biāo)[18],計(jì)算公式為:
Table 3 Decision table of Movie 4表3 電影4的決策表
其中,C表示正域的預(yù)測(cè)結(jié)果集,C-表示負(fù)域的預(yù)測(cè)結(jié)果集,若C集合值取1,則C-集合值取-1。
準(zhǔn)確率體現(xiàn)推薦的正確概率,覆蓋率體現(xiàn)推薦的廣度,若覆蓋率為100%,表示邊界域全部被劃分到正域或負(fù)域中。
對(duì)于決策表3,當(dāng)α=1,β=0時(shí),正域、負(fù)域和邊界域分別為POS1,0(X)=R1?R3,NEG1,0(X)=R4?R6,BND1,0(X)=R2?R5,根據(jù)式(1)和(2),Precision= 100%,Coverage=50%,即推薦的準(zhǔn)確率為100%,但只能為50%的用戶(hù)實(shí)施推薦,另外的50%用戶(hù)因處于邊界域而無(wú)法實(shí)施推薦,F(xiàn)-Score=0.67。
當(dāng)α=0.5,β=0.5時(shí),POS0.5,0.5(X)=R1?R2?R3?R5,NEG0.5,0.5(X)=R4?R6,BND0.5,0.5(X)=φ,此時(shí)Precision=86.7%,Coverage=100%,犧牲13.3%的準(zhǔn)確率,提高50%的推薦廣度,F(xiàn)-Score=0.93。
因此為了提升推薦效果,在實(shí)際應(yīng)用時(shí),α、β參數(shù)需要通過(guò)學(xué)習(xí)獲得具體取值。
3.2基于EM思想的最優(yōu)參數(shù)求解算法
3.2.1推薦流程
全數(shù)據(jù)集下的概率粗糙集模型訓(xùn)練流程如圖1所示。其中求解參數(shù)α、β的最優(yōu)解是提升推薦效果的關(guān)鍵步驟。
Fig.1 Training flow chart of probabilistic rough set recommendation model圖1 概率粗糙集推薦模型的訓(xùn)練流程圖
3.2.2基于EM思想的最優(yōu)參數(shù)求解算法
EM算法[19]是一種求解參數(shù)最大似然估計(jì)的迭代算法,在參數(shù)估計(jì)求解中應(yīng)用廣泛。這里使用EM算法思想求解使得F-Score值最優(yōu)時(shí)的α、β參數(shù)值。
以Pawlak粗糙集模型為起點(diǎn),即α、β的初始值為1和0,將項(xiàng)目i在參數(shù)α、β下的F-Score值定義為EM算法中的E步驟,即將F-Score作為期望值,求解使得F-Score值最高時(shí)的α、β值。
要使得F-Score值最優(yōu),可降低參數(shù)α值和增加參數(shù)β值。這里M步驟的作用就是慢慢改變初始參數(shù)值,分解邊界域,分為3種選擇,F(xiàn)1=F-Score(α↓),降低α?xí)r的期望值;F2=F-Score(β↑),增加β時(shí)的期望值;F3=F-Score(α↓β↑),降低α且增加β時(shí)的期望值。然后將F1、F2、F3中期望值最優(yōu)且高于當(dāng)前FScore值的參數(shù)重新賦值給α、β,具體如下。
E步驟 根據(jù)式(3)計(jì)算F=F-Score(α,β)。
M步驟 根據(jù)式(3)和參數(shù)改變速率Radio計(jì)算F1,F(xiàn)2,F(xiàn)3的值。
Radio控制α、β參數(shù)降低和增加的速率,求解α、β參數(shù)最優(yōu)值的算法如下所示。
算法1基于EM思想的參數(shù)求解算法
使用MovieLens 100k數(shù)據(jù)集驗(yàn)證文中所提出的基于概率粗糙集的推薦,該數(shù)據(jù)集是由GroupLens工作小組發(fā)布的可用于數(shù)據(jù)挖掘、推薦系統(tǒng)等科研領(lǐng)域的數(shù)據(jù)集,電影評(píng)分記錄約10萬(wàn)條,每條評(píng)分記錄由用戶(hù)id、電影id和評(píng)分值組成,評(píng)分值可取1到5的整數(shù),數(shù)據(jù)集簡(jiǎn)介如表4所示。
Table 4 Data set introduction of MovieLens表4 MovieLens數(shù)據(jù)集簡(jiǎn)介
將電影評(píng)分表按照用戶(hù)id排序再以每用戶(hù)8∶2的比例劃分為訓(xùn)練集Train和測(cè)試集Test,因部分電影的評(píng)分記錄少,可能只在訓(xùn)練集或測(cè)試集中出現(xiàn)。
4.1條件屬性個(gè)數(shù)n
從Train中提取電影1的評(píng)價(jià)矩陣,Train(1)有350行、1 682列有效數(shù)據(jù),Train(50)有468行、1 682列有效數(shù)據(jù),按照算法1中等價(jià)類(lèi)的學(xué)習(xí)規(guī)則,條件屬性個(gè)數(shù)n與等價(jià)類(lèi)數(shù)量的關(guān)系如表5所示。
Table 5 Relationship betweennand the number of equivalent classes表5 n與等價(jià)類(lèi)數(shù)量的關(guān)系
n=15時(shí),等價(jià)類(lèi)數(shù)與Train(i)的行數(shù)差值很小,劃分的集合粗糙度小;n=5時(shí),等價(jià)類(lèi)數(shù)量與Train(i)的行數(shù)差值較大,劃分集合的粗糙度相對(duì)較高。綜上,n取5~10之間的值較合理。
4.2測(cè)試結(jié)果與分析
評(píng)分值可取1到5的整數(shù),將5級(jí)評(píng)分簡(jiǎn)化為2級(jí)評(píng)分,設(shè)置劃分值γ,第1組γ=3,即1、2、3分標(biāo)記為-1,4、5分標(biāo)記為1;第2組γ=4,即1、2、3、4分標(biāo)記為-1,5分標(biāo)記為1。
4.2.1不同n值的實(shí)驗(yàn)
表6是γ=4時(shí)不同n值下的推薦效果比較。
Table 6 Recommended effect of γ=4表6 γ=4的推薦效果
表6中“EN”列表示在決策表中找不到等價(jià)類(lèi)的項(xiàng)目數(shù),“BND”列表示在決策表中能找到等價(jià)類(lèi),但處于邊界域的項(xiàng)目數(shù),Pre、Cov分別表示準(zhǔn)確率和覆蓋率。由表6可見(jiàn),n值越大,找不到等價(jià)類(lèi)的記錄越多,當(dāng)n=5時(shí),測(cè)試集Test的總體評(píng)價(jià)值最優(yōu),經(jīng)驗(yàn)證,對(duì)其他劃分值n取5時(shí)評(píng)價(jià)值都是最優(yōu),后文無(wú)特別說(shuō)明n值取5。
4.2.2不同γ值的實(shí)驗(yàn)
圖2是兩組實(shí)驗(yàn)中Test和Train集合推薦效果比較,當(dāng)劃分值取4時(shí)Test集合的推薦準(zhǔn)確度為71.42%,取3時(shí)只有58.77%,整個(gè)模型的覆蓋率指標(biāo)都非常高,即幾乎可以為所有用戶(hù)實(shí)施推薦。
4.2.3不同推薦模型的實(shí)驗(yàn)
由第3章可知,Pawlak粗糙集模型可以使訓(xùn)練集的推薦準(zhǔn)確率達(dá)到100%,但覆蓋率是最低的。表7是Train集合在概率粗糙集推薦模型與Pawlak粗糙集模型下的3項(xiàng)指標(biāo)值。
表7中A表示“Pawlak粗糙集模型”,B表示“概率粗糙集模型”,由數(shù)據(jù)可見(jiàn),準(zhǔn)確率差值較小,最大達(dá)到11.92%,覆蓋率差值較大,最大達(dá)到33.29%,因此Train集合的概率粗糙集推薦模型和綜合指標(biāo)優(yōu)于Pawlak粗糙集模型。
圖3更直觀地體現(xiàn)了Train集合在不同推薦模型下的各項(xiàng)指標(biāo)比較。
Fig.2 Recommended effect of different γ圖2 不同γ值的推薦效果
Table 7 Recommended effect of Train set under different models表7 Train集合在不同推薦模型下的效果
Fig.3 Recommended effect of Train set under different models圖3 Train集合在不同推薦模型下的效果
表8是Test集合在不同模型下的3項(xiàng)指標(biāo)值。
Table 8 Recommended effect of Test set under different models表8 Test集合在不同推薦模型下的效果
與Train集合一樣,在劃分值相同時(shí),準(zhǔn)確率差值較小,最大差值不到3.00%,覆蓋率差值最大達(dá)到34.41%,因此Test集合的概率粗糙集模型和綜合指標(biāo)優(yōu)于Pawlak粗糙集模型。
圖4是Test集合在兩種推薦模型下的各項(xiàng)指標(biāo)比較。
Fig.4 Recommended effect of Train set under different γ圖4 Test集合的不同γ值的推薦效果
概率粗糙集推薦模型可以降低評(píng)分矩陣稀疏性對(duì)推薦精度的影響,α、β參數(shù)將粗糙集中的邊界域合理地分配到正域或負(fù)域中,基于EM思想的參數(shù)學(xué)習(xí)算法能夠很好地找到使得當(dāng)前項(xiàng)目F-Score值最優(yōu)的參數(shù)值。在基于粗糙集理論的推薦算法中,處于邊界域的等價(jià)類(lèi)是無(wú)法實(shí)施推薦的,為了進(jìn)一步提高準(zhǔn)確率和覆蓋率,可以和協(xié)同過(guò)濾推薦算法結(jié)合,這將是下一步研究的內(nèi)容。當(dāng)前模型只能對(duì)兩級(jí)評(píng)分模式實(shí)施推薦,如何擴(kuò)展到多級(jí)評(píng)分模式也將是模型今后要解決的問(wèn)題。
References:
[1]Cao Hongjiang,Fu Kui.Research on clustering search method in collaborative filtering recommendation system[J].Computer Engineering andApplications,2014,50(5):16-20.
[2]Sun Guangfu,Wu Le,Liu Qi,et al.Recommendations basedon collaborative filtering by exploiting sequential behaviors[J]. Journal of Software,2013,24(11):2721-2733.
[3]Wang Guoyin,Yao Yiyu,Yu Hong.A survey on rough set theory and its application[J].Chinese Journal of Computers, 2009,32(7):1229-1246.
[4]Lin Hongli,Yang Xuedong,Wang Weisheng.A contentboosted collaborative filtering algorithm for personalized training in interpretation of radiological imaging[J].Journal of Digital Imaging,2014,27(4):449-456.
[5]Jiao Dongjun.Collaborative filtering algorithm based on user demographics and expert opinions[J].Computer Engineering &Science,2015,37(1):179-183.
[6]Guan Lihe,Wang Guoyin,Yu Hong.Incremental algorithm of Pawlak reduction based on attribute order[J].Journal of Southwest Jiaotong University,2011,46(3):461-468.
[7]Ma Xi’ao,Wang Guoyin,Yu Hong,et al.Decision region distribution preservation reduction in decision-theoretic rough set model[J].Information Sciences,2014,278(10): 614-640.
[8]Yao Yiyu.Probabilistic rough set approximations[J].International Journal of Approximate Reasoning,2007,49(2): 255-271.
[9]Azam N,Yao Jingtao.Analyzing uncertainties of probabilistic rough set regions with game-theoretic rough sets[J].Elsevier Journal,2014,55(1):142-155.
[10]Guo Min,Jia Xiuyi,Shang Lin.Decision-theoretic rough set attribute reduction and classification based on fuzzification[J]. Pattern Recognition and Artificial Intelligence,2014,27(8): 701-707.
[11]?le?zak D,Ziarko W.The investigation of the Bayesian rough set model[J].International Journal of Approximate Reasoning,2005,40(1):81-91.
[12]Yang Yanyan,Chen Degang,Dong Ze.Novel algorithms of attribute reduction with variable precision rough set model[J]. Neurocomputing,2014,139(2):336-344.
[13]Kudo Y,Amano S,Seino T,et al.A simple recommendation system based on rough set theory[J].KANSEI Engineering International,2010,6(3):19-24.
[14]Kashima T,Matsumoto S,Ishii H.Decision support system for menu recommendation using rough sets[J].International Journal of Innovative Computing,Information and Control, 2011,7(5B):2799-2808.
[15]Azam N,Yao Jingtao.Game-theoretic rough sets for recommender systems[J].Knowledge-Based Systems,2014,72: 96-107.
[16]Wang Lei,Li Tianrui.Matrix-based computational method for upper and lower approximations of rough sets[J].Pattern Recognition and Artificial Intelligence,2011,24(6): 756-762.
[17]Wang Guoyin,Zhang Qinghua.Uncertainty of rough sets in different knowledge granularities[J].Chinese Journal of Computers,2008,31(9):1588-1598.
[18]Zhu Yangyong,Sun Jing.Research and development on recommender system[J].Journal of Frontiers of Computer Science and Technology,2015,9(5):513-525.
[19]Wang Ge,Yu Hongyi,Shen Zhixiang,et al.A fast convergence parameter estimation method based on expectation maximum(EM)algorithm[J].Journal of Jilin University: Engineering and Technology Edition,2013,43(2):532-537.
附中文參考文獻(xiàn):
[1]曹洪江,傅魁.協(xié)同過(guò)濾推薦系統(tǒng)中聚類(lèi)搜索方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(5):16-20.
[2]孫光福,吳樂(lè),劉淇,等.基于時(shí)序行為的協(xié)同過(guò)濾推薦算法[J].軟件學(xué)報(bào),2013,24(11):2721-2733.
[3]王國(guó)胤,姚一豫,于洪.粗糙集理論與應(yīng)用研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2009,32(7):1229-1246.
[5]焦東俊.基于用戶(hù)人口統(tǒng)計(jì)與專(zhuān)家信任的協(xié)同過(guò)濾算法[J].計(jì)算機(jī)工程與科學(xué),2015,37(1):179-183.
[6]官禮和,王國(guó)胤,于洪.屬性序下的增量式Pawlak約簡(jiǎn)算法[J].西南交通大學(xué)學(xué)報(bào),2011,46(3):461-468.
[10]郭敏,賈修一,商琳.基于模糊化的決策粗糙集屬性約簡(jiǎn)和分類(lèi)[J].模式識(shí)別與人工智能,2014,27(8):701-707.
[16]王磊,李天瑞.基于矩陣的粗糙集上下近似的計(jì)算方法[J].模式識(shí)別與人工智能,2011,24(6):756-762.
[17]王國(guó)胤,張清華.不同知識(shí)粒度下粗糙集的不確定性研究[J].計(jì)算機(jī)學(xué)報(bào),2008,31(9):1588-1598.
[18]朱揚(yáng)勇,孫婧.推薦系統(tǒng)研究進(jìn)展[J].計(jì)算機(jī)科學(xué)與探索, 2015,9(5):513-525.
[19]王戈,于宏毅,沈智翔,等.一種基于EM算法的快速收斂參數(shù)估計(jì)方法[J].吉林大學(xué)學(xué)報(bào):工學(xué)版,2013,43(2): 532-537.
王紅(1983—),女,安徽霍邱人,2011年于安徽大學(xué)獲得碩士學(xué)位,現(xiàn)為六安職業(yè)技術(shù)學(xué)院講師,主要研究領(lǐng)域?yàn)閭€(gè)性化推薦,數(shù)據(jù)庫(kù)技術(shù)。
ZHANG Yanping was born in 1962.She is a professor and Ph.D.supervisor at School of Computer Science and Technology,Anhui University.Her research interests include quotient space and intelligent computing.
張燕平(1962—),女,安徽巢湖人,安徽大學(xué)計(jì)算機(jī)與科學(xué)技術(shù)學(xué)院教授、博士生導(dǎo)師,主要研究領(lǐng)域?yàn)樯炭臻g,智能計(jì)算。
錢(qián)付蘭(1978—),女,安徽蚌埠人,2005年于安徽大學(xué)獲得碩士學(xué)位,現(xiàn)為安徽大學(xué)博士研究生,CCF會(huì)員,主要研究領(lǐng)域?yàn)樯缃痪W(wǎng)絡(luò),個(gè)性化推薦。
陳功平(1980—),男,安徽六安人,2012年于合肥工業(yè)大學(xué)獲得碩士學(xué)位,現(xiàn)為六安職業(yè)技術(shù)學(xué)院講師,主要研究領(lǐng)域?yàn)閭€(gè)性化推薦,網(wǎng)絡(luò)技術(shù)。
Recommendation Algorithm of Probability Rough Set Based on Optimal Parameters of EM*
WANG Hong1,2+,ZHANG Yanping1,QIAN Fulan1,CHEN Gongping2
1.School of Computer Science and Technology,Anhui University,Hefei 230601,China
2.College of Information and Electronic Engineering,Lu’an Vocation Technology College,Lu’an,Anhui 237158,China
+Corresponding author:E-mail:wh0115140@126.com
Recommender systems recommend items to users according to the historical ratings of items.Used to express these historical ratings,the rating matrix usually has the character of sparsity which can lead to the lack of prior knowledge and the decrease of recommendation accuracy.Rough set theory can use incomplete knowledge to effectively reasoning.This paper proposes a recommendation model of probability rough set based on demographic, which is equivalent to the classification of rough set theory,and reduces the effect of sparsity of the rating matrix. This paper uses EM(expectation maximization)algorithm to solve the optimal parameters of α and β,decomposes the Pawlak boundary region into the positive or negative domains according to the parameters,and promotes the recommendation effect.The experimental results show that the probability rough set model can effectively improve therecommendation accuracy.And the recommendation accuracy reaches 71.42%,and the coverage rate reaches 99.18% in the MovieLens test set.
2015-06,Accepted 2015-08.
rough set;recommendation algorithm;solving paramaters;expectation maximization(EM)algorithm
WANG Hong was born in 1983.She the M.S.degree from Anhui University in 2011.Now she is a lecturer at Lu’an Vocation Technology College.Her research interests include personalized recommendation and database technology.
QIAN Fulan was born in 1978.She the M.S.degree from Anhui University in 2005.Now she is a Ph.D. candidate at Anhui University,and the member of CCF.Her research interests include social networks and personalized recommendation.
CHEN Gongping was born in 1980.He the M.S.degree from Hefei University of Technology in 2012. Now he is a lecturer at Lu’an Vocation Technology College.His research interests include personalized recommendation and network technology.
10.3778/j.issn.1673-9418.1506015
*The Humanities and Social Sciences Youth Fund of Ministry of Education of China under Grant No.14YJC860020(教育部人文社科青年基金項(xiàng)目);the Higher School Youth Talent Support Plan of Anhui Province in 2014(安徽省2014年高校優(yōu)秀青年人才支持計(jì)劃);the Natural Science Research Project of Higher School of Anhui Province under Grant No.KJ2015A435(安徽省高校自然科學(xué)研究重點(diǎn)項(xiàng)目);the Higher School Youth Talent Support Plan Key Project ofAnhui Province in 2016 under Grant No.gxyqZD2016570 (安徽省2016年高校優(yōu)秀青年人才支持計(jì)劃重點(diǎn)項(xiàng)目).
CNKI網(wǎng)絡(luò)優(yōu)先出版:2015-08-12,http://www.cnki.net/kcms/detail/11.5602.TP.20150812.1634.006.html
A
TP301