繆 峰,賈華丁,熊于寧
(西南財(cái)經(jīng)大學(xué) 經(jīng)濟(jì)信息工程學(xué)院,成都 610074)
近年來,隨著互聯(lián)網(wǎng)技術(shù)、信息技術(shù)、移動(dòng)通信和硬件技術(shù)的發(fā)展,使用移動(dòng)智能設(shè)備上網(wǎng)的人數(shù)已經(jīng)超過使用普通電腦上網(wǎng)人數(shù),同時(shí)針對(duì)性地也出現(xiàn)了豐富多彩的各種移動(dòng)網(wǎng)絡(luò)服務(wù)。但是移動(dòng)智能設(shè)備存在著顯示界面小、電源持續(xù)使用時(shí)間短、輸入輸出能力有限等問題,從而使得移動(dòng)用戶難以實(shí)時(shí)獲取自己所真正需求的服務(wù),造成了嚴(yán)重的移動(dòng)信息過載或移動(dòng)信息迷失等問題[1]。移動(dòng)推薦系統(tǒng)的目的是從過載的信息中識(shí)別出用戶感興趣的內(nèi)容,解決上述問題。其近年來已成為推薦系統(tǒng)研究領(lǐng)域最為活躍的課題之一[2-3],而找到跟目標(biāo)用戶興趣相似的鄰居集是其中非常關(guān)鍵的一個(gè)環(huán)節(jié)[4]。
傳統(tǒng)的近似鄰居集選取方法忽略了服務(wù)之間的相似性,從而遺漏部分具有相似興趣的用戶。部分研究者提出根據(jù)標(biāo)簽、分類或評(píng)分來計(jì)算服務(wù)之間的相似性,但是在移動(dòng)服務(wù)提供平臺(tái)中存在分類較粗、標(biāo)簽缺失、評(píng)分矩陣稀疏等問題,從而使得現(xiàn)有方法無法直接應(yīng)用到移動(dòng)服務(wù)方面。服務(wù)介紹是提供移動(dòng)服務(wù)必須的一個(gè)內(nèi)容,其說明服務(wù)的功能和作用。為此,本文基于服務(wù)介紹內(nèi)容,通過短文本相似度計(jì)算方法求出服務(wù)之間的相似性,從而將服務(wù)相似度考慮進(jìn)用戶相似計(jì)算中,找出真正具有相似興趣的用戶集,針對(duì)冷啟動(dòng)等原因造成目標(biāo)用戶近似鄰居集數(shù)量過于龐大的問題,提出一種分步篩選用戶鄰居集的方法。
用戶相似度的度量方法主要分為2種:一種是Correlation相似度方法,即通過用戶對(duì)項(xiàng)目的評(píng)分來計(jì)算,余弦相似度、Pearson系數(shù)、歐幾里德距離相似度、斯皮爾曼等級(jí)關(guān)聯(lián)法都屬于此類[5];另一種是Relevance相似度方法,即通過用戶對(duì)相同項(xiàng)目的瀏覽、使用等來計(jì)算,如Jaccard方法、對(duì)數(shù)似然相似度法等[6-7]。傳統(tǒng)的相似度度量方法隨著項(xiàng)目數(shù)量的不斷增大導(dǎo)致評(píng)分矩陣稀疏,且沒有考慮服務(wù)之間的相似性,使得用戶之間的相似度計(jì)算結(jié)果不夠準(zhǔn)確。例如2個(gè)用戶分別使用了“愛奇藝”和“優(yōu)酷”2個(gè)服務(wù),傳統(tǒng)方法認(rèn)為2個(gè)用戶使用的是不同的項(xiàng)目,不具有相似性。但從興趣角度出發(fā),2個(gè)用戶都體現(xiàn)出了對(duì)影音方面的興趣,應(yīng)具有相似性。越來越多的學(xué)者意識(shí)到了這個(gè)問題,開始了相關(guān)研究。有些學(xué)者考慮從項(xiàng)目類別方面計(jì)算服務(wù)相似度,部分文獻(xiàn)簡(jiǎn)單認(rèn)為2個(gè)服務(wù)同屬一個(gè)類別則相似度為1,否則為0。文獻(xiàn)[8]通過構(gòu)建類別樹從多層次多類別上考慮項(xiàng)目的相似性。這些方法要求項(xiàng)目的類別劃分較細(xì)致,而在移動(dòng)服務(wù)平臺(tái)中,類別的劃分較粗糙一般只有一個(gè)層次,因此,利用類別的方式來計(jì)算移動(dòng)服務(wù)之間的相似度是不適合的。另外的學(xué)者考慮從項(xiàng)目的屬性方面來分析項(xiàng)目相似性。其中部分文獻(xiàn)使用項(xiàng)目評(píng)分來計(jì)算項(xiàng)目相似度,如文獻(xiàn)[7]通過將(項(xiàng)目的評(píng)分次數(shù))/(項(xiàng)目所屬類型中所有項(xiàng)目被評(píng)分的總次數(shù))得到項(xiàng)目之間的興趣度特征向量,再代入絕對(duì)指數(shù)相似性計(jì)算公式,計(jì)算2個(gè)項(xiàng)目之間的興趣度相似性。然后將其與傳統(tǒng)的用戶相似度計(jì)算公式相結(jié)合。但是通常用戶對(duì)項(xiàng)目的評(píng)分矩陣稀疏,少量的評(píng)分?jǐn)?shù)據(jù)不能準(zhǔn)確的體現(xiàn)出項(xiàng)目之間的相似度。這種情況在移動(dòng)服務(wù)方面表現(xiàn)的特別明顯,例如安卓市場(chǎng)平臺(tái)中的“微信”評(píng)分次數(shù)(2016/10/30統(tǒng)計(jì))。文獻(xiàn)[9-10]構(gòu)建項(xiàng)目與常注標(biāo)簽的關(guān)聯(lián)矩陣,得到項(xiàng)目的標(biāo)簽特征向量,通過余弦相似度方法計(jì)算不同物品之間的標(biāo)簽向量的相似程度,從而描述不同物品之間的相似度。但是很多的移動(dòng)服務(wù)平臺(tái)中并沒有標(biāo)注服務(wù)的標(biāo)簽,因此,這種方法也不適用于移動(dòng)服務(wù)的相似度計(jì)算中。綜上所述,由于移動(dòng)服務(wù)存在分類較粗、相關(guān)屬性缺失等特點(diǎn),現(xiàn)有的項(xiàng)目相似度計(jì)算方法不適用于移動(dòng)服務(wù)方面。
服務(wù)介紹是發(fā)布服務(wù)時(shí)必不可少的一個(gè)項(xiàng)目,其說明了該服務(wù)的功能和作用。例如安卓市場(chǎng)中“我愛作文大全(1.0)”的介紹:“作文大全是一款旨在幫助學(xué)生更好的學(xué)習(xí)如何寫作的應(yīng)用軟件,我們收錄了近年高考滿分作文,高中優(yōu)秀作文,中考滿分作文、初中優(yōu)秀作文供學(xué)生鑒賞,還給喜歡寫作的同學(xué)們提供了大量的素材,以便學(xué)生們能寫出更加優(yōu)秀的作文出來。適用于小學(xué),初中,高中學(xué)生參考,再也不用花錢買紙質(zhì)作文材料了?!毕嗨频姆?wù)其提供的功能和作用也應(yīng)該是相似的,這就體現(xiàn)在不同服務(wù)的介紹內(nèi)容也應(yīng)該是相似的。因此本文通過分析服務(wù)介紹內(nèi)容之間的相似度來度量服務(wù)之間的相似度。服務(wù)介紹通常是較短的一段文字或幾句話,因此傳統(tǒng)的針對(duì)長(zhǎng)文本的文本相似度度量方法不適用于此種情況。針對(duì)短文本相似度的計(jì)算方法現(xiàn)有研究主要分為:
1)基于詞典的方法[11-12],其通常的做法是將短文本分解成多個(gè)詞,然后去掉無用的停用詞,再基于語義詞典計(jì)算詞與詞之間的語義相似度,最后將詞與詞的語義相似度綜合起來得到文本與文本的語義相似度。
2)基于大規(guī)模文本集進(jìn)行統(tǒng)計(jì)的方法,如具有代表型的潛在語義分析法(Latent Semantic Analysis,LSA),LSA能夠找出詞與詞之間的潛在聯(lián)系,獲取詞在文本上下文中的一些知識(shí)。
3)基于描述特征的方法[13],該類方法的核心在于選擇合適的特征值來表示文本,如文獻(xiàn)[13]從問題短文本中抽取實(shí)詞作為最初特征集,通過熵表示特征詞權(quán)重,再通過聚類的方式得到最后的特征集。
4)借助互聯(lián)網(wǎng)資源的方法[14-15],該類方法通過借助互聯(lián)網(wǎng)上的資源如wiki百科、百度百科、搜索引擎等來分析文本相似性。例如2個(gè)詞通過搜索引擎查找后返回的網(wǎng)頁數(shù)量,或通過2個(gè)詞在百科中的鏈接情況。在這些方法中,基于詞典的方法是目前運(yùn)用最為廣泛且十分有效的方法。
本節(jié)首先分析了基于服務(wù)介紹屬性的相似度計(jì)算方法,然后將得到的服務(wù)相似度納入到用戶相似度計(jì)算中,給出了一個(gè)用戶相似度計(jì)算方法。根據(jù)計(jì)算出的用戶相似度,本文提出了一個(gè)分步篩選近似鄰居集的方法。
文獻(xiàn)[13]提出了一種結(jié)合統(tǒng)計(jì)相似度和語義相似度的方法來計(jì)算答案之間的相似度,這種方法既結(jié)合了傳統(tǒng)的基于統(tǒng)計(jì)計(jì)算相似度方法的優(yōu)點(diǎn),又考慮了短文本自身的特性,更全面衡量了答案的相似度。但該方法在處理關(guān)鍵詞數(shù)量較多的短文本環(huán)境下存在一些不足,主要體現(xiàn)在2個(gè)方面:
1)在統(tǒng)計(jì)相似度計(jì)算中對(duì)所有關(guān)鍵詞賦予一樣的權(quán)重,未考慮關(guān)鍵詞對(duì)短文本的重要度?,F(xiàn)有研究表明短文本中出現(xiàn)次數(shù)較多的關(guān)鍵詞在相似度計(jì)算中應(yīng)具有較高的權(quán)重。例如在上述“我愛作文大全(1.0)”服務(wù)中提取的關(guān)鍵詞“作文”。
2)文獻(xiàn)[13]提出的雙向語義相似度計(jì)算方法未考慮服務(wù)之間關(guān)鍵詞數(shù)量相差較大的情況,使得計(jì)算結(jié)果偏向關(guān)鍵詞越少的服務(wù),從而使結(jié)果產(chǎn)生偏差。比如在“影音”類別下新增一個(gè)服務(wù)S,其簡(jiǎn)介內(nèi)容非常短,最后提取的關(guān)鍵詞集合為{節(jié)目,電影,播放,視頻}。這些關(guān)鍵詞在影音類別下是非常常見的關(guān)鍵詞,最后結(jié)果會(huì)發(fā)現(xiàn)服務(wù)S與影音類別下的其他服務(wù)之間都會(huì)具有較高的相似度,這明顯是不合理的。
本文利用“安卓市場(chǎng)”中的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)也表明了這一點(diǎn),如關(guān)鍵詞數(shù)量相差較大而功能不同的2個(gè)服務(wù)3245(和訊基金)和4391(手機(jī)無線管理)的語義相似度計(jì)算結(jié)果為0.818 153。服務(wù)的介紹內(nèi)容越詳細(xì),表示對(duì)該服務(wù)的功能描述越全面,其在語義相似度計(jì)算中應(yīng)給于更高的重視。
本文提出一種改進(jìn)的移動(dòng)服務(wù)融合相似度計(jì)算方法(Comprehensive Mobile Services Similarity Calculation Method,CMSSCM)。其具體過程如下:
步驟1將服務(wù)介紹進(jìn)行分詞,提取出能夠表現(xiàn)出服務(wù)功能和作用的關(guān)鍵詞集。
本文采用曾獲得多項(xiàng)獎(jiǎng)項(xiàng),具有微博分詞、新詞發(fā)現(xiàn)等功能的NLPIR漢語分詞系統(tǒng)(又名ICTCLAS2013)對(duì)服務(wù)介紹進(jìn)行中文分詞及詞性標(biāo)注。分詞后得到的詞語集合中更關(guān)注的是能夠體現(xiàn)出服務(wù)功能和作用的關(guān)鍵詞。通過對(duì)服務(wù)介紹和已有關(guān)鍵詞研究工作分析,發(fā)現(xiàn)關(guān)鍵詞一般是以名詞為主的具有實(shí)際意義的詞語。所以,將得到的詞語集合中的介詞、助詞、代詞、動(dòng)詞等過濾掉。最后得到服務(wù)介紹的關(guān)鍵詞集合:
NS_Ni={NAi1(n1),NAi2(n2),…,NAim(nm)}
其中,NA代表關(guān)鍵詞,nm代表關(guān)鍵詞出現(xiàn)的次數(shù)。
步驟2基于余弦相似度方法計(jì)算服務(wù)之間的統(tǒng)計(jì)相似度SIMstatistic。
首先根據(jù)服務(wù)介紹的關(guān)鍵詞集合構(gòu)建服務(wù)的特征向量。假設(shè)有服務(wù)I和J,其關(guān)鍵詞集合分別為NS_Ni和NS_NJ。其合集為NS_NIJ=NS_Ni∪NS_NJ。服務(wù)I和J的特征向量VI和VJ基于NS_NIJ來構(gòu)建,其中向量的維度等于合集中詞的個(gè)數(shù),每一維對(duì)應(yīng)合集中的一個(gè)詞。如果一個(gè)關(guān)鍵詞在短文本中出現(xiàn)次數(shù)較多,則更能體現(xiàn)出短文本的主題,如上述服務(wù)“我愛作文大全(1.0)”中的“作文”關(guān)鍵詞。將向量中對(duì)應(yīng)的分量的值等于該詞在服務(wù)介紹中出現(xiàn)的次數(shù),如果沒有出現(xiàn)過則等于0。
例如2個(gè)服務(wù)關(guān)鍵詞集合NS_Ni={高考作文(2),作文(3),應(yīng)用軟件(1),小學(xué)(1),高中(1)}和NS_Nj={作文(3),記敘文(1),應(yīng)用文(2)},則NS_NIJ={高考作文,作文,應(yīng)用軟件,小學(xué),高中,記敘文,應(yīng)用文}。因此,這2個(gè)服務(wù)特征向量的維度為7,它們的向量分別為:
Vi={2,3,1,1,1,0,0}
Vj={0,3,0,0,0,1,2}
然后,基于2個(gè)向量Vi和Vj用余弦相似度計(jì)算它們的統(tǒng)計(jì)相似度:
(1)
步驟3基于語義詞典計(jì)算2個(gè)服務(wù)的語義相似度SIMsemantic。
知網(wǎng)(HowNet)是一個(gè)以漢語和英語的詞語所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫。本文選擇知網(wǎng)作為語義詞典,利用文獻(xiàn)[16]算法計(jì)算詞匯間的相似度scm。本文認(rèn)為一個(gè)服務(wù)的介紹內(nèi)容越詳細(xì),提取的關(guān)鍵詞數(shù)量越多,表明對(duì)該服務(wù)的功能描述越全面,因此,在語義相似度計(jì)算中應(yīng)給予更高的重視?;诖?本文提出了改進(jìn)的語義相似度計(jì)算方法如下:
(2)
步驟4將統(tǒng)計(jì)相似度和語義相似度結(jié)合,計(jì)算整體相似度。其定義如下:
SIMall(i,j)= (1-β)SIMstatistic(i,j)+
βSIMsematic(i,j)
(3)
其中,β是介于0與1之間的參數(shù),它決定語義相似度對(duì)整體相似度的貢獻(xiàn)。
有學(xué)者認(rèn)為一個(gè)用戶對(duì)其他非共同評(píng)價(jià)物品的評(píng)價(jià)數(shù)目不應(yīng)該影響到兩者之間的相似度,從而提出了一種非對(duì)稱相似系數(shù),其計(jì)算公式如下:
(4)
上述公式忽略了服務(wù)之間的相似性,從而無法發(fā)現(xiàn)具有相似興趣的用戶。假設(shè)有用戶A和B,A下載的服務(wù)集{手機(jī)鈴聲大全,摩安衛(wèi)士標(biāo)準(zhǔn)版,3D開獎(jiǎng)結(jié)果};B下載的服務(wù)集{免費(fèi)手機(jī)鈴聲大全,江民手機(jī)安全管家,福彩3D};利用式(4)求出的相似度結(jié)果為0,從例子中可以看出雖然A和B下載的相同服務(wù)集為空,但是他們具有相似的興趣?;诖?將上述提出的服務(wù)相似度方法CMSSCM考慮到移動(dòng)用戶的相似度計(jì)算中,提出移動(dòng)用戶有向相似度計(jì)算方法(Mobile User DirectionalSimilarity Calculation Method,MUDSCM),其公式為:
(5)
在傳統(tǒng)的近似鄰居集選取方法中,一般會(huì)采取設(shè)定閾值或固定鄰居大小,或兩者結(jié)合的方法進(jìn)行選取。但這2種方法無法解決冷啟動(dòng)等問題。當(dāng)一個(gè)新用戶進(jìn)入平臺(tái)后,由于其剛開始下載的服務(wù)數(shù)量較少,利用本文的方法會(huì)產(chǎn)生大量具有強(qiáng)相似度的近似用戶,因此有必要對(duì)近似鄰居進(jìn)一步的篩選。篩選的思路是認(rèn)為目標(biāo)用戶會(huì)有很大概率跟隨大部分近似用戶的興趣方向。因此,本文通過對(duì)近似鄰居集進(jìn)行聚類,找出大部分用戶所在的分類,認(rèn)為該類代表了目標(biāo)用戶最可能感興趣的方向,該類下的用戶相比于其他類而言更適合作為目標(biāo)用戶的近似鄰居。
AP(Affinity Propagation)聚類是2007年在Science雜志上提出的一種新的聚類算法。本文選擇AP聚類算法作為篩選用戶近似鄰居的原因主要有2個(gè):第1個(gè)是AP聚類支持不對(duì)稱的相似度;第2個(gè)是AP算法不需要事先指定聚類數(shù)目。
基于以上思路,本文提出了一種分步篩選近似鄰居的方法。具體步驟如下:
步驟1通過指定用戶相似度閾值SUMw,將與目標(biāo)用戶相似度高于閾值的用戶加入待選集D1;如果D1小于或等于指定鄰居集大小K,則篩選結(jié)束;返回D1作為最終近似鄰居集;否則進(jìn)入下一步。
步驟2指定服務(wù)相似度閾值SIMw,將D1中的用戶與目標(biāo)用戶利用式(5)重新計(jì)算相似度。在重新計(jì)算過程中如果2個(gè)服務(wù)的相似度小于閾值SIMw,則將其置為0。重新計(jì)算后的相似度將降低,再根據(jù)第一步的方法進(jìn)行篩選得到待選集D2。
步驟3設(shè)定Preference、阻尼因子和迭代次數(shù),利用AP方法對(duì)D2集進(jìn)行聚類,找出聚類用戶數(shù)最多的類別,將該類別中的近似鄰居以相似度降序排列,篩選出K個(gè)作為最終的近似鄰居集。
本文選取2類數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),并將結(jié)果與傳統(tǒng)的方法進(jìn)行對(duì)比,以驗(yàn)證本文提出方法的有效性。具體如下:
1)服務(wù)相似度計(jì)算方法度量。為了驗(yàn)證本文提出的結(jié)合統(tǒng)計(jì)相似度和語義相似度的綜合服務(wù)相似度計(jì)算方法(Comprehensive Mobile Services Similarity Calculation Method,CMSSCM),通過爬蟲程序獲取安卓市場(chǎng)應(yīng)用(http://apk.hiapk.com/apps) 18個(gè)類別下共8 242個(gè)服務(wù)作為實(shí)驗(yàn)數(shù)據(jù)集。將8 242個(gè)服務(wù)介紹進(jìn)行分詞過濾得到服務(wù)關(guān)鍵詞集。分別利用關(guān)鍵詞重疊法(Keywords Overlapping Method,KOM)、余弦法(Cosine Similarity method,CSM)和本文的CMSSCM方法計(jì)算服務(wù)相似度并進(jìn)行對(duì)比分析。
2)用戶相似度計(jì)算方法度量。由于服務(wù)平臺(tái)的真實(shí)用戶日志記錄很難獲取,因此現(xiàn)有的研究普遍通過模擬數(shù)據(jù)的方式作為實(shí)驗(yàn)數(shù)據(jù)集。如文獻(xiàn)[10]通過自己設(shè)定的3個(gè)規(guī)則,模擬“Mobile Market”平臺(tái)的用戶日志信息。本文通過隨機(jī)對(duì)西南政法大學(xué)的學(xué)生做調(diào)查問卷,最終獲取了417名學(xué)生使用手機(jī)APP的數(shù)據(jù),將其作為實(shí)驗(yàn)數(shù)據(jù)。將Jaccard方法、本文提出的用戶有向相似度計(jì)算方法(Mobile User Directional Similarity Calculation Method,MUDSCM)以及式(5)變形如式(6)的方法(MUDSCM-B)進(jìn)行結(jié)果對(duì)比分析,驗(yàn)證其有效性。
(6)
3)分步篩選用戶近似鄰居集方法。在用戶數(shù)據(jù)集中模擬一個(gè)剛進(jìn)入的下載服務(wù)數(shù)較少的用戶,通過VB+SQL對(duì)其近似鄰居集實(shí)現(xiàn)AP聚類。在聚類過程中取不同的Preference和阻尼因子參數(shù),分析聚類結(jié)果,篩選出用戶最終的近似鄰居集。
結(jié)果分析具體如下:
1)服務(wù)相似度中β參數(shù)的選取
在服務(wù)相似度計(jì)算式(3)中,語義相似度在整個(gè)相似度中所占的比例是一個(gè)介于0~1之間的參數(shù)。由于語義相似度運(yùn)算量非常大,因此本文只選取影音類別下的488個(gè)服務(wù)進(jìn)行實(shí)驗(yàn)。分別選取β值為0.9、0.8、0.7、0.6、0.5、0.4、0.3、0.2,計(jì)算得到每個(gè)服務(wù)在本類中最相似的服務(wù)ID及相似度值。
通過結(jié)果分析,發(fā)現(xiàn)如果β值取值過高,會(huì)夸大服務(wù)之間的相似度,使結(jié)果產(chǎn)生偏差。例如當(dāng)計(jì)算“蜻蜓FM”服務(wù),β為0.9和0.8時(shí),跟它相似度最大的服務(wù)為“DJ舞曲大全”,而其他β值計(jì)算出的相似度最高的服務(wù)為“悅聽FM-廣播電臺(tái)收音機(jī)”,因此,選擇合適的β值對(duì)于服務(wù)相似度的計(jì)算至關(guān)重要。本文通過計(jì)算β取不同值時(shí)的服務(wù)匹配比例來選取β值,其結(jié)果如圖1所示。
圖1 β取不同值時(shí)的匹配情況
實(shí)驗(yàn)結(jié)果表明,當(dāng)β=0.6時(shí),匹配比例最大。這符合現(xiàn)有的研究成果,即認(rèn)為語義信息比統(tǒng)計(jì)信息更重要,β值應(yīng)大于0.5。
2)服務(wù)相似度計(jì)算結(jié)果分析
圖2列出了關(guān)鍵詞重疊法(Keywords Overlapping Method,KOM)、余弦法(Cosine Similarity Method,CSM)和本文的CMSSCM方法在TopN條數(shù)據(jù)下服務(wù)相似度平均值的對(duì)比結(jié)果。
圖2 在TopN條數(shù)據(jù)下服務(wù)相似度平均值對(duì)比
為了度量3種方法的準(zhǔn)確度,本文首先根據(jù)服務(wù)的主要功能對(duì)服務(wù)進(jìn)行手工標(biāo)注,標(biāo)注類型說明如表1所示。
表1 6種服務(wù)類型標(biāo)注說明
如果目標(biāo)服務(wù)找到的具有最大相似度的服務(wù)也有同樣類型的標(biāo)注,即認(rèn)為是正確的。利用KOM、CSM和CMSSCM方法進(jìn)行實(shí)驗(yàn),其結(jié)果如圖3所示。其中,線上數(shù)字表示相似度。
圖3 在各標(biāo)注類型下的準(zhǔn)確率和服務(wù)相似度平均值
實(shí)驗(yàn)結(jié)果表明,CMSSCM方法只在標(biāo)注類型4中準(zhǔn)確率低于KOM方法,其原因是在于該類型下的某些服務(wù)在其服務(wù)介紹中過于突出細(xì)節(jié)方面的功能而忽略了服務(wù)的主要關(guān)鍵特征,使得CMSSCM方法在匹配時(shí)傾向于尋找跟其細(xì)節(jié)更相似的服務(wù),從而使結(jié)果產(chǎn)生偏差。整體而言,CMSSCM方法相比于KOM和CSM方法,具有更好的準(zhǔn)確度和相似度值。
3)用戶相似度結(jié)果分析
將用戶實(shí)驗(yàn)數(shù)據(jù)做前期處理后,得到了3種用戶相似度計(jì)算方法得到的相似度區(qū)間分布,如圖4所示。
圖4 用戶相似度區(qū)間分布情況
通過對(duì)實(shí)驗(yàn)數(shù)據(jù)的人工對(duì)比分析,發(fā)現(xiàn)大部分學(xué)生都具有較相似的興趣。例如都下載了英語學(xué)習(xí)、詞典、課程表、音樂、車票、電影等方面的APP。但是利用Jaccard方法計(jì)算的用戶相似度普遍分布在[0.1,0.3],MUDSCM-B方法普遍分布在[0.2,0.4]區(qū)間,都未能體現(xiàn)出學(xué)生之間的強(qiáng)相似性;而本文提出的MUDSCM方法則體現(xiàn)了這一點(diǎn)。
表2列出了編號(hào)UUID=14的目標(biāo)用戶分別按3種方法求取的前3名相似度最高的用戶及相似度,其中,UUID=14的目標(biāo)用戶的服務(wù)ID集合為{2007,2006,4741,4440,1032,2023,4448,1034,4659}。
表2 Jaccard、MUDSCM-B和MUDSCM方法下3名相似度最高的用戶及其相似度
在表2中,括號(hào)里的數(shù)字代表相似度排名,括號(hào)外的值表示具體的相似度值,如0.93(2)代表使用MUDSCM方法求出的與目標(biāo)用戶相似度最大2的用戶為UUID=33,其相似度值為0.93。從結(jié)果中可以看出,Jaccard和MUDSCM-B方法優(yōu)先選擇跟目標(biāo)用戶相似且服務(wù)數(shù)量較少的用戶作為相似用戶,而服務(wù)數(shù)量較大的用戶將被篩除掉。MUDSCM方法則忽略服務(wù)數(shù)量因素,只從跟目標(biāo)用戶使用服務(wù)最相似的角度的來選擇近似鄰居。因此,利用MUDSCM方法選擇的相似用戶結(jié)果會(huì)囊括Jaccard和MUDSCM-B方法。從表2結(jié)果也可以看出,Jaccard和MUDSCM-B前3位的用戶在MUDSCM方法中的相似度也較高,排名也較靠前。雖然這會(huì)導(dǎo)致其結(jié)果中具有大量強(qiáng)相似度的用戶,但是從推薦系統(tǒng)的角度出發(fā),這種方法(MUDSCM)更有效。
4)分步篩選近似鄰居集實(shí)驗(yàn)結(jié)果分析
使用MUDSCM方法會(huì)產(chǎn)生大量具有強(qiáng)相似度的用戶集,因此,需要對(duì)其進(jìn)行篩選以得到最后的近似鄰居集。為了驗(yàn)證本文提出的分步篩選近似鄰居集方法的有效性,模擬了一個(gè)剛進(jìn)入平臺(tái)的用戶UUID=5,其服務(wù)ID集合為{2006,2007,3000,4448,5907,3477};選取用戶相似度閾值SUMw=0.6、指定鄰居集大小K=10、服務(wù)相似度閾值SIMw=0.4,通過前2步篩選后的相似用戶數(shù)量還有59個(gè)。
第3步通過AP聚類算法,分別選取Preference={中值,最小值,最大值,平均值},阻尼因子lam=0.5對(duì)這59個(gè)用戶進(jìn)行聚類。結(jié)果顯示,當(dāng)Preference取最小值0.6時(shí),聚集的最大類的中心點(diǎn)在UUID=51用戶處,其比例為22%,高于中值(20.3%)、最大值(3.3%)和平均值(13.6%)。因此,將該類下的用戶按照與目標(biāo)用戶UUID=5的相似度降序排列選出TopK個(gè)用戶作為目標(biāo)用戶的最終近似鄰居集。
本文通過對(duì)移動(dòng)服務(wù)的介紹,進(jìn)行短文本相似度計(jì)算分析,從而度量移動(dòng)服務(wù)之間的相似度,從推薦的角度出發(fā),將服務(wù)相似度納入到移動(dòng)用戶的相似度計(jì)算中,提出一種有向相似度計(jì)算方法?;谝苿?dòng)用戶的興趣,忽略平臺(tái)中新舊用戶對(duì)相似度的影響,有效地發(fā)現(xiàn)用戶之間的真實(shí)相似性。針對(duì)冷啟動(dòng)所導(dǎo)致的強(qiáng)相似用戶數(shù)量過大問題,給出一種分步篩選近似鄰居集的方法。然而,在服務(wù)介紹中,如果出現(xiàn)對(duì)服務(wù)的描述不準(zhǔn)確、側(cè)重于細(xì)節(jié)方面的描述、出現(xiàn)一些新興詞語等情況,會(huì)使得計(jì)算結(jié)果出現(xiàn)偏差,因此,下一步將針對(duì)這些問題展開研究。
[1] FENG Yuanyuan,AGOSTO D E.Overwhelmed by smartphones a qualitative investigation into mobile information overload[J].Proceedings of the American Society for Information Science & Technology,2014,51(1):1-2.
[2] CHIU P H,KAO Y M,LO C C.Personalized blog content recommender system for mobile phone users[J].International Journal of Human-Computer Studies,2010,68(8):496-507.
[3] 孟祥武,胡 勛,王立才,等.移動(dòng)推薦系統(tǒng)及其應(yīng)用[J].軟件學(xué)報(bào),2013,24(1):91-108.
[4] 李杰亮.基于數(shù)據(jù)挖掘技術(shù)的移動(dòng)用戶手機(jī)推薦系統(tǒng)[D].南京:南京大學(xué),2014.
[5] WANG Y,WU J,WU Z,et al.Popular items or niche items:flexible recommendation using cosine patterns[C]//Proceedings of IEEE International Conference on Data Mining Workshop.Washington D.C.,USA:IEEE Press,2015:205-212.
[6] LU Meilian,QIN Zhen,CAOYiming,et al.Scalable news recommendation using multi-dimensional similarity and jaccard-kmeans clustering[J].Journal of Systems & Software,2014,95(9):242-251.
[7] 李 聰,梁昌勇,董 珂.基于項(xiàng)目類別相似性的協(xié)同過濾推薦算法[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,31(3):360-363.
[8] 李小慧.基于Jaccard項(xiàng)目類別相似性的個(gè)性化推薦算法研究[D].長(zhǎng)沙:中南大學(xué),2010.
[9] 竇羚源,王新華,孫 克.融合標(biāo)簽特征和時(shí)間上下文的協(xié)同過濾推薦算法[J].小型微型計(jì)算機(jī)系統(tǒng),2016,37(1):48-52.
[10] 王洪明.基于本體和標(biāo)簽的用戶偏好提取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2011.
[11] 翟延冬,王康平,張東娜,等.一種基于WordNet的短文本語義相似性算法[J].電子學(xué)報(bào),2012,40(3):617-620.
[12] 張 科.基于《知網(wǎng)》義原空間的文本相似度計(jì)算研究與實(shí)現(xiàn)[D].重慶:重慶大學(xué),2013.
[13] 宋萬鵬.短文本相似度計(jì)算在用戶交互式問答系統(tǒng)中的應(yīng)用[D].合肥:中國科學(xué)技術(shù)大學(xué),2010.
[14] SHIRAKAWAM,NAKAYAMA K,HARA T,et al.Wikipedia-based semantic similarity measurements for noisy short texts using extended naive Bayes[J].IEEE Transactions on Emerging Topics in Computing,2015,3(2):1.
[15] MARTINEZ G J.An overview of textual semantic similarity measures based on web intelligence[J].Artificial Intelligence Review,2014,42(4):935-943.
[16] 王小林,王 東,楊思春,等.基于《知網(wǎng)》的詞語語義相似度算法[J].計(jì)算機(jī)工程,2014,40(12):177-181.