王夢恬,魏晶晶,廖祥文,林錦賢,陳國龍
福州大學 數(shù)學與計算機科學學院,福州 350108
融合評論標簽的個性化推薦算法*
王夢恬,魏晶晶,廖祥文+,林錦賢,陳國龍
福州大學 數(shù)學與計算機科學學院,福州 350108
傳統(tǒng)的推薦算法大都從評論中挖掘用戶興趣或產(chǎn)品特征,然而由于評論形式自由,規(guī)則性差,導致從評論中獲取有效信息較困難,推薦結果不理想。在電子商務等領域,評論標簽作為一種新的評論方式已經(jīng)被廣泛使用。與評論相比,評論標簽具有規(guī)則性強,信息密度大等特點,因此提出了一種融合評論標簽的推薦算法。該算法從評論標簽中挖掘用戶對產(chǎn)品特征的觀點,并利用其構建用戶興趣模型和產(chǎn)品特征模型,然后向用戶推薦在他們感興趣的特征上有較高評價的產(chǎn)品。與傳統(tǒng)推薦算法進行對比,實驗結果表明,融合評論標簽的算法能有效地提高用戶的覆蓋率,并提升推薦算法的準確性。
評論標簽;產(chǎn)品特征;推薦算法
互聯(lián)網(wǎng)的普及在信息時代滿足了用戶對信息的需求,然而信息超載現(xiàn)象卻使得用戶難以快速方便地尋找到自己喜歡的產(chǎn)品,信息的使用率反而降低。在競爭日趨激烈的電子商務等領域,優(yōu)質的推薦系統(tǒng)不僅能提升用戶體驗,還能為企業(yè)帶來不可估量的經(jīng)濟效益。因此,越來越多的電子商務網(wǎng)站選擇推薦系統(tǒng)為用戶提供個性化服務。
要進行高效的推薦,就必須盡可能完整和準確地挖掘用戶信息以及產(chǎn)品信息。當前的推薦算法大都從評論中挖掘用戶的觀點以構建用戶模型和產(chǎn)品模型[1],但評論主觀性強,規(guī)則性差,挖掘有效信息較困難,因此推薦效果不理想。而評論標簽卻具有較強的規(guī)則性,更容易獲取到有效的信息。例如,圖1是來自京東商城的用戶關于某手機的反饋,用戶的評論即心得大多是對產(chǎn)品整體的評論,或無意義的評論,難以體現(xiàn)用戶的具體興趣;而評論標簽相對而言呈現(xiàn)出較強的規(guī)則性,大部分直接表明用戶對產(chǎn)品特征的觀點。
目前,越來越多網(wǎng)站提供了標簽評論功能,如京東商城、國美在線、蘇寧易購等,用戶既可以自定義評論標簽,也可以直接使用熱門的評論標簽。針對評論存在的不足,本文認為評論標簽具有一定的研究價值,因此提出了融合評論標簽的推薦算法,擬通過解決以下兩個問題,提升推薦算法的準確性和有效性:
(1)評論中難以挖掘出有效信息。如果要從評論中獲取用戶關于產(chǎn)品特征的觀點,則每句評論必須同時含有產(chǎn)品特征和觀點傾向的相關詞匯,但評論隨意性很高,大多數(shù)都不滿足這一要求,因此從中獲得有效信息較困難。這將使得構建出的用戶模型準確性較低,從而導致推薦結果不理想。
(2)部分用戶無法獲得個性化推薦。由于大量用戶對某類產(chǎn)品的評論記錄有限,用戶的評價習慣若使得所有評論都無法抽取出有效信息,算法將無法為這類用戶構建出興趣模型,從而無法進行有效的個性化推薦。本文通過融合評論標簽來彌補評論導致的有效信息過少等問題,有助于用戶興趣模型和產(chǎn)品特征模型的構建,從而提升用戶的覆蓋率和推薦算法的性能。
Fig.1 Users? comments on mobile phone from Jingdong圖1 京東商城用戶關于手機的評論
針對網(wǎng)站的不同特點,國內外學者對推薦算法進行了廣泛的研究。傳統(tǒng)的推薦算法主要有兩種:基于內容的推薦算法和協(xié)同過濾推薦算法。基于內容的推薦通過匹配用戶模型和產(chǎn)品模型,為用戶推薦匹配度較高的產(chǎn)品。常用的協(xié)同過濾推薦算法則是通過尋找用戶或產(chǎn)品的最近鄰居,利用最近鄰居的信息進行預測評分從而產(chǎn)生推薦。傳統(tǒng)的協(xié)同過濾算法[2]在研究初期取得了較大的成效,之后不少的工作都是以該算法為基礎展開的[3-4]。隨著電子商務網(wǎng)站信息的豐富,數(shù)據(jù)呈現(xiàn)出復雜性和多樣性等特點,非結構化信息使得更多因素需要被考慮,如地理信息、標簽信息等。顯然,單純使用用戶評分的算法在新的數(shù)據(jù)環(huán)境下已經(jīng)無法滿足推薦要求。因此,針對數(shù)據(jù)的不同特點,國內外學者提出了相適應的解決方案。
Huang等人提出了基于圖模型的推薦算法[5],結果表明,在圖模型中結合產(chǎn)品內容和用戶購買記錄可以達到較準確的預測結果。Koren等人提出了矩陣分解模型[6],該模型通過隱含特征聯(lián)系用戶與產(chǎn)品,實驗結果表明該模型的效果明顯好于傳統(tǒng)的協(xié)同過濾算法。為了適應不同的數(shù)據(jù)環(huán)境,Bao等人提出的TopicMF[7]模型也取得了較好的推薦效果。Wang等人[8]認為推薦系統(tǒng)和搜索引擎有相似的目標,前者預測用戶興趣,后者表明購買意向,該文旨在探究如何將兩者結合進行推薦。Musat等人[9]將用戶的評論文本作為主要依據(jù),通過判斷評論文本所屬的主題確定用戶的興趣,并在該層面上進行用戶相似度的計算,從而有效降低數(shù)據(jù)稀疏性的影響。魯凱等人[10]利用上下文信息緩解數(shù)據(jù)稀疏性的負面影響,并利用產(chǎn)品之間的層次關聯(lián)關系挖掘用戶的潛在喜好,然后在特定時間段對用戶進行建模。孫建凱等人[11]提出了面向排序的協(xié)同過濾算法,該算法在計算用戶的相似性時,不僅考慮了用戶對產(chǎn)品的偏好程度,還結合了偏好的流行程度,實驗結果表明,與傳統(tǒng)的協(xié)同過濾方法相比,該算法的推薦有效性更高。Wang等人認為用戶在不同時間段有不同的需求,因此融合了時間因素預測用戶的購買行為[12]。
隨著標簽系統(tǒng)如豆瓣、Delicious等社交網(wǎng)絡的興起,Zhou等人提出了基于標簽的推薦框架[13-14],該算法通過標簽間的聯(lián)系聚類出相應主題,根據(jù)用戶對主題的興趣程度計算用戶間的相似性并進行推薦,有效地克服了標簽語義帶來的問題。Parra-Santander等人[15]利用標簽表示用戶信息,并利用改進的BM25算法計算用戶之間的相似性并進行推薦,實驗結果表明該算法好于傳統(tǒng)的協(xié)同過濾算法。Liang等人[16]建立了用戶、產(chǎn)品和標簽之間的多元關系以定義標簽的語義,然后確定每個用戶喜歡的標簽和每個產(chǎn)品的相關標簽來生成推薦,從而減小標簽噪聲帶來的影響。Liang等人[17]在算法中分別計算了用戶使用標簽的相似性、用戶評價產(chǎn)品的相似性以及用戶-標簽-產(chǎn)品相似性,從而獲得更準確的鄰居用戶以快速定位用戶感興趣的產(chǎn)品。閆俊等人[18]將社會化標簽分別映射到情感、流派和上下文信息3個語義空間,并在不同的空間計算用戶和產(chǎn)品的相似度,最后融合這3個空間的相似度為用戶進行推薦。
雖然研究者對標簽已經(jīng)做了較深入的研究,但此類標簽與評論標簽不同,它通常只具有標注意義,不表達用戶觀點,如“籃球”、“健康”等標簽,若將此類推薦框架直接用于評論標簽,將忽視很多重要信息,無法取得較好的推薦效果。因此,本文認為評論標簽中含有大量的有效信息,且評論標簽還未被充分利用,具有一定的研究價值。
3.1問題描述
本文的推薦任務是向用戶推薦在他們感興趣的特征上有較高評價的產(chǎn)品。為了方便研究,本文的個性化推薦問題可形式化描述為:給定用戶集合U= {u1,u2,…,um},產(chǎn)品集合P={p1,p2,…,pn},評論集合C= {c1,c2,…,cp},評論標簽集合T={t1,t2,…,tq},產(chǎn)品特征集合F={f1,f2,…,fl},以及用戶對產(chǎn)品的評分集合Aij(i∈m,j∈l);通過挖掘評論集合C和評論標簽集合T中的信息,構造(特征,觀點,情感)元組,并通過公式分別將該元組信息轉換為矩陣Xij(i∈m,j∈l),即用戶興趣模型,以及矩陣Yij(i∈m,j∈l),即產(chǎn)品特征模型,最后計算用戶Ui對產(chǎn)品Pj的預測評分Rij,降序排列Rij即可生成推薦列表。
3.2構建用戶興趣模型和產(chǎn)品特征模型
3.2.1構造(特征,觀點,情感)元組
根據(jù)用戶對產(chǎn)品的評價規(guī)律,本文假設不同用戶所關注的產(chǎn)品特征不同,且用戶傾向于評論自己所關注的特征;同時,用戶評價特征所表達出的情感極性,也反映了產(chǎn)品該特征的品質優(yōu)劣情況。因此,本文以產(chǎn)品特征為對象進行數(shù)據(jù)處理,構造出(特征,觀點,情感)元組。為方便表示,設產(chǎn)品的特征詞集合為F,評價特征的觀點詞集合為O,觀點詞O的情感極性為S,至此,該元組可表示為(F,O,S)。
構造(F,O,S)元組主要由以下3個步驟組成:
(1)用ictclas對標簽集合T和評論集合C進行分詞及詞性標注,分析標注詞性并抽取特征詞F和觀點詞O,構造(F,O)元組。如圖1中可構造出(電池,耐用)、(系統(tǒng),流暢)等元組。
(2)判斷觀點詞O的情感極性S,構造(F,O,S)元組。若O為正向情感詞,則S=1,若O為負向情感詞,則S=-1,否則S=0。如觀點詞“耐用”為正向情感詞,則S=1,因此可得元組(電池,耐用,1)。
(3)考慮極性是否需要反轉。若觀點詞O前存在著否定詞,則S=-S。如“質量不好”的觀點詞“好”之前存在著否定詞“不”,則該情感極性需反轉,因此最終可得(質量,好,-1)元組。通過充分挖掘(F,O,S)元組,即可構建出用戶興趣模型和產(chǎn)品特征模型。
3.2.2構建用戶興趣模型
由于用戶的評價具有傾向性,本文提出如下假設:若用戶在評論和標簽中提到某特征的次數(shù)越多,則用戶對該特征的關注程度越大。因此,本文的用戶興趣模型描述的是用戶對某類產(chǎn)品某個特征的關注程度,其值用Xij(i∈m,j∈l)表示:計算公式如下所示:
其中,tij和tagij分別表示用戶ui在評論和標簽中提到特征fj的次數(shù)。式(1)將用戶提及特征的次數(shù)tij和tagij縮放至用戶對產(chǎn)品的評分范圍,即Xij∈[0,5]。
3.2.3構建產(chǎn)品特征模型
產(chǎn)品特征模型描述的是產(chǎn)品某個特征的品質,用Yij(i∈m,j∈l)表示,該值越高說明產(chǎn)品該特征的品質越好,反之則越差。本文假設產(chǎn)品特征的品質優(yōu)劣由特征流行性和情感評價共同決定。流行性越大且情感評價越正面,則該特征的品質越好。其中,流行性由該特征在評論和標簽中被提到的次數(shù)表示,情感評價則由該特征的平均情感極性表示,Yij(i∈m,j∈l)的計算公式如下:
其中,在產(chǎn)品pi的評論和標簽中,特征fj被提到的次數(shù)分別為k和d,平均情感極性分別為Sij和Gij。式(2)同式(1)一樣,將產(chǎn)品的特征品質情況縮放至用戶對產(chǎn)品的評分范圍,即Yij∈[0,5]。
3.3融合產(chǎn)品特征的矩陣分解
矩陣分解的基本思想是,將用戶產(chǎn)品的評分矩陣A進行拆分,從而將用戶和產(chǎn)品分別映射到相同維度的隱因子向量空間P和Q上,那么就可以通過優(yōu)化目標函數(shù)來學習特征矩陣P和Q,并通過計算用戶和產(chǎn)品的隱因子向量內積獲得用戶對產(chǎn)品的預測評分。
以上的矩陣分解是建立在這樣一個假設上,即用戶和產(chǎn)品的特性可以由相同的隱因子特征集來描述?;谕瑯拥募僭O,本文引申出融合產(chǎn)品特征的矩陣分解,即用戶、產(chǎn)品特征和產(chǎn)品之間也能用隱因子向量描述。因此,通過提煉用戶興趣模型和產(chǎn)品特征模型中的信息,就能刻畫出用戶對產(chǎn)品特征的興趣程度以及產(chǎn)品關于其特征的品質優(yōu)劣情況。而計算方法同樣能夠類比于傳統(tǒng)的矩陣分解算法,即通過優(yōu)化目標函數(shù)將用戶興趣矩陣Xij和產(chǎn)品特征矩陣Yij分解到用戶的隱因子向量U1、產(chǎn)品特征的隱因子向量V和產(chǎn)品的隱因子向量U2上[1]。最后,結合用戶產(chǎn)品評分信息A、用戶興趣模型X和產(chǎn)品特征模型Y,可以得到融合產(chǎn)品特征的目標函數(shù),該目標函數(shù)如下式所示:
在獲得隱因子向量U1、U2、V、H1、H2后,通過計算相應的向量內積即可獲得A、X和Y的預測值,即。
3.4評分預測
在進行評分預測時,本文假設用戶的購買行為只是基于k個用戶最關注的特征。因此,在用戶模型中,取用戶ui關注度最大的k個產(chǎn)品特征進行評分預測,其中q∈Qi={qi1,qi2,…,qik},α∈[0,1]。其評分預測公式如下:
對于用戶ui,降序排列Rij,取前N個值較大的產(chǎn)品pj,即可生產(chǎn)推薦列表。
融合評論標簽的推薦算法的主要流程如下所示:
輸入:用戶評論集合C,用戶標簽集合T,用戶數(shù)目m,產(chǎn)品數(shù)目n,用戶對產(chǎn)品的評分Aij(i∈m,j∈l),顯性特征數(shù)目r,隱性特征個數(shù)r',用戶最關注特征數(shù)目k,系數(shù)α。
輸出:用戶ui對產(chǎn)品pj的預測評分Rij。
(1)用ictclas對集合C和集合T進行分詞處理和詞性標注,構建(F,O,S)元組;
(2)根據(jù)式(1)計算用戶興趣模型,即矩陣Xij;
(3)根據(jù)式(2)計算產(chǎn)品特征模型,即矩陣Yij;
(4)根據(jù)式(3)優(yōu)化損失函數(shù),獲得參數(shù)U1、U2、V、H1、H2;
(5)根據(jù)如下公式預測矩陣:
(6)根據(jù)式(4)計算用戶ui對產(chǎn)品pj的預測評分Rij;
(7)輸出用戶ui對產(chǎn)品pj的預測評分Rij;
(8)對用戶ui,降序排列Rij生成推薦列表。
4.1數(shù)據(jù)集
本文方法是針對電子商務網(wǎng)站中某一產(chǎn)品類別提出的,因此本文實驗將該產(chǎn)品類別設定為手機。實驗數(shù)據(jù)來自于京東商城(http://www.jd.com)中的真實數(shù)據(jù)。在2014年10月至11月,本文共抽取了京東商城上在售的2 638個手機產(chǎn)品的相關信息,其中產(chǎn)品評論共計1 081 543條,評論標簽共計2 419 771個;同時抽取了評論手機產(chǎn)品的用戶17 144個,并抽取了這些用戶對各類商品的評論共計95 141條,評論標簽共計165 636個。
為了確保本文實驗數(shù)據(jù)的可行性,對上述數(shù)據(jù)集進行了過濾,即選擇了對手機的評論數(shù)在5條以上的用戶以及這些用戶所評論的產(chǎn)品進行實驗,過濾后的具體數(shù)據(jù)信息如表1所示。實驗隨機選取每個用戶80%的記錄作為訓練集,其余20%的記錄則作為測試集。
Table 1 Experimental data表1 實驗數(shù)據(jù)統(tǒng)計表
4.2情感詞典
本實驗使用HowNet情感詞典來計算評論標簽中觀點詞的情感極性。
HowNet情感詞典是《知網(wǎng)》發(fā)布的中英文詞集,共包含中英文情感分析詞語集12個,本文選用其中的中文正面評價詞語集和中文負面評價詞語集作為情感詞典,中文正面評價詞語共3 730個,中文負面評價詞語共3 116個。由于網(wǎng)絡用語的流行性和產(chǎn)品類別的獨有性,本實驗在原詞典中添加了若干個常用的評價詞語。如在中文正面評價詞語集中添加了“給力”、“滿意”、“不錯”、“耐用”等詞語,在中文負面評價詞語集中添加了“差”、“失望”、“坑”、“粗糙”等詞語。
本文使用詞語匹配的方式來確定觀點詞的情感極性,即如果觀點詞出現(xiàn)在中文正面評價詞語集中,則該觀點詞的情感極性為正向;如果觀點詞出現(xiàn)在中文負面評價詞語集中,則該觀點詞的情感極性為負向;否則,該觀點詞的情感極性為中性。
4.3評價指標
本文根據(jù)訓練集中的數(shù)據(jù)為每個用戶建立模型,并利用構建出的模型得到預測評分,最后依據(jù)該評分為每個用戶生成相應的推薦列表。若推薦列表中的產(chǎn)品是該用戶測試集中的產(chǎn)品,則說明該產(chǎn)品是用戶喜歡的,同時表明算法對該產(chǎn)品的預測準確。
Table 2 Frequency of feature表2 特征類別頻率統(tǒng)計
實驗共選取了3個評價指標:用戶覆蓋率(user coverage)、召回率(recall)和推薦有效性(NDCG@n)。其中,用戶覆蓋率考察算法能夠進行個性化推薦的用戶比例,該值越大,則用戶覆蓋率越大,算法性能越好。召回率指的是推薦列表中用戶喜歡的產(chǎn)品個數(shù)占測試集中用戶喜歡總個數(shù)的比值。召回率越大,則說明推薦算法的準確性越高。NDCG@n是度量推薦算法有效性的評價指標,若用戶喜歡的產(chǎn)品在推薦列表中的位置越靠前,則推薦算法的有效性越好。評價指標的公式如下所示:
其中,M為算法能構建出興趣信息的用戶數(shù);N為用戶總數(shù);Nrs為推薦列表中用戶喜歡的產(chǎn)品個數(shù);Nr為數(shù)據(jù)集中用戶喜歡的產(chǎn)品總數(shù);n為推薦列表長度;r(j)表示推薦列表中第j個位置的產(chǎn)品級別,若用戶購買過該產(chǎn)品,則r(j)=1,否則,r(j)=0。
4.4實驗設置
在電子商務等各類網(wǎng)站,評論標簽及評論都面臨著口語化程度高及零散化嚴重等問題。例如,“耳機”這一特征類別,可以由特征詞“耳機”、“耳塞”和“耳麥”等意思相近的一系列詞語表示,對于該“一義多詞”現(xiàn)象,目前尚未有完整的語料集或詞典進行歸納整理。綜合考慮多方面因素,本文實驗采用文獻[19]中的方法解決該問題。即3個標注人員對手機類別的特征詞進行標注,若某個特征詞被至少兩個標注人員歸為同一個類別,則認為該歸類合理,其中標注的一致率約為92.73%。同時,本文還統(tǒng)計了該數(shù)據(jù)集中各個特征類別的出現(xiàn)頻率,結果如表2所示。
從表2的結果可知,各特征類別分布不均,且用戶關注的特征相對比較集中,“外觀”、“屏幕”等8個特征類別的出現(xiàn)頻率和就達到了94.42%。因此,本文選取頻率大于等于0.1%的特征類別進行實驗。
針對表2中選取出的特征類別,構造出了相應的(F,O,S)元組。(F,O,S)元組的構造至關重要,它通過直接影響用戶模型和產(chǎn)品模型的構建,從而間接影響推薦結果。本文分別統(tǒng)計了從評論和評論標簽中構造出的(F,O,S)元組的相關信息,結果如表3所示。由表3的統(tǒng)計結果可知:
(1)對于相同數(shù)量的用戶或產(chǎn)品,標簽數(shù)約是評論數(shù)的2倍,說明用戶傾向于使用標簽。
(2)對于相同數(shù)量的評論和標簽,標簽生成的(F, O,S)元組數(shù)多于評論,說明從標簽中更容易獲取有效信息。
Table 3 Information of(F,S,O)tuples表3 (F,O,S)元組信息表
(3)單位用戶或產(chǎn)品在標簽中獲得的(F,O,S)元組數(shù)約是評論的2.5倍,說明標簽所含的信息量多于評論。其中,N表示用戶或產(chǎn)品總數(shù);Nt表示評論數(shù)或標簽數(shù);NFOS表示構造出的(F,O,S)元組數(shù)。
4.5實驗結果及分析
為了驗證本文方法FTR(fusing tag recommendation)的有效性,本實驗將與如下兩個方法進行對比:
(1)文獻[1]中的方法只使用評論進行用戶興趣模型和產(chǎn)品特征模型的構建,并利用構建出的用戶模型和產(chǎn)品模型完成相應的推薦,本文將其視為基線方法(explicit factor models,EFM)。
(2)構建用戶興趣模型時融合了評論標簽中的信息,但產(chǎn)品特征模型的構建只使用了評論中的信息,同時利用構建出的用戶模型和產(chǎn)品模型完成相應的推薦(tag explicit factor models,TEFM)。
上述方法皆關聯(lián)α、用戶關注的特征個數(shù)k和推薦列表長度n這3個參數(shù),因此本文將基于上述參數(shù)探討所提方法的有效性。
實驗1用戶覆蓋率的實驗結果比較。
用算法分別構造出用戶興趣模型后,實驗1統(tǒng)計了能夠成功構造出興趣模型并獲得個性化推薦的用戶比例,實驗結果如表4所示。
Table 4 User coverage表4 用戶覆蓋率
由表4可知:基準方法的用戶覆蓋率為59.71%,即大約40%的用戶無法獲得個性化推薦,只能得到相同的推薦結果;而TEFM和FTR將用戶覆蓋率提升至91.97%,說明融合評論標簽挖掘出了更多用戶的興趣信息,可以為更多的用戶建立興趣模型,從而使得大部分用戶都能得到個性化推薦。用戶覆蓋率的大幅度提升可以表明評論標簽中含有更多的有效信息,能夠為大多數(shù)用戶構建出更準確更完整的用戶興趣模型。
實驗2探究α的取值對實驗結果的影響。
實驗2探究算法中最優(yōu)的α值,設k=15,n=10,實驗結果分別如圖2和圖3所示。
Fig.2 Recall at varyingα圖2 α取值不同時的召回率
Fig.3 NDCG at varyingα圖3 α取值不同時的NDCG
由圖2和圖3可知:FTR和EFM的參數(shù)值分別為0.45和0.80時推薦效果最好,并且FTR最大的Recall和NDCG均高于EFM,說明本文方法好于基準方法。
當α處在某范圍內時,F(xiàn)TR的效果明顯好于EFM,但卻和TEFM的曲線基本重疊,說明融合評論標簽構建用戶模型對算法有較明顯作用,但融合標簽構建產(chǎn)品模型則意義不大。這是因為,產(chǎn)品的評論記錄較多,可以獲取到較完整的產(chǎn)品特征信息,融合標簽難以獲取額外的有效的產(chǎn)品特征信息,融合標簽構建產(chǎn)品模型無法起到明顯的作用。而用戶模型的構建則與此相反,由于用戶評論記錄有限,評論標簽能在一定程度上彌補評論信息過少等帶來的問題,從而構建出更完整的用戶模型,并獲得理想的推薦效果。但當α過大時,召回率和NDCG迅速下降,說明推薦效果不僅和評論及標簽中的信息有關,同時還受用戶評分信息的影響。
實驗3在不同的用戶關注特征個數(shù)k下的實驗結果。
根據(jù)實驗2的結果,設實驗3和實驗4中FTR、TEFM的α值為0.45,EFM的α值為0.80,并設推薦列表長度n=20,實驗結果分別如圖4和圖5所示。
Fig.4 Recall at varying k圖4 k取值不同時的召回率
Fig.5 NDCG at varying k圖5 k取值不同時的NDCG
由圖4和圖5可知:3種方法的召回率都在k=4時最大,說明在該數(shù)據(jù)集中只需少量的特征就可以獲得較理想的推薦效果。另外,EFM和TEFM的NDCG在k=11時最大,而FTR的NDCG則在k=9時最大,說明FTR用更少的特征就能獲得最好的推薦有效性。從總體上看,實驗結果在k>3之后便迅速提升,且FTR的推薦效果基本好于TEFM和EFM,說明融合評論標簽的推薦算法能在一定程度上提升推薦的準確率和有效性。
實驗4在不同的推薦列表長度n下的實驗結果。
根據(jù)實驗3的結果,設在Recall的實驗中3種方法的k都等于4,在NDCG的實驗中,TEFM和EFM中的k=11,F(xiàn)TR中的k=9,實驗結果分別如圖6和圖7所示。
Fig.6 Recall at varying n圖6 n取值不同時的召回率
Fig.7 NDCG at varying n圖7 n取值不同時的NDCG
由圖6和圖7可知:隨著推薦長度的增加,Recall和NDCG逐漸增大,推薦準確率和有效性越來越好,且FTR的推薦結果略好于EFM,說明評論標簽在推薦算法效果的提升上有一定的作用。
根據(jù)以上實驗結果可知,推薦效果隨著推薦列表長度n的增大而越來越好,且算法的準確率和有效性分別在用戶關注的特征個數(shù)k=4和k=9時最好。以上結果同時表明:融合評論標簽的推薦算法,大幅度提升了用戶覆蓋率,使得更多的用戶能獲得個性化推薦。同時,在召回率和推薦有效性上,本文方法FTR取得了最理想的推薦結果。說明評論標簽能夠構建出更完整更準確的用戶興趣模型,而融合評論標簽的推薦算法不僅能有效提升用戶的覆蓋率,還能提升算法的準確性和有效性。
本文針對評論規(guī)則性差,獲取有效信息較困難等問題,提出了融合評論標簽的推薦算法,并結合實驗結果進行相關分析。結果表明,同評論相比,評論標簽密度大,所含信息豐富,在獲取用戶對產(chǎn)品特征的觀點上具有較大優(yōu)勢,有助于構建更完整更準確的用戶興趣模型,并提升用戶的覆蓋率,同時提高算法的準確率和有效性。下一步工作中,將探索其他因素對推薦算法的影響,并探究更高效更穩(wěn)定的推薦算法。
[1]Zhang Yongfeng,Lai Guokun,Zhang Min,et al.Explicit factor models for explainable recommendation based on phrase-level sentiment analysis[C]//Proceedings of the 37th International ACM SIGIR Conference on Research&Development in Information Retrieval,Gold Coast,Australia, Jul 6-11,2014.New York:ACM,2014:83-92.
[2]Su Xiaoyuan,Khoshgoftaar T M.A survey of collaborative filtering techniques[J].Advances in Artificial Intelligence, 2009,4:1-19.
[3]Parra-Santander D,Brusilovsky P.Improving collaborative filtering in social tagging systems for the recommendation of scientific articles[C]//Proceedings of the 2010 IEEE/ WIC/ACM International Conference on Web Intelligence and IntelligentAgent Technology,Toronto,Canada,Aug 31-Sep 3,2010.Piscataway,USA:IEEE,2010:136-142.
[4]Wang Chong,Blei D M.Collaborative topic modeling for recommending scientific articles[C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,San Diego,USA,Aug 21-24, 2011.New York:ACM,2011:448-456.
[5]Huang Z,Chung W,Chen H.A graph model for Ecommerce recommender systems[J].Journal of the American Society for Information Science and Technology,2004,55(3):259-274.
[6]Koren Y,Bell R,Volinsky C.Matrix factorization techniques for recommender systems[J].Computer,2009,42(8):30-37.
[7]Bao Yang,Fang Hui,Zhang Jie.TopicMF:simultaneously exploiting ratings and reviews for recommendation[C]//Proceedings of the 28th AAAI Conference on Artificial Intelligence,Québec,Canada,Jul 27-31,2014.Menlo Park, USA:AAAI,2014:2-8.
[8]Wang Jian,Zhang Yi,Chen Tao.Unified recommendation and search in E-commerce[C]//LNCS 7675:Proceedings of the 8th Asia Information Retrieval Societies Conference, Tianjin,China,Dec 17-19,2012.Berlin,Heidelberg:Springer, 2012:296-305.
[9]Musat C,Liang Y,Falting B.Recommendation using textual opinions[C]//Proceedings of the 23rd International Joint Conference on Artificial Intelligence,Beijing,Aug 3-9,2013. Menlo Park,USA:AAAI,2013:2684-2690.
[10]Lu Kai,Zhang Guanyuan,Wan Bin.CICF:a context information based collaborative filtering algorithm[J].Journal of Chinese Information Processing,2014,28(2):122-128.
[11]Sun Jiankai,Wang Shuaiqiang,Ma Jun.Weighted-Tau Rank: a ranking-oriented algorithm for collaborative filtering[J]. Journal of Chinese Information Processing,2014,28(1):33-39.
[12]Wang Jian,Zhang Yi.Opportunity model for E-commerce recommendation:right product;right time[C]//Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval,Dublin, Ireland,Jul 28-Aug 1,2013.NewYork:ACM,2013:303-312.
[13]Kim H N,Ji A T,Ha I,et al.Collaborative filtering based on collaborative tagging for enhancing the quality of recommendation[J].Electronic Commerce Research and Applications,2010,9(1):73-83.
[14]Zhou T C,Ma Hao,Lyu M R,et al.UserRec:a user recommendation framework in social tagging systems[C]//Proceedings of the 24th AAAI Conference on Artificial Intelligence,Atlanta,USA,Jul 11-15,2010.Menlo Park,USA: AAAI,2010:1486-1491.
[15]Parra-Santander D,Brusilovsky P.Improving collaborative filtering in social tagging systems for the recommendation of scientific articles[C]//Proceedings of the 2010 IEEE/ WIC/ACM International Conference on Web Intelligence and IntelligentAgent Technology,Toronto,Canada,Aug 31-Sep 3,2010.Piscataway,USA:IEEE,2010:136-142.
[16]Liang Huizhi,Xu Yue,Li Yuefeng,et al.Connecting users and items with weighted tags for personalized item recommendations[C]//Proceedings of the 21st ACM Conference on Hypertext and Hypermedia,Toronto,Canada,Jun 13-16,2010.New York:ACM,2010:51-60.
[17]Liang Huizhi,Xu Yue,Li Yuefeng,et al.Tag based collaborative filtering for recommender systems[C]//LNCS 5589: Proceedings of the 4th International Conference on Rough Sets and Knowledge Technology,Gold Coast,Australia,Jul 14-16,2009.Berlin,Heidelberg:Springer,2009:666-673.
[18]Yan Jun,Liu Wenfei,Lin Hongfei.Music recommendation study based on tags multi-space[J].Journal of Chinese Information Processing,2014,28(4):117-122.
[19]Lu Yue,Castellanos M,Dayal U,et al.Automatic construction of a context-aware sentiment lexicon:an optimization approach[C]//Proceedings of the 20th International Conference on World Wide Web,Hyderabad,India,Mar 28-Apr 1, 2011.New York:ACM,2011:347-356.
附中文參考文獻:
[10]魯凱,張冠元,王斌.CICF:一種基于上下文信息的協(xié)同過濾推薦算法[J].中文信息學報,2014,28(2):122-128.
[11]孫建凱,王帥強,馬軍.Weighted-Tau Rank:一種采用加權Kendall Tau的面向排序的協(xié)同過濾算法[J].中文信息學報,2014,28(1):33-39.
[18]閆俊,劉文飛,林鴻飛.基于標簽混合語義空間的音樂推薦方法研究[J].中文信息學報,2014,28(4):117-122.
WANG Mengtian was born in 1990.She is an M.S.candidate at University of Fuzhou.Her research interests include data mining and opinion analysis,etc.
王夢恬(1990—),女,福州大學碩士研究生,主要研究領域為數(shù)據(jù)挖掘,觀點分析等。
WEI Jingjing was born in 1984.She is a Ph.D.candidate at University of Fuzhou.Her research interest is opinion mining.
魏晶晶(1984—),女,福州大學博士研究生,主要研究領域為觀點挖掘。
LIAO Xiangwen was born in 1980.He received the Ph.D.degree from University of Chinese Academy of Sciences in 2009.Now he is an associate professor and M.S.supervisor at Fuzhou University,and the senior member of CCF. His research interest is Web text opinion mining.
廖祥文(1980—),男,2009年于中國科學院獲得博士學位,現(xiàn)為福州大學副教授、碩士生導師,CCF高級會員,主要研究領域為網(wǎng)絡文本觀點挖掘。
LIN Jinxian was born in 1957.He received the Ph.D.degree from Xi’an Jiaotong University in 2004.Now he is a professor and M.S.supervisor at Fuzhou University.His research interest is high performance computing.
林錦賢(1957—),男,2004年于西安交通大學獲得博士學位,現(xiàn)為福州大學教授、碩士生導師,主要研究領域為高性能計算。
CHEN Guolong was born in 1965.He received the Ph.D.degree from Xi’an Jiaotong University in 2002.Now he is a professor and Ph.D.supervisor at Fuzhou University.His research interest is network information security.
陳國龍(1965—),男,2002年于西安交通大學獲得博士學位,現(xiàn)為福州大學教授、博士生導師,主要研究領域為網(wǎng)絡信息安全。
Personalized RecommendationAlgorithm Fusing Comment Tag*
WANG Mengtian,WEI Jingjing,LIAO Xiangwen+,LIN Jinxian,CHEN Guolong
College of Mathematics and Computer Science,Fuzhou University,Fuzhou 350108,China
E-mail:liaoxw@fzu.edu.cn
The user interests and product features are extracted from comments in traditional recommendation algorithms.However,the expected recommendation performance is not achieved as it is difficult to obtain valid information,caused by the free-form and poor regularity of comments.In the current field of electronic commerce,the comment tag as a new way of comments has been widely used.Compared with comments,the comment tag has the advantages of strong regularity and information density.Thus this paper proposes a recommendation algorithm fusing comment tag which extracts the users’opinions for the product features and then makes use of them to construct user interests model and product features model.Therefore,the proposed algorithm can recommend the products with wellreviews on specific features which users are interested in.Compared with traditional algorithms,the experimental results show that the proposed algorithm can effectively improve the user coverage and the recommendation accuracy.
comment tag;product feature;recommendation algorithm
2015-08,Accepted 2015-10.
10.3778/j.issn.1673-9418.1509076
A
TP391
*The National Natural Science Foundation of China under Grant No.61300105(國家自然科學基金);the Doctoral Scientific Program of the Ministry of Education of China under Grant No.2012351410010(教育部博士點基金聯(lián)合資助項目);the Science and Technology Major Program of Fujian Province under Grant No.2013H6012(福建省科技重大專項);the Science and Technology Plan Program of Fuzhou under Grant Nos.2012-G-113,2013-PT-45(福州市科技計劃項目).
CNKI網(wǎng)絡優(yōu)先出版:2015-10-28,http://www.cnki.net/kcms/detail/11.5602.TP.20151028.1045.002.html
WANG Mengtian,WEI Jingjing,LIAO Xiangwen,et al.Personalized recommendation algorithm fusing comment tag.Journal of Frontiers of Computer Science and Technology,2016,10(10):1429-1438.