王福江 魏振鋼
摘 要傳統(tǒng)的推薦技術(shù)主要依據(jù)用戶以及商品的基本信息和歷史記錄,對于商品和用戶的特征很少描述。本文提出了基于評論的商品推薦技術(shù),首先獲取商品評輪的特征集和用戶評價的特征集,計算商品和用戶之間的特征匹配值,根據(jù)特征匹配值的大小來實現(xiàn)商品的推薦。
【關(guān)鍵詞】商品推薦 數(shù)據(jù)挖掘 研究
1 引言
常用的推薦技術(shù)包括:基于內(nèi)容的推薦、協(xié)同過濾與推薦、基于關(guān)聯(lián)規(guī)則推薦、基于效用推薦等。這些推薦技術(shù)通過搜集用戶信息、商品信息以及瀏覽購買記錄等,建立用戶興趣模型并借助不同的推薦技術(shù)實現(xiàn)商品推薦。但用戶需求隨著時間推移不斷變化,受限于興趣推薦的質(zhì)量很難進(jìn)一步提升推薦結(jié)果。
文獻(xiàn)提出了一種產(chǎn)品特征提取算法提取產(chǎn)品特征,文獻(xiàn)研究評論的意見傾向識別方法。本文提出基于特征匹配值的商品推薦算法,通過對評論進(jìn)行文本挖掘,計算商品和用戶的特征匹配值找到商品和用戶特征方面的聯(lián)系,實現(xiàn)商品推薦。
2 基于評論的商品推薦技術(shù)流程
在基于評論的商品推薦技術(shù)架構(gòu)中如圖1所示,首先數(shù)據(jù)預(yù)處理模塊將數(shù)據(jù)進(jìn)行基本的處理,生成標(biāo)準(zhǔn)格式數(shù)據(jù);評論挖掘模塊將處理后的評論利用自然語言處理方法進(jìn)行特征提取挖掘;在推薦計算模塊中,根據(jù)規(guī)則得到初步的結(jié)果集;在推薦選取模塊中,根據(jù)商品選取規(guī)則選取符合要求的商品,最后通過瀏覽器展現(xiàn)給用戶。
評論挖掘過程中,利用ICTCLAS分詞系統(tǒng)對評論進(jìn)行分詞,將結(jié)果分別進(jìn)行特征提取,利用HowNet計算用戶和商品的所有特征值,然后計算用戶和商品之間的特征匹配值,根據(jù)特征匹配值生成推薦結(jié)果集,最后將推薦結(jié)果展現(xiàn)給用戶。
4 基于評論的推薦技術(shù)挖掘方法
根據(jù)上節(jié)給出的商品推薦流程,我們將推薦模型的挖掘方法分為以下六個步驟:
Step1:使用ICTCLAS中文分詞系統(tǒng)對評論進(jìn)行分詞處理,把評論劃分為詞條。
Step2:通過語義相似度計算合并語義相近的詞,選取語義相似度sim(M,N)>0.5的詞進(jìn)行合并,然后使用知網(wǎng)HowNet建立商品和用戶的特征詞詞典。詞語語義相似度的計算公式如下:
(1)
M和N表示任意兩個產(chǎn)品或用戶特征屬性,common(M,N)表示兩個特征屬性之間的相同性,log p(common(M,N))表示特征屬性M和特征屬性N兩者之間的相同性所需要的數(shù)據(jù)量大小,log p(description(M,N))表示完整的描述M和N所需要的數(shù)據(jù)量大小。
Step3:建立特征描述詞匯的情感詞詞典,對情感詞進(jìn)行賦值,例如描述手機(jī)的價格特征賦值有如下四種表述:
價格:很貴(-4)、貴(-3)、便宜(3)、很便宜(4)
Step4:通過情感詞詞典的賦值表,對商品和用戶的所有特征值進(jìn)行計算:
(2)
商品或用戶的特征值P(p1,p2,...pn),gi表示特征p的某一特征值,n表示特征p所有特征值的數(shù)量。
Step5:對于商品的特征集合g(g1,g2,...gn)和用戶的特征集合t(t1,t2,...tn)通過公式(1)計算商品和用戶的特征相似度,取sim(g,t)>0.5得到商品P和用戶Q的特征相似度集Sij(i代表商品第i個特征,j代表用戶第j個特征)。對特征相似度集進(jìn)行特征匹配度計算:
(3)
Step6:根據(jù)用戶和商品的基本信息劃分群組,計算該用戶群組和所有商品群組之間的特征匹配值L,選擇特征匹配值排名靠前的商品對用戶進(jìn)行推薦。
5 實驗與分析
本文下載了亞馬遜1000條商品和用戶的數(shù)據(jù),選取多于10個字符的評論數(shù)據(jù),得到了用戶g20160001和選取的部分群組商品特征匹配值表如表1所示。我們將選取特征匹配值得前五對用戶進(jìn)行推薦。
經(jīng)過對比推薦結(jié)果與用戶的歷史購物記錄,推薦商品基本滿足了用戶的購物趨向,當(dāng)評論數(shù)據(jù)越多時候推薦商品的結(jié)果越趨向用戶的興趣。
另外,通過對結(jié)果研究發(fā)現(xiàn),用戶和同一個興趣趨向商品的特征匹配值隨著評論數(shù)量的增多而減小,最后趨向于某一值。因此,對于推薦商品而言評論數(shù)量越多推薦結(jié)果就越準(zhǔn)確。
6 結(jié)論
傳統(tǒng)的推薦模型需要建立用戶興趣集,本文提出基于評論的推薦技術(shù),結(jié)合自然語言處理、特征評分文本挖掘等方法,建立特征匹配度表。這種基于評論的商品推薦,更符合消費者網(wǎng)絡(luò)檢索信息的思維習(xí)慣,可以與其它商品推薦方法互為補(bǔ)充,更加準(zhǔn)確的向消費者推薦所需商品,幫助企業(yè)實現(xiàn)精準(zhǔn)營銷.
創(chuàng)新點:本文首次將評論進(jìn)行分類,分別對商品評論和用戶評價進(jìn)行挖掘。依據(jù)特征值的計算結(jié)果提出了特征匹配度的定義以及計算方法。特征匹配度值的大小表明了商品以及用戶之間的一種關(guān)聯(lián),值越小表明了兩者之間的聯(lián)系越大。
參考文獻(xiàn)
[1]劉平峰,聶規(guī)劃,陳冬林.電子商務(wù)推薦系統(tǒng)研究綜述[J].情報雜志,2007(9):46-50.
[2]Hu M and Liu B.Mining and summarizing customer reviews.In Proc.of KDD04,168-177.
[3]李實,葉強(qiáng),李一軍.中文網(wǎng)絡(luò)客戶評論的產(chǎn)品特征挖掘方法研究[J].管理科學(xué)學(xué)報,2009,4(2):142-152.
[4]CHRYSANTHOS DELLAROCAS.The Digitization of Word of Mouth: Promised and Challenges of Online Feedback Mechanisms[J].Management Science,2003,10(49):1407-1424.
[5]HUM,LIU B.Mining Opinion Features in Customer Reviews[C].In AAA I,2004:755-760.
作者單位
中國海洋大學(xué)信息科學(xué)與工程學(xué)院 山東省青島市 266100