楊 弦, 駱 丹, 吳江寧
(1.東北財經(jīng)大學(xué) 管理科學(xué)與工程學(xué)院,遼寧 大連 116025; 2.大連理工大學(xué) 經(jīng)濟管理學(xué)院,遼寧 大連 116024)
隨著用戶生成內(nèi)容這種網(wǎng)絡(luò)信息模式的普及,越來越多的用戶選擇通過各種社交媒體分享購物體驗、對產(chǎn)品和服務(wù)進行評價,以供其他用戶參考。目前,各類電子商務(wù)網(wǎng)站積累了海量的在線評論。一方面,這些在線評論作為產(chǎn)品的網(wǎng)絡(luò)口碑,可指導(dǎo)消費者做購買決策[1-3];另一方面,評論數(shù)量巨大,動輒幾十萬條,使得消費者難以通過閱讀全部評論來感知商品的真實質(zhì)量。由于信息嚴重過載,目前的電子商務(wù)網(wǎng)站提供了簡單的評論排序功能,消費者只能選擇按照如,時間、好評、點贊數(shù)等,展示順序閱讀部分評論,使之只能用不完全信息或片面信息來做決策,由此引發(fā)消費者不良的購物體驗。因此,用更加科學(xué)的手段基于消費者的不同偏好,提供個性化評論排序顯得尤為必要。
目前關(guān)于評論排序的研究大多是面向消費者群體、無差異化地生成非個性化的評論排序。學(xué)者們提出了多種評論排序方法。如:Ghose等[4]基于計量經(jīng)濟學(xué)模型提出了兩種評論排序機制:一種是面向消費者,基于評論有用性進行排序;另一種是面向商家,基于評論對銷量的影響進行排序。Zhang等[5]提出了一種改進的步進式優(yōu)化算法,用于最大化評論排序列表與評論整體好評率之間的一致程度,最終得出一致程度最高的評論排序列表作為排序結(jié)果;Chen等[6]在上述研究的基礎(chǔ)上,考慮了評論有用性因素,提升了排序結(jié)果的采納程度。
隨著“顧客至上”的服務(wù)理念和大數(shù)據(jù)技術(shù)的快速發(fā)展,個性化服務(wù)日漸興盛,根據(jù)消費者個體差異化的興趣偏好和行為習(xí)慣,“定制”生成相應(yīng)的評論排序顯然更加符合消費者需求,然而,目前鮮有研究關(guān)注了面向消費者個體、差異化地生成個性化評論排序的問題。消費者偏好包括很多維度,綜合考慮各種維度可以更加立體地刻畫消費者偏好,從而精準地生成個性化的評論排序。因此,如何從多維度挖掘消費者偏好,并將其加入評論排序模型用于生成排序結(jié)果,是本文的研究重點。
基于上述分析,本文基于消費者多維度偏好,提出了一種度量方法,用于計算評論排序的消費者偏好滿意度,從而將評論排序問題轉(zhuǎn)化為優(yōu)化問題,優(yōu)化目標(biāo)是最大化期望滿意度,從而得到對應(yīng)的最優(yōu)排序。由于該優(yōu)化問題無法精確求解,本文提出了一種基于改進貪婪算法的近似求解算法。文中采用酒店團購網(wǎng)站上的真實數(shù)據(jù)對算法進行檢驗,結(jié)果表明本文提出的方法得到的產(chǎn)品評論排序結(jié)果具有更高的消費者偏好滿意度,且對偏好變化較為敏感。
理論上,本文提出的基于消費者多維偏好的個性化評論排序方法擴展了目前評論排序方法的研究?,F(xiàn)實中,研究結(jié)果也可幫助消費者依據(jù)個人偏好,高效、準確的了解產(chǎn)品網(wǎng)絡(luò)口碑,提高消費者購買效率和滿意度;同時,本文設(shè)計的排序方案對電商平臺改進用戶評論系統(tǒng),提高用戶粘性有著重要的現(xiàn)實指導(dǎo)意義。
全面地刻畫消費者多維度偏好是進行個性化評論排序的基礎(chǔ),有助于消費者在海量評論中快速獲取感興趣、有價值的信息,從而做出購買決策。基于消費者閱讀評論時的行為習(xí)慣以及關(guān)注的信息,本文主要考慮三個維度的消費者偏好:
(1)產(chǎn)品特征偏好
圖1 產(chǎn)品特征偏好示例
消費者在瀏覽產(chǎn)品評論時,對于評論中所提及的產(chǎn)品各種特征的關(guān)注程度是有差異的,以酒店為例,商務(wù)人士會更加關(guān)注酒店所處的位置交通是否便利,而學(xué)生則會對酒店的性價比等信息更感興趣,這種對于產(chǎn)品不同特征細粒度的偏好,稱為產(chǎn)品特征偏好。關(guān)于消費者產(chǎn)品特征偏好挖掘的研究方法基本上都依賴于消費者的歷史行為數(shù)據(jù),主要包括評論打分信息和評論內(nèi)容[7,8]兩大類。這種方法會面臨冷啟動問題,即當(dāng)消費者沒有歷史數(shù)據(jù)時,我們將無法挖掘其偏好,因此,本文設(shè)計了一套機制,用于直接獲取消費者的產(chǎn)品特征偏好。
假設(shè)某產(chǎn)品有m個特征,對于每個特征的感興趣程度可以用一個5維的Likert量表表示,其中1表示很不感興趣,5表示很感興趣,這樣就可以用一個m維向量來表示消費者的產(chǎn)品特征偏好。例如,某消費者對于酒店5個特征(位置、服務(wù)、衛(wèi)生、設(shè)施和性價比)的感興趣程度如圖1所示,可以表示為特征偏好向量PFea=(2,1,5,4,5)。
(2)評論情感偏好
現(xiàn)實中,消費者不僅關(guān)心評論是否談及感興趣的產(chǎn)品特征,評論是否客觀、有用對其也同樣重要[9],這種對一條評論喜歡或不喜歡的情感傾向,我們將其定義為評論情感偏好。目前網(wǎng)站通常會把點贊數(shù)多的評論排在前面,但排序靠前的評論由于被瀏覽的可能性更大,獲得的點贊數(shù)也會相應(yīng)更多,產(chǎn)生馬太效應(yīng),使得點贊數(shù)無法客觀反映消費者的評論情感偏好。評論有用性是消費者對之前評論者發(fā)布的評論是否有助于自己制定購買決策的一種主觀感知,大量研究表明,評論有用性與評分星級、文本情感、評論時間間隔和評論者信息等因素相關(guān),本文利用現(xiàn)有的如回歸分析等方法,進行模型訓(xùn)練和有用性預(yù)測,得到每條評論的有用性得分,刻畫消費者的評論情感偏好。
(3)評論瀏覽數(shù)量偏好
(1)單條評論的消費者偏好滿意度
在計算單條評論的消費者偏好滿意度之前,需要先對每條評論做以下處理:
1)挖掘評論的特征分布情況,當(dāng)給定某類產(chǎn)品的評論信息時,其領(lǐng)域特征詞典F={f1,f2,…,fm}可以利用特征提取方法得出,其中fi表示一類具有相似含義的特征詞,每條評論可以表示為一個特征分布向量r=(rf1,rf2,…,rfm),其中rfi表示評論r中屬于特征fi的特征詞數(shù);
2)評論的情感偏好滿意度用有用性得分表示,現(xiàn)有研究大多采用對數(shù)線性回歸模型,反映各影響因素和評論有用性之間的關(guān)系。由于單條評論不涉及評論瀏覽數(shù)量問題,無需考慮評論瀏覽數(shù)量偏好,所以單條評論r的消費者偏好滿意度Satr為:
Satr=PSentir×M(PFea,r)=Ur×cos
(1)
其中,PSentir是評論r的情感偏好滿意度,即r的有用性得分Ur;M(PFea,r)是產(chǎn)品特征偏好與評論r的匹配程度,用特征偏好向量與評論特征分布向量的余弦相似度表示。
(2)評論集合的消費者偏好滿意度
評論集合與單條評論的消費者偏好滿意度類似,計算公式如下:
SatS=PSentis×M(PFea,S)=US×cos
(2)
其中,US表示評論集合的有用性得分,取集合中所有評論有用性得分的平均值;FDS表示評論集合的特征分布向量,由集合中所有評論的特征分布向量相加得到。
(3)評論排序的消費者偏好滿意度
給定某產(chǎn)品的評論排序L=(rl1,rl2,…,rln),其中rli表示排序中的第i條評論,計算其消費者偏好滿意度需引入瀏覽數(shù)量偏好PNum=(p1,p2,…,pn),具體計算公式如下:
(3)
其中Si表示L中前i條評論組成的評論集合,SatSi可由公式(2)計算得到。
n條評論的全排列共可產(chǎn)生n!個評論排序,根據(jù)公式(3)可以計算出每個評論排序的消費者偏好滿意度,涉及產(chǎn)品特征偏好、評論情感偏好和評論瀏覽數(shù)量偏好,使這個滿意度最大化的評論排序即為最優(yōu)排序,如圖2所示。由此,我們就把評論排序問題轉(zhuǎn)化為了最大化消費者偏好滿意度的優(yōu)化問題。
圖2 評論排序優(yōu)化模型
基于消費者多維度偏好的評論排序(Consumers’ Multidimensional Preferences based Review Ranking, CMPRR)問題:給定產(chǎn)品特征偏好PFea、評論情感偏好PSenti和評論瀏覽數(shù)量偏好PNum=(p1,p2,…,pn),以及某產(chǎn)品的全部評論R={r1,r2,…,rn},得出使消費者偏好期望滿意度expSatL最大化的最優(yōu)排序L,其數(shù)學(xué)表達如下:
s.t.Si={rl1,rl2,…,rli},i=1,2,…,n
(4)
本節(jié)用一個簡單的例子解釋上述方法的排序過程。
已知產(chǎn)品特征偏好PFea=(1,2,3,5),評論瀏覽數(shù)量偏好PNum=(0.3,0.5,0.2),三條評論r1、r2、r3的特征分布向量和有用性得分如表1所示。
以L=(r3,r1,r2)為例,如S2={r3,r1},則:
FDS2=r3+r1=(3,4,2,0)+(0,1,2,3)=(2,5,4,3)
SatS2=US2·cos(PFea,FDS2)
=0.60
同樣地,可以求得所有6個評論排序的消費者偏好期望滿意度,如表2所示。由此可得,最優(yōu)排序為(r1,r3,r2),對應(yīng)的最優(yōu)消費者偏好滿意度為0.59。
表1 三條評論的具體信息
表2 各排序的期望滿意度
如第2.4節(jié)中的算例所示,解決CMPRR問題的直接方法就是列舉出所有可能的評論排序,分別計算其消費者偏好期望滿意度,滿意度最大值對應(yīng)的評論排序即為所求最優(yōu)排序。對于一個有n條評論、m個特征的產(chǎn)品,共可以產(chǎn)生n!個可能的排序,那么使用枚舉法精確求解的時間復(fù)雜度為O(n!*n*m),顯然,當(dāng)n值較大時,精確求解幾乎是不可能實現(xiàn)的。事實上,CMPRR屬于NP-hard問題,即無法找到一個能在多項式時間內(nèi)解決該問題的算法,當(dāng)給定一種評論排序,可以很容易地計算出其期望滿意度,但是,要想找到一個取最大期望滿意度的最優(yōu)排序,必須考慮所有可能的排序。由此,求解CMPRR問題需要考慮采用近似算法。生成評論排序可以看作是一個逐步迭代地選取評論到排序列表中的動態(tài)過程,在每輪迭代中選取一條評論加入排序列表,經(jīng)過n輪迭代就可以生成一個包含n條評論的排序列表。
基于這種思想,用于精確求解的枚舉算法就相當(dāng)于在每輪迭代中不做篩選,而是保留所有可能的情況。為直觀理解,圖3(1)以4條評論(分別用a、b、c、d表示)為例,形象生動地演示了這個過程:在首輪迭代中,共有4條評論可供選擇,形成分別以a、b、c、d為起點的4個分支,每個分支在第二輪迭代中又有3條評論可供選擇,依次類推,最后會產(chǎn)生4! = 24個分支,即24個評論排序,最大消費者偏好滿意度對應(yīng)的評論排序即為所求結(jié)果。然而,如果在生成所有排序列表后再分別計算其各自的消費者偏好滿意度,會導(dǎo)致計算冗余。
圖3 4條評論的算法求解原理圖
由于CMPRR問題的優(yōu)化目標(biāo)是求最大消費者偏好滿意度,且后續(xù)滿意度的取值是依賴于前續(xù)滿意度的,因此我們有理由猜想在每輪迭代中使當(dāng)前滿意度取最大值的評論有助于生成所求最優(yōu)評論,這就是在求解NP-hard問題時的經(jīng)典算法—貪婪算法。圖3(2)仍然以a、b、c、d4條評論為例,演示了貪婪算法的求解原理:在每輪迭代中,只保留使當(dāng)前滿意度取最大值的評論(圖中用“max”進行了標(biāo)注),用于后續(xù)生成排序列表,其余評論則舍棄不再參與后續(xù)迭代過程(圖4中用“×”表示),最終只會產(chǎn)生一個評論排序(c,a,d,b)。
因此,本文綜合考慮了以上兩種算法的優(yōu)缺點,提出一個“折中”的算法用于解決上述CMPRR問題,記作CMPRR(α)。該算法的思想是,在每輪迭代中設(shè)置一個消費者偏好滿意度的閾值,當(dāng)前評論的滿意度取值大于該閾值,就將這條評論保留下來繼續(xù)參與后續(xù)迭代過程,直到n輪迭代后生成若干完整的排序列表,取其中的最大滿意度值對應(yīng)的評論排序作為結(jié)果輸出。其中,閾值的設(shè)定值由參數(shù)α控制。仍然以4條評論為例,采用CMPRR(α)算法進行求解的原理如圖3(3)所示,其中,“√”表示在本輪迭代中該條評論的滿意度取值大于閾值,予以保留用于繼續(xù)生成排序列表;“×”則表示該條評論的滿意度沒有達到閾值,舍棄不再參與后續(xù)迭代過程。CMPRR(α)算法最終生成的排序數(shù)介于枚舉法和貪婪算法之間,綜合考慮了算法精度和效率,力求達到平衡狀態(tài)。
本文選擇了酒店作為研究對象,研究中使用到的數(shù)據(jù)來自美團網(wǎng)。實驗前,我們收集了美團網(wǎng)上截至2018年5月的某市所有酒店(1760家)的全部評論數(shù)據(jù)(79781條),主要包括評分星級、評論文本、評論時間、評論者ID、評論者會員等級、評論者實名情況和評論點贊數(shù)等字段。在數(shù)據(jù)預(yù)處理階段,我們主要做了兩項工作,一是從上述評論文本數(shù)據(jù)中提取出了332個高頻特征詞,分為位置、房間、服務(wù)、性價比和口碑五類特征[11],基于形成的酒店領(lǐng)域特征詞典,將每條評論表示成一個特征分布向量;二是基于評論有用性的影響因素,構(gòu)建了對數(shù)線性回歸模型,用于預(yù)測每條評論的有用性得分。
在實驗中,我們隨機地生成消費者偏好、選取評論集,以0.05為間隔取了α從0到1的所有取值進行實驗,記錄了不同α取值下的消費者偏好期望滿意度和算法耗時,并計算了二者的變化值比率。實驗結(jié)果如圖4所示,可見當(dāng)α=0.85時,每增加耗時一單位,得到的有效性提升最大。所以,后續(xù)所有實驗中α的取值均設(shè)定為0.85。
圖4 參數(shù)α的實驗結(jié)果
為了評估本文中提出的算法的有效性,我們與其他3個相關(guān)算法進行了比較:首先,CMPRR問題作為一個NP-hard問題,可以使用多種經(jīng)典的啟發(fā)式算法進行求解,我們選取了其中最著名的貪婪算法作為代表,記為Greedy;第二個算法為隨機算法,即從隨機生成的1000個排序中選取使消費者偏好期望滿意度取最大值的排序作為最優(yōu)排序,記為Random;除此之外,我們還選取了美團網(wǎng)上的默認排序,記為Default。
在實驗中,消費者偏好隨機生成的,而評論數(shù)分別取20到110(以10條為間隔)用于隨機選取10個評論集,基于給定的消費者多維度偏好和評論集,計算出每種算法生成結(jié)果的滿意度值。我們?nèi)「魉惴ㄅc本文算法的比值作為評估標(biāo)準,如果該比值大于1則說明該算法優(yōu)于本文算法;反之亦然。
圖5 各算法的相對有效性
根據(jù)圖5中的實驗結(jié)果,可以分析得出以下三點結(jié)論:
(1)其他算法的相對期望滿意度均小于1,說明本文提出的CMPRR(0.85)算法與其他算法相比,可以最好地滿足消費者的多維度偏好,有效性最佳;
(2)隨著評論數(shù)量上升,其他三種算法的相對期望滿意度呈現(xiàn)較為明顯的下降趨勢,說明CMPRR(0.85)算法的優(yōu)越性在評論數(shù)量較大時更加明顯,這也說明在評論數(shù)量較大時本文提出的算法仍然可以求得較為精確的結(jié)果;
(3)美團網(wǎng)上的默認排序表現(xiàn)最差,體現(xiàn)在相對期望滿意度最低且波動較大,這也驗證了本文研究結(jié)果在實際應(yīng)用中的有效性和必要性。
本文進一步進行了算法敏感度實驗,驗證算法對于不同的消費者產(chǎn)品特征偏好是否敏感。首先,隨機生成55=3125個消費者產(chǎn)品特征偏好向量,基于隨機選取的評論集,計算各產(chǎn)品特征偏好向量對應(yīng)的排序結(jié)果;然后,計算各偏好向量之間的相似度(Pref_sim)以及各排序結(jié)果之間的相關(guān)性(Rank_cor);最后,對Pref_sim和Rank_cor兩變量進行Pearson相關(guān)性檢驗。實驗結(jié)果如表3所示,兩變量之間的Pearson相關(guān)系數(shù)為0.433,兩變量顯著正相關(guān),排序結(jié)果對消費者產(chǎn)品特征偏好較敏感,當(dāng)偏好差異大時,排序結(jié)果差異也較大;反之亦然。
表3 兩變量的Pearson相關(guān)性
為了更好的應(yīng)對評論信息過載,并滿足消費者對個性化服務(wù)的需求,本文提出了基于消費者多維度偏好的評論排序問題(CMPRR),該問題的目標(biāo)是找到使消費者偏好期望滿意度取最大值的最優(yōu)排序,由于該優(yōu)化問題的復(fù)雜性,我們提出了近似求解算法CMPRR(α)?;诿缊F網(wǎng)酒店的真實數(shù)據(jù)進行了大量實驗,實驗結(jié)果表明本文提出的算法與其他方法相比有效性最佳,且對作為算法輸入的消費者產(chǎn)品特征偏好較為敏感。研究結(jié)果不僅可以幫助消費者基于個人偏好,快速并精確地了解產(chǎn)品的在線口碑,提高決策效率;同時對電商平臺獲取消費者多維度偏好、改進評論系統(tǒng),提高用戶粘性,有著重要的現(xiàn)實指導(dǎo)意義。
本文的研究尚存一些不足。目前本研究僅選取了美團網(wǎng)上的酒店作為實驗對象,為了充分驗證本文提出的評論排序方法的普適性, 在未來的研究中可將該方法應(yīng)用與更多平臺的其他類型產(chǎn)品數(shù)據(jù), 如零售平臺上或第三方點評網(wǎng)站的商品評論排序等。此外,隨著評論數(shù)量的增加,本文提出的優(yōu)化模型求解算法的耗時增長較快,后續(xù)可以考慮使用其他的啟發(fā)式算法求解這個NP-hard問題,比如模擬退火算法、遺傳算法等,通過大量實驗,探究本文提出的近似求解算法與其他算法的耗時對比情況。