蔡丹丹 王斌
摘要:結(jié)合在線短租市場固有的特點,分析信息質(zhì)量對于消費者信息采納和決策行為的作用機制。在研究方法上,選擇了多屬性決策模型對目標(biāo)商品進行排序,確定產(chǎn)品總效用、產(chǎn)品特征-情感和權(quán)重,利用TOPSIS算法,對目標(biāo)商品進行排序。結(jié)合在線短租市場特點基礎(chǔ)上,對大量在線評論數(shù)據(jù)進行處理,多維度考慮評論信息對產(chǎn)品排序的影響。
關(guān)鍵詞:在線短租;信息采納模型;評論挖掘;TOPSIS算法
中圖分類號:F27文獻標(biāo)識碼:Adoi:10.19311/j.cnki.1672-3198.2019.15.032
1問題描述
本文主要考慮評論信息對電子商務(wù)網(wǎng)站產(chǎn)品排序影響。設(shè)目標(biāo)產(chǎn)品集為X={X1,X2,…,Xm},目標(biāo)產(chǎn)品的在線評論集合為Ei= {e1i,e2i,…,eQii},Qi表示產(chǎn)品i的評論數(shù)量,i= 1,2,…,m;q= 1,2,…,Qi。用C = {C1,C2,…,Cn}表示評論中涉及的產(chǎn)品屬性的集合;U(eqi)表示評論eqi的總效用;用ω表示產(chǎn)品屬性的權(quán)重向量,可以用向量表示為ω=(ω1,ω2,…,ωn)T,則ωj≥0且∑nj=1ωj=1。
本文需要解決的問題是,通過現(xiàn)在的在線評論信息Ei,抽取出產(chǎn)品的屬性,即集合C,以及每個產(chǎn)品屬性所代表的權(quán)重ω,并通過這些信息,對目標(biāo)產(chǎn)品進行排序。
2模型構(gòu)建
本文結(jié)合在線短租市場在線評論的特點,結(jié)合消費者購買決策五階段模型和信息采納模型,構(gòu)建模型。在模型構(gòu)建中,簡化了共識性因素對產(chǎn)品排序的影響,將研究重點放在中心路徑上,研究在線評論信息的質(zhì)量對于產(chǎn)品排序的影響,模型思路框架見圖1。
3在線評論效用
3.1評論長度
本文將評論長度具體量化為評論中所包含的字符數(shù)量。通常來說,評論文本越長,則其中包含的內(nèi)容也就越豐富,涉及的維度也就越多,其中包含的有用信息也越多,代表越強的可信度。因此,較長的評論文本可以一定程度上增加閱讀者的感知有用性,降低購買的不確定性。
num=count(word)(1)
u1eqi=ln(num+1)ln(num*+1)(2)
其中,word代表評論中所包含的文字數(shù)量,num*代表在線評論中長度最長的評論的文字數(shù),可表示為num*=max (num),且0≤u1(eqi))≤1。
3.2評論時效性
評論時效性指評論消息發(fā)布與被閱讀兩者之間的時間差。差值越小,意味著評論越新,即評論的時效性越強。雖然不同市場的表現(xiàn)規(guī)律不同,但是不同維度的異質(zhì)性穩(wěn)定性隨著時間的推移而降低。
u2 (eqi)=exp (Tqi-TnowTnow-T*i)(3)
其中,Tqi表示消費者發(fā)表評論的時間,Tnow表示消費者進行產(chǎn)品選擇的時間,即產(chǎn)品評論被閱讀的時間,T*i表示該產(chǎn)品評論中,最早發(fā)表的時間,也就是說,T*i= min { Tqi},特別地,當(dāng)Tqi=T*i時,u2(eqi)=0.37,可見,0.37≤u2 (eqi))≤1。
3.3圖片評論數(shù)
評論信息中,除了包含文字信息外,還會包含圖片信息,且圖片信息是對文字信息的內(nèi)容補充。根據(jù)大量文獻研究表明,圖片評論數(shù)對在線評論有用性有正向影響。另外來說,圖片信息由于其包含的內(nèi)容更加直觀、真實,有助于幫助消費者對產(chǎn)品本身有更好的了解。因此,圖片評論信息可以加強閱讀者的感知有用性。
u3eqi=exp (N-N*N*)(4)
其中,N代表評論中包含的圖片數(shù)量,N*=max (N),代表在線評論中最多的圖片數(shù)量。特別地,當(dāng)N=0時,u3 (eqi)= 0.37,可見,0.37≤u3 (eqi))≤1。
4產(chǎn)品特征-情感配對
4.1產(chǎn)品特征抽取
商品特征是評論信息的重要組成部分之一,同時也是消費者關(guān)注的具體內(nèi)容。對于一件有形的商品來說,它的特征可以是商品外觀、質(zhì)量、服務(wù)態(tài)度等各個方面,消費者對一個產(chǎn)品的喜好,歸根到底是對產(chǎn)品的各項特征的喜好。產(chǎn)品特征就是指產(chǎn)品所包含的各類屬性,包括它的包裝、功能、質(zhì)量、外形、服務(wù)等,這些都是吸引消費者做出選擇的關(guān)鍵性因素。因此,我們對產(chǎn)品的在線評論進行分析,就是探究在線評論中包含哪些吸引消費者的特征。
本文產(chǎn)品特征抽取采用的是關(guān)聯(lián)規(guī)則的方法,通過尋找頻繁項集實現(xiàn)產(chǎn)品特征的抽取。本文采用的是Apriori算法,通過算法抽取評論中具有頻繁項集作為產(chǎn)品特征,在算法的應(yīng)用中,頻繁項集僅考慮3項及其以下項集,同時,通過最小支持度對頻繁項集進行篩選。
4.2產(chǎn)品特征-情感傾向詞對抽取
情感傾向是用戶進行評論時,就產(chǎn)品的某個特征,發(fā)表的具有主觀性的評價語言,這些評論語言都具有感覺色彩,因此在評論分析中,需要找到產(chǎn)品特征所對應(yīng)的情感詞。一般情況下來說,情感詞和產(chǎn)品特征都是成對出現(xiàn)的,為了確保產(chǎn)品特征和情感詞兩者之間存在對應(yīng)關(guān)系,我們通過權(quán)重對兩者進行衡量,用pair
4.3情感極性判定
4.3.1構(gòu)建情感詞典
情感詞典是分析情感詞極性的基礎(chǔ),是一種基于語義的方法,它可以用于計算詞語、句子或者文檔的情感極性。本文的情感詞典構(gòu)建來源于HowNet、NTUSD以及評論語料。其中,HowNet和NTUSD提供不針對具體領(lǐng)域的,具有通用性的情感詞。由于本文是對在線評論進行情感分析,其中會涉及到很多網(wǎng)絡(luò)詞匯,因此在HowNet和NTUSD的基礎(chǔ)上,結(jié)合網(wǎng)絡(luò)詞匯加入到詞典中。將情感詞分為褒義、中性和貶義這三個集合,分別用符號O +,O'和O-表示,部分含義如表1所示。
4.3.2判斷情感極性
文本進行詞性標(biāo)注后,本文以其中的形容詞作為情感詞進行分析,通過LTP語言技術(shù)平臺,進行依存句法分析,存儲屬性-情感詞對,再根據(jù)情感詞典的方法對情感極性進行判斷。設(shè)Oqij表示評論eqi中關(guān)于屬性Cj的情感詞,P(Oqij) 表示情感詞Oqij的極性,公式為
P(Oqij)=10-1若Oqij∈V+若Oqij∈V'若Oqij∈V-(5)
4.3.3處理程度副詞
消費者在發(fā)表評論時,不僅會用情感詞表示產(chǎn)品的特征,同時還會使用程度副詞加強情感。參照HowNet程度副詞表,按照表達的情感程度,可以將它劃分為兩類,用deg(Oqij)來表示,則deg(Oqij) = 1,2,含義如表2所示,公式表示為
deg(Oqij)=12Oqij∈Φ1Oqij∈Φ2(6)
其中,Φ1代表情感強度為1的副詞集合,Φ2代表情感強度為2的副詞集合。
4.3.4處理否定詞
情感詞可以充分表達消費者的情感傾向,但是,其中的否定詞對情感傾向的極性有關(guān)鍵影響。當(dāng)情感詞之前出現(xiàn)否定詞詞,所表示的情感極性有可能就完全相反。在否定詞處理中,主要考慮以下兩種情況,一是否定詞是對另一否定詞的否定,即出現(xiàn)兩個否定詞時,并不會影響情感極性;但是當(dāng)只有一個否定詞時,則是對情感極性的完全否定,情感極性完全相反。因此認為可以以否定詞出現(xiàn)的個數(shù)來判斷否定詞對情感極性的影響。令N表示情感詞Oqij前否定詞的個數(shù)。因此,關(guān)于就評論eqi,其表達的關(guān)于產(chǎn)品屬性Cj的情感強度可用下式來衡量:
Scoreeqi)= P(Oqij)* deg(Oqij)*(-1)qijN(7)
在數(shù)據(jù)處理中,若評論信息中并未出現(xiàn)關(guān)于屬性Cj的情感詞,則我們認為該評論信息的情感值為ψ,可用公式表示為Scoreeqi=ψ。但是,若評論信息中未出現(xiàn)任何屬性值,那么認為該評論對產(chǎn)品的所有屬性表達的情感相同。可見,當(dāng)Scoreeqi≠ψ時,Scoreeqi= -2,-1,0,1,2。
5基于TPOSIS算法的產(chǎn)品排序模型
Technique for Order Preference by Similarity to an Ideal Solution是1981年,由C.L.Hwang聯(lián)合K.Yoon提出的,簡稱為TOPSIS算法。TOPSIS算法主要用于對有限數(shù)量的目標(biāo)產(chǎn)品進行優(yōu)劣排序。TOPSIS算法中,首先計算在理想狀態(tài)下的最優(yōu)目標(biāo),其次通過各目標(biāo)產(chǎn)品與理想最優(yōu)解之間的距離來進行判斷,同時,該方法要求各效用函數(shù)具有單調(diào)遞增(或遞減)性。
5.1在線評論效用計算
評論eqi的總效用為
U(eqi)=αu1(eqi)+βu2(eqi)+γu3(eqi)(8)
i= 1,2,…,m;q = 1,2,…,Q;;其中,α,β,γ≥0 且α+β+γ= 1。
5.2產(chǎn)品屬性權(quán)重
在產(chǎn)品特征處理過程中,已經(jīng)將產(chǎn)品的特征進行頻繁項集處理,得到產(chǎn)品的屬性集合。用yqij表示評論eqi中包含的屬性集合,若評論eqi中未提取出屬性詞,則yqij=φ。若評論中某屬性出現(xiàn)的頻率越高,則代表該屬性受到更多的人重視,即該屬性在消費者心中的權(quán)值越高,以統(tǒng)計的方法,將各屬性集合所在評論的效用進行累加,并以此代表屬性的權(quán)重,則屬Cj的權(quán)重可表示為
wj=∑mi=1∑Qiq=1Ueqiτjeqi∑nj=1∑mi=1∑Qiq=1Ueqiτjeqi(9)
其中:τjeqi=1,0,yqij≠φyqij=φ;∑mi=1∑Qiq=1U(eqi)τj(eqi)表示包含屬性Cj集合的評論的總效用值。
5.3構(gòu)建決策矩陣
用H = { H1 =-2,H2 =-1,H3 = 0,H4 = 1,H5= 2}表示評論信息中,產(chǎn)品特征所代表的情感等級集合。為了表達產(chǎn)品在不同情感等級上的差異性,本文采用隨機形式表達消費者的情感傾向。
首先,記ξij表示產(chǎn)品Xi關(guān)于屬性Cj的隨機評價值,那么ξij就可以用公式10表示其概率分布函數(shù)。
Pξij=Hk=pkij,k=1,2,…,5(10)
其中,
pkij=∑Qiq=1ψk(Scoreeqij)∑Nk=1∑Qiq=1ψk(Scoreeqij)(11)
ψkScoreeqij=1,0,Scoreeqij=HkScoreeqij≠Hk,pkij∈[0,1]且∑Nk=1pkij=1,其中,N代表需要決策的產(chǎn)品數(shù)。因此,我們可以求出針對目標(biāo)產(chǎn)品的離散概率分布函數(shù),即決策矩陣,用M=[P(ξij)]m*n表示,具體表達形式間表3。
5.4消費者購買決策模型
首先,確定關(guān)于候選商品Xi對商品特征Cj的特征值的累積分布函數(shù),則ξij的累積分布函數(shù)如下:
Fijx=∑ξijSymbolcB@
xP(ξij)(12)
根據(jù)公式(12),可以得到累計分布函數(shù)形式的決策矩陣M︿=[P(ξij)]m*n,進而可以求出目標(biāo)產(chǎn)品的正負理想分布函數(shù),用函數(shù)F+j(x)和F-j(x)表示。
由于本文是對產(chǎn)品的優(yōu)劣進行排序,因此采用的是效益型指標(biāo)的確定方式。具體求解方式如下:
F+j=maxFij(x)|i=1,2,…,m,j=1,2,…,n(13)
F-j=minFij(x)|i=1,2,…,m,j=1,2,…,n(14)
由公式5-10和公式5-11,可確定正理想點F+和負理想點F-。
F+=F+1x,F(xiàn)+2x,…,F(xiàn)+nx(15)
F-=F-1x,F(xiàn)-2x,…,F(xiàn)-nx(16)
結(jié)合產(chǎn)品特征所對應(yīng)的權(quán)重ω=(ω1,ω2,…,ωn),可求得目標(biāo)產(chǎn)品Pi的正負理想點距離,用函數(shù)D+i和D-i表示。
D+i=∑nj=1ωj*∫ΩjFijx-F+jxdx,i=1,2,…,m(17)
D-i=∑nj=1ωj*∫ΩjFijx-F-jxdx,i=1,2,…,m(18)
其中,Ωj=[H1,Hk],k=1,2,3,4,5。
根據(jù)已經(jīng)求出的正負理想點距離,可求得關(guān)于目標(biāo)產(chǎn)品Pi的貼近度,用函數(shù)CCi表示。
CCi=D-iD-i+D+i,i=1,2,…,m(19)
顯然我們可以看出,貼進度CCi的取值越大,代表目標(biāo)產(chǎn)品Pi與正理想點的距離越近,同時離負理想點的距離越遠,也就說明目標(biāo)產(chǎn)品Pi越好。因此,最后可以根據(jù)CCi取值的大小判斷目標(biāo)產(chǎn)品的優(yōu)劣。
6數(shù)據(jù)驗證
在數(shù)據(jù)驗證階段,選擇途家網(wǎng)為代表進行研究。本文隨機選擇5家店鋪,獲取這5家店鋪的在線評論數(shù)據(jù),依據(jù)上文提到的技術(shù)手段和算法對數(shù)據(jù)進行分析,然后應(yīng)用多屬性決策模型對這5家店鋪進行排序。
本文在途家網(wǎng)中,選擇城市為大理,根據(jù)首頁推薦隨機挑選前5家店鋪,但店鋪選擇的過程中,盡量考慮店鋪的價格在同一個區(qū)間范圍內(nèi),根據(jù)推薦頁的店鋪情況來看,除部分店鋪的價格在100元以下或者一些別墅套件在500元以上,其他大多數(shù)的店鋪價格均保持在100-300之間,其中以100-200之間尤其多,因此將店鋪的價格確定在100-200,最終確定的店鋪分別為:大理古城小貓民宿(X1)、閑暇小筑(X2)、大理古城邊的小院子合院(X3),洱海邊雅致雙床房(X4),泊新民宿-情侶蜜月陽光大床房(X5),價格分別為:116、134、179、170、188。在抓取在線評論的同時,也抓取了其他信息如下:(1)評論發(fā)布者的用戶名;(2)評論者點評時間;(3)圖片評論數(shù)。通過Gooseaker獲得這5家店鋪的在線評論信息,每家店鋪收集的在線評論數(shù)據(jù)如表4所示。
則可根據(jù)(公式12~19)計算得到關(guān)于產(chǎn)品X1,X2,X3,X4,X5的貼進度分別為CC1=0.301,CC2=0.411,CC3=0.565,CC4=0.169,CC5=0.538。因此,候選商品的排序為X3>X5>X2>X1>X4,即X3的綜合評價較好,潛在消費者可以選擇X3進行。
7結(jié)論
本文結(jié)合在線短租市場的特點,通過對在線評論的處理,研究評論信息對產(chǎn)品排序的影響,通過對現(xiàn)有的評論信息進行處理,并依據(jù)TOPSIS算法得到了最公正的產(chǎn)品排序。該方法的主要特點在于:評論信息數(shù)據(jù)量大,同時也易于獲取,本文考慮了在線評論的效用、產(chǎn)品特征和情感傾向?qū)οM者的影響,多維度分析,彌補了現(xiàn)有方法對在線評論信息處理過于粗糙的缺點。
參考文獻
[1]姜廣田.解決隨機多屬性決策問題的若干理論與方法研究[D].沈陽:東北大學(xué),2010.
[2]張艷輝,李宗偉.在線評論有用性的影響因素研究:基于產(chǎn)品類型的調(diào)節(jié)效應(yīng)[J].管理評論,2016,28(10):123-132.
[3]李金海,何有世,馬云蕾,等.基于在線評論信息挖掘的動態(tài)用戶偏好模型構(gòu)建[J].情報雜志,2016,35(9):192-198.
[4]張艷豐,李賀,翟倩,等.基于模糊TOPSIS分析的在線評論有用性排序過濾模型研究——以亞馬遜手機評論為例[J].圖書情報工作,2016,(13):109-117.
[5]李永海.一種使用在線評論信息的商品購買決策分析方法[J].運籌與管理,2018.