亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于評論挖掘在線短租市場產(chǎn)品排序研究

2019-07-02 13:32:36蔡丹丹王斌

現(xiàn)代商貿(mào)工業(yè) 2019年15期

蔡丹丹　王斌

摘要：結(jié)合在線短租市場固有的特點，分析信息質(zhì)量對于消費者信息采納和決策行為的作用機制。在研究方法上，選擇了多屬性決策模型對目標(biāo)商品進行排序，確定產(chǎn)品總效用、產(chǎn)品特征-情感和權(quán)重，利用TOPSIS算法，對目標(biāo)商品進行排序。結(jié)合在線短租市場特點基礎(chǔ)上，對大量在線評論數(shù)據(jù)進行處理，多維度考慮評論信息對產(chǎn)品排序的影響。

關(guān)鍵詞：在線短租;信息采納模型;評論挖掘;TOPSIS算法

中圖分類號：F27文獻標(biāo)識碼：Adoi：10.19311/j.cnki.1672-3198.2019.15.032

1問題描述

本文主要考慮評論信息對電子商務(wù)網(wǎng)站產(chǎn)品排序影響。設(shè)目標(biāo)產(chǎn)品集為X={X1，X2，…，Xm}，目標(biāo)產(chǎn)品的在線評論集合為Ei= {e1i，e2i，…，eQii}，Qi表示產(chǎn)品i的評論數(shù)量，i= 1，2，…，m;q= 1，2，…，Qi。用C = {C1，C2，…，Cn}表示評論中涉及的產(chǎn)品屬性的集合;U（eqi）表示評論eqi的總效用;用ω表示產(chǎn)品屬性的權(quán)重向量，可以用向量表示為ω=（ω1，ω2，…，ωn）T，則ωj≥0且∑nj=1ωj=1。

本文需要解決的問題是，通過現(xiàn)在的在線評論信息Ei，抽取出產(chǎn)品的屬性，即集合C，以及每個產(chǎn)品屬性所代表的權(quán)重ω，并通過這些信息，對目標(biāo)產(chǎn)品進行排序。

2模型構(gòu)建

本文結(jié)合在線短租市場在線評論的特點，結(jié)合消費者購買決策五階段模型和信息采納模型，構(gòu)建模型。在模型構(gòu)建中，簡化了共識性因素對產(chǎn)品排序的影響，將研究重點放在中心路徑上，研究在線評論信息的質(zhì)量對于產(chǎn)品排序的影響，模型思路框架見圖1。

3在線評論效用

3.1評論長度

本文將評論長度具體量化為評論中所包含的字符數(shù)量。通常來說，評論文本越長，則其中包含的內(nèi)容也就越豐富，涉及的維度也就越多，其中包含的有用信息也越多，代表越強的可信度。因此，較長的評論文本可以一定程度上增加閱讀者的感知有用性，降低購買的不確定性。

num=count（word）（1）

u1eqi=ln（num+1）ln（num*+1）（2）

其中，word代表評論中所包含的文字數(shù)量，num*代表在線評論中長度最長的評論的文字數(shù)，可表示為num*=max （num），且0≤u1（eqi））≤1。

3.2評論時效性

評論時效性指評論消息發(fā)布與被閱讀兩者之間的時間差。差值越小，意味著評論越新，即評論的時效性越強。雖然不同市場的表現(xiàn)規(guī)律不同，但是不同維度的異質(zhì)性穩(wěn)定性隨著時間的推移而降低。

u2 （eqi）=exp （Tqi-TnowTnow-T*i）（3）

其中，Tqi表示消費者發(fā)表評論的時間，Tnow表示消費者進行產(chǎn)品選擇的時間，即產(chǎn)品評論被閱讀的時間，T*i表示該產(chǎn)品評論中，最早發(fā)表的時間，也就是說，T*i= min { Tqi}，特別地，當(dāng)Tqi=T*i時，u2（eqi）=0.37，可見，0.37≤u2 （eqi））≤1。

3.3圖片評論數(shù)

評論信息中，除了包含文字信息外，還會包含圖片信息，且圖片信息是對文字信息的內(nèi)容補充。根據(jù)大量文獻研究表明，圖片評論數(shù)對在線評論有用性有正向影響。另外來說，圖片信息由于其包含的內(nèi)容更加直觀、真實，有助于幫助消費者對產(chǎn)品本身有更好的了解。因此，圖片評論信息可以加強閱讀者的感知有用性。

u3eqi=exp （N-N*N*）（4）

其中，N代表評論中包含的圖片數(shù)量，N*=max （N），代表在線評論中最多的圖片數(shù)量。特別地，當(dāng)N=0時，u3 （eqi）= 0.37，可見，0.37≤u3 （eqi））≤1。

4產(chǎn)品特征-情感配對

4.1產(chǎn)品特征抽取

商品特征是評論信息的重要組成部分之一，同時也是消費者關(guān)注的具體內(nèi)容。對于一件有形的商品來說，它的特征可以是商品外觀、質(zhì)量、服務(wù)態(tài)度等各個方面，消費者對一個產(chǎn)品的喜好，歸根到底是對產(chǎn)品的各項特征的喜好。產(chǎn)品特征就是指產(chǎn)品所包含的各類屬性，包括它的包裝、功能、質(zhì)量、外形、服務(wù)等，這些都是吸引消費者做出選擇的關(guān)鍵性因素。因此，我們對產(chǎn)品的在線評論進行分析，就是探究在線評論中包含哪些吸引消費者的特征。

本文產(chǎn)品特征抽取采用的是關(guān)聯(lián)規(guī)則的方法，通過尋找頻繁項集實現(xiàn)產(chǎn)品特征的抽取。本文采用的是Apriori算法，通過算法抽取評論中具有頻繁項集作為產(chǎn)品特征，在算法的應(yīng)用中，頻繁項集僅考慮3項及其以下項集，同時，通過最小支持度對頻繁項集進行篩選。

4.2產(chǎn)品特征-情感傾向詞對抽取

情感傾向是用戶進行評論時，就產(chǎn)品的某個特征，發(fā)表的具有主觀性的評價語言，這些評論語言都具有感覺色彩，因此在評論分析中，需要找到產(chǎn)品特征所對應(yīng)的情感詞。一般情況下來說，情感詞和產(chǎn)品特征都是成對出現(xiàn)的，為了確保產(chǎn)品特征和情感詞兩者之間存在對應(yīng)關(guān)系，我們通過權(quán)重對兩者進行衡量，用pair，簡寫為pair，在實際應(yīng)用中，認定只有當(dāng)weight取值高于0.25時，才可以認為這對特征詞和情感詞之間存在配對關(guān)系。

4.3情感極性判定

4.3.1構(gòu)建情感詞典

情感詞典是分析情感詞極性的基礎(chǔ)，是一種基于語義的方法，它可以用于計算詞語、句子或者文檔的情感極性。本文的情感詞典構(gòu)建來源于HowNet、NTUSD以及評論語料。其中，HowNet和NTUSD提供不針對具體領(lǐng)域的，具有通用性的情感詞。由于本文是對在線評論進行情感分析，其中會涉及到很多網(wǎng)絡(luò)詞匯，因此在HowNet和NTUSD的基礎(chǔ)上，結(jié)合網(wǎng)絡(luò)詞匯加入到詞典中。將情感詞分為褒義、中性和貶義這三個集合，分別用符號O +，O'和O-表示，部分含義如表1所示。

4.3.2判斷情感極性

文本進行詞性標(biāo)注后，本文以其中的形容詞作為情感詞進行分析，通過LTP語言技術(shù)平臺，進行依存句法分析，存儲屬性-情感詞對，再根據(jù)情感詞典的方法對情感極性進行判斷。設(shè)Oqij表示評論eqi中關(guān)于屬性Cj的情感詞，P（Oqij）表示情感詞Oqij的極性，公式為

P（Oqij）=10-1若Oqij∈V+若Oqij∈V'若Oqij∈V-（5）

4.3.3處理程度副詞

消費者在發(fā)表評論時，不僅會用情感詞表示產(chǎn)品的特征，同時還會使用程度副詞加強情感。參照HowNet程度副詞表，按照表達的情感程度，可以將它劃分為兩類，用deg（Oqij）來表示，則deg（Oqij） = 1，2，含義如表2所示，公式表示為

deg（Oqij）=12Oqij∈Φ1Oqij∈Φ2（6）

其中，Φ1代表情感強度為1的副詞集合，Φ2代表情感強度為2的副詞集合。

4.3.4處理否定詞

情感詞可以充分表達消費者的情感傾向，但是，其中的否定詞對情感傾向的極性有關(guān)鍵影響。當(dāng)情感詞之前出現(xiàn)否定詞詞，所表示的情感極性有可能就完全相反。在否定詞處理中，主要考慮以下兩種情況，一是否定詞是對另一否定詞的否定，即出現(xiàn)兩個否定詞時，并不會影響情感極性;但是當(dāng)只有一個否定詞時，則是對情感極性的完全否定，情感極性完全相反。因此認為可以以否定詞出現(xiàn)的個數(shù)來判斷否定詞對情感極性的影響。令N表示情感詞Oqij前否定詞的個數(shù)。因此，關(guān)于就評論eqi，其表達的關(guān)于產(chǎn)品屬性Cj的情感強度可用下式來衡量：

Scoreeqi）= P（Oqij）* deg（Oqij）*（-1）qijN（7）

在數(shù)據(jù)處理中，若評論信息中并未出現(xiàn)關(guān)于屬性Cj的情感詞，則我們認為該評論信息的情感值為ψ，可用公式表示為Scoreeqi=ψ。但是，若評論信息中未出現(xiàn)任何屬性值，那么認為該評論對產(chǎn)品的所有屬性表達的情感相同。可見，當(dāng)Scoreeqi≠ψ時，Scoreeqi= -2，-1，0，1，2。

5基于TPOSIS算法的產(chǎn)品排序模型

Technique for Order Preference by Similarity to an Ideal Solution是1981年，由C.L.Hwang聯(lián)合K.Yoon提出的，簡稱為TOPSIS算法。TOPSIS算法主要用于對有限數(shù)量的目標(biāo)產(chǎn)品進行優(yōu)劣排序。TOPSIS算法中，首先計算在理想狀態(tài)下的最優(yōu)目標(biāo)，其次通過各目標(biāo)產(chǎn)品與理想最優(yōu)解之間的距離來進行判斷，同時，該方法要求各效用函數(shù)具有單調(diào)遞增（或遞減）性。

5.1在線評論效用計算

評論eqi的總效用為

U（eqi）=αu1（eqi）+βu2（eqi）+γu3（eqi）（8）

i= 1，2，…，m;q = 1，2，…，Q;;其中，α，β，γ≥0 且α+β+γ= 1。

5.2產(chǎn)品屬性權(quán)重

在產(chǎn)品特征處理過程中，已經(jīng)將產(chǎn)品的特征進行頻繁項集處理，得到產(chǎn)品的屬性集合。用yqij表示評論eqi中包含的屬性集合，若評論eqi中未提取出屬性詞，則yqij=φ。若評論中某屬性出現(xiàn)的頻率越高，則代表該屬性受到更多的人重視，即該屬性在消費者心中的權(quán)值越高，以統(tǒng)計的方法，將各屬性集合所在評論的效用進行累加，并以此代表屬性的權(quán)重，則屬Cj的權(quán)重可表示為

wj=∑mi=1∑Qiq=1Ueqiτjeqi∑nj=1∑mi=1∑Qiq=1Ueqiτjeqi（9）

其中：τjeqi=1，0，yqij≠φyqij=φ;∑mi=1∑Qiq=1U（eqi）τj（eqi）表示包含屬性Cj集合的評論的總效用值。

5.3構(gòu)建決策矩陣

用H = { H1 =-2，H2 =-1，H3 = 0，H4 = 1，H5= 2}表示評論信息中，產(chǎn)品特征所代表的情感等級集合。為了表達產(chǎn)品在不同情感等級上的差異性，本文采用隨機形式表達消費者的情感傾向。

首先，記ξij表示產(chǎn)品Xi關(guān)于屬性Cj的隨機評價值，那么ξij就可以用公式10表示其概率分布函數(shù)。

Pξij=Hk=pkij，k=1，2，…，5（10）

其中，

pkij=∑Qiq=1ψk（Scoreeqij）∑Nk=1∑Qiq=1ψk（Scoreeqij）（11）

ψkScoreeqij=1，0，Scoreeqij=HkScoreeqij≠Hk，pkij∈[0，1]且∑Nk=1pkij=1，其中，N代表需要決策的產(chǎn)品數(shù)。因此，我們可以求出針對目標(biāo)產(chǎn)品的離散概率分布函數(shù)，即決策矩陣，用M=[P（ξij）]m*n表示，具體表達形式間表3。

5.4消費者購買決策模型

首先，確定關(guān)于候選商品Xi對商品特征Cj的特征值的累積分布函數(shù)，則ξij的累積分布函數(shù)如下：

Fijx=∑ξijSymbolcB@

xP（ξij）（12）

根據(jù)公式（12），可以得到累計分布函數(shù)形式的決策矩陣M︿=[P（ξij）]m*n，進而可以求出目標(biāo)產(chǎn)品的正負理想分布函數(shù)，用函數(shù)F+j（x）和F-j（x）表示。

由于本文是對產(chǎn)品的優(yōu)劣進行排序，因此采用的是效益型指標(biāo)的確定方式。具體求解方式如下：

F+j=maxFij（x）|i=1，2，…，m，j=1，2，…，n（13）

F-j=minFij（x）|i=1，2，…，m，j=1，2，…，n（14）

由公式5-10和公式5-11，可確定正理想點F+和負理想點F-。

F+=F+1x，F(xiàn)+2x，…，F(xiàn)+nx（15）

F-=F-1x，F(xiàn)-2x，…，F(xiàn)-nx（16）

結(jié)合產(chǎn)品特征所對應(yīng)的權(quán)重ω=（ω1，ω2，…，ωn），可求得目標(biāo)產(chǎn)品Pi的正負理想點距離，用函數(shù)D+i和D-i表示。

D+i=∑nj=1ωj*∫ΩjFijx-F+jxdx，i=1，2，…，m（17）

D-i=∑nj=1ωj*∫ΩjFijx-F-jxdx，i=1，2，…，m（18）

其中，Ωj=[H1，Hk]，k=1，2，3，4，5。

根據(jù)已經(jīng)求出的正負理想點距離，可求得關(guān)于目標(biāo)產(chǎn)品Pi的貼近度，用函數(shù)CCi表示。

CCi=D-iD-i+D+i，i=1，2，…，m（19）

顯然我們可以看出，貼進度CCi的取值越大，代表目標(biāo)產(chǎn)品Pi與正理想點的距離越近，同時離負理想點的距離越遠，也就說明目標(biāo)產(chǎn)品Pi越好。因此，最后可以根據(jù)CCi取值的大小判斷目標(biāo)產(chǎn)品的優(yōu)劣。

6數(shù)據(jù)驗證

在數(shù)據(jù)驗證階段，選擇途家網(wǎng)為代表進行研究。本文隨機選擇5家店鋪，獲取這5家店鋪的在線評論數(shù)據(jù)，依據(jù)上文提到的技術(shù)手段和算法對數(shù)據(jù)進行分析，然后應(yīng)用多屬性決策模型對這5家店鋪進行排序。

本文在途家網(wǎng)中，選擇城市為大理，根據(jù)首頁推薦隨機挑選前5家店鋪，但店鋪選擇的過程中，盡量考慮店鋪的價格在同一個區(qū)間范圍內(nèi)，根據(jù)推薦頁的店鋪情況來看，除部分店鋪的價格在100元以下或者一些別墅套件在500元以上，其他大多數(shù)的店鋪價格均保持在100-300之間，其中以100-200之間尤其多，因此將店鋪的價格確定在100-200，最終確定的店鋪分別為：大理古城小貓民宿（X1）、閑暇小筑（X2）、大理古城邊的小院子合院（X3），洱海邊雅致雙床房（X4），泊新民宿-情侶蜜月陽光大床房（X5），價格分別為：116、134、179、170、188。在抓取在線評論的同時，也抓取了其他信息如下：（1）評論發(fā)布者的用戶名;（2）評論者點評時間;（3）圖片評論數(shù)。通過Gooseaker獲得這5家店鋪的在線評論信息，每家店鋪收集的在線評論數(shù)據(jù)如表4所示。

則可根據(jù)（公式12～19）計算得到關(guān)于產(chǎn)品X1，X2，X3，X4，X5的貼進度分別為CC1=0.301，CC2=0.411，CC3=0.565，CC4=0.169，CC5=0.538。因此，候選商品的排序為X3>X5>X2>X1>X4，即X3的綜合評價較好，潛在消費者可以選擇X3進行。

7結(jié)論

本文結(jié)合在線短租市場的特點，通過對在線評論的處理，研究評論信息對產(chǎn)品排序的影響，通過對現(xiàn)有的評論信息進行處理，并依據(jù)TOPSIS算法得到了最公正的產(chǎn)品排序。該方法的主要特點在于：評論信息數(shù)據(jù)量大，同時也易于獲取，本文考慮了在線評論的效用、產(chǎn)品特征和情感傾向?qū)οM者的影響，多維度分析，彌補了現(xiàn)有方法對在線評論信息處理過于粗糙的缺點。

參考文獻

[1]姜廣田.解決隨機多屬性決策問題的若干理論與方法研究[D].沈陽：東北大學(xué)，2010.

[2]張艷輝，李宗偉.在線評論有用性的影響因素研究：基于產(chǎn)品類型的調(diào)節(jié)效應(yīng)[J].管理評論，2016，28（10）：123-132.

[3]李金海，何有世，馬云蕾，等.基于在線評論信息挖掘的動態(tài)用戶偏好模型構(gòu)建[J].情報雜志，2016，35（9）：192-198.

[4]張艷豐，李賀，翟倩，等.基于模糊TOPSIS分析的在線評論有用性排序過濾模型研究——以亞馬遜手機評論為例[J].圖書情報工作，2016，（13）：109-117.

[5]李永海.一種使用在線評論信息的商品購買決策分析方法[J].運籌與管理，2018.

現(xiàn)代商貿(mào)工業(yè)2019年15期

現(xiàn)代商貿(mào)工業(yè)的其它文章: 智能水面搜救機器人設(shè)計方案研究; 有限元技術(shù)視角下的汽車發(fā)動機密封性能研究; 裝配式建筑外墻防水研究; 房地產(chǎn)建筑工程項目管理中精細化管理的應(yīng)用分析; 工程項目管理中存在的問題及其對策分析; 保定府河水質(zhì)評價研究