林 杰 王夢嬌 張振宇
(同濟大學(xué) 經(jīng)濟與管理學(xué)院,上海 200092)
本文提出一種商品排序方法,首先運用Apriori算法對商品特征進行提取,并通過情感分析方法,建立商品各特征的情感詞典并計算每條評論中商品各特征的情感傾向,再根據(jù)商品特征情感傾向建立直覺模糊決策矩陣,運用直覺模糊TOPSIS方法對備選商品進行排序。
假設(shè)消費者想要購買手機,并且通過初步調(diào)查,確定了幾種可接受的商品,即備選商品。但是,由于時間和專業(yè)知識有限,消費者無法有效地得到需要的評論信息,于是在幾種備選商品中搖擺不定,無法做出最終選擇。本文從該問題出發(fā),設(shè)計算法對備選商品進行排名,為消費者選擇最滿意的商品,其解決框架如圖1所示。
圖1 在線評論商品排序問題解決框架
以下符號用于表示問題中的集合和變量,將在本文中使用。
A={A1,A2,…,An}:n個備選商品的集合,其中Ai表示第i個備選商品,i=1,2,…,n,集合A可由消費者決定。
F={f1,f2,…,fm}:m個特征的集合,從在線評論中挖掘的消費者所重點關(guān)注的商品特征,其中fj表示第j個特征,j=1,2,…,m。
Q={q1,q2,…,qn}:備選商品的在線評論數(shù)量,其中,qi表示關(guān)于備選商品Ai的在線評論數(shù)量,i=1,2,…,n。
本文設(shè)計的問題是如何根據(jù)在線評論Dik和特征權(quán)重ωj,對備選商品A1,A2,…,An進行排名,i=1,2,…,n,j=1,2,…,m,k=1,2,…,qi。
為了從在線評論Dik中提取出消費者所重點關(guān)注的關(guān)于備選商品的商品特征,這里根據(jù)文獻,給出一種基于在線評論信息挖掘的商品特征確定方法,具體過程描述如下:
首先,對評論中涉及的在線評論信息進行分詞,并對分詞后的在線評論信息進行詞性標(biāo)注。為準(zhǔn)確合理起見,這里運用中國科學(xué)院計算技術(shù)研究所開發(fā)的分析系統(tǒng)( ICTCLAS: Institute of Computing Technology, Chinese Lexical Analysis System) 進行在線評論信息的分詞處理,詞性標(biāo)注采用二級標(biāo)注方法。
其次,利用詞性標(biāo)注后的評論來創(chuàng)建關(guān)聯(lián)規(guī)則事務(wù)文件,并基于關(guān)聯(lián)規(guī)則Apriori算法來查找頻繁項集。這里參照同類研究文獻,最小支持度取值為1%,不考慮3項以上的頻繁項。
在此基礎(chǔ)上,將找出的頻繁項集按照文獻定義的鄰近規(guī)則和獨立支持度分別進行剪枝和修正,形成備選商品特征集合FTF。
然后,基于FTF分別構(gòu)建包含常見中文頻繁項名詞卻非商品特征的集合FFF(如一些常見商品品牌、口語化名詞及人稱名稱等)和包含單字名詞的備選特征的集合FSF,并將FTF過濾形成最終的商品特征集合F,即F=FTF-FFF-FSF。
通常情況下,不同特征的正向或負向情感詞典是不同的。一個詞可以同時屬于一個特征的正向情感詞典和另一個特征的負向情感詞典。例如,“高”屬于特征“像素”的正向情感詞典和特征“價格”的負向情感詞典。因此,有必要分別為每個特征建立正向和負向情感詞典。
首先,依據(jù)1.2中詞性標(biāo)注后的評論集,創(chuàng)建評論中針對特征fj的關(guān)聯(lián)規(guī)則事物文件,并基于關(guān)聯(lián)規(guī)則Apriori算法來查找其中的頻繁項集,形成特征fj的情感標(biāo)注集合。
(1)
(2)
(3)
本節(jié)采用一種算法計算每個評論的每個特征的正向、中性或負向情感傾向。該算法的主要思想如下:句子的情感傾向取決于句子中的情感詞,如果句子中正向情感詞的數(shù)量大于負向情感詞,則句子的情感傾向被認為是正向的;如果句子中負向情感詞的數(shù)量大于正向情感詞,則句子的情感傾向被認為是負向的;如果句子中沒有情感詞或者正向和負向的情感詞數(shù)量相同,那么句子的情感傾向被認為是中性的;如果句子中有否定詞,則句子的情感傾向?qū)⒈活嵉?,具體操作如下。
1.5.1直覺模糊數(shù)的計算
直覺模糊集理論是處理模糊性和猶豫的有用工具,直覺模糊數(shù)可以同時反映評論的支持、猶豫和反對程度?;谥庇X模糊集理論,備選商品在線評論的情感傾向可以通過直覺模糊數(shù)簡單而完整地表示。
(4)
(5)
(6)
1.5.2TOPSIS方法
使用TOPSIS方法對備選商品進行排序,其基本思想如下:在確定各屬性指標(biāo)權(quán)重的基礎(chǔ)上,歸一化原始數(shù)據(jù)矩陣,分別計算備選商品與最優(yōu)方案和最劣方案間的距離,獲得各備選商品與最優(yōu)方案的相對接近程度,作為評價優(yōu)劣的依據(jù)。具體算法步驟如下:
①根據(jù)備選商品的整體模糊數(shù)構(gòu)造決策矩陣A=(aij)n×m,其中aij=Yij,表示備選商品Ai的特征fj的直覺模糊數(shù),n為備選商品個數(shù),m為商品特征數(shù)。
②為了消除不同屬性間的量綱效應(yīng),使每個屬性特征都具有同等的表現(xiàn)力,首先對原始數(shù)據(jù)進行標(biāo)準(zhǔn)化處理。
(7)
(8)
(9)
⑥計算各方案的貼近度(綜合評價指數(shù)),并按照由大到小排列。
(10)
本文選取了京東商城五款手機的在線評論作為數(shù)據(jù)進行實驗。這五款手機分別是iPhone X、華為P10、美圖T8、vivo X9、OPPO R11S。利用爬蟲軟件共爬取評論5000條(每款手機1000條),對評論進行處理,去除重復(fù)評論和垃圾評論,再對網(wǎng)絡(luò)評論數(shù)據(jù)集進行降噪處理:將重復(fù)兩次或者兩次以上的商品評論語句全部刪除;剔除評論字數(shù)小于5個的商品評論;刪除含有大量特殊字符、表情的商品評論數(shù)據(jù)。最終,從獲得的數(shù)據(jù)集中選取2000條評論(每款手機各400條)。
步驟① 運用ICTCLA工具對評論數(shù)據(jù)進行分詞處理和詞性標(biāo)注;
步驟② 創(chuàng)建關(guān)聯(lián)規(guī)則事務(wù)文件,基于關(guān)聯(lián)規(guī)則Apriori算法找出頻繁項集,并對其進行剪枝和修正,形成備選商品特征集合;
步驟③ 由消費者給出關(guān)于商品特征的權(quán)重矩陣W;
步驟⑥ 構(gòu)建每條評論、每個特征的情感傾向集合;
步驟⑦ 根據(jù)評論點贊數(shù),計算每條評論的權(quán)重,確定每個備選手機的直覺模糊數(shù);
步驟⑧ 構(gòu)建直覺模糊決策矩陣,運用TOPSIS法對備選手機進行排序。
依據(jù)2.2節(jié)中設(shè)計的實驗算法,確定關(guān)于備選手機的特征及其對應(yīng)的情感詞典,如表1 所示。
再由消費者根據(jù)提取的特征和自己的喜好來確定商品特征權(quán)重。假設(shè)消費者針對六個特征(外觀、屏幕、拍照、電池、價格和系統(tǒng))的權(quán)重分別為W=(0.2,0.1,0.1,0.1,0.3,0.2)T。
計算可得由備選手機的直覺模糊數(shù)組成的TOPSIS決策矩陣,如表2所示。
表1 特征情感詞典部分展示
表2 直覺模糊決策矩陣A
根據(jù)TOPSIS算法,將手機整體直接模糊數(shù)進行無量綱處理,結(jié)合特征權(quán)重,計算加權(quán)規(guī)范矩陣,如表3所示。
所有備選手機特征的理想點如表4所示。
表3 加權(quán)規(guī)范矩陣C
表4 TOPSIS算法的正、負理想點
再根據(jù)TOPSIS算法,求得每個手機的貼近度Ci,如表5所示。
由表5可得,在消費者給定商品特征權(quán)重W=(0.2,0.1,0.1,0.1,0.3,0.2)T的情況下,備選手機排序為華為P10>IPHONEX>OPPO R11S>vivo X9>美圖T8, 即優(yōu)先價格、系統(tǒng)性能和外觀,最優(yōu)的選擇是華為P10。本方法建議消費者購買華為P10。
表5 商品貼近度
根據(jù)對華為P10的評論也可以看出,多數(shù)評論都注明該手機系統(tǒng)流暢、性價比高,符合實驗結(jié)果。而對于iPhone X的評價大多比較苛刻,這可能是因為iPhone X的價格較高,用戶對其要求更高,導(dǎo)致其排名靠后。
本文提出了一種關(guān)于商品排序的新的分析方法。該方法解決問題遵循的思路如下:針對某一類別商品,首先由消費者根據(jù)個人偏好給定備選商品集,通過爬蟲技術(shù)得到備選商品的評論集合;再通過對評論信息進行信息挖掘和情感分析,確定備選商品的重要特征集合,構(gòu)建關(guān)于各商品特征的正負情感詞典,計算評論的情感傾向,得到商品直覺模糊數(shù);最后結(jié)合消費者給出的商品特征權(quán)重,使用TOPSIS法確定備選商品的排序,得到最佳選擇,幫助消費者做出購買決策。
本文所提出的方法按照商品特征對在線評論進行提取,可以直觀展示每個商品特征的得分即排序情況,直接、快速地滿足了消費者的需求,并且在消費者給出商品特征權(quán)重的基礎(chǔ)上,給出了商品整體的排序結(jié)果。該方法充分考慮了消費者的主觀需求和消費者對于各商品特征的不同程度情感(正向、中性、負向),利用直覺模糊數(shù)全面反映了消費者的不同情感向量,比以往研究更細,彌補了僅考慮消費者極性情感的不足。除此之外,本文還考慮了消費者對于特征的偏好情況,更符號消費者的實際購買需求。
總的來說,本文結(jié)合直覺模糊理論中的隸屬度、非隸屬度和猶豫度,提供了一種解決商品排序問題的有效思路。本文提出的方法具有可操作性和實際應(yīng)用價值,為解決當(dāng)前大數(shù)據(jù)時代普遍存在的使用在線評論信息的商品購買決策問題提供了一種新的決策技術(shù)或新途徑。