皇蘇斌,修宇,趙森嚴(yán),汪千松
安徽工程大學(xué)計算機(jī)與信息學(xué)院安徽工程大學(xué)計算機(jī)應(yīng)用技術(shù)重點(diǎn)實驗室,安徽 蕪湖 241000
基于多維特征權(quán)重的虛假評論識別方法
皇蘇斌,修宇,趙森嚴(yán),汪千松
安徽工程大學(xué)計算機(jī)與信息學(xué)院
安徽工程大學(xué)計算機(jī)應(yīng)用技術(shù)重點(diǎn)實驗室,安徽 蕪湖 241000
[摘要]在線商品評論是消費(fèi)者網(wǎng)購決策的重要依據(jù),利益的驅(qū)動使得越來越多的網(wǎng)絡(luò)虛假評論呈現(xiàn)在消費(fèi)者面前。針對此問題,提出一種多維特征權(quán)重的在線虛假評論識別方法。首先,從網(wǎng)購信息有用性角度出發(fā),在商品、評論者和評論內(nèi)容3個維度中選取9個對評論屬類語義貢獻(xiàn)大的特征。然后,基于Fisher準(zhǔn)則,運(yùn)用賦予權(quán)重的特征構(gòu)建用于識別虛假評論的方法。試驗結(jié)果驗證了基于多維特征權(quán)重的虛假評論識別方法的有效性:多維特征權(quán)重方法的準(zhǔn)確率、查全率和綜合分類率均高于Logistic回歸方法和自適應(yīng)聚類方法
[關(guān)鍵詞]虛假評論;特征選擇;特征權(quán)重;Fisher準(zhǔn)則 在線商品評論作為短文本的一種[1,2],具有稀疏、正常評論與虛假評論分布不均衡等特點(diǎn)?,F(xiàn)有虛假識別方法側(cè)重于相關(guān)特征的選取,多數(shù)研究在識別分類上直接使用特征值作為分類依據(jù)[3,6~10],忽略已選特征信息對虛假評論識別的具體貢獻(xiàn)權(quán)重,使得評論分類結(jié)果傾向于正常評論而忽視虛假評論[4],導(dǎo)致分類的準(zhǔn)確率、查全率不高,不能滿足實際需求。事實上,特征權(quán)重能夠反映該特征對標(biāo)識評論的貢獻(xiàn)度,體現(xiàn)評論間的區(qū)分能力。因此,如何選擇用于虛假評論識別的評論特征以及賦予其權(quán)重對在線虛假評論識別有著重要的意義。
虛假評論識別與傳統(tǒng)文本分類有相通之處,但也存在評論文本自身的特點(diǎn)??傮w來講,按特征的選擇現(xiàn)有虛假識別方法可以分為基于評論內(nèi)容的識別和基于評論行為的識別2種。
1)基于評論內(nèi)容的識別方法。JINDAL等[5]率先提出垃圾意見檢測,并使用Logistic模型對垃圾評論進(jìn)行識別[6]。鄧莎莎等[7]從心理學(xué)角度對評論內(nèi)容進(jìn)行研究,提出包括11種欺騙語言線索的3類欺騙特征,實現(xiàn)對虛假評論的識別,并對不同欺騙組合特征的分類效果進(jìn)行驗證。任亞峰等[3]認(rèn)為真實評論和虛假評論在情感極性和語言結(jié)構(gòu)上存在差異,提出利用遺傳算法對語言結(jié)構(gòu)及情感極性特征進(jìn)行選擇優(yōu)化,然后對優(yōu)化的特征采用無監(jiān)督硬、軟聚類算法進(jìn)行虛假評論識別。
2)基于評論行為的識別方法。虛假評論的產(chǎn)生通常伴隨著一些特有的行為特征,而這些特征有助于識別評論中的欺騙內(nèi)容。LIM等[8]將評論欺騙行為分為2大特點(diǎn):欺騙者通常僅關(guān)注于某一種或一類商品,并在這些商品評論中最大化發(fā)揮他們的評論影響力;欺騙者的評分行為往往和其他正常用戶有很大的區(qū)別,因此定義了4種不同類型的欺騙行為模型。宋海霞等[9]借助評論者的行為特征,對虛假評論進(jìn)行識別,根據(jù)評論數(shù)據(jù)定義自身基本特征,并計算與其他評論之間的關(guān)聯(lián)性特征,通過自適應(yīng)聚類算法實現(xiàn)對虛假評論的檢測。
然而,上述研究側(cè)重于特征或方法的選擇,未考慮特征本身對評論屬類的貢獻(xiàn)程度,為此,筆者提出一種基于多維特征權(quán)重的虛假評論識別方法。
1多維特征選擇
商品評論所表達(dá)的屬類語義信息與商品本身、評論者和評論內(nèi)容密切相關(guān)。筆者以網(wǎng)購信息的有用性為出發(fā)點(diǎn),基于特征對虛假評論分類的貢獻(xiàn)度,從商品、評論者和評論內(nèi)容3個維度中選擇9個貢獻(xiàn)大的特征來標(biāo)識評論的分類,具體如下:
1.1商品維度
1)商品價格(F1) 商品價格越高,欺詐雙方經(jīng)濟(jì)成本和風(fēng)險程度也隨之增加,因此相對于價格較高的商品,虛假評論更多存在于價格較低的商品評論之中[11]。
2)商品屬性(F2)用戶只有在使用商品之后才會獲得切身體會,包括對商品特征、性能等屬性的使用感受描述。如果一條評論中沒有或較少涉及對商品屬性的描述,那么該評論為虛假評論的可能性較大。
1.2評論者維度
1)評論者信譽(yù)(F3)一般情況下,信譽(yù)高的用戶發(fā)表的評論比信譽(yù)低的更具有可信性。
2)是否匿名評論(F4) 實名用戶發(fā)布虛假評論后被發(fā)現(xiàn)的風(fēng)險比匿名用戶要高,因此虛假評論更多存在于匿名評論中。
1.3評論內(nèi)容維度
1)評論長度(F5)真實評論者一般不愿意評論或者給予簡單的評論,而虛假評論者為取到夸大或詆毀的效果,往往較冗長地描述商品質(zhì)量或服務(wù)。因此,篇幅較長的評論為虛假評論的可能性較大[3]。
2)正面情感詞(F6)和負(fù)面情感詞(F7)虛假評論者為了贊揚(yáng)或貶低某一商品,會盡可能地增加正面或負(fù)面情感詞,以達(dá)到夸大或詆毀的作用。如果一條評論中過多出現(xiàn)正面或負(fù)面情感詞,則該評論為虛假評論的可能性較大。
3)品牌名稱(F8) 評論中反復(fù)出現(xiàn)品牌名稱,以此來提高該條評論的可信性,則該評論是虛假評論的可能性較高。
4)是否附圖評論(F9)用戶發(fā)布附帶商品圖片的評論要比直接的文本評論可信性高,虛假評論更多存在于直接文本評論中。
2單個特征的Fisher值
筆者采用Fisher準(zhǔn)則來分析各特征對虛假識別的貢獻(xiàn)權(quán)重,采用單個特征的Fisher值作為計算準(zhǔn)則[12]。
(1)
(2)
單個特征的Fisher準(zhǔn)則表示為:
(3)
F(k)稱為第k維的Fisher值。如果某一維特征在樣本集上的F(k)值越大,則說明該維特征在類別區(qū)分上作用越強(qiáng)。
3權(quán)重計算及特征向量化
筆者將虛假評論識別看作一個二分類問題,形式化定義為:假設(shè)預(yù)處理評論類型集為D={d0,d1},其中,d0表示正常評論,稱為負(fù)類,d1表示虛假評論,稱為正類,需進(jìn)行分類的評論集為P={p1,p2,…,pn},每條評論由特征集Fi(i=1,2,…,9)組成。
對此,根據(jù)式(1)~(3),計算評論中單個特征的Fisher值F(j):
(4)
最后,結(jié)合特征權(quán)重和特征值將評論樣本向量化為表1所示。
4試驗
4.1試驗設(shè)置
表2 實驗數(shù)據(jù)集
采用專家標(biāo)注方法,選擇Alexa排名靠前的國內(nèi)2家電子商務(wù)平臺(淘寶:http://www.taobao.com;京東商城:http://www.jd.com),分別從中抓取5000條手機(jī)評論相關(guān)信息,分為4組每組2500條,包含8個字段的內(nèi)容:評論者姓名、商品詳情、商品價格、評論者信譽(yù)、評論內(nèi)容、評論時間、是否匿名評論和是否附圖評論。選擇20名專家并將其分為5組,分別對4組數(shù)據(jù)集進(jìn)行真實評論與虛假評論的人工標(biāo)注,從5組標(biāo)注結(jié)果中選取4組結(jié)果相同的評論作為實驗數(shù)據(jù)集,最終取得真實評論5283條,虛假評論2401條,具體分布如表2。
采用中科院計算技術(shù)研究所研制的ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)[13]漢語語法分析系統(tǒng)對數(shù)據(jù)集的評論內(nèi)容和商品詳情進(jìn)行分詞處理,去除停用詞、虛詞和標(biāo)點(diǎn)符號等;利用知網(wǎng)HowNet情感詞典[14],除去一些生僻詞,加入一些網(wǎng)絡(luò)流行新詞,構(gòu)建評論情感詞詞典;采用哈工大信息檢索研究中心同義詞詞林?jǐn)U展版[15]構(gòu)建商品屬性、品牌名稱同義詞詞典。
4.2試驗結(jié)果分析
采用文本分類中通用分類性能評估指標(biāo)準(zhǔn)確率PR(Precision)、查全率RE(Recall)和綜合分類率F1來分析引入特征權(quán)重方法后的評論樣本分類效果。對于評論類型集li(i=0,1),假設(shè)xi為第i類的評論樣本總數(shù),yi為分類中正確被分到第i類的評論文本數(shù),zi為分類中實際被分到第i類的評論文本數(shù),則對于第i類評論樣本的分類性能評估指標(biāo)的計算方法如下:
(6)
(7)
(8)
筆者采用宏平均對分類效果進(jìn)行全局評價,具體如下:
(9)
(10)
(11)
圖1 分類效果比較
對4組試驗數(shù)據(jù)集進(jìn)行特征權(quán)重計算和向量化處理,其中每組數(shù)據(jù)集的行代表評論樣本,列代表分類特征。在Matlab環(huán)境下使用SVM分類器對多維特征權(quán)重方法進(jìn)行分類測試,測試方法采用循環(huán)交叉試驗方法,輪流將其中3組作為訓(xùn)練集,另外1組作為測試集,共進(jìn)行4次訓(xùn)練和測試,取4次試驗結(jié)果的平均值。然后以文獻(xiàn)[5]中的Logistic回歸模型和文獻(xiàn)[9]中的自適應(yīng)聚類方法作為對比試驗。具體試驗結(jié)果如圖1所示。
從圖1中可看出,多維特征權(quán)重方法的準(zhǔn)確率、查全率和綜合分類率均高于Logistic回歸方法和自適應(yīng)聚類方法,原因分析如下:在評論樣本中,正常評論與虛假評論分布是不均衡的,這種不均衡現(xiàn)象對分類效果的影響體現(xiàn)為在不同批次的分類中分類效果會出現(xiàn)較大的波動。筆者提出的多維特征權(quán)重方法以網(wǎng)購信息的有用性為基礎(chǔ),多維度選取對評論分類標(biāo)識重要的特征,并計算特征的權(quán)重,運(yùn)用賦予權(quán)重的特征構(gòu)建虛假評論識別分類的決策信息,從而實現(xiàn)待分類評論樣本分布的優(yōu)化,更好地反映特征對虛假評論分類的重要程度。特征權(quán)重方法綜合考慮了各特征信息對全局的決策能力,進(jìn)一步優(yōu)化特征對評論樣本劃分的一致性程度,進(jìn)而提高虛假評論分類的準(zhǔn)確率、查全率和綜合分類率。
5結(jié)語
考慮多維特征信息對虛假評論分類的貢獻(xiàn)度,提出了一種基于多維特征權(quán)重的虛假評論識別方法。在特征的選取上,從網(wǎng)購信息的有用性角度出發(fā),多維度的選取9個對評論分類標(biāo)識重要的特征,在特征權(quán)重的計算上,綜合考慮特征信息的決策能力,將賦予權(quán)重的特征運(yùn)用于構(gòu)建虛假評論識別分類的決策信息中。與已有的方法相比,該方法可以優(yōu)化評論樣本的分布,提高虛假評論分類的準(zhǔn)確率、查全率和綜合分類率。未來的工作將研究網(wǎng)購用戶行為與虛假評論的關(guān)系以及店鋪虛假銷量的識別。
[參考文獻(xiàn)]
[1]林煜明,王曉玲,朱濤,等.用戶評論的質(zhì)量檢測與控制研究綜述[J].軟件學(xué)報,2014,25(3):506~527.
[2]黃婷婷,曾國蓀,熊煥亮.基于商品特征關(guān)聯(lián)度的購物客戶評論可信排序方法[J].計算機(jī)應(yīng)用,2014,34(8):2322~2327,2341.
[3]任亞峰,尹蘭,姬東鴻.基于語言結(jié)構(gòu)和情感極性的虛假評論識別[J].計算機(jī)科學(xué)與探,2014,8(3):313~320.
[4]林智勇,郝志峰,楊曉偉.不平衡數(shù)據(jù)分類的研究現(xiàn)狀[J].計算機(jī)應(yīng)用研究,2008,25(2):332~336.
[5]Jindal N,Liu B.Review spam detection[A].Proceedings of the 16th International Conference on World Wide Web[C].USA:ACM,2007:1189~1190.
[6]Jindal N,Liu B.Analyzing and Detecting Review Spam[A].Proceedings of the 7th IEEE International Conference on Data Mining[C].USA:IEEE Computer Society,2007:547~552.
[7]鄧莎莎,張朋柱,張曉燕,等.基于欺騙語言線索的虛假評論識別[J].系統(tǒng)管理學(xué)報,2014,23(2):263~270.
[8]Lim E,Nguyen V,Jindal N,et al.Detecting product review spammers using rating behabiors [C].Proceedings of the 19th ACM International Conference on Information and Knowledge Management,ACM,2010.
[9]宋海霞,嚴(yán)馨,余正濤,等.基于自適應(yīng)聚類的虛假評論檢測[J].南京大學(xué)學(xué)報(自然科學(xué)版),2013,49(4):433~438.
[10]李霄,丁晟春.垃圾商品評論信息的識別研究[J].現(xiàn)代圖書情報技術(shù),2013,299(1):63~68.
[11]WEIJIA YOU,LU LIU,MING XIA,et al.Reputation inflation detection in a Chinese C2C market [J]. Electronic Commerce Research and Applications, 2011, 10:510~519.
[12]王颯,鄭鏈.基于Fisher準(zhǔn)則和特征聚類的特征選擇[J].計算機(jī)應(yīng)用,2007,27(11):2812~2814.
[13]ICTCLAS[EB/OL].http://ictclas.nlpir.org/,2014-09-20.
[14]HowNet[EB/OL]. http://www.keenage.com/html/c_index.html,2014-09-20.
[15]HIT-CIR Tongyici Cilin (Extended)[EB/OL]. http://ir.hit.edu.cn/demo/ ltp/Shari- ng_Plan.htm,2014-09-20.
[編輯]洪云飛
[引著格式]皇蘇斌,修宇,趙森嚴(yán),等.基于多維特征權(quán)重的虛假評論識別方法[J].長江大學(xué)學(xué)報(自科版),2015,12(16):34~38.
29 Collaborative Recommendation Method Based on Social Network
Wang Qiansong, Jiang Sheng, Wang Zhongqun(AnhuiPolytechnicUniversity,Wuhu241000)
Abstract:In consideration of the problem of lower recommendation precision in the traditional collaborative filtering recommendation algorithm, a new collaborative recommendation method is proposed based on social network.The similarities and credibility of users are integrated in the social network.Firstly, the similarities between the users are calculated based on the ratings, and then the credibility of users are calculated based on direct and indirect credibility.Finally, the similarities of user rating and the credibility of user’ recommendation are integrated to get the weights of users’ recommendations and get the nearest neighbor set and provide a more accurate recommendation.The experimental results show that the new method can improve the accuracy of recommendation.
Key words:social network; collaborative filtering; recommendation accuracy; credibility; recommendation weight
[文獻(xiàn)標(biāo)志碼]A
[文章編號]1673-1409(2015)16-0034-05
[中圖分類號]TP391