羅昌銀 但唐朋 李艷紅 陳昌昊 王 泰,3
1(華中師范大學(xué)計算機學(xué)院 湖北 武漢 430079) 2(中南民族大學(xué)計算機科學(xué)學(xué)院 湖北 武漢 430074) 3(華中師范大學(xué)國家數(shù)字化學(xué)習(xí)工程技術(shù)研究中心 湖北 武漢 430079)
移動社交網(wǎng)絡(luò)的普及與電子商務(wù)的發(fā)展促進(jìn)了互聯(lián)網(wǎng)用戶在線評論數(shù)量的增長,以微博為代表的評論往往會帶有用戶個人的情感傾向。通過對這些評論文本進(jìn)行情感分析挖掘,可以獲得用戶對事件的看法或產(chǎn)品的偏好。這些信息可以應(yīng)用到輿情分析、商品推薦等多個領(lǐng)域。面對大數(shù)據(jù)時代,如何高效、準(zhǔn)確地得評論文本情感傾向信息顯得尤為重要。
情感分析的主要研究工作包含情感傾向性分析、語言分析、觀點提取。這些研究都依賴于準(zhǔn)確可信的標(biāo)準(zhǔn)訓(xùn)練集來訓(xùn)練的分類模型。然而在現(xiàn)實中,人們對評論信息的依賴導(dǎo)致了虛假評論的產(chǎn)生。比如賣家店鋪發(fā)布不實評論誘導(dǎo)買家進(jìn)行消費,在微博上發(fā)布虛假消息騙取流量等。
基于前人的研究[1]。虛假評論被分為以下兩類:
(1) 欺騙性評論。這類評論會誘導(dǎo)其他用戶產(chǎn)生錯誤判斷。如:淘寶網(wǎng)中賣家刻意發(fā)布的買家好評就屬于欺騙性評論。
(2) 破壞性評論。這一類評論主要分為以下三個子類別:① 廣告性評論;② 與當(dāng)前主題的無關(guān)評論;③ 不包含任意觀點、內(nèi)容、難以分辨情感的隨機文本。
人們能夠有效地識別破壞性評論,因為此類評論與整體評論關(guān)聯(lián)性低。而第一類欺騙性評論由于其與整體評論高度關(guān)聯(lián)且具有隱藏性與多樣性等特點,所以難以識別。虛假評論的存在會降低傳統(tǒng)情感分析模型的準(zhǔn)確度,如何有效識別評論中的虛假評論并對其進(jìn)行剔除,從而提高情感分析的準(zhǔn)確度成為亟待解決的問題。
PU學(xué)習(xí)算法是一種半監(jiān)督二元分類模型。不同于傳統(tǒng)的半監(jiān)督分類模型,PU算法只需要依賴少量標(biāo)注的正向樣本和大量未標(biāo)注樣本即可完成訓(xùn)練。當(dāng)負(fù)向樣本難以通過先驗知識獲得時可以采用PU算法。PU算法可以幫助我們進(jìn)行虛假評論識別,也有部分學(xué)者將PU算法應(yīng)用于虛假評論識別的研究當(dāng)中,但這些研究并沒有考慮到用戶與文本之間的特征。本文通過研究用戶狀態(tài)指標(biāo)和行為指標(biāo)特征設(shè)計有效的策略來確定樣例中的類別標(biāo)簽,提高算法識別的準(zhǔn)確度。
本文基于用戶的狀態(tài)指標(biāo)和行為指標(biāo)設(shè)計用戶評論可信度特征提取模型,并結(jié)合PU學(xué)習(xí)算法完成虛假評論識別。待去除虛假評論之后,再利用隨機梯度下降的邏輯回歸模型完成情感分析任務(wù)。本文的主要創(chuàng)新如下:
(1) 分析了用戶的狀態(tài)與行為指標(biāo),并將其與PU學(xué)習(xí)算法相結(jié)合提高了虛假評論的識別性能。傳統(tǒng)基于PU學(xué)習(xí)算法的虛假評論識別研究通過聚類方式獲得間諜樣例中的相關(guān)性,而本文從用戶狀態(tài)和行為獲取虛假評論的特征能夠從根源體現(xiàn)間諜樣例的相關(guān)性。
(2) 傳統(tǒng)研究路線沒有考慮訓(xùn)練集與測試集中的虛假評論,從而導(dǎo)致情感分析的準(zhǔn)確度難以提高。本文提出先進(jìn)行虛假評論識別再進(jìn)行情感分析的研究方法,能夠顯著提高整體情感分析的準(zhǔn)確度。
文本情感分析是人工智能領(lǐng)域關(guān)注的重點,目前國內(nèi)外有不少學(xué)者取得了一定的研究成果。
Kasabov等[2]將密度估計與邏輯回歸相結(jié)合,解決了邏輯回歸方法中存在的非線性問題。Kamps等[3]基于WordNet的同義結(jié)構(gòu)利用其提供的詞語相似度計算方法來計算文本中詞語間的情感極性,再通過與之前所確定的情感強烈詞進(jìn)行對比來獲得目標(biāo)詞的褒貶。其優(yōu)點是通過詞的劃分有效提取了語句中的特征信息,但其只考慮詞語間的同義關(guān)系。
Graber等[4]從卡方統(tǒng)計量出發(fā),結(jié)合詞頻、詞集中程度、詞分散程度來解決傳統(tǒng)研究方法中特征項指定類出現(xiàn)頻率低的問題。但這類方法并沒有考慮到虛假評論的存在。梁軍等[5]探討了深度學(xué)習(xí)來完成中文短文本的情感分析可行性。他們不使用任何人工標(biāo)注的情感詞典與句法分析,僅僅將句子中詞語的標(biāo)簽關(guān)聯(lián)性引入情感極性轉(zhuǎn)移模型,最終獲得了不錯的情感分析準(zhǔn)確度。
上述研究方法從文本特征構(gòu)建的角度來提高分析結(jié)果的準(zhǔn)確度,但評論集中包含著虛假評論。如果不將其去除則會影響整個分類器的效能,所以對訓(xùn)練集和測試集中的虛假評論進(jìn)行識別、去除顯得尤為重要。
虛假評論識別研究開始于評論文本的虛假性檢測研究,其核心難點是如何統(tǒng)合文本、用戶間的相互關(guān)系來提高識別的準(zhǔn)確度。自2008年Jindal等[6]首次提出虛假評論識別問題以來,已經(jīng)有不少學(xué)者在此方向上進(jìn)行研究。
Li等[7]從評論文本的語法層面發(fā)現(xiàn),真實評論對比虛假評論在詞性特征上包含更多的名詞、形容詞、介詞、限定詞和連詞。相反虛假評論含有更多的動詞、副詞。但這種識別方式難以識別專家刻意編寫的虛假評論。
Lau等[8]則認(rèn)為虛假評論中存在互相拷貝的現(xiàn)象,通過語義相似度的判斷能夠進(jìn)行虛假評論識別。文獻(xiàn)[9-10]基于PU學(xué)習(xí)算法提出了新的學(xué)習(xí)模型,并在此基礎(chǔ)下訓(xùn)練樸素貝葉斯分類器,獲得了較好的結(jié)果。為了提高虛假評論的識別率,文獻(xiàn)[11-12]運用元數(shù)據(jù)特征進(jìn)行分析且獲得了成效。
文獻(xiàn)[13]利用網(wǎng)絡(luò)爬蟲技術(shù)從互聯(lián)網(wǎng)中獲取關(guān)于產(chǎn)品的評論數(shù)據(jù),并進(jìn)行手工標(biāo)注。再利用半監(jiān)督算法來進(jìn)行虛假評論識別研究。Ott等[14]的研究已經(jīng)說明:人本身難以利用自身的先驗知識來對虛假評論進(jìn)行判斷,這導(dǎo)致手工標(biāo)記的訓(xùn)練集會出現(xiàn)大量錯誤從而影響識別的效果。所以手工標(biāo)記方法并不適用于虛假評論檢測研究。
通過相關(guān)研究,我們發(fā)現(xiàn)只依賴少量標(biāo)注樣本的PU學(xué)習(xí)算法適合作為我們的核心算法。下面將詳細(xì)說明用戶的狀態(tài)指標(biāo)和行為指標(biāo)可信度評價體系的構(gòu)建過程,并設(shè)計PU算法來完成虛假評論識別。待虛假評論從訓(xùn)練集中剔除后,利用邏輯回歸模型進(jìn)行微博評論的情感分析任務(wù)。
在文獻(xiàn)[15-16]的基礎(chǔ)上,本文通過對微博平臺進(jìn)行分析,從用戶的狀態(tài)指標(biāo)和行為兩個方面提出能夠判斷在線評論可信性的6個指標(biāo)屬性,這些指標(biāo)能夠反映微博評論的特征。用戶評論可信度指標(biāo)概念如圖1所示。
圖1 用戶評論可信度指標(biāo)
微博用戶的狀態(tài)指標(biāo)主要通過該微博賬號的資料以及用戶評論本身來反映。正常的微博用戶會與其他用戶產(chǎn)生互動,用戶關(guān)注數(shù)和粉絲數(shù)結(jié)合單位時間瀏覽數(shù)和點贊數(shù)能判斷該用戶賬號是否可信。所以當(dāng)計算結(jié)果小于設(shè)定的閾值就可以確定該用戶評論沒有可信度或者為機器用戶。用戶可信度CL(credility level)是對用戶資料、用戶狀態(tài)進(jìn)行衡量的方法,評論的時效性TE(time effect)反映的是用戶評論在發(fā)布時間上的跨度,跨度越小時效性越高。文本長度WS(words size)亦體現(xiàn)評論可信度,當(dāng)非機器用戶進(jìn)行操作時往往發(fā)布較多的內(nèi)容,這是因為真實用戶往往需要更多語言來描述自己的情感。
對于行為指標(biāo),尤其是對評論用戶而言,注冊賬號的時間間隔RT(register times)是用戶注冊賬號行為異常的衡量標(biāo)準(zhǔn)。對所獲取的數(shù)據(jù)進(jìn)行分析表明,正常用戶和虛假用戶在注冊賬號的時間間隔上存在明顯差異。正常用戶注冊賬號的數(shù)量在一個范圍以內(nèi),而虛假的機器用戶往往會大于閾值。評論的內(nèi)容也應(yīng)被我們關(guān)注,虛假評論的一個明顯特點是在同一用戶下或是不同用戶間會出現(xiàn)大量相似的評論,這時計算用戶評論內(nèi)容的相似度RCS(review content similarity)便能判斷該用戶是否可信。而文本中不同情感詞能夠表達(dá)文本本身的情感的顯性程度ES(emotion strength)。文本的強烈情感強度越大表明是虛假假評論的可能性就越小。
1) 用戶的狀態(tài)指標(biāo),用戶可信度(CL)為:
(1)
(2)
(3)
式中:fsn(u)和fgn(u)分別表示用戶粉絲數(shù)和用戶關(guān)注數(shù);Report(P)表示單位時間內(nèi)的點贊數(shù)和瀏覽數(shù)之比;fyn(u)表示fsn(u)和fgn(u)的加權(quán)平均數(shù)。
2) 用戶評論時效性(TE)為:
(4)
為了避免twrite與tread差距過大導(dǎo)致算式失真,使用參數(shù)σ來約束Te的范圍。同時本文認(rèn)為最大發(fā)布閱讀間隔時間為一個季度(90天),超過90天將按90天計算;twrite指評論發(fā)布日期,tread指評論經(jīng)過閱讀的日期。σ在本文中取10。
3) 用戶評論文本長度(WS)為:
(5)
根據(jù)微博評論長度作為特征進(jìn)行賦權(quán)處理,其中n代表評論文本的實際長度;k表示文本長度在1至120以內(nèi)文本的特征權(quán)值,且k的取值是1至8以內(nèi)的整數(shù),k將按線性關(guān)系進(jìn)行取值。
1) 用戶注冊賬號的時間間隔(RT)為:
(6)
式中:avg(|ti|)表示一個用戶多個賬號注冊的平均時間間隔,μi是正常時注冊多個賬號的間隔閾值。
2) 用戶評論內(nèi)容相似度RCS(review content similarity)為:
(7)
式(7)采用余弦相似度算法來進(jìn)行計算。其中,rmip和rmiq分別代表該微博話題下的第p條評論和第q條評論;avg(simu(rmip,rmiq))表示每個用戶所發(fā)表的評論相似度的均值。如果當(dāng)前用戶只發(fā)表了一條評論,那么該值為0。
3) 情感表達(dá)強度(ES)。情感表達(dá)強度利用用戶評論中的情感詞來反映用戶的可信程度。本文利用知網(wǎng)公開的HowNet情感詞典[17]并依據(jù)匹配原則進(jìn)行情感強度詞部分的構(gòu)建。如表1所示,將以情感詞數(shù)量為衡量標(biāo)準(zhǔn)并結(jié)合特殊關(guān)鍵字、網(wǎng)絡(luò)顏文字、特殊句式量化情感強度。
表1 部分情感表達(dá)強度詞
情感表達(dá)強度越強說明該評論越能夠表達(dá)用戶的心理狀態(tài)從而說明該用戶非機器用戶,該評論非虛假評論。情感表達(dá)強度的度量公式為:
N=w1×n1+w2×n2+w3×n3
(8)
式中:w1表示情感詞的權(quán)重;n1代表情感詞的數(shù)量。同理w2、w3代表關(guān)鍵詞、顏文字、特殊句式等特殊屬性的權(quán)重;n2代表它們的數(shù)量;N表示情感表達(dá)強度。
將用戶的狀態(tài)指標(biāo)和行為指標(biāo)同PU學(xué)習(xí)算法相結(jié)合能夠提升虛假評論識別的準(zhǔn)確度,本節(jié)將詳細(xì)介紹基于PU學(xué)習(xí)算法所設(shè)計的虛假評論識別算法。
2.3.1 相關(guān)符號定義
本文將真實評論所構(gòu)成的正向集合命名為P。相對應(yīng)的虛假評論所在的集合為負(fù)向集合,其中可靠的負(fù)向集合定義為RN。未標(biāo)記的評論集合定義為U,間諜集合定義為US。PU學(xué)習(xí)算法的算法框架如下:
① 按照所標(biāo)記的P和未標(biāo)記的U計算可信負(fù)向文本RN;
② 計算集合中的代表性樣例;
③ 確定不同間諜樣例的類別標(biāo)簽;
④ 基于有偏SVM算法建立最終分類器。
因為數(shù)據(jù)集中只包含正向集合和未標(biāo)記集合,PU算法需要對集合中潛在的負(fù)向例子進(jìn)行可信抽取。通常使用Roc-SVM方法來完成可信負(fù)例的抽取。抽取完成后可信負(fù)向文本將保存在RN中。算法的后續(xù)工作主要是計算代表性樣例和間諜樣例的類別標(biāo)簽。
2.3.2 計算代表性樣例
PU算法分類器的性能與間諜樣例US密切相關(guān)。為了確定間諜樣例的標(biāo)簽,我們要首先計算正向集合和負(fù)向集合中的代表性樣例。從現(xiàn)實角度出發(fā),正向集合和負(fù)向集合彼此間都應(yīng)該有潛在的相似關(guān)系,且同類型的評論應(yīng)該含有相似的特征。所以將分別計算2個類別中多個代表性樣例。本文先利用用戶可信度評價模型對不同評論文本進(jìn)行分類,再在此基礎(chǔ)上采用傳統(tǒng)的Rocchio分類器進(jìn)行分類,最后輸出正向和負(fù)向的5個代表樣例。如算法1所示。
算法1計算代表性樣例
輸入:P和RN
輸出:pk和nk,k=1,2,…,10
① 基于用戶可信度評價體系將RN劃分為5個子類;
② 利用反向文檔評率公式tf×idf將P和RN中所有的樣例向量化;
③ for k=1,k<=5,k++,do;
④ 通過式(9)算pk;
⑤ 通過式(10)計算nk;
⑥ end for
(9)
(10)
2.3.3 子類標(biāo)簽判別
相同子類中的樣例有更高概率屬于同樣的類別,根據(jù)這個思路本文設(shè)計了子類的標(biāo)簽判別算法。首先計算各個樣例中相似度的平均值,再利用少數(shù)服從多數(shù)的投票法則決定整個類別標(biāo)簽。如算法2所示。
算法2子類相似度判別
輸入:US
輸出:LPi,LNi,i=1,2,…,m
①LPi=?,LNi=?,P_flag=0,N_flag=0;
② forUS中每一個例子tdo
④ then P_flag++;else N_flag++;
⑤ end if
⑥ end for
⑦ if P_flag > N_flag
⑧ thenLPi=LNi∪US;
⑨ elseLNi=LNi∪US;
⑩ end if
情感分析依賴機器學(xué)習(xí)算法,本文進(jìn)行情感分析分為兩個步驟:(1)對待測數(shù)據(jù)進(jìn)行主觀句分類;(2)對主觀句進(jìn)行積極、消極二分類。
SVM分類器[18]會將評論文本的待處理數(shù)據(jù)表示為空間中的向量xi。通過在這個空間中創(chuàng)建一個超平面來達(dá)到將不同向量分類的目的,超平面的法向量表示為w。yi表示對應(yīng)數(shù)據(jù)xi的類別且yi∈{-1,1}。下面分別給出其目標(biāo)函數(shù)和對應(yīng)最優(yōu)解。
目標(biāo)函數(shù):
(11)
最優(yōu)解:
(12)
式中:αi表示拉格朗日算子,大于0的拉格朗日算子被稱為支持向量,其余的拉格朗日算子等于0。SVM分類器根據(jù)計算待測數(shù)據(jù)并以超平面為界劃分類別。
在研究過程中,使用LIBLINEAR工具包對數(shù)據(jù)集進(jìn)行觀點句和非觀點句分類,應(yīng)用線性核函數(shù),并在BOW模型下利用:
(1) bigram的TF-IDF[19]特征集合,選擇這種特征集合可以降低由于分詞不當(dāng)帶來的誤差并結(jié)合互信息公式進(jìn)行特征選擇從而實現(xiàn)降維的目的。
互信息公式:
(13)
式中:p(x)表示詞x在訓(xùn)練數(shù)據(jù)中出現(xiàn)的概率;p(y)表示屬于y類別的句子概率。
(2) unigram的TF-IDF值:
(14)
式中:dft為包含此單詞的句子數(shù);N為句子總數(shù)。所得到的特征向量每一維代表該單詞的w值。
通過上述操作可以得到如表2所示的主觀句識別判斷集。
表2 主觀句判斷特征集
針對各個分類算法的特點,本文將采用SVM分類獲得主觀句,再利用邏輯回歸進(jìn)行情感分類。
3.2.1 預(yù)測函數(shù)
使用邏輯回歸進(jìn)行分類必須要找到相對應(yīng)的預(yù)測函數(shù),預(yù)測函數(shù)用以輸入數(shù)據(jù)結(jié)果。設(shè)存在待分類集合A={p1,p2,…,pn},對應(yīng)的類別集合label={y1,y2}。情感分析的結(jié)果只存在積極或者消極2種情況。所以對于線性邊界:z=θTx,當(dāng)z>0時,該判別對象是正類,反之即為負(fù)類。像這樣的0、1分類問題滿足Sigmoid函數(shù)在0、1兩個點之間的跳躍,Sigmoid函數(shù)如下:
(15)
由線性邊界和Sigmoid函數(shù)構(gòu)造預(yù)測函數(shù):
(16)
式中:θ表示回歸函數(shù)的回歸系數(shù),且函數(shù)hθ(x)表示結(jié)果為1的概率。所以可以得到相對于輸入x所預(yù)測的0、1類別的概率:
p(y=1|x;θ)=hθ(x)
(17)
p(y=0|x;θ)=1-hθ(x)
(18)
3.2.2 建立損失函數(shù)
首先將式(17)-式(18)合并得到關(guān)于每個樣本(x,y)的統(tǒng)合概率公式:
p(y|x;θ)=(hθ(x))y(1-hθ(x))1-y
(19)
統(tǒng)合概率公式能反映每個樣本的輸入輸出結(jié)果,而損失函數(shù)用于預(yù)測輸出和類別之間的偏差。所以在假設(shè)各個樣本之間相互獨立的情況下,整個樣本生成的概率是所有樣本概率的乘積,且形式如下:
(20)
式中:x表示每一個樣本;m表示所擁有的的樣本數(shù)量;θ未知,且是該函數(shù)的自變量。該函數(shù)能夠說明不同參數(shù)θ下所取得當(dāng)前的樣本的可能性,稱參數(shù)θ相當(dāng)于樣本集x的似然函數(shù)。取對數(shù)似然函數(shù)為:
(1-yi)lg(1-hθ(xi)))
(21)
由式 (21)可以看出,當(dāng)l(θ)最大時可以獲得最佳參數(shù)θ,在此為了簡便運算設(shè)存在函數(shù)J(θ):
(22)
此時當(dāng)J(θ)最小時可以求得最佳參數(shù)θ。為了求解最佳參數(shù)J(θ),采用隨機梯度下降算法來解決問題。在隨機梯度下降中對θ求偏導(dǎo)可以得到的如下更新公式:
(23)
本文的技術(shù)路線如圖2所示。
圖2 技術(shù)路線圖
實驗采用的數(shù)據(jù)來自兩個方面:一是來源自中國計算機學(xué)會提供的微博樣例數(shù)據(jù),二是利用網(wǎng)絡(luò)爬蟲獲取微博熱搜評論數(shù)據(jù)。評論均與社會熱點事件新聞有關(guān),包括“官宣”婚禮、“中美貿(mào)易摩擦”、“紅黃藍(lán)幼兒園”事件等用戶寬泛參與討論的事件,具有一定代表性。實驗從中選擇2萬條評論信息并進(jìn)一步獲取各項特征。采用人工標(biāo)注數(shù)據(jù)集來構(gòu)建訓(xùn)練集,為了避免人工個體造成的偏差,由兩人獨立標(biāo)記,若結(jié)果不同再由第三人仲裁。
本文的實驗環(huán)境為:CPU:Intel Core i7 6700, 內(nèi)存:DDR4 8 GB,硬盤:固態(tài)硬盤120 GB,操作系統(tǒng):Windows 7,開發(fā)環(huán)境:Python 3.4.4,sklearn機器學(xué)習(xí)庫,MATLAB R2014a。為了提高實驗的精度,采用交叉驗證的方式進(jìn)行實驗。
1) 對數(shù)據(jù)進(jìn)行預(yù)處理,提取相應(yīng)特征,合并不同文檔的文字信息,做好標(biāo)記。文本使用“jieba”庫對評論進(jìn)行分詞。
2) 對合并好的文本信息進(jìn)行“去停用詞”處理。
3) 利用虛假評論識別體系進(jìn)行特征提取,并按照層次模型獲得經(jīng)過賦權(quán)的6維特征向量。同時確定特征項相關(guān)系數(shù)。
4) 應(yīng)用層次分析法對6維特征向量進(jìn)行賦權(quán)操作。
5) 采用詞袋空間模型(BOW Model)將文本信息轉(zhuǎn)換為空間向量。
6) 利用PU學(xué)習(xí)算法進(jìn)行虛假評論識別,將相應(yīng)虛假評論剔除出測試集。
7) 利用SVM分類進(jìn)行主觀句進(jìn)行分類,在此基礎(chǔ)上運用隨機梯度下降的邏輯回歸分別對已剔除虛假評論的測試集與未剔除虛假評論的測試集進(jìn)行情感分析對比。
通過用戶的注冊時間間隔(RT),如圖3所示,我們可以發(fā)現(xiàn),微博用戶的注冊時間間隔有明顯的差異,在絕大部分用戶注冊的間隔時間大于40天,小于16天或者小于8天的頻率分別是4.56%和3.31%??紤]到可能有部分用戶存在遺忘老用戶信息而注冊新賬號的情況,取用戶的平均注冊時間閾值μi為8。圖4表示用戶評論相似度的分布情況。
圖3 用戶注冊時間間隔
圖4 用戶評論相似度
表3是本文虛假評論識別的準(zhǔn)確率與其他研究實驗結(jié)果[20]的對比。對比傳統(tǒng)虛假評論識別方法,結(jié)合用戶狀態(tài)和行為的識別體系具有更好的識別效果。這說明本文所構(gòu)建的識別方法要優(yōu)于傳統(tǒng)研究,可以實際應(yīng)用于虛假評論的識別過程。
表3 虛假評論識別的準(zhǔn)確度比較
圖5-圖7是表4、表5的直觀體現(xiàn),表示不同維度下評價的各項指標(biāo)。從圖中能夠直觀地看出去除虛假評論對準(zhǔn)確度、F值有明顯的提升。在維度較低的情況下不進(jìn)行虛假評論識別的召回率要高于進(jìn)行識別,這可能是由于維度較低導(dǎo)致被錯誤標(biāo)記為負(fù)例的測試樣本增加。
圖5 各維度下情感分析的準(zhǔn)確度
圖6 各維度下情感分析的召回率
圖7 各維度下情感分析的F值
表4 進(jìn)行虛假評論識別的情感分析的結(jié)果
表5 未進(jìn)行虛假評論識別的情感分析的結(jié)果
本文基于用戶狀態(tài)和行為提出一種虛假評論特征提取方法,并結(jié)合PU學(xué)習(xí)算法完成微博評論集中的虛假評論識別工作。在去除所收集評論中的虛假評論后,運用SVM分類器和邏輯回歸模型分別進(jìn)行主觀句分類與情感分析。實驗結(jié)果分為虛假評論識別結(jié)果和情感分析兩個部分。從虛假評論識別的結(jié)果來看,采用狀態(tài)行為特征所得到的準(zhǔn)確率要明顯優(yōu)于其他方法,表明該方法能夠更好地捕獲虛假評論的特征。從情感分析方面可以看出,去除評論集中的虛假評論后,結(jié)果的準(zhǔn)確率、召回率均有較大提升,表明本文提出的方法切實有效,滿足了應(yīng)用的要求。但是通過實驗也可以看出,我們只是將虛假評論進(jìn)行剔除并沒有挖掘出虛假評論和正常評論間的關(guān)系。
下一步我們將探索虛假評論對正常評論的欺騙作用,考慮其中的潛在聯(lián)系進(jìn)一步提升整體方法的準(zhǔn)確率,提升本文提出模型的效能。