王 穎,王 盼
(西安交通工程學(xué)院人文與管理學(xué)院,陜西 西安 710300)
網(wǎng)絡(luò)技術(shù)縱深發(fā)展對人類社會的進(jìn)步發(fā)揮著巨大作用,電子商務(wù)是當(dāng)前網(wǎng)絡(luò)應(yīng)用技術(shù)對人類社會行為模式改變與促進(jìn)最顯著的特征之一[1]。電子商務(wù)最顯著的優(yōu)勢體現(xiàn)在開放性與全球性上[2],消費者利用電子商務(wù)平臺均可通過最小化的成本獲取最大化的滿足度。消費者在購買所需商品過程中往往會參考其他消費者對該商品的評論作出消費決策[3],但當(dāng)前電子商務(wù)平臺中存在部分虛假評論者為獲取相關(guān)利益給予商品虛假評論誤導(dǎo)消費者的現(xiàn)象[4]。部分商家與虛假評論者達(dá)成金錢交易,使其對自己的商品給予夸張的積極評論提升自己商品的好評度,或?qū)ν愋蜕唐方o予消極評論降低其信譽(yù)度。虛假評論者的這些行為不利于電子商務(wù)平臺商品競爭的公平性,同時也給消費者帶來經(jīng)濟(jì)上的損失,長此以往嚴(yán)重影響電子商務(wù)平臺的發(fā)展[5]。
隨著計算機(jī)技術(shù)的發(fā)展,人工智能技術(shù)成為當(dāng)前科技領(lǐng)域中的寵兒,其綜合計算機(jī)、數(shù)理邏輯、控制理論等多領(lǐng)域知識,基于機(jī)器語言與深度學(xué)習(xí)通過模擬、拓展人類智能思維理論完成機(jī)器認(rèn)知與數(shù)據(jù)分析的功能[6]。人工智能技術(shù)在各領(lǐng)域中的普遍應(yīng)用標(biāo)志著人類由此邁進(jìn)新的信息時代。統(tǒng)計學(xué)習(xí)理論中的支持向量機(jī)SVM能避開依據(jù)人數(shù)定理且樣本無窮大的傳統(tǒng)統(tǒng)計學(xué)推斷,并能較好地解決小樣本、非線性、過學(xué)習(xí)、維數(shù)災(zāi)難和局部極小等問題,具有很強(qiáng)的泛化能力。人工智能技術(shù)中的D-S證據(jù)理論屬于不確定推理算法[7],與貝葉斯概率論相比,其滿足條件更低,能夠直接處理不確定信息。將二者結(jié)合后應(yīng)用于電子商務(wù)虛假評論者檢測中,提出基于人工智能技術(shù)的電子商務(wù)虛假評論者檢測方法,使待識目標(biāo)的不確定性下降,能有效地提高目標(biāo)的識別能力,完成更準(zhǔn)確的虛假評論者檢測。
研究采用分布式評論信息采集系統(tǒng)采集電子商務(wù)評論信息,如圖1所示。圖1中抓取機(jī)在試件觸發(fā)器控制下從網(wǎng)絡(luò)中采集電子商務(wù)平臺在線商品信息,預(yù)處理模塊針對采集到的商品信息進(jìn)行統(tǒng)一資源定位器(URL,uniform resoure locator)鏈接,初始化商品采集周期、當(dāng)前評論量以及最近一次評論時間等參數(shù),調(diào)度模塊管理商品URL,基于采集周期調(diào)整模塊的采集周期設(shè)定將商品URL放置在待采集隊列內(nèi)。根據(jù)商品URL排序利用分布式增量抓取模塊和Hbase模塊分別對電子商務(wù)平臺商品評論信息進(jìn)行增量式采集與增量式存儲[8]。通過該系統(tǒng)可以對電子商務(wù)評論信息實時垂直搜索,實時跟蹤新的評論信息,根據(jù)評論信息確定評論者。
圖1 分布式評論信息采集系統(tǒng)Fig.1 Collection system of distributed comment information
基于上述電子商務(wù)評論信息采集結(jié)果,分析評論者r評論內(nèi)容情感特征、商品關(guān)注特征[9],以此為依據(jù)進(jìn)行電子商務(wù)虛假評論者檢測。
(1) 評論內(nèi)容情感特征 評論者評價內(nèi)容情感特征可通過屬性詞包含率、第一人稱代詞使用率、情感詞使用率、平均評分差異度、與初始評論的時間間隔、初次評論與末次評論時間間隔進(jìn)行描述[10]。
① 屬性詞包含率。虛假評論者對商品的評價是虛構(gòu)的,因此評論內(nèi)容中商品具體屬性描述較少。由此定義評論內(nèi)容全部詞匯q(rp)中商品屬性詞s(rp)包含率越低,該評論者為虛假評論者的概率越高,公式描述為
② 第一人稱代詞使用率。第一人稱代詞可在評論內(nèi)容中突出評論者,提升評論的真實性。由此定義評論內(nèi)容全部詞匯q(rp)中第一人稱代詞d(rp)使用率越高,該評論者為虛假評論者的概率越高,公式描述為
③ 情感詞使用率。消費者評論內(nèi)容中情感表達(dá)線性度體現(xiàn)其商品使用感受,虛假評論者通常未實際使用商品。由此定義評論內(nèi)容全部詞匯q(rp)中,情感詞w(rp)使用率越低,該評論者為虛假評論者的概率越高,公式描述為
⑤ 初始評論間隔。虛假評論者往往會在早期對商品進(jìn)行評價以此來誤導(dǎo)消費者。由此定義評論者評論時間t(rt)距離商品初始評論時間f(rt)間隔越短,該用戶為虛假評論者的概率越高,公式描述為
其中:ε=180,表示設(shè)定的時間間隔閾值。
⑥初次評論與末次評論時間間隔。虛假評論者通常流連于不同電子商務(wù)平臺之間,在同一電子商務(wù)平臺中發(fā)表評論的頻率較低。由此定義評論者初次評論時間tc(rt)與末次評論時間tm(rt)間隔越長,該用戶為虛假評論者的概率越高,公式描述為
其中:δ=90,表示設(shè)定的時間間隔閾值。
(2) 商品關(guān)注特征 評論者在電子商務(wù)商品評論內(nèi)包含的商品類別、商家及品牌數(shù)量能夠描述其對于電子商務(wù)產(chǎn)品的特殊關(guān)注特征,同時也能夠描述虛假評論者的職責(zé)范圍。評論者對商品的關(guān)注特征可通過商品類別包含率、品牌數(shù)量包含率與商家數(shù)量包含率描述[11]。
① 商品類別包含率。虛假評論者與真實評論者相比較,其評論中的商品類別局限于小范圍內(nèi)。由此定義商品評論者的全部評論中包含商品類別的評論數(shù)量c(rp),商品的全部評論數(shù)量為C(rp),前者與后者的比值越低,該評論者為虛假評論者的概率越高,公式描述為
② 品牌數(shù)量包含率。高品的虛假評論者與真實評論者相比較,其評論中的品牌數(shù)量通常較少。因此商品評論者的全部評論中包含品牌數(shù)量h(rp)與商品的全部評論數(shù)量H(rp)的比值越低,該評論者為虛假評論者的概率越高,公式描述為
③ 商家數(shù)量包含率。虛假評論者與真實評論者相比較,其評論中的商家數(shù)量也較少。由此定義商品的全部評論中包含商家數(shù)量b(rp)與全部評論數(shù)量B(rp)的比值越低,該評論者為虛假評論者的概率越高,公式描述為
在目標(biāo)識別級融合中,D-S證據(jù)理論采用信任函數(shù)而不是概率作為度量,在無需知道先驗概率的情況下,進(jìn)行不確定性推理。評論者評論內(nèi)容情感特征和商品關(guān)注特征可作為評論者身份檢測的證據(jù)[12],基于這些證據(jù),采用D-S證據(jù)理論進(jìn)行虛假評論者檢測。
用ζ表示虛擬空間,其特征為窮舉、存在邊界、互斥,以其作為檢測結(jié)構(gòu),2ζ表示其全部子集集合。利用D-S證據(jù)理論算法,根據(jù)證據(jù)合成原理確定評論者是否為虛假評論者。
檢測結(jié)構(gòu)定義:ζ={r1,r2}表示檢測結(jié)構(gòu)是由檢測結(jié)果中真實評論者r1和虛假評論者r2共同組成的集合,2ζ表示為2ζ={φ,{r1},{r2},{r1,r2}}。
Mass函數(shù)定義:Mass函數(shù)表示人們對目標(biāo)假設(shè)的可信程度的推理,是一種人的判斷,這種判定受各種因素的影響,不同的思想會構(gòu)成不同的Mass函數(shù),因此根據(jù)已知的信息以一定條件自動生成函數(shù)可以排除個人主觀因素帶來的誤差,結(jié)果相對客觀[13-15]。
檢測結(jié)構(gòu)ζ的Mass函數(shù)可表示為
v∶2ζ→[0,1],
由于D-S理論具有不確定性,獲取有效的Mass函數(shù)從而確定信任函數(shù)是該理論應(yīng)用于實際的關(guān)鍵。
多源信息融合(即多傳感器融合)的關(guān)鍵是對具有相似或不同特征模式的多源信息進(jìn)行處理,以獲得具有相關(guān)和集成特性的融合信息。決策級融合是三級融合的最終結(jié)果,D-S證據(jù)理論作為決策級融合常用的方法之一,因其基本概率賦值(BPA)對決策結(jié)果的影響很大,現(xiàn)有的BPA方法主要依賴主觀經(jīng)驗,其實用效果不是很好。支持向量機(jī)因具有良好的理論基礎(chǔ)和分類效果,與D-S證據(jù)理論相結(jié)合后可以構(gòu)造合理有效的BPA,從而得到更高、更穩(wěn)定的識別率。
SVM的性能主要取決于2個因素:①核函數(shù)的選擇;②懲罰因子的選擇。研究中,以評論者評論內(nèi)容情感特征和商品關(guān)注特征這2個證據(jù)理論作為SVM的懲罰因子,共同決定最后結(jié)果。
假設(shè)評論者各特征相互獨立,則v1和v2可分別表示評論者評論內(nèi)容情感特征和商品關(guān)注特征的Mass函數(shù)。利用支持向量機(jī)模型獲取贊同度,vi(r1)、vi(r2)和vi(ζ)分別為第i個Mass函數(shù)中真實評論者、虛假評論者和不確定的贊同度。
Mass函數(shù)Dempster合成原則定義,針對?J?ζ,v1和v2的合成原則如下:
g=∑J1∩J2≠φv1(J1)v2(J2)=
1-∑J1∩J2=φv1(J1)v2(J2),
其中:g和J分別表示歸一化因子和評論者數(shù)量;∑J1∩J2=φv1(J1)v2(J2)=1-g和⊕分別表示特征對立水平和特征組合算子,J1,J2?2ζ。
虛假評論者檢測過程:
(1) 構(gòu)建檢測結(jié)構(gòu)ζ={r1,r2};
(2) 根據(jù)評論者特征構(gòu)建不同Mass函數(shù),構(gòu)建2個特征的支持向量機(jī)模型為
(1)
其中:Pn(w)表示給定w時的概率密度函數(shù),在式(1)的基礎(chǔ)上,利用sigmoid函數(shù)將支持向量機(jī)模型的無閾值輸出轉(zhuǎn)換為后驗概率輸出,得到各Mass函數(shù)的基本概率分配,分別為
將應(yīng)其用于Mass函數(shù)合成;
(3) 根據(jù)基本概率分配合成2個Mass函數(shù),獲取合成Mass函數(shù)下真實評論者、虛假評論者和不確定的贊同度;
(4) 根據(jù)表1中的檢測標(biāo)準(zhǔn),確定虛假評論者。
表1 檢測標(biāo)準(zhǔn)Table 1 Test standard
為測試基于人工智能技術(shù)的電子商務(wù)虛假評論者檢測方法的應(yīng)用性能,對其進(jìn)行仿真測試。由于電子商務(wù)平臺評論信息采集與檢測過程包含海量數(shù)據(jù)信息,因此仿真平臺選取Storm平臺,在該平臺中構(gòu)建包含4個虛擬節(jié)點的Storm集群。各虛擬節(jié)點均采用免費的Ubuntn19.04操作系統(tǒng),CPU與內(nèi)存分別為intel i5-7400LGA 1151 14 nm 3.0 GGHz和8 GB,Storm組件采用Nimbus績效管理軟件和Supervisor管理維護(hù)軟件。同時在本地利用ECSHOP獨立網(wǎng)店系統(tǒng)構(gòu)建一個虛擬電子商務(wù)平臺為研究目標(biāo),并設(shè)定評論者為2 000個,其中真實評論者與虛假評論者數(shù)量相等。在該仿真環(huán)境下,驗證研究方法的檢測性能。
單位時間內(nèi)數(shù)據(jù)處理規(guī)??赏ㄟ^吞吐量描述。在仿真環(huán)境中,采用研究提出的方法采集目標(biāo)中的評論信息,確定評論者。對比不同虛擬節(jié)點數(shù)量下全部商品評論信息采集過程花費的時間,驗證研究所提方法的吞吐量,結(jié)果見表2和表3。不同虛擬節(jié)點數(shù)量下的采集過程重復(fù)10次,取均值。
由表2和表3可知,當(dāng)節(jié)點數(shù)量為1時,研究所提
表2 傳統(tǒng)方法的集群吞吐量測試結(jié)果Table 2 Test results of cluster throughout by conrentional method
表3 研究所提方法的集群吞吐量測試結(jié)果Table 3 Test results of cluster throughput by reseorch method
方法在采集全部評論信息過程中所花費的時間遠(yuǎn)少于采用傳統(tǒng)方法采集信息所花費的時間,且隨著節(jié)點數(shù)量的提升,研究所提方法采集評論信息的加速比也呈現(xiàn)上升趨勢,上升速度高于傳統(tǒng)方法,說明該方法的可擴(kuò)展性較好。若研究目標(biāo)擴(kuò)大,可提升節(jié)點數(shù)量來提升此方法效率。
(1) 支持向量機(jī)模型準(zhǔn)確率測試 研究所提方法檢測過程中支持向量機(jī)模型準(zhǔn)確率直接影響單特征條件下虛假評論者檢測的不確定度,模型準(zhǔn)確率越低,最終檢測結(jié)果準(zhǔn)確率越低。設(shè)定支持向量機(jī)模型具有不同的懲罰因子與核函數(shù),對比研究所提方法中支持向量機(jī)模型準(zhǔn)確率隨著評論者數(shù)量提升所產(chǎn)生的變化,結(jié)果如圖2所示。
圖2 支持向量機(jī)模型準(zhǔn)確率測試Fig.2 Accuracy test of support vector machine model
圖2(a)中設(shè)定懲罰因子分別為1、10和100,圖2(b)中設(shè)定核函數(shù)分別為線性核函數(shù)、RBF核函數(shù)和多項式核函數(shù)。由圖2得到,研究方法中支持向量機(jī)模型準(zhǔn)確率隨著評論者數(shù)量的提升整體上表現(xiàn)出上升狀態(tài)。
圖2(a)中3個不同懲罰因子條件下,支持向量機(jī)模型準(zhǔn)確率呈現(xiàn)不同狀態(tài),其中懲罰因子為10時,模型準(zhǔn)確率上升狀態(tài)最顯著,雖然在評論者數(shù)量較少時其準(zhǔn)確率略低于懲罰因子1,但當(dāng)評論者數(shù)量提升至1 300個左右時,其模型準(zhǔn)確率已經(jīng)超過其他2個懲罰因子。因此研究所提方法將支持向量機(jī)模型懲罰因子設(shè)定為10,圖2(b)結(jié)果是在其基礎(chǔ)上得到的。
圖2(b)中3個不同核函數(shù)條件下,支持向量機(jī)模型準(zhǔn)確率呈現(xiàn)不同程度的上升狀態(tài),其中RBF核函數(shù)條件下模型準(zhǔn)確率上升狀態(tài)最顯著,因此支持向量機(jī)模型采用RBF核函數(shù),該核函數(shù)下評論者特征中評論內(nèi)容情感特征和商品關(guān)注特征準(zhǔn)確率分別達(dá)到96.28%和95.52%。
(2) 虛假評論者檢測結(jié)果 利用支持向量機(jī)模型得到各Mass函數(shù)的基本概率分配后融合各Mass函數(shù),得到真實評論者、虛假評論者和不確定的贊同度,設(shè)定y1和y2分別為0.1和0.2,得到虛假評論者檢測結(jié)果,其中部分檢測結(jié)果如表4、表5所列。
表4 采用傳統(tǒng)方法檢測得到的部分結(jié)果Table 4 Partial results tested by conventional method
表5 采用研究所提方法檢測得到的部分結(jié)果Table 5 Partial results tested by research method
由表4、表5可知,采用兩種方法進(jìn)行虛假評論者檢測時,均呈現(xiàn)出虛假評論者贊同度隨著真實評論者贊同度的升高而降低的趨勢,且不確定贊同度隨虛假評論者贊同度升高而升高。但采用傳統(tǒng)方法在選取的部分研究對象中,檢測的準(zhǔn)確度為80%,而采用研究所提方法在選取的部分研究對象中,檢測的準(zhǔn)確度為100%,表明研究所提方法能夠更加準(zhǔn)確檢測電子商務(wù)平臺中的虛假評論者。
研究提出基于人工智能技術(shù)的電子商務(wù)虛假評論者檢測方法,通過設(shè)計分布式評論信息采集系統(tǒng)來確定評論者;從評論內(nèi)容情感特征、商品關(guān)注特征兩方面分析評論者特征;構(gòu)建D-S證據(jù)理論算法的檢測結(jié)構(gòu),利用支持向量機(jī)模型確定真實評論者、虛假評論者和不確定的贊同度,完成虛假評論者檢測。結(jié)果顯示,該方法具有接近100%的準(zhǔn)確度,能有效實現(xiàn)虛擬評論者的檢測。在后續(xù)優(yōu)化過程可主要針對評論者特征分析進(jìn)行詳細(xì)全面的研究,通過增加評論者特征項,提升檢測結(jié)果的準(zhǔn)確率。