楊曉茜
(遼寧金融職業(yè)學(xué)院,遼寧 沈陽(yáng) 110122)
隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展和應(yīng)用,中國(guó)逐漸步入了“智聯(lián)型”智能物聯(lián)網(wǎng)(AIOT)的時(shí)代,而人工智能技術(shù)則是其中一個(gè)重要的組成部分。人工智能技術(shù)是當(dāng)前信息技術(shù)的核心,在通信系統(tǒng)、物聯(lián)體系中起到了十分關(guān)鍵的作用。借助人工智能技術(shù)能夠更好地開(kāi)發(fā)先進(jìn)的網(wǎng)絡(luò)系統(tǒng),從而提高物聯(lián)網(wǎng)的智能化和自動(dòng)化水平。比如智能手機(jī)、工業(yè)4.0、可穿戴的設(shè)備等就有很多采用遺傳算法、BP神經(jīng)網(wǎng)絡(luò)和SVM等技術(shù),并基于這些技術(shù)進(jìn)行了算法的創(chuàng)新,如語(yǔ)音識(shí)別、視頻圖像處理以及大量的數(shù)據(jù)分析處理等[1]。對(duì)于電子商務(wù)行業(yè)而言,將人工智能技術(shù)應(yīng)用于其中可以提升消費(fèi)者的購(gòu)物體驗(yàn),滿(mǎn)足消費(fèi)者的層次需求。但人工智能技術(shù)在發(fā)展的同時(shí)也出現(xiàn)了一些惡意評(píng)論的情況,直接誤導(dǎo)了消費(fèi)者的購(gòu)物方向,同時(shí)也給電商行業(yè)的誠(chéng)信度體驗(yàn)造成較大的影響。有學(xué)者基于人工智能技術(shù)中的D-S證據(jù)理論進(jìn)行分析,該理論是一種不確定推理方法,它比貝葉斯概率具有更少的約束條件,可以對(duì)不確定性信息進(jìn)行直接處理[2]。在此基礎(chǔ)上,借助人工智能的電商差評(píng)檢測(cè)算法,通過(guò)降低待鑒別對(duì)象的不確定性,有效提升電商差評(píng)的識(shí)別性能,實(shí)現(xiàn)對(duì)虛假評(píng)論的更精確檢測(cè)。
本文基于分布式評(píng)論分析的方式將信息收集系統(tǒng)應(yīng)用于電子商務(wù)工作的評(píng)論工作中。如圖1所示為在樣本觸發(fā)控制下抓取機(jī)器從網(wǎng)上收集電商平臺(tái)上的產(chǎn)品信息,該預(yù)處理模塊根據(jù)收集到的產(chǎn)品信息,通過(guò)統(tǒng)一資源定位器(Uniform Resoure Locator,URL)連接,對(duì)最新評(píng)論數(shù)量、評(píng)論時(shí)間等進(jìn)行初始化,并對(duì)商品URL進(jìn)行管理,根據(jù)收集周期調(diào)節(jié)模塊的收集周期設(shè)置,將項(xiàng)目URL放入回收的隊(duì)列中。一種與Hbase模塊相結(jié)合的基于商品URL排序的分布式增量抓取模型,可實(shí)現(xiàn)電商平臺(tái)上的商品評(píng)論信息的增量收集與增量存儲(chǔ),同時(shí)也能達(dá)到對(duì)評(píng)論信息的實(shí)時(shí)監(jiān)控[3]。
圖1 分布式評(píng)論信息采集系統(tǒng)
評(píng)論人評(píng)論內(nèi)容的情感特性可以從評(píng)論屬性詞的覆蓋率、第一人稱(chēng)使用頻率、情感詞匯使用頻率、平均評(píng)分差異、初次評(píng)論時(shí)間間隔、初次評(píng)論與最后一次評(píng)論之間的時(shí)間間隔幾個(gè)方面進(jìn)行選擇。
1.2.1 屬性詞包含率
因?yàn)殄e(cuò)誤評(píng)論者對(duì)產(chǎn)品的評(píng)價(jià)都是虛構(gòu)的,因此在評(píng)價(jià)中很少會(huì)出現(xiàn)具體的細(xì)節(jié)。因此,在所有評(píng)論內(nèi)容的單詞q(rp)中如果商品屬性單詞s(rp)的覆蓋率較低,則評(píng)論者是不實(shí)評(píng)論者的可能性較大,其公式表達(dá)如下。
(1)
1.2.2 第一人稱(chēng)代詞使用率
第一人稱(chēng)代詞可以提高評(píng)價(jià)的準(zhǔn)確性。因此,定義了在評(píng)論內(nèi)容的所有詞匯集q(rp)中第一人稱(chēng)詞語(yǔ)d(rp)的使用率愈高,則評(píng)價(jià)者為不實(shí)評(píng)論者的可能性愈大,其公式表達(dá)如式(2)。
(2)
1.2.3 情感詞使用率
在評(píng)價(jià)的過(guò)程中用戶(hù)的情緒表現(xiàn)是一種線(xiàn)性的,而不是真實(shí)的評(píng)價(jià)者。因此,在所有的評(píng)論內(nèi)容詞匯q(rp)中情緒詞w(rp)使用率愈低,則評(píng)論者是不實(shí)評(píng)論者的可能性愈大,其公式表達(dá)如式(3)。
(3)
1.2.4 商品類(lèi)別包含率
與真評(píng)論者相比,虛假評(píng)論者在評(píng)論中所涉及的物品種類(lèi)很少。因此,在產(chǎn)品評(píng)論人的所有評(píng)論中定義了含有產(chǎn)品分類(lèi)的評(píng)論的數(shù)目c(rp),而產(chǎn)品的總評(píng)論數(shù)目是C(rp),當(dāng)?shù)谝粭l評(píng)論與第二條評(píng)論的比例較小時(shí),評(píng)論人是不實(shí)評(píng)論的可能性較大,其公式表達(dá)如式(4)。
(4)
在目標(biāo)辨識(shí)層次上,D-S證據(jù)理論以可信度函數(shù)代替概率,實(shí)現(xiàn)了不需要事先已知條件下的不確定推理[4]。利用D-S證據(jù)理論,對(duì)評(píng)論中評(píng)論內(nèi)容的情緒特性、產(chǎn)品興趣等因素對(duì)評(píng)論人的識(shí)別能力。用zeta來(lái)描述一個(gè)具有窮盡性,將其作為一種檢測(cè)信息的方式,并在此基礎(chǔ)上使用2zeta表示所有的子集。借助D-S證據(jù)理論的算法對(duì)評(píng)論者進(jìn)行判斷,基于檢測(cè)結(jié)構(gòu)zeta的Mass函數(shù)的表達(dá)如公式(5)。
v:2ζ→[0,1]
(5)
多源信息融合即多傳感器數(shù)據(jù)融合,其關(guān)鍵是對(duì)同一或不同模態(tài)的多源信息進(jìn)行綜合分析,獲取具有相關(guān)性和整體性的信息。其中,決策層融合是三級(jí)融合研究的最終結(jié)果,而D-S證據(jù)理論作為一種重要的決策方法,因其所依據(jù)的概率賦值(BPA)對(duì)決策結(jié)果產(chǎn)生重大影響,因此,采用基于貝葉斯統(tǒng)計(jì)的決策模型對(duì)決策過(guò)程中的關(guān)鍵問(wèn)題進(jìn)行研究,目前的研究多依靠人的經(jīng)驗(yàn)實(shí)際應(yīng)用效果較差。SVM由于其較好的理論依據(jù)及分類(lèi)結(jié)果,與D-S證據(jù)理論進(jìn)行融合可構(gòu)建出更合理、更高效的BPA,提高識(shí)別率。根據(jù)評(píng)論者特征的不同建構(gòu)出對(duì)應(yīng)的Msaa函數(shù),其模型構(gòu)建如公式(6)
(6)
公式(6)中,Pn(w)表示為特定的概率密度函數(shù),在公式(1)的基礎(chǔ)上將該公式進(jìn)行輸出和轉(zhuǎn)換,即可得到對(duì)應(yīng)的概率分配,具體表達(dá)如公式(7)
(7)
為檢測(cè)人工智能技術(shù)應(yīng)用于電子商務(wù)虛假評(píng)論中的應(yīng)用成效,本研究通過(guò)模擬實(shí)驗(yàn)驗(yàn)證了該算法在電子商務(wù)中的應(yīng)用效果??紤]到電商平臺(tái)上的評(píng)論信息獲取和發(fā)現(xiàn)過(guò)程中蘊(yùn)含著大量的數(shù)據(jù),本研究以Storm為平臺(tái)搭建4個(gè)虛擬節(jié)點(diǎn)的Storm集群。所有的虛擬節(jié)點(diǎn)都使用了免費(fèi)Ubuntu19.04,CPU和內(nèi)存則是inteli5-7400LGA115114nm-3.0GGHz、8 G,StormComponent使用Nimbus績(jī)效管理軟體及Supervisor管理與維護(hù)軟件。同時(shí),以EC-SHOP網(wǎng)站為平臺(tái)搭建虛擬電商平臺(tái),設(shè)置評(píng)論人2000人,真實(shí)評(píng)論人數(shù)與虛假評(píng)論人數(shù)相同。在此模擬系統(tǒng)中對(duì)所提算法的探測(cè)性能進(jìn)行驗(yàn)證。
每小時(shí)的數(shù)據(jù)處理規(guī)模可以用產(chǎn)量來(lái)表示。在模擬實(shí)驗(yàn)中利用所提的方法收集評(píng)價(jià)對(duì)象的評(píng)價(jià)信息并對(duì)其進(jìn)行評(píng)價(jià)。通過(guò)對(duì)不同節(jié)點(diǎn)數(shù)目的產(chǎn)品評(píng)價(jià)信息收集所需的時(shí)間進(jìn)行比較,對(duì)本文提出的方法的生產(chǎn)率進(jìn)行驗(yàn)證,在不同的虛節(jié)點(diǎn)數(shù)目下收集過(guò)程重復(fù)10次取平均值,具體如表1所示。
表1 Mass集群算法吞吐實(shí)驗(yàn)檢測(cè)結(jié)果
通過(guò)表1的數(shù)據(jù)可以看出,Mass集群算法在實(shí)際檢測(cè)的過(guò)程中能夠耗費(fèi)較少的時(shí)間加快檢測(cè)的速度,對(duì)于提升檢測(cè)的效率具有較好的效果。
利用SVM模型計(jì)算各個(gè)ass函數(shù)的基本概率值,然后融合各個(gè)ass函數(shù),獲得真實(shí)評(píng)價(jià)者、虛假評(píng)價(jià)者以及不確定性的評(píng)價(jià),將y1和y2設(shè)為0.1、0.2,得到虛假評(píng)論者的檢測(cè)結(jié)果,如表2所示。
表2 虛假評(píng)論檢測(cè)部分結(jié)果分析
從表2的數(shù)據(jù)可以看出,將虛假評(píng)論檢測(cè)方式應(yīng)用于評(píng)論中其檢測(cè)的準(zhǔn)確率可以提升至100%以上,說(shuō)明該種方式可以用于電子商務(wù)虛假評(píng)論的檢測(cè)當(dāng)中。
本研究基于前者研究的基礎(chǔ)上提出了D-S證據(jù)理論算法,利用支持向量機(jī)模型確定真實(shí)評(píng)論者、虛假評(píng)論者和不確定的贊同度,完成虛假評(píng)論者檢測(cè)。得出的結(jié)果提示將虛假評(píng)論檢測(cè)方式應(yīng)用于評(píng)論中,其檢測(cè)的準(zhǔn)確率可以提升至100%以上,將其應(yīng)用于電子商務(wù)工作中可以提升消費(fèi)者的購(gòu)物體驗(yàn)。