亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于代價(jià)敏感圖卷積網(wǎng)絡(luò)的虛假評論檢測研究

        2023-03-02 03:17:20王一杰崔彩霞
        關(guān)鍵詞:分類特征檢測

        王一杰,崔彩霞*

        (太原師范學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西 晉中 030619)

        0 引言

        互聯(lián)網(wǎng)技術(shù)和社會意識形態(tài)的不斷發(fā)展,人們在各個(gè)方面的生活、學(xué)習(xí)、娛樂和工作中越來越頻繁地進(jìn)行交互和分享.在線評論作為互聯(lián)網(wǎng)平臺上網(wǎng)絡(luò)用戶分享個(gè)人消費(fèi)體驗(yàn)的重要表達(dá)形式,對企業(yè)發(fā)展、店鋪經(jīng)營和消費(fèi)者選擇起著至關(guān)重要的作用,并對他們的利益產(chǎn)生重大影響[1].然而,由于商家之間的惡性競爭,虛假評論的產(chǎn)生日益增多,導(dǎo)致在線評論的真實(shí)可靠性受到質(zhì)疑[2].虛假評論與真實(shí)情況不符,給商家和消費(fèi)者的利益帶來損害,因此,如何有效地檢測和過濾虛假評論成為亟需解決的問題.

        目前,虛假評論檢測的研究主要分為兩種方法:基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法[3],基于機(jī)器學(xué)習(xí)的方法主要是通過對評論中的文本特征進(jìn)行提取和分析,然后使用機(jī)器學(xué)習(xí)算法對其進(jìn)行分類.例如,可以使用樸素貝葉斯、支持向量機(jī)等算法來進(jìn)行分類.該方法需要手動(dòng)提取特征,然后對特征進(jìn)行分類,具有一定的局限性.基于深度學(xué)習(xí)的方法則是通過神經(jīng)網(wǎng)絡(luò)對文本進(jìn)行建模,并利用深度學(xué)習(xí)算法進(jìn)行分類.這種方法可以自動(dòng)提取特征,減少了人工干預(yù),從而提高了分類精度.例如,可以使用卷積神經(jīng)網(wǎng)絡(luò)、長短時(shí)記憶網(wǎng)絡(luò)等算法對評論進(jìn)行分類[4].然而,常規(guī)深度學(xué)習(xí)模型在利用評論的上下文信息方面存在一定的局限性,并且無法很好的兼顧不平衡數(shù)據(jù).

        為了解決這一問題,提出了一種基于代價(jià)圖卷積網(wǎng)絡(luò)的虛假評論檢測方法.該方法將每個(gè)評論看作一個(gè)節(jié)點(diǎn),將評論之間的相似性表示為圖的邊,然后通過圖卷積網(wǎng)絡(luò)學(xué)習(xí)每個(gè)評論的表示,最終將加權(quán)后的特征表示進(jìn)行分類.與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,該方法可以更好地利用評論的上下文信息,從而提高虛假評論檢測的準(zhǔn)確性和魯棒性.此外,為了應(yīng)對虛假評論數(shù)據(jù)中的不平衡問題,本文還采用代價(jià)敏感函數(shù)來調(diào)整損失函數(shù),提高分類器的性能.實(shí)驗(yàn)結(jié)果表明,該方法在虛假評論檢測任務(wù)中具有一定的準(zhǔn)確率和魯棒性,可以為互聯(lián)網(wǎng)平臺上的虛假評論檢測提供一種有效的解決方案.

        1 相關(guān)工作

        虛假評論是指在互聯(lián)網(wǎng)上發(fā)布的,與實(shí)際情況不符合,通過欺騙、誤導(dǎo)等手段獲得不當(dāng)利益的評論.虛假評論的存在嚴(yán)重影響了消費(fèi)者的購買決策和商家的聲譽(yù),因此虛假評論檢測已成為當(dāng)前熱門的研究方向.虛假評論者通過發(fā)布一條條評論文本來欺騙其他消費(fèi)者,其內(nèi)容是建立在失真、虛構(gòu)的觀點(diǎn)或購買經(jīng)歷上,在某些語言細(xì)節(jié)上就會暴露自己的破綻.語言特征又稱為上下文特征,它是以評論為中心提取出相應(yīng)的特征,從不同角度提取評論會得到不同的上下文特征[5].虛假評論檢測主要包括基于機(jī)器學(xué)習(xí)、基于深度學(xué)習(xí)等方法.基于機(jī)器學(xué)習(xí)的虛假評論檢測方法主要利用傳統(tǒng)的特征工程方法提取評論的文本特征,然后使用傳統(tǒng)的機(jī)器學(xué)習(xí)算法進(jìn)行分類.Gao等提出了一種基于特征選擇和多分類器融合的虛假評論檢測方法[6],通過特征選擇和多分類器融合來提高分類性能.Wang等提出了一種基于詞匯和情感特征的虛假評論檢測方法[7],該方法使用了詞匯和情感特征來提高分類性能.基于深度學(xué)習(xí)的虛假評論檢測方法主要利用深度學(xué)習(xí)模型自動(dòng)提取文本特征,并進(jìn)行分類.Liu等提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的虛假評論檢測方法[8],該方法使用卷積神經(jīng)網(wǎng)絡(luò)提取文本特征,并結(jié)合全連接層進(jìn)行分類.Zhang等提出了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的虛假評論檢測方法[9],該方法使用循環(huán)神經(jīng)網(wǎng)絡(luò)提取文本特征,并結(jié)合全連接層進(jìn)行分類.

        圖模型由于其強(qiáng)大的表示學(xué)習(xí)能力,被引用到虛假評論檢測研究中.Chen等[10]提出了一種基于異構(gòu)圖神經(jīng)網(wǎng)絡(luò)(HetGNN)的虛假評論檢測方法,該方法將評論、評論者、商品和評論者IP地址等實(shí)體放入異構(gòu)圖中,利用HetGNN學(xué)習(xí)每個(gè)實(shí)體的特征表示,通過這些特征表示來判斷評論是否虛假.Zhang等[11]提出了一種基于圖卷積網(wǎng)絡(luò)(GCN)的虛假評論檢測方法,該方法將評論和評論者之間的關(guān)系表示為圖,并利用GCN學(xué)習(xí)每個(gè)節(jié)點(diǎn)的特征表示,從而提高模型的泛化能力和準(zhǔn)確性.Li等[12]提出了一種基于多通道圖卷積網(wǎng)絡(luò)(MCGCN)的虛假評論檢測方法,該方法利用多通道GCN來學(xué)習(xí)評論和評論者的特征表示,并將這些特征表示融合起來進(jìn)行分類.雖然以上圖模型方法在處理虛假評論檢測問題上取得了一定的進(jìn)展,但還存在一些局限性.此外,這些方法在處理復(fù)雜的虛假評論時(shí)可能會出現(xiàn)過擬合或泛化能力不足的問題.

        為此提出一種用于虛假評論檢測的代價(jià)敏感圖卷積網(wǎng)絡(luò)模型.代價(jià)敏感圖卷積網(wǎng)絡(luò)模型可以將邊的權(quán)重視為邊的代價(jià),并通過學(xué)習(xí)邊的代價(jià)來提高模型的魯棒性和泛化能力[13].因此,代價(jià)圖卷積模型在處理虛假評論檢測問題時(shí)具有很大的優(yōu)勢,可以有效地提高模型的準(zhǔn)確性和泛化能力,同時(shí)還可以處理更復(fù)雜的圖結(jié)構(gòu)數(shù)據(jù).

        2 數(shù)據(jù)預(yù)處理

        首先,對文本數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)建詞匯表以及計(jì)算詞頻和文檔頻率;然后,將基于文本數(shù)據(jù)構(gòu)建圖結(jié)構(gòu),其中節(jié)點(diǎn)表示單詞,邊表示它們之間的關(guān)系,并計(jì)算他們之間的相似度;最后,輸入到網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練.

        2.1 文本表示

        本文加載Word2Vec預(yù)訓(xùn)練的詞向量模型,并將詞匯表中的單詞映射到預(yù)訓(xùn)練詞向量中.假設(shè)預(yù)訓(xùn)練詞向量的維度為d,則可以得到詞匯表中每個(gè)單詞的詞向量表示vWord2Vec(ti)∈Rd,最后,將TF-IDF向量和Word2Vec向量進(jìn)行融合,得到文本Ti的最終表示向量:vT(Ti)∈Rd

        2.2 共現(xiàn)矩陣

        3 代價(jià)敏感圖卷積網(wǎng)絡(luò)模型

        代價(jià)敏感圖卷積網(wǎng)絡(luò)(CGCN),是在圖卷積網(wǎng)絡(luò)(GCN)的基礎(chǔ)上,增加代價(jià)敏感函數(shù),其目的是處理數(shù)據(jù)集中包含的不平衡數(shù)據(jù).總體框架的描述,如圖1.

        圖1 代價(jià)敏感圖卷積網(wǎng)絡(luò)模型

        3.1 圖卷積網(wǎng)絡(luò)

        圖卷積網(wǎng)絡(luò)(GCN)是一種用于圖數(shù)據(jù)的多層神經(jīng)網(wǎng)絡(luò),本文采取雙層結(jié)構(gòu),每層圖卷積層依靠ReLU激活函數(shù)連接[17],如圖2.

        圖2 圖卷積網(wǎng)絡(luò)模型

        3.2 損失函數(shù)

        在虛假評論檢測任務(wù)中,傳統(tǒng)的交叉熵?fù)p失函數(shù)通常被用來作為評估模型性能的標(biāo)準(zhǔn).然而,這種損失函數(shù)無法考慮不同類別之間的代價(jià)差異,導(dǎo)致模型在處理虛假評論時(shí)可能出現(xiàn)性能問題.為此,引入代價(jià)敏感損失函數(shù)來解決這個(gè)問題.

        代價(jià)敏感損失函數(shù)是一種用于分類任務(wù)的損失函數(shù),它可以考慮不同類別之間的代價(jià)差異.在虛假評論檢測任務(wù)中,將虛假評論的代價(jià)權(quán)重設(shè)置為正常評論的α倍,以便更好地強(qiáng)調(diào)虛假評論的分類準(zhǔn)確性.

        代價(jià)敏感損失函數(shù)的具體定義如下:

        式中,yi是第i個(gè)樣本的真實(shí)標(biāo)簽,f(xi)是模型對該樣本的預(yù)測結(jié)果,l(yi,f(xi))是分類損失函數(shù),如交叉熵?fù)p失函數(shù).wi是一個(gè)代價(jià)權(quán)重,它可以根據(jù)不同類別之間的代價(jià)差異進(jìn)行設(shè)定.為了實(shí)現(xiàn)代價(jià)敏感損失函數(shù),可在代碼中進(jìn)行如下操作.

        首先,定義一個(gè)代價(jià)矩陣,其中每個(gè)元素表示不同類別之間的代價(jià)差異.在這個(gè)例子中,代價(jià)矩陣是一個(gè)常量矩陣,其中所有元素都設(shè)置為1,實(shí)質(zhì)上是一個(gè)單位矩陣.

        之后,使用代價(jià)矩陣對真實(shí)標(biāo)簽進(jìn)行加權(quán),計(jì)算加權(quán)標(biāo)簽.接著,使用加權(quán)標(biāo)簽和模型預(yù)測結(jié)果計(jì)算交叉熵?fù)p失.

        最后,對所有掩碼位置的損失求平均值,得到整個(gè)批次的損失值.

        綜上所述,通過使用帶掩碼的代價(jià)敏感交叉熵?fù)p失函數(shù),可以更好地考慮不同類別之間的代價(jià)差異,并過濾掉無用的樣本,從而提高模型的性能和魯棒性.

        4 實(shí)驗(yàn)與結(jié)果

        4.1 數(shù)據(jù)集

        Yelp網(wǎng)站始建于2005年,類似于我國的大眾點(diǎn)評,是一個(gè)評論型網(wǎng)絡(luò)社區(qū),鼓勵(lì)用戶購買或使用產(chǎn)品或者服務(wù)之后在該網(wǎng)站發(fā)表有關(guān)產(chǎn)品或服務(wù)的文本評論并給予合適的評分(1-5分),開展的業(yè)務(wù)包括酒店、餐廳、醫(yī)療、購物等[19].

        現(xiàn)在,Yelp在移動(dòng)和網(wǎng)絡(luò)平臺上擁有超過100萬條產(chǎn)品或者服務(wù)信息,還有數(shù)十億條評論以及數(shù)億的已注冊用戶,用戶評論如圖3所示.

        圖3 Yelp網(wǎng)站評價(jià)示例

        本文使用的數(shù)據(jù)集均來自于Yelp網(wǎng)站,包括用戶對商家的評論和評分等信息.通過爬取Yelp網(wǎng)站的數(shù)據(jù),并從中篩選出符合要求的評論,構(gòu)建了一個(gè)包含多個(gè)類別的虛假評論數(shù)據(jù)集,數(shù)據(jù)集劃分如表1所示.

        4.2 評價(jià)指標(biāo)

        針對虛假評論檢測這種二分類任務(wù),將使用機(jī)器學(xué)習(xí)度量指標(biāo)中的精確率(Precision)、召回率(Recall)、F1值作為度量指標(biāo),其中,前兩個(gè)指標(biāo)分別簡記為P,R.

        這幾個(gè)指標(biāo)都可以使用混淆矩陣計(jì)算得出,混淆矩陣形式如表2所示.

        表2 混淆矩陣

        4.3 對比實(shí)驗(yàn)

        實(shí)驗(yàn)結(jié)果以及各個(gè)模型指標(biāo)變化情況,見表3.

        表3 各模型表現(xiàn)

        根據(jù)圖4實(shí)驗(yàn)結(jié)果,可以看出本文提出的代價(jià)敏感圖卷積網(wǎng)絡(luò)相對于FastText、TextCNN和LSTM模型,在Precision、Recall和F1-score等指標(biāo)上都有明顯的提升.

        圖4 各模型指標(biāo)變化情況

        具體來說,本文模型在Precision指標(biāo)上達(dá)到了0.86的值,在Recall指標(biāo)上達(dá)到了0.87的值,在F1-score指標(biāo)上達(dá)到了0.86的值.這表明本文模型在分類準(zhǔn)確率和召回率上都有很好的表現(xiàn).相比之下,FastText模型在F1-score指標(biāo)上僅達(dá)到了0.84的值,TextCNN模型在F1指標(biāo)上略有下降,為0.82的值,而LSTM模型在F1-score指標(biāo)上達(dá)到了0.83的值.因此,可以得出結(jié)論,代價(jià)敏感圖卷積網(wǎng)絡(luò)在處理虛假評論檢測問題時(shí)具有較好的性能,能夠有效地處理類別不平衡的情況,具有很好的應(yīng)用前景.

        5 結(jié)語

        商品評論作為連接商家與消費(fèi)者的信息橋梁,既能作為潛在購買用戶做出消費(fèi)決策時(shí)的重要參考,又能成為商家提升消費(fèi)體驗(yàn)與產(chǎn)品質(zhì)量的重要依據(jù),因此商品評論能夠促成商家與消費(fèi)者之間的一種正向反饋,但這也驅(qū)使了一批不法商家及群體刻意制造虛假評論干擾消費(fèi)者的購買意向,進(jìn)而損害消費(fèi)者與合法商家的權(quán)益,所以如何有效檢測虛假評論是一個(gè)十分具有現(xiàn)實(shí)意義的課題.

        本文以Yelp數(shù)據(jù)為基礎(chǔ),從數(shù)據(jù)集分析和構(gòu)建相關(guān)特征出發(fā),并提出使用基于代價(jià)敏感圖卷積網(wǎng)絡(luò)來處理存在數(shù)據(jù)不平衡問題的虛假評論數(shù)據(jù).相較于傳統(tǒng)分類方法,該模型可以更好的提取關(guān)鍵信息,通過代價(jià)敏感損失函數(shù),更好的平衡數(shù)據(jù)差異所帶來的影響.有效解決了虛假評論與真實(shí)評論的類不平衡問題,從而提高了虛假評論識別的準(zhǔn)確率.當(dāng)然,本文的研究模型還需要進(jìn)一步改進(jìn),主要表現(xiàn)為分類預(yù)測的準(zhǔn)確性依賴于評論數(shù)據(jù)集的人工標(biāo)注以及數(shù)據(jù)集的數(shù)量不夠多,種類不夠豐富.因此在后續(xù)研究中將努力嘗試運(yùn)用更高質(zhì)量的實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證本文提出的虛假評論識別模型.

        猜你喜歡
        分類特征檢測
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        分類算一算
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        国产三a级三级日产三级野外| 国产亚洲sss在线观看| www久久久888| 日本精品人妻一区二区| 亚无码乱人伦一区二区| 18禁真人抽搐一进一出在线| 国产精品厕所| 亚洲av一区二区国产精品| 国产一区二区白浆在线观看| 一个人看的视频在线观看| 亚洲人成色7777在线观看不卡| 国产成人+亚洲欧洲+综合| 制服丝袜人妻中出第一页| 一区二区三区在线观看人妖| 十四以下岁毛片带血a级| 无码少妇a片一区二区三区| 国产精品久久久久久久专区| 日本特殊按摩在线观看| av在线免费观看蜜桃| 亚洲综合久久精品无码色欲| 香蕉人妻av久久久久天天| 精品高清国产乱子伦| 蜜桃免费一区二区三区| 免费人成视频x8x8入口| 亚洲七七久久综合桃花| 亚洲综合av一区在线| 曰韩无码av一区二区免费| 国产大学生粉嫩无套流白浆| 人妻无码ΑV中文字幕久久琪琪布 尤物AV无码色AV无码麻豆 | 欧美精品aaa久久久影院| 久久久黄色大片免费看| 亚洲日韩中文字幕无码一区| 免费一级特黄欧美大片久久网 | 亚洲女同人妻在线播放| 亚洲国产精品综合久久网络| 999久久久免费精品国产| 精品国产日韩无 影视| 久久狼精品一区二区三区 | 国产天堂网站麻豆| 国产成人综合亚洲国产| 放荡的美妇在线播放|