亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于層次異構(gòu)圖注意力網(wǎng)絡的虛假評論檢測

2021-07-02 00:35:28張獻國

計算機應用 2021年5期

關(guān)鍵詞：異構(gòu)注意力語義

張蓉，張獻國

（內(nèi)蒙古大學計算機學院，呼和浩特 010000）

（*通信作者電子郵箱2595083628@qq.com）

0 引言

近年來隨著電子商務的普及，越來越多的網(wǎng)上消費用戶習慣在網(wǎng)站上發(fā)布評論來分享自己的意見。出于商業(yè)目的，一些商家雇人發(fā)表一些不與事實匹配的好評或者不公正的負面評價［1］。這樣的虛假評論是一種包含不真實的意見的評論，發(fā)布的目的是欺騙誤導潛在的消費者從而影響他們的決策［2］。對于大多數(shù)消費者來說，只憑借個人經(jīng)驗來判斷一條評論真實與否是很困難的，因此對于虛假評論檢測的研究十分有意義。

虛假評論的檢測目的是區(qū)分評論是真實或者是虛假的，可以看作是一個二分類的問題。文獻［3］提出了有效的特征對分類性能的提升具有重要作用。目前大部分的研究都是利用從已經(jīng)標記的數(shù)據(jù)集中提取有效特征來對分類器進行訓練，但目前對特征的提取大都局限于評論中的語義特征。虛假評論不僅包含評論本身，同時還附帶著與發(fā)布者有關(guān)的用戶行為特征。許多研究已經(jīng)證明，用戶的行為特征對虛假評論檢測的性能有顯著影響［4-5］，但是由于用戶行為特征為非語義特征，現(xiàn)有的研究大都不能很好地將其與語義特征結(jié)合。

針對以上問題，本文建立了一個層次異構(gòu)圖注意力網(wǎng)絡（Hierarchical Heterogeneous Graph Attention Network，HHGAN）模型。該模型將層次注意力機制與異構(gòu)圖注意力網(wǎng)絡結(jié)合，在充分提取評論語義特征的同時將語義特征與用戶行為特征相互結(jié)合，同時引入注意力機制區(qū)別不同單詞和句子、不同評論和不同用戶行為間的注意力權(quán)重來學習評論的特征表示。將層次注意力機制和異構(gòu)圖注意力網(wǎng)絡結(jié)合可以充分捕獲評論語義特征和用戶行為特征間的內(nèi)在聯(lián)系，更加全面地對評論所包含的全部特征進行學習。實驗結(jié)果表明，HHGAN的性能顯著優(yōu)于目前最先進的檢測模型。

本文的工作主要有以下幾點：1）使用層次注意力網(wǎng)絡模型學習評論文本中不同詞和句子的重要性，獲得文本級特征表示；2）用戶行為特征作為節(jié)點構(gòu)建異構(gòu)圖注意力網(wǎng)絡，通過雙層注意力機制學習不同評論和不同用戶行為的重要性；3）在不同領域數(shù)據(jù)集中驗證了HHGAN 在虛假評論檢測任務中的有效性。

1 相關(guān)工作

1.1 意見性虛假評論檢測

隨著互聯(lián)網(wǎng)的普及，各類虛假評論開始大量出現(xiàn)，相關(guān)研究也在不斷發(fā)展［6-8］。虛假評論包含社交性虛假評論和意見性虛假評論，其中：社交性虛假評論是指在社交網(wǎng)絡上傳播不真實的信息［9］；意見性虛假評論則包含著可能誤導潛在消費者的信息，比如對產(chǎn)品質(zhì)量或服務的不真實的意見。目前對于產(chǎn)品或服務的在線評論是否可信這一問題有了越來越多的研究：Jindal等［10］最早通過亞馬遜上的產(chǎn)品評論對意見性虛假評論進行了研究，并提出了幾種分類檢測方法；Yoo 等［11］收集對酒店的評論，對虛假評論與真實評論的語義差異進行了分析；Ott 等［12-13］通過Amazon Mechanical Turkers 創(chuàng)建了一個黃金標記標準數(shù)據(jù)集，評估了虛假評論的發(fā)生概率并識別出帶有負面情緒的虛假評論。但上述工作都僅限于對評論文本的研究，缺少對評論文本之外的非語義特征的提取。

對于非語義特征的提取，目前也有一些研究：Jindal 等［14］不僅使用了評論文本，還將評論者和產(chǎn)品的特性作為研究對象；Liu 等［15］使用貝葉斯方法，使用聚類方法對虛假評論發(fā)布者的行為軌跡進行研究；Wang 等［16］采用無監(jiān)督的方法，從用戶行為信息出發(fā)，通過建立異構(gòu)評論圖網(wǎng)絡對虛假評論發(fā)布者進行檢測；Mukherjee 等［17］使用從Yelp.com 抓取的數(shù)據(jù)提取了少數(shù)用戶的行為特征，證明了行為特征的有效性。但以上文獻對非語義特征的提取較為片面，只使用了很少的評論中所包含的行為信息。

1.2 用于表示學習的神經(jīng)網(wǎng)絡

表示學習是指學習對不同級別的文本比如單詞、句子或文檔的連續(xù)表示，表示作為一個連續(xù)的向量可以作為特征被用于各類自然語言處理任務中［18-19］。詞向量的表示需要對大量文本語料庫進行學習。文獻［20］中通過文檔的全局上下文和多重詞原型學習詞嵌入；Pennington 等［21］則使用GloVe 對全局詞-詞共現(xiàn)來學習詞向量的表示。但是這些工作只能學習到詞的表示，不能對更高級別的文本，例如句子和文檔進行學習。對于更高級別的文本表示，Socher 等［22］提出了用遞歸神經(jīng)網(wǎng)絡學習句子級的語義組成；Hermann 等［23］將組合式范疇語法和遞歸式自動編碼器相結(jié)合來學習句子的表示。還有一些研究提出了基于特征選擇的學習文檔語義的神經(jīng)網(wǎng)絡模型［24-25］。雖然這些工作可以很好地學習句子和文檔的表示，但是只能單一地學習文本的表示，不能將語義特征和非語義特征結(jié)合起來學習。

1.3 異構(gòu)圖網(wǎng)絡

異構(gòu)圖網(wǎng)絡可以連接不同類型的節(jié)點，從而結(jié)合不同類型的數(shù)據(jù)提取特征。異構(gòu)圖網(wǎng)絡的嵌入主要關(guān)注基于元路徑的結(jié)構(gòu)信息的保存。Shang 等［26］提出一種可以使用預先選擇的元路徑來學習圖網(wǎng)絡中的節(jié)點向量表示的模型，用來進行相似性查找任務，但是在具體任務中無法學習最優(yōu)的權(quán)重組合。HErec 模型［27］采用一種約束特定類型節(jié)點的方法來捕獲反映在異構(gòu)圖中的復雜語義，但是只考慮了單條元路徑。HIN2Vec 模型［28］可以同時學習節(jié)點和元路徑的潛在向量，以執(zhí)行多個預測的訓練任務。對于綜合性異構(gòu)圖的表示，Shi等［29］提出了一種通過邊表示異構(gòu)圖進行嵌入的模型，Sun等［30］提出一種考慮元圖中全部元信息隱藏關(guān)系的網(wǎng)絡嵌入模型。以上方法都沒有使用注意力機制來關(guān)注節(jié)點和元路徑的權(quán)重。Wang 等［31］通過預先定義的元路徑將異構(gòu)網(wǎng)絡轉(zhuǎn)換為幾個同構(gòu)子網(wǎng)絡，并將注意力機制加入到圖網(wǎng)絡中。

不同于上述工作，本文針對意見性虛假評論檢測問題，將層次注意力機制和異構(gòu)圖注意力網(wǎng)絡結(jié)合：其中層級注意力機制可以很好地捕獲評論中的文本語義信息，從而可以學習評論文本的表示；異構(gòu)圖注意力網(wǎng)絡可以進一步將層次注意力機制學習的文本表示結(jié)合評論中的一些非語義特征進行表示學習，從而可以從評論中獲取更加豐富全面的信息。將兩個網(wǎng)絡結(jié)合可以在保留評論的語義特征的同時對評論的非語義特征進行學習，將文本和用戶行為兩種結(jié)構(gòu)不同的特征相互結(jié)合可以更多地獲取評論的有效信息和更好地學習評論的表示，更明顯地區(qū)分真實和虛假評論之間的差別，從而使虛假評論檢測更加準確。

2 虛假評論檢測模型

電子商務中的評論通常包含著大量的文本信息和用戶行為信息。文本信息一般指一條評論的文本內(nèi)容。用戶行為信息包括該評論的評分、評論者第一次發(fā)布評論的時間與發(fā)布這條評論的時間間隔、評論者發(fā)布評論的總數(shù)等。這些信息對虛假評論檢測都十分重要。虛假評論檢測最重要的是學習評論的表示，找到虛假和真實評論的不同特征。評論中的文本信息包含著評論本身的內(nèi)容，包含詞語和語句等語義特征。這些特征對區(qū)別評論的真實與否很重要，因為虛假評論為了吸引消費者的注意力往往會比真實評論更多地使用一些更加夸張的詞語來夸大效果，這些詞語和語句的特征對區(qū)分虛假或真實的評論很有效果，因此學習評論的語義表示對學習評論特征非常重要。評論中的用戶行為信息包含評論內(nèi)容之外的非語義特征，這些特征對區(qū)分虛假或真實的評論同樣重要。因為一個虛假評論的發(fā)布者很有可能發(fā)布不只一條虛假評論，其發(fā)布的虛假評論往往帶有明顯的目的，例如給一個商家故意打高分或者低分，所以識別這個發(fā)布者的行為特征也很重要。

層次注意力機制可以很好地對文本語義特征進行學習，這是因為評論文本本身可以看成是一個由單詞到句子到文檔的層級結(jié)構(gòu)，層次注意力機制可以區(qū)分評論文本中不同單詞和句子的注意力權(quán)重。評論中文本信息所包含的語義特征和用戶行為信息中所包含的非語義特征在結(jié)構(gòu)上是不同的，語義特征通過多維度的詞向量嵌入學習一般表現(xiàn)為向量形式，非語義特征可以直接獲取以數(shù)值表示，但是不同的用戶行為信息的非語義特征也具有不同結(jié)構(gòu)。兩種特征對虛假評論的檢測都很重要，因此需要構(gòu)建一個異構(gòu)圖將評論中的語義特征和非語義特征聯(lián)系起來，使用兩種特征對評論進行表示學習。異構(gòu)圖注意力網(wǎng)絡可以很好地從異構(gòu)圖中捕獲特征，同時使用注意力機制獲取不同非語義特征的權(quán)重。

在對評論進行表示學習時若僅使用層次注意力機制則不能對評論包含的非語義特征進行學習。若僅使用異構(gòu)圖注意力網(wǎng)絡只將評論用詞向量嵌入作為節(jié)點的特征表示則不能很好地學習評論中不同詞語和語句的重要性，不能挖掘到更全面詳細的語義特征。因此本文將層次注意力機制和異構(gòu)圖注意力網(wǎng)絡結(jié)合，在充分學習評論語義特征的同時考慮非語義特征對虛假評論檢測的作用，可以比較全面地挖掘真實與虛假評論中所包含的不同信息，更完整地學習評論的全部特征以提高虛假評論檢測的準確度。

本文提出的HHGAN 模型的網(wǎng)絡框架如圖1 所示。該模型主要由層次注意力機制和異構(gòu)圖注意力網(wǎng)絡兩部分組成。層次注意力網(wǎng)絡可以通過注意力機制將單詞表示轉(zhuǎn)為句子表示，將句子表示轉(zhuǎn)為文檔表示這兩個階段捕獲評論的語義特征。異構(gòu)圖注意力網(wǎng)絡可以將評論文本和用戶行為作為圖網(wǎng)絡中的異構(gòu)節(jié)點來捕獲評論中的更多信息。其中，用戶行為特征被用于建立不同的元路徑以連接評論中的文本特征。元路徑是連接兩個對象的復合關(guān)系，是一種廣泛使用的捕獲語義的結(jié)構(gòu)［32］。通過層次注意力機制學習到的評論文本特征表示被輸入到異構(gòu)圖注意力網(wǎng)絡中。一條評論可以通過不同的用戶行為建立的元路徑連接到另外的多條評論。在異構(gòu)圖注意力網(wǎng)絡中，對于給定的一條元路徑，每條評論可以通過評論級注意力機制對連接到它的不同的評論分配不同的權(quán)重，以減少噪聲數(shù)據(jù)。對于不同的元路徑，需要通過行為級注意力機制學習各條元路徑的重要性來為不同的用戶特征分配不同的權(quán)重。

圖1 HHGAN模型網(wǎng)絡框架Fig.1 Network framework of HHGAN model

2.1 層次注意力機制

文檔一般具有一種層次結(jié)構(gòu)：單詞組成句子，句子組成文檔。層次注意力機制可以分層捕獲文檔中不同層級語義特征。虛假評論和真實評論的不同特征就可以分層學習。在一個句子中學習對檢測虛假評論貢獻不同的詞語權(quán)重，通過加權(quán)融合學習到了句子的表示。再對一個文檔中的句子進行學習，得到文檔中不同句子的不同權(quán)重，加權(quán)融合后得到文檔表示。

本文HHGAN 模型中的層次注意力機制分為兩部分，第一部分為句子級注意部分，這部分通過詞嵌入來學習句子的表示。表示方法如下：

其中：xit為詞嵌入向量，wit為給定一個句子中的單詞，i表示文檔中第i個句子，t表示句子中的第t個詞，We為預先訓練好的詞嵌入矩陣。本文使用了Yelp dataset 上的開源的連續(xù)詞包模型進行預訓練，得到123 152個具有100個維度的詞嵌入。

然后使用雙向門控循環(huán)單元（Gated Recurrent Unit，GRU）實現(xiàn)對詞的編碼：

其中hit為詞的編碼。

為了更好地學習詞在虛假評論檢測中的重要性，使用了注意力機制［33］來獲得每個詞的權(quán)重ait：

其中：uit是hit的隱層表示向量，uw是一個隨機初始化的向量會作為模型的參數(shù)被訓練，C表示句子中全部詞的數(shù)量，si是學習到的第i個句子的向量。

第二部分為文檔級注意部分，這部分將文檔分割為幾個句子，通過剛剛學習到的句子表示生成文檔表示。和學習句子表示的方法一樣，將得到的句向量si作為句嵌入，經(jīng)過雙向GRU的編碼和句注意力機制，得到文本向量vi。

2.2 異構(gòu)圖注意力網(wǎng)絡

異構(gòu)圖注意力網(wǎng)絡可以考慮到不同類型信息間的異構(gòu)性，可以捕獲不同類型的非語義特征。本文使用的異構(gòu)圖注意力網(wǎng)絡具有雙層注意力機制，對輸入到網(wǎng)絡中的特征分別進行評論級注意和行為級注意。由于語義特征的表示是相同的多維度向量，而非語義特征是相對離散的單一維度數(shù)值，所以一條評論往往可以通過一種非語義特征直接連接到另一條評論。同時，層次注意力機制很充分地對評論的語義特征進行了學習，所以這里將層次注意力機制學習到的評論表示作為特征用來構(gòu)造評論節(jié)點，使用用戶行為信息來連接不同的評論來構(gòu)造元路徑是比較合理可行的。

通過學習評論節(jié)點和基于行為特征構(gòu)建的元路徑的重要性，異構(gòu)圖注意力網(wǎng)絡可以更加關(guān)注虛假評論檢測中有意義的評論和用戶行為。根據(jù)學習到的注意力值，可以了解評論和用戶行為對虛假評論檢測的貢獻程度，可以幫助分析和解釋得到的結(jié)果。

2.2.1 評論級注意力

首先使用注意力機制來學習評論間的權(quán)值。對于給定的一對通過元路徑φ連接的評論節(jié)點（i，j）表示的是評論j對評論i的權(quán)重，計算方法如下：

其中σ(·)為激活函數(shù)，例如線性整流函數(shù)（Rectified Linear Unit，ReLU），tφ為在元路徑φ中的注意力向量，||為連接操作，vi、vj分別為由層次注意力網(wǎng)絡學習得到的評論i、j的特征表示。由于評論i和評論j在基于元路徑φ中所連接到的評論是不同的，所以和是不同的。在得到基于元路徑的評論節(jié)點之間的權(quán)重后，對其進行歸一化，得到權(quán)重系數(shù)中的第k個元素，m表示集合中所有元素的數(shù)量。是指評論i在元路徑φ中連接到的所有包括其本身的評論的集合。

然后可以學習到基于元路徑φ的評論節(jié)點i的表示

其中：k為集合

為了使訓練過程更穩(wěn)定，使用了多線程注意力機制。具體來說，就是重復N次評論級注意，并將學習到的表示進行連接作為評論級表示，||表示對向量的連接操作：

假定選擇構(gòu)建了p個元路徑，將評論特征經(jīng)過評論級注意力學習后可以得到p組評論特征的表示，記為

2.2.2 行為級注意力

當惠州港處于臺風右半圓時，惠州港轄區(qū)具有臺風風力大、影響范圍廣、持續(xù)時間長、東南涌浪巨大等特點，惠州港4號錨地西南側(cè)水域處于辣甲島與大鵬半島兩山之間，是俗稱的喇叭口，該位置不但起不到防風防浪的效果，還有峽谷效應，比其他地方涌浪更大，更容易出現(xiàn)走錨斷鏈等險情情況，此處不適宜中小型船舶防臺避風，臺風“山竹”影響惠州港期間，4萬噸級工程船“海洋石油202”就是錨泊該位置發(fā)生走錨險情。因此，建議在該水域拋錨的散雜貨船舶到5號錨地附近拋錨避風。危險品船舶安排到6號錨地和東聯(lián)航道之間水域一帶拋錨避風較好，但要避開排污管線；惠州港7號錨地由于對東南涌浪沒有阻隔作用，風大浪高，不建議船舶在該錨地拋錨防臺。

由于異構(gòu)圖中的每條評論都包含著多種用戶行為信息，每類行為特征對虛假評論檢測有著不同程度的貢獻性。行為級注意力機制可以學習同一評論中不同行為特征的權(quán)重，并將不同行為中的評論表示聚合為新的評論表示。具體過程為：

對于評論i，使用學習到的不同元路徑的權(quán)重，可以將不同行為中的評論表示聚合得到最終的評論表示Zi：

最后將得到的最終評論表示放入一個多層感知器來進行分類，通過反向傳播算法來優(yōu)化所提出的模型，從而更好地學習評論的嵌入。本文使用交叉熵作為損失函數(shù)：

模型訓練的偽代碼描述如算法1所述。

算法1 基于HHGAN模型的虛假評論檢測算法。

輸入帶標注的評論文本數(shù)據(jù)集（w，y′），預先訓練好的詞嵌入矩陣We，元路徑集合（φ1，φ2，…，φp），評論級注意訓練次數(shù)N；

3 實驗和結(jié)果

3.1 數(shù)據(jù)集

本文使用的數(shù)據(jù)集是從yelp.com中采集的具有標記的包含評論文本和多種用戶行為特征的數(shù)據(jù)集。數(shù)據(jù)集包含餐廳和酒店兩個領域，數(shù)據(jù)集統(tǒng)計信息如表1 所示。Yelp 是一家知名的大型在線評論網(wǎng)站，其過濾算法可以達到工業(yè)級規(guī)模的過濾［34］。在對數(shù)據(jù)集進行預處理時，將所有大寫字母轉(zhuǎn)換為小寫并去除了非英文字符和停用詞。

表1 數(shù)據(jù)集統(tǒng)計信息Tab.1 Statistical information of datasets

3.2 實驗設置

實驗選取所有數(shù)據(jù)集的80%的樣本作為訓練集，10%作為驗證集，10%作為測試集，其中驗證集用于優(yōu)化網(wǎng)絡中的超參數(shù)。

3.2.1 元路徑設置

本文之前提到的模型中所構(gòu)建的元路徑需要進行預設，數(shù)據(jù)集中可以提取到以下非語義特征，通過這些特征來構(gòu)建異構(gòu)圖注意力網(wǎng)絡中的元路徑。餐廳數(shù)據(jù)集中的非語義特征的累積分布函數(shù)（Cumulative Distribution Function，CDF）如圖2 所示，通過累積分布函數(shù)可以分析這些特征在真實評論和虛假評論中的差異。

圖2 非語義特征的累積分布函數(shù)圖Fig.2 CDF diagrams of non-semantic features

評分（Rating Score，RS）評論者給出的評分越高說明評論者的態(tài)度更加積極。從圖2（a）中可以發(fā)現(xiàn)，虛假評論的評分可能更低。

評分分差（Rating Deviation，RD）虛假評論的評論更可能偏離整體的評分，所以評論分差會比真實評論高。為了衡量一個評論的評分分差，實驗過程中計算了一條評論與這個商戶平均評分之間的絕對偏差。從圖2（b）中可以發(fā)現(xiàn)80%的真實評論分差小于1，約80%的虛假評論分差小于2.5。

評論長度（Review Length，RL）虛假評論的發(fā)布者通常傾向花更少的時間來寫評論，所以虛假評論的長度通常要比真實評論短。實驗中使用評論中的單詞數(shù)量作為評論長度的表示。從圖2（c）中可以發(fā)現(xiàn)虛假評論整體比真實評論的長度短。

評論間隔（Review Interval，RI）虛假評論的發(fā)布者每次發(fā)布虛假評論時會傾向用新注冊的賬號，這就意味著該賬號第一次發(fā)布評論和最后一次發(fā)布評論的時間間隔會比真實評論發(fā)布者要短，從圖2（d）中可以發(fā)現(xiàn)超過50%的虛假評論發(fā)布者發(fā)布虛假評論的時間間隔為0 d，這意味著這個賬號很有可能只是為了發(fā)布虛假評論而注冊使用的。

評論者的評論數(shù)（Reviewer Count，RC）由于虛假評論的發(fā)布者傾向使用新注冊的賬號，其發(fā)布的評論數(shù)量通常會小于真實評論的發(fā)布者，從圖2（e）中可以發(fā)現(xiàn)超過80%的虛假評論發(fā)布者發(fā)布的評論少于8 條，超過30%的真實評論發(fā)布者發(fā)布的評論大于20條。

此外，一般來說評論者和評論所指向的商戶對虛假評論檢測具有一定參考性。如果一個評論者曾經(jīng)發(fā)布過一條虛假評論，那么他的其他評論也有很大可能是虛假評論。如果一個商戶有一條虛假評論，那么這個商戶很有可能存在其他的虛假評論。因此，需要將評論者（Reviewer ID，RID）和評論商戶（Business ID，BID）也作為非語義特征來構(gòu)建元路徑。

3.2.2 對比實驗設置

為了研究評論中的語義特征和非語義特征對虛假評論檢測的貢獻性，將分別對評論的語義特征和非語義特征放入以下7 種基準模型中進行實驗。其中對于只使用非語義特征的模型，使用評論文本的平均詞向量表示作為輸入。

以下是語義特征的基準模型。

1）卷積神經(jīng)網(wǎng)絡（Convolutional Neural Network，CNN）：將神經(jīng)網(wǎng)絡的最后一個狀態(tài)向量作為文檔向量表示。

2）循環(huán)神經(jīng)網(wǎng)絡（Recurrent Neural Network，RNN）：單向的RNN，將其最后的神經(jīng)網(wǎng)絡狀態(tài)向量作為文檔向量表示。

3）雙向長短期記憶（Bi-directional Long Short-Term Memory，Bi-LSTM）網(wǎng)絡：雙向LSTM，將其最后的神經(jīng)網(wǎng)絡狀態(tài)向量作為文檔向量表示。

4）層次注意力網(wǎng)絡（Hierarchical Attention Network，HAN）：具有注意力機制的層級神經(jīng)網(wǎng)絡，將經(jīng)過層次注意力得到的文檔表示輸入到分類器中進行分類。

以下是非語義特征的基準模型。

5）圖卷積網(wǎng)絡（Graph Convolutional Network，GCN）：一個使用同構(gòu)圖的卷積神經(jīng)網(wǎng)絡，所有非語義特征被簡單地放入一個同構(gòu)圖中。

6）圖注意力網(wǎng)絡（Graph Attention Network，GAT）：具有注意力機制的同構(gòu)圖網(wǎng)絡，所有非語義特征被簡單地放入一個同構(gòu)圖中。

7）異構(gòu)圖注意力網(wǎng)絡（Heterogeneous Graph Attention Network，HGAN）：具有注意力機制的異構(gòu)圖網(wǎng)絡，將非語義特征構(gòu)建成若干個同構(gòu)圖。

3.3 實驗結(jié)果

所有對比模型在餐廳和酒店領域中的實驗結(jié)果如表2 所示，實驗結(jié)果均為在多次實驗中的最好結(jié)果。實驗使用F1值來評價模型性能。從實驗結(jié)果來看，HHGAN在兩個不同的數(shù)據(jù)集中均取得不錯的效果，餐廳數(shù)據(jù)集上F1 值達到0.942。酒店數(shù)據(jù)集的F1值稍微比餐廳數(shù)據(jù)集低一些，原因可能是數(shù)據(jù)集中真實評論和虛假評論數(shù)量不均衡導致的。

表2 所有模型上的F1值對比Tab.2 F1 value comparison of all models

實驗中Bi-LSTM 上的結(jié)果均高于CNN 和RNN，這證明了雙向網(wǎng)絡在具有上下文長期依賴關(guān)系的文本分類任務中的優(yōu)勢。HAN 模型性能較高證明對文本使用單詞和句子層次注意力機制的重要性。GAT 和HGAN 與GCN 對比，性能均得到提高，這證明了在圖卷積網(wǎng)絡中注意力機制對虛假評論檢測的貢獻性；同時，HGAN 與GAT 相比性能得到提高，證明由多個同構(gòu)子圖組成的異構(gòu)圖比單個的同構(gòu)圖能更好地提取非語義特征。

總體來看，只使用語義特征的模型性能均低于HHGAN，證明了HHGAN 中使用非語義特征的有效性。HHGAN 的性能高于只使用非語義特征的模型性能，證明了對文本的語義特征進行學習的作用。

在選擇非語義特征來建立元路徑時，各個特征對虛假評論檢測的權(quán)重值如圖3所示。從圖3可以看出，評論者和評論分數(shù)對區(qū)分虛假評論和真實評論的貢獻度較大。造成這一現(xiàn)象的原因可能是一個評論者通常會發(fā)布大于1 條的虛假評論，這就使通過這個評論者連接到的其他評論更有可能包含虛假評論。虛假評論的評分總體要比真實評論的評分更低，這就使通過較低分數(shù)連接的評論更多地包含了虛假評論。

圖3 非語義特征的注意力權(quán)重值Fig.3 Attention weights of non-semantic features

4 結(jié)語

本文提出了一種融合語義和非語義特征的虛假檢測模型。實驗結(jié)果表明，融合語義特征和非語義特征的HHGAN優(yōu)于只使用層次注意力網(wǎng)絡和只使用異構(gòu)圖注意力網(wǎng)絡的模型。該模型先通過詞到句、句到文檔的層次注意力機制對文本中的語義特征進行學習，得到評論文檔的表示。本文還探索了在虛假評論檢測中具有一定貢獻性的非語義特征，并將語義特征與這些特征融合。將學習到的語義特征通過由非語義特征構(gòu)建的元路徑，并經(jīng)過評論級和行為級兩層注意力機制來學習評論中非語義特征的重要性，從而使模型可以更好地對評論的語義特征和非語義特征的表示進行學習。實驗結(jié)果表明，本文提出的檢測模型優(yōu)于基線方法。驗證實驗也表明，該模型具有較好的魯棒性。

本文提出的模型在對非語義特征進行學習時需要根據(jù)人工選擇的非語義特征來預先構(gòu)建元路徑，這具有一定的局限性，構(gòu)建的元路徑可能不能完全涵蓋可以對虛假評論檢測做出貢獻的非語義特征。在未來的工作中還需要進一步研究如何不需要預設元路徑就能夠構(gòu)造異構(gòu)圖的方法。