沈?qū)W利,趙科林,李世銀
(1.中國(guó)礦業(yè)大學(xué) 信息與控制工程學(xué)院,江蘇 徐州 221116;2.遼寧工程技術(shù)大學(xué) 電子與信息工程學(xué)院,遼寧 葫蘆島 125105)
隨著近年來(lái)電子商務(wù)的快速發(fā)展,在線購(gòu)物成為人們生活中必不可少的部分,由于電商這一在線消費(fèi)模式的特點(diǎn),電商平臺(tái)上的商品評(píng)價(jià)成為買(mǎi)家在購(gòu)物時(shí)挑選商品的重要參考。與此同時(shí),大量垃圾評(píng)價(jià)混雜于真實(shí)的評(píng)價(jià)當(dāng)中,對(duì)買(mǎi)家購(gòu)物造成干擾,因此電商垃圾評(píng)價(jià)檢測(cè)近年來(lái)一直是工業(yè)界和學(xué)術(shù)界的研究熱點(diǎn)。
電商評(píng)價(jià)通常包含文字評(píng)價(jià)和圖片評(píng)價(jià)2部分內(nèi)容。評(píng)價(jià)文本表達(dá)了買(mǎi)家對(duì)商品的主觀評(píng)價(jià),買(mǎi)家對(duì)商品的需求存在個(gè)體差異,因此文字評(píng)價(jià)往往帶有一定的主觀色彩,參考價(jià)值有限。相比單一的文本評(píng)價(jià),真實(shí)買(mǎi)家拍攝的商品圖片能夠直接展示出相應(yīng)商品的外觀、結(jié)構(gòu)等客觀要素,與文本評(píng)價(jià)形成互補(bǔ)的參考信息。因此,包含圖文內(nèi)容的評(píng)價(jià)相比純文本評(píng)價(jià)更具有參考價(jià)值?,F(xiàn)存垃圾評(píng)價(jià)檢測(cè)方法多根據(jù)評(píng)價(jià)文本相關(guān)內(nèi)容進(jìn)行檢測(cè),忽略了評(píng)價(jià)圖片的重要性,難以區(qū)分出多模態(tài)評(píng)價(jià)中的虛假評(píng)價(jià)和廣告評(píng)價(jià)等垃圾評(píng)價(jià)。為使買(mǎi)家在線購(gòu)物決策時(shí)得到有效參考,多模態(tài)電商垃圾評(píng)價(jià)的檢測(cè)成為一項(xiàng)重要挑戰(zhàn)。
近年來(lái)垃圾評(píng)價(jià)呈現(xiàn)多元化發(fā)展趨勢(shì),為便于對(duì)垃圾評(píng)價(jià)進(jìn)行檢測(cè)分析,本文將其分為虛假評(píng)價(jià)、廣告評(píng)價(jià)、無(wú)意義評(píng)價(jià)3類(lèi)。
1)虛假評(píng)價(jià)。多為賣(mài)家為提高商品競(jìng)爭(zhēng)力而進(jìn)行的“刷單”評(píng)價(jià)以及“返現(xiàn)”好評(píng),賣(mài)家通過(guò)刷單提高相關(guān)商品的銷(xiāo)量以及搜索權(quán)重,并對(duì)相關(guān)交易填寫(xiě)夸大性好評(píng)欺騙消費(fèi)者,往往帶有數(shù)張商品圖片,具有較強(qiáng)的迷惑性,嚴(yán)重影響買(mǎi)家的購(gòu)物決策和電商市場(chǎng)的正常競(jìng)爭(zhēng)。
2)廣告評(píng)價(jià)。分為真實(shí)賣(mài)家自己發(fā)送的廣告,和廣告團(tuán)體大量收購(gòu)的待評(píng)價(jià)交易進(jìn)行的推廣。此類(lèi)評(píng)價(jià)出于廣告目的,沒(méi)有和賣(mài)家有直接或間接的關(guān)系,為了不引起賣(mài)家注意往往設(shè)為好評(píng),因不包含有效評(píng)價(jià)信息對(duì)買(mǎi)家的決策造成干擾。具體形式為:評(píng)價(jià)文本含有誘導(dǎo)推廣信息;與真實(shí)評(píng)價(jià)較為相似或無(wú)意義,評(píng)價(jià)圖片中帶有聯(lián)系方式或推廣鏈接等廣告內(nèi)容。
3)無(wú)意義評(píng)價(jià)。多為買(mǎi)家為了完成評(píng)價(jià)任務(wù)簡(jiǎn)單填寫(xiě)與商品不相關(guān)的文字和圖片,也包括賣(mài)家對(duì)單一商品單純“刷量”的交易評(píng)價(jià)。
針對(duì)上述問(wèn)題,本文分別對(duì)評(píng)價(jià)文字和圖片進(jìn)行語(yǔ)義特征提取、分類(lèi),將圖片和文本的分類(lèi)結(jié)果輸入圖文融合分類(lèi)器。圖1為多模態(tài)電商評(píng)價(jià)。
圖1 多模態(tài)電商評(píng)價(jià)Fig.1 Multi-modal e-commerce reviews
垃圾評(píng)價(jià)檢測(cè)目前主要作為一項(xiàng)自然語(yǔ)言處理任務(wù)來(lái)研究。文獻(xiàn)[1]最早提出了垃圾評(píng)價(jià)檢測(cè)問(wèn)題,采用邏輯回歸模型分析了amazon.com中用戶(hù)、商品以及評(píng)價(jià)內(nèi)容的關(guān)系,對(duì)其中580萬(wàn)條評(píng)價(jià)進(jìn)行檢測(cè)分類(lèi)。文獻(xiàn)[2]提出避免對(duì)評(píng)價(jià)文本內(nèi)容的自然語(yǔ)言處理,采用以用戶(hù)為中心、用戶(hù)行為驅(qū)動(dòng)的垃圾評(píng)價(jià)檢測(cè)方法,在亞馬遜評(píng)價(jià)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。
文獻(xiàn)[3]首次分析了美國(guó)評(píng)價(jià)托管網(wǎng)站yelp.com過(guò)濾虛假評(píng)價(jià)的方法,利用yelp.com過(guò)濾虛假評(píng)價(jià)訓(xùn)練有監(jiān)督機(jī)器學(xué)習(xí)模型,評(píng)估了n-gram語(yǔ)言特征、行為特征的檢測(cè)性能。文獻(xiàn)[4]使用RNN(recurrent neural network)生成虛假評(píng)價(jià),通過(guò)了美國(guó)評(píng)價(jià)托管網(wǎng)站yelp.com人工檢查,并提出了基于語(yǔ)言特征的機(jī)器學(xué)習(xí)識(shí)別方案,在包含12萬(wàn)條機(jī)器生成的虛假評(píng)價(jià)和yelp.com上12萬(wàn)條真實(shí)評(píng)價(jià)的數(shù)據(jù)集上進(jìn)行訓(xùn)練,取得了優(yōu)于邏輯回歸方法的結(jié)果。文獻(xiàn)[5]將垃圾評(píng)價(jià)檢測(cè)問(wèn)題定義為用戶(hù)評(píng)價(jià)-產(chǎn)品的網(wǎng)絡(luò)分類(lèi)任務(wù),使用評(píng)價(jià)的評(píng)分、時(shí)間戳和文本數(shù)據(jù)來(lái)提取分類(lèi)特征,并收集了yelp.com餐廳評(píng)價(jià)數(shù)據(jù)集,命名為Yelpchi、Yelpnyc和Yelpzip總計(jì)458 565條評(píng)價(jià),分類(lèi)網(wǎng)絡(luò)通過(guò)半監(jiān)督學(xué)習(xí)在此數(shù)據(jù)集上取得了較好效果。
文獻(xiàn)[6]使用基于PU-Learning(learning from positive and unlabled example)的算法,從少量的正向酒店評(píng)價(jià)樣本和一組無(wú)標(biāo)簽數(shù)據(jù)中學(xué)習(xí),在大量的真實(shí)評(píng)價(jià)數(shù)據(jù)集上取得了84%的F分?jǐn)?shù)。文獻(xiàn)[7]大規(guī)模分析了大眾點(diǎn)評(píng)的虛假點(diǎn)評(píng)過(guò)濾系統(tǒng)的餐廳點(diǎn)評(píng),在大眾點(diǎn)評(píng)垃圾評(píng)價(jià)檢測(cè)系統(tǒng)帶有虛假評(píng)價(jià)標(biāo)簽的大規(guī)模真實(shí)餐廳評(píng)價(jià)數(shù)據(jù)集中取得了較好的效果。支持向量機(jī)(support vector machine, SVM)和樸素貝葉斯(na?ve Bayes, NB)等標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)算法也可用于處理評(píng)價(jià)文本數(shù)據(jù),文獻(xiàn)[8]在此基礎(chǔ)上研究了多種標(biāo)準(zhǔn)NLP預(yù)處理步驟組合以及多種分類(lèi)算法對(duì)垃圾評(píng)價(jià)檢測(cè)準(zhǔn)確性的影響。文獻(xiàn)[9]通過(guò)構(gòu)建多種評(píng)價(jià)特征,使用NB和SVM算法對(duì)所提出的模型進(jìn)行訓(xùn)練,取得了優(yōu)于人工識(shí)別的性能。
文獻(xiàn)[10]提出了一種復(fù)雜的概率圖分類(lèi)方法,利用文本特征學(xué)習(xí)概率圖節(jié)點(diǎn)的多模態(tài)嵌入表示訓(xùn)練一個(gè)具有注意機(jī)制的神經(jīng)網(wǎng)絡(luò),并構(gòu)建了分別由97 839篇餐廳評(píng)價(jià)和31 317篇酒店評(píng)價(jià)組成的真實(shí)數(shù)據(jù)集,通過(guò)基于多模態(tài)神經(jīng)網(wǎng)絡(luò)的先驗(yàn)計(jì)算檢測(cè)垃圾評(píng)價(jià)。近年來(lái),層次注意力神經(jīng)網(wǎng)絡(luò)用于挖掘評(píng)價(jià)文本的多方面信息,取得了優(yōu)于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型的效果[11-12]。
以上研究主要采用自然語(yǔ)言處理技術(shù)對(duì)文本評(píng)價(jià)進(jìn)行檢測(cè),取得了一定的成果,但主要研究對(duì)象為酒店、餐廳英文文本評(píng)價(jià),僅面向評(píng)價(jià)文本進(jìn)行檢測(cè)的方法難以正確判斷多模態(tài)的商品評(píng)價(jià),不足以應(yīng)對(duì)當(dāng)前國(guó)內(nèi)電商評(píng)價(jià)復(fù)雜情形。為解決這一問(wèn)題,本文采用圖文信息融合的方法來(lái)處理多模態(tài)電商評(píng)價(jià)。
近年來(lái)情感分類(lèi)任務(wù)初步涉及圖文信息的處理。文獻(xiàn)[13]提出了一種基于圖像-文本一致性的多模態(tài)情緒分析方法,提取網(wǎng)絡(luò)帖子中的文本特征、視覺(jué)特征和圖文相似度特征訓(xùn)練機(jī)器學(xué)習(xí)模型,實(shí)現(xiàn)了圖文帖子更準(zhǔn)確的情感分析。文獻(xiàn)[14]使用通用的特征層融合分類(lèi)模型和算法,特征層采用不同的分類(lèi)算法處理文本和圖像信息,再由融合層對(duì)特征層的結(jié)果進(jìn)行處理,有效提高了文本分類(lèi)精度。文獻(xiàn)[15]提出了基于特征空間映射和支持向量機(jī)的語(yǔ)義關(guān)聯(lián)識(shí)別方法,用于深入理解圖文微博的語(yǔ)義,首先提取了圖文微博的文本語(yǔ)言特征、視覺(jué)特征和社會(huì)特征,將特征從不同的特征空間投影到統(tǒng)一的特征空間。最后在統(tǒng)一的特征空間中構(gòu)造了基于支持向量機(jī)的語(yǔ)義相關(guān)識(shí)別模型,有效識(shí)別了微博的圖像-文本語(yǔ)義關(guān)聯(lián)。文獻(xiàn)[16]利用視覺(jué)注意機(jī)制和語(yǔ)義注意機(jī)制的混合融合框架來(lái)進(jìn)行圖文情感分析,提出了一種深度多模態(tài)注意力融合方法,采用2個(gè)獨(dú)立的單模態(tài)注意模型,分別對(duì)視覺(jué)信息和文本信息學(xué)習(xí)有效的情感分類(lèi)器,再和中間融合的多模態(tài)注意模型進(jìn)行聯(lián)合決策,取得了較好的情感分類(lèi)性能。以上研究結(jié)果說(shuō)明了多模態(tài)數(shù)據(jù)融合的研究?jī)r(jià)值。
考慮到以往的垃圾評(píng)價(jià)檢測(cè)對(duì)象沒(méi)有涉及帶有圖片的多模態(tài)評(píng)價(jià)內(nèi)容,本文設(shè)計(jì)了端到端的圖文決策融合評(píng)價(jià)分類(lèi)模型,對(duì)多模態(tài)電商評(píng)價(jià)進(jìn)行全面表征分類(lèi)。
具有一定參考價(jià)值的商品評(píng)價(jià)通常包括文字和圖片評(píng)價(jià),為共同檢測(cè)某商品單條評(píng)價(jià)的文本和圖片內(nèi)容,本文提出的圖文決策融合分類(lèi)模型如圖2。模型由3部分組成:評(píng)價(jià)文本分類(lèi)器、評(píng)價(jià)圖片分類(lèi)器和決策融合分類(lèi)器。首先,模型對(duì)評(píng)價(jià)的評(píng)價(jià)文本和圖像內(nèi)容分別進(jìn)行編碼、特征提取、分類(lèi)。然后,評(píng)價(jià)文本和評(píng)價(jià)圖片的分類(lèi)結(jié)果(分別定義為CT、CI)輸入到?jīng)Q策融合分類(lèi)器,經(jīng)過(guò)分類(lèi)特征的組合最終輸出評(píng)價(jià)的最優(yōu)分類(lèi)結(jié)果C。
圖2 決策融合分類(lèi)模型Fig.2 Decision fusion classification model
本文所研究的電商評(píng)價(jià)分析不僅用于買(mǎi)家決策參考,也可作為電商平臺(tái)的管理意見(jiàn)。為此,本文將評(píng)價(jià)文本分為虛假評(píng)價(jià)、廣告評(píng)價(jià)、無(wú)意義評(píng)價(jià)和有效評(píng)價(jià),對(duì)評(píng)價(jià)文本進(jìn)行語(yǔ)義特征提取、分類(lèi)。
近年來(lái)自然語(yǔ)言處理領(lǐng)域研究熱點(diǎn)轉(zhuǎn)向通用的預(yù)訓(xùn)練深度語(yǔ)言表示模型[17-20],超大規(guī)模神經(jīng)網(wǎng)絡(luò)模型在海量無(wú)標(biāo)簽數(shù)據(jù)的基礎(chǔ)上進(jìn)行預(yù)訓(xùn)練,從而獲得具有強(qiáng)大語(yǔ)義表征能力的模型,最終在實(shí)際任務(wù)中微調(diào)以實(shí)現(xiàn)遷移學(xué)習(xí),降低了下游任務(wù)的訓(xùn)練代價(jià)并取得良好效果。文獻(xiàn)[21]在此基礎(chǔ)上提出了雙向語(yǔ)言表示模型(bidirectional encoder representations from transformer,BERT),具有良好的語(yǔ)義表征性能。文獻(xiàn)[22]基于BERT在多元文本分類(lèi)任務(wù)中取得了較好效果。文獻(xiàn)[23]針對(duì)多元分類(lèi)任務(wù)微調(diào)先進(jìn)的預(yù)訓(xùn)練語(yǔ)言模型,結(jié)果表明,BERT的遷移學(xué)習(xí)魯棒性?xún)?yōu)于高性能模型XLNet[24]。綜上,本文使用BERT預(yù)訓(xùn)練模型提取評(píng)價(jià)文本中的語(yǔ)義特征,表示為文本嵌入向量V,然后輸入到分類(lèi)器中進(jìn)行微調(diào),輸出文本評(píng)價(jià)分類(lèi)結(jié)果。
BERT是基于Transformer[25]的雙向語(yǔ)言編碼表示模型,不同于具有循環(huán)網(wǎng)絡(luò)的RNN,其中的Transformer完全基于注意力的序列轉(zhuǎn)換模型,取代循環(huán)或卷積神經(jīng)網(wǎng)絡(luò)中循環(huán)層帶有多頭自注意力的編碼解碼結(jié)構(gòu)來(lái)對(duì)文件進(jìn)行表示,比循環(huán)或卷積神經(jīng)網(wǎng)絡(luò)具有更快的訓(xùn)練速度。近年來(lái)注意力機(jī)制[26]成為多種任務(wù)序列建模的重要組成部分,但它沒(méi)有形成輸入和輸出序列中的遠(yuǎn)距離依賴(lài)關(guān)系[27],文獻(xiàn)[25]提出的Transformer模型架構(gòu)如圖3,輸入和輸出之間的全局依賴(lài)關(guān)系完全基于注意力機(jī)制來(lái)構(gòu)建。
圖3 Transformer編碼器Fig.3 Transformer encoder
編碼器中輸入序列經(jīng)過(guò)向量嵌入、位置編碼后進(jìn)入自注意力層,編碼器采用多頭自注意力使模型具有注意多個(gè)位置的能力,從而在自注意力層實(shí)現(xiàn)多個(gè)表征子空間以表征序列多方面的語(yǔ)義信息,表示為
MultiHead(Q,K,V)=Concat(head1,…,headn)WO
(1)
解碼器比編碼器增加了掩蔽多頭注意力,確保某位置預(yù)測(cè)只依賴(lài)于之前的已知輸出,最后通過(guò)線性層連接softmax函數(shù)輸出概率。
BERT模型可以高效表征文本句子,本文將評(píng)價(jià)的文本作為BERT模型的輸入,提取文本評(píng)價(jià)中的語(yǔ)義特征,再微調(diào)模型對(duì)評(píng)價(jià)進(jìn)行分類(lèi),分類(lèi)結(jié)果作為融合分類(lèi)器的輸入。BERT模型實(shí)現(xiàn)了一種稱(chēng)為掩蔽語(yǔ)言模型的技術(shù),對(duì)于本文輸入的一對(duì)文本,它在第1段文本的開(kāi)頭插入一個(gè)特殊的分類(lèi)符[CLS],在兩端文本之間和第2段末尾插入一個(gè)特殊的分離符[SEP],并隨機(jī)在序列中選擇15%的詞被[MASK]替換,然后輸入深度雙向Transformer編碼器。預(yù)訓(xùn)練過(guò)程的主要任務(wù)之一是根據(jù)上下文單詞來(lái)預(yù)測(cè)這些被掩蔽掉的單詞。
BERT模型通過(guò)融合上下文預(yù)訓(xùn)練過(guò)程學(xué)習(xí)高級(jí)語(yǔ)義信息特征。垃圾評(píng)價(jià)的評(píng)價(jià)文本各有其不同的語(yǔ)義和風(fēng)格特征,本文將評(píng)價(jià)文本輸入到編碼器中,提取虛假評(píng)價(jià)和廣告評(píng)價(jià)等評(píng)價(jià)內(nèi)容中含有的語(yǔ)義特征。
本文采用BERT-wwm-ext[28]作為預(yù)訓(xùn)練模型,與原版隨機(jī)選取單詞字段掩蔽不同,使用了全詞掩蔽技術(shù)對(duì)中文文本進(jìn)行了全詞掩蔽訓(xùn)練。其結(jié)構(gòu)與原版相同,它由一個(gè)帶有12層Transformer編碼器組成。對(duì)于編碼器中的每個(gè)塊,包含12層自注意層和768層隱藏層,共產(chǎn)生1.1億參數(shù)。在BERT模型的基礎(chǔ)上加入一個(gè)標(biāo)準(zhǔn)的softmax層來(lái)預(yù)測(cè)標(biāo)簽c的概率為
P(c|s)=softmax(W·h+b)
(2)
(2)式中:W為權(quán)重矩陣,b為待估計(jì)的偏置向量。分類(lèi)層的參數(shù)矩陣W∈K×H,K為分類(lèi)標(biāo)簽數(shù)。
Softmax函數(shù)定義為
(3)
然后,根據(jù)域內(nèi)數(shù)據(jù)通過(guò)最大化交叉熵對(duì)參數(shù)進(jìn)行微調(diào)。微調(diào)完成后使用保存的模型對(duì)評(píng)價(jià)進(jìn)行語(yǔ)義分類(lèi),將輸出的4維向量中值最大的類(lèi)別作為分類(lèi)結(jié)果,CT={P1,P2,P3,P4}分別表示評(píng)價(jià)語(yǔ)義的類(lèi)別為虛假評(píng)價(jià),廣告評(píng)價(jià),無(wú)意義評(píng)價(jià),有效評(píng)價(jià)。
隨著神經(jīng)網(wǎng)絡(luò)深度的增加,網(wǎng)絡(luò)能夠提取更復(fù)雜的特征,但也伴隨著網(wǎng)絡(luò)性能退化的問(wèn)題。殘差網(wǎng)絡(luò)的出現(xiàn)改善了深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練中性能退化的問(wèn)題,在圖像處理領(lǐng)域得到廣泛應(yīng)用[29]。寬卷積殘差網(wǎng)絡(luò)(wide residual network,WRN)通過(guò)增加殘差網(wǎng)絡(luò)卷積層的寬度提高了網(wǎng)絡(luò)的表征能力[30]。本文使用寬卷積殘差網(wǎng)絡(luò)模型WRN-28-10對(duì)評(píng)價(jià)圖片進(jìn)行端到端的學(xué)習(xí),WRN-28-10利用加寬的卷積層來(lái)學(xué)習(xí)復(fù)雜的特征,以較淺的網(wǎng)絡(luò)實(shí)現(xiàn)了比深層卷積網(wǎng)絡(luò)更強(qiáng)的表示學(xué)習(xí)能力,訓(xùn)練難度小且不易發(fā)生梯度消失現(xiàn)象。本文采用寬卷積殘差網(wǎng)絡(luò)對(duì)評(píng)價(jià)圖像進(jìn)行分類(lèi),由于虛假評(píng)價(jià)附帶的商品圖片與真實(shí)買(mǎi)家所發(fā)布的商品圖片極為相似,本文將評(píng)價(jià)圖片標(biāo)簽設(shè)置為商品圖片,廣告圖片和無(wú)關(guān)圖片3類(lèi)。WRN-28-10網(wǎng)絡(luò)結(jié)構(gòu)如表1。
表1 WRN-28-10網(wǎng)絡(luò)結(jié)構(gòu)
WRN-28-10包含28個(gè)卷積層,卷積核大小為3×3,寬度系數(shù)為10,卷積層輸出到8×8的全局平均池化層,最后由640×3的全連接層輸出到softmax進(jìn)行分類(lèi)預(yù)測(cè)。
其中殘差塊表示為
y=F(x,{Wi})+x
(4)
(4)式中:x和y為層間輸入和輸出向量;函數(shù)F(x,{Wi})表示所學(xué)習(xí)的殘差映射。與普通卷積層不同的是,通過(guò)構(gòu)建恒等映射來(lái)保持網(wǎng)絡(luò)梯度傳播,殘差網(wǎng)絡(luò)單元之間直接連接,前向和反向信號(hào)直接傳播,保持了卷積網(wǎng)絡(luò)中信息傳播的有效性。殘差塊結(jié)構(gòu)如圖4。
圖4 殘差塊結(jié)構(gòu)Fig.4 Residual block structure
殘差單元結(jié)構(gòu)為BN-ReLU-Dropout-Conv-BN-ReLU-Dropout-Conv。BN(batch normalization)為批量歸一化操作,用于保持各層網(wǎng)絡(luò)的輸入分布相同,ReLU(rectified linear unit)為激活函數(shù),Conv表示卷積層,為防止過(guò)擬合在各個(gè)殘差支路中的卷積層之間加入dropout層,dropout比例為0.3。
在WRN-28-10的模型上進(jìn)行修改,設(shè)計(jì)最后的全連接層的輸出維度為3,連接softmax函數(shù)進(jìn)行3分類(lèi)預(yù)測(cè)。將任意K維實(shí)數(shù)向量x映射為0~1之間的K維實(shí)數(shù)向量σ(x),將K設(shè)置為3進(jìn)行分類(lèi),輸出得到分類(lèi)結(jié)果CI={Q1,Q2,Q3}來(lái)分別表示類(lèi)別為商品圖片、廣告圖片和無(wú)關(guān)圖片3種類(lèi)型的圖片,Q1+Q2+Q3=1,取值最大的類(lèi)別作為該圖片分類(lèi)結(jié)果。當(dāng)評(píng)價(jià)包含多個(gè)圖片時(shí),最終結(jié)果按照廣告圖片、商品圖片和無(wú)關(guān)圖片的順序判定,若存在該類(lèi)圖片則評(píng)價(jià)的圖片內(nèi)容判定為此類(lèi)。
考慮到電商垃圾評(píng)價(jià)的圖片和文本內(nèi)容的語(yǔ)義難以直接聯(lián)系,本文將單條評(píng)價(jià)的評(píng)價(jià)文本和圖像分別輸入文本分類(lèi)器和圖像分類(lèi)器,經(jīng)過(guò)向量化,特征提取分類(lèi)后,得到其文本類(lèi)別CT和圖片類(lèi)別CI輸出。決策融合分類(lèi)器對(duì)兩方面輸入向量的最大概率類(lèi)別進(jìn)行決策融合分類(lèi),決定該商品評(píng)價(jià)最終類(lèi)別C={1,2,3,4},分別表示評(píng)價(jià)類(lèi)別為虛假評(píng)價(jià),廣告評(píng)價(jià),無(wú)意義評(píng)價(jià),有效評(píng)價(jià)。
決策融合分類(lèi)器由基于啟發(fā)式規(guī)則決策樹(shù)實(shí)現(xiàn),針對(duì)目前電商評(píng)價(jià)的多樣性,通過(guò)分析現(xiàn)有實(shí)際評(píng)價(jià)數(shù)據(jù),本文對(duì)評(píng)價(jià)圖片和文本的分類(lèi)結(jié)果決策融合規(guī)則約定如表2。
通過(guò)以上規(guī)則給出融合分類(lèi)決策樹(shù)如圖5。
表2 圖文決策融合規(guī)則
圖5 融合分類(lèi)決策樹(shù)Fig.5 Classification fusion decision tree
為驗(yàn)證本文垃圾評(píng)價(jià)檢測(cè)方法的有效性,本文在電商真實(shí)評(píng)價(jià)數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)。分別評(píng)估了單獨(dú)評(píng)價(jià)文本分類(lèi)器和圖文融合決策分類(lèi)的垃圾評(píng)價(jià)檢測(cè)性能。實(shí)驗(yàn)GPU為NVDIA GeForce GTX 1060 3GB,實(shí)驗(yàn)首先將評(píng)價(jià)數(shù)據(jù)分為文本數(shù)據(jù)集和圖片數(shù)據(jù)集,其中每條評(píng)價(jià)的文本和圖片保持原始對(duì)應(yīng)關(guān)系,分別帶有自身類(lèi)別標(biāo)簽和評(píng)價(jià)總體標(biāo)簽,然后將2個(gè)數(shù)據(jù)集分別輸入評(píng)價(jià)文本分類(lèi)器和圖像分類(lèi)器進(jìn)行訓(xùn)練、測(cè)試,訓(xùn)練完成后重新隨機(jī)選取測(cè)試集進(jìn)行分類(lèi),分類(lèi)結(jié)果輸入決策融合分類(lèi)器,計(jì)算評(píng)價(jià)最終類(lèi)別。分類(lèi)器使用準(zhǔn)確率(Accuracy)、精準(zhǔn)率(Precision)、召回率(Recall)和F1值作為分類(lèi)性能評(píng)價(jià)指標(biāo),分別表示為
(5)
(6)
(7)
(8)
(5)—(7)式中:TP表示分類(lèi)器將評(píng)價(jià)正確分為該類(lèi)的個(gè)數(shù);TN表示分類(lèi)器將評(píng)價(jià)正確分為別類(lèi)的個(gè)數(shù);FP表示分類(lèi)器將評(píng)價(jià)錯(cuò)誤分為該類(lèi)的個(gè)數(shù);FN表示分類(lèi)器將評(píng)價(jià)錯(cuò)誤分為別類(lèi)的個(gè)數(shù)。為驗(yàn)證評(píng)價(jià)分類(lèi)有效性,按各類(lèi)別比例將評(píng)價(jià)分別隨機(jī)選取30%作為測(cè)試集,剩余70%作為訓(xùn)練集。
目前虛假評(píng)價(jià)檢測(cè)對(duì)象主要為文本評(píng)價(jià)數(shù)據(jù),尚無(wú)公開(kāi)的多模態(tài)電商評(píng)價(jià)數(shù)據(jù)。本文使用爬蟲(chóng)程序?qū)μ詫毦W(wǎng)當(dāng)季銷(xiāo)量排名靠前的女裝單品的有圖評(píng)價(jià)進(jìn)行爬取,獲得5 602條包含文字和圖片的評(píng)價(jià)。由于評(píng)價(jià)產(chǎn)生的特殊性,各類(lèi)評(píng)價(jià)數(shù)據(jù)分布不平衡,具體分布情況如表3、表4。其中單條評(píng)價(jià)的文本最多500個(gè)字符,單條評(píng)價(jià)包含1—5張圖片。然后對(duì)評(píng)價(jià)進(jìn)行人工標(biāo)注,每條評(píng)價(jià)文本標(biāo)注語(yǔ)義標(biāo)簽和評(píng)價(jià)標(biāo)簽,對(duì)應(yīng)圖片只標(biāo)注語(yǔ)義標(biāo)簽,具體標(biāo)注策略遵循表2。
表3 電商文本評(píng)價(jià)數(shù)據(jù)集
表4 電商圖片評(píng)價(jià)數(shù)據(jù)集
本文評(píng)價(jià)分類(lèi)器基于tensorflow框架,使用中文預(yù)訓(xùn)練的語(yǔ)義表示模型BERT-wwm-ext[21]在淘寶數(shù)據(jù)集上進(jìn)行微調(diào),修改分類(lèi)模型的數(shù)據(jù)處理模塊和分類(lèi)器輸出類(lèi)別為P1,P2,P3,P4共4類(lèi),文本序列最大長(zhǎng)度為128,超出范圍的進(jìn)行截?cái)嗵幚怼S?xùn)練的batchsize設(shè)置為3,dropout率設(shè)置為0.3,使用Adam優(yōu)化算法反向傳播,初始學(xué)習(xí)率為2e-5,訓(xùn)練周期(epochs)為3。最終將分類(lèi)結(jié)果輸出為語(yǔ)義類(lèi)別向量CT,作為決策融合分類(lèi)器的輸入。
評(píng)價(jià)圖像分類(lèi)器為基于pytorch框架的WRN-28-10殘差網(wǎng)絡(luò)。在輸入評(píng)價(jià)圖片前將其大小統(tǒng)一調(diào)整為224×224,設(shè)置訓(xùn)練參數(shù)如下:batchsize為1,固定動(dòng)量為0.9,學(xué)習(xí)率為0.01,衰減因子為0.1,訓(xùn)練100個(gè)周期。WRN中殘差塊的卷積層之間加入30%隨機(jī)失活量。使用SGD優(yōu)化算法訓(xùn)練網(wǎng)絡(luò),應(yīng)對(duì)單條評(píng)論的圖片數(shù)量不同的問(wèn)題,采用基于優(yōu)先級(jí)的分類(lèi)策略,分類(lèi)優(yōu)先級(jí)從高到低依次為廣告圖片、商品圖片、無(wú)關(guān)圖片,評(píng)價(jià)圖片分類(lèi)結(jié)果輸出為向量CI。文本和圖像分類(lèi)器訓(xùn)練完成后,決策樹(shù)融合分類(lèi)器根據(jù)CT和CI預(yù)測(cè)評(píng)價(jià)最終類(lèi)別C。
由于評(píng)價(jià)數(shù)據(jù)分布不平衡,為綜合評(píng)價(jià)各類(lèi)別的分類(lèi)性能,最終分類(lèi)使用Micro-F1作為評(píng)價(jià)指標(biāo)[31]。
表5分別給出了不同分類(lèi)模型在多模態(tài)電商評(píng)價(jià)數(shù)據(jù)集上各類(lèi)別的分類(lèi)Micro-F1,可以看出,面向評(píng)價(jià)文本的垃圾評(píng)價(jià)檢測(cè)分類(lèi)方法的分類(lèi)準(zhǔn)確率要明顯低于評(píng)價(jià)圖文決策融合分類(lèi),特別是在樣本數(shù)據(jù)不平衡的分類(lèi)任務(wù)上,本文提出的決策融合分類(lèi)模型在多模態(tài)評(píng)價(jià)數(shù)據(jù)集上分類(lèi)的Micro-F1比評(píng)價(jià)文本分類(lèi)方法提高了3.04%,驗(yàn)證了本文評(píng)價(jià)圖文決策融合分類(lèi)策略的有效性。
表5 不同方法對(duì)比
表6為使用評(píng)價(jià)文本分類(lèi)方法對(duì)多模態(tài)評(píng)價(jià)評(píng)價(jià)數(shù)據(jù)的分類(lèi)結(jié)果,表7為決策融合分類(lèi)結(jié)果。與面向評(píng)價(jià)文本的分類(lèi)模型相比,圖文決策融合分類(lèi)模型的評(píng)價(jià)分類(lèi)精度明顯提高,其中虛假評(píng)價(jià)檢測(cè)的精準(zhǔn)率提高4.44%,召回率提高2.12%,Micro-F1提高3.67%。樣本數(shù)量較少的廣告評(píng)價(jià)檢測(cè)的精準(zhǔn)率提高9.52%,召回率提高21.57%,Micro-F1提高14.96%,無(wú)意義評(píng)價(jià)檢測(cè)的精準(zhǔn)率提高9.81%,召回率提高12.91%,Micro-F1提高11.42%??梢钥闯觯瑘D文決策融合分類(lèi)方法能夠有效檢測(cè)出不平衡數(shù)據(jù)集中的廣告評(píng)價(jià)和無(wú)意義評(píng)價(jià),證明了評(píng)價(jià)圖片在多模態(tài)垃圾評(píng)價(jià)檢測(cè)分類(lèi)中起著至關(guān)重要的作用。
表6 評(píng)價(jià)文本分類(lèi)結(jié)果
表7 決策融合分類(lèi)結(jié)果
本文首先對(duì)多模態(tài)真實(shí)電商評(píng)價(jià)進(jìn)行抓取,然后對(duì)圖片與文本的語(yǔ)義類(lèi)別和總體評(píng)價(jià)進(jìn)行人工標(biāo)注,構(gòu)建標(biāo)注的多模態(tài)電商評(píng)價(jià)數(shù)據(jù)集。利用雙向編碼表示模型對(duì)評(píng)價(jià)文本語(yǔ)義進(jìn)行分類(lèi),并使用寬殘差網(wǎng)絡(luò)對(duì)評(píng)價(jià)圖片語(yǔ)義進(jìn)行分類(lèi),二者分類(lèi)結(jié)果輸入基于啟發(fā)式規(guī)則決策樹(shù)的決策融合分類(lèi)器。最后,融合文本和圖片分類(lèi)結(jié)果對(duì)評(píng)價(jià)整體最終分類(lèi)。實(shí)驗(yàn)結(jié)果表明,該方法能夠?qū)Χ嗄B(tài)電商垃圾評(píng)價(jià)進(jìn)行有效檢測(cè)。
本文涉及文本和圖像處理研究,需要大量數(shù)據(jù)支持,由于電商平臺(tái)限制,本文數(shù)據(jù)較為有限。未來(lái)將擴(kuò)展評(píng)價(jià)檢測(cè)領(lǐng)域,利用大規(guī)模數(shù)據(jù)集深入分析評(píng)價(jià)文本和圖像之間的語(yǔ)義關(guān)系,進(jìn)一步提高多模態(tài)垃圾評(píng)價(jià)檢測(cè)性能。