亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合多元評(píng)論信息的用戶情感分類(lèi)方法

        2021-06-15 01:08:18徐紅艷黃法欣
        關(guān)鍵詞:卷積分類(lèi)文本

        徐紅艷,黃法欣,馮 勇

        (遼寧大學(xué) 信息學(xué)院,遼寧 沈陽(yáng) 110036)

        0 引言

        互聯(lián)網(wǎng)3.0時(shí)代的來(lái)臨,越來(lái)越多的公眾參與到網(wǎng)絡(luò)交互中,極大地推動(dòng)了網(wǎng)絡(luò)商業(yè)化進(jìn)程.2019年阿里巴巴雙十一消費(fèi)數(shù)據(jù)調(diào)查顯示[1],訂單峰值為54.4萬(wàn)筆/秒、當(dāng)天成交額為2 684億元,比去年同期增長(zhǎng)了42%.由此可見(jiàn),電子商務(wù)已為公眾所接受,電商平臺(tái)已經(jīng)成為人們消費(fèi)的主要途徑.電子商務(wù)中商品和服務(wù)的評(píng)論對(duì)人們消費(fèi)決策的影響已經(jīng)引起學(xué)界和業(yè)界的關(guān)注,但現(xiàn)有研究成果由于很少考慮評(píng)論中存在虛假評(píng)論、默認(rèn)好評(píng)、隨意打分等因素,難以準(zhǔn)確獲得用戶的真實(shí)情感分類(lèi),導(dǎo)致研究成果在實(shí)際環(huán)境下的應(yīng)用效果欠佳.

        通過(guò)對(duì)用戶評(píng)論信息進(jìn)行分析可知,用戶評(píng)論中包含原始評(píng)論、原始上傳圖片、追加評(píng)論以及追加上傳圖片,在對(duì)用戶評(píng)論進(jìn)行情感分類(lèi)時(shí)綜合考慮這四類(lèi)多元評(píng)論信息可增強(qiáng)情感分類(lèi)的準(zhǔn)確性.為了減少虛假評(píng)論等因素對(duì)用戶情感分類(lèi)準(zhǔn)確性的干擾,需要對(duì)用戶多元評(píng)論中的隱含信息進(jìn)行分析和挖掘.通常,發(fā)布虛假評(píng)論的用戶往往不會(huì)進(jìn)行追加評(píng)論,因此發(fā)布追加評(píng)論的用戶評(píng)論內(nèi)容可信度較高.同時(shí),引入體現(xiàn)評(píng)論延續(xù)性的追加評(píng)論可以反應(yīng)出用戶在不同時(shí)刻對(duì)商品的情感特征;另外,發(fā)布虛假評(píng)論的用戶在電商平臺(tái)下單購(gòu)買(mǎi)商品后不會(huì)收到所購(gòu)買(mǎi)的商品,因此評(píng)論中上傳的圖片通常為店鋪主頁(yè)的商品推廣圖片或其他商品圖片.本文通過(guò)融合多元評(píng)論信息減少虛假評(píng)論等因素對(duì)用戶的情感分類(lèi)結(jié)果的影響,為交叉銷(xiāo)售、個(gè)性化推薦等應(yīng)用的開(kāi)展提供支撐.

        綜上,本文提出了一種融合多元評(píng)論信息的用戶情感分類(lèi)方法(user emotion classification method integrating multiple comment information,UECMIMCI),該方法首先對(duì)爬取數(shù)據(jù)進(jìn)行預(yù)處理,使用圖片分類(lèi)技術(shù)對(duì)用戶評(píng)論中上傳的圖片進(jìn)行分類(lèi),選出上傳圖片為拍攝商品圖片的用戶,利用這些用戶的多元評(píng)論信息來(lái)重構(gòu)圖文數(shù)據(jù)集;其次,采用文本分割技術(shù)將原始評(píng)論、追加評(píng)論按照評(píng)論內(nèi)容進(jìn)行分割重構(gòu);最終,將經(jīng)過(guò)預(yù)處理后的圖文數(shù)據(jù)集分多通道輸入到卷積神經(jīng)網(wǎng)絡(luò)中,得到融合多元評(píng)論信息的用戶情感分類(lèi)結(jié)果.實(shí)驗(yàn)證明,所提方法能夠?qū)υu(píng)論中的用戶情感進(jìn)行準(zhǔn)確分類(lèi),具有良好的應(yīng)用前景.

        1 相關(guān)工作

        1.1 虛假評(píng)論的識(shí)別

        商品評(píng)論是獲取用戶情感分類(lèi)的一個(gè)重要依據(jù),但是虛假評(píng)論嚴(yán)重影響著用戶情感分類(lèi)結(jié)果的真實(shí)性.雖然研究人員研究并提出了很多檢測(cè)虛假評(píng)論方法及評(píng)論檢測(cè)技術(shù),但這些方法大多通過(guò)分析語(yǔ)言結(jié)構(gòu)和提取虛假特征的方式識(shí)別虛假評(píng)論.如房有麗等[2]提出融合評(píng)分-評(píng)價(jià)一致性和多維時(shí)間序列的虛假評(píng)論識(shí)別方法,構(gòu)建虛假評(píng)論識(shí)別分類(lèi)器.提高虛假評(píng)論的識(shí)別效果.郝玫等[3]提出基于特征觀點(diǎn)對(duì)的語(yǔ)義匹配算法,實(shí)現(xiàn)特征觀點(diǎn)對(duì)的語(yǔ)義匹配及提取,對(duì)產(chǎn)品可信評(píng)論進(jìn)行篩選和分析.目前,主流的虛假評(píng)論識(shí)別方法只針對(duì)用戶上傳多元評(píng)論信息中的評(píng)論文本在特征提取和語(yǔ)義分析等方面分析與優(yōu)化,未考慮利用用戶評(píng)論中其他的多元評(píng)論信息,尤其是未充分利用用戶上傳的圖片的類(lèi)型去識(shí)別和過(guò)濾疑似虛假評(píng)論.

        因此,本文提出利用多元評(píng)論信息中的上傳圖片進(jìn)行虛假評(píng)論的識(shí)別.將評(píng)論上傳圖片分為兩類(lèi),第一類(lèi)是用戶收到商品后拍攝的商品圖片,上傳該類(lèi)圖片時(shí)用戶發(fā)布的評(píng)論文本在本文定義為真實(shí)評(píng)論;第二類(lèi)為上傳店鋪主頁(yè)商品的推廣圖片以及其它商品圖片,上傳該類(lèi)圖片時(shí)用戶所發(fā)布的評(píng)論為虛假評(píng)論.通過(guò)圖片二分類(lèi)的方法過(guò)濾第二類(lèi)圖片,確保輸入到情感分類(lèi)器中的圖文評(píng)論數(shù)據(jù)集有較高的真實(shí)性.

        圖片分類(lèi)方法在醫(yī)學(xué)、商品銷(xiāo)售等多領(lǐng)域得到廣泛應(yīng)用,常使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法對(duì)圖像特征進(jìn)行提取并完成分類(lèi).Yu等[4]提出基于新型深度雙流網(wǎng)絡(luò)進(jìn)行圖像分類(lèi)方法,先通過(guò)多實(shí)例網(wǎng)絡(luò)和全局優(yōu)先級(jí)網(wǎng)絡(luò)分別獲取輸入圖像的局部和全局特征流,后將雙流特征融合,利用該特征完成圖像的分類(lèi).Li等[5]提出一種基于注意力機(jī)制的多標(biāo)簽圖像分類(lèi)方法,利用LSTM網(wǎng)絡(luò)生成圖像的多個(gè)標(biāo)簽,再使用注意力機(jī)制提取圖片特征,從而取得良好的圖片分類(lèi)性能.Su等[6]提出結(jié)合生成對(duì)抗網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)方案,提高圖像分類(lèi)的準(zhǔn)確性.本文通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)用戶上傳圖片進(jìn)行分類(lèi),根據(jù)分類(lèi)結(jié)果在評(píng)論圖文數(shù)據(jù)集中保留上傳拍攝商品圖片的用戶多元評(píng)論信息,進(jìn)而提高用戶情感分類(lèi)性能.

        1.2 文本分割

        文本分割在信息檢索、摘要生成、問(wèn)答系統(tǒng)、信息抽取等領(lǐng)域發(fā)揮著重要作用,通過(guò)文本分割算法將長(zhǎng)文本分割成細(xì)粒度的短文本更易于挖掘文本的內(nèi)容信息.王忠義等[7]提出基于知識(shí)元的中文文本分割方法,該方法先對(duì)知識(shí)元的類(lèi)型及其描述規(guī)則進(jìn)行分析,然后將所有的知識(shí)元和知識(shí)元之間的銜接句視為一個(gè)類(lèi),最后使用分割算法對(duì)該類(lèi)進(jìn)行文本層級(jí)分割.王鵬等[8]提出了文本的分層分割方法,該方法通過(guò)計(jì)算文本內(nèi)容的間隔相似度,實(shí)現(xiàn)文本的分割.本文為了解決情感分類(lèi)過(guò)程中存在的缺乏評(píng)論延續(xù)性的問(wèn)題引入了追加評(píng)論,使用文本分割技術(shù)對(duì)用戶在不同時(shí)期的評(píng)論內(nèi)容按照“商品-客服-物流”的評(píng)論順序進(jìn)行分割重構(gòu),確保提取的原始評(píng)論和追加評(píng)論的情感特征按照上述三方面進(jìn)行精準(zhǔn)的融合,來(lái)獲取用戶更多的情感特征信息,提高用戶情感分類(lèi)的準(zhǔn)確性.

        1.3 用戶情感分類(lèi)

        用戶評(píng)論的情感分類(lèi)研究是近幾年來(lái)學(xué)術(shù)和業(yè)界以及應(yīng)用開(kāi)發(fā)領(lǐng)域的研究熱點(diǎn)與前沿領(lǐng)域之一.情感分類(lèi)的應(yīng)用可以將意見(jiàn)分類(lèi)為不同的情感,并總體上評(píng)估公眾的情緒,其分類(lèi)結(jié)果對(duì)于研究商品口碑、進(jìn)行商品推薦都具有重要的價(jià)值[9-11].隨著深度學(xué)習(xí)的興起,在進(jìn)行用戶情感分類(lèi)時(shí)使用深度學(xué)習(xí)方法可以融合多元評(píng)論信息,提高用戶情感分類(lèi)的準(zhǔn)確性.在眾多深度學(xué)習(xí)方法中,雙通道卷積神經(jīng)網(wǎng)絡(luò)方法得到較為廣泛的應(yīng)用,如周錦峰等[12]提出基于fcmpCNN模型的網(wǎng)絡(luò)文本情感多分類(lèi)標(biāo)注方法,該方法在池化的過(guò)程中使用全卷積—多池化單元的堆疊,充分提取文本語(yǔ)義;李平等[13]提出的基于雙通道卷積神經(jīng)網(wǎng)絡(luò)的文本情感分析方法,融合字向量進(jìn)行細(xì)粒度情感分析,充分挖掘出評(píng)論文本的情感信息;Liu等[14]提出基于MCCNN模型進(jìn)行評(píng)論情感分類(lèi),融合文本的拼音、字符以及單詞使用三通道CNN進(jìn)行情感分類(lèi).趙樂(lè)等[15]提出一種結(jié)合詞性特征、語(yǔ)法特征等,提取名詞、動(dòng)詞、形容詞、副詞等特征,然后運(yùn)用軟投票機(jī)制,結(jié)合隨機(jī)梯度下降算法、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等算法,對(duì)已獲取評(píng)論文本進(jìn)行極性二分類(lèi).Zhang等[16]提出的雙通道卷積記憶神經(jīng)網(wǎng)絡(luò)模型,將評(píng)論文本的詞向量和特征向量輸入雙通道卷積神經(jīng)網(wǎng)絡(luò)中,進(jìn)行情感分類(lèi).綜上分析,多通道CNN模型通過(guò)不同通道分析用戶不同方面的情感表述,進(jìn)而得到較為準(zhǔn)確的用戶情感特征向量用于情感分類(lèi).

        2 融合多元評(píng)論信息的用戶情感分類(lèi)

        考慮到評(píng)論中存在的虛假評(píng)論、默認(rèn)好評(píng)等因素影響對(duì)用戶真實(shí)情感的分類(lèi),本文提出融合多元評(píng)論信息的用戶情感分類(lèi)方法.首先,使用圖片分類(lèi)和文本分割技術(shù)對(duì)圖文數(shù)據(jù)集進(jìn)行預(yù)處理,過(guò)濾掉虛假評(píng)論重構(gòu)圖文數(shù)據(jù)集;其次,將處理后的數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,使用訓(xùn)練集對(duì)UECMIMCI用戶情感分類(lèi)模型進(jìn)行訓(xùn)練;最終通過(guò)測(cè)試集對(duì)模型進(jìn)行驗(yàn)證,得到正確的分類(lèi)結(jié)果.融合多元評(píng)論信息的用戶情感分類(lèi)方法的框架如圖1所示.

        圖1 融合多元評(píng)論信息的用戶情感分類(lèi)方法框架

        下面對(duì)所提方法的核心環(huán)節(jié):圖片分類(lèi)、文本分割、UECMIMCI用戶情感分類(lèi)模型的構(gòu)建加以詳述.

        2.1 圖片分類(lèi)

        如今的電商評(píng)論中主要存在兩個(gè)突出的問(wèn)題:一是由“刷單”引起的虛假評(píng)論現(xiàn)象十分常見(jiàn);二是用戶隨意打分、隨意評(píng)價(jià)評(píng)價(jià)造成評(píng)論數(shù)據(jù)的不準(zhǔn)確,嚴(yán)重影響用戶情感的準(zhǔn)確分類(lèi).這兩個(gè)問(wèn)題的共同特點(diǎn)為:用戶上傳的圖片或者是店鋪主頁(yè)商品的推廣圖片,或者是其他商品圖片.根據(jù)這一特點(diǎn)本文提出結(jié)合用戶上傳圖片識(shí)別虛假評(píng)論的方法,對(duì)評(píng)論信息中的圖片使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行二分類(lèi):第一類(lèi)是用戶收到購(gòu)買(mǎi)商品后拍攝的真實(shí)圖片;第二類(lèi)是虛假圖片,包括店鋪主頁(yè)商品的推廣圖片及其他商品圖片.按照分類(lèi)結(jié)果保留上傳第一類(lèi)圖片的用戶多元評(píng)論信息,以此來(lái)降低虛假評(píng)論、隨意評(píng)論現(xiàn)象對(duì)用戶情感分類(lèi)結(jié)果的影響,提高用戶情感分類(lèi)的準(zhǔn)確性.

        本文采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對(duì)上傳圖片進(jìn)行二分類(lèi),其中卷積核尺寸設(shè)置為3×3、4×4、5×5,利用不同規(guī)格的卷積核對(duì)上一層圖片進(jìn)行卷積操作,分別提取用戶收到商品后拍攝上傳的商品圖片、店鋪主頁(yè)商品的推廣圖片和其他商品圖片的多方面特征,實(shí)現(xiàn)圖片分類(lèi)器的訓(xùn)練;從未過(guò)濾虛假評(píng)論的圖文數(shù)據(jù)集中抽取圖片數(shù)據(jù)輸入到圖片分類(lèi)器中,按照提取到的圖片特征信息進(jìn)行圖片的分類(lèi),識(shí)別出真實(shí)圖片和虛假圖片;篩選出上傳虛假圖片的用戶,將該用戶的多元評(píng)論信息從的圖文數(shù)據(jù)集中刪除,使用余下真實(shí)評(píng)論用戶的多元評(píng)論信息重構(gòu)圖文數(shù)據(jù)集,為用戶情感分類(lèi)做準(zhǔn)備.圖片分類(lèi)模型如圖2所示.

        圖2 圖片分類(lèi)模型

        輸入層:將爬取到的評(píng)論上傳圖片、店鋪主頁(yè)商品的推廣圖片以及與其他商品圖片作為訓(xùn)練集輸入到CNN圖片分類(lèi)模型中.

        卷積層:按照不同尺寸的卷積核對(duì)圖片進(jìn)行特征的提取,如公式(1)所示.

        (1)

        其中,l代表所在層次;k代表卷積核;Mj為輸入的感受野;B為偏置項(xiàng);f為激活函數(shù).

        采樣層:采樣層可降低網(wǎng)絡(luò)的空間分辨率,消除偏移和圖像扭曲,實(shí)現(xiàn)位移不變性[17],如公式(2)所示.

        (2)

        其中,p代表采樣層;B代表權(quán)值系數(shù).

        輸出層:將上一層的特征向量進(jìn)行全連接,如公式(3)所示.

        (3)

        分類(lèi)器:采用softmax分類(lèi)器對(duì)輸出層得到的圖像特征進(jìn)行二分類(lèi),如公式(4)所示.

        (4)

        其中,W為卷積核;b為偏置項(xiàng).

        根據(jù)圖片分類(lèi)結(jié)果對(duì)抓取到的11 762個(gè)用戶的評(píng)論數(shù)據(jù)集進(jìn)行預(yù)處理,通過(guò)過(guò)濾上傳無(wú)關(guān)圖片以及主頁(yè)圖片的用戶評(píng)論進(jìn)行圖文數(shù)據(jù)集的重構(gòu),降低評(píng)論中虛假評(píng)論和隨意評(píng)論對(duì)用戶情感分類(lèi)結(jié)果的影響,最終得到10 819個(gè)用戶上傳的有效評(píng)論.過(guò)濾無(wú)關(guān)圖片對(duì)用戶情感分類(lèi)結(jié)果的影響如表1所示.

        表1 圖片分類(lèi)對(duì)UECMIMCI模型情感分類(lèi)準(zhǔn)確性的影響

        通過(guò)調(diào)整UECMIMCI模型中圖片和文本特征提取時(shí)卷積核的尺寸從多角度、多維度證明,使用過(guò)濾后的圖文評(píng)論數(shù)據(jù)集可提高UECMIMCI模型在用戶情感分類(lèi)的準(zhǔn)確率,可提升2%以上.

        2.2 文本分割

        在一條評(píng)論中往往包含了用戶對(duì)商品的不同方面的評(píng)價(jià),主要有對(duì)商品的體驗(yàn)、店家服務(wù)的態(tài)度、運(yùn)輸物流的評(píng)價(jià).對(duì)用戶評(píng)論文本進(jìn)行分割時(shí),首先,將評(píng)論文本內(nèi)容按照標(biāo)點(diǎn)進(jìn)行分割,且從中選出對(duì)上述三方面的中性評(píng)價(jià);其次,對(duì)分割的評(píng)論文本進(jìn)行增刪操作.若評(píng)論文本中不完全包含這三方面的評(píng)價(jià),用第一步選出的中性評(píng)價(jià)將每條評(píng)論按照這三方面補(bǔ)充完整.若評(píng)論內(nèi)容中存在對(duì)其他方面的評(píng)價(jià)信息,刪去與這三方面無(wú)關(guān)的評(píng)論內(nèi)容;最后,將處理后的評(píng)論文本按照“商品-客服-物流”的評(píng)論順序?qū)υu(píng)論文本重新組合,重構(gòu)評(píng)論文本示例如表2所示.

        表2 重構(gòu)評(píng)論文本示例

        2.3 UECMIMCI用戶情感分類(lèi)模型構(gòu)建

        構(gòu)建UECMIMCI用戶情感分類(lèi)模型,將經(jīng)過(guò)預(yù)處理的用戶圖文評(píng)論數(shù)據(jù)集,利用Word2vec工具[18]訓(xùn)練評(píng)論文本,獲取詞向量,作為訓(xùn)練集輸入到模型中.其中卷積層的大小是3、4、5,池化層采用最大池化突出最明顯的情感特征,同時(shí)在模型中添加dropout層,作用是在訓(xùn)練過(guò)程中隨機(jī)關(guān)閉一些神經(jīng)元,避免出現(xiàn)過(guò)擬合現(xiàn)象.為了將原始評(píng)論與追加評(píng)論、原始上傳圖片與追加上傳圖片的情感特征信息進(jìn)行合并,本文提出了特征融合層,在該層中按各部分對(duì)情感分類(lèi)的貢獻(xiàn)度將特征向量進(jìn)行合并.最后,將情感向量傳遞給Softmax分類(lèi)器進(jìn)行分類(lèi),得到評(píng)論對(duì)應(yīng)的情感類(lèi)別.

        本文提出的情感分類(lèi)模型最終將多元評(píng)論信息分為好、中、差三類(lèi)情感極性,UECMIMCI用戶情感分類(lèi)模型如圖3所示.

        輸入層:將經(jīng)過(guò)預(yù)處理的原始評(píng)論、原始上傳圖片、追加評(píng)論、追加上傳圖片輸入到UECMIMCI用戶情感分類(lèi)模型的四個(gè)通道中.

        卷積層:將輸入這四個(gè)通道的向量矩陣分別使用三個(gè)卷積核進(jìn)行局部特征提取,每個(gè)卷積核的卷積操作,如公式(5)所示.

        ci=relu(W*xi:i+h-1+b)

        (5)

        其中,W為卷積核;b為偏置項(xiàng),x為與卷積核大小相同的評(píng)論文本部分.

        池化層(采樣層):目的是提取經(jīng)卷積核得到的特征矩陣中情感表達(dá)最強(qiáng)烈的向量,在實(shí)驗(yàn)中采用max-pool的方法,如公式(6)所示.

        (6)

        全連接層:將上一層的結(jié)果進(jìn)行拼接,得到最終的特征向量,如公式(7)所示.

        (7)

        特征融合層:按照評(píng)論對(duì)情感分類(lèi)貢獻(xiàn)程度,將特征向量進(jìn)行合并,如公式(8)所示.

        x=αx1+βx2

        (8)

        其中,α、β之和為1,x1代表與原始評(píng)論相關(guān)的信息,x2代表與追加評(píng)論相關(guān)的信息.α、β取不同值對(duì)UECMIMCI用戶情感分類(lèi)模型準(zhǔn)確率的影響如表3所示.

        圖3 用戶情感分類(lèi)模型

        表3 參數(shù)與UECMIMCI用戶情感分類(lèi)準(zhǔn)確率的關(guān)系

        大量實(shí)驗(yàn)驗(yàn)證,原始評(píng)論文本與追加評(píng)論文本特征融合時(shí),α、β值分別為0.4、0.6;原始上傳圖片與追加上傳圖片進(jìn)行特征融合時(shí),α、β值分別為0.5、0.5;原始評(píng)論信息和追加評(píng)論信息進(jìn)行特征融合時(shí),α、β分別為0.4、0.6,實(shí)驗(yàn)效果最佳.

        情感分類(lèi)層:在圖片分類(lèi)完成后得到訓(xùn)練情感分類(lèi)器的圖文數(shù)據(jù)集,通過(guò)最小負(fù)對(duì)數(shù)似然函數(shù)調(diào)整參數(shù).通過(guò)模型去計(jì)算融合用戶原始評(píng)論、原始上傳圖片、追加評(píng)論、追加上傳圖片的情感特征向量,利用參數(shù)集合為θ的模型去計(jì)算該情感特征向量到每一個(gè)情感傾向的得分Si.通過(guò)Softmax分類(lèi)器來(lái)進(jìn)行最終的情感極性的劃分,后對(duì)劃分結(jié)果取對(duì)數(shù)用隨機(jī)梯度下降使似然函數(shù)最大化優(yōu)化分類(lèi)器,計(jì)算過(guò)程如公式(9)~(10)所示.

        (9)

        J(θ)=∑logp(yi|pi;θ)

        (10)

        其中,pi為UECMIMCI情感分類(lèi)模型的預(yù)測(cè)類(lèi)別,yi為實(shí)際類(lèi)別.

        3 融合多元評(píng)論信息的用戶情感分類(lèi)

        3.1 實(shí)驗(yàn)數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)中采用Python爬蟲(chóng)程序從京東網(wǎng)站爬取發(fā)表有關(guān)華為手機(jī)評(píng)論的用戶并將其上傳的所有評(píng)論信息作為數(shù)據(jù)集.共抓取11 762個(gè)用戶評(píng)論信息經(jīng)預(yù)處理和手工標(biāo)注后得到的手機(jī)評(píng)論數(shù)據(jù)集,如表4所示.

        本文利用基于Python語(yǔ)言的Tensorflow深度學(xué)習(xí)框架完成實(shí)驗(yàn).Tensorflow支持多種主流神經(jīng)網(wǎng)絡(luò)模型,包括 CNN、LSTM 等,本文具體實(shí)驗(yàn)環(huán)境為:操作系統(tǒng)為Windows 10,CPU為Inter(R)Core(TM)i5-4460 CPU @ 3.20 GHz.

        3.2 詞向量訓(xùn)練和模型參數(shù)設(shè)定

        本文利用Python然語(yǔ)言處理庫(kù)提供的結(jié)巴分詞技術(shù)進(jìn)行句子分詞處理.使用Google提供的開(kāi)源詞向量訓(xùn)練工具Word2vec中的skip-gram進(jìn)行詞向量的訓(xùn)練,其訓(xùn)練參數(shù)[18]設(shè)置如表5所示.

        表4 實(shí)驗(yàn)數(shù)據(jù)集

        表5 word2vec訓(xùn)練模型

        在數(shù)據(jù)集預(yù)處理中使用CNN對(duì)上傳圖片進(jìn)行分類(lèi)以識(shí)別虛假評(píng)論,為了獲得最佳的分類(lèi)效果,實(shí)驗(yàn)中選取不同尺寸的卷積核進(jìn)行實(shí)驗(yàn)對(duì)比,卷積核尺寸對(duì)圖片分類(lèi)的準(zhǔn)確率及分類(lèi)器訓(xùn)練耗時(shí)的影響如表6所示.

        從表6中可見(jiàn),卷積核尺寸越小圖片分類(lèi)準(zhǔn)確率越高,但分類(lèi)器訓(xùn)練耗時(shí)也越長(zhǎng).綜合考慮訓(xùn)練耗時(shí)及分類(lèi)準(zhǔn)確率兩個(gè)因素,本文選擇3*3,4*4,5*5的卷積核尺寸進(jìn)行圖片分類(lèi)器的訓(xùn)練及UECMIMCI情感分類(lèi)模型中圖片特征的提取.本文在提取評(píng)論文本情感特征時(shí)使用多通道卷積核對(duì)輸入向量進(jìn)行卷積操作,文本卷積核維數(shù)參照陳珂等[19]提出的模型參數(shù).而對(duì)于文本卷積核尺寸與迭代次數(shù)的選擇是通過(guò)實(shí)驗(yàn)分析得出最佳卷積核尺寸和迭代次數(shù).實(shí)驗(yàn)結(jié)果如表7、圖4所示.

        表6 圖片卷積核尺寸與圖片分類(lèi)準(zhǔn)確性及分類(lèi)器訓(xùn)練耗時(shí)的關(guān)系

        表7 文本卷積核尺寸與UECMIMCI模型確性及訓(xùn)練耗時(shí)的關(guān)系

        實(shí)驗(yàn)表明,綜合模型運(yùn)行的時(shí)間和準(zhǔn)確率考慮卷積核尺寸選為3,4,5時(shí),可使用戶情感分類(lèi)效果最佳.

        為了使UECMIMCI模型在用戶情感分類(lèi)時(shí)達(dá)到最好的分類(lèi)效果,在實(shí)驗(yàn)過(guò)程中設(shè)置UECMIMCI模型的最大迭代次數(shù)為300次.如圖4所示,在UECMIMCI模型迭代到250次時(shí),該模型對(duì)用戶情感分類(lèi)的準(zhǔn)確率值最佳為96.53%,在250次之后,模型的分類(lèi)準(zhǔn)確率略有下降,基本穩(wěn)定在96.41%.因此本文選擇250次作為UECMIMCI模型迭代次數(shù).

        圖4 UECMIMCI模型迭代次數(shù)和準(zhǔn)確率的關(guān)系

        圖5 UECMIMCI分類(lèi)方法多次實(shí)驗(yàn)誤差范圍情況

        綜合考慮上述所有因素進(jìn)行多組實(shí)驗(yàn),比較實(shí)驗(yàn)的誤差范圍,結(jié)果如圖5所示.圖5中實(shí)驗(yàn)1-4對(duì)表7中選擇的文本卷積核尺寸做對(duì)比試驗(yàn),結(jié)果顯示在文本卷積核維度是3、4、5時(shí),實(shí)驗(yàn)效果最佳.實(shí)驗(yàn)5-6,按照?qǐng)D片卷積核尺寸為3×3、4×4、5×5和文本卷積核尺寸為3、4、5以及迭代次數(shù)為250次條件下,重復(fù)實(shí)驗(yàn),準(zhǔn)確率基本一致,UECMIMCI模型穩(wěn)定可行有實(shí)際應(yīng)用價(jià)值.

        綜上分析,基于多元信息的多通道卷積神經(jīng)網(wǎng)絡(luò)模型超參數(shù)設(shè)置,如表8所示.

        表8 模型參數(shù)

        3.3 實(shí)驗(yàn)結(jié)果分析

        將本文提出的情感分類(lèi)方法UECMIMCI與fcmpCNN方法[12]、DCCNN方法[13]、MCCNN方法[14]、LSCNN方法[16]以及雙通道卷積記憶神經(jīng)網(wǎng)絡(luò)模型[20]在同一數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),其中,對(duì)比實(shí)驗(yàn)采用原始評(píng)論作為數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),下面給出對(duì)比方法簡(jiǎn)要描述:fcmpCNN模型采用全卷積—多池化單元的堆疊提取文本的語(yǔ)義,對(duì)網(wǎng)絡(luò)文本進(jìn)行情感多分類(lèi);DCCNN模型通過(guò)融合字向量的雙通道卷積神經(jīng)網(wǎng)絡(luò)對(duì)文本進(jìn)行情感分類(lèi);MCCNN模型結(jié)合文本的拼音、字符及單詞使用三通道CNN融合多種表征,進(jìn)行文本情感分類(lèi);LSCNN模型將文本情感矩陣以及詞向量輸入到雙通道CNN中進(jìn)行分類(lèi);雙通道CNN-LSTM模型將詞向量和情感詞典輸入雙通道卷積神經(jīng)網(wǎng)絡(luò)中,通過(guò)長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)合上下文進(jìn)行文本情感的分類(lèi).

        對(duì)比實(shí)驗(yàn)采用準(zhǔn)確率、精確率、召回率和F值作為評(píng)價(jià)指標(biāo).計(jì)算公式如公式(11)-(14)所示.

        (11)

        (12)

        (13)

        其中,TP為預(yù)測(cè)正確的好評(píng)數(shù)、FP為預(yù)測(cè)錯(cuò)誤的好評(píng)數(shù)、P表示預(yù)測(cè)為好評(píng)的評(píng)論數(shù)、FP將除好評(píng)外的其他類(lèi)別分為其他類(lèi)別、TN表示將好評(píng)誤分為其他類(lèi)別.

        (14)

        UECMIMCI模型及對(duì)比模型的準(zhǔn)確率如表9所示.

        表9 對(duì)比試驗(yàn)結(jié)果

        從上述圖表可以看出,UECMIMCI用戶情感分類(lèi)方法的準(zhǔn)確率為96.53%,高于其他對(duì)比方法.其中,DCCNN和MCCNN取得較低的準(zhǔn)確率,其原因是僅對(duì)文本按照不同的方式進(jìn)行分詞和輸入,忽略了虛假評(píng)論的存在對(duì)分類(lèi)結(jié)果的影響.fcmpCNN模型通過(guò)修改神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)來(lái)增強(qiáng)文本的語(yǔ)義進(jìn)行情感分類(lèi),沒(méi)有充分利用評(píng)論中其他信息達(dá)到提高用戶情感分類(lèi)準(zhǔn)確率的目的.LSCNN和雙通道CNN-LSTM模型準(zhǔn)確率達(dá)到91%和92%,由于二者均利用情感詞典來(lái)增強(qiáng)評(píng)論的情感特征表示,沒(méi)有考慮到追加評(píng)論的內(nèi)容有更強(qiáng)的情感色彩、更能反映出用戶的真實(shí)情感.而本文提出的UECMIMCI用戶情感分類(lèi)方法中先過(guò)濾掉虛假評(píng)論,后融合原始評(píng)論、原始追加評(píng)論、追加評(píng)論和追加上傳圖片的特征,使得UECMIMCI方法對(duì)用戶情感分類(lèi)性能明顯高于對(duì)比方法.

        4 實(shí)驗(yàn)分析

        為了解決評(píng)論中存在虛假評(píng)論、隨意評(píng)論等評(píng)論亂象對(duì)用戶情感分類(lèi)的影響、提高用戶情感分類(lèi)的準(zhǔn)確率,本文提出了一種融合多元評(píng)論信息的用戶情感分類(lèi)方法.該方法為了保證評(píng)論分類(lèi)的準(zhǔn)確性、減少虛假評(píng)論的干擾,分別對(duì)評(píng)論圖片分類(lèi)、評(píng)論文本分割進(jìn)行預(yù)處理操作,構(gòu)建過(guò)濾掉虛假評(píng)論的圖文數(shù)據(jù)集;之后將預(yù)處理后的圖文數(shù)據(jù)集分別輸入到原始評(píng)論、原始上傳圖片、追加評(píng)論和追加上傳圖片這四條通道中進(jìn)行卷積、池化提取圖文特征,最終將四條通道特征進(jìn)行融合來(lái)得到最優(yōu)質(zhì)的特征信息進(jìn)行情感分類(lèi).經(jīng)實(shí)驗(yàn)驗(yàn)證UECMIMCI用戶情感分類(lèi)方法的準(zhǔn)確率高于其他對(duì)比方法,取得了較好的分類(lèi)效果.

        猜你喜歡
        卷積分類(lèi)文本
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        分類(lèi)算一算
        在808DA上文本顯示的改善
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        分類(lèi)討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類(lèi)討論
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        教你一招:數(shù)的分類(lèi)
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        久久精品国产亚洲av成人无人区| 亚洲av无码男人的天堂在线| 国产精品多人p群无码| 丰满人妻被黑人中出849| 久久水蜜桃亚洲av无码精品麻豆| 亚洲国产精品二区三区| 一本大道道久久综合av| 69sex久久精品国产麻豆| 成人久久免费视频| 国产成人精品中文字幕| 亚洲午夜狼人综合影院| 中文字幕精品久久久久人妻红杏ⅰ| 热久久亚洲| 在线观看女同一区二区| 7194中文乱码一二三四芒果| 成人妇女免费播放久久久| 韩国一级成a人片在线观看| 日韩国产自拍视频在线观看| 国产一区二区精品久久岳| 国产70老熟女重口小伙子| 国产av无码专区亚洲草草| 久久99国产综合精品女同| 国产偷久久久精品专区| 91麻豆国产香蕉久久精品| 亚洲av天堂久久精品| 久久九九精品国产av| 国产在视频线精品视频| 精品福利一区| av网站不卡的av在线| 狠狠人妻久久久久久综合蜜桃| 亚洲天堂99| 中文字幕一区二区人妻在线不卡| 精品高朝久久久久9999| 国内老熟妇对白xxxxhd| 久久久久久无码AV成人影院| 人妻少妇艳情视频中文字幕| 亚洲综合激情五月丁香六月| 99久久久精品免费香蕉| 91久久大香伊蕉在人线国产| 医院人妻闷声隔着帘子被中出| 暖暖免费 高清 日本社区在线观看|