亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞向量和CNN的書籍評論情感分析方法

        2019-03-19 06:44:14李昊璇張華潔
        測試技術(shù)學(xué)報 2019年2期
        關(guān)鍵詞:語料庫書籍卷積

        李昊璇,張華潔

        (山西大學(xué) 物理電子工程學(xué)院,山西 太原 030006)

        0 引 言

        隨著互聯(lián)網(wǎng)和電子商務(wù)的發(fā)展,各種網(wǎng)站、 APP提供的商品種類及樣式越來越繁多,選擇在網(wǎng)上購物的人也越來越多[1].人們選擇網(wǎng)購不僅因為它方便快捷,而且也因為它更容易表達自己的喜好,并參考別人的意見做出自己的購買選擇.購買圖書是一種典型的網(wǎng)購行為.圖書購物網(wǎng)站例如“當(dāng)當(dāng)網(wǎng)”、 “亞馬遜”等擁有大量圖書、 大量用戶集及用戶評論,通常每本書的購買用戶評論在幾百條到百萬條量級之間,每條評論文本或長或短,都表達了用戶的喜好.所以本文選擇在圖書購物網(wǎng)站上獲取大量書籍評論文本,并對此加以處理和分析,繼而對評論文本的情感進行分類.

        文本情感分析是對帶有情感色彩的主觀性文本進行分析、 處理、 歸納和推理的過程,利用機器提取人們對某人或某事物的態(tài)度,從而發(fā)現(xiàn)潛在的問題用于改進或預(yù)測[2].書籍評論是用戶的主觀性評價,包括正面態(tài)度、 中立態(tài)度和負面態(tài)度.如何判斷用戶的態(tài)度,對文本中包含的情感進行分析,是當(dāng)前自然語言處理(Natural Language Processing,NLP)中的一個重要的研究方向.傳統(tǒng)的文本情感分析方法模型中的詞的表示是原始的、 面向字符串的[3].兩個語意相近的詞的字符串可能完全不同,這給自然語言處理和文本情感分析都帶來了挑戰(zhàn)——字符串本身無法儲存語意信息.而神經(jīng)概率語言模型中詞的表示是向量形式、 面向語義的.兩個語義相似的詞對應(yīng)的向量也是相似的,具體反映在夾角或距離上.甚至一些語義相似的二元詞組中的詞語對應(yīng)的向量做線性減法之后得到的向量依然是相似的.詞的向量表示可以顯著提高傳統(tǒng)NLP任務(wù)的性能.詞向量編碼方式為One-hot編碼和Word2Vec模型編碼,One-hot使用N位狀態(tài)寄存器來對N個狀態(tài)進行編碼,每個狀態(tài)都有它獨立的寄存器位,并且在任意時候,其中只有一位有效的詞匯表大小為N.One-hot編碼方法得到的特征是離散稀疏的,這樣對于中文語句的詞向量計算來說會造成維度災(zāi)難.而Word2Vec得到的詞的向量形式則可以自由控制維度,一般是100維[4].本文選擇Word2Vec模型訓(xùn)練得到詞向量.

        本文提出一種基于詞向量[5]和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[6]的自然語言處理方法,解決了對文本情感的分類問題.本文通過生成語料庫及構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)模型對詞向量進行訓(xùn)練,較好地提高了文本分類的準(zhǔn)確率.

        本文的文本情感分類方法如圖 1 所示.

        該圖分為3個模塊,分別是:

        1) 生成語料庫: 這個模塊由獲取文本、 文本分詞和詞向量訓(xùn)練組成.通過在圖書購物網(wǎng)站使用Python爬蟲技術(shù)得到書籍評論文本數(shù)據(jù).評論文本直接表達了用戶對書籍的喜好.通過jieba分詞技術(shù)實現(xiàn)分詞[7],本文使用jieba分詞模式中的精確模式,將句子最精確地切開,該模式適合文本分析.詞向量訓(xùn)練通過Word2Vec模型實現(xiàn),本文使用Word2Vec模型中的Skip-Gram模型對分詞后的文本進行訓(xùn)練,該模型用中心詞預(yù)測周圍詞,考慮文本的上下文關(guān)系和詞頻,對于出現(xiàn)頻率低的詞學(xué)習(xí)效果也較好,很好地提高了書籍評論情感分析系統(tǒng)的準(zhǔn)確率.生成語料庫模塊輸出一個評論高頻詞的詞向量詞典,詞典中一個詞語對應(yīng)著一個詞向量.

        2)文本預(yù)處理: 這個模塊實現(xiàn)了構(gòu)建評論向量.評論文本數(shù)據(jù)同樣由爬蟲技術(shù)[8]得到,評論文本包括評論內(nèi)容和評論分數(shù)兩部分.在本文中以評論分數(shù)來生成用戶喜好標(biāo)簽: 分數(shù)10分記為1,為好評; 小于等于2分記為-1,為差評; 其余的評分記為0,為中評.本文構(gòu)成語料庫的好評、 差評、 中評的比例類似于網(wǎng)站上的數(shù)據(jù)比,為6∶1∶3.文本由jieba分詞,再將每條評論中的每個詞在詞典中找到對應(yīng)的詞向量,再把詞向量按文本順序拼裝起來,生成評論的詞向量矩陣.本部分輸出評論文本向量,即帶著用戶喜好標(biāo)簽的詞向量矩陣.

        3) 情感分類器: 本模塊實現(xiàn)對評論向量的分類,根據(jù)用戶喜好標(biāo)簽將評論向量分為3類,分別對應(yīng)著好評、 差評和中評.情感分類器由卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn),使用80%的評論向量作為訓(xùn)練集對卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,20%的評論向量作為測試集對模型的分類能力進行測試.

        1 基于詞向量的預(yù)處理

        對自然語言進行情感分析,是當(dāng)前自然語言處理的一個熱點方向[9].傳統(tǒng)處理辦法存在兩點問題: 其一,國內(nèi)中文語料庫多為日常生活詞語集、 古漢語集、 詩詞書籍內(nèi)容詞語集,詞語集內(nèi)容寬泛,詞語數(shù)量多,對某一領(lǐng)域沒有針對性,尤其是對于本文研究的書籍評論沒有很好的針對性,造成訓(xùn)練時間長而準(zhǔn)確性不高的問題.其二,傳統(tǒng)方法一般會使用到兩種特征: 詞袋模型(Bag of Words,BoW)和N元模型(n-gram).BoW忽略了詞序,只是單純對詞計數(shù),忽略了文本的上下文關(guān)系; n-gram則是考慮到了詞序,但是需要相當(dāng)規(guī)模的訓(xùn)練文本來確定模型的參數(shù),并且n-gram模型是根據(jù)相互之間沒有任何遺傳屬性的離散單元詞構(gòu)建的,從而不具備連續(xù)空間中的詞向量所滿足的語義上的優(yōu)勢,只有在已知關(guān)鍵詞權(quán)重非常大的情況下,n-gram才會展現(xiàn)出自己的優(yōu)勢[9,10].

        本文針對以上兩點問題進行改進: 使用書籍評論文本訓(xùn)練詞向量構(gòu)建語料庫,很好地解決了現(xiàn)有語料庫對書籍評論針對性不強的問題,減少了訓(xùn)練時長,提高了書籍評論情感分析的準(zhǔn)確率; 本文使用Word2Vec中的Skip-Gram模型作為生成詞向量的算法,通過中心詞預(yù)測周圍詞,考慮文本的上下文關(guān)系和詞頻,能夠很好地提高書籍評論情感分析系統(tǒng)的準(zhǔn)確率.

        本文中的詞向量分為兩個部分,分別是構(gòu)成語料庫詞典的詞向量集和評論向量(即情感分類神經(jīng)網(wǎng)絡(luò)的輸入詞向量).兩部分詞向量的生成方法不同,前者是由書籍評論文本通過Skip-Gram模型訓(xùn)練生成,后者是通過前者的詞典生成.

        1.1 語料庫

        由于現(xiàn)有的相關(guān)中文語料庫非常有限[11],語料庫中的詞語范圍寬泛,對書籍評論情感分析的針對性不強,存在訓(xùn)練時間長但結(jié)果不夠準(zhǔn)確等問題.為了更好地開展文本情感分析的研究,本文選擇訓(xùn)練生成語料庫.本文生成語料庫的文本,通過爬蟲技術(shù)獲取對圖書購物網(wǎng)站的書籍評論,jieba分詞得到評論的詞語集.詞語集經(jīng)過Word2vec中的Skip-Gram模型訓(xùn)練,選擇其中高頻詞的詞向量,構(gòu)建成一個書籍評論的語料庫.該語料庫對書籍評論情感分析問題的針對性強,很好地解決了現(xiàn)有中文語料庫存在的問題.

        現(xiàn)有中文語料庫和本文語料庫得到的文本評論分析訓(xùn)練情況在本文的第3小節(jié)有所對比.

        1.2 詞向量

        Word2Vec模型主要有Skip-Gram和CBOW兩種語言模型.本文通過Word2Vec模型中的Skip-Gram生成詞向量.

        Skip-Gram模型是一種根據(jù)一個詞語來預(yù)測上下文詞語出現(xiàn)概率的語言模型,其網(wǎng)絡(luò)結(jié)構(gòu)圖如圖 2 所示.

        圖 2 Skip-Gram模型網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Network structure diagram of Skip-Gram model

        圖 2 中:w(t)代表當(dāng)前詞語位于句子的位置t,同理定義其他記號.在窗口內(nèi)(本文的窗口大小為5),除了當(dāng)前詞語之外的其他詞語共同構(gòu)成上下文.從圖 2 中可以看出,對于這個模型,輸入層是語料庫中任意一個詞w,投影層將輸入層的詞向量傳遞給輸出層,輸出層輸出最可能的上下文詞向量[12].

        Skip-Gram模型的優(yōu)化目標(biāo)是

        (u|?),

        (1)

        其中,

        p(u|?)=

        [σ(v(?)Tθu)]Lω(u)[1-σ(ν(?)Tθu]1-Lω(u).

        (2)

        最終目標(biāo)函數(shù)為

        (ω,?,u),

        (3)

        其中,

        Γ(ω,?,u)=Γω(u)log[σ(ν(?)TθU]+

        [1-Γω(u)]log[1-σ(ν(?)TθU)].

        (4)

        分別求出梯度后,得到更新方法為

        θu+=η[Γω(u)-1-σ(ν(?)Tθu)ν(?)],

        (5)

        ν(?)∶=ν(?)+

        (6)

        通過這種訓(xùn)練方法得到的詞向量形如: “好評: [ 1.411 379 1-0.287 171 93 -4.223 255-1.833 177 4 3.616 365 7-0.504 491 15 0.042 088 93 0.034 972 72 0.872 664 87…]”.詞向量的形式為鍵值對,一個詞語文本對應(yīng)著一個詞向量矩陣.語料庫中的每個詞都對應(yīng)一個N維的詞向量.選擇高頻詞對應(yīng)的詞向量作為語料庫的詞典.

        1.3 評論向量

        評論向量作為情感分析神經(jīng)網(wǎng)絡(luò)的輸入詞向量,由詞向量詞典生成.詞向量詞典包括了高頻、 常見的書籍評論詞語,所以書籍評論中的大部分文本向量都可以在其中找到,某些低頻詞在詞典中找不到則將對應(yīng)的詞向量記為0,最后生成的評論向量形式為鍵值對,一個帶用戶喜好標(biāo)簽的文本句子對應(yīng)著一個詞向量矩陣.例如: “( 這本書很好, 1 ): ( [ 1.411 379 1-0.287 171 93 -4.223 255-1.833 177 4 3.616 365 7-0.504 491 15 0.042 088 93 0.034 972 72 0.872 664 87…] , [1.231 379 1-0.213 311 93 -3.223 255-0.823 177 4 1.616 323 7-0.504 491 15 0.042 088 93 0.034 972 72 0.872 664 87…] , … )”.

        2 情感分類器

        本文通過TensorFlow深度學(xué)習(xí)框架[13]用1D卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)情感分類器.TensorFlow是一個開源軟件庫,用于各種感知和語言理解任務(wù)的機器學(xué)習(xí),很適合用來進行大規(guī)模的數(shù)值計算,其中也包括實現(xiàn)和訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型.卷積神經(jīng)網(wǎng)絡(luò)在語音處理、 圖像識別等領(lǐng)域上有著突出貢獻.近年來,人們把越來越多的目光投入到卷積神經(jīng)網(wǎng)絡(luò)在自然語言上的處理.

        2.1 TensorFlow深度學(xué)習(xí)框架及Keras

        本文以TensorFlow深度學(xué)習(xí)框架作為生成卷積神經(jīng)網(wǎng)絡(luò)的后端庫,以Keras作為前端具體實現(xiàn)搭建和訓(xùn)練模型[14].TensorFlow是一個開放源代碼軟件庫,用于進行高性能數(shù)值計算,可為機器學(xué)習(xí)和深度學(xué)習(xí)提供強力支持,并且其靈活的數(shù)值計算核心廣泛應(yīng)用于許多其他科學(xué)領(lǐng)域.在本文使用該框架可以實現(xiàn)快速靈活地構(gòu)建訓(xùn)練模型.

        2.2 卷積神經(jīng)網(wǎng)絡(luò)

        卷積神經(jīng)網(wǎng)絡(luò)是一種前饋神經(jīng)網(wǎng)絡(luò),它的人工神經(jīng)元可以響應(yīng)一部分覆蓋范圍內(nèi)的周圍單元.卷積神經(jīng)網(wǎng)絡(luò)由一個或者多個卷積層和頂層的全連通層組成,同時也包括關(guān)聯(lián)權(quán)值和比重.這一結(jié)構(gòu)使得卷積神經(jīng)網(wǎng)絡(luò)能夠利用輸入數(shù)據(jù)的二維結(jié)構(gòu).與其他深度學(xué)習(xí)結(jié)構(gòu)相比,卷積神經(jīng)網(wǎng)絡(luò)在圖像和語音識別方面能夠給出更好的結(jié)果.近年來也在自然語言處理上有著很好發(fā)展[15].

        2.3 情感分類器的構(gòu)建

        如圖 3 所示,本文將詞向量矩陣層作為情感分類器的輸入層,經(jīng)過卷積、 池化層后進入全連接層,Softmax層,最后輸出分類結(jié)果.該模型訓(xùn)練迭代10輪后,得到情感分類器的卷積神經(jīng)網(wǎng)絡(luò)模型.其中,卷積、 池化層由3個1D卷積層和最大池化層線性組合構(gòu)成.卷積、 池化層的結(jié)構(gòu)如圖 4 所示.

        圖 3 情感分類器的結(jié)構(gòu)圖Fig.3 Structure diagram of sentiment classifier

        輸入層為詞向量矩陣層.詞向量為n*N形式,n為矩陣的長度,N維為每個向量的長度,本文將N設(shè)定為100,200,300和400進行對比實驗,維度的設(shè)定對情感分類器結(jié)果精確度的影響在第3小節(jié)里有所對比.第二層是卷積、 池化層,卷積層為1D卷積層,卷積核的數(shù)目即輸出維度為128,卷積核的窗口長度為5,輸出(5,128)的二維張量.池化層為最大池化層,池化窗口為5,卷積、 池化層交替組合3次后,再線性融合輸入全連接層,全連接層的輸出維度為128,激活函數(shù)為tanh,輸出的張量進入Softmax層,輸出維度為labels_index,在本文中按照用戶喜好分為3類,分別是好評1,中評0和差評-1.模型進行編譯和訓(xùn)練,訓(xùn)練模型10輪后輸出模型的結(jié)果和精確度.本模型的評估指標(biāo)使用經(jīng)典算法accuracy.

        圖 4 卷積+池化層結(jié)構(gòu)圖Fig.4 Diagram of convolution + pool layer

        3 實驗與結(jié)果分析

        3.1 語料庫的選擇和對比

        如表 1 所示,通過對比現(xiàn)有語料庫和本文生成的語料庫的訓(xùn)練情況,可知本文生成的語料庫的訓(xùn)練結(jié)果明顯高于現(xiàn)有語料庫.這是由于本文生成的語料庫對書籍評論情感分析問題的針對性強,提高了訓(xùn)練結(jié)果的準(zhǔn)確率.

        表 1 語料庫的準(zhǔn)確率對比

        3.2 詞向量的維度

        Word2Vec的詞向量維度一般在100維左右,所以本文從100維開始實驗,分別對比了100、 200、 300和400維詞向量訓(xùn)練結(jié)果的準(zhǔn)確率.實驗結(jié)果表明,300維的詞向量訓(xùn)練結(jié)果較好于其他結(jié)果.如表 2 所示,對比了不同詞向量維度和評論數(shù)據(jù)集大小的訓(xùn)練情況.100維的詞向量存在訓(xùn)練結(jié)果欠擬合的情況,而維度較大(400維)的詞向量會出現(xiàn)過擬合的情況.

        表 2 詞向量維度和訓(xùn)練文本個數(shù)的準(zhǔn)確率對比

        評論數(shù)據(jù)集大小分別對比了8萬、 10萬和13萬的情況,數(shù)據(jù)集數(shù)量為10萬時訓(xùn)練結(jié)果較好于其他情況.數(shù)據(jù)集數(shù)量為8萬時因數(shù)據(jù)集較少而出現(xiàn)欠擬合的情況,數(shù)據(jù)集數(shù)量為13萬時因數(shù)據(jù)量過大而出現(xiàn)過擬合,準(zhǔn)確率降低.

        300維10萬數(shù)據(jù)集的訓(xùn)練結(jié)果如圖 5 和圖 6 所示,橫坐標(biāo)表示迭代次數(shù),縱坐標(biāo)分別表示訓(xùn)練的準(zhǔn)確率和丟棄率.迭代10次時,準(zhǔn)確率可以達到92.99%,丟棄率收斂為16.83%.

        圖 5 準(zhǔn)確率Fig.5 Accuracy rate

        圖 6 丟棄率Fig.6 Loss rate

        4 結(jié) 論

        本文提出了一種基于詞向量預(yù)處理和1D卷積神經(jīng)網(wǎng)絡(luò)的文本情感分類方法.通過實驗,確定了構(gòu)建針對性強的語料庫對訓(xùn)練結(jié)果有明顯的提升.詞向量維度為300維時訓(xùn)練準(zhǔn)確率到達最高值.并且該方法同時適用于長文本、 短文本和混合文本.綜合以上幾個方面,本文訓(xùn)練的準(zhǔn)確率到達了 92.99%,較好于現(xiàn)有的語料庫和方法.

        在互聯(lián)網(wǎng)飛速發(fā)展的時代,未來的文本數(shù)據(jù)量將爆炸性的增長.本文研究的只是自然語言處理中眾多類問題其中的一類小問題.在下一步的研究工作中,擬解決以下問題:

        1) 由于分詞技術(shù)不是本文研究的重點,因此本文中用到的分詞技術(shù)為jieba分詞,沒有對其進行優(yōu)化.如果可以依據(jù)不同領(lǐng)域的專業(yè)詞進行劃分,將得到更好的分詞效果.這也是本文之后需要進一步研究的方向.

        2) 語料庫中的詞向量可以進一步優(yōu)化,可以針對語料庫中詞向量的維度、 情感評論的占比等因素進行實驗.

        3) 相比于傳統(tǒng)的機器學(xué)習(xí)算法,深度學(xué)習(xí)有著更有效的訓(xùn)練結(jié)果,如何將這一優(yōu)勢應(yīng)用到更多的領(lǐng)域,在更多的場景中發(fā)揮其優(yōu)勢也是本文之后的研究方向.

        猜你喜歡
        語料庫書籍卷積
        魯迅與“書籍代購”
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        《語料庫翻譯文體學(xué)》評介
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        AOS在書籍編寫的應(yīng)用
        書籍
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        把課文的優(yōu)美表達存進語料庫
        書籍是如何改變我們的
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        国产欧美另类精品久久久| 亚洲av综合色区| 久久久受www免费人成| 天堂网www资源在线| 亚洲美国产亚洲av| 黄色大片一区二区中文字幕| 国产一区二区三区尤物| 色与欲影视天天看综合网| 免费视频爱爱太爽了| 亚欧AV无码乱码在线观看性色 | 日本人妻精品有码字幕| 日本免费大片一区二区| 老色鬼在线精品视频| 2019最新国产不卡a| 欧美视频第一页| 亚洲色图在线视频观看| 国产桃色精品网站| 91伊人久久| 国产一区二区三区亚洲精品| 中国黄色一区二区三区四区| 国产无遮挡又爽又刺激的视频老师 | 嗯啊 不要 啊啊在线日韩a| 美女免费观看一区二区三区| 精品国产一区二区三区av| 日本又色又爽又黄的a片18禁| 成人做爰69片免费看网站| 无码高潮少妇毛多水多水免费| 蜜桃视频一区二区三区| 无码精品人妻一区二区三区漫画| 精品国产av最大网站| 精品国产91天堂嫩模在线观看 | 亚洲精品岛国av一区二区| 亚洲欧美日韩成人高清在线一区| 78成人精品电影在线播放| 午夜在线观看一区二区三区四区| 欧美日韩在线视频| 成熟人妻av无码专区| 亚洲一级无码AV毛片久久 | 欧美牲交a欧美牲交aⅴ| 少妇的丰满3中文字幕| 久久国产精品99精品国产987|