亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于情感分析的文本檢索系統(tǒng)的研究

        2019-12-23 07:16:37黃麗娟周海
        科技創(chuàng)新與應(yīng)用 2019年36期

        黃麗娟 周海

        摘? 要:針對目前文本挖掘的情感分析方法的準(zhǔn)確性、實(shí)時(shí)性、提取等問題,構(gòu)造一種神經(jīng)網(wǎng)絡(luò)混合模式,使用記憶神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)對文本特性的提取,再利用情感分析方法進(jìn)行挖掘。實(shí)驗(yàn)表明對文本挖掘的準(zhǔn)確性提高了,這種模式在應(yīng)用中有很大的實(shí)用性。

        關(guān)鍵詞:情感分析;神經(jīng)網(wǎng)絡(luò);語義特性

        中圖分類號:TP389.1? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? ? ?文章編號:2095-2945(2019)36-0058-02

        Abstract: In order to solve the problems of accuracy, real-time and extraction of emotion analysis methods in text mining, a hybrid model of neural network is constructed, and memory neural network and convolution neural network are used to extract text characteristics. And then use the method of emotional analysis to carry out mining. The experimental results show that the accuracy of text mining is improved, and this pattern is very practical in application.

        Keywords: emotional analysis; neural network; semantic characteristics

        近年來,伴隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,電商平臺(tái)上的消費(fèi)者對商品評論,怎樣對它進(jìn)行分析和挖掘,并將挖掘出的信息應(yīng)用到銷售,已經(jīng)成為文本的情感分析的研究重點(diǎn)方向。

        情感分析可以從統(tǒng)計(jì)學(xué),機(jī)器學(xué)和神經(jīng)網(wǎng)絡(luò)三種方法進(jìn)行情感分析。統(tǒng)計(jì)學(xué)通過對短語進(jìn)行標(biāo)示,再用情感詞庫計(jì)算關(guān)鍵字的情感分?jǐn)?shù),然后加起來,得出情感得分。常用的情感詞典有很多,都取得較好的效果,提高了文本情感分析的準(zhǔn)確性,但是,情感詞庫的規(guī)模和文本情感分析的準(zhǔn)確性聯(lián)系密切,使模型的實(shí)時(shí)性不高。機(jī)器學(xué)習(xí)通過構(gòu)建結(jié)構(gòu)化的文本特點(diǎn),進(jìn)行情感分析,都取得不錯(cuò)的效果,但是實(shí)時(shí)性很差。神經(jīng)網(wǎng)絡(luò)通過詞向量模型將文本轉(zhuǎn)成了實(shí)數(shù)向量,然后通過學(xué)習(xí)詞向量特性得到文本的情感分?jǐn)?shù)。單個(gè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行文本情感分析都取到很顯著的效果,但都未集中思考文本信息和語義特點(diǎn)對情感分析的作用。這三種情感分析方法各有優(yōu)缺點(diǎn)。統(tǒng)計(jì)學(xué)的方法:用情感詞庫統(tǒng)計(jì)情感得分,提高了文本的情感分析的準(zhǔn)確性,但情感分析的文本的準(zhǔn)確性和情感詞庫規(guī)模的關(guān)聯(lián)很大,實(shí)時(shí)性差。機(jī)器學(xué)習(xí)的方法:用人工標(biāo)示的方式來構(gòu)建文本特點(diǎn),能夠提升文本情感分析的準(zhǔn)確性,但需要比較多的人工構(gòu)造特性,實(shí)時(shí)性差,效率低。神經(jīng)網(wǎng)絡(luò)的方法:在文本詞匯中自動(dòng)提取語義特性,但是,使用一種神經(jīng)網(wǎng)絡(luò)模型提取特性,只能提取一種信息或特點(diǎn)。綜上所言,據(jù)于現(xiàn)在的文本情感分析方法,很難適應(yīng)互聯(lián)網(wǎng)的大規(guī)模的文本,也不能解決文本信息和語義特性的提取的同時(shí)性等問題,提出一種串行的文本情感分析方法,基于卷積神經(jīng)網(wǎng)絡(luò)和長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)。(1)需要通過長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)提取全部文本特性,兼顧自然語言的前前后后的語義信息。(2)通過卷積神經(jīng)網(wǎng)絡(luò)提取局部文本特點(diǎn),因此提升文本情感分析的準(zhǔn)確性。

        長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)串行模型分為數(shù)據(jù)處理、文本向量化、提取特性、情感分類。

        數(shù)據(jù)處理主要處理文本里的數(shù)據(jù)去掉符號,留下有價(jià)值的文本,使用中文分詞組件進(jìn)行分割詞語,使用停用詞表把噪聲數(shù)據(jù)去除,把文本數(shù)據(jù)里的標(biāo)簽轉(zhuǎn)化為數(shù)字,1表示為正面情感,0表示為負(fù)面情感。因?yàn)樗械倪@些評論的內(nèi)容文本都是由不一樣的用戶抒發(fā)而寫出來的,很自由的形式,千變?nèi)f化,語法格式不同,模式不同,并且評論的文本既包含有語義信息,又包括有其他的噪聲的大量數(shù)據(jù)。為了讓噪聲數(shù)據(jù)對文本情感分析的影響不大,需要進(jìn)行以上的預(yù)處理的操作。

        文本向量化可以采用詞向量組件Wdord2Vec的詞袋模型或者是跳字模型,經(jīng)過多次訓(xùn)練,選出效果顯著的模型,通過比較分析,本次工作選用Word2Vec的跳字模型進(jìn)行文本向量化,預(yù)測效果比較好,模型泛化能力比較強(qiáng)。由于大量的評論是由用戶自由地有感而發(fā)出來的,沒有統(tǒng)一結(jié)構(gòu)的語法和模式結(jié)構(gòu),都是一些非結(jié)構(gòu)化的特性,所以不能使用現(xiàn)有的模型(統(tǒng)計(jì)模型和數(shù)字模型)來進(jìn)行數(shù)據(jù)分析與處理。

        假設(shè)評價(jià)文本M={M(1),M(2),M(3),…,M(n)},以第j個(gè)詞語為中心詞語進(jìn)行操作詞匯文本向量化,寫為(V(M(j),Context((M(j))),以上的其中V(M(j)為評價(jià)文本M中心詞M(j)的詞向量,Context(M(j))為w(j)的評價(jià)上下文詞向量。使用Skip-gram模型的鍵入、投映和輸出三層結(jié)構(gòu)來進(jìn)行詞匯文本向量化轉(zhuǎn)化,評價(jià)文本M的第j個(gè)詞M(j)為中心詞,輸入層作為中心詞M(j)的第一個(gè)詞向量V(M(j)),經(jīng)過從輸入層然后到投影層都是恒等投影,即用V(M(j)投影到V((j));投影層再到輸出層。然后根據(jù)以下公式計(jì)算M(j)的全部文本詞匯向量。

        P(V(M(i)) I V (M(t)))

        其中:V(M(i)) ε Context(M) ; t為中心詞號碼;i為中心詞上下文詞匯和中心詞的范圍。從第一個(gè)根節(jié)點(diǎn)開始,投影層的值沿著霍夫曼編碼樹進(jìn)行邏輯回歸進(jìn)行分類,輸出M(j)的周圍第2n個(gè)全部上下文詞匯文本的詞向量。例如,如果n取4,那中心詞w(t)的前面兩個(gè)詞為M(j-4)},M(j-3),后兩個(gè)詞為M(j+3),M(j+4),它們對應(yīng)的詞向量為V(M(j-4)),V(M(j-3)),V(M(j+3)),V(M(j+4)),也就是Context(M)={V(w)={V(M(j-4)),V(M(j-3)),V(M(j+3)),V(M(j+4))}。

        提取文本信息采用長短時(shí)記憶網(wǎng)絡(luò)能夠?qū)ξ谋菊Z義信息的挖掘,能夠準(zhǔn)確挖掘文本語義。所有用戶書寫的評論是一種自然語言的表現(xiàn)方式,是自由的形式,但結(jié)構(gòu)在全文中會(huì)有依賴關(guān)系。根據(jù)文本的上下文信息,理解文本語義更加準(zhǔn)確。典型的神經(jīng)網(wǎng)絡(luò)能挖掘出文本的上下文語義信息和時(shí)序信息。長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型的門的計(jì)算如下式:

        ft=σ(Wf·[ht-1,xt]+bf)

        it=σ(Wi·[ht-1,xt]+bi)

        Ot=σ(Wo·[ht-1,xt]+bo)

        Ct=tanh(Wc·【ht-1,xt】+bc)

        其中:Wf表示連接遺忘的權(quán)重矩陣;Wo表示連接輸出門的權(quán)重矩陣;Wi表示連接輸入門的權(quán)重矩陣;bf表示輸遺忘門的偏移值;bo表示輸出門的偏移值;bi表示連接入門的偏移值;×表示兩個(gè)矩陣元素的相乘。

        雖然長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)解決了長期依賴和梯度消失問題,但是長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)只能訓(xùn)練文本的上文數(shù)據(jù),而不能文本的下文數(shù)據(jù)信息。因?yàn)橐粋€(gè)詞的語義既和文本的上文數(shù)據(jù)信息有關(guān),還和文本的下文數(shù)據(jù)信息密切聯(lián)系,所以利用雙向循環(huán)長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)代替長短時(shí)記憶神經(jīng)網(wǎng)絡(luò),整合下文信息。雙向循環(huán)長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型是由兩個(gè)長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)通過上下疊加整合構(gòu)成。在雙向循環(huán)長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型中,每一個(gè)時(shí)間點(diǎn)都會(huì)同時(shí)存在方向不同的兩個(gè)長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)中的門。其中,ht表示t時(shí)刻的長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的正向輸出;hv表示t時(shí)刻的長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的反向輸出;ht表示t時(shí)刻的雙向循環(huán)長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的輸出。Xt表示t時(shí)刻的輸入。雙向循環(huán)長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型中每一個(gè)時(shí)刻狀態(tài)計(jì)算如下式所示。

        Ht=LSTM(xt,ht-1)

        Hv=LSTM(xt,ht-1)

        Ht=Mtht+vthv+bt

        其中,Mt表示正方向輸出的權(quán)重矩陣;Vt表示反方向輸出的權(quán)重矩陣;bt表示t時(shí)刻的偏移量?;陔p向循環(huán)長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的語言模型結(jié)構(gòu),其中,V(M(i))表示第i個(gè)評價(jià)文本詞匯的詞向量,1<_i<_n。假設(shè)評價(jià)文本W(wǎng)={M(1),M(2),M(3),…,M(n)},首先將評價(jià)文本M中的詞(i)使用詞向量組件Word2Vec轉(zhuǎn)化為對應(yīng)的詞向量V(M(i)),并將詞M(i)組成的文本句子映射成為文本句子矩陣Sij,其中Sij={V M(1),VM(2),VM(3),…,V(M(i))},1

        提取局部語義特性采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行提取文本的局部語義特性。提取文本情感特性流程包括輸入層和嵌入層,輸入層主要將處理好的預(yù)處理的評論文本進(jìn)行向量化的轉(zhuǎn)化。嵌入層主要是將詞向量進(jìn)行拼合連接,生成向量的矩陣。然后用濾波器提取局部語義特性,再對不同的卷積提取的語義特性進(jìn)行集中提取,再進(jìn)行連接。然后通過輸出層的函數(shù)方法softmax進(jìn)行計(jì)算每個(gè)類別的概率來進(jìn)行文本情感的分類。分類公式如下所示。

        yi=soft max (Midijt+bi)

        其中:Mi表示Dense_RANK到輸出層的權(quán)重矩陣;bi表示相應(yīng)的偏移值;dijt表示在t時(shí)刻Dense_RANK的輸出向量。

        通過這種模型的分析,結(jié)果顯示出采用長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)串行模型首先提取全部文本特性再提取局部文本特性,再進(jìn)行文本性感分析全部和局部特點(diǎn),得出較理想的結(jié)果。

        參考文獻(xiàn):

        [1]聶瓊.淺談遺傳算法與人工神經(jīng)網(wǎng)絡(luò)的結(jié)合[J].輕紡工業(yè)與技術(shù),2012,41(06):35-37.

        [2]曾瑜民.探討神經(jīng)網(wǎng)絡(luò)算法在人工智能識(shí)別中的應(yīng)用[J].信息通信,2019(07):104-105.

        [3]趙宏,王樂,王偉杰.基于BiLSTM_CNN串行混合模型的文本情感分析[J].計(jì)算機(jī)應(yīng)用,2019:1-9.

        亚洲男人天堂2017| 国产成人av一区二区三区不卡| 无遮挡十八禁在线视频国产制服网站| 亚洲乱亚洲乱妇| 极品粉嫩嫩模大尺度视频在线播放| 无码天堂亚洲国产av麻豆| 免费人成再在线观看视频| 日本av一级片免费看| 99久久精品国产亚洲av天| 欧美性群另类交| 日本一二三区视频在线| 日本一区二区三区爱爱视频| 久久老子午夜精品无码| 亚洲男人的天堂在线播放| 亚洲精品无码精品mv在线观看| 日韩男女av中文字幕| 久久99国产亚洲高清| 久热综合在线亚洲精品| 精品国产天堂综合一区在线| 白色白在线观看免费2| 偷拍区亚洲区一区二区| 国产精品久久久久国产a级| 欧美乱大交xxxxx潮喷| 在线观看视频免费播放| 成人午夜视频在线观看高清| 国内精品久久久影院| 樱桃视频影视在线观看免费| 美腿丝袜诱惑一区二区| 手机免费在线观看日韩av| 免费国产黄片视频在线观看| 综合久久给合久久狠狠狠97色| av鲁丝一区鲁丝二区鲁丝三区| 亚洲精品久久区二区三区蜜桃臀| 最新国产主播一区二区| 精品国产亚洲一区二区三区演员表| 久久精品无码免费不卡| 乱色精品无码一区二区国产盗 | 亚洲欧洲一区二区三区波多野| 草莓视频成人| 国产在线精品一区在线观看| 国产亚洲精品a片久久久|