亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)和知乎的情感分析系統(tǒng)

        2019-12-06 08:48:53賈宏志徐亞峰
        軟件 2019年10期
        關(guān)鍵詞:情感分析深度學(xué)習(xí)

        賈宏志 徐亞峰

        摘? 要: 隨著互聯(lián)網(wǎng)的發(fā)展,人們更愿意在網(wǎng)絡(luò)上分享自己對熱點事件的觀點并發(fā)表自己的評論,這些評論通常包含了個人的情緒和情感傾向,所以對網(wǎng)絡(luò)短評進(jìn)行情感分析能高效、精準(zhǔn)的挖掘人們的情感態(tài)度。本系統(tǒng)首先對知乎平臺的網(wǎng)絡(luò)短評進(jìn)行定向抓取,然后進(jìn)行數(shù)據(jù)清洗、分析出人們的情感取向,最后利用詞云進(jìn)行直觀的展示。本系統(tǒng)的情感分析模塊主要使用了Google的TensorFlow框架,并采用長短期記憶網(wǎng)絡(luò)(LSTM)對已經(jīng)標(biāo)注好正負(fù)情感評論的語料進(jìn)行訓(xùn)練,然后使用Python Scrapy框架對知乎熱榜評論進(jìn)行定向數(shù)據(jù)爬取,并做出情感預(yù)測,最后使用Tornado框架實現(xiàn)情感分析系統(tǒng)的Web圖形化操作。利用本系統(tǒng)可以高效、精準(zhǔn)的挖掘人們的情感態(tài)度,有助于輿情分析、用戶分析等方面的應(yīng)用。

        關(guān)鍵詞: 深度學(xué)習(xí);情感分析;LSTM;定向爬取

        中圖分類號: TP311.52? ? 文獻(xiàn)標(biāo)識碼: A? ? DOI:10.3969/j.issn.1003-6970.2019.10.008

        本文著錄格式:賈宏志,徐亞峰. 基于深度學(xué)習(xí)和知乎的情感分析系統(tǒng)[J]. 軟件,2019,40(10):3336

        Emotional Analysis System Based on Deep Learning and Zhihu

        JIA Hong-zhi, XU Ya-feng

        (Xuzhou Institute of Technology, Xuzhou, Jiangsu 221000)

        【Abstract】: With the development of the Internet, people are more willing to share their views on hot issues and make their own comments on the Internet, which usually contain personal emotions and emotional tendencies. Therefore, the emotional analysis of online short comments can effectively and accurately explore people's emotional attitudes. This system first grabs the network short comments on zhihu platform, then cleans the data, analyzes people's emotional orientation, and finally USES the word cloud to display intuitively. The emotional analysis module of this system mainly USES the Google TensorFlow framework, using both short-term and long-term memory network (LSTM) to have training corpus with the positive and negative emotional comments, and then use the Python Scrapy framework to zhihu crawl hot list of comments for directional data, and make emotional prediction, sentiment analysis is realized by using Tornado framework Web graphical operation of the system. This system can be used to effectively and accurately explore people's emotional attitude, which is conducive to the application of public opinion analysis, user analysis and other aspects.

        【Key words】: Deep learning; Emotional analysis; LSTM; Directional crawling

        0? 引言

        近年來,互聯(lián)網(wǎng)發(fā)展越來越迅速。截至2017年12月,中國網(wǎng)民規(guī)模達(dá)7.72億,手機(jī)網(wǎng)民規(guī)模達(dá)7.53億,網(wǎng)民中使用手機(jī)上網(wǎng)人群的占比由2016年的95.1%提升至97.5%,網(wǎng)絡(luò)成了人們交流的平臺[1],越來越多的人喜歡在網(wǎng)上發(fā)表自己對熱點事件的觀點態(tài)度。因此,對網(wǎng)絡(luò)評論的情感分析成為研究人們對待社會熱點問題看法的有效途徑之一。本系統(tǒng)則是一個基于深度學(xué)習(xí)和知乎的情感分析系統(tǒng),其使用了Word2vec工具建立詞向量,基于深度學(xué)習(xí)的LSTM(Long Short-Term Memory,長短期記憶網(wǎng)絡(luò))模型建立情感分析模型,利用Python scrapy框架對知乎熱榜中的評論進(jìn)行定向數(shù)據(jù)抓取,并使用Python的Tornado框架完成了系統(tǒng)的圖形化操作。利用本系統(tǒng),可以實現(xiàn)半自動化的定向的情感分析。

        1? 深度學(xué)習(xí)簡介

        深度學(xué)習(xí)(又稱深層結(jié)構(gòu)學(xué)習(xí)),這一定義最早由Hinton等人[2]在2006年提出,它是基于人工神經(jīng)網(wǎng)絡(luò)的更廣泛的機(jī)器學(xué)習(xí)方法系列的一部分,是樣本數(shù)據(jù)通過一定的訓(xùn)練方式獲得含有多層級的深度網(wǎng)絡(luò)結(jié)構(gòu)的機(jī)器學(xué)習(xí)過程。最初,Hinton教授提出了兩個主要觀點,第一個觀點是利用計算機(jī)模擬人腦神經(jīng)元工作的特征,形成神經(jīng)網(wǎng)絡(luò)模型,這一模型可以有效的學(xué)習(xí)數(shù)據(jù)特征,進(jìn)而能夠進(jìn)行分類,回歸及可視化等工作;第二個觀點是采用逐層訓(xùn)練的方式對神經(jīng)網(wǎng)絡(luò)輸入?yún)?shù)進(jìn)行訓(xùn)練,即采用無監(jiān)督的學(xué)習(xí)方式讓深度學(xué)習(xí)網(wǎng)絡(luò)達(dá)到最佳效果[3]。到目前,深度學(xué)習(xí)在語音識別領(lǐng)域、圖像識別領(lǐng)域、自然語言處理領(lǐng)域均有一定的發(fā)展。但是,相對于圖像識別和語音識別而言,深度學(xué)習(xí)在自然語言處理方面的應(yīng)用起步較晚。本文主要運(yùn)用深度學(xué)習(xí)在自然語言處理領(lǐng)域的相關(guān)技術(shù),并涉及到目前廣泛應(yīng)用的深度學(xué)習(xí)結(jié)構(gòu)——LSTM。

        3.2? 基于keras、TensorFlow的情感分析模塊的設(shè)計與實現(xiàn)

        Tensorflow是由谷歌開發(fā)團(tuán)隊開發(fā)并在2015年開放源代碼的符號數(shù)學(xué)系統(tǒng),被廣泛應(yīng)用于各類機(jī)器學(xué)習(xí)算法的編程實現(xiàn)。keras則是基于TensorFlow、Theano以及CNTK后端,由Python編寫開發(fā)的高層神經(jīng)網(wǎng)絡(luò)API,它具有高度模塊化、極簡和可擴(kuò)充的特征,并支持CNN和RNN,且能在CPU和GPU中無縫切換。本系統(tǒng)的情感分析模塊則是以keras作為應(yīng)用環(huán)境設(shè)計并實現(xiàn)。

        本文設(shè)計的情感分析模塊主要分為兩部分,第一部分是訓(xùn)練情感分析模型,第二部分是將抓取的評論預(yù)處理后通過訓(xùn)練的模型進(jìn)行情感預(yù)測,其簡要分析過程如圖4所示。

        根據(jù)圖中所示,第一步是對語料庫的預(yù)處理,因為是對網(wǎng)絡(luò)短評進(jìn)行情感分析,所以我選擇了基于新浪微博評論的12萬條已做好情感標(biāo)注的樣本作為訓(xùn)練的語料,0表示消極的情感態(tài)度,1表示積極的情感態(tài)度。分詞使用了jieba分詞的全模式分詞,讓詞庫的內(nèi)容最大化、最精準(zhǔn)化。為防止分詞中含有特殊字符影響訓(xùn)練結(jié)果,使用正則表達(dá)式過濾掉特殊字符(數(shù)據(jù)中無用的符號、數(shù)據(jù)中的網(wǎng)址信息),最后使用了哈工大和百度的停用詞列表將詞表中的的語氣助詞、代詞等無需使用的功能詞去除。預(yù)處理后詞表輸出至文本文檔中,每一句為一行。結(jié)果如圖5所示。數(shù)據(jù)預(yù)處理后,開始使用Word2vec進(jìn)行詞向量構(gòu)建。首先,設(shè)置好詞向量維度為256以及相關(guān)參數(shù),然后加載進(jìn)我們處理后的數(shù)據(jù),選擇CBOW模式開始訓(xùn)練,訓(xùn)練好的數(shù)據(jù)保存為文本文檔,其中包含了詞語以及對應(yīng)向量,接著利用keras中的Tokenizer類制作數(shù)據(jù)詞典,并將詞典數(shù)量設(shè)置為4000,即統(tǒng)計出詞典中詞頻出現(xiàn)較高的前4000個單詞。然后使用texts_to_sequences()函數(shù)將我們訓(xùn)練后的數(shù)據(jù)轉(zhuǎn)換為數(shù)字列表,并采取截長補(bǔ)短的方式使每一個數(shù)字列表的長度均為20(數(shù)據(jù)內(nèi)容一般是短評,所以其長度在20詞左右),長度小于20的語句由0補(bǔ)全,長度超過20的語句其超出的部分將會被截取。這組列表將作為訓(xùn)練模型輸入層的x軸,而y軸則是每條數(shù)據(jù)標(biāo)注好的情感值列表。構(gòu)建詞向量后,利用keras相關(guān)模塊創(chuàng)建一個訓(xùn)練模型。首先,向模型中加入一個輸入維度為4000,輸出維度為32的嵌入層(Embedding)用來降低LSTM模型輸入的維度,接著加入輸入維度為32的LSTM層,之后加入隱藏層和Dropout層避免過度擬合,獲得最后的模型后,開始對模型進(jìn)行訓(xùn)練。訓(xùn)練模型時,首先設(shè)置好x,y軸輸入的列表,然后指定進(jìn)行梯度下降時每個batch包含的樣本數(shù)量為200,訓(xùn)練終止時的epoch值為60,最后指定訓(xùn)練集占比為0.2的數(shù)據(jù)作為驗證集,來驗證每批次訓(xùn)練的精確度。訓(xùn)練過程如下圖6所示。

        訓(xùn)練結(jié)束后,保存訓(xùn)練好的模型,該模型作為情感分析模型,利用scrapy框架爬取的數(shù)據(jù)進(jìn)行預(yù)處理后制作成數(shù)字列表,然后使用該模型進(jìn)行情感分析,最后即可得出情感值和分析結(jié)果。

        3.3? 基于Tornado框架的系統(tǒng)架構(gòu)

        Tornado全稱Tornado Web Server,是一個用Python語言寫成的Web服務(wù)器兼Web應(yīng)用開發(fā)框架。Tornado以其輕量、異步非阻塞IO的處理方式和較為出色的抗負(fù)載能力受到大眾的關(guān)注。圖7是Tornado框架和其他Python框架性能對比。

        本文設(shè)計的系統(tǒng)因含有大量的耗時操作(數(shù)據(jù)爬取、情感分析),所以優(yōu)先選擇可以較好的處理異步非阻塞系統(tǒng)的Tornado框架。在設(shè)計中,使用@run_on_executor 修飾耗時方法用來創(chuàng)建額外線程進(jìn)行處理,使用@asynchronous與@coroutine修飾調(diào)用耗時方法的post方法,其中@asynchronous作用是保持長連接,而@coroutine使之修飾的方法完成后會自動調(diào)用finish。

        4? 結(jié)語

        情感分析作為自然語言處理領(lǐng)域的熱點方向之一,具有很高的社會意義,一個更精確、適用性更廣的情感分析系統(tǒng)是分析公民情感態(tài)度、網(wǎng)絡(luò)輿情的重要基礎(chǔ)。政府也可以通過對網(wǎng)絡(luò)輿情的分析更好的維護(hù)社會的平穩(wěn)發(fā)展。本系統(tǒng)則是基于深度學(xué)習(xí)的半自動的網(wǎng)絡(luò)評論情感分析系統(tǒng),它使用了word2vec建立詞向量,基于LSTM建立情感分析模型,并使用了Scrapy框架對知乎熱榜的在線評論進(jìn)行數(shù)據(jù)爬取。本系統(tǒng)使用Tornado框架將功能圖形化展示,在使用方面做到了簡單、便捷,其具有較好的實用性。未來可以進(jìn)一步的建立對話題具有針對性的分析模型,使系統(tǒng)能更加精準(zhǔn)的分析出評論中的情感傾向,可以在更廣泛的范圍內(nèi)使用。

        參考文獻(xiàn)

        [1]第41次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》發(fā)布[J]. 中國廣播, 2018(03): 96.

        [2]Geoffrey Hinton, Yoshua Bengio, Yann LeCun 等.

        [3]Hinton Geoffrey E, Osindero Simon, Teh Yee-Whye. A fast learning algorithm for deep belief nets. [J]. Neural Computation, 2006, 18(7).

        [4]方明之. 自然語言處理技術(shù)發(fā)展與未來[J]. 科技傳播, 2019, 11(06): 143-144.

        [5]朱磊. 基于word2vec詞向量的文本分類研究[D]. 西南大學(xué), 2017.

        [6]gensim: models. word2vec–Deep learning with word2vec [EB/OL]. [2018-06-08]. https://radimrehurek.com/gensim/models/ word2vec.html.

        [7]周練. Word2vec的工作原理及應(yīng)用探究[J]. 科技情報開發(fā)與經(jīng)濟(jì), 2015, 25(02): 145-148.

        [8]伍行素, 陳錦回. 基于LSTM深度神經(jīng)網(wǎng)絡(luò)的情感分析方法[J]. 上饒師范學(xué)院學(xué)報, 2018, 38(06): 10-14.

        [9]王晨超, 劉洋. 基于Doc2vec和深度神經(jīng)網(wǎng)絡(luò)的中文文本情感傾向研究[J]. 電子技術(shù)與軟件工程, 2018(10): 154-157.

        猜你喜歡
        情感分析深度學(xué)習(xí)
        基于語義的互聯(lián)網(wǎng)醫(yī)院評論文本情感分析及應(yīng)用
        基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評價對象抽取研究
        基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設(shè)計與實現(xiàn)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        在線評論情感屬性的動態(tài)變化
        預(yù)測(2016年5期)2016-12-26 17:16:57
        有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        国产自拍精品一区在线观看| 久久国产亚洲精品超碰热| 亚洲午夜无码久久yy6080 | 精品无码久久久久久久久水蜜桃| 狠狠色噜噜狠狠狠777米奇小说| 欧美天欧美天堂aⅴ在线| 综合91在线精品| 国产美女高潮流的白浆久久| 亚洲av色福利天堂久久入口| 免费人成小说在线观看网站| 中文字幕免费不卡二区| 久久99精品久久久久久| 欧美亚洲另类 丝袜综合网| 亚洲av狠狠爱一区二区三区| 久久综合久久美利坚合众国| 97人人模人人爽人人少妇| 精品久久久久久无码国产| 中国人妻沙发上喷白将av| 亚洲97成人精品久久久| 免费a级毛片高清在钱| 日韩人妻无码精品久久| 夜色阁亚洲一区二区三区| 国产不卡在线免费视频| 中文字幕色资源在线视频| 国产精品久久久久久av| 无码少妇一区二区浪潮av| 国产视频最新| 国产精品成年人毛片毛片| 亚洲综合极品美女av| 男人激烈吮乳吃奶视频免费| 久久久精品国产亚洲AV蜜| 中文字幕日本韩国精品免费观看 | 波多野结衣中文字幕一区二区三区| 性一交一乱一伧国产女士spa| 国产精品综合久久久久久久免费| 日韩精品中文字幕免费人妻| 精品国产亚洲第一区二区三区| 潮喷失禁大喷水aⅴ无码| 亚洲av无码之日韩精品| 欧美亚洲另类国产18p| 视频国产自拍在线观看|