亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的新疆熱門微博評(píng)論的情感分析

        2020-02-04 07:43:51黎潔君
        現(xiàn)代鹽化工 2020年5期
        關(guān)鍵詞:情感分析深度學(xué)習(xí)

        黎潔君

        摘 要:加強(qiáng)互聯(lián)網(wǎng)輿情管理是國(guó)家治理體系和治理能力現(xiàn)代化發(fā)展的重要內(nèi)容?;谏疃葘W(xué)習(xí),以微博上關(guān)于新疆的熱門評(píng)論為樣本,通過(guò)構(gòu)建長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)模型對(duì)每條評(píng)論進(jìn)行評(píng)分,分析其正負(fù)性。情感分析結(jié)果對(duì)輿情治理具有一定的現(xiàn)實(shí)意義。

        關(guān)鍵詞:深度學(xué)習(xí);長(zhǎng)短期記憶網(wǎng)格;情感分析

        微博是我國(guó)時(shí)下非常流行的社交、信息分享平臺(tái),日訪問(wèn)量上億,居于全球社交平臺(tái)的首位。微博上有海量信息,這些數(shù)據(jù)中包含網(wǎng)民的情感信息資料以及對(duì)于各種事件的輿情偏向,具有可挖掘的價(jià)值。依托數(shù)據(jù)挖掘和自然語(yǔ)言技術(shù),情感分析對(duì)相關(guān)領(lǐng)域都有一定的戰(zhàn)略價(jià)值,企業(yè)可以根據(jù)情感分析發(fā)現(xiàn)網(wǎng)友的情感傾向,從而制定相關(guān)策略;過(guò)去許多社會(huì)熱點(diǎn)事件都在微博中引起大討論,網(wǎng)友各抒己見,使各種大小事件得到公平解決,政府也可以從中獲知輿情傾向。所以,分析微博相關(guān)熱點(diǎn)問(wèn)題或事件具有一定的現(xiàn)實(shí)意義[1]。

        基于深度學(xué)習(xí)的分析方法的主要思想是預(yù)先對(duì)訓(xùn)練文本語(yǔ)料進(jìn)行定性分類且標(biāo)注,以統(tǒng)計(jì)理論信息等作為分類特征,訓(xùn)練出一個(gè)較好的分類模型[2]。利用得出的最優(yōu)模型進(jìn)行情感分類,得到相關(guān)的情感分析數(shù)據(jù),從而得到情感傾向的分析結(jié)果。如今,新疆安定繁榮,加上其獨(dú)特的西域風(fēng)光,引來(lái)了各地游客,來(lái)疆旅游人數(shù)攀升,在微博引起了熱議。本研究基于Python中的Pytorch深度學(xué)習(xí)框架,利用長(zhǎng)短期記憶(Long Shot-Term Memory,LSTM)網(wǎng)絡(luò)對(duì)微博上關(guān)于新疆的評(píng)論進(jìn)行采集以及情感分析。

        1 數(shù)據(jù)來(lái)源

        Python擁有大量的庫(kù),且易于學(xué)習(xí),可以用來(lái)高效地開發(fā)各種應(yīng)用程序。Python語(yǔ)言目前廣泛應(yīng)用于網(wǎng)絡(luò)爬蟲、計(jì)算與數(shù)據(jù)分析、人工智能、自動(dòng)化運(yùn)維、云計(jì)算等領(lǐng)域。本研究通過(guò)網(wǎng)絡(luò)爬蟲技術(shù)來(lái)獲取有效的微博評(píng)論數(shù)據(jù)。網(wǎng)絡(luò)爬蟲是一種程序或者腳本,能夠按照一定的規(guī)則對(duì)互聯(lián)網(wǎng)信息進(jìn)行自動(dòng)抓取。網(wǎng)絡(luò)爬蟲被廣泛應(yīng)用于互聯(lián)網(wǎng)搜索引擎或類似的網(wǎng)站,從而對(duì)這些網(wǎng)站的內(nèi)容和檢索方式進(jìn)行獲取、更新,對(duì)于訪問(wèn)到的頁(yè)面內(nèi)容能夠自動(dòng)收集獲取,然后提供給搜索引擎進(jìn)一步處理,進(jìn)而方便用戶對(duì)所需要的信息進(jìn)行更快的檢索[3]。本研究通過(guò)requests,re,pandas,json等庫(kù)[4]對(duì)統(tǒng)一資源定位符(Uniform Resource Locator,URL)“https: //m.weibo.cn/comments/hotflow?id=4446534093 056573&mid=4446534093056573&max_id_type=0”進(jìn)行爬取,得到的評(píng)論一共有14 761條。

        2 模型介紹

        3 實(shí)驗(yàn)與結(jié)果

        3.1 數(shù)據(jù)集

        本實(shí)驗(yàn)使用到的數(shù)據(jù)集,第一個(gè)是訓(xùn)練模型所需要的訓(xùn)練集,其中都使用label標(biāo)簽來(lái)標(biāo)記其語(yǔ)言情感的正負(fù)性,數(shù)值取在0~1,其中1表示正面影響,0表示負(fù)面情緒,根據(jù)數(shù)值的大小來(lái)分辨其正負(fù)情緒的比重大小。訓(xùn)練集包括9 000條情緒,其中有4 500條負(fù)面情緒和4 500條正面情緒。驗(yàn)證集包括1 000條情緒,其中正面情緒有500條,負(fù)面情緒有500條。測(cè)試集中有500條正負(fù)數(shù)量不同的評(píng)論。

        3.2 數(shù)據(jù)總覽及預(yù)處理

        分詞是自然語(yǔ)言處理(Natural Language Processing,NLP)中文本處理的基礎(chǔ)環(huán)節(jié)和前提。與以英文為代表的拉丁系語(yǔ)言相比,中文分詞要復(fù)雜得多、困難得多,因?yàn)樽怨乓詠?lái)中文的詞語(yǔ)之間均沒(méi)有自然分隔,并且組合多變[8]。對(duì)于分詞,在Python中需要導(dǎo)入pandas庫(kù)和jieba庫(kù)。Pandas的主要用途是進(jìn)行數(shù)據(jù)分析,jieba庫(kù)則是專門用來(lái)進(jìn)行中文分詞的一個(gè)庫(kù)。導(dǎo)入成功后進(jìn)行分詞,分詞得到兩個(gè)新的變量,分別為token_count(單個(gè)評(píng)論詞組數(shù)量),text_lengths[9](單個(gè)評(píng)論長(zhǎng)度),再對(duì)訓(xùn)練集、測(cè)試集和所采集的微博評(píng)論進(jìn)行分詞。此時(shí),導(dǎo)入Word Cloud庫(kù)(詞云圖),進(jìn)行數(shù)據(jù)詞云可視化,如圖1所示。

        詞云呈現(xiàn)主要是看詞組所占比重,詞組比重越大,在詞云中的字體越大,可以看到“越來(lái)越”“穩(wěn)定”“人民”等詞的比重較大。

        3.3 實(shí)驗(yàn)參數(shù)

        實(shí)驗(yàn)參數(shù)訓(xùn)練設(shè)備為CPU,其中batch size(單次訓(xùn)練用的樣本數(shù))選擇64,學(xué)習(xí)率為0.01,dropout rate選擇0.5,LSTM堆疊的層數(shù)為1,隱藏層節(jié)點(diǎn)的個(gè)數(shù)為100,epoch選10,評(píng)論字典共25 002個(gè),labal(評(píng)價(jià)1,0)有兩個(gè),詞向量維數(shù)為300。

        3.4 模型訓(xùn)練及效果評(píng)估

        實(shí)驗(yàn)參數(shù)設(shè)置好后就開始進(jìn)行模型訓(xùn)練,得到最優(yōu)模型后,進(jìn)行效果評(píng)估,導(dǎo)入所需庫(kù),然后將測(cè)試集代入,進(jìn)行分詞操作,再加載模型進(jìn)行效果評(píng)估,結(jié)果如圖2所示。

        由以上結(jié)果可得,模型效果精確率在85%以上,正面情感總體準(zhǔn)確度較高,負(fù)面情感召回率欠缺,在實(shí)例預(yù)測(cè)中負(fù)面情感預(yù)測(cè)準(zhǔn)度難控制。總體上,訓(xùn)練出的模型可用。

        3.5 模型使用及結(jié)果

        首先加載模型,其次導(dǎo)入爬取的微博評(píng)論,最后進(jìn)行評(píng)論的情感分析,得到每句評(píng)論下的評(píng)分。負(fù)面情緒主要是一些不相干的評(píng)論或者帶個(gè)人主觀情緒的評(píng)論。得到全部評(píng)論的得分后,進(jìn)行數(shù)據(jù)的可視化,將所有評(píng)論的得分及個(gè)數(shù)做成直方圖,如圖3所示。

        4 結(jié)語(yǔ)

        基于深度學(xué)習(xí),對(duì)關(guān)于新疆的熱門評(píng)論進(jìn)行情感分析,主要使用Python語(yǔ)言。本次實(shí)驗(yàn)主要使用LSTM網(wǎng)絡(luò)進(jìn)行建模,由于RNN網(wǎng)絡(luò)訓(xùn)練時(shí)只能將信息傳遞給相鄰的后繼者,在實(shí)際中訓(xùn)練RNN是很難實(shí)現(xiàn)的,根本原因在于梯度消失和梯度爆炸問(wèn)題,這時(shí)LSTM網(wǎng)絡(luò)的引出有效地解決了這一問(wèn)題。LSTM網(wǎng)絡(luò)的核心是其獨(dú)特的細(xì)胞狀態(tài),細(xì)胞狀態(tài)好似傳送帶,直接在整個(gè)鏈上運(yùn)行,使線性交互變少,因此,信息在其上流傳時(shí)不容易變化;此外,還具有獨(dú)特的“門”結(jié)構(gòu)來(lái)控制細(xì)胞狀態(tài)。LSTM網(wǎng)絡(luò)主要結(jié)構(gòu)為:(1)決定細(xì)胞狀態(tài);(2)細(xì)胞狀態(tài)的更新準(zhǔn)備;(3)更新狀態(tài);(4)基于狀態(tài)輸出信息。本實(shí)驗(yàn)主要依靠Pytorch(深度學(xué)習(xí)庫(kù))進(jìn)行建模。訓(xùn)練模型成功后進(jìn)行效果評(píng)估,得到可行的模型效果,得到效果評(píng)估模型精度達(dá)85%。最后對(duì)相關(guān)評(píng)論使用模型進(jìn)行評(píng)分,分析網(wǎng)友的情感偏重。由實(shí)驗(yàn)結(jié)果可知,此次網(wǎng)友對(duì)新疆有很多感想,其中通過(guò)詞云圖可知“越來(lái)越”“穩(wěn)定”“人民”“愛”等詞語(yǔ)的比重很大。評(píng)論統(tǒng)計(jì)中情感評(píng)分區(qū)間為0—1、0—0.5代表負(fù)面情緒,越接近0負(fù)面情緒越大,0.5—1代表積極情緒,越接近1正面情緒越大??傮w上,本次情感分析中,微博上的網(wǎng)友有新疆本地的,也有國(guó)內(nèi)其他各省的,情感分析中正面情緒比重很大,這也說(shuō)明新疆的確在旅游、治安等各個(gè)方面發(fā)展得都越來(lái)越好。所以,加強(qiáng)互聯(lián)網(wǎng)輿情管理是國(guó)家治理體系和治理能力現(xiàn)代化發(fā)展的重要內(nèi)容,不僅能有效了解民情,而且對(duì)輿情治理也有一定作用。所以,在特定方面進(jìn)行情感分析具有一定的現(xiàn)實(shí)意義。

        [參考文獻(xiàn)]

        [1] 關(guān)鵬飛,李寶安,呂學(xué)強(qiáng),等.注意力增強(qiáng)的雙向LSTM情感分析[J].中文信息學(xué)報(bào),2019(2):105-111.

        [2] 胡朝舉,梁寧.基于深層注意力的LSTM的特定主題情感分析[J].計(jì)算機(jī)應(yīng)用研究,2019(4):1075-1079.

        [3] 郭麗蓉.大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)爬蟲設(shè)計(jì)[J].山西電子技術(shù),2018(2):50-52,94.

        [4] 李培.基于Python的網(wǎng)絡(luò)爬蟲與反爬蟲技術(shù)研究[J].計(jì)算機(jī)與數(shù)字工程,2019,47(6):1415-1420,1496.

        [5]SUNDERMEYER M, SCHLüTER R, NEY H. LSTM neural networks for language modeling[EB/OL].(2014-02-10)[2020-10-20]. http://www-i6.informatik.rwth-aachen.de/publications/ download/820/Sundermeyer-2012.

        [6] 伍行素,陳錦回.基于LSTM深度神經(jīng)網(wǎng)絡(luò)的情感分析方法[J].上饒師范學(xué)院學(xué)報(bào),2018(6):16-20.

        [7] 陳再發(fā),劉彥呈,劉厶源.長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)在機(jī)械狀態(tài)預(yù)測(cè)中的應(yīng)用[J].大連海事大學(xué)學(xué)報(bào),2018(1):85-90.

        [8] 嚴(yán)明,鄭昌興.Python環(huán)境下的文本分詞與詞云制作[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2018(34):86-89.

        [9] 祝永志,荊靜.基于Python語(yǔ)言的中文分詞技術(shù)的研究[J].通信技術(shù),2019(7):1612-1619.

        猜你喜歡
        情感分析深度學(xué)習(xí)
        基于語(yǔ)義的互聯(lián)網(wǎng)醫(yī)院評(píng)論文本情感分析及應(yīng)用
        基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評(píng)價(jià)對(duì)象抽取研究
        基于SVM的產(chǎn)品評(píng)論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        在線評(píng)論情感屬性的動(dòng)態(tài)變化
        有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        国产视频一区二区三区在线看| 亚洲av无码乱码国产精品久久| 日本污ww视频网站| 人妻少妇边接电话边娇喘| 热久久网站| 久久深夜中文字幕高清中文| 男女裸体做爰视频高清| 午夜福利啪啪片| 精品一级毛片| 蜜桃视频网站在线免费观看| 亚洲精品一品区二品区三区| 黑色丝袜秘书夹住巨龙摩擦| 日韩在线看片| 国产午夜福利av在线麻豆| 国产在线无码一区二区三区视频| 大地资源中文第3页| 大地资源网更新免费播放视频| 国产日韩欧美911在线观看| 亚洲国产综合精品一区最新| 美女扒开大腿让男人桶| 藏春阁福利视频| 无遮挡粉嫩小泬| 不卡一区二区三区国产| 欧美真人性野外做爰| 成人a在线观看| 人妻少妇粉嫩av专区一| 亚洲乱码国产乱码精华| 久久久久久国产精品美女| 国产精品久久久久免费看| 国产91精品在线观看| 中文人妻熟妇乱又伦精品| 四虎欧美国产精品| 丰满熟女人妻一区二区三区| 风韵丰满熟妇啪啪区老熟熟女| 亚洲国产日韩欧美一区二区三区| 中文字幕福利视频| 97自拍视频国产在线观看 | 亚洲国产精品久久婷婷| 日韩毛片无码永久免费看| 亚洲av美女在线播放啊| 日韩精品一区二区三区av|