亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的新體詩情感分析

        2022-06-29 03:57:54高楚翔羅家輝
        林業(yè)科技情報 2022年2期
        關(guān)鍵詞:文本情感分析

        高楚翔 舒 杭 羅家輝

        (東北林業(yè)大學(xué) 信息與計(jì)算機(jī)工程學(xué)院,哈爾濱 150036)

        從公開發(fā)表的散文、隨筆、詩歌甚至小說中獲取作者反映的情感傾向,并從中獲知熱門社會事件對人類情感變化的引導(dǎo),是保護(hù)社會主流思想不被西方反動勢力影響的重要手段。該次研究主要針對詩歌網(wǎng)上最新發(fā)表的各種新體詩,因其相對傳統(tǒng)詩歌的篇幅較長,反映的信息量相對傳統(tǒng)詩歌也比較大,能在大量分析中提取出詩人對社會事件的情感反射。

        情感分析是數(shù)據(jù)挖掘領(lǐng)域一個熱門的研究方向。目前對情感分析的研究大部分集中在對微博各種熱門博文的研究,或者是商品銷售領(lǐng)域、電影上映后的評價分析等方面,而對現(xiàn)代派詩人利用現(xiàn)代詩來表達(dá)澎湃情感問題的分析卻沒有涉及過。新體詩用詞復(fù)雜多樣,情緒的表達(dá)也更是包羅萬象,因此,對于新體詩的情感分析也更加具有研究價值。

        情感分析工作,可以劃分為3類方法,第1類是基于情感詞典的文本情感分析?;谠~典的方法中,主要采用兩種詞典,一種是自定義的情感詞典,主要是通過對于語料 中的情感詞進(jìn)行發(fā)現(xiàn)與搜集;另一種是依賴于開源的大型語料庫,英文中采用的大型語料庫是WordNet,而中文中主要采用HowNet[1]。2011年,陳岳峰等人對HowNet中所提出的褒貶義概念進(jìn)行聚類,將聚類中心作為基準(zhǔn)概念,進(jìn)行詞語的情感識別[2];2015年,Tang D等人采用門控循環(huán)神經(jīng)網(wǎng)絡(luò)(GRU)對文檔進(jìn)行建模,進(jìn)行文檔級情感分析[3];Jin Wang等人提出一種局部卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)相融合的分類模型,對于句子進(jìn)行多維度的情感分析,其在中文語料中取得較好的效果[4]。

        1 問題描述

        新體詩包含了大量的信息,而且相對于傳統(tǒng)詩歌,詞匯的使用更加豐富,情緒的表達(dá)更加多樣,而且一首詩中的情緒常常不止1種,有時甚至是3種以上情感糅合在一起,例如:“我每次回到家鄉(xiāng)、站在橋上、就會想起我的父親、一個善良的人、勤勞的人、熱心的人、只可惜、他去世的時候、只有五十幾歲、盡管沒有給我們、留下什么、卻給我們留下了精神”這段詩中,先表達(dá)了對父親的贊美之情,然后轉(zhuǎn)而描寫對于父親離世的悲傷,最終以希望結(jié)尾,總體上被歸結(jié)于消極的情緒;“寫吧,寫給我的小情人、你童年的生活,一人一碗、吃空碗里的飯時,我們一起歡笑、淚水流向湯碗時,我們一起憂愁、調(diào)皮,霸道,還會說唱、生活里充滿陽光,喜愛吃糖”這段詩中,作者既寫了和女兒的開心的生活,也寫了難過的時刻,總體上又表達(dá)了對女兒的喜愛之情,被歸結(jié)為積極的情緒。通過對各種新體詩的挖掘分析,可以深入地剖析詩人對當(dāng)下熱點(diǎn)、社會生活的看法和態(tài)度,可以對社會輿論起到一定的監(jiān)控作用。

        正因?yàn)樾麦w詩的情感表達(dá)相對于淘寶評論或是美團(tuán)評論等內(nèi)容的情感表達(dá)更加晦澀曖昧,所以也會給機(jī)器學(xué)習(xí)帶來不小的難度,所以在構(gòu)建數(shù)據(jù)集時要盡量避開情感糅合過多的新體詩,盡量選擇例如“如果每天清晨、你有閱讀報紙的習(xí)慣、那么最開心的、莫過于能在當(dāng)天的報紙上、第一時間讀到、自己喜歡的文章、并把認(rèn)為重要的部分、摘抄到筆記本上、生活的內(nèi)容豐富多彩、人生的選擇多種多樣”這種情感表達(dá)很直接的詩歌,來提高情感特征的準(zhǔn)確性。

        2 Word2vec網(wǎng)絡(luò)模型

        利用Word2vec神經(jīng)網(wǎng)絡(luò)語言模型進(jìn)行詞向量訓(xùn)練,通過將新體詩訓(xùn)練集進(jìn)入Word2vec工具進(jìn)行訓(xùn)練,能夠根據(jù)上下文的語境,將詩歌中每個詞語映射成為k維的實(shí)數(shù)向量,獲得每個詞在向量空間上的表示。CBOW和Skip-Gram模型為Word2vec技術(shù)的優(yōu)化改進(jìn)。它們將Word2vec詞向量表示技術(shù)中計(jì)算復(fù)雜度高的隱藏層替換為投影層,它能夠計(jì)算輸入層詞向量總和。其中,CBOW表示輸入特定詞w的上下文輸出包含詞w的概率,Skip-Gram表示輸入特定詞w,輸出詞w的上下文中包含詞w的概率。[5]

        現(xiàn)有的SA方法主要有基于詞典的方法、基于機(jī)器學(xué)習(xí)(Machine Learning,ML)的方法和基于深度學(xué)習(xí)(Deep Learning,DL)的方法[6]。其中,基于詞典的方法主要利用情感詞典將語料庫中表達(dá)情感的關(guān)鍵詞提取出來,進(jìn)而對目標(biāo)語句進(jìn)行情感分析[7]。基于詞典的方法能體現(xiàn)文本的非結(jié)構(gòu)化特征,在情感詞典覆蓋率和標(biāo)注準(zhǔn)確率較高的情況下分類效果較理想[8]?;贛L的方法可以通過語句中詞語級別的情感特征準(zhǔn)確捕獲文本中有用的情感信息,這種詞級特征可以將語義信息表示成向量形式,方便衡量兩個詞之間的相似度,因而在情感分析任務(wù)中表現(xiàn)良好[9]。

        在word2vec之前采用深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞向量進(jìn)而處理詞與詞之間的關(guān)系的傳統(tǒng)模型是用多層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(一般是3層:輸入層、隱藏層和輸出層)。然后根據(jù)數(shù)據(jù)的輸入和輸出分為為CBOW (continuous bag ofwords)和Skip Gram兩種模型,其中CBOW通過中心詞的上下文對詞向量進(jìn)行預(yù)測,Skip Gram通過中心詞對上下文進(jìn)行預(yù)測,見圖1所示。

        圖1 CBOW模型與Skip Gram模型Figure 1 CBOW model and Skip Gram model

        Word2vec相對于傳統(tǒng)是神經(jīng)網(wǎng)絡(luò)語言模型做出了改進(jìn)。一是在輸入層到隱藏層的映射中直接對所有輸入詞向量求和并取平均,大大降低了計(jì)算量;二是采用了負(fù)采樣的方法,即每次讓1個樣本只更新部分權(quán)重,同時其他權(quán)重全部固定,以此來減少計(jì)算量。這樣使word2vec的方法維度更少,速度加快,通用性也得到了加強(qiáng)。

        3 實(shí)驗(yàn)與結(jié)果分析

        該研究主要分為3個模塊:文本獲取模塊、文本預(yù)處理模塊和模型算法模塊。

        文本獲取模塊包括:爬蟲功能。網(wǎng)頁爬蟲功能:通過python腳本對中國詩歌網(wǎng)獲取其現(xiàn)代詩(http://www.zgshige.com/sg/xds)和關(guān)鍵字搜索(http://www.zgshige.com/zcms/search/result?SiteID=122&Query=)板塊內(nèi)的新體詩。由于中國詩歌網(wǎng)

        的欄目有最大頁數(shù)50頁的限制,導(dǎo)致50頁之后的頁面丟失出現(xiàn)404錯誤而無法接著爬取數(shù)據(jù),于是本文使用了基于關(guān)鍵字的數(shù)據(jù)爬取方式對原有的文本獲取模塊進(jìn)行修改,并使用了xls表格文檔對數(shù)據(jù)進(jìn)行存儲。

        文本預(yù)處理模塊包括:文字處理功能,構(gòu)建詞向量功能。文字處理功能:對從網(wǎng)站獲取大量xls格式存儲的詩歌進(jìn)行拼接處理,格式處理,使其能投入下一步的分詞和模型處理。構(gòu)建詞向量功能:使用word2vec模型,構(gòu)建訓(xùn)練樣例的詞向量模型。

        模型算法模塊包括:模型訓(xùn)練功能。模型評估功能:調(diào)用保存的模型,對測試數(shù)據(jù)進(jìn)行測試,得到每個主題詞的準(zhǔn)確率數(shù)據(jù)。

        該研究的路線是利用爬蟲工具對中國詩歌網(wǎng)上的新體詩進(jìn)行爬取,選擇合適的分詞工具對近體詩進(jìn)行分詞提取,并解決詩歌中一些含有具體情感映射的事物的提取與不含特殊含義的事物加以區(qū)分。并在分析后利用深度學(xué)習(xí)算法對文本進(jìn)行情感挖掘,利用新數(shù)據(jù)進(jìn)行訓(xùn)練,從而得到正確的結(jié)論,見圖2所示。

        圖2 技術(shù)路線Figure 2 Technical route

        該文的實(shí)驗(yàn)數(shù)據(jù)選取自文本獲取模塊收集新體詩文本。選取經(jīng)過文本特殊字符刪除、題目等無用信息刪除等預(yù)處理的10 000條新體詩數(shù)據(jù),采用人工標(biāo)注的方式實(shí)現(xiàn)對新體詩的情感極性標(biāo)注。選擇3名同學(xué)各自對10 000條新體詩數(shù)據(jù)進(jìn)行了主觀細(xì)致極性判斷的方式,將數(shù)據(jù)分為積極與消極兩種細(xì)致類別,統(tǒng)計(jì)3名同學(xué)各自的標(biāo)注結(jié)果,將每條新體詩文本的細(xì)致情感極性最高支持票數(shù)為最終標(biāo)注結(jié)果,避開了獨(dú)自判斷的差異性,并最終采用5 000條細(xì)致區(qū)分的數(shù)據(jù)作為訓(xùn)練集。

        獲取詞向量部分的代碼如下:

        def build_vector(text, size, wv):

        vec = np.zeros(size).reshape((1, size))

        count = 0

        for w in text:

        try:

        vec += wv[w].reshape((1, size))

        count += 1

        except:

        continue

        if count != 0:

        vec /= count

        return vec

        將在對訓(xùn)練集進(jìn)行訓(xùn)練后,通過設(shè)置積極情緒測試集(positive,簡稱pos)和消極情緒測試集(negative,簡稱neg)各500條數(shù)據(jù),對測試集進(jìn)行如上的測試分析,然后記錄正確率。結(jié)果發(fā)現(xiàn),無論如何設(shè)置神經(jīng)網(wǎng)絡(luò)層數(shù)和最小詞頻數(shù),得到結(jié)果始終為50%,顯然并不符合實(shí)驗(yàn)預(yù)期要求。

        于是研究小組再次對于研究數(shù)據(jù)進(jìn)行大量、細(xì)致地清洗,先將數(shù)據(jù)中所有的回車、空格、制表符號也全部刪除,然后再把所有可能出現(xiàn)歧義表達(dá)的詞語全部刪除,然后設(shè)置重新進(jìn)行訓(xùn)練。經(jīng)過多次對比訓(xùn)練后發(fā)現(xiàn),對比不同的神經(jīng)網(wǎng)絡(luò)層數(shù)以及最小詞頻數(shù)之后對比得到,當(dāng)取神經(jīng)網(wǎng)絡(luò)層數(shù)為300、最小詞頻數(shù)為10時,得到的正確率最高,為86.1%,終于得到了符合實(shí)驗(yàn)預(yù)期的結(jié)果,見圖3所示。

        圖3 不同神經(jīng)網(wǎng)絡(luò)層數(shù)以及最小詞頻數(shù)所得到的正確率的對比Figure 3 Comparison of the correct rate obtained by different neural network layers and the minimum word frequency

        最后選擇設(shè)置神經(jīng)網(wǎng)絡(luò)層數(shù)為300、最小詞頻數(shù)為10,對測試集進(jìn)行情感分析實(shí)驗(yàn),統(tǒng)計(jì)結(jié)果的召回率與正確率,最終得到的結(jié)果如表1所示。

        表1 積極與消極的召回率與正確率統(tǒng)計(jì)表Table 1 Positive and negative recall rate and correct rate statistics table

        結(jié)果表明,因?yàn)樵谠姼璧谋磉_(dá)中,消極情緒的表達(dá)詞匯相對于積極情緒會更加豐富多樣,甚至有時不需要直接的表達(dá)詞匯,僅僅通過意象的堆疊就可以表達(dá)出悲傷、寂寞、思念等消極情緒,例如“推開夜的清冷,幻作一縷煙火在塵世里徘徊”、“濁凈不染塵,攬攜無遠(yuǎn)晴空??仗w無人,聽皓皓小城,從林靜白夜度,飛蛾暗影攙浮屠,遠(yuǎn)道一人緩緩來”,對于機(jī)器學(xué)習(xí)造成了一定的難度。由此可見Word2vec模型對于新體詩的情感分析是有效的,對于積極的情感類型的新體詩更有效一些。圖4-圖7為積極結(jié)果和消極結(jié)果的示例。

        圖4 積極結(jié)果1Figure 4 Positive results 1

        圖5 積極結(jié)果2Figure 5 Positive results 2

        圖6 消極結(jié)果1Figure 6 Negative result 1

        圖7 消極結(jié)果2Figure 7 Negative result 2

        4 實(shí)驗(yàn)結(jié)果

        5 結(jié)語

        對于新體詩的情感分析是人們對于熱點(diǎn)的看法和民生意見的重要依據(jù),所以挖掘詩中的情感傾向可以實(shí)現(xiàn)對于社會輿論風(fēng)向的監(jiān)控作用,具有重要的研究意義。該文通過使用word2vec語言模型,在真實(shí)的詩歌數(shù)據(jù)中進(jìn)行實(shí)驗(yàn),表明該模型對于新體詩的情感分析是十分有效的,從而可以為社會對于輿論風(fēng)向的監(jiān)控提供科學(xué)依據(jù)。

        由于詩歌的情感往往豐富多樣,用詞方式也千變?nèi)f化,除此之外,詩歌的情感表達(dá)與社會熱點(diǎn)有著直接關(guān)系,很多詩歌的寫作都是基于熱點(diǎn)事件的評價以及感慨。因此,下一階段的工作可以圍繞社會熱點(diǎn)事件對新體詩進(jìn)行情感分析。

        猜你喜歡
        文本情感分析
        隱蔽失效適航要求符合性驗(yàn)證分析
        如何在情感中自我成長,保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長,保持獨(dú)立
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        亚洲男人免费视频网站| 国产一区二区av男人| 国产亚洲精品免费专线视频| 无码国产精品一区二区高潮| 日本精品少妇一区二区| 日韩爱爱视频| 国产二区交换配乱婬| 免费啪啪av人妻一区二区| 欧美激情αv一区二区三区| 久久精品夜色噜噜亚洲a∨| 久99久精品免费视频热77| 亚洲人成色7777在线观看| 内射中出后入内射极品女神视频| 97夜夜澡人人爽人人喊中国片| 青青草手机免费播放视频| 国产91大片在线观看| 无码人妻精品丰满熟妇区| 全国一区二区三区女厕偷拍| 国产精品二区在线观看| 大陆国产乱人伦| 亚洲免费av第一区第二区| 男女边吃奶边做边爱视频 | 最新国产拍偷乱偷精品| 中文字幕人妻在线少妇| 国产一级特黄无码免费视频| 国产激情久久久久久熟女老人| 国产精品一区二区午夜久久| av潮喷大喷水系列无码| 久久99国产精品久久99| 久久99久久久精品人妻一区二区| 久久99精品久久久66| 国产一区二区内射最近更新 | 国产97在线 | 免费| 97在线视频免费人妻| 国产av一区二区制服丝袜美腿| АⅤ天堂中文在线网| 精品国产三级a∨在线观看| 国产无套中出学生姝| 日本视频在线观看一区二区| 最近中文字幕一区二区三区| 亚洲无线码1区|