亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于“情感-原因配對”方法的青少年輿情系統(tǒng)設計

        2022-11-11 09:35:54李宇圣李柏松楊宜穎
        電子測試 2022年19期
        關鍵詞:特征提取文本情感

        李宇圣,李柏松,楊宜穎

        (南華大學計算機學院,湖南衡陽,421200)

        0 引言

        情感分析作為輿情分析的一個重要模塊,主要負責從大量原始文本數(shù)據(jù)中提取情感文本信息,并將得到的文本情緒用于進行下一步文本分類。然而目前的大部分輿情分析系統(tǒng)僅僅考慮了文本的情感,并沒有考慮到文本的情感與產(chǎn)生改情感的內(nèi)容是相關的,降低了輿情分析系統(tǒng)的準確性。并且目前得到文本情感產(chǎn)生的原因需要事先對文本的情感進行標注,這一過程耗費了大量的人力,含有一定的誤差。

        最近,文獻[1]提出了一種有效提取情感文本并檢測情感,原因子句的新方法。本文首次將這種情感-原因配對方法用于青少年輿情分析系統(tǒng)。受人類邏輯表達的啟發(fā),情感態(tài)度和對應原因句一般會在短文中同時出現(xiàn)。例如,有的學生發(fā)微博說“我終于找到了失蹤的錢包,今天有點小開心”。這句話的前半部分是情緒產(chǎn)生的原因,后半部分代表的是他的情感態(tài)度。通過進行情感-原因的配對和過濾,我們能輕松分析出青少年的(尤其是在校學生)心理狀況,進一步幫助校園決策者正確引導學生持續(xù)健康發(fā)展。

        總的來說,本文基于情感-原因配對方法設計了一個適用于青少年的輿情分析系統(tǒng),利用爬蟲技術,特征提取,情感分析,注意力機制和可視化技術登一系列方法步驟,有效地將情感-原因配對方法融入輿情分析系統(tǒng)。通過分析民眾在社交媒體下的評論或博客,從而提取對應所表達的情感及原因,再將其一一配對并進行可視化展示,這將有助于年級管理員更加精準把握青少年學生情緒起伏的原因,找出影響校園環(huán)境穩(wěn)定的事件,防止負面輿論的進一步擴大。本文的主要貢獻總結(jié)如下:

        首先,我們?nèi)嫜芯苛水斍暗妮浨榉治鱿到y(tǒng)及其不足之處。當前的輿情分析系統(tǒng)普遍使用手動標注情感,這不但僅導致增加了人力物力的額外開支,還會導致標注結(jié)果的偏差,最終致使輿論分析不準確。

        其次,針對上述問題,我們將情感-原因配對分析和注意機制融入輿情分析系統(tǒng),更好地從輿論信息中探索青少年的情緒及其潛在或直接原因,減少了大量不必要的人力和物質(zhì)資源開銷,進一步提高了輿情分析的準確性。

        最后,我們構(gòu)建了一個基于情感-原因配對分析的學生輿情分析系統(tǒng),其中的輿論分析模塊可以定時自動分析輿論信息。我們對系統(tǒng)進行了測試,結(jié)果表明該系統(tǒng)能夠達到自動智能分析的預期效果。

        1 輿情分析與情感分析

        輿情分析系統(tǒng)能夠高效準確地跟蹤、控制輿情的走向與發(fā)展,提高網(wǎng)絡輿情的引導、管理水平,掌握信息傳播的主動權。而情感提取是網(wǎng)絡輿情分析技術的關鍵步驟之一。通過設計恰當?shù)乃惴▽Λ@取的數(shù)據(jù)進行分析,發(fā)現(xiàn)用戶的情感傾向,能夠更好地幫助輿情分析系統(tǒng)得到產(chǎn)生輿情的原因,并對其的傳播影響、輿情等級進行評估,采用合理的手段對輿論進行引導和管控。在本節(jié)中,我們主要討論輿情分析的相關工作,我們將這些相關的工作分為輿情分析的介紹以及情感提取兩類。

        1.1 輿情分析

        社交媒體用戶在網(wǎng)上發(fā)布的評論可以被有益地用于提取有意義的信息,從而支持決策者在整個政策周期中的行動,提供了一個一個快速而廉價的信息流[2]。文獻[3]等人將輿情監(jiān)測系統(tǒng)分為輿情信息采集、輿情信息處理、輿情信息分析、輿情服務四個部分。針對基于關鍵字統(tǒng)計的輿情分析系統(tǒng),文獻[4]提出了一種基于語義內(nèi)容識別的網(wǎng)絡輿情監(jiān)測分析系統(tǒng)框架,解決了輿情分析系統(tǒng)中的一些關鍵問題。文獻[5]通過對熱點自動發(fā)現(xiàn)和深入分析技術的研究,建立了基于數(shù)據(jù)挖掘的敏感信息分析框架,設計了敏感信息挖掘方法,有效地彌補了傳統(tǒng)輿情監(jiān)測系統(tǒng)難以應對輿情變化的缺點,增強了實用性。文獻[6]提出了基于流的實時主題計算、基于查詢文檔的主題匹配和字段增強等方法,提高了輿情監(jiān)測系統(tǒng)的準確性。

        1.2 情感分析

        情感分析和觀點挖掘是從書面語言中分析人們的觀點、情感、評價、態(tài)度和情感的研究領域。它是自然語言處理中最活躍的研究領域之一[7][8],在數(shù)據(jù)挖掘、Web挖掘和文本挖掘中也得到了廣泛的研究。事實上,這項研究已經(jīng)從計算機科學擴展到管理科學和社會科學,因為它對企業(yè)和整個社會都很重要[9][10]。文獻[11]提出了一種基于知識的學習方法,能夠通過主題模型的選擇偏好,進行粗粒度的語義消歧方法,提高了情感分析的準確性。然而目前互聯(lián)網(wǎng)上的信息有多種呈現(xiàn)形式,因此文獻[12-15]提出了多模態(tài)情感分析的任務,通過視覺、聽覺和文本特征的聯(lián)合使用極大地提高了效率。

        情感原因提?。‥motion cause extraction,ECE)是一項旨在提取文本中某些情感背后的潛在原因的任務,近年來由于其廣泛的應用而備受關注。在長文本中根據(jù)事先注釋好的情緒尋找相對應的原因,他們構(gòu)建了一個小的中文語料庫進行測試。針對于算法存在兩個缺點:1)在提取原因之前,必須對情感進行注釋,這大大限制了它在現(xiàn)實場景中的應用;2) 先詮釋情感,然后提取原因的方法忽略了它們是相互指示的事實。文獻[16]提出了一個新的任務:情緒-原因?qū)μ崛。‥CPE),旨在提取文檔中潛在的情緒對和相應的原因。通過多任務學習進行個體情感提取和原因提取,然后進行情感-原因配對和過濾,很好地解決了ECE中存在的問題。

        在輿情分析中,情感分析是極其關鍵的一個模塊,如果能在情感分析階段將情感以及情感背后潛在的原因提取出來,將極大地提高輿情分析的精度。然而目前的輿情分析系統(tǒng)需要進行人工標注,首先標注情感,再通過神經(jīng)網(wǎng)絡挖掘出產(chǎn)生情感的原因。然而這需要極大的人力,且忽略了情感和對應的原因是相互關聯(lián)的。因此我們將基于因果分析的情感原因提取加入到輿情分析系統(tǒng)中,使整個輿情分析系統(tǒng)能夠擺脫人工標注的難題,提高輿情分析系統(tǒng)的效率,減少經(jīng)濟上的開銷。

        2 基于“情感-原因配對”方法的輿情系統(tǒng)設計

        2.1 總體設計流程

        如圖1所示,首先我們通過聚焦式網(wǎng)絡爬蟲獲得初步文本數(shù)據(jù),然后對獲取的文本數(shù)據(jù)進行特征提取,在處理后的特征集中,提取文本中的關鍵字來形成特征。在保證文本原有的核心信息的基礎上,減少需要處理的詞匯數(shù)量,在接下來的情感分析任務中引入注意力機制,可以使神經(jīng)網(wǎng)絡更多地關注文本中包含情感信息較多的部分,最后我們基于因果關系對處理后的文本信息進行分析,通過多任務學習進行個體情感提取和原因提取,然后進行情感-原因配對和過濾,提取關鍵字得出情感等級,最后制成情感等級折線圖和詞云圖進行數(shù)據(jù)的可視化展示。

        圖1 總體設計流程

        2.2 輿論數(shù)據(jù)采集

        大數(shù)據(jù)時代數(shù)據(jù)量突增,數(shù)據(jù)結(jié)構(gòu)復雜多變,冗余信息占比高,為了更好的解決文本原因情感提取所需要資源來源,本文提出基于聚焦式網(wǎng)絡爬蟲的輿情獲取技術,并使用webmagic爬蟲框架。WebMagic由四個組件(Downloader、PageProcessor、Scheduler、Pipeline)構(gòu)成,將這些組件結(jié)合并完成多線程的任務后,你基本上可以對爬蟲的功能做任何定制。

        與通用爬蟲不同,聚焦網(wǎng)絡爬蟲并不追求大的覆蓋,而將目標定位抓取與主題相關的特定網(wǎng)頁,爬取廣度小,精確度高,極大地節(jié)省了硬件和網(wǎng)絡資源。

        我們提出的聚焦式網(wǎng)絡爬蟲技術主要分為四個模塊,如圖2所示:(1)瀏覽器模塊,利用該模塊能模擬瀏覽器的一個請求發(fā)送過程,利用不同協(xié)議去獲取URL信息。(2)URL隊列模塊,給爬蟲程序創(chuàng)造隊列,用于存放爬到的URL地址。(3)時間模塊,用于創(chuàng)建進程的睡眠時間,使爬蟲程序可以按用戶需求定時執(zhí)行任務。(4)數(shù)據(jù)庫模塊,通過調(diào)用該模塊,可以連接數(shù)據(jù)庫,并通過編寫數(shù)據(jù)庫語句,使程序能夠?qū)?shù)據(jù)庫進行操作。

        圖2 基于聚焦網(wǎng)絡爬蟲的輿論數(shù)據(jù)采集技術

        2.3 特征提取方法

        社交媒體帶來了大量的網(wǎng)絡數(shù)據(jù),其中通常包含復雜而多樣的文本信息,使得情緒分析難以計算。針對這一問題,我們提出了一種基于注意機制的深度學習特征提取方法。該方法能從大量信息中有選擇地篩選出重要信息并且聚焦到這些內(nèi)容上,同時忽略大多數(shù)不重要的信息,比如從文本中包含的大量詞匯中,抽取出識別度比較高的詞匯,在處理后的特征集中通過相關技術可以抽取出關鍵詞構(gòu)成特征,在保證文本原有的核心信息的基礎上,去除區(qū)分度小的、影響力小的詞匯,減少需要處理的詞匯數(shù)量,從而降低向量空間的維數(shù),簡化計算,提高文本處理的速度和效率。在接下來的情感分析任務中引入注意力機制,可以使神經(jīng)網(wǎng)絡更多地關注文本中包含情感信息較多的部分。

        圖3展示了特征提取方法的總體思路:從整個深度學習模型中提取特征向量,編碼器對輸入序列中的每個項進行處理,并通過編譯捕獲輸入信息(稱為上下文)。在處理完整個輸入序列之后,編碼器將上下文發(fā)送到解碼器,解碼器逐項開始產(chǎn)生輸出序列;在上下文信息中不妨假設我們想要得到第i個詞語的表征,對于包含第i個單詞的單詞組合,會生成兩個輸出:一個用于特征提?。ňG色圓圈),另一個用于注意力加權(紅色圓圈)。這兩個輸出可能共享同一個網(wǎng)絡,但在本文中,我們?yōu)槊總€輸出設立單獨的網(wǎng)絡。在得到最后的注意力權重之前,注意力(紅色圓圈)的輸出通過需要經(jīng)過sigmoid和softmax層的運算。這些注意力權重會與提取出的特征相乘,以得到詞語的表征。

        圖3 輿情分析中的特征提取方法

        2.4 輿情分析與可視化展示

        經(jīng)過聚焦式爬蟲對文本資源的篩選以及對文本進一步的特征提取,我們采用情感-原因部分提取技術,把處理過后的文本通過多任務學習(原因提取和情感提取能相互改善)進行個體情感提取和原因提取,然后進行情感-原因配對和過濾,提取出關鍵字和學生情緒正負及其強度,最后進行數(shù)據(jù)的可視化展示,如圖4。

        圖4 輿情分析與可視化展示

        具體實現(xiàn)和流程圖如下:

        第一步,將一條博客分成幾個子句或詞組。提取出博客中一系列的情感子句和原因子句。

        第二步,將笛卡爾積應用于情感子句組和原因子句組,獲得所有可能的情感-原因子句對。所有可能的情緒-原因?qū)Χ加扇齻€特征向量表示:情緒子句、原因子句和兩個子句之間的距離(即相關性)。然后將訓練好的邏輯回歸模型檢測每個可能的情感-原因子句對,篩選出有因果關系的情感-原因子句對。

        第三步,分別從每對情感-原因?qū)Φ那楦凶泳渲杏嬎愠銮楦袕姸?,原因子句中提取出關鍵詞或字。

        第四步,以月或天為單位作時間—情緒強度折線圖和詞云圖進行可視化展示。數(shù)據(jù)的呈現(xiàn)也是一種分析,之后管理人員直接通過這些數(shù)據(jù),結(jié)合當下情況做貼合實際的分析。通過詞云圖,我們可以知道公眾最近在關注的問題以及生活中的重大事件,以便于更好地了解相關情況,及時給與回應。通過時間—情緒強度折線圖,我們可預測下一個輿情高漲點在何時出現(xiàn),重點關注此刻需要留意人群的情況。

        3 總結(jié)

        本文主要總結(jié)了現(xiàn)有的輿情分析系統(tǒng)中存在的問題。在青少年成長過程中持續(xù)關注他們的身心健康發(fā)展至關重要。輿情分析系統(tǒng)能夠高效準確地跟蹤、控制輿情的走向與發(fā)展,提高網(wǎng)絡輿情的引導、管理水平,掌握信息傳播的主動權。基于因果的情感分析則能減少輿情分析系統(tǒng)中人為標注所帶來的問題。根據(jù)目前我們所了解到的研究,我們是首個將基于因果的情感分析結(jié)合注意力機制融入到輿情分析系統(tǒng)中。在以后的工作中,我們會持續(xù)改進,利用分析得到的信息為個人提供可靠建議。

        猜你喜歡
        特征提取文本情感
        如何在情感中自我成長,保持獨立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長,保持獨立
        一種基于LBP 特征提取和稀疏表示的肝病識別算法
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        中文字幕日韩精品美一区二区三区| 国产亚洲av无码专区a∨麻豆| 亚洲av乱码中文一区二区三区| 小13箩利洗澡无码免费视频| 新视觉亚洲三区二区一区理伦| 台湾佬中文网站| 欧美日韩亚洲国内综合网| 亚洲熟女av中文字幕网站| 国产女主播大秀在线观看| 亚洲youwu永久无码精品| 人人爽人人爱| 精品国产亚洲一区二区三区演员表 | 日韩av一区二区三区精品久久 | 无码片久久久天堂中文字幕| 草莓视频成人| 亚洲图片第二页| 水蜜桃男女视频在线观看网站| 免费无码av一区二区| 国产精品半夜| 一区二区三区中文字幕有码| 国产av久久在线观看| 久久久www成人免费精品| 亚洲精品第一国产麻豆| 亚洲自偷自拍另类第一页| 久久人人爽人人爽人人片av高请 | 亚洲成人电影在线观看精品国产 | 久久亚洲精品国产亚洲老地址| 黄桃av无码免费一区二区三区| 日韩精品无码久久久久久| 亚洲精品午夜精品国产| 在线免费看91免费版.| 国产亚洲日本精品无码 | 精品一区二区三区人妻久久| 亚洲中文字幕剧情类别| 亚洲人成网址在线播放| 日韩欧美国产亚洲中文| 亚洲精彩av大片在线观看 | 国产亚洲人成a在线v网站| 免费无码又爽又刺激又高潮的视频| 日本一区二区在线播放视频| 亚洲国产天堂久久综合网|