亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于語料庫的網(wǎng)絡(luò)群體事件情感傾向分析模型

        2021-01-13 01:07:04白潔尹明輝劉偉強(qiáng)
        關(guān)鍵詞:語料庫

        白潔 尹明輝 劉偉強(qiáng)

        摘要:介紹了一種基于語料庫的群體情感傾向度分析模型,該模型基于傾向性語料庫中的極性詞匯對集合中每一份素材文本進(jìn)行分詞,統(tǒng)計(jì)并計(jì)算素材文本中出現(xiàn)的極性詞匯的強(qiáng)度值,得到整篇素材文本的傾向度,對集合中所有素材文本的傾向度進(jìn)行統(tǒng)計(jì)并歸一化,帶入分段條件函數(shù)中進(jìn)行傾向度判斷,得到網(wǎng)絡(luò)群體對該事件的情感傾向。通過對巴以沖突和中國空間站2個近期熱點(diǎn)事件的對照測試,驗(yàn)證了模型的正確性。

        關(guān)鍵詞:極性詞匯;語料庫;情感傾向度;向量分析

        中圖分類號:TP311.5文獻(xiàn)標(biāo)志碼:A文章編號:1008-1739(2021)23-54-4

        0引言

        國家管理者在決策活動中必然會涉及關(guān)乎民眾利益的社會客觀情況,以及民眾在認(rèn)知、情感和意識的基礎(chǔ)上對社會客觀事件的態(tài)度(民意)[1]。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,民眾越來越多地通過微博、論壇、微信等手段對公共事件或熱點(diǎn)事件發(fā)表意見、觀點(diǎn)、言論和態(tài)度,如何及時識別網(wǎng)民這一群體對某一事件的情感傾向,成為網(wǎng)絡(luò)輿情管理的重要研究課題[2-3],而不同群體情感傾向的偏差研究,是解決輿情群體情感傾向差異分析的重點(diǎn)[4]。本文提出了一種基于語料庫的網(wǎng)絡(luò)群體對事件的情感傾向分析模型,用于分析網(wǎng)絡(luò)上的群體對某個事件的情感傾向。該模型以網(wǎng)絡(luò)上某事件相關(guān)的微博、帖子等文本為素材集合,基于傾向性語料庫中的極性詞匯對集合中每一份素材文本進(jìn)行分詞,統(tǒng)計(jì)并計(jì)算素材文本中出現(xiàn)的極性詞匯的強(qiáng)度值,得到整篇素材文本的傾向度,再對集合中所有素材文本的傾向度進(jìn)行統(tǒng)計(jì)并歸一化,帶入分段條件函數(shù)中進(jìn)行傾向度判斷,得到當(dāng)前網(wǎng)絡(luò)群體對該事件的情感傾向是正面的、中立的還是負(fù)面的,從而及時采取相應(yīng)的輿情管控手段加以引導(dǎo)。

        1定義

        1.1群體認(rèn)知

        群體是指按某種特征結(jié)合在一起的多個個體,群體與個體相對,是個體的集合。群體對事件的認(rèn)知是指某個特定群體對事件的看法或態(tài)度。對一個事件的群體認(rèn)知數(shù)據(jù)主要來源于個人微博、Twitter、QQ空間、朋友圈、論壇和貼吧等個人社交軟件產(chǎn)生的信息。

        1.2情感傾向度

        群體對事件的情感傾向即廣大個體對于特定事件的公眾認(rèn)知。事件可以來自線上傳播,也可以來自媒體報道,事件傳播途徑多是通過互聯(lián)網(wǎng)上的各類社交媒體軟件、論壇和貼吧等。互聯(lián)網(wǎng)是一個任何人均可以發(fā)聲的大平臺,信息傳播是一種松散的網(wǎng)狀結(jié)構(gòu),存在于社會各個階層的網(wǎng)民是構(gòu)成這個網(wǎng)的節(jié)點(diǎn),他們掌握的或多或少的碎片化信息在節(jié)點(diǎn)間流動,雖然虛擬環(huán)境中仍然存在意見領(lǐng)袖和沉默螺旋效應(yīng),但缺少了社會群體中的監(jiān)督機(jī)制和自我約束,導(dǎo)致群體情感傾向帶有更多的情緒和不理智因素。同時,群體對事件的情感傾向也不都以文字的形式體現(xiàn),很多人并不直接發(fā)聲,而是對贊同的觀點(diǎn)點(diǎn)贊。同時,群體在使用社交媒體軟件時,經(jīng)常會使用表情符號表達(dá)自己的情感,而有時表情符號會傳達(dá)出比文字更強(qiáng)烈的傾向性。

        2模型應(yīng)用

        2.1模型原理

        群體對某個事件的情感傾向性可歸類為正面、中立和負(fù)面。以一定平臺上的素材為基礎(chǔ),事先構(gòu)建傾向性語料庫,采集目標(biāo)群體對特定事件的相關(guān)文本,利用自然語言處理技術(shù)提取文本中的詞匯和表情符號,基于語料庫進(jìn)行分析計(jì)算得到對事件的傾向度,從而判斷目標(biāo)群體對該事件的傾向性。群體傾向性分析流程如圖1所示。

        (1)構(gòu)建傾向性語料庫

        使用網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)上采集近期常見的傾向性詞匯和表情符號,經(jīng)過人工對詞匯和表情進(jìn)行分類并設(shè)置權(quán)重后,再為詞匯和表情建立倒排索引,形成語料庫。

        (2)提取事件相關(guān)文本的傾向性屬性

        收集目標(biāo)群體針對某事件的相關(guān)文本素材形成原始素材集合,為每一份文本素材構(gòu)建情感傾向性屬性向量。

        (3)計(jì)算事件的傾向度

        對于包含傾向性屬性向量的文本素材,根據(jù)其傾向性屬性向量,結(jié)合語料庫中詞匯和表情符號的權(quán)重值計(jì)算每篇文本素材的傾向度。

        (4)分析群體對事件的傾向性

        遍歷原始素材集合中的所有素材,對集合內(nèi)所有素材的傾向度進(jìn)行帶符號累加求和后做歸一化處理,求出被分析群體對該事件的傾向度。

        2.2模型設(shè)計(jì)

        2.2.1構(gòu)建傾向性語料庫

        傾向性詞匯即包含情感傾向的詞匯,可以是形容詞或者副詞,比如幸福、漂亮、卑鄙、愚蠢等;也可以是動詞,比如支持、點(diǎn)贊、反對、作弊等;也可以是介詞短語,比如干的漂亮、有意境等。這些具有傾向性的詞匯出現(xiàn)在語句中,通常會表達(dá)出個體對事件的情感傾向是正面積極的,還是負(fù)面消極的。向傾向性語料庫中插入詞匯時,除了要包含正統(tǒng)詞匯外,還應(yīng)盡可能多地包含網(wǎng)絡(luò)流行用語。每一個進(jìn)入語料庫的詞匯除了要進(jìn)行正面、負(fù)面分類外,還要對其情感強(qiáng)度進(jìn)行評估,并預(yù)置一個強(qiáng)度值。

        在社交媒體軟件中,比如新浪微博、微信、QQ等,表情符號也被用戶廣泛使用。用戶在表達(dá)具有情感傾向的觀點(diǎn)時,經(jīng)常會在文本中附加表情符號,它近似刻畫了用戶的表情,能夠簡單、直觀地展現(xiàn)出用戶的情感傾向。根據(jù)表情符號的不同可以歸類到不同的傾向中,比如:笑臉符號可以歸類到正面傾向中;憤怒或哭泣的符號可以歸類到負(fù)面傾向中。而不同的符號傳達(dá)的情感強(qiáng)度也不相同,應(yīng)當(dāng)為其預(yù)置不同的強(qiáng)度值,比如:大笑符號的情感強(qiáng)度應(yīng)當(dāng)大于微笑符號。

        當(dāng)傾向性詞匯和表情符號共同出現(xiàn)時,可認(rèn)為該組合比單純使用傾向性詞匯或表情符號傳達(dá)了更加強(qiáng)烈的情感強(qiáng)度。2.2.2提取傾向性屬性

        為了分析群體對某事件的情感傾向是正面、中立,還是負(fù)面的,首先要采集該群體發(fā)布的與事件相關(guān)的文本素材,形成原始素材集合,再對集合中的每一個文本素材建模,形成情感傾向性屬性向量,每份文本對應(yīng)一個屬性向量,全部相關(guān)文本的屬性向量形成一個向量集合。屬性向量將文本看成是一系列詞和表情符號的集合,這些詞的詞性可能是形容詞、副詞、感嘆詞,可能是語料庫中的詞匯或表情符號,也可能是詞匯與符號組成的表征詞組[5]。情感傾向性屬性向量包括7個屬性,各屬性描述如表1所示。

        在構(gòu)件文本的情感傾向性屬性向量時,首先利用分詞工具從文本中提取詞匯和表情符號,在語料庫中檢索提取出的詞匯和表情符號的情感傾向性分類和權(quán)重值,統(tǒng)計(jì)正面、負(fù)面數(shù)量后,填寫向量的各個屬性。

        2.2.3計(jì)算素材傾向度

        在情感傾向性屬性向量集合構(gòu)建完成后,利用語料庫對向量進(jìn)行進(jìn)一步分析,計(jì)算每個向量的情感傾向度。

        在事件相關(guān)文本中,包含的正面傾向的詞匯更多時,可認(rèn)為群體對該事件的傾向性是正面的。相反,如果包含的負(fù)面傾向的詞匯更多時,則認(rèn)為群體對該事件的傾向性是負(fù)面的[6]。在構(gòu)建語料庫時根據(jù)詞匯或者表情符號的情感強(qiáng)烈程度設(shè)置了相應(yīng)的權(quán)重值,通過對不同情感傾向分類的詞匯和表情符號計(jì)數(shù)并加權(quán)計(jì)算,可以得到該文本的總體情感傾向度,事件相關(guān)文本的傾向度計(jì)算如圖2所示。

        2.3模型實(shí)現(xiàn)

        在2.2節(jié)的模型設(shè)計(jì)基礎(chǔ)上用Java+JS語言、基于Spring Boot+VUE框架,開發(fā)實(shí)現(xiàn)了一個基于新浪微博的群體情感傾向分析軟件,能夠從新浪微博上爬取熱門事件的微博文本內(nèi)容,對微博文本進(jìn)行情感傾向性分析,之后再對熱門事件的整體情感傾向度進(jìn)行計(jì)算,得出微博用戶群體對該熱門事件的情感傾向。

        2.4應(yīng)用分析

        為了驗(yàn)證模型的正確性,本文選取了2021年巴以沖突和中國空間站2個近期熱點(diǎn)事件作為測試用例,使用軟件爬取微博上的文章,分析微博用戶對事件的情感傾向性作為對照,再由人工對爬取的所有微博進(jìn)行閱讀并判斷情感傾向,以驗(yàn)證軟件分析結(jié)果的正確性。為了提升效率,測試僅對微博正文內(nèi)容進(jìn)行分析,不分析評論內(nèi)容。

        2.4.1測試結(jié)果對照

        (1)2021年巴以沖突

        2021年5月10日晚,以色列與巴勒斯坦加沙地帶邊界的局勢急劇惡化,巴以雙方爆發(fā)激烈沖突。本測試用例選取5月10日—6月20日的相關(guān)微博進(jìn)行分析,共取樣92篇微博。巴以沖突事件模型分析結(jié)果與人工分析結(jié)果對比如表2所示。

        從分析結(jié)果可以看出,微博網(wǎng)友對于巴以雙方在2021年爆發(fā)的沖突基本持中立態(tài)度,略偏向于負(fù)面。

        (2)中國空間站

        中國空間站的天和核心艙于2021年4月29日發(fā)射升空進(jìn)入預(yù)定軌道,5月30日天舟二號貨運(yùn)飛船成功與天和核心艙對接,6月17日神舟十二號載人飛船發(fā)射成功并與天和核心艙對接,3名中國宇航員進(jìn)入中國自己的空間站。本測試用例選取4月29日—6月20日時間范圍內(nèi)的相關(guān)微博進(jìn)行分析,共取樣274篇微博。中國空間站事件模型分析結(jié)果與人工分析結(jié)果對比如表3所示。

        從分析結(jié)果可以看出,微博網(wǎng)友對國產(chǎn)空間站的微博揚(yáng)溢自豪之情,情感傾向基本全為正面。2.4.2測試結(jié)果分析

        從2個測試用例的對比結(jié)果看,模型對熱點(diǎn)事件微博群體情感傾向度分析結(jié)果與人工分析結(jié)果基本一致,但正面和負(fù)面微博具體數(shù)量略有差異。在第1個案例中模型分析得出的負(fù)面微博數(shù)量略多于人工分析結(jié)果,經(jīng)過分析發(fā)現(xiàn)主要是由于在第2個案例中模型識別出的幾篇負(fù)面微博主要是由于這幾篇微博有的是描述火箭殘骸處理的,出現(xiàn)了失控、墜毀、垃圾等負(fù)極性詞匯。另外幾篇微博是諷刺西方的,出現(xiàn)了被迫害、妄想等負(fù)極性詞匯。雖然人工和模型分析得到的情感傾向度數(shù)值存在差異,但誤差率在可控范圍內(nèi),基本不影響模型應(yīng)用效果。

        3結(jié)束語

        本文提出的基于語料庫的事件群體傾向度分析模型能夠快速、高效地對微博等互聯(lián)網(wǎng)群體關(guān)于某個熱點(diǎn)事件的情感傾向進(jìn)行分析,分析結(jié)果可用于支撐輿情管理。通過與人工分析結(jié)果進(jìn)行對比,模型分析得到的結(jié)論基本正確,但使用基于模型的分析軟件僅需幾分鐘即可得到分析結(jié)果,而對照組的人工分析卻需花費(fèi)數(shù)個小時逐一閱讀文本才能得到結(jié)果。使用模型對事件進(jìn)行群體情感傾向分析在速度和效率上具有明顯優(yōu)勢。在測試中通過對照分析也發(fā)現(xiàn)語料庫中的極性詞匯的權(quán)值設(shè)定的準(zhǔn)確性還有待提高,后續(xù)工作中還需持續(xù)對語料庫進(jìn)行改進(jìn)和提升。

        參考文獻(xiàn)

        [1]張克生.國家決策:機(jī)制與輿情[M].天津:天津社會科學(xué)院出版社,2004.

        [2]馮江平,史俊洋,陳虹,等.網(wǎng)絡(luò)社會事件發(fā)展過程中的輿情心理分析———以“躲貓貓”事件為例[J].云南師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2012,44(4):60-70.

        [3]吳寧,尚坡利,彭琳茹.網(wǎng)絡(luò)輿情情感傾向分析模型研究[J].蘭州工業(yè)學(xué)院學(xué)報,2017,24(5):65-68.

        [4]王林,李昀澤.情感傾向分析在輿情監(jiān)控方面的研究[J].微型機(jī)與應(yīng)用,2017,36(5):11-13,17.

        [5]王國華.突發(fā)事件網(wǎng)絡(luò)輿情演變中意見領(lǐng)袖研究———以藥家鑫時間為例[J].情報雜志,2011,30(12):1-5.

        [6]蔚敏潔,劉加海.基于表情符號和文本情感傾向分析[J].計(jì)算機(jī)產(chǎn)品與流通,2020(8):232.

        猜你喜歡
        語料庫
        《語料庫翻譯文體學(xué)》評介
        基于語料庫的“はずだ”語義用法分析
        基于語料庫“隱秘”的詞類標(biāo)注初步探究
        把課文的優(yōu)美表達(dá)存進(jìn)語料庫
        基于COCA語料庫的近義詞辨析 ——以choose和select為例
        口譯不宜“任性”:基于語料庫的外事翻譯等效探索
        語言與翻譯(2015年3期)2015-07-18 11:11:04
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        基于英漢雙語平行語料庫的無根回譯研究
        基于語料庫的近義詞辨析研究——以suspect和doubt為例
        低碳經(jīng)濟(jì)英語語料庫建設(shè)與應(yīng)用
        国产人妻精品无码av在线| 日本一区二区午夜视频| 亚洲日本一区二区在线| 国产一区二区三区四区三区| 亚洲av无码一区二区三区四区 | 大又大又粗又硬又爽少妇毛片| 四川老熟妇乱子xx性bbw| 国产精品流白浆喷水| 手机在线看片在线日韩av| 男女真人后进式猛烈视频网站 | 中文字幕一区二区综合| 国产两女互慰高潮视频在线观看 | 人妻少妇精品专区性色anvn | 亚洲人成亚洲精品| 无码人妻丝袜在线视频| 亚洲精彩av大片在线观看| 午夜免费电影| 亚洲精品久久久久久| 美女极度色诱视频国产免费| 日本综合视频一区二区| 又色又爽又黄高潮的免费视频| 少妇厨房愉情理伦片bd在线观看 | 国产黄色一区二区三区av| 欧洲熟妇色| 欧美色aⅴ欧美综合色| 国产精品性一区二区三区| 成年人干逼视频水好多| 日韩精品久久久肉伦网站| 98色花堂国产精品首页| 男女啪啪免费视频网址| 国产白浆一区二区三区性色| 99re热视频这里只精品| 久久露脸国产精品WWW| 极品夫妻一区二区三区| 日本真人做人试看60分钟| 久久国产精品二区99| 日本不卡一区二区三区在线| 99久久精品在线视频| 国产精成人品| 国内视频一区| 中文av字幕一区二区三区|