王佳 張子杰 羅海吉 劉英豪 陳煒
[摘 要]隨著信息分享、交流、傳播等各種網(wǎng)絡(luò)社交行為的經(jīng)常化,對泛在網(wǎng)絡(luò)中的大學(xué)生情緒信息進(jìn)行分析及研究,有利于開展大學(xué)生群體的實(shí)時情緒監(jiān)測、輿情發(fā)現(xiàn)、輿論引導(dǎo)等工作。使用集搜客網(wǎng)絡(luò)爬蟲軟件挖掘2017年7月至2018年7月百度貼吧中的高校貼吧的文本信息,獲得289萬份語料文本,經(jīng)去噪、去重后獲得114萬份文本,基于基本情緒及大學(xué)生特有情緒分為“悲傷、痛苦、憤怒、害怕、驚奇、高興”6類大學(xué)生情緒類別,基于詞頻統(tǒng)計(jì)數(shù)據(jù)確定各情緒類別核心詞,并使用基于Word2vec工具進(jìn)行訓(xùn)練,構(gòu)建基于泛在網(wǎng)絡(luò)的大學(xué)生情緒語料庫,為大學(xué)生領(lǐng)域的情緒聚類研究提供支撐。
[關(guān)鍵詞]泛在網(wǎng)絡(luò);大學(xué)生;情緒語料庫
[中圖分類號] G645 [文獻(xiàn)標(biāo)識碼] A [文章編號] 2095-3437(2020)01-0189-03
隨著學(xué)業(yè)壓力、就業(yè)壓力的增大,大學(xué)生心理問題凸顯,各大高校紛紛尋求對策,圍繞心理健康教育、第二課堂活動、心理狀況篩查等方面開展了大量的工作,并取得了不少成績。可是目前大學(xué)生的心理健康測試普遍存在主觀性強(qiáng)、隱藏性強(qiáng)、準(zhǔn)確性不夠的特點(diǎn),這給心理危機(jī)事件的預(yù)防和處理帶來了困難。
新媒體環(huán)境下,泛在網(wǎng)絡(luò)已日益成為反映大學(xué)生學(xué)習(xí)、生活真實(shí)情緒的平臺。大學(xué)生不只能夠在各種網(wǎng)絡(luò)社交平臺中自由分享實(shí)時心情、動態(tài)等個人信息,還可以及時對他人提供的信息進(jìn)行反饋和評論。泛在網(wǎng)絡(luò)中海量文本數(shù)據(jù)真實(shí)、全面、實(shí)時、互動的特點(diǎn),為分析大學(xué)生群體的情緒提供了便利條件。
一、研究現(xiàn)狀
為了加強(qiáng)對文本的情感挖掘,國內(nèi)學(xué)者先后研發(fā)了知網(wǎng)Hownet情感詞典、清華大學(xué)李軍中文褒貶義詞詞典、大連理工大學(xué)情感詞匯本體詞典等,并基于微博,通過計(jì)算情感詞的情緒權(quán)值[1]、反饋“異常情感”[2]、無監(jiān)督情感分類、判斷情感傾向類別[3]進(jìn)行了文本情緒挖掘的優(yōu)化,將深度學(xué)習(xí)的方法引入文本情感識別工作中,用句法依賴規(guī)則和詞性特征[4]、Word2vec[5]、HMM[6-8]、卷積神經(jīng)網(wǎng)絡(luò)[9]構(gòu)建模型,預(yù)測情感強(qiáng)度。
相較于情感的內(nèi)隱性、持續(xù)性等特點(diǎn),情緒在第一時間產(chǎn)生,往往是伴隨著生理喚醒和外部表現(xiàn)的主觀體驗(yàn)[10]。大學(xué)生情緒具有體驗(yàn)豐富、波動強(qiáng)烈、反應(yīng)敏感等特點(diǎn),并隨著學(xué)業(yè)、就業(yè)等壓力的增大而日益凸顯。對大學(xué)生的實(shí)時情緒進(jìn)行動態(tài)挖掘和分析,對于大學(xué)生心理健康教育有著非常重要的意義。
本文擬通過自然語言處理方法,對泛在網(wǎng)絡(luò)環(huán)境中的大學(xué)生文本進(jìn)行情緒詞語采集和挖掘,并通過深度學(xué)習(xí)的工具方法,按照情緒類別和權(quán)值等性質(zhì)排序,初步建立大學(xué)生情緒語料庫。
二、WEB文本數(shù)據(jù)采集
隨著互聯(lián)網(wǎng)的普及,大學(xué)生在泛在網(wǎng)絡(luò)環(huán)境中不斷發(fā)生大量的檢索、瀏覽、下載等行為,并在互聯(lián)網(wǎng)社交平臺中留下大量的數(shù)據(jù)痕跡[11]。相較于QQ、微信的隱私性以及微博用戶的不確定性,全球最大的中文社區(qū)、注冊用戶量已達(dá)到10億的百度貼吧具有明確的高校主題、準(zhǔn)確的社區(qū)分類以及深度互動等特點(diǎn),為大學(xué)生情緒文本的采集提供了便利條件。
2017年7月至2018年7月,課題組通過網(wǎng)絡(luò)爬蟲工具即集搜客,以“百度貼吧 高?!睘殛P(guān)鍵詞進(jìn)行搜索,連續(xù)采集600個高校貼吧中的主題帖以及跟帖數(shù)據(jù),獲取共計(jì)289萬份貼吧文本數(shù)據(jù),經(jīng)去噪、去重處理后獲得114萬份文本數(shù)據(jù)。
三、文本預(yù)處理
大學(xué)生的網(wǎng)絡(luò)文本具有文本量大、文本長度短、表達(dá)不規(guī)范[12]等特點(diǎn),這給情緒的準(zhǔn)確識別帶來很大的困難。課題組基于以上特征,結(jié)合現(xiàn)有的分詞軟件功能,設(shè)立分詞預(yù)處理比較原則如下:①文本提取的完整性,文本保留得越完整越好。②按照最少切分原則,比較詞元個數(shù),數(shù)量越少越好。③比較詞長平均長度,長度越平均越好。
課題組在百度貼吧中隨機(jī)抽取一份大學(xué)生文本,其原文如下:“畢設(shè)讓我要瘋了:有沒有哪位大神會m序列的特性分析用C語言編出來,我要瘋了,這都是什么鬼,完全是毫無頭緒?!闭n題組基于天據(jù)英眼、ROSTCM、IKAnalyzer、Paoding、jieba這5種常用的開源分詞工具對此進(jìn)行分詞處理,結(jié)果如表1。
按照以上原則來分析會發(fā)現(xiàn),IKAnalyzer、Paoding、jieba5都存在自定義擴(kuò)展詞,天據(jù)英眼、IKAnalyzer的分詞結(jié)果中詞數(shù)量相對較多,ROSTCM6在文本完整性、詞元數(shù)量、詞平均長度方面均具有較好的效果,故將該工具作為文中大學(xué)生文本的預(yù)處理工具。
課題組將114萬份貼吧文本數(shù)據(jù)進(jìn)行分詞、去噪,剔除12770項(xiàng)重復(fù)詞語,刪除出現(xiàn)頻率低于2的詞匯,確定42833個詞語作為大學(xué)生基本詞匯。
四、情緒分類及核心詞的確定
20世紀(jì)中葉,學(xué)者們基于面部表情等身體體征對情緒進(jìn)行了界定和分類,取得了不少成果。隨著互聯(lián)網(wǎng)的發(fā)展,海量互聯(lián)網(wǎng)文本信息的有效獲取以及數(shù)據(jù)挖掘技術(shù)和分析技術(shù)的不斷提升,學(xué)者們逐步轉(zhuǎn)向?qū)φZ言的情緒分類研究。
通過比較現(xiàn)有文本情緒分類的基本情緒分類,尤其是針對網(wǎng)絡(luò)微博的情緒分類,確定“高興、憤怒、悲傷、害怕、驚奇”5種文本基本情緒類別。結(jié)合大學(xué)生學(xué)習(xí)、經(jīng)濟(jì)、就業(yè)、人際交往等應(yīng)激源元素以及引發(fā)自殺的直接原因即心理痛苦[13],添加“痛苦”類情緒,建立“悲傷、痛苦、憤怒、害怕、驚奇、高興”6類大學(xué)生情緒類別。借助武漢大學(xué)開源的ROSTCM6軟件對42833個詞語進(jìn)行大學(xué)生基本詞匯詞頻統(tǒng)計(jì)和人工分類后,將各類情緒類別高頻詞按照數(shù)量高低統(tǒng)計(jì)如表3所示。
按照以上統(tǒng)計(jì)數(shù)據(jù),確定詞頻數(shù)最大的高頻詞為該類情緒的核心詞。
五、語料訓(xùn)練
(一)Word2vec模型選擇
Word2vec是google公司2013年推出的一款用于自然語言處理中詞向量訓(xùn)練的開源軟件工具,通過計(jì)算機(jī)訓(xùn)練給定文本的輸入和輸出,并不斷修正這個神經(jīng)網(wǎng)絡(luò)中的參數(shù),得到詞向量。
Word2vec有2種訓(xùn)練框架: ①在給定上下文的情況下,詞 w的概率CBOW(continuous bag-of-words),其特點(diǎn)是訓(xùn)練速度快,但窗口范圍外的詞匯關(guān)系難以正確被模型所捕獲。②在給定詞w的情況下,其上下文概率的 Skip-gram (continuous skip-gram) ,其特點(diǎn)是低頻詞的訓(xùn)練效果較好[14]??紤]到泛在網(wǎng)絡(luò)論壇文本中新詞及低頻詞大量存在,因此選擇Skip-gram模型進(jìn)行訓(xùn)練。
(二)Word2vec的工程目錄
Word2vec項(xiàng)目中與訓(xùn)練詞向量相關(guān)的語言文件主要是Learn.java、Word2vec.Java 2個文件,其中,Learn.java文件中包含了特征的訓(xùn)練、訓(xùn)練的模型、詞頻統(tǒng)計(jì)的實(shí)現(xiàn),Word2vec.java包含了模型的加載以及相似度的計(jì)算。
(三)訓(xùn)練參數(shù)比較
1.相同詞匯在不同數(shù)據(jù)量的相關(guān)性數(shù)據(jù)比較
相同詞匯在不同的數(shù)據(jù)量下,數(shù)據(jù)量的增大以及首次出現(xiàn)的新詞,導(dǎo)致相同詞匯與種子詞之間相關(guān)性的非線性變化,其結(jié)果如表4所示。
2.相同詞匯在不同窗口條件下的相關(guān)性數(shù)據(jù)比較
經(jīng)過對去噪、去重等處理后的114萬份語料文本進(jìn)行實(shí)驗(yàn)后,在相同詞匯下的不同窗口中可以看出,在窗口大小為10的時候其相似度更大,而且在人工挑選時通過去噪、去重處理的無意義詞匯最少,其結(jié)果如表5所示。
獲取適用于大學(xué)生情緒詞特征提取的方法:在窗口大小為10的情況下選擇大樣本分析。
(四)實(shí)驗(yàn)結(jié)果
114萬份語料文本經(jīng)Word2vec訓(xùn)練后,以“悲傷”為悲傷情緒的核心詞得到情緒詞362個,以“哭”為痛苦情緒的核心詞得到情緒詞272個,以“罵”為憤怒情緒的核心詞得到情緒詞304個,以“打”為恐懼情緒的核心詞得到情緒詞338個,以“酷”為驚奇情緒的核心詞得到情緒詞322個,以“好”為高興情緒的核心詞得到情緒詞302個。
通過各詞語與各類情緒核心詞的相似度計(jì)算,建立大學(xué)生情緒詞典語料庫如表6所示。
六、展望
本文通過挖掘百度貼吧中的高校大學(xué)生文本,并基于Word2vec方法初步建立具有針對性的大學(xué)生情緒語料庫。接下來,課題組將拓展泛在網(wǎng)絡(luò)中的大學(xué)生文本數(shù)據(jù)來源,繼續(xù)挖掘文本數(shù)據(jù),并通過驗(yàn)證和實(shí)驗(yàn)進(jìn)一步提升分詞效率,增強(qiáng)情緒值的準(zhǔn)確性,不斷完善和更新語料庫,為更有效地開展大學(xué)生情緒聚類分析提供支撐和便利,從而為大學(xué)生心理健康教育和管理提供有效借鑒。
[ 參 考 文 獻(xiàn) ]
[1] 陽愛民,林江豪,周詠梅.中文文本情感詞典構(gòu)建方法[J].計(jì)算機(jī)科學(xué)與探索,2013(11):1033-1039.
[2] 孫波,陳玖冰,劉永娜.大數(shù)據(jù)背景下的學(xué)生情感詞典構(gòu)建方法[J].北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(4):358-361.
[3] 柳位平,朱艷輝,栗春亮,等.中文基礎(chǔ)情感詞詞典構(gòu)建方法研究[J].計(jì)算機(jī)應(yīng)用,2009(10):2875-2877.
[4] 鄧淑卿,李玩?zhèn)?,徐?基于句法依賴規(guī)則和詞性特征的情感詞識別研究[J].情報(bào)理論與實(shí)踐,2018(5):137-142.
[5] 楊小平,張中夏,王良,等.基于Word2Vec的情感詞典自動構(gòu)建與優(yōu)化[J].計(jì)算機(jī)科學(xué),2017(1):42-47+74.
[6] 谷學(xué)靜.基于人工心理的HMM情感建模方法及虛擬人技術(shù)研究[D].北京:北京科技大學(xué),2003.
[7] 張謙,高章敏,劉嘉勇.基于word2vec的微博短文本分類研究[J].信息網(wǎng)絡(luò)安全,2017(1):57-62.
[8] 李銳,張謙,劉嘉勇.基于加權(quán) word2vec的微博情感分析[J].通信技術(shù),2017(3):502-506.
[9] 張志華.基于深度學(xué)習(xí)的情感詞向量及文本情感分析的研究[D].上海:華東師范大學(xué),2016.
[10] 傅小蘭.情緒心理學(xué)[M].上海:華東師范大學(xué)出版社,2016:5.
[11] 劉林.面向論壇文本的大學(xué)生情緒識別研究[D].武漢:華中師范大學(xué),2016.
[12] 楊佳能,陽愛民,周詠梅.基于語義分析的中文微博情感分類方法[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2014(11):14-21+30.
[13] SHNEIDMAN E S. Commentary: Suicide as Psychache[J].Journal of Nervous & Mental Disease, 1993(3): 145-147.
[14] 王仁武,陳川寶,孟現(xiàn)茹.基于詞向量擴(kuò)展的學(xué)術(shù)資源語義檢索技術(shù)[J].圖書情報(bào)工作,2018(19):111-119.
[責(zé)任編輯:龐丹丹]