申 瑩,劉春陽,趙永翼
(沈陽師范大學,沈陽 110034)
微博由于其內(nèi)容簡短且十分豐富,時時性強且連接范圍廣而在Internet用戶中非常受歡迎。它已逐漸成為人們表達意見和發(fā)泄情緒的一種方式。微博文本的情感分析的主要目的是從微博文本中分析用戶對產(chǎn)品、新聞、熱點事件和其他評論信息的看法和態(tài)度。它也是對用戶思維活動和情感的分析。使用深度學習模型分析情感時,必須將文本轉(zhuǎn)換為機器可識別的形式。常用的方法是為文本訓練單詞矢量,但是以傳統(tǒng)方式訓練的單詞矢量沒有充分利用情感信息,人們都在微博在表達情感時,表情符號通常用于表達用戶感受。一些研究表明,表情符號比情感詞具有更強的情感區(qū)別。因此,表情符號的情感特征可以用作分析訓練情感的模型的特征向量。
國外許多著名的國際會議情感分析的趨勢持續(xù)走高,相關的研究成果層出不窮。Bang等使用電影評論為實驗數(shù)據(jù),運用機器學習算法對評論進行情感分析的判斷。在實驗中,預先處理了評論,并分別使用樸素貝葉斯和極端熵模型以不同方式(包括標記語音部分、單個組、雙組、否定單詞提取等)選擇了功能。SVM來確定文本的情感傾向,即正面或負面情緒。最終的實驗結果表明,SVM的準確性為83%,在三種機器學習方法中表現(xiàn)最佳。人們渴望通過微博學習信息,并與他人互動并分享自己的情感。這吸引了越來越多的研究人員來分析用戶情感。
(1)數(shù)據(jù)預處理。文字處理是一種非常成熟的自然語言處理技術,包括標記語音部分,分詞,標記的實體識別和停用詞過濾。根據(jù)規(guī)則提取微博中的文本,照片,視頻和其他信息。根據(jù)微博文本的屬性過濾URL等,以清除無意義的微博文本。
(2)微博情感信息抽取。單詞提取是在預處理數(shù)據(jù)集中提取用于分類任務的向量的功能。在提取標注詞的方法中,使用提取算法來識別高頻詞,即標注詞,其可以代表總體評估中的情感方向特征。
SVM其主要思想是對兩類進行分類,并在高維空間中找到理想平面。為了確保分類的準確性,該分類算法指的是滿足兩個類別的最大分類間隔。從圖1和圖2可以看到,盡管兩者都在分類中起作用,但圖3.2中的分類間隔最大,因此它是最佳評級級別。
假設訓練集樣本是{xi,yi},其中i∈{1,2,…,m},xi代表待分類數(shù)據(jù),數(shù)據(jù)被分為第一類,為正向情感,yi=1,反之第二類為負向情感,yi=-1。則平面H:y=w*x+b=0為最優(yōu)超平面,那么根據(jù)以上的定義,必須滿足公式:
圖1
圖2
式中,w為Rn空間中的權向量;b為常數(shù)。若數(shù)據(jù)x滿足|w*x+b|≥1。則x支持向量機。如公式(2)所示。
對去噪后的微博文本使用NLPIR漢語分詞系統(tǒng)和知網(wǎng)HowNet情感詞表分詞并進行詞性標注。如表1所示。
表1
根據(jù)情感詞權重計算情感強度,結果如表2所示。
表2
使用微博文本數(shù)據(jù),提出了一種微博輿論分析模型,以幫助分析微博主題的情感方向。實驗結果表明,基于SVM微博輿論分析模型可以幫助提高輿論觀點情感分析的準確性;更好地理解輿論的方向,以及為更好的商業(yè)和政治活動,產(chǎn)品營銷或消費行為為決策提供了重要依據(jù)。