莊 麗,佘玉梅,江 濤,丁冬冬,王米利,劉敬鳳
(云南民族大學 數學與計算機科學學院,云南 昆明 650031)
隨著網絡的普及,網絡上用戶生成的內容越來越多,如博客、論壇、新聞評論等,成為大眾參與社會生活的一種新的平臺.相關研究表明,絕大多數網民對新聞評論的內容都基于新聞正文,外加很多自己對新聞事件的看法,除一般事實外,還有大量的主觀性內容,對之后閱讀新聞和評論的網民有著引導和交流的作用[1].研究還顯示網絡新聞跟帖評論所針對的話題,一般都是時事熱點和備受大眾關注的新聞事件,網民在網絡上表達出來的意見,不僅反映了公眾對社會重大公共事件的關注度與參與度,也反映了公眾不同的價值判斷和思想動態(tài),對社會和國家了解民情民意,制定相關政策有著很大的影響,新聞評論越來越具有參考和研究價值.
網絡新聞評論具有社會新聞共有的及時性和網絡評論獨具的開放性和多元性等特征,所以網絡新聞評論的情感特征提取相對來說更加困難,其難點主要有:
1) 評論內容的隨意性,出現(xiàn)很多與新聞內容無關,不具有任何價值的干擾信息;
2) 評述內容普遍都只有幾十個字的長度,情感特征不集中;
3) 錯誤噪聲、別字、簡字、俚語和引入的網絡新詞較多,用語不規(guī)范;
4) 指代不明確,思維發(fā)散,很多評論有很強的背景知識.
在研究方法上,由于新聞評論的語義具有模糊性,對具有模糊性的自然語言進行情感模糊化建模是可行的,其中模糊理論是處理模糊問題的有效工具之一,因此本文的目標就是找出一個有效的情感特征提取方法,運用模糊集理論對其進行特征詞的擴充,建立有效的情感特征詞庫.實驗表明,這種情感特征提取方法更適用于網絡新聞評論,基于模糊集的情感特征詞庫的擴充比傳統(tǒng)的擴充方法更有效.
美國的控制論專家Zadeh在1965年提出了模糊集理論,1973年又提出了用模糊語言描述系統(tǒng)的方法,給出了模糊集合和模糊語義的相關定義[2],把模糊數學與人工智能相結合進行了研究.
模糊語義的產生主要是由于客觀事物具有連續(xù)性與語言符號具有的離散性之間的矛盾關系.在數學模型上,我們用離散的語言符號來標志連續(xù)的事物時,就會產生邊界的模糊性.
定義1 一個語言變量是一個五元組(F,T,U,G,M).
其中F是語言變量的名稱;T表示語言變量F的語言值總體構成的集合,也叫做辭集,即一個具體的語言值名稱記作fi,我們把T表示為T=f1+f2+…,T取有限個數.U則是語言變量F的論域;G代表句法規(guī)則,通過該規(guī)則產生了F的語言值的名稱;M被稱為語言規(guī)則,T中的每個語言值fi的辭義M可以看成在論域U上fi的一個模糊集合[3].
網絡評論中情感語義挖掘的關鍵技術是提取情感特征詞,而傳統(tǒng)意義上情感詞一般由形容詞和副詞體現(xiàn),但新聞評論中語料的特殊性需要更多不同詞性的詞語作為特征,例如“哈哈”等嘆詞可以單獨作為一句話或一條評論,有著很強的感情色彩,因此在評論語料中還需要進一步的篩選和標注分類.本文認為傳統(tǒng)研究的文本分類方法局限性較多,主要表現(xiàn)在不能很準確地區(qū)分情感詞匯和普通詞匯,而且傳統(tǒng)方法更加忽略了詞匯和詞匯搭配后帶來的情感傾向性的變化,所以本文采取的方法是分階段逐步優(yōu)化選取情感特征.
S1(Phrase)=(RDF(Phrase)/(NDF(Phrase)+1).
(1)
S2(Phrase)=(RTF(Phrase)/(NTF(Phrase)+1).
(2)
其中Phrase表示在文中分詞標注后的短語,RDF(Phrase)表示Phrase出現(xiàn)在所有評論中的次數,RTF(Phrase)是Phrase在所有評論中出現(xiàn)的累計總次數,NDF(Phrase)是Phrase出現(xiàn)在所有不同新聞中的次數,NTF(Phrase)表示Phrase在所有新聞中出現(xiàn)的累計總次數.
先對評論中出現(xiàn)的詞進行打分,然后按S1的得分進行排序,設定S1(Phrase)不小于最小分數min(Phrase)(設為3),在滿足條件的語料中再按S2的得分進行排序,S2(Phrase)的最小分數min(Phrase)也不得小于3,得分較高的標注為高頻特征詞.考慮到這些情感特征詞中仍有大量的噪音和不規(guī)范的地方,因此再進行人工篩選排除,對特征詞進行情感傾向標注,最終得到正向情感語料庫(PBF)和負向情感語料庫(NBF)合成的初級情感語料庫(BF).
考慮到直接使用初級情感語料庫難免會使召回率過低,不能達到很好的效果,因此我們運用模糊理論擴充初級情感語料庫(BF)得到模糊情感語料庫(GF),本文主要對語料庫中的形容詞和副詞進行同位詞擴充.
由語言變量的定義可知,語言變量的辭義M可以看成論域上的一個模糊集合M(x).本文應用模糊集合對提取的網絡新聞評論情感特征詞中的形容詞和副詞作為語言變量進行了情感語義模糊化處理,其中在可行域上擴充的特征詞的褒貶程度分別用G(好,Good)、B(壞,Bad)表示,擴充情感詞的強度由小到大依次表示為S(少)、M(中)、L(大)、VL(極),中間沒有情感傾向的特征詞表示為Z.我們選出的情感特征詞分別擴充為VLB、LB、MB、SB、Z、SG、MG、LG、VLG 9個級別,分別表示極度貶義、相對貶義、貶義、略有貶義、中性、略有褒義、褒義、相對褒義、極度褒義,每個都對應一個模糊隸屬度函數,這里我們稱為初級擴充模糊集,如圖1.
圖1表示在Matlab模糊工具箱中擴充情感詞褒貶程度的初級擴充模糊集.針對上述各級別建立了擴充模糊集,因此高斯函數型的模糊隸屬度函數在定義域[-4,4]上表示為
(3)
式中σw、cw為模糊隸屬度函數的參數,其情感級別與w的取值相對應,其中w∈{VLB,LB,MB,SB,Z,SG,MG,LG,VLG};擴充的情感特征詞語的程度值用x來表示;y表示相應的情感評價詞程度的隸屬度;當x=cw時,y=1,得σw=0.4,當y越接近于1時,表示情感特征詞隸屬于這一情感級別的程度就越大.
在北京大學研制的數據庫NTCIR-6中就定義了1 241萬個詞與詞之間的同位關系和情感遞進關系,同時還記錄了它們之間的匹配次數(MacthCnt)和同位關系之間的置信度[4].本文對初級情感語料庫中形容詞和副詞都進行了語義模糊擴充,用自動驗證的方法來檢查這些擴充的情感特征詞匯.我們把每一個擴充得到的候選特征詞的同位正向詞數(P)與負向擴充詞數(N)進行比較,滿足P>N且P>=min(Phrase)時,即歸為正向模糊情感語料庫;N>P且N>=min(Phrase)時,歸為負向情感語料庫.這樣經過過濾后的正負擴充模糊語料庫與初級情感語料庫構成了模糊情感語料庫(GF).
本文針對搜狐網近期最熱的新聞事件《10歲女孩電梯內摔打1歲半男童 疑似將其扔下25樓》,截止到2013年12月9日有111 372次瀏覽,19 075人評論跟帖;網易新聞網《重慶長壽法院受理”女孩拋童”案 原告索賠30萬元》參與人數為121 298人,評論有13 731條;人民網《重慶摔打男童案 女孩稱陽臺逗玩致其墜落》共有157 956人關注,585人評論,共計收集新聞評論33 391條,經過人工篩選出與新聞主題無關和無感情傾向的語句2 894條后,從中抽取10 000條作為訓練語料.
本文采用哈工大信息檢索實驗室的分詞系統(tǒng),對語料進行了詞性的標注,用其開發(fā)的漢語句法分析器DeParser對句子進行分析.實驗中用本文的特征詞提取方法對比了基于句法分析提取詞性因素作為特征詞的方法,對比實驗提取的詞性因素為形容詞、副詞、動詞和名詞4類[5],從而構建了通用情感特征詞表(GC)(如表1).
表1 特征詞提取的例詞
針對特征詞的情感極性分類,本文采用了基礎情感字典,主要基于知網[6]、《褒義詞詞典》、《貶義詞詞典》[7]為主,選用的基礎情感詞典中共有情感詞匯 5 281 個,其中有 2 807 個褒義詞,有 2 474 個貶義詞.同時采用SVM和樸素貝葉斯[8]2種分類方法對語料進行分類處理,對比評價指標,結果顯示本文對新聞評論內容情感特征提取的方法要優(yōu)于根據詞性對文本內的特征詞的提取,而且NB分類方法也略微好于SVM分類方法.實驗流程如圖2所示.
實驗采用Precisiom(查準率)和Recall(召回率)作為評價分類結果的指標,用樸素貝葉斯分類方法和SVM分類方法對不同的特征提取方法形成的語料庫進行評測時,公式如下:
(4)
(5)
其中True(ci)是分類為ci并且正確的文檔數,Response(ci)是分類為ci的文檔數[9].
用樸素貝葉斯分類方法從中提取了1 493個特征詞,其中正向詞155個,負向詞1 338個;用SVM分類方法提取的特征詞為1 342,正向詞為132個,負向詞為1 210個.從實驗結果中的召回率和準確率進行對比可知,樸素貝葉斯分類方法較適合用于新聞評論的情感分類研究,NB模型比SVM模型的召回率高出接近2%.而且本文對情感特征詞的提取方法也比傳統(tǒng)研究中根據詞性提取關鍵詞的方法好很多,如表2.
表2 模糊情感特征詞庫(GF)和通用情感特征詞庫(GC)的實驗對比結果
本文主要研究了網絡新聞評論情感特征提取的難點,從模糊語義角度對特征提取進行了闡述,提出了用模糊理論擴充特征詞語料庫,并且與傳統(tǒng)方法根據詞性提取的特征詞進行了對比實驗,效果有明顯提高.
上述研究中還存在一些問題尚未得到解決:①不同主題詞和不同特征詞之間的關系識別問題;②基準詞選擇的準確性問題,它直接影響到詞匯傾向性分析的結果.通?;鶞试~的選定是由研究者決定,具有較大的不客觀性和不確定性,優(yōu)化和度量基準詞的選擇方法是重要的研究課題.本文今后的研究將會基于初級擴充模糊集對情感詞匯本體從隸屬于情感分類、極性、強度等角度進行描述,構建模糊情感細分語料庫,結合修飾詞的模糊語言算子等方法對每條新聞評價的情感值進行模糊計算,通過對大量特征詞情感值的綜合計算得到網絡評論者對新聞事件的情感傾向,分析出大量用戶對某一情感目標的主要情感傾向等.
參考文獻:
[1] 王代強,李旭曜.我國網絡新聞評論文獻綜述[J].新聞與傳播研究,2011(7):16-18.
[2] ZADEH L A. Fuzzy sets[J].Information and Control, 1965, 8(3):338-353.
[3] 劉穎.基于消費者網絡評論情感的產品模糊推理研究[D].大連:大連理工大學,2010.
[4] 陶富民,高軍,周凱.面向話題的新聞評論的情感特征選取[J]. 中文信息學報,2010 (03):37-43.
[5] 婁德成,姚天防.漢語句子語義極性分析和觀點抽取方法的研究[J].計算機應用,2006,26(11):622-625.
[6] JINDAL N, LIU B. Identifying comparative sentences in text document[C]//Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York:ACM Press, 2006:24-251.
[7] LIN,WU D D. Using text mining and sentiment an analysis for online forums hotspot detection and forecast [J].Decision Support Systems,2010(48):354-386.
[8] 楊鼎,陽愛民.一種基于情感詞典和樸素貝葉斯的中文文本情感分類方法[J].計算機應用研究,2010,27 (10):3737-3739.
[9] 王素格,李偉.面向中日關系論壇的情感分類問題研究[J].計算機工程與應用,2007,43(32):174-177.