郭文強
摘要:支持向量機是一種基于統(tǒng)計學(xué)習(xí)理論的新的、非常有效的機器學(xué)習(xí)方法。針對當(dāng)前網(wǎng)絡(luò)輿情研究發(fā)展的新需要,本文提出一種基于支持向量機(SVM)的網(wǎng)絡(luò)輿情信息采集、提取、識別、研判的方法,具有較好的泛化能力,在與神經(jīng)網(wǎng)絡(luò)方法的比較中,該方法表現(xiàn)出較低的漏檢率、誤檢率和較好的魯棒性,在網(wǎng)絡(luò)輿情研判領(lǐng)域有深入研究的價值和良好的應(yīng)用前景。
關(guān)鍵詞:支持向量機;信息特征識別;網(wǎng)絡(luò)輿情
中圖分類號:TP393.09 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2017)02-0119-02
1 引言
網(wǎng)絡(luò)輿情研判是有效掌控網(wǎng)絡(luò)、促進社會主義和諧社會建設(shè)的重要手段[1]。當(dāng)前,信息處理領(lǐng)域內(nèi)的一個重要的研究方向是網(wǎng)絡(luò)輿情研判,它具有非常深遠(yuǎn)的實用價值。分類挖掘技術(shù)作為研究互聯(lián)網(wǎng)信息研究的一種新興統(tǒng)計學(xué)習(xí)理論,它能夠有效的從互聯(lián)網(wǎng)中獲取相關(guān)的輿情信息,通過分析后,最終達(dá)到監(jiān)控和預(yù)警的目的,對監(jiān)管部門管理和處置互聯(lián)網(wǎng)中的涉警輿情提供幫助[2-4]。本文將在計算動詞理論聚類算法中引入支持向量機技術(shù),通過分析計算動詞決策樹的趨勢后,來對互聯(lián)網(wǎng)信息進行分類和挖掘,實現(xiàn)網(wǎng)絡(luò)中的輿情偵測、繼而探索輿情源頭、網(wǎng)絡(luò)輿情的接收者及特征,最終得到輿情在互聯(lián)網(wǎng)中的傳播方式,并對輿情帶來的影響進行評估及其發(fā)展趨勢做出研判。
3 基于支持向量機技術(shù)的網(wǎng)絡(luò)輿情信息動詞決策樹的趨勢分析
在互聯(lián)網(wǎng)分析中引入聚類分析,就是對互聯(lián)網(wǎng)數(shù)據(jù)進行歸類、分組、匯總,得出群體的聚類特征并形成屬性知識。而趨勢分析則是對前面會聯(lián)網(wǎng)數(shù)據(jù)聚類分析后所得到的屬性知識為研究對象,接著設(shè)計出解決此問題的決策樹,以揭示出問題發(fā)展的趨勢,為預(yù)測和把握未來發(fā)展方向提供幫助。計算動詞決策樹的過程是:首先從研究對象屬性類型的根節(jié)點選取,其次選取根節(jié)點的下一個葉子節(jié)點N,接著找到此節(jié)點N的最佳決策屬性,然后通過計算動詞增益和計算動詞熵來訓(xùn)練節(jié)點,最后判斷是否把訓(xùn)練樣本進行了最佳分類,得到就結(jié)束,否則繼續(xù)找最佳決策屬性。
4 基于支持向量機技術(shù)的網(wǎng)絡(luò)輿情研判方法
(1)在支持向量機技術(shù)的支持下,對新聞、論壇/BBS、博客、即時通信軟件等渠道傳播的網(wǎng)絡(luò)輿情進行采集,運用聚類分析、主題檢測與跟蹤、自動摘要等定向分析技術(shù),可以得出網(wǎng)絡(luò)輿情傳播者的感情、想法、觀點、立場和意圖等主觀的特征表現(xiàn)。最終實現(xiàn)用關(guān)鍵字布控、語義分析來達(dá)到識別敏感話題的目的。(2)熱點話題、敏感話題瞄準(zhǔn)與追蹤。目前國內(nèi)外大多采用了文本聚類技術(shù)——文本關(guān)鍵字詞作為文本特征,分析新發(fā)表文章、貼子的話題是否與已有熱點或敏感主題相同,并對發(fā)表的話題和發(fā)信人發(fā)表的文章的觀點、傾向性進行分析與統(tǒng)計。(3)研究發(fā)現(xiàn)當(dāng)前的網(wǎng)絡(luò)輿情的研判和預(yù)警效果并不理想。主要原因是缺乏統(tǒng)一全面的、全方位多層次的網(wǎng)絡(luò)輿情預(yù)警信息系統(tǒng),無法滿足當(dāng)前用戶所期望的需求;此外各大廠商之間缺乏合作和協(xié)調(diào),難以形成有效的合力。所以網(wǎng)絡(luò)輿情分析及研判技術(shù)還有更大的發(fā)展空間。(4)除市場環(huán)境及用戶需求沒有邊界等特殊因素外,怎樣將計算技術(shù)與處理內(nèi)容結(jié)合,怎樣設(shè)計具體的分析引擎和自動信息采集,怎樣構(gòu)建輿情分析庫、屬性知識儲備庫,怎樣對收集的信息進行與判斷、篩選和預(yù)處理形成格式化信息,怎樣加強專家與系統(tǒng)結(jié)合、人機結(jié)合來提升輿情判斷的準(zhǔn)確性等到都是當(dāng)前解決問題的最重要環(huán)節(jié)。
5 結(jié)語
支持向量機理論建立在統(tǒng)計學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上,它作為一種新的機器學(xué)習(xí)方法,能夠依據(jù)有限的樣本信息,在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折中,在解決模式分類問題上具有近似最優(yōu),而且在沒有問題域相關(guān)知識屬性時所設(shè)計的機器依然具有較好的性能。文中提出一種基于支持向量機技術(shù)的網(wǎng)絡(luò)輿情研判方法,具有突出的小樣本學(xué)習(xí)方法,借助它強大的泛化能力,實現(xiàn)了高效的從訓(xùn)練樣本到預(yù)報樣本的“轉(zhuǎn)導(dǎo)推理”,在網(wǎng)絡(luò)輿情信息處理中具有良好的性能,即較低的誤檢率和漏檢率,這都充分表明了基于支持向量機技術(shù)對網(wǎng)絡(luò)輿情研判處理及相關(guān)問題有良好的應(yīng)用前景。
參考文獻(xiàn)
[1]李敏.互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)設(shè)計與實現(xiàn)[D].上海:復(fù)旦大學(xué),2009.
[2]王偉,許鑫.基于聚類的網(wǎng)絡(luò)輿情熱點發(fā)現(xiàn)及分析[J].現(xiàn)代圖書情報技術(shù),2011(03):74-79.
[3]周黎明,邱均平.基于網(wǎng)絡(luò)的內(nèi)容分析法[J].情報學(xué)報,2005(05):594-599.
[4]趙曙光.提高自媒體時代突發(fā)事件的輿論引導(dǎo)能力[J].政工研究動態(tài),2012(15):22-24.
[5]Vapnik V著,張學(xué)工譯.統(tǒng)計學(xué)習(xí)理論的本質(zhì)[M].北京:清華大學(xué)出版社,2000.
[6]王國勝,鐘義信,支持向量機的若干新進展[J].電子學(xué)報,2001(10):1397-1400.
[7]劉江華,程君實,陳佳品.支持向量機訓(xùn)練算法綜述[J].信息與控制,2002(1):45-50.