亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Single-Pass的軍事網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)設(shè)計

        2018-01-08 22:08:52趙曉楠馬晨辰
        電子設(shè)計工程 2017年16期
        關(guān)鍵詞:文本信息系統(tǒng)

        趙曉楠,馬晨辰

        (中國人民解放軍68303部隊 甘肅 武威733004)

        基于Single-Pass的軍事網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)設(shè)計

        趙曉楠,馬晨辰

        (中國人民解放軍68303部隊 甘肅 武威733004)

        軍事網(wǎng)絡(luò)輿論導(dǎo)向是人們獲取軍事信息的主要來源,這些輿論信息將直接影響人們的判斷,甚至危害社會安全。本文基于軍事主題特點,對比常見的文本聚類算法,改進(jìn)傳統(tǒng)的Single-Pass算法,設(shè)計適合軍事主題的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng),準(zhǔn)確率和召回率都高于Single-Pass算法5個百分點以上,達(dá)到較好的效果,從而為相關(guān)部門制定決策提供可靠依據(jù)。

        Single-Pass;軍事;文本聚類;網(wǎng)絡(luò)輿情監(jiān)控

        隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)上的信息越來越豐富,由于網(wǎng)絡(luò)的虛擬性和隱蔽性,人們更喜歡通過互聯(lián)網(wǎng)進(jìn)行交流和發(fā)表各種意見。軍事作為特定的主題,更吸引著較多的軍事愛好者,他們通過網(wǎng)絡(luò)發(fā)表各類留言和評論,一些負(fù)面消極和不良輿論,嚴(yán)重地危害了社會穩(wěn)定。由于網(wǎng)絡(luò)情報資料的開放性、及時性以及便捷性等特點,作為一種新的公開情報資料,越來越受到情報工作者的重視[1-3]。甚至有一些情報工作者將網(wǎng)絡(luò)輿情作為公開情報資料搜集的第一來源。

        如何快速獲取國內(nèi)外互聯(lián)網(wǎng)媒體中關(guān)于軍事事件的評論和觀點給相關(guān)部門帶來了極大困難。主題爬蟲技術(shù)和情感分析技術(shù)的結(jié)合使我們對特定領(lǐng)域的網(wǎng)絡(luò)輿情分析成為可能。通過對特定領(lǐng)域網(wǎng)絡(luò)輿情的分析,可以給相關(guān)決策部門提供決策支持,有效防止危害社會穩(wěn)定的謠言傳播。

        1 系統(tǒng)總體功能

        軍事網(wǎng)絡(luò)輿情的特點包括突發(fā)性強、多元性強、控制難度大等特點。針對軍事網(wǎng)絡(luò)網(wǎng)絡(luò)輿情特點,本文設(shè)計利用網(wǎng)絡(luò)爬蟲技術(shù)、中文分詞技術(shù)、信息分析和處理技術(shù)、文本聚類和挖掘技術(shù)等的軍事網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng),實現(xiàn)對互聯(lián)網(wǎng)相關(guān)輿情信息的自動采集,并對海量數(shù)據(jù)進(jìn)行分析和監(jiān)控,挖掘動態(tài)輿情信息,把握處理突發(fā)事件的最佳時機。軍事網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)主要包括信息采集、輿情分析和輿情服務(wù)模塊,系統(tǒng)體系結(jié)構(gòu)如圖1所示。信息采集主要是利用網(wǎng)絡(luò)爬蟲實現(xiàn)對網(wǎng)絡(luò)輿情信息的采集,并將網(wǎng)頁信息經(jīng)過去重和去噪,生成干凈的文本信息,通過中文分析算法提取特征值,建立文本向量空間模型(VSM,Vector Space Model);輿情分析模塊是系統(tǒng)的核心部分,利用文本聚類發(fā)現(xiàn)熱點話題,并對話題進(jìn)行情感傾向性分析,使人民掌握輿情趨勢;輿情服務(wù)是向相關(guān)人員提供輿情報告,通過掌握報告實現(xiàn)對突發(fā)事件的處理,并利用個性化定制,提供方便的輿情信息,給決策者制定決策提供可靠依據(jù)[4]。

        圖1 系統(tǒng)體系結(jié)構(gòu)

        2 系統(tǒng)功能設(shè)計

        2.1 輿情信息收集

        輿情信息收集是利用網(wǎng)絡(luò)爬蟲從網(wǎng)頁中提取非結(jié)構(gòu)化信息,并存入結(jié)構(gòu)化數(shù)據(jù)庫中。依據(jù)相應(yīng)爬行規(guī)則,網(wǎng)絡(luò)爬蟲通過網(wǎng)頁鏈接地址尋找網(wǎng)頁,從網(wǎng)站的某個頁面開始,讀取內(nèi)容,分析頁面中的其它鏈接地址,然后通過這些新的鏈接地址繼續(xù)查找下一個網(wǎng)頁[5],如此循環(huán),直到爬取所有頁面或達(dá)到系統(tǒng)預(yù)先設(shè)置的停止條件。最后將與主題相關(guān)的信息經(jīng)處理后保存到系統(tǒng)數(shù)據(jù)庫中。

        2.2 輿情信息處理

        爬蟲爬取網(wǎng)頁后,要對網(wǎng)頁信息進(jìn)行處理,主要包括網(wǎng)頁去“噪”、網(wǎng)頁去重、中文分詞及特征詞提取。通常網(wǎng)頁中包含大量的“噪聲”,主要是一些無用的廣告等,這些內(nèi)容對系統(tǒng)沒有作用,但卻影響系統(tǒng)運行速度,并占據(jù)大量存儲空間,所以首先要對爬蟲爬取的網(wǎng)頁信息進(jìn)行去“噪”,保留網(wǎng)頁鏈接、正文和標(biāo)題。在本系統(tǒng)中,我們采用文檔對象模型(DOM,Document Object Model)來獲取網(wǎng)頁的正文和標(biāo)題信息,首先構(gòu)建DOM樹,然后從DOM樹上刪除節(jié)點的過濾器,獲得相應(yīng)文本信息[6-8]。在網(wǎng)頁中,通常存在大量重復(fù)的鏈接,為避免網(wǎng)頁冗余,提高系統(tǒng)效率,還需去除重復(fù)的網(wǎng)頁。通過分析頁面提出網(wǎng)頁特征碼,根據(jù)特征碼區(qū)分相同或相似網(wǎng)頁。利用網(wǎng)頁特征碼索引網(wǎng)頁,建立檢索系統(tǒng),并將特征碼存入檢索系統(tǒng)中。當(dāng)爬取出新的網(wǎng)頁后,根據(jù)文檔特征碼進(jìn)行判斷,相似度大于系統(tǒng)設(shè)定的閾值則認(rèn)為是重復(fù)網(wǎng)頁,系統(tǒng)自動刪除。

        經(jīng)上述網(wǎng)頁處理后,將得到結(jié)構(gòu)化的網(wǎng)頁信息,然后進(jìn)行分詞處理。文中利用中科院自行研制的ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)進(jìn)行分詞,去除停用詞后建立VSM。

        2.3 輿情信息分析

        話題發(fā)現(xiàn)和聚類是輿情監(jiān)控系統(tǒng)的基礎(chǔ),就是把描述同一話題和事件的網(wǎng)頁按一定序列聚合在一起,減少冗余和重復(fù)信息,給用戶提供方便[9-10]。話題發(fā)現(xiàn)流程如圖2所示。

        圖2 話題自動發(fā)現(xiàn)流程

        話題發(fā)現(xiàn)和聚類算法受信息本身被關(guān)注程度的影響,關(guān)注程度高,聚類效果就好,對話題的評估能力也強,從而更好的為網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)提供可靠依據(jù)。常見的話題發(fā)現(xiàn)和聚類算法主要包括Single-Pass算法,基于文本劃分、層次、密度和網(wǎng)格的聚類算法。對上述五類算法進(jìn)行比較,可得出以下結(jié)論,如表1所示。

        表1 常見聚類算法的指標(biāo)表現(xiàn)

        由表1可知,在預(yù)知主題的情況下,Single-Pass算法更適合用于輿情話題發(fā)現(xiàn)和聚類,在實際應(yīng)用中,此算法也是使用最廣泛的算法之一,其各項性能指標(biāo)及聚類結(jié)果都得到開發(fā)者的認(rèn)可。但由于其精度一般,并受文本輸入順序的影響較大,也制約著其聚類效果的提升。

        文中對Single-Pass算法進(jìn)行改進(jìn),以彌補其算法精度上的不足。首先是改進(jìn)特征詞的選擇,在對網(wǎng)頁進(jìn)行向量化時,只選擇具有實際意義的名詞和動詞表示向量,而不是對所有詞語都向量化;并加入網(wǎng)頁的標(biāo)題表示向量,用網(wǎng)頁標(biāo)題和正文的雙向兩表示法;在文本初步聚類時,每次處理一批文檔,而不是簡單的單個處理,這樣就可以有效避免Single-Pass對文本輸入順序的依賴性,完成初步聚類后,再進(jìn)行偏離點的調(diào)整,直至滿足系統(tǒng)設(shè)置停止條件。

        1)特征詞選擇

        改進(jìn)后的Single-Pass算法把網(wǎng)頁中去掉停用詞后的名詞、動詞作為特征詞,然后統(tǒng)計出這些詞的出現(xiàn)次數(shù)以及反文檔頻率。利用公式(1)計算得出特征詞權(quán)重,根據(jù)權(quán)重組合計算出文本相似度。

        其中,Wi指第 i個特征詞的權(quán)重,TFi(t,d)指特征詞t出現(xiàn)在文檔d中的次數(shù),N是網(wǎng)頁的文檔總數(shù),DF(t)指網(wǎng)頁中含有特征詞t的網(wǎng)頁總數(shù)。在實際中,由于文本的復(fù)雜性,會使得文本向量中有較多的0項值,給計算帶來較大開銷,并使得文本相似度區(qū)分不明顯,本文對Single-Pass算法進(jìn)行改進(jìn),文本輸入后,首先對其內(nèi)容進(jìn)行分詞,根據(jù)辭典辨識,將經(jīng)過分詞后的每個詞語進(jìn)行詞性標(biāo)注;選取特征詞時,只選擇文本中的動詞和名詞(此步驟只需經(jīng)過一個詞性判斷就能實現(xiàn));然后統(tǒng)計動詞和名詞的詞頻,從而減少特征詞數(shù)量,降低運算量,減少開銷,同時也保存了文本內(nèi)容的關(guān)鍵信息,避免了矩陣稀疏現(xiàn)象,也提高算法準(zhǔn)確性。然后根據(jù)Single-Pass算法的步驟,統(tǒng)計特征詞頻率及反文檔頻率,利用TFIDF公式得到特征詞權(quán)重,然后計算相似度。本文采用空間夾角余弦公式實現(xiàn)對文本相似度的計算,如公式(2)。公式得到的數(shù)值都介于0~1之間,數(shù)值越接近1,就說明兩個文本相似度越高,它們被歸為同一話題的可能性就越大;反之,兩個文本越不相似,屬于同一話題的幾率就小。

        2)雙向量表示

        Single-Pass算法在選擇特征向量時只選擇文本正文,忽略了文本的標(biāo)題。而文本標(biāo)題卻涵蓋了文本的主要內(nèi)容,網(wǎng)絡(luò)新聞和各類帖子更是如此,新聞和帖子的標(biāo)題往往蘊含事件的主要內(nèi)容。如果能較好的運用標(biāo)題的這一屬性,從標(biāo)題中得出事件的關(guān)鍵元素,并強調(diào)標(biāo)題的作用,將能較好的促進(jìn)文本聚類效果,從而改進(jìn)常見文本聚類算法的不足。因此在本文中,我們選擇標(biāo)題和正文雙向量表示法。在計算文本相似度時,標(biāo)題和正文都參與運算。首先我們計算得出標(biāo)題和主題的相似度,以及正文和主題的相似度;然后對標(biāo)題和正文的相似度進(jìn)行加權(quán)求和,并對標(biāo)題中的關(guān)鍵詞賦予較高的權(quán)重。本文中,通過反復(fù)試驗,賦予標(biāo)題特征詞權(quán)重0.75,正文特征詞權(quán)重0.25時,聚類效果較好。此方法加入了標(biāo)題特征詞,無疑會增加運算,但由于標(biāo)題的文字?jǐn)?shù)量遠(yuǎn)低于正文,所以對計算無較大影響,卻對話題發(fā)現(xiàn)和聚類精度有了較大改善。

        3)偏離點調(diào)整

        Single-Pass算法在處理文本時,根據(jù)文本輸入的順序,一個一個處理文本,在第一次讀取時就確定文本所屬的類簇,之后輸入的文本根據(jù)與前面文本的相似度劃分類簇,這就導(dǎo)致文本的輸入順序會很大程度上影響聚類結(jié)果。所以說,一個好的文本輸入順序會使文本有較好的聚類效果。但根據(jù)實際應(yīng)用,文本的內(nèi)容確定后,其聚類結(jié)果就應(yīng)當(dāng)確定,不應(yīng)該受到輸入順序的影響。為了克服此類問題,本文在進(jìn)行文本聚類時,一批一批的來處理,而不是單個的進(jìn)行處理。由于每次加入新的文本后,會引起類歸屬的變化,在本改進(jìn)算法中,允許類進(jìn)行重選擇,稱為偏離點的調(diào)整。即當(dāng)有新的文本加入話題后,此類內(nèi)的所有話題重新計算相似度,看是否處于最相似的類中,若是,則不變動;若不是,就調(diào)整類簇,將此文本放入經(jīng)處理后最接近的類簇中。這些調(diào)整會引起連鎖的反應(yīng),導(dǎo)致系統(tǒng)無法終止。因此,在本文中為了防止這種現(xiàn)象的發(fā)生,本文設(shè)定當(dāng)有90%或者以上的文本處于最接近的類簇中時,將不再進(jìn)行調(diào)整。根據(jù)大量的實驗驗證,此終止條件達(dá)到預(yù)期效果,令人滿意。

        2.4 輿情服務(wù)

        輿情服務(wù)是系統(tǒng)的輸出層,給用戶提供相關(guān)信息,包括輿情報告、郵件、用戶個性化定制和輿情信息發(fā)布等[11-13]。從而為用戶提供清晰、精確、快捷方便的網(wǎng)頁輿情信息服務(wù)功能,滿足用戶對信息的各種不同需求。

        3 實驗與分析

        實驗采用Single-Pass算法和改進(jìn)的Single-Pass算法進(jìn)行比較測試。實驗環(huán)境采用為Windows XP系統(tǒng),1G以上內(nèi)存機器,用VC 2010進(jìn)行編譯。數(shù)據(jù)用以下6個關(guān)鍵字:教育、娛樂、汽車、經(jīng)濟(jì)、軍事、體育。通過百度進(jìn)行搜索,采用每個主題的前100條文檔,總共600條文檔進(jìn)行聚類分析,故K=6。由于這兩類算法對初始聚類中心的依賴性都比較高(即初始聚類中心的選擇能較大程度地影響聚類結(jié)果),所以我們采用多次隨機選取聚類中心,多次重復(fù)運行,然后取平均值作為聚類算法性能的結(jié)果。實驗結(jié)果如表2和表3。

        表2 Single-Pass算法結(jié)果

        表3 改進(jìn)的Single-Pass算法結(jié)果

        比較上述兩表發(fā)現(xiàn),在準(zhǔn)確率方面,改進(jìn)的Single-Pass只有經(jīng)濟(jì)一項比原Single-Pass略低一點;在召回率方面,改進(jìn)的Single-Pass只有汽車一項比原Single-Pass略低一點。除此之外,其它項無論在準(zhǔn)確率還是召回率,改進(jìn)的Single-Pass都比原Single-Pass效果要好。改進(jìn)的Single-Pass算法的兩項數(shù)據(jù)均高于Single-Pass算法5個百分點以上。且改進(jìn)的Single-Pass聚類算法比Single-Pass聚類算法在處理異常數(shù)據(jù)和噪聲數(shù)據(jù)方面更好。

        4 結(jié)束語

        網(wǎng)絡(luò)輿情預(yù)警的作用在于,盡早發(fā)現(xiàn)可能的危機苗頭,盡早判斷可能產(chǎn)生的危機走向和規(guī)模,盡早讓有關(guān)職能部門做好應(yīng)對準(zhǔn)備[14-15]。本系統(tǒng)預(yù)警能力較高,能夠及時從海量的互聯(lián)網(wǎng)信息中發(fā)現(xiàn)潛在的危機苗頭,并能準(zhǔn)確預(yù)計輿情發(fā)生的時間差,從而為相關(guān)職能部門提供足夠的時間來做準(zhǔn)備,為網(wǎng)絡(luò)輿情應(yīng)對贏得寶貴時間,并將有效推進(jìn)軍隊信息化建設(shè)進(jìn)程。

        [1]Agrawal D,BudakC,El Abbadi A,et al.Big Data in Online Social Networks:User Interaction Analysis to ModelUser Behavior in Social Networks[M].Databases in Networked Information Systems.Springer International Publishing,2014.

        [2]張玉珠.基于內(nèi)容相似性的論壇用戶社會網(wǎng)絡(luò)挖掘[J].通信技術(shù),2013,46(253):57-59.

        [3]張玉峰,王志芳.基于內(nèi)容相似性的論壇用戶社會網(wǎng)絡(luò)挖掘[J].情報雜志,2010,29(8):125-130.

        [4]何佳,周長勝,石顯鋒.網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實現(xiàn)方法[J].鄭州大學(xué)學(xué)報:理學(xué)版,2010,42(1):82-85.

        [5]張長利.面向特定領(lǐng)域的互聯(lián)網(wǎng)輿情分析技術(shù)研究[D].吉林:吉林大學(xué),2011.

        [6]Feng Cao,Zhenji Zhang.A model of ecological monitoring and response system for internet[J].International Journal of Multimedia and Ubiquitous Engineering,2014,9(5):373-390.

        [7]劉恒文.基于網(wǎng)絡(luò)語義挖掘的輿情監(jiān)測預(yù)警研究[D].武漢:武漢理工大學(xué),2010.

        [8]Jennifer Bachner,Kathy W.Hill.Advances in Public Opinion and Policy Attitudes Research[J].The Policy Studies Journal,2014,42(1):51-70.

        [9]Feng Cao,Zhenji Zhang.A model of ecological monitoring and response system for internet[J].International Journal of Multimedia and Ubiquitous Engineering,2014,9(5):373-39.

        [10]劉恒文.基于網(wǎng)絡(luò)語義挖掘的輿情監(jiān)測預(yù)警研究[D].武漢:武漢理工大學(xué),2010.

        [11]殷風(fēng)景.面向網(wǎng)絡(luò)輿情監(jiān)控的熱點話題發(fā)現(xiàn)技術(shù)研究[D].北京:國防科學(xué)技術(shù)大學(xué),2010.

        [12]張春華.網(wǎng)絡(luò)輿情社會學(xué)的闡釋[M].北京:社會科學(xué)文獻(xiàn)出版社,2012.

        [13]李金海,何有世,熊強.基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)輿情文本挖掘研究[J].情報雜志,2014,33(10):1-6.

        [14]方星星,呂永強.基于改進(jìn)的single-pass網(wǎng)絡(luò)輿情話題發(fā)現(xiàn)研究[J].計算機與數(shù)字工程,2014,42(7):1233-1237.

        [15]高承實,陳越.網(wǎng)絡(luò)輿情幾個基本問題的探討[J].情報雜志,2011,30(11):52-56.

        Design of network public opinion monitoring system in military based on Single-Pass

        ZHAO Xiao-nan,MA Chen-chen
        (Army Unit 68303,Wuwei 733004,China)

        Military network public opinion is the main source of military information.These information will directly affect people's judgment,and even endanger social security.According to the characteristics of military,this paper compares common text clustering algorithms,and improves Single-Pass algorithm.Then design network public opinion monitoring system which is suitable for military.The accuracy and recall rate are above 5 percentage points than the Single-Pass,and so as to provide a reliable basis for the relevant departments to make decision.

        Single-Pass; military; text clustering; network public opinion monitoring

        TN957.52

        A

        1674-6236(2017)16-0117-04

        2016-07-04稿件編號:201607025

        趙曉楠(1986—),女,河南偃師人,碩士研究生,中級工程師。研究方向:人工智能與應(yīng)用。

        猜你喜歡
        文本信息系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機系統(tǒng)
        ZC系列無人機遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        如何快速走進(jìn)文本
        語文知識(2014年1期)2014-02-28 21:59:13
        亚洲国产欧美日韩欧美特级| 自拍av免费在线观看| 91精品国自产拍老熟女露脸| 亚洲性久久久影院| 国模无码视频一区| 亚洲av日韩av无码污污网站| 最近高清中文在线字幕观看| 国产内射视频在线播放| 国产黄色一区二区在线看| 日本又色又爽又黄的a片18禁| 小sao货水好多真紧h视频| 第十色丰满无码| 极品精品视频在线观看| 女人张开腿让男人桶爽| 国产精品成年片在线观看| 91久久国产自产拍夜夜嗨| 91精品蜜桃熟女一区二区| 久久人妻中文字幕精品一区二区| 亚洲国产精品无码久久久| 吃奶还摸下面动态图gif| 国产呦系列视频网站在线观看| 国产精品毛片av毛片一区二区| 人妻少妇久久中文字幕| 欧美日韩亚洲国内综合网| 亚洲av午夜成人片精品| 国产性色av一区二区| 国产精品无码一区二区三区| 精品乱码卡1卡2卡3免费开放| 国产喷白浆精品一区二区| 国产亚洲精品视频一区二区三区| 欧美a级毛欧美1级a大片免费播放| 专区国产精品第一页| 久久蜜桃一区二区三区| 日本亲近相奷中文字幕| 四虎影库久免费视频| 日本一区二区三区中文字幕视频| 人妻中文字幕日韩av| 大陆极品少妇内射aaaaaa| 一二三四在线视频社区3| 手机免费日韩中文字幕| 日韩亚洲精品国产第二页 |