亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向軍事領(lǐng)域的Web開源情報(bào)主題挖掘研究

        2017-09-12 06:08:05郭繼光陸澤健
        關(guān)鍵詞:頁(yè)面

        黃 勝, 郭繼光, 陸澤健, 陳 龍, 潘 越

        (中國(guó)電子科學(xué)研究院, 北京 100041)

        面向軍事領(lǐng)域的Web開源情報(bào)主題挖掘研究

        黃 勝, 郭繼光, 陸澤健, 陳 龍, 潘 越

        (中國(guó)電子科學(xué)研究院, 北京 100041)

        針對(duì)軍事領(lǐng)域海量Web開源情報(bào)的有效分析和利用問(wèn)題,提出了一種基于主題聚類的開源情報(bào)挖掘方法。基于網(wǎng)絡(luò)爬蟲從Web上自動(dòng)搜集軍事開源情報(bào)數(shù)據(jù),通過(guò)解析Web網(wǎng)頁(yè)內(nèi)容提取重要情報(bào)要素,采用層次聚類算法自動(dòng)生成情報(bào)主題。最后,通過(guò)實(shí)際Web數(shù)據(jù)對(duì)軍事開源情報(bào)主題生成效果進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果表明該方法在情報(bào)主題聚類熵值、純度和算法運(yùn)行時(shí)間上均具有良好的表現(xiàn)。

        軍事領(lǐng)域;Web開源情報(bào);情報(bào)主題;層次聚類

        0 引 言

        根據(jù)美國(guó)國(guó)家情報(bào)局和國(guó)防部的定義,開源情報(bào)(Open Source Intelligence,OSINT)是指為響應(yīng)已知或預(yù)期的情報(bào)需求,對(duì)公開可得信息進(jìn)行系統(tǒng)搜集、處理和分析而得出的相關(guān)信息[1,2]。公開可得信息來(lái)源包括商業(yè)電臺(tái)、電視廣播、網(wǎng)絡(luò)與Web資源、新聞報(bào)紙以及其他書面出版物[2],經(jīng)過(guò)開源情報(bào)分析處理后,可得到用于指導(dǎo)軍事行動(dòng)和戰(zhàn)略決策的情報(bào)信息。相關(guān)研究表明,開源情報(bào)信息的背后蘊(yùn)含了豐富的價(jià)值,在期望得到的外國(guó)情報(bào)中,高達(dá)80%到90%的比例可以從公開信息源中獲得[3]。

        隨著互聯(lián)網(wǎng)和信息化技術(shù)的發(fā)展,我們能夠輕易獲得大量軍事領(lǐng)域的Web開源情報(bào)信息,如新聞門戶的軍事頻道、熱點(diǎn)軍事論壇、軍工企業(yè)門戶及軍工科技發(fā)展站點(diǎn)等常見網(wǎng)站上廣泛分布著大量的關(guān)于軍事目標(biāo)、軍事活動(dòng)、軍事科技發(fā)展等公開可得情報(bào)信息。對(duì)這些開源情報(bào)信息進(jìn)行分析挖掘,能夠?yàn)檐娛滦袆?dòng)和戰(zhàn)略決策提供重要依據(jù)。例如,2001年“9.11”恐怖襲擊事件發(fā)生后,Krebs利用媒體公開信息構(gòu)建了“9.11”事件中恐怖分子的人際關(guān)系網(wǎng)絡(luò),并通過(guò)中心性測(cè)度識(shí)別出核心成員[4];2003年,美國(guó)軍方情報(bào)分析人員通過(guò)描繪伊拉克前總統(tǒng)薩達(dá)姆·侯賽因的社會(huì)關(guān)系網(wǎng)絡(luò),發(fā)現(xiàn)了其藏身之處[5];國(guó)內(nèi)的付舉磊等人采用文本挖掘和網(wǎng)絡(luò)分析方法從開源情報(bào)中分析“東突”活動(dòng)的主要特征[6]。作為其他類型情報(bào)的有力補(bǔ)充,開源情報(bào)完全基于公開渠道獲取,情報(bào)搜集的經(jīng)濟(jì)成本和風(fēng)險(xiǎn)大大降低,通常不需要專業(yè)的情報(bào)分析人員,可以動(dòng)員組織內(nèi)的所有人員以及社會(huì)上對(duì)該主題感興趣的人員來(lái)共同搜集情報(bào),情報(bào)分析處理的工作量得以降低[3]。

        在網(wǎng)絡(luò)時(shí)代大數(shù)據(jù)洪流的沖擊下,軍事開源情報(bào)資源的規(guī)模呈現(xiàn)指數(shù)級(jí)增長(zhǎng)趨勢(shì),覆蓋內(nèi)容廣泛,來(lái)源和種類更加多樣,對(duì)情報(bào)分析處理的時(shí)效性要求也大大加強(qiáng)。在情報(bào)分析處理的方式上,傳統(tǒng)方式主要依靠專業(yè)情報(bào)人員對(duì)情報(bào)素材進(jìn)行整理、提取和歸類操作,顯然已經(jīng)無(wú)法適應(yīng)針對(duì)海量開源情報(bào)數(shù)據(jù)的分析處理需求。因此,如何應(yīng)對(duì)當(dāng)前海量開源情報(bào)數(shù)據(jù)帶來(lái)的挑戰(zhàn),研究高效自動(dòng)化的分析處理機(jī)制成為當(dāng)前軍事開源情報(bào)研究的亟需。

        本文針對(duì)軍事領(lǐng)域Web開源情報(bào)信息自動(dòng)處理問(wèn)題,提出了一種基于主題聚類自動(dòng)挖掘情報(bào)主題的方法,給定種子URL通過(guò)網(wǎng)絡(luò)爬蟲自動(dòng)搜集多源異構(gòu)軍事開源情報(bào)數(shù)據(jù),根據(jù)Web頁(yè)面結(jié)構(gòu)采用解析算法自動(dòng)提取情報(bào)信息內(nèi)容,通過(guò)層次聚類算法自動(dòng)生成情報(bào)主題。本文提出的方法能夠進(jìn)一步提高軍事開源情報(bào)加工、處理和知識(shí)組織與利用的工作效率和服務(wù)能力。

        圖1給出了本文處理軍事領(lǐng)域Web開源情報(bào)信息的主要思路,主要包括Web開源情報(bào)數(shù)據(jù)搜集、情報(bào)要素提取、情報(bào)主題生成三個(gè)模塊。

        圖1 軍事領(lǐng)域Web開源情報(bào)信息處理思路

        1 開源情報(bào)數(shù)據(jù)搜集

        開源情報(bào)數(shù)據(jù)搜集針對(duì)重點(diǎn)關(guān)注的軍事情報(bào)主題類型,不斷地從Web上搜集相關(guān)的新聞、視頻、文檔和公開數(shù)據(jù)等信息,并存儲(chǔ)入庫(kù)。根據(jù)軍事開源情報(bào)在Web上的位置分布,本文采用定向網(wǎng)絡(luò)爬蟲技術(shù),指定各大門戶網(wǎng)站軍事頻道、熱門軍事論壇、相關(guān)軍工企業(yè)門戶地址作為種子URL列表;網(wǎng)頁(yè)采集模塊根據(jù)種子URL和待采集URL抓取開源情報(bào)網(wǎng)頁(yè)內(nèi)容,網(wǎng)頁(yè)去重模塊根據(jù)網(wǎng)頁(yè)標(biāo)題、格式、大小、信息指紋去除重復(fù)的頁(yè)面;URL鏈接匹配模塊根據(jù)URL模式從網(wǎng)頁(yè)內(nèi)容中匹配待采集的URL并添加到待采集隊(duì)列;最后網(wǎng)頁(yè)入庫(kù)模塊將抓取到的頁(yè)面內(nèi)容存儲(chǔ)到開源情報(bào)信息庫(kù),為后續(xù)的情報(bào)要素提取和情報(bào)主題生成提供基礎(chǔ)。軍事開源情報(bào)數(shù)據(jù)搜集的爬蟲結(jié)構(gòu)如圖2所示。

        圖2 軍事領(lǐng)域Web開源情報(bào)數(shù)據(jù)搜集流程

        2 開源情報(bào)要素提取

        原始Web開源情報(bào)頁(yè)面包含了開源情報(bào)正文內(nèi)容、HTML網(wǎng)頁(yè)格式和Javascript腳本代碼等信息。開源情報(bào)要素提取通過(guò)解析原始Web頁(yè)面,剔除無(wú)關(guān)的HTML格式和Javascript代碼,提取有價(jià)值的正文內(nèi)容和關(guān)鍵詞、時(shí)間、空間等信息要素,將無(wú)結(jié)構(gòu)化的網(wǎng)頁(yè)數(shù)據(jù)轉(zhuǎn)換為易于處理的半結(jié)構(gòu)化開源情報(bào)格式,主要包括頁(yè)面內(nèi)容提取、時(shí)間和地點(diǎn)要素提取、關(guān)鍵詞提取等處理步驟。

        2.1 頁(yè)面內(nèi)容提取

        針對(duì)軍事情報(bào)信息準(zhǔn)確性要求高的特點(diǎn),分析重點(diǎn)關(guān)注的開源情報(bào)來(lái)源網(wǎng)站的網(wǎng)頁(yè)內(nèi)容和頁(yè)面結(jié)構(gòu),標(biāo)注頁(yè)面標(biāo)題、正文以及關(guān)鍵詞、描述、來(lái)源、發(fā)布時(shí)間等頁(yè)面描述信息為待提取內(nèi)容;將頁(yè)面轉(zhuǎn)換為DOM樹結(jié)構(gòu),采用Xpath技術(shù)定義網(wǎng)頁(yè)標(biāo)題、正文等待提取內(nèi)容在DOM樹中的提取路徑,形成典型的提取模板,通過(guò)模板自動(dòng)匹配頁(yè)面內(nèi)容。以新浪網(wǎng)軍事頻道包含的“南海最新態(tài)勢(shì)”板塊為例,頁(yè)面內(nèi)容的提取模板如表1所示。

        表1 開源情報(bào)內(nèi)容提取范例

        2.2 時(shí)間和地點(diǎn)要素提取

        情報(bào)發(fā)生時(shí)間和發(fā)生地點(diǎn)是體現(xiàn)軍事情報(bào)價(jià)值的核心要素。在開源情報(bào)中,重要的時(shí)間和地點(diǎn)要素通常包含在情報(bào)標(biāo)題和正文部分,如圖3所示。本文通過(guò)中文分詞工具將開源情報(bào)標(biāo)題和正文文本分割為詞語(yǔ)和對(duì)應(yīng)的詞性標(biāo)注序列,提取詞性標(biāo)注為“t”的短語(yǔ)為候選時(shí)間詞,提取標(biāo)注為“ns”的短語(yǔ)為候選地點(diǎn)詞。

        圖3 時(shí)間和地點(diǎn)要素提取示例

        為提高時(shí)間詞提取的準(zhǔn)確性,進(jìn)一步通過(guò)定義正則表達(dá)式“d{2,4}年d{1,2}月d{1,2}日”、“d{1,2}月d{1,2}日”等對(duì)候選時(shí)間詞進(jìn)行匹配,保留匹配成功的候選時(shí)間詞。為提高地點(diǎn)詞分割和標(biāo)注的準(zhǔn)確性,在分詞工具中添加自定義的軍事地點(diǎn)名詞表,同時(shí)利用該詞表對(duì)候選地點(diǎn)詞進(jìn)行過(guò)濾。

        針對(duì)情報(bào)標(biāo)題和正文中包含多個(gè)時(shí)間詞和地點(diǎn)詞的情況,統(tǒng)計(jì)候選時(shí)間詞和地點(diǎn)詞出現(xiàn)的頻率,同時(shí)以開源情報(bào)發(fā)布時(shí)間、描述、關(guān)鍵詞等頁(yè)面描述信息為參考,選擇出現(xiàn)頻率高且距離發(fā)布時(shí)間短的候選時(shí)間詞為開源情報(bào)時(shí)間要素,選擇出現(xiàn)頻率高且在描述、關(guān)鍵詞信息中出現(xiàn)的候選地點(diǎn)詞為開源情報(bào)地點(diǎn)要素。

        2.3 關(guān)鍵詞提取

        關(guān)鍵詞是描述軍事情報(bào)主題內(nèi)容的典型要素,關(guān)鍵詞提取是開展情報(bào)主題生成研究的重要基礎(chǔ)。在開源情報(bào)頁(yè)面內(nèi)容提取過(guò)程中,僅有部分站點(diǎn)和網(wǎng)頁(yè)內(nèi)容中直接提供了關(guān)鍵詞信息,且其關(guān)鍵詞信息存在涵義寬泛、不夠具體等問(wèn)題。本文綜合軍事開源情報(bào)標(biāo)題、描述、正文等內(nèi)容,采用TextRank算法自動(dòng)提取候選關(guān)鍵詞。TextRank算法無(wú)監(jiān)督地利用詞語(yǔ)之間的共現(xiàn)關(guān)系計(jì)算詞語(yǔ)重要程度,無(wú)需事先基于大量數(shù)據(jù)進(jìn)行訓(xùn)練。定義如下:

        (1)

        在獲取候選關(guān)鍵詞之后,綜合頁(yè)面內(nèi)容提取過(guò)程中獲取的關(guān)鍵詞,同時(shí)采用軍事情報(bào)詞表對(duì)候選關(guān)鍵詞進(jìn)行過(guò)濾,提高關(guān)鍵詞的準(zhǔn)確率,最終為每條開源情報(bào)保留10個(gè)關(guān)鍵詞。

        3 情報(bào)主題生成

        情報(bào)主題生成通過(guò)計(jì)算開源情報(bào)之間的相似度關(guān)系,將開源情報(bào)集合按照描述主題進(jìn)行自動(dòng)聚類,同一主題的開源情報(bào)自動(dòng)聚集到同一類簇,為細(xì)粒度的軍事情報(bào)分析和預(yù)測(cè)提供基礎(chǔ)。

        傳統(tǒng)的主題生成方法[7,8]通?;谌斯は闰?yàn)知識(shí),通過(guò)選擇不同特征提高主題生成準(zhǔn)確性,然而需要大量的人工分析操作,無(wú)法實(shí)現(xiàn)自動(dòng)化處理,主題生成效果無(wú)法保證。本文通過(guò)對(duì)軍事情報(bào)信息內(nèi)在的關(guān)聯(lián)關(guān)系進(jìn)行分析,基于向量空間模型對(duì)開源情報(bào)集合進(jìn)行特征建模和特征表示,從層次建模的角度,采用無(wú)監(jiān)督的Chameleon層次聚類算法根據(jù)主題相似度自動(dòng)生成情報(bào)主題,能夠?qū)崿F(xiàn)自動(dòng)化處理。

        3.1 特征建模

        本文采用向量空間模型將開源情報(bào)映射為能夠自動(dòng)處理的文本特征向量,以中文分詞結(jié)果為輸入,去除其中的標(biāo)點(diǎn)符號(hào)、亂碼、停用詞,以剩余詞語(yǔ)作為開源情報(bào)的文本特征,采用TF-IDF公式計(jì)算特征權(quán)重[9],算法公式定義如下:

        (2)

        在獲得特征詞權(quán)重之后,開源情報(bào)表示為向量空間中的一個(gè)特征向量。給定兩個(gè)特征向量Vi和Vj,采用余弦相似度定義特征向量之間的相似度,計(jì)算公式如下:

        (3)

        在計(jì)算相似度之前,對(duì)特征向量包含的元素執(zhí)行正則化。

        3.2 層次聚類算法

        Chameleon算法的思想是首先采用K-最近鄰

        圖方法將數(shù)據(jù)集構(gòu)造成一個(gè)稀疏圖,圖中頂點(diǎn)代表數(shù)據(jù)對(duì)象,頂點(diǎn)之間的邊代表數(shù)據(jù)對(duì)象之間的相似關(guān)系,進(jìn)而采用圖劃分算法將K-最近鄰圖劃分為大量較小的子簇,最后使用凝聚層次聚類算法,基于子簇的相似度反復(fù)地合并子簇[10-13]。與K-means等常見聚類算法相比,Chameleon算法具有更強(qiáng)的發(fā)現(xiàn)不規(guī)則聚簇的能力。具體算法流程示意如圖4所示。

        圖4 Chameleon層次聚類流程示意

        具體算法流程[10-13]如下:

        步驟1:構(gòu)造K-最近鄰圖。

        步驟2:分割K-最近鄰圖。

        采用圖劃分算法對(duì)K-最近鄰圖進(jìn)行分割,使得割邊(Edge Cut)最小化,即使簇C劃分為兩個(gè)子簇Ci和Cj時(shí)需要切斷的邊的加權(quán)和最小。將分割得到的每一個(gè)子圖看成一個(gè)初始圖,重復(fù)這一步驟直至現(xiàn)有節(jié)點(diǎn)相似度權(quán)重均不小于停止閾值。

        步驟3:合并子稀疏圖,得到最終的聚類結(jié)果。

        采用自底向上的凝聚層次聚類算法,以子簇包含的開源情報(bào)的特征向量均值作為子簇的特征向量,通過(guò)公式(3)計(jì)算子簇相似度,反復(fù)合并子簇,直至達(dá)到目標(biāo)簇?cái)?shù)。

        4 實(shí)驗(yàn)驗(yàn)證

        4.1 數(shù)據(jù)準(zhǔn)備

        利用網(wǎng)絡(luò)爬蟲采集新浪等主流網(wǎng)站軍事頻道上近期發(fā)布的熱點(diǎn)軍事新聞報(bào)道,包括“南海最新態(tài)勢(shì)”、“東海最新態(tài)勢(shì)”、“中國(guó)軍情”等欄目?jī)?nèi)容,經(jīng)過(guò)去重和內(nèi)容提取處理后,共獲得271篇完整新聞報(bào)道數(shù)據(jù),由人工標(biāo)注劃分為38個(gè)主題類,經(jīng)過(guò)中文分詞和去除停用詞處理后,獲取的特征詞共有3396個(gè)。為保持算法過(guò)程的簡(jiǎn)易性,在實(shí)驗(yàn)中并不對(duì)特征詞空間進(jìn)行降維處理。實(shí)驗(yàn)數(shù)據(jù)信息統(tǒng)計(jì)如表2所示。

        表2 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)信息

        4.2 評(píng)價(jià)指標(biāo)

        本文采用熵值Entropy和純度Purity作為情報(bào)主題聚類的評(píng)價(jià)指標(biāo)。Entropy衡量聚類結(jié)果與標(biāo)準(zhǔn)結(jié)果相比的混亂程度,Purity衡量聚類結(jié)果與標(biāo)準(zhǔn)結(jié)果的一致性程度。給定主題類別數(shù)K,標(biāo)準(zhǔn)結(jié)果H={h1,h2,…,hK},聚類結(jié)果G={g1,g2,…,gK},Entropy和Purity計(jì)算公式定義如下[14]:

        (4)

        (5)

        其中,Pi(gj)表示聚類結(jié)果類gj中包含標(biāo)準(zhǔn)類別hi中元素的比例。Entropy值越小,聚類結(jié)果的混亂程度越低;Purity值越大,聚類結(jié)果的純度越高。

        此外,為評(píng)價(jià)情報(bào)主題生成的效率,本文在實(shí)驗(yàn)中也選擇算法運(yùn)行的時(shí)間(Time)作為聚類結(jié)果的評(píng)價(jià)指標(biāo)。

        4.3 實(shí)驗(yàn)結(jié)果

        為對(duì)比實(shí)驗(yàn)結(jié)果,本文選擇常用K-means聚類算法和傳統(tǒng)凝聚層次聚類算法作為基線方法。K-means算法首次隨機(jī)選擇聚類中心,基于開源情報(bào)之間的歐式空間距離計(jì)算相似度。傳統(tǒng)凝聚層次聚類算法初始將每一篇情報(bào)文本作為一個(gè)原子簇,然后根據(jù)類簇之間的相似度自底向上合并相似的類簇。表3給出了軍事領(lǐng)域Web開源情報(bào)主題聚類的結(jié)果示例,表4給出了不同算法的實(shí)驗(yàn)結(jié)果對(duì)比。

        表3 軍事領(lǐng)域Web開源情報(bào)主題聚類結(jié)果示例

        如表3所示,在聚類得到情報(bào)主題類簇后,由人工定義或選取情報(bào)標(biāo)題中包含的高頻短語(yǔ)作為對(duì)應(yīng)主題類簇名稱,根據(jù)其包含的開源情報(bào)時(shí)間和地點(diǎn)要素的頻率和范圍定義主題類簇的時(shí)間和地點(diǎn)要素,最后根據(jù)主題描述內(nèi)容劃歸到相應(yīng)的開源情報(bào)類別。例如,“中日空軍東海對(duì)峙”情報(bào)主題描述了“2016年12月10日上午,中國(guó)空軍戰(zhàn)機(jī)飛越宮古海峽空域赴西太平洋進(jìn)行例行性遠(yuǎn)海訓(xùn)練,日本自衛(wèi)隊(duì)出動(dòng)F15戰(zhàn)斗機(jī)實(shí)施近距離干擾并發(fā)射干擾彈”事件,共包括11篇軍事新聞報(bào)道,歸為東海局勢(shì)類開源情報(bào)。

        表4 實(shí)驗(yàn)結(jié)果對(duì)比

        如表4所示,與基線方法相比,本文采用的Chameleon聚類算法取得了最好的熵值和純度效果。Entropy值最小,主題聚類結(jié)果混亂程度最低;Purity值最大,主題聚類的一致性程度最高。與傳統(tǒng)凝聚層次聚類算法相比,Chameleon聚類算法進(jìn)一步降低了Entropy值,同時(shí)提高了Purity值。常用K-means算法受數(shù)據(jù)不確定性影響較大,在Entropy和Purity上表現(xiàn)最差。

        在算法運(yùn)行時(shí)間上,Chameleon聚類算法也取得了最短的運(yùn)算時(shí)間。常用K-means算法由于需要大量迭代才能達(dá)到收斂狀態(tài),所需運(yùn)算時(shí)間最長(zhǎng);傳統(tǒng)凝聚層次聚類由于初始時(shí)以每一篇情報(bào)文本為原子簇,算法運(yùn)行時(shí)間也相對(duì)較長(zhǎng)。因此,本文采用的Chameleon算法基于K-最近鄰圖分割稀疏子圖的基礎(chǔ)上進(jìn)行層次聚類,算法迭代次數(shù)大為減少,取得了最高的算法運(yùn)行時(shí)間效率。

        5 結(jié) 語(yǔ)

        本文針對(duì)軍事領(lǐng)域海量Web開源情報(bào)的有效分析和利用問(wèn)題,從層次凝聚建模角度提出了一種基于主題聚類自動(dòng)挖掘情報(bào)主題的方法,分別闡述了Web開源情報(bào)數(shù)據(jù)搜集、情報(bào)要素提取、主題聚類生成主要模塊的具體內(nèi)容。本文最后通過(guò)采集實(shí)際Web數(shù)據(jù)對(duì)情報(bào)主題生成效果進(jìn)行了實(shí)驗(yàn)評(píng)估,實(shí)驗(yàn)結(jié)果表明Chameleon層次聚類算法在軍事開源情報(bào)主題聚類的效果和運(yùn)行效率上明顯優(yōu)于傳統(tǒng)基線方法。

        [1] Department of Defense. Dictionary of Military and Associated Terms[Z/OL]. https://fas.org/irp/doddir/dod/jp1_02.pdf, 2016.

        [2] Joint Chiefs of Staff. Joint Publication 2-01: Joint and National Intelligence Support to Military Operations[Z/OL]. www.dtic.mil/doctrine/new_pubs/jp2_0.pdf, 2012.

        [3] 丁波濤. 國(guó)外開源情報(bào)工作的發(fā)展與我國(guó)的對(duì)策研究[J]. 情報(bào)資料工作, 2011, 32(6):103-105.

        [4] Krebs V E. Mapping networks of terrorist cells[J]. Connections, 2002, 24(3): 43-52.

        [5] Sharon W. Web of war[J]. Nature, 2011, 471(7340):566-8.

        [6] 付舉磊, 劉文禮, 鄭曉龍,等. 基于文本挖掘和網(wǎng)絡(luò)分析的“東突”活動(dòng)主要特征研究[J]. 自動(dòng)化學(xué)報(bào), 2014, 40(11):2456-2468.

        [7] 傅暢, 宋佳慶. 一種基于文本聚類的web軍事情報(bào)挖掘系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 中國(guó)電子科學(xué)研究院學(xué)報(bào), 2015, 10(5):541-545.

        [8] Huang S, Peng X, Niu Z. News topic detection based on hierarchical clustering and named entity[C]// International Conference on Natural Language Processing and Knowledge Engineering. IEEE, 2012:280-284.

        [9] Christopher D. Manning, Hinrich Schutze. 統(tǒng)計(jì)自然語(yǔ)

        言處理基礎(chǔ)[M]. 電子工業(yè)出版社, 2005.

        [10]Han Jiawei, Kamber Micheline, Pei Jian,等. 數(shù)據(jù)挖掘:概念與技術(shù)[M]. 機(jī)械工業(yè)出版社, 2012.

        [11]畢鵬. 改進(jìn)的Chameleon層次聚類算法在目標(biāo)分群中的應(yīng)用研究[D]. 浙江大學(xué), 2009.

        [12]劉文鳳, 卿曉霞. Chameleon聚類算法的Weka實(shí)現(xiàn)[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2010, 19(12):246-250.

        [13]黃文江, 李翔, 林祥. 基于Chameleon算法的文本聚類技術(shù)研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2010, 20(6):1-4.

        [14]Liu Bing. Web數(shù)據(jù)挖掘.第2版[M]. 清華大學(xué)出版社, 2009.

        Study of Web Open Source Intelligence Topic Mining in Military Domain

        HUANG Sheng, GUO Ji-guang, LU Ze-jian, CHEN Long, PAN Yue

        (China Academy of Electronics and Information Technology, Beijing 100041, China)

        Aiming at the demand of effective analysis and utilization of the massive military open source intelligence on the Web, this paper proposes a topic clustering based method for automatic open source intelligence mining. The method utilizes web crawler to collect relevant military open source intelligence data from multiple Web sources, and extracts the important intelligence elements by parsing Web pages, then employs the Chameleon hierarchical clustering algorithm to generate intelligence topic automatically. At last, experimental evaluation of the effectivity and efficiency of this method using the real Web data was conducted. The experiment results demonstrated that this method has improved the entropy, purity and algorithm runtime of military open source intelligence topic generation effectively.

        Military domain; Web Open source intelligence; Intelligence topic; Hierarchical clustering

        10.3969/j.issn.1673-5692.2017.04.013

        2017-07-11

        2017-08-09

        電子信息裝備體系研究國(guó)防科技重點(diǎn)實(shí)驗(yàn)室基礎(chǔ)研究項(xiàng)目(DXZT-JC-ZZ-2011-015)

        黃 勝(1986—),男,河南人,工程師,主要研究方向?yàn)榍閳?bào)分析處理,大數(shù)據(jù)分析與數(shù)據(jù)挖掘;

        E-mail: bumblebeeworld@163.com

        郭繼光(1979—),男,黑龍江人,工程師,主要研究方向?yàn)榫C合電子信息系統(tǒng)總體設(shè)計(jì),系統(tǒng)集成與信息處理;

        陸澤健(1986—),男,廣西人,工程師,主要研究方向?yàn)槔走_(dá)組網(wǎng),多傳感器管理技術(shù);

        陳 龍(1988—),男,江西人,工程師,主要研究方向?yàn)槟繕?biāo)識(shí)別,圖像處理技術(shù);

        潘 越(1984—),男,湖南人,高級(jí)工程師,主要研究方向?yàn)榫C合電子信息系統(tǒng)總體設(shè)計(jì),系統(tǒng)集成與信息處理。

        TP311.13

        A

        1673-5692(2017)04-400-06

        猜你喜歡
        頁(yè)面
        微信群聊總是找不到,打開這個(gè)開關(guān)就好了
        大狗熊在睡覺
        刷新生活的頁(yè)面
        在本機(jī)中輕松完成常見PDF操作
        電腦愛好者(2022年3期)2022-05-30 10:48:04
        移動(dòng)頁(yè)面設(shè)計(jì):為老人做設(shè)計(jì)
        Web安全問(wèn)答(3)
        同一Word文檔 縱橫頁(yè)面并存
        網(wǎng)站結(jié)構(gòu)在SEO中的研究與應(yīng)用
        幾種頁(yè)面置換算法的基本原理及實(shí)現(xiàn)方法
        淺析ASP.NET頁(yè)面導(dǎo)航技術(shù)
        国产在线观看视频一区二区三区 | 天堂最新在线官网av| 91精品国产色综合久久不| 国产精品人妻熟女男人的天堂| 国产成人a∨激情视频厨房| 亚洲欧美日韩中文无线码| 久久老子午夜精品无码| 亚洲中文字幕精品久久久| 午夜精品久久久久久久| 午夜亚洲av永久无码精品| 精品一区二区三区四区少妇| 日本不卡一区二区三区在线观看| 精品无码一区二区三区的天堂| a级毛片100部免费看| 亚洲欧美日韩中文字幕网址| 日韩精品极品免费在线视频| 欧美奶涨边摸边做爰视频 | 亚洲综合欧美日本另类激情| 美女福利一区二区三区在线观看| 风流熟女一区二区三区| 日本无码欧美一区精品久久| 色偷偷一区二区无码视频| 国产丰满乱子伦无码专| 日本免费久久高清视频| 亚洲精品国偷拍自产在线观看 | 亚洲 日韩 在线精品| 开心五月激动心情五月| 国产乡下妇女做爰| 国产一区二区三区av在线无码观看| 国产精品成人av电影不卡| 人妻精品久久一区二区三区| 狠狠人妻久久久久久综合蜜桃 | 国产一区二区三区口爆在线| 先锋中文字幕在线资源| 国产精品11p| 国产自拍在线视频观看| 日本真人边吃奶边做爽电影| 小12萝8禁在线喷水观看| 亚洲美女性生活一级片| 色呦呦九九七七国产精品| 欧洲人妻丰满av无码久久不卡|