高晨旭,張鵬樂,邢 萌,李海龍
(1. 軍事科學(xué)院,北京 100141;2. 陸軍裝甲兵學(xué)院,北京 100072)
聯(lián)合作戰(zhàn)指揮是目前世界主要國家的現(xiàn)代作戰(zhàn)思想,在現(xiàn)有的戰(zhàn)爭模式下,快速獲取戰(zhàn)場信息,準確還原戰(zhàn)場態(tài)勢,保證所有參戰(zhàn)單元對戰(zhàn)場態(tài)勢有一個共同理解,在高度協(xié)同的指揮控制下實現(xiàn)戰(zhàn)爭勝利。其中,在聯(lián)合作戰(zhàn)指揮決策過程中,制信息權(quán)是關(guān)鍵,成為繼制海權(quán)和制空權(quán)之后新的戰(zhàn)場制高點,而大數(shù)據(jù)技術(shù)是奪得制信息權(quán)的重要利器。
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,數(shù)據(jù)成了信息時代的核心資源[1],成為戰(zhàn)斗力生成的核心要素。然而,由于互聯(lián)網(wǎng)大數(shù)據(jù)具備體量大、種類繁多、價值密度低等特點,加劇了信息過載問題,無法直接形成戰(zhàn)斗力[2]。為有效提升數(shù)據(jù)價值,挖掘有用信息,金融、網(wǎng)購等應(yīng)用領(lǐng)域借助大數(shù)據(jù)挖掘分析技術(shù),獲得了顯著的成功。我軍在數(shù)據(jù)的挖掘分析方面也做了很多嘗試,通過大數(shù)據(jù)采集、處理、存儲、分析、挖掘等過程,并借助Hadoop等分布式技術(shù),加速數(shù)據(jù)分析計算,實現(xiàn)實時動態(tài)的大數(shù)據(jù)態(tài)勢展現(xiàn)[3-4],取得了一定效果,但也存在諸多問題:1)大數(shù)據(jù)應(yīng)用與作戰(zhàn)需求聯(lián)系不緊密,沒有形成科學(xué)的需求建模體系,導(dǎo)致挖掘出的有用信息依然無用;2)作戰(zhàn)領(lǐng)域欠缺對互聯(lián)網(wǎng)數(shù)據(jù)的使用,雖然互聯(lián)網(wǎng)上的大多數(shù)據(jù)與軍事無關(guān),但在輿情分析、情報獲取等方面具有重要應(yīng)用價值,能有效支撐輔助決策;3)目前的大數(shù)據(jù)挖掘分析工具大多以簡單的工具包交付,缺乏系統(tǒng)的應(yīng)用模式,不能有效形成使用反饋、迭代更新、系統(tǒng)完善的良性循環(huán)。
本文針對目前大數(shù)據(jù)挖掘分析在指揮決策領(lǐng)域遇到的一些問題,提出了一種基于本體(Ontology)的需求建模方法,并從需求出發(fā),對全互聯(lián)網(wǎng)數(shù)據(jù)進行主題爬蟲,對獲取的數(shù)據(jù)進行命名實體識別、信息抽取、事件聚類等操作,最后以定制化的服務(wù)模式支撐作戰(zhàn)指揮決策。
本文主要基于指控領(lǐng)域本體[5]進行需求建模,實現(xiàn)對指控領(lǐng)域大數(shù)據(jù)使用需求分析。本體是對特定領(lǐng)域之中某套概念及其相互之間關(guān)系的形式化表達,是一種特殊類型的術(shù)語集,具有結(jié)構(gòu)化的特點。對于本體的構(gòu)建,國內(nèi)外也已經(jīng)提出了一些有效的解決方案,如Skeletal Methodology(骨架法)[6]、Methontology方法[7]、On-To-Knowledge方法[8]、UPON(the Unified Process for Ontology)Methodology[9]等,目前,這些方案仍處于基礎(chǔ)理論研究解決,尚未廣泛應(yīng)用于實際案例,也沒有形成被廣泛認可的標準。
本文結(jié)合上述基本方法,根據(jù)指控領(lǐng)域特點,通過計算機技術(shù)、本體技術(shù)來模擬標引指控領(lǐng)域,構(gòu)建一個統(tǒng)一的、規(guī)范的本體庫來描述專業(yè)領(lǐng)域的知識,并通過本體庫進行需求建模。方法流程如圖1所示。
1)構(gòu)建領(lǐng)域本體。首先,確定本體庫的專業(yè)領(lǐng)域,搜集領(lǐng)域內(nèi)相關(guān)知識以及已有的本體庫,在復(fù)用已有本體庫的同時,增加專業(yè)領(lǐng)域中的術(shù)語、概念,然后針對上述內(nèi)容建立專業(yè)領(lǐng)域的知識分類,并進行編碼,形式化本體庫內(nèi)容,便于計算機處理,最后對輸出結(jié)果進行評價和檢驗。
2)基于領(lǐng)域本體的需求獲取。針對對口決策部門對互聯(lián)網(wǎng)大數(shù)據(jù)的需求難以準確表示的難題,面向戰(zhàn)區(qū)級、軍種級、集團軍級等各級決策部門用戶,以指揮決策為背景,在迭代整合專家和用戶意見的基礎(chǔ)上,基于領(lǐng)域本體的業(yè)務(wù)信息需求分析技術(shù),以各部門業(yè)務(wù)本體和領(lǐng)域本體作為需求獲取過程的基本線索,引導(dǎo)各決策部門用戶以規(guī)范化方式描述其信息需求,并通過可復(fù)用領(lǐng)域模型,構(gòu)造軍政各層級用戶的信息需求文檔,達到系統(tǒng)、高效和規(guī)范獲取對口決策信息需求的目的。
3)信息需求精準化表征。針對指揮決策過程中數(shù)據(jù)需求往往不確定和變更頻率高等難題,根據(jù)用戶行為數(shù)據(jù)抽象出一個標簽化的用戶模型,即用戶畫像,然后基于用戶畫像進行互聯(lián)網(wǎng)信息需求精準表征。該方法采取在系統(tǒng)中縮短用戶使用路徑并持續(xù)更新完善用戶需求模型的方式,通過非結(jié)構(gòu)化數(shù)據(jù)抽取能夠自動識別的指標信息,通過需求刻畫模板描述用戶信息需求的要素,包括描述業(yè)務(wù)領(lǐng)域的重要關(guān)鍵詞和語義實體,以及與自身業(yè)務(wù)相關(guān)的重要門戶網(wǎng)站和社交媒體賬號等信息源。挖掘用戶歷史行為、位置、時間等信息,通過不斷縮短用戶的使用路徑,提高檢索效率,滿足用戶主動隱性的需求或場景的即時需求,通過迭代優(yōu)化的方式不斷細分和描繪用戶畫像,達到超出用戶體驗預(yù)期的效果,指導(dǎo)后續(xù)數(shù)據(jù)挖掘。
4)基于語義聚類的自適應(yīng)精化需求。針對互聯(lián)網(wǎng)大數(shù)據(jù)的語義理解與分析和多模態(tài)關(guān)聯(lián)與融合等難題,基于語義聚類技術(shù),以各級業(yè)務(wù)主管部門用戶提供的初始信息需求要素為基礎(chǔ),進一步理清眾多業(yè)務(wù)門類、不同領(lǐng)域、不同層級主管部門的信息需求偏好,充分體現(xiàn)覆蓋面廣、信息源復(fù)雜、綜合程度高、描述結(jié)構(gòu)抽象等信息特點。基于熱點實體發(fā)現(xiàn)技術(shù),通過分析有關(guān)互聯(lián)網(wǎng)信息形成反饋,經(jīng)過用戶確認后完善信息需求檔案,進一步刻畫用戶需求并支持不斷更新完善,用以指導(dǎo)系統(tǒng)的信息獲取和增值分析。
互聯(lián)網(wǎng)大數(shù)據(jù)挖掘分析系統(tǒng)架構(gòu)如圖2所示,主要由數(shù)據(jù)基礎(chǔ)層、預(yù)處理層、數(shù)據(jù)挖掘分析層、業(yè)務(wù)應(yīng)用層組成。其中,數(shù)據(jù)基礎(chǔ)層主要通過主題爬蟲技術(shù)獲取互聯(lián)網(wǎng)文本數(shù)據(jù),通過中文分詞、命名實體識別、詞性標注、句法分析等技術(shù)對文本數(shù)據(jù)預(yù)處理,為信息抽取、事件聚類等挖掘分析提供支撐,以實現(xiàn)業(yè)務(wù)層的應(yīng)用。
為滿足多業(yè)務(wù)主管部門個性化服務(wù)需求,本文提出了一種基于自適應(yīng)主題的數(shù)據(jù)獲取策略,只需要根據(jù)需求主題,提供相應(yīng)主題的一組鏈接,數(shù)據(jù)獲取組件即可根據(jù)鏈接地址對應(yīng)的網(wǎng)頁完成主題建模,并基于此進行主題爬行,取得與使用訓(xùn)練集的主題爬蟲相當?shù)臄?shù)據(jù)獲取效率[10-11]。
主題爬蟲可以分劃分為4個部分,網(wǎng)頁爬行器、頁面分析器、相關(guān)度評價器、主題表達器。
1)網(wǎng)頁爬行器。網(wǎng)絡(luò)爬蟲的爬行是請求服務(wù)器、下載網(wǎng)頁、抽取鏈接過程的不斷循環(huán)迭代,爬蟲在請求服務(wù)器階段是相當耗時的,需要與服務(wù)器建立HTTP鏈接,然后等待對方反應(yīng),這也成了爬蟲性能的一個瓶頸,正因為如此,需要應(yīng)用多線程技術(shù)解決這個問題。
2)頁面內(nèi)容分析。在爬蟲獲取頁面之后,需要分析頁面信息,如標題信息、關(guān)鍵詞信息、正文信息、超鏈接信息等。這些信息可用于計算該網(wǎng)頁與主題的相似度,并獲取更多的URLs。
3)相關(guān)度評價器。相關(guān)度評價器由兩部分組成,分別為頁面相關(guān)度評價和URL相關(guān)度評價。頁面相關(guān)度評價主要是分析從頁面分析器出來的頁面與主題的相似度,URL相關(guān)度評價主要是用來判斷頁面中的鏈接與當前主題的相似程度。
4)主題表達器。基于層次目錄樹、基于本體、基于關(guān)鍵詞等方法都是主題的有效表達方式,本文所采用的基于關(guān)鍵詞的主題表示是最基本的表示方法之一?;陉P(guān)鍵詞的主題表示是指用一組代表主題特征的關(guān)鍵詞集合來表示主題內(nèi)容。本文是在爬蟲爬行的過程中自動的擴充主題調(diào),用以擴充主題庫,完整的表達用戶的需求,以求得更多的主題相關(guān)頁面。
首先,針對2.1中已經(jīng)獲取的互聯(lián)網(wǎng)文本數(shù)據(jù),進行數(shù)據(jù)清洗,過濾垃圾信息。然后,針對過濾后的文本,進行數(shù)據(jù)預(yù)處理,主要包括命名實體識別、語義抽取、語義富集等操作,實現(xiàn)對文本數(shù)據(jù)的結(jié)構(gòu)化預(yù)處理,豐富實體語義,為指揮決策提供領(lǐng)域知識支撐[13]。根據(jù)結(jié)構(gòu)化的文本數(shù)據(jù),構(gòu)建完善領(lǐng)域知識庫,并基于此實現(xiàn)更粗粒度的信息抽取,如事件檢測、關(guān)系抽取等,為挖掘分析高層語義信息提供支撐。
為了跟蹤研究互聯(lián)網(wǎng)上與輔助指揮決策有關(guān)的信息,同時降低業(yè)務(wù)用戶的信息過載壓力,應(yīng)當識別在整個網(wǎng)絡(luò)上傳播的基本單位,此單位的粒度應(yīng)當介于一篇新聞報道與術(shù)語或主題詞之間。此外,當確定了這個跟蹤粒度之后,還要考慮到它在互聯(lián)網(wǎng)傳播的過程中動態(tài)變化的因素。因此,本文需要研究一種發(fā)現(xiàn)和追蹤對同一事件不同表述形式的方法。
本文擬將互聯(lián)網(wǎng)信息中的原文語句引用作為發(fā)現(xiàn)和跟蹤事件的基本單位,并支持對其在互聯(lián)網(wǎng)傳播過程中的變異形式進行聚類識別[12]。具體做法是將原文中的短語或語義元素分割成若干個簇作為模塊進行發(fā)現(xiàn)和跟蹤,其中每個簇表示一個事件,并且簇中的短語或者語義可以是單個短語或者語義元素的突變變體,短語的變體形式可以包含部分詞法變化或者部分增量信息,語義的元素的變體形式可以關(guān)聯(lián)語義元素的形式出現(xiàn)。
為了支持以事件為導(dǎo)向的挖掘分析,系統(tǒng)通過圖3所示步驟實現(xiàn)從互聯(lián)網(wǎng)信息中檢測事件并進行聚類跟蹤。從短語抽取與語義富集開始,而后進行基于短語與語義的過濾,從而消除垃圾信息和冗余內(nèi)容。增加過濾步驟是考慮到互聯(lián)網(wǎng)開源情報常常包含廣告、低質(zhì)量信息的情況,一般系統(tǒng)常常忽視這個處理環(huán)節(jié),但對于實現(xiàn)高質(zhì)量產(chǎn)出來說這個處理至關(guān)重要。隨后,系統(tǒng)將實現(xiàn)基于短語與語義的聚類。由于在分析處理的過程中,描述同一事件的短語和語義可能經(jīng)歷了演進變化,而現(xiàn)有方法主要基于文本距離度量和傳統(tǒng)聚類方法實現(xiàn),因此常常效果不佳。解決方法是將描述同一事件的短語、語義信息以及他們的變體聚類在一個簇里,作為聚類分析的輸出結(jié)果,可在簡單處理后供信息檢索或可視化分析使用。
聚類處理步驟執(zhí)行的是輸出最終質(zhì)量檢查,清理舊的聚類,將已經(jīng)結(jié)束的聚類進行歸檔,并增量式地為已有聚類提供信息更新。最終,可視化應(yīng)用使用最終的聚類存檔通過可視化組件來呈現(xiàn)聚類。
微服務(wù)應(yīng)用框架是實現(xiàn)輕量級的操作系統(tǒng)虛擬化解決方案,主要是以Linux容器(LXC)等技術(shù)為基礎(chǔ),并在此基礎(chǔ)上進行了封裝,針對用戶屏蔽掉容器的相關(guān)管理,使得操作更為簡便方便,為用戶提供一種類似于操作快速輕量級虛擬機似的體驗。
微服務(wù)應(yīng)用框架具備隔離性、資源可度量性等2個特性:
1)隔離性。對于不同業(yè)務(wù)實例之間相互隔離,采用基于LXC的Container方式進行隔離。主要通過內(nèi)核的namespace將進程、網(wǎng)絡(luò)、文件系統(tǒng)等隔離開。
2)資源可度量。cgroups(controlgroups)是Linux內(nèi)核提供的一種機制,該機制可以隔離、記錄、限制進程組所使用物理資源,它提供了一種類似于文件形式的接口,通過將數(shù)據(jù)內(nèi)容導(dǎo)入文件的形式實現(xiàn)資源控制度量。cgroups可以實現(xiàn)對bikio、CPU、cpuacct、cpuset、devices、freezer、memory、net-cls、ns九大子系統(tǒng)的限制。
面向指控領(lǐng)域輔助決策的復(fù)雜使用需求以及互聯(lián)網(wǎng)大數(shù)據(jù)的應(yīng)用特點,通過容器的方式靈活配置需求、采集、處理、組織、計算、可視化等各類技術(shù)組件,進行面向業(yè)務(wù)的微服務(wù)組織與封裝,并將生成的各類服務(wù)錄入容器進行注冊、調(diào)度與管理。通過容器在已有的服務(wù)組件中動態(tài)適配符合業(yè)務(wù)場景要求的微服務(wù)單元,形成細粒度、松耦合、可靈活組合的自治單元,為用戶提供定制化的軍政協(xié)同業(yè)務(wù)信息和應(yīng)用服務(wù)模式,具體包括可視化組件重組與信息動態(tài)補償?shù)确?wù)模式。
本文針對互聯(lián)網(wǎng)大數(shù)據(jù)在指控領(lǐng)域輔助決策的應(yīng)用,研究了使用需求分析建模、大規(guī)?;ヂ?lián)網(wǎng)數(shù)據(jù)收集獲取與挖掘分析,并基于定制化的服務(wù)模式為輔助決策應(yīng)用提供支撐。下一步,我們將繼續(xù)在數(shù)據(jù)挖掘分析方面進行應(yīng)用拓展,增加信息提取樣式,豐富態(tài)勢信息展現(xiàn),不斷拓展其在作戰(zhàn)指揮領(lǐng)域的應(yīng)用。