中國運載火箭技術(shù)研究院研究發(fā)展部 趙大海 郭 晶
“知己知彼,百戰(zhàn)不殆”,情報信息對戰(zhàn)爭結(jié)果的影響巨大,對于軍事情報而言,需要的是高密度、高價值、高可信度的信息。但隨著信息技術(shù)的飛速發(fā)展,各種類型的信息和數(shù)據(jù)正在呈指數(shù)級增長,隱藏在海量數(shù)據(jù)中有用的信息并沒有按相對應(yīng)的比例增長,導(dǎo)致信息密度不斷降低,這使得難以快速、高效、準(zhǔn)確地從眾多數(shù)據(jù)中獲取需要的軍事情報[1]。如何利用現(xiàn)有的人工智能技術(shù)解決這一難題,成為了目前的研究熱點。
情報信息獲取可以分為情報信息的搜集、處理、形成3個部分。在第二次世界大戰(zhàn)之前,情報信息的搜集主要依靠情報人員的現(xiàn)場搜集和對敵人電臺的接聽獲取。隨著互聯(lián)網(wǎng)等信息技術(shù)的飛速發(fā)展,作戰(zhàn)指揮通信及信息的傳播方式更加多樣。目前,在情報搜集過程中,面臨的困難主要是搜集渠道多維化、信息冗余、獲取效率低;情報處理面臨的困難主要是技術(shù)瓶頸和多種技術(shù)集成難的問題。信息處理后會形成初步的情報信息,但是信息的可信度、準(zhǔn)確度往往無法保證,且在真實作戰(zhàn)過程中,還散布著一些虛假信息。這時,就需要依靠經(jīng)驗知識和專業(yè)知識,進行情報信息的篩選、提煉和深化總結(jié)。此外,在情報獲取的過程中,需要對信息和數(shù)據(jù)進行操作,因此信息存儲技術(shù)至關(guān)重要,但情報信息數(shù)據(jù)量大和格式復(fù)雜的特點,又給信息的存儲造成了較大的困難。綜上,只有針對性地解決上述問題和困難,才能在未來信息化作戰(zhàn)中高效、智能地獲取高質(zhì)量、高可靠性的軍事情報。情報信息獲取框架圖如圖1所示。
圖1 情報信息獲取框架圖
為解決軍事情報難以獲取的問題,本研究構(gòu)建了TPI&I模型。TPI&I模型借鑒IEI@I方法論和系統(tǒng)工程方法論,主要基于“文本挖掘(Text Mining)+人(People)+智能技術(shù)(Intelligence)& 集成技術(shù)(Integration)”構(gòu)建而成[2],其中,“&”強調(diào)是一種非疊加性的集成。本研究采用“先分解后集成的思想”,首先將軍事情報獲取渠道分為網(wǎng)絡(luò)和現(xiàn)實2個部分,借助文本挖掘技術(shù)快速獲取互聯(lián)網(wǎng)等虛擬空間中的有用信息,通過情報人員獲取現(xiàn)實生活中的有用信息;其次,通過數(shù)據(jù)挖掘技術(shù),分析獲取信息之間的關(guān)聯(lián)關(guān)系及更深層次有價值的信息;再次,通過其他人工智能技術(shù)解決情報獲取過程中遇到的問題,例如,利用密碼學(xué)進行密碼破譯、區(qū)塊鏈技術(shù)解決加密信息處理等問題。此外,還通過專家系統(tǒng),對處理后的情報信息進行推理。最后,利用集成技術(shù)將上述分解的各個分系統(tǒng)結(jié)果綜合集成起來,情報專家結(jié)合專家系統(tǒng)推理輸出的結(jié)果和各階段所獲得的情報信息總結(jié)得到高質(zhì)量的情報信息,并進行軍事行動預(yù)測等后續(xù)操作。TPI&I模型的理論框架如圖2所示。
如圖2所示,TPI&I模型主要分為8個模塊,即:數(shù)據(jù)管理模塊、Hadoop(一種分布式系統(tǒng)架構(gòu))集群模塊、文本挖掘模塊、數(shù)據(jù)挖掘模塊、其他AI技術(shù)模塊、其他信息模塊、輸出模塊、人機交互模塊。
數(shù)據(jù)管理模塊是TDP&I模型的重要組成部分,模型中的每個模塊都與其有著交互關(guān)系。數(shù)據(jù)管理模塊包括傳統(tǒng)數(shù)據(jù)庫、Hive(一種基于Hadoop的數(shù)據(jù)倉庫工具)、HBase(一種開源的分布式數(shù)據(jù)庫)所構(gòu)成的模型庫、圖片庫、視頻庫等與情報搜集處理相關(guān)的數(shù)據(jù)庫。
圖2 TPI&I模型的理論框架
傳統(tǒng)數(shù)據(jù)庫與具體的應(yīng)用服務(wù)連接,可以用來存儲情報人員搜集到的情報信息,并為其他應(yīng)用提供數(shù)據(jù)的支撐服務(wù);Hive和HBase存儲容量大,查詢和處理速度比傳統(tǒng)數(shù)據(jù)庫快,用來存儲各類模型及文本挖掘、數(shù)據(jù)挖掘、附加信息處理得到的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),以及各種人工智能模型、算法數(shù)據(jù)集。調(diào)整引擎可以輔助Hive、HBase與傳統(tǒng)數(shù)據(jù)庫進行數(shù)據(jù)交換處理,并對各類模型、算法、數(shù)據(jù)集進行更新操作。
Hadoop集群模塊主要由Hadoop分布式文件系統(tǒng)(HDFS)分布式文件系統(tǒng)、MapReduce(一種編程模型)分布式計算引擎、Zookeeper(一種開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù))組成,但可根據(jù)實際需要添加Hadoop生態(tài)系統(tǒng)中的其他技術(shù)[3]。HDFS能夠較好地保證數(shù)據(jù)的可用性、完整性、一致性,并具備高吞吐量、高可靠性和高容錯性的優(yōu)點。允許用戶將數(shù)據(jù)存儲在群集中的多個節(jié)點或機器上,并允許多個用戶訪問數(shù)據(jù)。MapReduce分布式計算引擎采用主/從(Master/Slave)結(jié)構(gòu),可以有效處理大規(guī)模數(shù)據(jù)集的并行計算。Zookeeper是針對大型分布式系統(tǒng)的高可靠的協(xié)調(diào)系統(tǒng),能夠輔助HBase集群的運行,可以為用戶提供配置、命名、分組、管理等服務(wù)。
文本挖掘模塊主要是針對難以量化表示的文本信息進行挖掘,以及除數(shù)據(jù)庫外的Web文本信息的挖掘。文本挖掘模塊利用智能算法進行可能性推理,并結(jié)合文字處理、語義識別等技術(shù),分析海量的網(wǎng)絡(luò)非結(jié)構(gòu)化文本,根據(jù)情報人員提供的關(guān)鍵字等信息,標(biāo)記各文本間的關(guān)系,并按照文本內(nèi)容分類獲取有用的知識和信 息[4]。文本挖掘模塊的具體實施流程如圖3所示。
圖3 文本挖掘流程示意圖
1. 文本預(yù)處理
原始文本及網(wǎng)絡(luò)文本格式多樣、信息量巨大,且格式不規(guī)范、內(nèi)容不完整、重復(fù)無效的信息會降低文本挖掘的效率并影響文本挖掘結(jié)果的準(zhǔn)確度。為了降低這些因素的不良影響,在進行正式文本挖掘前對目標(biāo)文本進行降噪處理具有重要 意義[5]。文本預(yù)處理主要包括去標(biāo)記、分詞、去停用詞、關(guān)鍵詞提取等4個主要步驟。
文本分詞之后,因為不是所有的詞都有意義,且基于向量空間模型的文本表示會造成數(shù)據(jù)密度較小,因此需要進行去停用詞和關(guān)鍵詞提取操作。關(guān)鍵詞提取時,需要根據(jù)不同關(guān)鍵詞在對應(yīng)文章中所占比重進行比較,設(shè)關(guān)鍵詞ti相對于文章dj權(quán)重值為wij,計算公式如下:
式中,fij為詞頻,表示詞條ti在其所在文章dj中出現(xiàn)的次數(shù),為逆向文本頻率,表示詞的區(qū)分度;n表示文本集合D中包含的文檔數(shù);ni表示包含詞條ti的文件數(shù)。
由于詞頻fij與文章篇幅長度呈正相關(guān),因此,文本越長計算所得權(quán)重值越大,為了避免該原因造成誤差,需針對文本長度進行規(guī)范化處理,見下式:
2. 文本表示
計算機無法處理普通的文本數(shù)據(jù),因此需要借助文本表示將其轉(zhuǎn)換為計算機能夠讀取處理的語言以獲得初始的文本特征集。目前,常用的文本表示模型有2種,分別為布爾模型和向量空間模型。布爾模型以布爾代數(shù)和集合論為基礎(chǔ),形式簡單、可讀性強,其缺點是模型表達準(zhǔn)確度和完整性較差。向量空間模型通過特征向量進行文本表示,特征向量由文本中不同詞條所表示的特征項組成,而文本空間則可以看作是向量空間,每個文檔都可以映射為向量空間中的一個點。
3. 特征篩選
特征篩選由特征降維和特征加權(quán)兩部分組成。特征降維的目的是為了將數(shù)據(jù)多、分布密度小的高維文本特征集映射到低維空間,以方便后續(xù)文本挖掘的應(yīng)用,采用的方法一般為歸納合并或?qū)W習(xí)算法。特征加權(quán)則是以某種既定的標(biāo)準(zhǔn)為所有特征項賦權(quán)值,從而最大化文檔特性。
4. 文本建模
文本建模是文本挖掘的重要環(huán)節(jié),其可以有效促進后續(xù)知識發(fā)現(xiàn)、趨勢判斷、可視化表示。此外,如果想將獲得的情報信息如人員、地名、時間等關(guān)聯(lián)到具體的軍事行動等事件上還需要運用網(wǎng)絡(luò)爬 蟲技術(shù)[6]。網(wǎng)絡(luò)爬蟲工作原理如圖4所示。
圖4 網(wǎng)絡(luò)爬蟲工作原理圖
從圖4可以看出,傳統(tǒng)網(wǎng)絡(luò)爬蟲的流程為從初始URL隊列中標(biāo)注的地址鏈接開始,按照預(yù)先設(shè)定的規(guī)則對新的頁面中包含的URL進行提取,并在本地形成鏡像備份存入爬蟲數(shù)據(jù)庫,并通過新的URL訪問新的頁面進行對應(yīng)的操作。TPI&I模型借助主題爬蟲,在傳統(tǒng)爬蟲的基礎(chǔ)上根據(jù)主題策略,進行頁面主題相關(guān)度的識別,并對相關(guān)頁面進行綜合評估排序,得到最終頁面信息。主題爬蟲極大地提高了數(shù)據(jù)采集效率,降低了系統(tǒng)資源的浪費。
數(shù)據(jù)挖掘模塊包括數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、結(jié)果輸出等4個步驟。數(shù)據(jù)準(zhǔn)備階段需要根據(jù)實際需要選擇數(shù)據(jù)庫來確定數(shù)據(jù)來源,并在執(zhí)行過程中完成數(shù)據(jù)抽取工作[7]。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)集成。具體的執(zhí)行過程則需要根據(jù)用戶定義的規(guī)則來實現(xiàn)。在數(shù)據(jù)挖掘過程中,需要根據(jù)實際需要,運用各種類型的數(shù)據(jù)挖掘算法對經(jīng)過預(yù)處理的數(shù)據(jù)執(zhí)行挖掘算法,經(jīng)常使用的數(shù)據(jù)挖掘算法有神經(jīng)網(wǎng)絡(luò)、回歸分析、支持向量機、聚類分析等。最后,該系統(tǒng)將數(shù)據(jù)挖掘結(jié)果輸出給專家系統(tǒng)和情報人員,以供進一步的分析處理。
其他AI技術(shù)模塊包括密碼學(xué)技術(shù)、信息安全技術(shù)、區(qū)塊鏈技術(shù)等,主要用于解決阻礙情報獲取和研究的相關(guān)問題。例如,密碼學(xué)技術(shù)用于敵方密碼的破譯,以支撐情報信息的獲取和分析;信息安全技術(shù)用于對敵方信息系統(tǒng)進行攻擊以獲取信息;區(qū)塊鏈技術(shù)用于己方情報信息的保密傳輸,以及對敵方涉及區(qū)塊鏈傳輸信息的破解。
現(xiàn)實信息模塊指的是現(xiàn)實世界情報信息的獲取,主要通過情報人員的現(xiàn)場采集,以及偵察機、衛(wèi)星等偵查工具的信息采集得以實現(xiàn)。獲取到的信息包括文字、圖片、視頻、音頻等多種格式信息,都通過人機交互模塊存儲在相對應(yīng)的數(shù)據(jù)庫中,等待信息的處理。
輸出模塊包含專家系統(tǒng)和情報專家兩部分。專家系統(tǒng)是一種智能計算機程序系統(tǒng),其內(nèi)部含有豐富的特定領(lǐng)域?qū)<宜降闹R與經(jīng)驗,構(gòu)成了經(jīng)驗庫,使得人們能夠利用專家的知識和解決問題的方法處理各個領(lǐng)域的問題,以彌補純機器系統(tǒng)的不足[8],其結(jié)構(gòu)如圖5所示。專家系統(tǒng)以條件判斷語句“If-Then”的形式將情報專家的經(jīng)驗知識集成起來,對其他各系統(tǒng)的輸出結(jié)果進行分析,并將分析結(jié)果輸出傳遞給情報專家。情報專家結(jié)合其他各模塊輸出的信息進行綜合分析決策,并形成高質(zhì)量的情報信息,同時根據(jù)情報信息,形成對應(yīng)的預(yù)測結(jié)果,為上層決策者提供智庫支撐。
圖5 專家系統(tǒng)結(jié)構(gòu)圖
人機交互模塊是用戶與TPI&I模型構(gòu)成的系統(tǒng)進行信息交互的窗口,負(fù)責(zé)各個模塊與用戶的信息輸入/輸出,方便用戶的操作。
隨著世界各軍事強國科技水平的不斷提高,未來作戰(zhàn)取勝的關(guān)鍵不單單取決于武器裝備的先進程度和部隊的作戰(zhàn)能力,還有情報信息的獲取和利用能力。隨著我軍信息化建設(shè)的推進,建設(shè)智能高效的情報獲取系統(tǒng)的必要性越發(fā)突顯。本研究根據(jù)情報獲取的步驟進行問題分解,運用多種技術(shù)進行解決,最后綜合集成提出了TPI&I模型。該模型能夠提高復(fù)雜多維軍事情報的信息提取效率,提升軍事情報信息的獲取和利用能力,在戰(zhàn)場態(tài)勢感知、作戰(zhàn)決策指揮等方面具有良好的應(yīng)用前景,有利于信息化、體系化作戰(zhàn)場景下作戰(zhàn)效能的提升。