陳文青
(中國人民解放軍91776部隊,北京 100161)
隨著軍事數(shù)據(jù)量爆炸式地增長,軍隊及軍工研究所需要在復(fù)雜多變的軍事環(huán)境中做出更好的戰(zhàn)略決策。為了應(yīng)對復(fù)雜多變的軍事環(huán)境,軍隊及軍工研究所需要在戰(zhàn)略決策過程中收集大量的軍事數(shù)據(jù),將規(guī)范的軍事數(shù)據(jù)持久化保存,并且對軍事數(shù)據(jù)進(jìn)行分析,挖掘出軍事數(shù)據(jù)中蘊(yùn)含的軍事價值,進(jìn)而制定出準(zhǔn)確、長遠(yuǎn)、全局的戰(zhàn)略決策[1]。
傳統(tǒng)的戰(zhàn)略決策模型如波士頓矩陣[2],應(yīng)用于軍事環(huán)境中主要基于軍隊武器裝備的多樣性和軍工產(chǎn)品的先進(jìn)性來分析軍事戰(zhàn)斗力,評估軍隊及軍工研究所的各類武器裝備和軍工產(chǎn)品的重要性,進(jìn)而合理安排軍隊及軍工研究所的研發(fā)比例,對更有發(fā)展前景的武器裝備和軍工產(chǎn)品加大投資力度。然而,波士頓矩陣也存在著缺點。首先,波士頓矩陣假設(shè)各個軍事行動相對獨立,但是大量的軍事數(shù)據(jù)表明軍事行動之間往往具有強(qiáng)相關(guān)性,可能無法找到全局最優(yōu)策略;其次,對于復(fù)雜、多態(tài)和變化的軍事數(shù)據(jù),波士頓矩陣具有粗粒度的評價等級,不能精確地評估軍事戰(zhàn)斗力,使得軍隊及軍工研究所難以制定準(zhǔn)確的戰(zhàn)略決策。
另一種經(jīng)典的戰(zhàn)略決策模型如麥肯錫矩陣[3],應(yīng)用于軍事環(huán)境中加入了更多的評價指標(biāo)。相比基于軍隊武器裝備的多樣性和軍工產(chǎn)品的先進(jìn)性的波士頓矩陣,麥肯錫矩陣的結(jié)構(gòu)更加復(fù)雜,能更準(zhǔn)確地分析軍事戰(zhàn)斗力,可以基于軍事行動的相關(guān)性和武器裝備、軍工產(chǎn)品的綜合實力來制定戰(zhàn)略決策,包含了更多的軍事因素,能夠從全局角度制定更加準(zhǔn)確的戰(zhàn)略決策。不過,麥肯錫矩陣也存在著局限性。首先,對于信息時代中海量多態(tài)的軍事數(shù)據(jù),麥肯錫矩陣的綜合指標(biāo)的系數(shù)難以精確地分配,導(dǎo)致軍事行動的評價結(jié)果出現(xiàn)偏差;其次,對于一個大型復(fù)雜的軍事行動,將產(chǎn)生海量的軍事數(shù)據(jù)。由于麥肯錫矩陣的流程繁雜,使得軍隊及軍工研究所的人員不易操作,難以在有限的時間內(nèi)提煉出有價值的軍事信息。
從傳統(tǒng)的戰(zhàn)略決策模型,如SWOT(Strengths,Weaknesses,Opportunities,and Threats)模型[4]、SCP(Structure-Conduct-Performance)分析模型[5]、AARRR(Acquisition,Activation,Retention,Revenue,Referral)模型[6]等,可以發(fā)現(xiàn),這些方法大多需要收集規(guī)范正確的軍事數(shù)據(jù)、制定合理的評價指標(biāo)和基于專家經(jīng)驗制定特定的軍事分析規(guī)則。但是,傳統(tǒng)的戰(zhàn)略決策模型難以持久化存儲、清洗和處理海量多態(tài)的軍事數(shù)據(jù)。其次,對于復(fù)雜多變的軍事環(huán)境,軍隊及軍工研究所各個軍事行動的決策也會不斷調(diào)整,進(jìn)而導(dǎo)致這些方法的評價指標(biāo)不適用于各個軍事行動場景,需要重新制定特定的評價指標(biāo);最后,基于專家經(jīng)驗的方法需要極其嚴(yán)格地分析規(guī)則,但是對于大規(guī)模的軍事數(shù)據(jù)而言,人為制定的規(guī)則并不能挖掘出數(shù)據(jù)中隱含的信息,并且軍事人員需要消耗大量的時間進(jìn)行分析。
由于大數(shù)據(jù)技術(shù)的蓬勃發(fā)展,許多行業(yè)中的機(jī)構(gòu),如醫(yī)療保健、社交媒體、智慧城市、智能交通、能源管理、金融管理和智能農(nóng)業(yè)等[7],開始利用大數(shù)據(jù)技術(shù)來分析行業(yè)前景,挖掘出海量數(shù)據(jù)中隱含的有價值的信息,進(jìn)而制定準(zhǔn)確、長遠(yuǎn)、全局的戰(zhàn)略決策。首先,相比傳統(tǒng)的戰(zhàn)略決策模型,大數(shù)據(jù)技術(shù)包含先進(jìn)的工具(如NoSQL,BigQuery,MapReduce等),能夠存儲和處理海量多態(tài)的軍事數(shù)據(jù)[8]。并且大數(shù)據(jù)分析與挖掘能夠幫助軍工研究所和軍隊以可解釋的、合理的形式從數(shù)據(jù)中提取知識。其次,傳統(tǒng)的戰(zhàn)略決策模型的擴(kuò)展性和適用性差,而各類數(shù)據(jù)挖掘技術(shù)和機(jī)器學(xué)習(xí)算法可適應(yīng)不同的軍事行動場景,能夠分析海量多態(tài)的數(shù)據(jù),進(jìn)而建立高可用、易擴(kuò)展的戰(zhàn)略決策模型。最后,大數(shù)據(jù)分析與挖掘方法是由數(shù)據(jù)驅(qū)動的技術(shù)框架,能夠從軍事數(shù)據(jù)中獲得全面的軍事信息,進(jìn)而在軍事行動的智能分析中提供全局性、前瞻性的戰(zhàn)略決策。
綜上所述,本文首次提出了新型基于大數(shù)據(jù)分析與挖掘的戰(zhàn)略決策框架——BDAM-SDF(Big Data Analysis and Mining-Strategic Decision Framework)。相比傳統(tǒng)的戰(zhàn)略決策模型,BDAM-SDF具有高可用、易擴(kuò)展的特點,包含各種大數(shù)據(jù)技術(shù)與平臺,可靈活適應(yīng)各種軍事行動場景,并且是一種大數(shù)據(jù)技術(shù)驅(qū)動型架構(gòu),能夠覆蓋制定戰(zhàn)略決策過程的全部生命周期,能夠全方位地獲取、存儲、分析軍事數(shù)據(jù),挖掘出有價值的軍事信息,進(jìn)而精確、全面、長遠(yuǎn)地制定戰(zhàn)略決策。
基于大數(shù)據(jù)分析與挖掘的一體化戰(zhàn)略決策框架是一種數(shù)據(jù)密集型架構(gòu),提供了用于數(shù)據(jù)生成、數(shù)據(jù)采集、數(shù)據(jù)存儲和預(yù)處理、數(shù)據(jù)分析、數(shù)據(jù)可視化和戰(zhàn)略決策制定的各種技術(shù)和平臺。
BDAM-SDF整體架構(gòu)如圖1所示。將對BDAM-SDF的各個階段進(jìn)行概述,其中數(shù)據(jù)生成、數(shù)據(jù)采集和數(shù)據(jù)存儲與預(yù)處理為基礎(chǔ)設(shè)施架構(gòu)層;數(shù)據(jù)分析為規(guī)范數(shù)據(jù)集中分析層;數(shù)據(jù)可視化和戰(zhàn)略決策制定為綜合管理應(yīng)用層。
圖1 BDAM-SDF整體架構(gòu)Fig.1 Overall architecture of BDAM-SDF
1.1.1 數(shù)據(jù)生成
大數(shù)據(jù)生成是指從各種來源生成數(shù)據(jù)。數(shù)據(jù)源包括機(jī)器、人和軍事行動等。不同數(shù)據(jù)源的相關(guān)性如圖2所示。
圖2 多源數(shù)據(jù)的相關(guān)性Fig.2 Correlation of multi-source data
其中,與機(jī)器相關(guān)的數(shù)據(jù)來自Web服務(wù)、傳感器、音頻設(shè)備和視頻設(shè)備等。與人相關(guān)的數(shù)據(jù)包括工作方向、日常任務(wù)和職業(yè)等。與軍事行動相關(guān)的數(shù)據(jù)包括軍隊訓(xùn)練數(shù)據(jù)和聯(lián)合作戰(zhàn)數(shù)據(jù)等[9]。當(dāng)討論基于大數(shù)據(jù)分析的軍事行動時,軍事行動相關(guān)的數(shù)據(jù)非常重要。
1.1.2 數(shù)據(jù)采集
數(shù)據(jù)采集是指從數(shù)據(jù)倉庫或各種數(shù)據(jù)庫中收集、過濾和清理數(shù)據(jù)的過程[10],如圖3所示。數(shù)據(jù)采集分為數(shù)據(jù)探索和數(shù)據(jù)收集2個階段。數(shù)據(jù)探索主要有2個目的:① 確定數(shù)據(jù)的性質(zhì)和特征;② 擯棄可能嚴(yán)重影響數(shù)據(jù)質(zhì)量的噪聲數(shù)據(jù)。而數(shù)據(jù)收集是指從現(xiàn)實世界中獲取未經(jīng)處理的數(shù)據(jù),例如從不同傳感器中收集海量復(fù)雜、未處理的數(shù)據(jù)。
圖3 數(shù)據(jù)采集過程Fig.3 Data collection process
1.1.3 數(shù)據(jù)存儲與預(yù)處理
數(shù)據(jù)存儲是指經(jīng)過數(shù)據(jù)采集后,將多種類型的數(shù)據(jù)以不同的形式存儲。大數(shù)據(jù)存儲的工具有HBase,NoSQL,Gluster,HDFS和GFS[11]。數(shù)據(jù)預(yù)處理通常使用2種模型進(jìn)行處理,分別是流處理模型和批處理模型。預(yù)處理涉及到一系列步驟:如何集成數(shù)據(jù)、如何轉(zhuǎn)換數(shù)據(jù)、如何選擇正確的模型進(jìn)行處理以及如何提供結(jié)果。流處理模型盡可能快地處理數(shù)據(jù),并且以非??斓乃俣冗B續(xù)輸出處理后的數(shù)據(jù)。主要的流處理模型包括Storm,S4和Kafka等[12]。批處理模型首先存儲數(shù)據(jù),然后進(jìn)行集中處理,主要的批處理模型包括MapReduce[13]等。
1.1.4 數(shù)據(jù)分析
數(shù)據(jù)分析是指運(yùn)用各種機(jī)器學(xué)習(xí)算法、數(shù)據(jù)挖掘技術(shù)和統(tǒng)計分析方法,對異構(gòu)數(shù)據(jù)進(jìn)行分析,挖掘出有價值的隱含信息[14]。大數(shù)據(jù)分析的目標(biāo)是通過分析數(shù)據(jù)獲得前瞻性知識并更好地指導(dǎo)后續(xù)的戰(zhàn)略決策制定過程。進(jìn)行數(shù)據(jù)分析時,通常使用機(jī)器學(xué)習(xí)技術(shù)。機(jī)器學(xué)習(xí)技術(shù)從學(xué)習(xí)方式分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí);從功能角度分為回歸算法(如線性回歸、邏輯回歸[15]等)、決策樹算法(如ID3算法[16]、C4.5算法等)、貝葉斯算法(如貝葉斯網(wǎng)絡(luò)和高斯貝葉斯算法等)、聚類算法(如K-均值[17]和期望最大化算法等)、基于核的算法(如支持向量機(jī)[18]和徑向基函數(shù)等)以及人工神經(jīng)網(wǎng)絡(luò)(如多層感知機(jī)[19]和反向傳播神經(jīng)網(wǎng)絡(luò)),如圖4所示。
圖4 機(jī)器學(xué)習(xí)技術(shù)分類Fig.4 Classification of machine learning techniques
其中,回歸算法是基于樣本數(shù)據(jù),并利用數(shù)理統(tǒng)計方法來建立因變量與自變量之間的回歸關(guān)系函數(shù)表達(dá)式,即回歸方程式?;貧w算法也是一種預(yù)測性的建模技術(shù),主要研究因變量和自變量之間的關(guān)系。通常這種技術(shù)應(yīng)用于預(yù)測分析、時間序列模型以及探索變量之間的相關(guān)性。決策樹算法是通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程。決策樹的生成過程主要分為特征選擇、決策樹生成和剪枝。其中特征選擇是指從訓(xùn)練數(shù)據(jù)的眾多的特征中選擇一個特征作為當(dāng)前節(jié)點的分裂標(biāo)準(zhǔn),并且如何選擇特征有很多不同的量化評估標(biāo)準(zhǔn),從而衍生出不同的決策樹算法。決策樹生成是根據(jù)選擇的特征評估標(biāo)準(zhǔn),從上至下遞歸地生成子節(jié)點,直到數(shù)據(jù)集不可再分為止。剪枝是克服決策樹容易過擬合的特點。貝葉斯分類算法是統(tǒng)計學(xué)的一種分類方法,是一類利用概率統(tǒng)計知識進(jìn)行分類的算法。樸素貝葉斯分類是貝葉斯分類中最簡單的一種,主要是利用貝葉斯公式,并根據(jù)某特征的先驗概率計算出后驗概率,然后選擇具有最大后驗概率的類作為該特征所屬的類。并且樸素貝葉斯分類算法可以與決策樹和神經(jīng)網(wǎng)絡(luò)分類算法相媲美,能運(yùn)用到大型數(shù)據(jù)庫中,而且方法簡單、分類準(zhǔn)確率高、速度快。聚類算法中最普及的是K-均值算法,這是一種迭代算法,首先選擇k個隨機(jī)的點,稱為聚類中心,其次對數(shù)據(jù)集中的每一個數(shù)據(jù),按照距離k個中心點的距離,將其與距離最近的中心點關(guān)聯(lián)起來,與同一個中心點關(guān)聯(lián)的所有點聚成一類,然后計算每一個組的平均值,將該組所關(guān)聯(lián)的中心點移動到平均值的位置,最后重復(fù)步驟,直至中心點不再變化。人工神經(jīng)網(wǎng)絡(luò)如多層感知機(jī),主要是由輸入層、隱藏層和輸出層組成,其中層與層之間均為全連接,且每個隱藏層的輸出通過激活函數(shù)進(jìn)行變換。
1.1.5 數(shù)據(jù)可視化
數(shù)據(jù)可視化方法包括以表格、圖像和程序來顯示數(shù)據(jù)。目前有各種經(jīng)典的可視化分析工具,如Dive,Rattle,F(xiàn)lockDB,F(xiàn)lare,Amcharts和Protovis。最近,洛馬、波音、三菱重工、諾格和通用動力等公司都在尋找可視化工具以及基于軍事分析的智能可視化解決方案[20]。數(shù)據(jù)可視化也是解釋大數(shù)據(jù)的主要機(jī)制之一。從統(tǒng)計科學(xué)的角度來看,大數(shù)據(jù)的使用對數(shù)據(jù)可視化的發(fā)展具有重要意義[21]。
1.1.6 戰(zhàn)略決策制定
戰(zhàn)略決策制定是指將數(shù)據(jù)中挖掘出的軍事價值進(jìn)行實現(xiàn)的過程。并且戰(zhàn)略決策制定將基于數(shù)據(jù)分析中挖掘出的有價值的隱含信息。戰(zhàn)略決策制定包括戰(zhàn)略決策建模、戰(zhàn)略決策分析和戰(zhàn)略決策完善3個步驟。
決策建模是指基于關(guān)鍵信息來設(shè)計和改進(jìn)軍事行動部署方案,并分析軍事行動的作戰(zhàn)效率、保障水平和制勝要素。在決策建模過程中,需要提供全局性、完整性、長遠(yuǎn)性的決策模型,包括武器裝備平臺、戰(zhàn)斗保障體系、火力系統(tǒng)和戰(zhàn)場通信系統(tǒng)的協(xié)同性、作戰(zhàn)要素互通性以及聯(lián)合指揮高效性等。
決策分析分為2個階段:第1階段,將決策模型置于各個軍事行動場景中,模擬分析決策模型在軍隊訓(xùn)練中的可適用性和容錯性;第2階段,將決策模型置于軍事演習(xí)行動中,全方面測試決策模型的可擴(kuò)展性和健壯性。
決策完善分為2個階段:第1階段,將決策分析中出現(xiàn)的問題整理為軍事行動調(diào)整報告,并且進(jìn)行針對性地改進(jìn);第2階段,將修改后的決策模型實際置于軍事行動中,高效分析軍事情報,消除指揮人員的認(rèn)知局限,精準(zhǔn)找到制勝的關(guān)鍵要素,實現(xiàn)戰(zhàn)略決策智能化。
BDAM-SDF包括3個工作階段:數(shù)據(jù)價值發(fā)現(xiàn)、數(shù)據(jù)價值創(chuàng)造和數(shù)據(jù)價值實現(xiàn),工作流程如圖5所示。
圖5 BDAM-SDF的工作流程Fig.5 Workflow of BDAM-SDF
1.2.1 數(shù)據(jù)價值發(fā)現(xiàn)
在BDAM-SDF中,數(shù)據(jù)價值發(fā)現(xiàn)的目的是獲得能夠直接進(jìn)行數(shù)據(jù)分析的規(guī)范數(shù)據(jù)。因此,數(shù)據(jù)價值發(fā)現(xiàn)基于數(shù)據(jù)生成、數(shù)據(jù)采集、數(shù)據(jù)存儲和預(yù)處理階段。為了更好地理解數(shù)據(jù)價值發(fā)現(xiàn)的流程,給出了一個例子。例如,將BDAM-SDF應(yīng)用于軍工產(chǎn)品研發(fā)流程中,首先需要進(jìn)行數(shù)據(jù)生成,列出軍工產(chǎn)品研發(fā)流程中產(chǎn)生的各類數(shù)據(jù),如軍工產(chǎn)品的性能數(shù)據(jù)、軍工產(chǎn)品的交易數(shù)據(jù)、市場反饋數(shù)據(jù)和財務(wù)數(shù)據(jù)等;其次,對各類數(shù)據(jù)進(jìn)行探索,擯棄數(shù)據(jù)質(zhì)量較低的數(shù)據(jù),盡可能地選擇先進(jìn)的軍工產(chǎn)品研發(fā)流程中產(chǎn)生的數(shù)據(jù)。為了保證高質(zhì)量的數(shù)據(jù),需建立數(shù)據(jù)清洗方法,包括檢查數(shù)據(jù)的完整性、數(shù)據(jù)的唯一性、數(shù)據(jù)的權(quán)威性和數(shù)據(jù)的合法性這4項規(guī)則。按照規(guī)則來檢查原始軍事數(shù)據(jù),發(fā)現(xiàn)質(zhì)量較低的數(shù)據(jù),再對低質(zhì)量數(shù)據(jù)采用對應(yīng)方式進(jìn)行處理。例如,對于數(shù)據(jù)不完整的情況,通常表現(xiàn)為數(shù)據(jù)值缺失,可以使用均值填補(bǔ)法。對于數(shù)據(jù)不唯一的情況,通常表現(xiàn)為數(shù)據(jù)中存在重復(fù)記錄或重復(fù)字段,需要進(jìn)行去重處理,可以將數(shù)據(jù)按一定規(guī)則進(jìn)行排序,再通過比較鄰近記錄是否相似來檢測數(shù)據(jù)是否重復(fù)。對于檢查數(shù)據(jù)的權(quán)威性和數(shù)據(jù)的合法性,可以使用基于密度的方法來檢測錯誤值、異常值,進(jìn)而刪除錯誤數(shù)據(jù)和異常數(shù)據(jù)。另外,還需要統(tǒng)一數(shù)據(jù)類型和數(shù)據(jù)格式,對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理以滿足數(shù)據(jù)的合法性和權(quán)威性。然后,將篩選出的數(shù)據(jù)進(jìn)行存儲,可使用HDFS進(jìn)行存儲,并且結(jié)合MapReduce對數(shù)據(jù)進(jìn)行處理,可獲得待分析的規(guī)范數(shù)據(jù)。
1.2.2 數(shù)據(jù)價值創(chuàng)造
數(shù)據(jù)價值創(chuàng)造主要是將待分析的規(guī)范數(shù)據(jù)結(jié)合機(jī)器學(xué)習(xí)算法或數(shù)據(jù)挖掘技術(shù)從海量的規(guī)范數(shù)據(jù)中分析出有價值的關(guān)鍵信息,挖掘出數(shù)據(jù)中隱含的軍事價值。并且在數(shù)據(jù)價值創(chuàng)造中,選擇合適的數(shù)據(jù)分析技術(shù)至關(guān)重要。在軍工產(chǎn)品研發(fā)場景中,評估各種機(jī)器學(xué)習(xí)算法,選取一個最優(yōu)的方法能夠為后續(xù)階段提供更準(zhǔn)確的軍事信息,使得后續(xù)階段能夠制定出更精確的戰(zhàn)略決策。在數(shù)據(jù)分析過程中對各類機(jī)器學(xué)習(xí)算法進(jìn)行評估,首先需要定義機(jī)器學(xué)習(xí)算法的性能指標(biāo),通常不同的算法模型對應(yīng)不同的性能指標(biāo),如對回歸模型進(jìn)行評估時,使用平均絕對誤差和平均方差等;對分類模型進(jìn)行評估時,使用預(yù)測準(zhǔn)確率、召回率和F1值等。然后將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,并選取多個機(jī)器學(xué)習(xí)算法在訓(xùn)練集上進(jìn)行訓(xùn)練,為了保證更準(zhǔn)確、穩(wěn)定地評估算法模型,使用交叉驗證法,具體為將數(shù)據(jù)集劃分為k個大小相似的互斥子集,每個子集輪流作為測試集,其余的子集則作為訓(xùn)練集,返回k個訓(xùn)練結(jié)果的均值。最后基于各個機(jī)器學(xué)習(xí)算法的性能指標(biāo),綜合考慮選取各個性能指標(biāo)均排名前列的機(jī)器學(xué)習(xí)算法作為最優(yōu)方法。后續(xù)依然需要使用更多的真實數(shù)據(jù)集反復(fù)對最終選取的機(jī)器學(xué)習(xí)算法進(jìn)行調(diào)參、驗證,最終保證算法具有較高的穩(wěn)定性和泛化能力。
1.2.3 數(shù)據(jù)價值實現(xiàn)
數(shù)據(jù)價值實現(xiàn)的目的是為軍隊及軍工研究所制定全局性、準(zhǔn)確性和長遠(yuǎn)性的戰(zhàn)略決策,從而分別為軍隊的軍事行動提供制勝要素,為軍工研究所的軍工產(chǎn)品提供可持續(xù)發(fā)展的動力。數(shù)據(jù)價值實現(xiàn)需要結(jié)合戰(zhàn)略決策建模、戰(zhàn)略決策分析和戰(zhàn)略決策完善,并且每一個階段都需要基于數(shù)據(jù)分析得到有價值的軍事信息。在最終制定戰(zhàn)略決策之前,還需要結(jié)合專家的意見以及軍事場景的反饋信息。
大型的軍工研發(fā)機(jī)構(gòu)如洛馬、波音、三菱重工、諾格和通用動力等都有推薦系統(tǒng)。推薦系統(tǒng)能夠向客戶方精準(zhǔn)地提供武器裝備,使得客戶方產(chǎn)生購買意向,最終提高軍工產(chǎn)品的交易量。這表明,推薦系統(tǒng)對于整個軍工研發(fā)機(jī)構(gòu)的戰(zhàn)略決策至關(guān)重要。
將BDAM-SDF應(yīng)用于軍工研發(fā)機(jī)構(gòu)中,首先是構(gòu)建BDAM-SDF,如圖6所示。
圖6 BDAM-SDF應(yīng)用于軍工研發(fā)Fig.6 Application of BDAM-SDF in military research and development
其中,數(shù)據(jù)生成階段是指客戶方產(chǎn)生交易數(shù)據(jù)、軍工產(chǎn)品數(shù)據(jù)和反饋數(shù)據(jù)的過程。這些數(shù)據(jù)將由數(shù)據(jù)服務(wù)器保存,然后軍工研發(fā)機(jī)構(gòu)從數(shù)據(jù)服務(wù)器中采集數(shù)據(jù),并且擯棄疑似惡意交易和虛假購買的數(shù)據(jù),進(jìn)而篩選出正常的客戶方數(shù)據(jù),由分布式文件系統(tǒng)進(jìn)行存儲,如HDFS。其次,將經(jīng)過預(yù)處理后的數(shù)據(jù)統(tǒng)一由計算框架處理,如MapReduce,進(jìn)而生成待分析的規(guī)范數(shù)據(jù)。在數(shù)據(jù)預(yù)處理過程中,進(jìn)行數(shù)據(jù)清洗,盡可能地去掉噪聲數(shù)據(jù)。最關(guān)鍵的是數(shù)據(jù)分析階段,選取一個合適的機(jī)器學(xué)習(xí)算法能夠使得推薦更加準(zhǔn)確??紤]近3年的機(jī)器學(xué)習(xí)算法,本文選擇2種機(jī)器學(xué)習(xí)算法:K-RecSys-CF[22]和SVM-CF[23],這2種算法均在推薦系統(tǒng)中取得了不錯的成果。其中,K-RecSys-CF由Hwangbo等人在2018年提出。該算法改進(jìn)了協(xié)同過濾算法,合并了軍工產(chǎn)品的點擊信息和交易信息,利用項目類型的數(shù)據(jù),提出了替換項目的建議。
SVM-CF由Chang等人在2019年提出,這是一種融合協(xié)同過濾和支持向量機(jī)的新算法。與傳統(tǒng)的協(xié)同過濾方法不同,支持向量機(jī)將軍工產(chǎn)品分為正反饋和負(fù)反饋,選擇表現(xiàn)出積極反饋的軍工產(chǎn)品,計算出精確的分?jǐn)?shù)和評價。在軍工產(chǎn)品數(shù)據(jù)上的實驗表明,該算法具有良好的推薦精度和有效性。
考慮到支持向量機(jī)分類效率較低,本文提出的BDAM-SDF框架采用ACO(Ant Colony Optimization)算法[24]來優(yōu)化支持向量機(jī)的參數(shù),得到最優(yōu)參數(shù)。將改進(jìn)的SVM-CF命名為SVM-ACO-CF,它的推薦準(zhǔn)確率更高,推薦效率也更高。然后,將K-RecSys-CF,SVM-CF和SVM-ACO-CF進(jìn)行對比,通過實驗證明本文所提框架應(yīng)用SVM-ACO-CF算法優(yōu)于其他2種主流算法。
在實驗準(zhǔn)備過程中,將直接使用經(jīng)過數(shù)據(jù)預(yù)處理階段后的規(guī)范數(shù)據(jù)集。數(shù)據(jù)集包括7個軍工產(chǎn)品集合(如戰(zhàn)斗機(jī)、坦克、裝甲車、槍械、運(yùn)輸機(jī)、導(dǎo)彈和雷達(dá))和近34 000條評論。其中每個集合有4 000個數(shù)據(jù)項,其中2 500個數(shù)據(jù)項作為訓(xùn)練集,其余的用于測試。所有算法在Matlab中實現(xiàn)。
預(yù)測精度P表示客戶方可能喜歡推薦列表中的項目的概率,可用于表示推薦系統(tǒng)的準(zhǔn)確度。推薦系統(tǒng)的預(yù)測精度為:
式中,m為數(shù)據(jù)集中一共被劃分的個數(shù);u為下標(biāo);RLu表示數(shù)據(jù)集中模型預(yù)測為正反饋的所有項目;TLu表示數(shù)據(jù)集中實際為正反饋的所有項目。召回率R表示推薦列表中客戶方喜歡的項目的比率,可以反映用戶對推薦結(jié)果的滿意度。客戶方滿意度越高,召回率越高。計算推薦系統(tǒng)的召回率為:
式中,F(xiàn)表示整體上評估算法的推薦性能。算法的推薦能力越強(qiáng),F(xiàn)-measure值越高。推薦系統(tǒng)的F-measure為:
對應(yīng)不同的推薦項目值N下,K-RecSys-CF,SVM-CF和SVM-ACO-CF的預(yù)測精度P、召回率R和F-measure的結(jié)果如表1、表2和表3所示。
表1 不同N值下各個方法的預(yù)測精度PTab.1 Prediction accuracy P of each method with different N values 單位:%
表2 不同N值下各個方法的召回率RTab.2 Recall rate R of each method with different N values 單位:%
表3 不同N值下各個方法的F-measureTab.3 F-measure of each method with different N values 單位:%
3種分類器K-RecSys-CF,SVM-CF和SVM-ACO-CF的預(yù)測精度P如圖7所示。從圖7可以看出,SVM-ACO-CF分類器的預(yù)測精度最高,K-RecSys-CF的預(yù)測精度最低。主要是因為SVM-ACO-CF利用ACO算法能夠找到全局最優(yōu)參數(shù),相比SVM-CF和K-RecSys-CF,SVM-ACO-CF的參數(shù)設(shè)定更加準(zhǔn)確,進(jìn)而使得分類準(zhǔn)確率提高。并且隨著推薦項數(shù)N值的增加,3種不同分類器的預(yù)測精度也會降低。
圖7 不同N值的各個方法的預(yù)測精度PFig.7 Prediction accuracy P of each method with different N values
不同的推薦項目數(shù)N的3種分類器的召回率R如圖8所示。從圖8可以看出,在不同的推薦項目數(shù)中,SVM-ACO-CF的召回率均高于K-RecSys-CF和SVM-CF。并且在推薦項目數(shù)N=30時,SVM-ACO-CF的召回率為39%,K-RecSys-CF和SVM-CF的召回率為35%和37%,略低于SVM-ACO-CF。主要是因為SVM-ACO-CF利用ACO算法的全局尋優(yōu)能力,相比SVM-CF和K-RecSys-CF,能夠為SVM-ACO-CF找到最佳參數(shù),進(jìn)而使得召回率提高。隨著增加推薦項目數(shù),3種不同分類器的召回率也會增加。
圖8 不同N值的各個方法的召回率RFig.8 Recall rate R of each method with different N values
不同推薦項目數(shù)N對應(yīng)的3種分類器的F-measure如圖9所示。從圖9可以看出,在推薦項目數(shù)為30時,SVM-ACO-CF的F-measure較好,為32%,而K-RecSys-CF,SVM-CF的F-measure較低,分別為25%和30%。隨著推薦項目數(shù)N的增加,3種分類器的F-measure也有所增加。
圖9 不同N值的各個方法的F-measure值Fig.9 F-measure of each method with different N values
經(jīng)過數(shù)據(jù)分析后,從規(guī)范數(shù)據(jù)中挖掘出了隱含的軍工產(chǎn)品信息,能夠準(zhǔn)確地推薦軍工產(chǎn)品,促進(jìn)交易量。并且本文所提BDAM-SDF在數(shù)據(jù)分析階段選取了較好的機(jī)器學(xué)習(xí)算法,根據(jù)實驗結(jié)果能夠證明選取的機(jī)器學(xué)習(xí)算法可以達(dá)到良好的推薦準(zhǔn)確性和推薦效率。在實驗過程中,將實驗數(shù)據(jù)進(jìn)行可視化,以圖像的方式更形象地發(fā)掘蘊(yùn)含的有價值的軍事信息。
本文針對如何將大數(shù)據(jù)分析與挖掘應(yīng)用到戰(zhàn)略決策中,更好地解決全局性、可持續(xù)發(fā)展性的重大決策問題,提出了一種基于大數(shù)據(jù)分析與挖掘的一體化戰(zhàn)略決策理論框架——BDAM-SDF。概述了BDAM-SDF的整體架構(gòu),分別從數(shù)據(jù)生成、數(shù)據(jù)采集、數(shù)據(jù)存儲與預(yù)處理、數(shù)據(jù)分析、數(shù)據(jù)可視化和戰(zhàn)略決策制定進(jìn)行說明。其次,介紹了BDAM-SDF的工作機(jī)制,詳細(xì)描述了BDAM-SDF的數(shù)據(jù)價值發(fā)現(xiàn)、數(shù)據(jù)價值創(chuàng)造和數(shù)據(jù)價值實現(xiàn)這3個工作階段。然后,將BDAM-SDF應(yīng)用于真實的軍工研發(fā)機(jī)構(gòu)案例中,詳細(xì)描述了各個階段的流程,著重介紹了數(shù)據(jù)分析階段,選取了應(yīng)用于推薦系統(tǒng)中的K-RecSy-CF和SVM-CF機(jī)器學(xué)習(xí)算法進(jìn)行實驗,并且改進(jìn)了SVM-CF算法,在BDAM-SDF框架中采用改進(jìn)的SVM-ACO-CF算法,取得了最優(yōu)效果,使得后續(xù)階段能夠制定更加精確的戰(zhàn)略決策,進(jìn)而應(yīng)用于軍工機(jī)構(gòu)的推薦系統(tǒng)。最終,從真實案例中證明大數(shù)據(jù)技術(shù)支撐戰(zhàn)略決策具有廣闊的前景和重要的戰(zhàn)略意義。
在最終的戰(zhàn)略決策制定中,基于數(shù)據(jù)分析階段的有價值的軍事信息,如隨著推薦項目數(shù)N的增加,3種分類器的預(yù)測準(zhǔn)確率值降低。因此,在戰(zhàn)略決策建模中,可以設(shè)計和應(yīng)用更好的機(jī)器學(xué)習(xí)算法,并且將進(jìn)行更全面的分析,如考慮客戶的社交關(guān)系和網(wǎng)絡(luò)等。另一方面,嘗試優(yōu)化本文采用的SVM-ACO-CF算法,以提供較高的準(zhǔn)確率。此外,還需要考慮盡可能保護(hù)客戶方的隱私和偏好,如推薦客戶偏好類型的軍工產(chǎn)品的程度可以隨時間減弱。
在戰(zhàn)略決策模型分析中,將戰(zhàn)略決策模型在推薦系統(tǒng)中進(jìn)行應(yīng)用,并且面向內(nèi)部人員進(jìn)行測試。然后,針對內(nèi)部人員的反饋意見,修改戰(zhàn)略決策模型。最終,在戰(zhàn)略決策模型完善階段,結(jié)合軍工機(jī)構(gòu)管理方的意見,進(jìn)而制定戰(zhàn)略決策,并且實際應(yīng)用于推薦系統(tǒng)中。