亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)離散化

2021-10-15 04:26:10付朝博

科學(xué)技術(shù)與工程 2021年27期

關(guān)鍵詞：方法

鄧青，薛青，杜楠，付朝博

(1.陸軍裝甲兵學(xué)院演訓(xùn)中心，北京 100072； 2.68303部隊(duì)，格爾木 816099)

裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)預(yù)處理主要是用于挖掘前對(duì)數(shù)據(jù)展開(kāi)治理，包含必要的數(shù)據(jù)融合、數(shù)據(jù)清洗、數(shù)據(jù)離散化、數(shù)據(jù)變換等步驟，從而使數(shù)據(jù)符合挖掘方法和挖掘模型的輸入標(biāo)準(zhǔn)[1]。數(shù)據(jù)離散化是其中的一項(xiàng)重要工作，在裝備模擬訓(xùn)練系統(tǒng)的實(shí)際使用中，按照不同的應(yīng)用場(chǎng)景以時(shí)間、空間順序采集了大量數(shù)據(jù)，涉及地理位置、機(jī)動(dòng)路線、毀傷概率等連續(xù)型數(shù)據(jù)[2]。這些數(shù)據(jù)表達(dá)過(guò)于細(xì)化，不利于數(shù)據(jù)挖掘發(fā)現(xiàn)簡(jiǎn)潔的模式和知識(shí)，另外對(duì)噪聲也非常敏感，一旦出現(xiàn)細(xì)小的誤差可能會(huì)造成兩個(gè)數(shù)據(jù)的比較值不相等。而數(shù)據(jù)離散化是在最小化信息損失的前提下，根據(jù)設(shè)定的離散化準(zhǔn)則選擇連續(xù)型數(shù)據(jù)的若干個(gè)最優(yōu)劃分，將連續(xù)型數(shù)據(jù)轉(zhuǎn)化成少量的有限區(qū)間，同時(shí)采用整型或字符型數(shù)據(jù)量化離散化區(qū)間的值。因此，通過(guò)對(duì)裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)進(jìn)行離散化處理，能夠有效簡(jiǎn)化數(shù)據(jù)，滿足挖掘算法的適用需求，提高挖掘算法的學(xué)習(xí)能力，從而提取有價(jià)值的規(guī)則。

數(shù)據(jù)離散化方法主要分為無(wú)監(jiān)督和有監(jiān)督兩類。無(wú)監(jiān)督離散化不使用類標(biāo)簽，通過(guò)數(shù)據(jù)的分布特征對(duì)單個(gè)屬性進(jìn)行劃分，實(shí)現(xiàn)方式簡(jiǎn)單，但最終離散的精度難以保證，尤其當(dāng)數(shù)據(jù)分布極度不平衡時(shí)會(huì)產(chǎn)生較差的結(jié)果。等寬算法[3](equal width, Equal-W)是應(yīng)用廣泛的無(wú)監(jiān)督離散化算法，根據(jù)預(yù)先設(shè)定的參數(shù)，將連續(xù)數(shù)據(jù)劃分為若干個(gè)等寬區(qū)間，由于未考慮數(shù)據(jù)分布特點(diǎn)，算法易受噪聲影響。文獻(xiàn)[4]運(yùn)用頻率模式增長(zhǎng)(frequent pattern growth, FP-Growth)算法挖掘火炮模擬訓(xùn)練系統(tǒng)數(shù)據(jù)，采用連續(xù)型數(shù)據(jù)結(jié)構(gòu)，存儲(chǔ)代價(jià)大且隨著數(shù)據(jù)增長(zhǎng)搜索效率下降。文獻(xiàn)[5]對(duì)坦克駕駛模擬訓(xùn)練操作數(shù)據(jù)首先進(jìn)行規(guī)范化、離散化等預(yù)處理，然后采用支持向量機(jī)進(jìn)行分類挖掘，實(shí)驗(yàn)證明在數(shù)據(jù)離散化處理后，能更好地提取泛化知識(shí)。文獻(xiàn)[6]基于定制的專門(mén)離散化算法研究了坦克駕駛模擬訓(xùn)練數(shù)據(jù)，用于輔助裝備使用決策，同時(shí)能減少昂貴的裝備測(cè)試費(fèi)用。文獻(xiàn)[7]提出Chimerge離散化算法將連續(xù)型數(shù)據(jù)的每個(gè)不同取值作為一個(gè)單獨(dú)的區(qū)間，采用χ2統(tǒng)計(jì)量對(duì)相鄰區(qū)間測(cè)試，并優(yōu)先合并χ2最小的區(qū)間，直到所有區(qū)間的χ2都小于指定的閾值。文獻(xiàn)[8]提出自上而下的MDLP(minimum description length principle)離散化算法，選擇信息熵最小的點(diǎn)作為分割點(diǎn)，遞歸操作直到滿足最小描述長(zhǎng)度準(zhǔn)則。

從上述的數(shù)據(jù)離散化方法可以得出，多數(shù)是采用單屬性離散化，即在每次離散化的過(guò)程中，只考慮一個(gè)屬性，然后按照設(shè)定的離散化準(zhǔn)則循環(huán)迭代，直至每個(gè)屬性處理完畢[9-11]。這些方法具有簡(jiǎn)單易理解、執(zhí)行速度快的特點(diǎn)，但往往忽視了屬性之間的相關(guān)性、互補(bǔ)性，割裂了屬性之間的聯(lián)系。而對(duì)于裝備模擬訓(xùn)練系統(tǒng)實(shí)際運(yùn)行產(chǎn)生的數(shù)據(jù)，往往幾個(gè)數(shù)據(jù)屬性之間是相互作用、共同影響的[12-13]，比如，在運(yùn)用坦克駕駛模擬訓(xùn)練系統(tǒng)進(jìn)行駕駛操作技能訓(xùn)練時(shí)，對(duì)油門(mén)、離合器、制動(dòng)器的操作并不是孤立的，應(yīng)該相互配合才能更好掌握操作要領(lǐng)，提高訓(xùn)練成績(jī)，因此，在對(duì)油門(mén)、離合器、制動(dòng)器的操作數(shù)據(jù)進(jìn)行離散化時(shí)，必須要考慮它們之間的相互作用，否則在后續(xù)進(jìn)行數(shù)據(jù)挖掘時(shí)會(huì)產(chǎn)生錯(cuò)誤的知識(shí)。針對(duì)裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)離散化存在的問(wèn)題，提出一種基于層次聚類和相容度的數(shù)據(jù)離散化方法(discretization algorithm by hierarchical cluster and compatibility，DHCC)。該方法屬于有監(jiān)督、自下而上的處理過(guò)程，首先通過(guò)動(dòng)態(tài)確定簇?cái)?shù)對(duì)數(shù)據(jù)的所有屬性進(jìn)行層次聚類，實(shí)現(xiàn)對(duì)各屬性的初始整體劃分，然后運(yùn)用相容度差值指導(dǎo)相鄰區(qū)間的合并，有效去除冗余區(qū)間，從而獲得全局最優(yōu)屬性區(qū)間集合。實(shí)驗(yàn)階段對(duì)DHCC離散化算法進(jìn)行了比較，并在實(shí)際數(shù)據(jù)集上進(jìn)行了驗(yàn)證。

1 裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)離散化過(guò)程建模

根據(jù)裝備模擬訓(xùn)練系統(tǒng)產(chǎn)生的數(shù)據(jù)特點(diǎn)，通常包含條件屬性和類別屬性，一組條件屬性通過(guò)相互作用共同決定了類別屬性。因此，采用決策表將這些屬性表示成數(shù)據(jù)集合的形式，從而便于直觀地對(duì)裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)離散化過(guò)程進(jìn)行建模分析。首先給出裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)決策表有關(guān)定義。

定義1從裝備模擬訓(xùn)練系統(tǒng)關(guān)系數(shù)據(jù)庫(kù)中抽取數(shù)據(jù)挖掘所需要的數(shù)據(jù)集B，將其轉(zhuǎn)化為四元組的數(shù)學(xué)表達(dá)形式S=〈U,A=C∪D,V,F〉，其中，U為數(shù)據(jù)對(duì)象集，A為屬性集，包含條件屬性集C和決策屬性集D，V為值域集，F(xiàn)表示數(shù)據(jù)屬性到值域的映射，則稱S為決策表。

對(duì)裝備模擬訓(xùn)練數(shù)據(jù)離散化需要結(jié)合實(shí)際的挖掘任務(wù)，將連續(xù)屬性轉(zhuǎn)變成離散屬性、定量數(shù)據(jù)變換為定性數(shù)據(jù)。根據(jù)以上分析，對(duì)裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)離散化過(guò)程模型描述如下。

假設(shè)裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)采用決策表S=〈U,A=C∪D,V,F〉表示，數(shù)據(jù)對(duì)象u∈U，屬性c∈C，c的值域?yàn)閂c=[lc,hc]，則存在F(u,c)∈Vc。設(shè)值域Vc上存在一分割點(diǎn)集合T={(c,a0), (c,a1),…, (c,an)}則T將Vc劃分形成區(qū)間集合Pc={[a0,a1), [a1,a2),…, [an-1,an]}，其中l(wèi)c=a0

?c(u)∈[ai-1,ai)，i∈{ 1, 2, …,n}，根據(jù)屬性到值域的映射FP(u,c)可計(jì)算連續(xù)屬性c的所屬區(qū)間i，因此通過(guò)P={Pc|c∈C}將原決策表S=〈U,A=C∪D,V,F〉轉(zhuǎn)化成離散型決策表SP=〈U,A=C∪D,VP,FP〉。與原決策表相比，離散化后的決策表SP改變了屬性A的值域，對(duì)原有的取值范圍采用了有限個(gè)區(qū)間進(jìn)行劃分，并用離散的數(shù)值標(biāo)記每個(gè)區(qū)間，區(qū)間范圍內(nèi)的數(shù)據(jù)都會(huì)被離散值所取代。

對(duì)于裝備模擬訓(xùn)練數(shù)據(jù)決策表既包含連續(xù)型，又含有離散型數(shù)據(jù)，屬于混合型決策表，比如運(yùn)用步戰(zhàn)車模擬訓(xùn)練系統(tǒng)產(chǎn)生的數(shù)據(jù)既有電路總開(kāi)關(guān)、音響按鈕等狀態(tài)數(shù)據(jù)，還包括油門(mén)裝置、發(fā)動(dòng)機(jī)轉(zhuǎn)速等連續(xù)數(shù)據(jù)，有時(shí)不僅需要對(duì)連續(xù)型數(shù)據(jù)離散，為了挖掘出更加簡(jiǎn)潔的作戰(zhàn)規(guī)則，在必要的時(shí)候?qū)﹄x散型數(shù)據(jù)也需更進(jìn)一步的泛化處理，由此建立裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)離散化總體框架如圖1所示。其關(guān)鍵在于研究提出適當(dāng)?shù)臄?shù)據(jù)離散化算法，同時(shí)滿足混合型決策表離散化的需求。

圖1 裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)離散化的總體框架Fig.1 Framework of equipment simulation training system data discretization

2 基于層次聚類和相容度的數(shù)據(jù)離散化方法

基于層次聚類和相容度的裝備訓(xùn)練系統(tǒng)數(shù)據(jù)離散化方法，首先通過(guò)層次聚類，并結(jié)合屬性間的關(guān)聯(lián)，計(jì)算簇的正域調(diào)整確定聚類數(shù)目，實(shí)現(xiàn)對(duì)屬性的初始劃分。然后結(jié)合類別屬性信息，運(yùn)用簡(jiǎn)化的相容度對(duì)初始離散化結(jié)果的相鄰區(qū)間進(jìn)行合并，減少斷點(diǎn)數(shù)和去除冗余區(qū)間，從而生成最終的離散化方案。

2.1 基于層次聚類的初始整體劃分

層次聚類是對(duì)整個(gè)決策表的所有條件屬性同時(shí)進(jìn)行，可以更好地保持屬性間的關(guān)聯(lián)(和分類精度下降問(wèn)題)。在聚類前，為便于比較數(shù)據(jù)對(duì)象間的相似性，對(duì)?c∈C的屬性值進(jìn)行標(biāo)準(zhǔn)化處理，處理依據(jù)為

(1)

式(1)中：max[c(U)]、min[c(U)]分別表示整個(gè)決策表中屬性c的最大值和最小值。初始時(shí)將整個(gè)U中的每個(gè)對(duì)象都看作一個(gè)簇，選擇歐氏距離建立簇之間的相似度矩陣(simulation matrix, SIM)，矩陣元素SIMij表示ui和uj之間的距離，即

(2)

選擇矩陣SIM中最小元素所對(duì)應(yīng)的兩個(gè)數(shù)據(jù)對(duì)象進(jìn)行聚類，對(duì)新形成的簇與其他數(shù)據(jù)對(duì)象的相似性按照平均距離計(jì)算，爾后更新相似度矩陣，刪除原來(lái)的兩個(gè)數(shù)據(jù)對(duì)象。依此循環(huán)迭代進(jìn)行聚類，直到滿足事先指定的聚類個(gè)數(shù)，但裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)所形成的決策表無(wú)法預(yù)知簇的個(gè)數(shù)。針對(duì)這一問(wèn)題，利用數(shù)據(jù)自身的固有特征，在每次聚類過(guò)程中，計(jì)算正域的變化，當(dāng)值減少表明聚類后出現(xiàn)了不一致性的數(shù)據(jù)，對(duì)該簇的聚類過(guò)程應(yīng)當(dāng)終止。反之表明聚類后沒(méi)有降低正域，可以繼續(xù)進(jìn)行聚類，依次迭代直到處理完所有的數(shù)據(jù)對(duì)象。

假定最終生成的聚類數(shù)為L(zhǎng)，將形成的每個(gè)簇向條件屬性空間進(jìn)行投影，可得到每個(gè)屬性的一系列取值區(qū)間。以屬性c為例，對(duì)于第k個(gè)(1≤k≤L)簇所包含的數(shù)據(jù)對(duì)象集合為Uk，則屬性c在該簇中的取值集合為

(3)

進(jìn)一步可得出屬性c在該簇的區(qū)間為

(4)

則屬性c在各個(gè)簇的左、右區(qū)間集合表示為

(5)

(6)

對(duì)上述兩個(gè)區(qū)間集合的元素按從小到大進(jìn)行排序，得到屬性c的初始劃分區(qū)間為

(7)

2.2 基于相容度的區(qū)間合并

第一步的層次聚類用于初始劃分屬于無(wú)監(jiān)督離散化，運(yùn)算效率高，但容易導(dǎo)致相似的區(qū)間被分離，且隨著屬性數(shù)量的增多，產(chǎn)生的區(qū)間也會(huì)增加，因此，通過(guò)引入類別屬性信息，同時(shí)結(jié)合相容度指導(dǎo)區(qū)間合并，以此最小化屬性的區(qū)間數(shù)，提高離散化效果。

區(qū)間合并前，首先需要確定合并的優(yōu)先級(jí)。根據(jù)信息論，熵值反映了數(shù)據(jù)的類分布特征。進(jìn)一步，如果屬性區(qū)間的信息熵越小，則相應(yīng)的類分布一致性越高，屬性區(qū)間的重要程度就越低，特別是當(dāng)區(qū)間的信息熵為0時(shí)，相應(yīng)的類屬性完全一致，該區(qū)間的重要程度最低，不會(huì)對(duì)其他屬性造成影響，應(yīng)作為區(qū)間合并的首要選擇。因此，重要程度低的屬性區(qū)間優(yōu)先合并。

(8)

(9)

(10)

為了體現(xiàn)不同屬性區(qū)間相對(duì)于類屬性的聯(lián)系，將所有屬性區(qū)間的信息熵進(jìn)行排序，選擇信息熵最小的相鄰區(qū)間作為候選合并對(duì)象，確保每個(gè)屬性區(qū)間均有被選取的機(jī)會(huì)。

在執(zhí)行合并的過(guò)程中，需要保持整個(gè)決策表的一致性不變，以此作為區(qū)間合并的判斷條件。為實(shí)現(xiàn)這一目的，通過(guò)采用計(jì)算合并后的相容度φ′，并將其與原始的相容度φ0進(jìn)行比較，可以避免傳統(tǒng)采用人工設(shè)定閾值作為合并判斷條件帶來(lái)的誤差。即

Δ=φ′-φ0

(11)

當(dāng)Δ<0，表明相容度減少，合并后引起了決策表的不一致性，對(duì)這個(gè)區(qū)間的合并應(yīng)當(dāng)終止，并將這一相鄰區(qū)間標(biāo)記為不可合并狀態(tài)，后續(xù)也不會(huì)成為候選的合并對(duì)象。反之當(dāng)Δ≥0，表明合并后決策表的一致性仍然滿足數(shù)據(jù)集的精度要求，可以執(zhí)行區(qū)間合并。依次選擇需要合并的下一個(gè)相鄰區(qū)間，直到所有相鄰區(qū)間處理完畢或剩下的相鄰區(qū)間已被標(biāo)記為不可合并狀態(tài)，從而得到最終的離散化區(qū)間集合。

求解合并前后決策表的相容度是一個(gè)計(jì)算密集型過(guò)程，尤其是迭代操作將會(huì)耗費(fèi)大量時(shí)間。針對(duì)這一問(wèn)題，在計(jì)算過(guò)程中進(jìn)行了簡(jiǎn)化，即當(dāng)每次相鄰區(qū)間合并，決策表相容度的變化主要是由相鄰區(qū)間合并所引起的，對(duì)于未參與合并的其他區(qū)間對(duì)相容度的變化不會(huì)帶來(lái)影響，這些屬性區(qū)間的一致性不變。因此，在計(jì)算相容度變化時(shí)只考慮待合并的相鄰區(qū)間，具體推導(dǎo)為

Δ=φ′-φ0=

(12)

式(12)中：POS表示粗糙集中的正域關(guān)系;IND表示等價(jià)關(guān)系。

2.3 算法描述

根據(jù)前兩節(jié)的分析，基于層次聚類和相容度的數(shù)據(jù)離散化算法具體流程如圖2所示。

圖2 算法流程圖Fig.2 Algorithm flow chart

輸入：原始決策表S=〈U,A=C∪D,V,F〉，C={c1,c2,…,ck}為所有條件屬性的集合，即待離散化的屬性。

輸出：最終的離散化決策表。

Step 1標(biāo)準(zhǔn)化處理，為比較數(shù)據(jù)對(duì)象間的相似性，對(duì)?c∈C的屬性值按式(1)進(jìn)行處理。

Step 2

Step 2.1：將整個(gè)U中的每個(gè)數(shù)據(jù)對(duì)象視為一個(gè)單獨(dú)的簇，構(gòu)建初始相似度矩陣SIM。

Step 2.2：選擇SIM中最小值所對(duì)應(yīng)的兩個(gè)元素作為聚類的候選對(duì)象，按式(2)計(jì)算新形成的簇的正域。

Step 2.3：根據(jù)正域的變化情況，若出現(xiàn)了不一致性的數(shù)據(jù)，則放棄該簇的聚類，轉(zhuǎn)到步驟Step 2.2。否則轉(zhuǎn)到Step 2.4。

Step 2.4：對(duì)候選的數(shù)據(jù)對(duì)象執(zhí)行聚類，并更新聚類后的相似度矩陣。

Step 2.5：判斷U中的數(shù)據(jù)對(duì)象是否處理完畢，若沒(méi)有則轉(zhuǎn)到Step 2.2。否則轉(zhuǎn)到Step 2.6。

Step 2.6：由式(7)計(jì)算得到每個(gè)屬性的初始劃分區(qū)間。

Step 3

Step 3.2：優(yōu)先合并信息熵為0的相鄰區(qū)間，然后選擇重要程度最低的區(qū)間進(jìn)行合并。

Step 3.3：計(jì)算合并后相容度的變化Δ=φ′-φ0，當(dāng)Δ≥0，轉(zhuǎn)到Step 3.4。否則終止區(qū)間的合并，轉(zhuǎn)到Step 3.2。

Step 3.4：判斷是否還有相鄰區(qū)間需要處理，若沒(méi)有則轉(zhuǎn)到Step 4。否則轉(zhuǎn)到Step 3.2。

Step 4對(duì)最終形成的區(qū)間用整數(shù)或字符進(jìn)行編碼，完成最終的離散化。

對(duì)基于層次聚類和相容度的數(shù)據(jù)離散化算法的四點(diǎn)說(shuō)明：

(1)Step 2.3結(jié)合正域的計(jì)算判斷數(shù)據(jù)的一致性，考慮了條件屬性與類別屬性之間的關(guān)聯(lián)，使聚類更加合理。

(2)Step 3.2計(jì)算區(qū)間信息熵并按從小到大進(jìn)行排序，以此度量區(qū)間的重要程度，這一步驟是對(duì)條件屬性集合同時(shí)進(jìn)行比較，確保每個(gè)屬性得到一致處理，避免了對(duì)單個(gè)屬性過(guò)度離散化。

(3)為提高算法效率，Step 3.3采用了簡(jiǎn)化的相容度差值計(jì)算。

(4)當(dāng)區(qū)間的信息熵為0時(shí)，相應(yīng)的類屬性完全一致，合并后不會(huì)影響數(shù)據(jù)的一致性。當(dāng)出現(xiàn)多個(gè)區(qū)間信息熵一致的情形時(shí)，優(yōu)先選擇類屬性一致性較高的區(qū)間。

3 實(shí)驗(yàn)與對(duì)比分析

3.1 實(shí)驗(yàn)設(shè)計(jì)

為驗(yàn)證DHCC離散化方法的性能，選擇UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中6個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)(裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)屬于涉密范圍)，分別為Heart disease、Movement、Vehicle、Artificial、Iris plant、Glass，包含不同的數(shù)據(jù)樣本、條件屬性和類別屬性數(shù)目，已被廣泛應(yīng)用于數(shù)據(jù)挖掘領(lǐng)域。表1對(duì)這些數(shù)據(jù)集進(jìn)行了簡(jiǎn)要描述。選擇等寬(Equal-W)、等頻(Equal-F)、Chimerge、MDLP、CAIM離散化方法進(jìn)行對(duì)比分析。

表1 實(shí)驗(yàn)數(shù)據(jù)集描述

實(shí)驗(yàn)所用計(jì)算機(jī)處理器為Core i7、內(nèi)存8 G，操作系統(tǒng)Windows7，編程環(huán)境為Matlab2010、Python3.7。

離散化后的數(shù)據(jù)集簡(jiǎn)化了信息的表示，減少了所需的存儲(chǔ)空間，符合知識(shí)水平的表示，使得學(xué)習(xí)的過(guò)程更加準(zhǔn)確和快速。因此，主要使用以下三個(gè)指標(biāo)來(lái)綜合衡量離散化方法的優(yōu)劣。

(1)離散化后的區(qū)間總數(shù)。對(duì)于實(shí)際的離散化，最終形成的區(qū)間總數(shù)越小，離散化結(jié)果越簡(jiǎn)潔、效果越好。

(2)離散化后的精度。指離散化后數(shù)據(jù)相比原始數(shù)據(jù)的一致性程度，離散后的信息損失越少，離散化方法的精度越高。這一指標(biāo)通過(guò)對(duì)離散化后的數(shù)據(jù)運(yùn)行分類方法，計(jì)算分類的準(zhǔn)確率來(lái)具體體現(xiàn)。

(3)方法運(yùn)行時(shí)間。方法耗時(shí)體現(xiàn)了方法運(yùn)行效率，對(duì)于動(dòng)態(tài)離散化過(guò)程而言尤為重要。

實(shí)驗(yàn)中，首先對(duì)數(shù)據(jù)集分別運(yùn)用6種離散化方法進(jìn)行處理，記錄離散化后的區(qū)間總數(shù)和方法運(yùn)行時(shí)間，然后對(duì)離散化后的數(shù)據(jù)集運(yùn)用5折交叉驗(yàn)證的方法，隨機(jī)選取80%的數(shù)據(jù)作為訓(xùn)練集，20%的數(shù)據(jù)作為測(cè)試集，采用C4.5分類方法進(jìn)行測(cè)試，得到分類的準(zhǔn)確率，為消除誤差實(shí)驗(yàn)重復(fù)5次，計(jì)算各指標(biāo)的平均值作為最終評(píng)價(jià)標(biāo)準(zhǔn)。

3.2 實(shí)驗(yàn)結(jié)果分析

3.2.1 離散化后的區(qū)間總數(shù)分析

由表2可知，DHCC方法離散后的平均區(qū)間總數(shù)最少，因?yàn)樵摲椒ǖ膶哟尉垲惒糠帜芤淮螌?duì)所有屬性進(jìn)行聚類處理，屬于全局離散化，同時(shí)結(jié)合正域的變化作為終止判斷條件，可以避免分別對(duì)單個(gè)屬性離散化所產(chǎn)生的不合理區(qū)間，平均排名得分1.4。Chimerge、MDLP離散化方法采用χ2統(tǒng)計(jì)量和信息熵作為區(qū)間劃分的依據(jù)，對(duì)單個(gè)屬性依次處理，屬于局部離散化，最終所得區(qū)間總數(shù)有所增加，且隨著設(shè)定的顯著性水平增加，會(huì)對(duì)屬性進(jìn)行過(guò)度的離散化操作，產(chǎn)生大量的冗余區(qū)間。Equal-W、Equal-F方法通過(guò)經(jīng)驗(yàn)公式設(shè)定初始的離散區(qū)間數(shù)，隨著數(shù)據(jù)集的規(guī)模變大、屬性增多，離散區(qū)間數(shù)也顯著增加，平均排名得分為4.8、5.3。

表2 區(qū)間總數(shù)

3.2.2 離散精度分析

由表3可知，在測(cè)試的數(shù)據(jù)集中，DHCC方法的精度具有一定優(yōu)勢(shì)，測(cè)試精度的平均排名1.5分，表明DHCC方法在層次聚類和區(qū)間合并過(guò)程中，考慮所有條件屬性、類別屬性之間的相關(guān)性，有效減少信息損失，同時(shí)運(yùn)用類別屬性信息對(duì)相鄰區(qū)間的合并進(jìn)行有監(jiān)督指導(dǎo)，最大限度地保留原始數(shù)據(jù)的一致性。Equal-W、Equal-F離散化方法的精度相比較低，主要是因?yàn)檫@兩種方法都屬于無(wú)監(jiān)督，不使用類別屬性信息，當(dāng)數(shù)據(jù)分布不平衡時(shí)容易產(chǎn)生較差的區(qū)間，比如在Movement數(shù)據(jù)集中的測(cè)試精度只有47.5%和43.3%。Chimerge、MDLP方法屬于有監(jiān)督離散化，精度相比有所較高，但在離散化的過(guò)程中每次只考慮一個(gè)屬性，忽視了屬性之間的相互影響，平均精度比DHCC方法低。CAIM方法僅考慮最大類屬性的樣本，忽視了其他類屬性的作用，使得在選擇分割點(diǎn)時(shí)易出現(xiàn)誤差，將具有不同分布的類別屬性樣本劃分至同一個(gè)區(qū)間，降低分類的測(cè)試精度。

表3 離散精度Table 3 Discretization accuracy

3.2.3 運(yùn)行時(shí)間分析

由表4可知，在測(cè)試的6個(gè)數(shù)據(jù)集中，Equal-W、Equal-F方法的運(yùn)行時(shí)間最少，因?yàn)檫@兩種方法在離散化時(shí)都不考慮類別屬性信息，依據(jù)數(shù)據(jù)分布和經(jīng)驗(yàn)公式進(jìn)行區(qū)間劃分，沒(méi)有復(fù)雜的迭代計(jì)算過(guò)程。DHCC方法因?yàn)樯婕皩哟尉垲惡拖嗳荻鹊挠?jì)算、迭代合并操作，所需時(shí)間相對(duì)較長(zhǎng)。Chimerge、MDLP、CAIM方法通過(guò)計(jì)算設(shè)定的離散化度量值，然后迭代進(jìn)行合并、分割操作，在Artificial、Movement兩個(gè)數(shù)據(jù)集的運(yùn)行時(shí)間增加明顯。

表4 運(yùn)行時(shí)間

從實(shí)驗(yàn)對(duì)比分析可以得出，DHCC離散化算法在離散化后的區(qū)間總數(shù)、精度方面相比其他5種離散化算法具有一定優(yōu)勢(shì)，確保了離散化后的數(shù)據(jù)質(zhì)量。

3.3 實(shí)例驗(yàn)證

為驗(yàn)證所提離散化方法的有效性，以一個(gè)實(shí)際例子進(jìn)行說(shuō)明。表5為利用某型裝備模擬訓(xùn)練系統(tǒng)進(jìn)行射擊訓(xùn)練時(shí)所涉及的部分?jǐn)?shù)據(jù)決策表，具體屬性包括軍銜、裝備操作等級(jí)、裝備訓(xùn)練科目、裝備訓(xùn)練次數(shù)、裝備訓(xùn)練成績(jī)等。

表5的數(shù)據(jù)表既包含連續(xù)型數(shù)據(jù)，又包含離散型數(shù)據(jù)。為從中挖掘裝備訓(xùn)練規(guī)則，根據(jù)文中所提出的數(shù)據(jù)離散化處理框架和DHCC算法，對(duì)表5的數(shù)據(jù)進(jìn)行離散化處理，生成離散化編碼如表6所示。

表5 某型裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)決策表

表6 離散化編碼表

根據(jù)離散化編碼表對(duì)表5的數(shù)據(jù)進(jìn)行離散化處理可得表7。

表7 離散化處理后的決策表

得到離散化后的數(shù)據(jù)后，采用經(jīng)典的Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘，設(shè)定支持度最小值為15%，置信度最小值為70%，以裝備訓(xùn)練成績(jī)作為關(guān)聯(lián)規(guī)則后件，最終得到如下規(guī)則(“∧”表示屬性取值條件同時(shí)滿足，“?”表示由前項(xiàng)可推出后項(xiàng))。

(1)X13∧X14∧X24∧X25∧X36?Y15，獲得裝備操作等級(jí)三級(jí)以上的下士、中士在“穩(wěn)像模式下原地對(duì)不動(dòng)目標(biāo)射擊”中獲評(píng)成績(jī)[90, 98]。通過(guò)了解該分隊(duì)擔(dān)負(fù)射擊教學(xué)保障任務(wù)，對(duì)士官的等級(jí)評(píng)定要求嚴(yán)、抓得緊，保證了三級(jí)以上射手的裝備訓(xùn)練水平達(dá)到規(guī)定的標(biāo)準(zhǔn)，也有利于形成射手的梯次配備，促進(jìn)整體戰(zhàn)斗力提升。

(2)X32∧X41?Y14∧Y15，表明“火控系統(tǒng)模式轉(zhuǎn)換”科目通過(guò)較少次數(shù)訓(xùn)練后，評(píng)定分?jǐn)?shù)位于[82, 89][90, 98]兩個(gè)區(qū)間。這與實(shí)際情況相符，“火控系統(tǒng)模式轉(zhuǎn)換”動(dòng)作相對(duì)簡(jiǎn)單，訓(xùn)練對(duì)象能較快掌握要領(lǐng)，可適當(dāng)減少訓(xùn)練次數(shù)。

通過(guò)某型裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)實(shí)現(xiàn)DHCC算法在實(shí)際裝備訓(xùn)練中的應(yīng)用，挖掘了裝備訓(xùn)練科目、裝備訓(xùn)練成績(jī)等屬性之間的關(guān)聯(lián)，有助于提高裝備訓(xùn)練效果。

4 結(jié)論

構(gòu)建了裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)離散化總體框架，提出了一種基于層次聚類和相容度的數(shù)據(jù)離散化方法，并應(yīng)用于某型裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)分析，得出如下主要結(jié)論。

(1)離散化總體框架滿足了裝備模擬系統(tǒng)數(shù)據(jù)混合型決策表的處理需求，規(guī)范了系統(tǒng)數(shù)據(jù)預(yù)處理流程。

(2)動(dòng)態(tài)確定簇?cái)?shù)的層次聚類考慮屬性相關(guān)性，實(shí)現(xiàn)了對(duì)各屬性的初始劃分，避免了人工指定閾值帶來(lái)的誤差。

(3)簡(jiǎn)化相容度差值合并相鄰區(qū)間，能有效去除冗余劃分，獲得全局最優(yōu)屬性區(qū)間集合。