鄧 青, 薛 青, 杜 楠, 付朝博
(1.陸軍裝甲兵學(xué)院演訓(xùn)中心, 北京 100072; 2.68303部隊(duì), 格爾木 816099)
裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)預(yù)處理主要是用于挖掘前對(duì)數(shù)據(jù)展開(kāi)治理,包含必要的數(shù)據(jù)融合、數(shù)據(jù)清洗、數(shù)據(jù)離散化、數(shù)據(jù)變換等步驟,從而使數(shù)據(jù)符合挖掘方法和挖掘模型的輸入標(biāo)準(zhǔn)[1]。數(shù)據(jù)離散化是其中的一項(xiàng)重要工作,在裝備模擬訓(xùn)練系統(tǒng)的實(shí)際使用中,按照不同的應(yīng)用場(chǎng)景以時(shí)間、空間順序采集了大量數(shù)據(jù),涉及地理位置、機(jī)動(dòng)路線、毀傷概率等連續(xù)型數(shù)據(jù)[2]。這些數(shù)據(jù)表達(dá)過(guò)于細(xì)化,不利于數(shù)據(jù)挖掘發(fā)現(xiàn)簡(jiǎn)潔的模式和知識(shí),另外對(duì)噪聲也非常敏感,一旦出現(xiàn)細(xì)小的誤差可能會(huì)造成兩個(gè)數(shù)據(jù)的比較值不相等。而數(shù)據(jù)離散化是在最小化信息損失的前提下,根據(jù)設(shè)定的離散化準(zhǔn)則選擇連續(xù)型數(shù)據(jù)的若干個(gè)最優(yōu)劃分,將連續(xù)型數(shù)據(jù)轉(zhuǎn)化成少量的有限區(qū)間,同時(shí)采用整型或字符型數(shù)據(jù)量化離散化區(qū)間的值。因此,通過(guò)對(duì)裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)進(jìn)行離散化處理,能夠有效簡(jiǎn)化數(shù)據(jù),滿足挖掘算法的適用需求,提高挖掘算法的學(xué)習(xí)能力,從而提取有價(jià)值的規(guī)則。
數(shù)據(jù)離散化方法主要分為無(wú)監(jiān)督和有監(jiān)督兩類。無(wú)監(jiān)督離散化不使用類標(biāo)簽,通過(guò)數(shù)據(jù)的分布特征對(duì)單個(gè)屬性進(jìn)行劃分,實(shí)現(xiàn)方式簡(jiǎn)單,但最終離散的精度難以保證,尤其當(dāng)數(shù)據(jù)分布極度不平衡時(shí)會(huì)產(chǎn)生較差的結(jié)果。等寬算法[3](equal width, Equal-W)是應(yīng)用廣泛的無(wú)監(jiān)督離散化算法,根據(jù)預(yù)先設(shè)定的參數(shù),將連續(xù)數(shù)據(jù)劃分為若干個(gè)等寬區(qū)間,由于未考慮數(shù)據(jù)分布特點(diǎn),算法易受噪聲影響。文獻(xiàn)[4]運(yùn)用頻率模式增長(zhǎng)(frequent pattern growth, FP-Growth)算法挖掘火炮模擬訓(xùn)練系統(tǒng)數(shù)據(jù),采用連續(xù)型數(shù)據(jù)結(jié)構(gòu),存儲(chǔ)代價(jià)大且隨著數(shù)據(jù)增長(zhǎng)搜索效率下降。文獻(xiàn)[5]對(duì)坦克駕駛模擬訓(xùn)練操作數(shù)據(jù)首先進(jìn)行規(guī)范化、離散化等預(yù)處理,然后采用支持向量機(jī)進(jìn)行分類挖掘,實(shí)驗(yàn)證明在數(shù)據(jù)離散化處理后,能更好地提取泛化知識(shí)。文獻(xiàn)[6]基于定制的專門(mén)離散化算法研究了坦克駕駛模擬訓(xùn)練數(shù)據(jù),用于輔助裝備使用決策,同時(shí)能減少昂貴的裝備測(cè)試費(fèi)用。文獻(xiàn)[7]提出Chimerge離散化算法將連續(xù)型數(shù)據(jù)的每個(gè)不同取值作為一個(gè)單獨(dú)的區(qū)間,采用χ2統(tǒng)計(jì)量對(duì)相鄰區(qū)間測(cè)試,并優(yōu)先合并χ2最小的區(qū)間,直到所有區(qū)間的χ2都小于指定的閾值。文獻(xiàn)[8]提出自上而下的MDLP(minimum description length principle)離散化算法,選擇信息熵最小的點(diǎn)作為分割點(diǎn),遞歸操作直到滿足最小描述長(zhǎng)度準(zhǔn)則。
從上述的數(shù)據(jù)離散化方法可以得出,多數(shù)是采用單屬性離散化,即在每次離散化的過(guò)程中,只考慮一個(gè)屬性,然后按照設(shè)定的離散化準(zhǔn)則循環(huán)迭代,直至每個(gè)屬性處理完畢[9-11]。這些方法具有簡(jiǎn)單易理解、執(zhí)行速度快的特點(diǎn),但往往忽視了屬性之間的相關(guān)性、互補(bǔ)性,割裂了屬性之間的聯(lián)系。而對(duì)于裝備模擬訓(xùn)練系統(tǒng)實(shí)際運(yùn)行產(chǎn)生的數(shù)據(jù),往往幾個(gè)數(shù)據(jù)屬性之間是相互作用、共同影響的[12-13],比如,在運(yùn)用坦克駕駛模擬訓(xùn)練系統(tǒng)進(jìn)行駕駛操作技能訓(xùn)練時(shí),對(duì)油門(mén)、離合器、制動(dòng)器的操作并不是孤立的,應(yīng)該相互配合才能更好掌握操作要領(lǐng),提高訓(xùn)練成績(jī),因此,在對(duì)油門(mén)、離合器、制動(dòng)器的操作數(shù)據(jù)進(jìn)行離散化時(shí),必須要考慮它們之間的相互作用,否則在后續(xù)進(jìn)行數(shù)據(jù)挖掘時(shí)會(huì)產(chǎn)生錯(cuò)誤的知識(shí)。針對(duì)裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)離散化存在的問(wèn)題,提出一種基于層次聚類和相容度的數(shù)據(jù)離散化方法(discretization algorithm by hierarchical cluster and compatibility,DHCC)。該方法屬于有監(jiān)督、自下而上的處理過(guò)程,首先通過(guò)動(dòng)態(tài)確定簇?cái)?shù)對(duì)數(shù)據(jù)的所有屬性進(jìn)行層次聚類,實(shí)現(xiàn)對(duì)各屬性的初始整體劃分,然后運(yùn)用相容度差值指導(dǎo)相鄰區(qū)間的合并,有效去除冗余區(qū)間,從而獲得全局最優(yōu)屬性區(qū)間集合。實(shí)驗(yàn)階段對(duì)DHCC離散化算法進(jìn)行了比較,并在實(shí)際數(shù)據(jù)集上進(jìn)行了驗(yàn)證。
根據(jù)裝備模擬訓(xùn)練系統(tǒng)產(chǎn)生的數(shù)據(jù)特點(diǎn),通常包含條件屬性和類別屬性,一組條件屬性通過(guò)相互作用共同決定了類別屬性。因此,采用決策表將這些屬性表示成數(shù)據(jù)集合的形式,從而便于直觀地對(duì)裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)離散化過(guò)程進(jìn)行建模分析。首先給出裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)決策表有關(guān)定義。
定義1從裝備模擬訓(xùn)練系統(tǒng)關(guān)系數(shù)據(jù)庫(kù)中抽取數(shù)據(jù)挖掘所需要的數(shù)據(jù)集B,將其轉(zhuǎn)化為四元組的數(shù)學(xué)表達(dá)形式S=〈U,A=C∪D,V,F〉,其中,U為數(shù)據(jù)對(duì)象集,A為屬性集,包含條件屬性集C和決策屬性集D,V為值域集,F(xiàn)表示數(shù)據(jù)屬性到值域的映射,則稱S為決策表。
對(duì)裝備模擬訓(xùn)練數(shù)據(jù)離散化需要結(jié)合實(shí)際的挖掘任務(wù),將連續(xù)屬性轉(zhuǎn)變成離散屬性、定量數(shù)據(jù)變換為定性數(shù)據(jù)。根據(jù)以上分析,對(duì)裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)離散化過(guò)程模型描述如下。
假設(shè)裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)采用決策表S=〈U,A=C∪D,V,F〉表示,數(shù)據(jù)對(duì)象u∈U,屬性c∈C,c的值域?yàn)閂c=[lc,hc],則存在F(u,c)∈Vc。設(shè)值域Vc上存在一分割點(diǎn)集合T={(c,a0), (c,a1),…, (c,an)}則T將Vc劃分形成區(qū)間集合Pc={[a0,a1), [a1,a2),…, [an-1,an]},其中l(wèi)c=a0 ?c(u)∈[ai-1,ai),i∈{ 1, 2, …,n},根據(jù)屬性到值域的映射FP(u,c)可計(jì)算連續(xù)屬性c的所屬區(qū)間i,因此通過(guò)P={Pc|c∈C}將原決策表S=〈U,A=C∪D,V,F〉轉(zhuǎn)化成離散型決策表SP=〈U,A=C∪D,VP,FP〉。與原決策表相比,離散化后的決策表SP改變了屬性A的值域,對(duì)原有的取值范圍采用了有限個(gè)區(qū)間進(jìn)行劃分,并用離散的數(shù)值標(biāo)記每個(gè)區(qū)間,區(qū)間范圍內(nèi)的數(shù)據(jù)都會(huì)被離散值所取代。 對(duì)于裝備模擬訓(xùn)練數(shù)據(jù)決策表既包含連續(xù)型,又含有離散型數(shù)據(jù),屬于混合型決策表,比如運(yùn)用步戰(zhàn)車模擬訓(xùn)練系統(tǒng)產(chǎn)生的數(shù)據(jù)既有電路總開(kāi)關(guān)、音響按鈕等狀態(tài)數(shù)據(jù),還包括油門(mén)裝置、發(fā)動(dòng)機(jī)轉(zhuǎn)速等連續(xù)數(shù)據(jù),有時(shí)不僅需要對(duì)連續(xù)型數(shù)據(jù)離散,為了挖掘出更加簡(jiǎn)潔的作戰(zhàn)規(guī)則,在必要的時(shí)候?qū)﹄x散型數(shù)據(jù)也需更進(jìn)一步的泛化處理,由此建立裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)離散化總體框架如圖1所示。其關(guān)鍵在于研究提出適當(dāng)?shù)臄?shù)據(jù)離散化算法,同時(shí)滿足混合型決策表離散化的需求。 圖1 裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)離散化的總體框架Fig.1 Framework of equipment simulation training system data discretization 基于層次聚類和相容度的裝備訓(xùn)練系統(tǒng)數(shù)據(jù)離散化方法,首先通過(guò)層次聚類,并結(jié)合屬性間的關(guān)聯(lián),計(jì)算簇的正域調(diào)整確定聚類數(shù)目,實(shí)現(xiàn)對(duì)屬性的初始劃分。然后結(jié)合類別屬性信息,運(yùn)用簡(jiǎn)化的相容度對(duì)初始離散化結(jié)果的相鄰區(qū)間進(jìn)行合并,減少斷點(diǎn)數(shù)和去除冗余區(qū)間,從而生成最終的離散化方案。 層次聚類是對(duì)整個(gè)決策表的所有條件屬性同時(shí)進(jìn)行,可以更好地保持屬性間的關(guān)聯(lián)(和分類精度下降問(wèn)題)。在聚類前,為便于比較數(shù)據(jù)對(duì)象間的相似性,對(duì)?c∈C的屬性值進(jìn)行標(biāo)準(zhǔn)化處理,處理依據(jù)為 (1) 式(1)中:max[c(U)]、min[c(U)]分別表示整個(gè)決策表中屬性c的最大值和最小值。初始時(shí)將整個(gè)U中的每個(gè)對(duì)象都看作一個(gè)簇,選擇歐氏距離建立簇之間的相似度矩陣(simulation matrix, SIM),矩陣元素SIMij表示ui和uj之間的距離,即 (2) 選擇矩陣SIM中最小元素所對(duì)應(yīng)的兩個(gè)數(shù)據(jù)對(duì)象進(jìn)行聚類,對(duì)新形成的簇與其他數(shù)據(jù)對(duì)象的相似性按照平均距離計(jì)算,爾后更新相似度矩陣,刪除原來(lái)的兩個(gè)數(shù)據(jù)對(duì)象。依此循環(huán)迭代進(jìn)行聚類,直到滿足事先指定的聚類個(gè)數(shù),但裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)所形成的決策表無(wú)法預(yù)知簇的個(gè)數(shù)。針對(duì)這一問(wèn)題,利用數(shù)據(jù)自身的固有特征,在每次聚類過(guò)程中,計(jì)算正域的變化,當(dāng)值減少表明聚類后出現(xiàn)了不一致性的數(shù)據(jù),對(duì)該簇的聚類過(guò)程應(yīng)當(dāng)終止。反之表明聚類后沒(méi)有降低正域,可以繼續(xù)進(jìn)行聚類,依次迭代直到處理完所有的數(shù)據(jù)對(duì)象。 假定最終生成的聚類數(shù)為L(zhǎng),將形成的每個(gè)簇向條件屬性空間進(jìn)行投影,可得到每個(gè)屬性的一系列取值區(qū)間。以屬性c為例,對(duì)于第k個(gè)(1≤k≤L)簇所包含的數(shù)據(jù)對(duì)象集合為Uk,則屬性c在該簇中的取值集合為 (3) 進(jìn)一步可得出屬性c在該簇的區(qū)間為 (4) 則屬性c在各個(gè)簇的左、右區(qū)間集合表示為 (5) (6) 對(duì)上述兩個(gè)區(qū)間集合的元素按從小到大進(jìn)行排序,得到屬性c的初始劃分區(qū)間為 (7) 第一步的層次聚類用于初始劃分屬于無(wú)監(jiān)督離散化,運(yùn)算效率高,但容易導(dǎo)致相似的區(qū)間被分離,且隨著屬性數(shù)量的增多,產(chǎn)生的區(qū)間也會(huì)增加,因此,通過(guò)引入類別屬性信息,同時(shí)結(jié)合相容度指導(dǎo)區(qū)間合并,以此最小化屬性的區(qū)間數(shù),提高離散化效果。 區(qū)間合并前,首先需要確定合并的優(yōu)先級(jí)。根據(jù)信息論,熵值反映了數(shù)據(jù)的類分布特征。進(jìn)一步,如果屬性區(qū)間的信息熵越小,則相應(yīng)的類分布一致性越高,屬性區(qū)間的重要程度就越低,特別是當(dāng)區(qū)間的信息熵為0時(shí),相應(yīng)的類屬性完全一致,該區(qū)間的重要程度最低,不會(huì)對(duì)其他屬性造成影響,應(yīng)作為區(qū)間合并的首要選擇。因此,重要程度低的屬性區(qū)間優(yōu)先合并。 (8) (9) (10) 為了體現(xiàn)不同屬性區(qū)間相對(duì)于類屬性的聯(lián)系,將所有屬性區(qū)間的信息熵進(jìn)行排序,選擇信息熵最小的相鄰區(qū)間作為候選合并對(duì)象,確保每個(gè)屬性區(qū)間均有被選取的機(jī)會(huì)。 在執(zhí)行合并的過(guò)程中,需要保持整個(gè)決策表的一致性不變,以此作為區(qū)間合并的判斷條件。為實(shí)現(xiàn)這一目的,通過(guò)采用計(jì)算合并后的相容度φ′,并將其與原始的相容度φ0進(jìn)行比較,可以避免傳統(tǒng)采用人工設(shè)定閾值作為合并判斷條件帶來(lái)的誤差。即 Δ=φ′-φ0 (11) 當(dāng)Δ<0,表明相容度減少,合并后引起了決策表的不一致性,對(duì)這個(gè)區(qū)間的合并應(yīng)當(dāng)終止,并將這一相鄰區(qū)間標(biāo)記為不可合并狀態(tài),后續(xù)也不會(huì)成為候選的合并對(duì)象。反之當(dāng)Δ≥0,表明合并后決策表的一致性仍然滿足數(shù)據(jù)集的精度要求,可以執(zhí)行區(qū)間合并。依次選擇需要合并的下一個(gè)相鄰區(qū)間,直到所有相鄰區(qū)間處理完畢或剩下的相鄰區(qū)間已被標(biāo)記為不可合并狀態(tài),從而得到最終的離散化區(qū)間集合。 求解合并前后決策表的相容度是一個(gè)計(jì)算密集型過(guò)程,尤其是迭代操作將會(huì)耗費(fèi)大量時(shí)間。針對(duì)這一問(wèn)題,在計(jì)算過(guò)程中進(jìn)行了簡(jiǎn)化,即當(dāng)每次相鄰區(qū)間合并,決策表相容度的變化主要是由相鄰區(qū)間合并所引起的,對(duì)于未參與合并的其他區(qū)間對(duì)相容度的變化不會(huì)帶來(lái)影響,這些屬性區(qū)間的一致性不變。因此,在計(jì)算相容度變化時(shí)只考慮待合并的相鄰區(qū)間,具體推導(dǎo)為 Δ=φ′-φ0= (12) 式(12)中:POS表示粗糙集中的正域關(guān)系;IND表示等價(jià)關(guān)系。 根據(jù)前兩節(jié)的分析,基于層次聚類和相容度的數(shù)據(jù)離散化算法具體流程如圖2所示。 圖2 算法流程圖Fig.2 Algorithm flow chart 輸入:原始決策表S=〈U,A=C∪D,V,F〉,C={c1,c2,…,ck}為所有條件屬性的集合,即待離散化的屬性。 輸出:最終的離散化決策表。 Step 1標(biāo)準(zhǔn)化處理,為比較數(shù)據(jù)對(duì)象間的相似性,對(duì)?c∈C的屬性值按式(1)進(jìn)行處理。 Step 2 Step 2.1:將整個(gè)U中的每個(gè)數(shù)據(jù)對(duì)象視為一個(gè)單獨(dú)的簇,構(gòu)建初始相似度矩陣SIM。 Step 2.2:選擇SIM中最小值所對(duì)應(yīng)的兩個(gè)元素作為聚類的候選對(duì)象,按式(2)計(jì)算新形成的簇的正域。 Step 2.3:根據(jù)正域的變化情況,若出現(xiàn)了不一致性的數(shù)據(jù),則放棄該簇的聚類,轉(zhuǎn)到步驟Step 2.2。否則轉(zhuǎn)到Step 2.4。 Step 2.4:對(duì)候選的數(shù)據(jù)對(duì)象執(zhí)行聚類,并更新聚類后的相似度矩陣。 Step 2.5:判斷U中的數(shù)據(jù)對(duì)象是否處理完畢,若沒(méi)有則轉(zhuǎn)到Step 2.2。否則轉(zhuǎn)到Step 2.6。 Step 2.6:由式(7)計(jì)算得到每個(gè)屬性的初始劃分區(qū)間。 Step 3 Step 3.2:優(yōu)先合并信息熵為0的相鄰區(qū)間,然后選擇重要程度最低的區(qū)間進(jìn)行合并。 Step 3.3:計(jì)算合并后相容度的變化Δ=φ′-φ0,當(dāng)Δ≥0,轉(zhuǎn)到Step 3.4。否則終止區(qū)間的合并,轉(zhuǎn)到Step 3.2。 Step 3.4:判斷是否還有相鄰區(qū)間需要處理,若沒(méi)有則轉(zhuǎn)到Step 4。否則轉(zhuǎn)到Step 3.2。 Step 4對(duì)最終形成的區(qū)間用整數(shù)或字符進(jìn)行編碼,完成最終的離散化。 對(duì)基于層次聚類和相容度的數(shù)據(jù)離散化算法的四點(diǎn)說(shuō)明: (1)Step 2.3結(jié)合正域的計(jì)算判斷數(shù)據(jù)的一致性,考慮了條件屬性與類別屬性之間的關(guān)聯(lián),使聚類更加合理。 (2)Step 3.2計(jì)算區(qū)間信息熵并按從小到大進(jìn)行排序,以此度量區(qū)間的重要程度,這一步驟是對(duì)條件屬性集合同時(shí)進(jìn)行比較,確保每個(gè)屬性得到一致處理,避免了對(duì)單個(gè)屬性過(guò)度離散化。 (3)為提高算法效率,Step 3.3采用了簡(jiǎn)化的相容度差值計(jì)算。 (4)當(dāng)區(qū)間的信息熵為0時(shí),相應(yīng)的類屬性完全一致,合并后不會(huì)影響數(shù)據(jù)的一致性。當(dāng)出現(xiàn)多個(gè)區(qū)間信息熵一致的情形時(shí),優(yōu)先選擇類屬性一致性較高的區(qū)間。 為驗(yàn)證DHCC離散化方法的性能,選擇UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中6個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)(裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)屬于涉密范圍),分別為Heart disease、Movement、Vehicle、Artificial、Iris plant、Glass,包含不同的數(shù)據(jù)樣本、條件屬性和類別屬性數(shù)目,已被廣泛應(yīng)用于數(shù)據(jù)挖掘領(lǐng)域。表1對(duì)這些數(shù)據(jù)集進(jìn)行了簡(jiǎn)要描述。選擇等寬(Equal-W)、等頻(Equal-F)、Chimerge、MDLP、CAIM離散化方法進(jìn)行對(duì)比分析。 表1 實(shí)驗(yàn)數(shù)據(jù)集描述 實(shí)驗(yàn)所用計(jì)算機(jī)處理器為Core i7、內(nèi)存8 G,操作系統(tǒng)Windows7,編程環(huán)境為Matlab2010、Python3.7。 離散化后的數(shù)據(jù)集簡(jiǎn)化了信息的表示,減少了所需的存儲(chǔ)空間,符合知識(shí)水平的表示,使得學(xué)習(xí)的過(guò)程更加準(zhǔn)確和快速。因此,主要使用以下三個(gè)指標(biāo)來(lái)綜合衡量離散化方法的優(yōu)劣。 (1)離散化后的區(qū)間總數(shù)。對(duì)于實(shí)際的離散化,最終形成的區(qū)間總數(shù)越小,離散化結(jié)果越簡(jiǎn)潔、效果越好。 (2)離散化后的精度。指離散化后數(shù)據(jù)相比原始數(shù)據(jù)的一致性程度,離散后的信息損失越少,離散化方法的精度越高。這一指標(biāo)通過(guò)對(duì)離散化后的數(shù)據(jù)運(yùn)行分類方法,計(jì)算分類的準(zhǔn)確率來(lái)具體體現(xiàn)。 (3)方法運(yùn)行時(shí)間。方法耗時(shí)體現(xiàn)了方法運(yùn)行效率,對(duì)于動(dòng)態(tài)離散化過(guò)程而言尤為重要。 實(shí)驗(yàn)中,首先對(duì)數(shù)據(jù)集分別運(yùn)用6種離散化方法進(jìn)行處理,記錄離散化后的區(qū)間總數(shù)和方法運(yùn)行時(shí)間,然后對(duì)離散化后的數(shù)據(jù)集運(yùn)用5折交叉驗(yàn)證的方法,隨機(jī)選取80%的數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為測(cè)試集,采用C4.5分類方法進(jìn)行測(cè)試,得到分類的準(zhǔn)確率,為消除誤差實(shí)驗(yàn)重復(fù)5次,計(jì)算各指標(biāo)的平均值作為最終評(píng)價(jià)標(biāo)準(zhǔn)。 3.2.1 離散化后的區(qū)間總數(shù)分析 由表2可知,DHCC方法離散后的平均區(qū)間總數(shù)最少,因?yàn)樵摲椒ǖ膶哟尉垲惒糠帜芤淮螌?duì)所有屬性進(jìn)行聚類處理,屬于全局離散化,同時(shí)結(jié)合正域的變化作為終止判斷條件,可以避免分別對(duì)單個(gè)屬性離散化所產(chǎn)生的不合理區(qū)間,平均排名得分1.4。Chimerge、MDLP離散化方法采用χ2統(tǒng)計(jì)量和信息熵作為區(qū)間劃分的依據(jù),對(duì)單個(gè)屬性依次處理,屬于局部離散化,最終所得區(qū)間總數(shù)有所增加,且隨著設(shè)定的顯著性水平增加,會(huì)對(duì)屬性進(jìn)行過(guò)度的離散化操作,產(chǎn)生大量的冗余區(qū)間。Equal-W、Equal-F方法通過(guò)經(jīng)驗(yàn)公式設(shè)定初始的離散區(qū)間數(shù),隨著數(shù)據(jù)集的規(guī)模變大、屬性增多,離散區(qū)間數(shù)也顯著增加,平均排名得分為4.8、5.3。 表2 區(qū)間總數(shù) 3.2.2 離散精度分析 由表3可知,在測(cè)試的數(shù)據(jù)集中,DHCC方法的精度具有一定優(yōu)勢(shì),測(cè)試精度的平均排名1.5分,表明DHCC方法在層次聚類和區(qū)間合并過(guò)程中,考慮所有條件屬性、類別屬性之間的相關(guān)性,有效減少信息損失,同時(shí)運(yùn)用類別屬性信息對(duì)相鄰區(qū)間的合并進(jìn)行有監(jiān)督指導(dǎo),最大限度地保留原始數(shù)據(jù)的一致性。Equal-W、Equal-F離散化方法的精度相比較低,主要是因?yàn)檫@兩種方法都屬于無(wú)監(jiān)督,不使用類別屬性信息,當(dāng)數(shù)據(jù)分布不平衡時(shí)容易產(chǎn)生較差的區(qū)間,比如在Movement數(shù)據(jù)集中的測(cè)試精度只有47.5%和43.3%。Chimerge、MDLP方法屬于有監(jiān)督離散化,精度相比有所較高,但在離散化的過(guò)程中每次只考慮一個(gè)屬性,忽視了屬性之間的相互影響,平均精度比DHCC方法低。CAIM方法僅考慮最大類屬性的樣本,忽視了其他類屬性的作用,使得在選擇分割點(diǎn)時(shí)易出現(xiàn)誤差,將具有不同分布的類別屬性樣本劃分至同一個(gè)區(qū)間,降低分類的測(cè)試精度。 表3 離散精度Table 3 Discretization accuracy 3.2.3 運(yùn)行時(shí)間分析 由表4可知,在測(cè)試的6個(gè)數(shù)據(jù)集中,Equal-W、Equal-F方法的運(yùn)行時(shí)間最少,因?yàn)檫@兩種方法在離散化時(shí)都不考慮類別屬性信息,依據(jù)數(shù)據(jù)分布和經(jīng)驗(yàn)公式進(jìn)行區(qū)間劃分,沒(méi)有復(fù)雜的迭代計(jì)算過(guò)程。DHCC方法因?yàn)樯婕皩哟尉垲惡拖嗳荻鹊挠?jì)算、迭代合并操作,所需時(shí)間相對(duì)較長(zhǎng)。Chimerge、MDLP、CAIM方法通過(guò)計(jì)算設(shè)定的離散化度量值,然后迭代進(jìn)行合并、分割操作,在Artificial、Movement兩個(gè)數(shù)據(jù)集的運(yùn)行時(shí)間增加明顯。 表4 運(yùn)行時(shí)間 從實(shí)驗(yàn)對(duì)比分析可以得出,DHCC離散化算法在離散化后的區(qū)間總數(shù)、精度方面相比其他5種離散化算法具有一定優(yōu)勢(shì),確保了離散化后的數(shù)據(jù)質(zhì)量。 為驗(yàn)證所提離散化方法的有效性,以一個(gè)實(shí)際例子進(jìn)行說(shuō)明。表5為利用某型裝備模擬訓(xùn)練系統(tǒng)進(jìn)行射擊訓(xùn)練時(shí)所涉及的部分?jǐn)?shù)據(jù)決策表,具體屬性包括軍銜、裝備操作等級(jí)、裝備訓(xùn)練科目、裝備訓(xùn)練次數(shù)、裝備訓(xùn)練成績(jī)等。 表5的數(shù)據(jù)表既包含連續(xù)型數(shù)據(jù),又包含離散型數(shù)據(jù)。為從中挖掘裝備訓(xùn)練規(guī)則,根據(jù)文中所提出的數(shù)據(jù)離散化處理框架和DHCC算法,對(duì)表5的數(shù)據(jù)進(jìn)行離散化處理,生成離散化編碼如表6所示。 表5 某型裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)決策表 表6 離散化編碼表 根據(jù)離散化編碼表對(duì)表5的數(shù)據(jù)進(jìn)行離散化處理可得表7。 表7 離散化處理后的決策表 得到離散化后的數(shù)據(jù)后,采用經(jīng)典的Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘,設(shè)定支持度最小值為15%,置信度最小值為70%,以裝備訓(xùn)練成績(jī)作為關(guān)聯(lián)規(guī)則后件,最終得到如下規(guī)則(“∧”表示屬性取值條件同時(shí)滿足,“?”表示由前項(xiàng)可推出后項(xiàng))。 (1)X13∧X14∧X24∧X25∧X36?Y15,獲得裝備操作等級(jí)三級(jí)以上的下士、中士在“穩(wěn)像模式下原地對(duì)不動(dòng)目標(biāo)射擊”中獲評(píng)成績(jī)[90, 98]。通過(guò)了解該分隊(duì)擔(dān)負(fù)射擊教學(xué)保障任務(wù),對(duì)士官的等級(jí)評(píng)定要求嚴(yán)、抓得緊,保證了三級(jí)以上射手的裝備訓(xùn)練水平達(dá)到規(guī)定的標(biāo)準(zhǔn),也有利于形成射手的梯次配備,促進(jìn)整體戰(zhàn)斗力提升。 (2)X32∧X41?Y14∧Y15,表明“火控系統(tǒng)模式轉(zhuǎn)換”科目通過(guò)較少次數(shù)訓(xùn)練后,評(píng)定分?jǐn)?shù)位于[82, 89][90, 98]兩個(gè)區(qū)間。這與實(shí)際情況相符,“火控系統(tǒng)模式轉(zhuǎn)換”動(dòng)作相對(duì)簡(jiǎn)單,訓(xùn)練對(duì)象能較快掌握要領(lǐng),可適當(dāng)減少訓(xùn)練次數(shù)。 通過(guò)某型裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)實(shí)現(xiàn)DHCC算法在實(shí)際裝備訓(xùn)練中的應(yīng)用,挖掘了裝備訓(xùn)練科目、裝備訓(xùn)練成績(jī)等屬性之間的關(guān)聯(lián),有助于提高裝備訓(xùn)練效果。 構(gòu)建了裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)離散化總體框架,提出了一種基于層次聚類和相容度的數(shù)據(jù)離散化方法,并應(yīng)用于某型裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)分析,得出如下主要結(jié)論。 (1)離散化總體框架滿足了裝備模擬系統(tǒng)數(shù)據(jù)混合型決策表的處理需求,規(guī)范了系統(tǒng)數(shù)據(jù)預(yù)處理流程。 (2)動(dòng)態(tài)確定簇?cái)?shù)的層次聚類考慮屬性相關(guān)性,實(shí)現(xiàn)了對(duì)各屬性的初始劃分,避免了人工指定閾值帶來(lái)的誤差。 (3)簡(jiǎn)化相容度差值合并相鄰區(qū)間,能有效去除冗余劃分,獲得全局最優(yōu)屬性區(qū)間集合。2 基于層次聚類和相容度的數(shù)據(jù)離散化方法
2.1 基于層次聚類的初始整體劃分
2.2 基于相容度的區(qū)間合并
2.3 算法描述
3 實(shí)驗(yàn)與對(duì)比分析
3.1 實(shí)驗(yàn)設(shè)計(jì)
3.2 實(shí)驗(yàn)結(jié)果分析
3.3 實(shí)例驗(yàn)證
4 結(jié)論