亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)離散化

        2021-10-15 04:26:10付朝博
        科學(xué)技術(shù)與工程 2021年27期
        關(guān)鍵詞:方法

        鄧 青, 薛 青, 杜 楠, 付朝博

        (1.陸軍裝甲兵學(xué)院演訓(xùn)中心, 北京 100072; 2.68303部隊(duì), 格爾木 816099)

        裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)預(yù)處理主要是用于挖掘前對(duì)數(shù)據(jù)展開(kāi)治理,包含必要的數(shù)據(jù)融合、數(shù)據(jù)清洗、數(shù)據(jù)離散化、數(shù)據(jù)變換等步驟,從而使數(shù)據(jù)符合挖掘方法和挖掘模型的輸入標(biāo)準(zhǔn)[1]。數(shù)據(jù)離散化是其中的一項(xiàng)重要工作,在裝備模擬訓(xùn)練系統(tǒng)的實(shí)際使用中,按照不同的應(yīng)用場(chǎng)景以時(shí)間、空間順序采集了大量數(shù)據(jù),涉及地理位置、機(jī)動(dòng)路線、毀傷概率等連續(xù)型數(shù)據(jù)[2]。這些數(shù)據(jù)表達(dá)過(guò)于細(xì)化,不利于數(shù)據(jù)挖掘發(fā)現(xiàn)簡(jiǎn)潔的模式和知識(shí),另外對(duì)噪聲也非常敏感,一旦出現(xiàn)細(xì)小的誤差可能會(huì)造成兩個(gè)數(shù)據(jù)的比較值不相等。而數(shù)據(jù)離散化是在最小化信息損失的前提下,根據(jù)設(shè)定的離散化準(zhǔn)則選擇連續(xù)型數(shù)據(jù)的若干個(gè)最優(yōu)劃分,將連續(xù)型數(shù)據(jù)轉(zhuǎn)化成少量的有限區(qū)間,同時(shí)采用整型或字符型數(shù)據(jù)量化離散化區(qū)間的值。因此,通過(guò)對(duì)裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)進(jìn)行離散化處理,能夠有效簡(jiǎn)化數(shù)據(jù),滿足挖掘算法的適用需求,提高挖掘算法的學(xué)習(xí)能力,從而提取有價(jià)值的規(guī)則。

        數(shù)據(jù)離散化方法主要分為無(wú)監(jiān)督和有監(jiān)督兩類。無(wú)監(jiān)督離散化不使用類標(biāo)簽,通過(guò)數(shù)據(jù)的分布特征對(duì)單個(gè)屬性進(jìn)行劃分,實(shí)現(xiàn)方式簡(jiǎn)單,但最終離散的精度難以保證,尤其當(dāng)數(shù)據(jù)分布極度不平衡時(shí)會(huì)產(chǎn)生較差的結(jié)果。等寬算法[3](equal width, Equal-W)是應(yīng)用廣泛的無(wú)監(jiān)督離散化算法,根據(jù)預(yù)先設(shè)定的參數(shù),將連續(xù)數(shù)據(jù)劃分為若干個(gè)等寬區(qū)間,由于未考慮數(shù)據(jù)分布特點(diǎn),算法易受噪聲影響。文獻(xiàn)[4]運(yùn)用頻率模式增長(zhǎng)(frequent pattern growth, FP-Growth)算法挖掘火炮模擬訓(xùn)練系統(tǒng)數(shù)據(jù),采用連續(xù)型數(shù)據(jù)結(jié)構(gòu),存儲(chǔ)代價(jià)大且隨著數(shù)據(jù)增長(zhǎng)搜索效率下降。文獻(xiàn)[5]對(duì)坦克駕駛模擬訓(xùn)練操作數(shù)據(jù)首先進(jìn)行規(guī)范化、離散化等預(yù)處理,然后采用支持向量機(jī)進(jìn)行分類挖掘,實(shí)驗(yàn)證明在數(shù)據(jù)離散化處理后,能更好地提取泛化知識(shí)。文獻(xiàn)[6]基于定制的專門(mén)離散化算法研究了坦克駕駛模擬訓(xùn)練數(shù)據(jù),用于輔助裝備使用決策,同時(shí)能減少昂貴的裝備測(cè)試費(fèi)用。文獻(xiàn)[7]提出Chimerge離散化算法將連續(xù)型數(shù)據(jù)的每個(gè)不同取值作為一個(gè)單獨(dú)的區(qū)間,采用χ2統(tǒng)計(jì)量對(duì)相鄰區(qū)間測(cè)試,并優(yōu)先合并χ2最小的區(qū)間,直到所有區(qū)間的χ2都小于指定的閾值。文獻(xiàn)[8]提出自上而下的MDLP(minimum description length principle)離散化算法,選擇信息熵最小的點(diǎn)作為分割點(diǎn),遞歸操作直到滿足最小描述長(zhǎng)度準(zhǔn)則。

        從上述的數(shù)據(jù)離散化方法可以得出,多數(shù)是采用單屬性離散化,即在每次離散化的過(guò)程中,只考慮一個(gè)屬性,然后按照設(shè)定的離散化準(zhǔn)則循環(huán)迭代,直至每個(gè)屬性處理完畢[9-11]。這些方法具有簡(jiǎn)單易理解、執(zhí)行速度快的特點(diǎn),但往往忽視了屬性之間的相關(guān)性、互補(bǔ)性,割裂了屬性之間的聯(lián)系。而對(duì)于裝備模擬訓(xùn)練系統(tǒng)實(shí)際運(yùn)行產(chǎn)生的數(shù)據(jù),往往幾個(gè)數(shù)據(jù)屬性之間是相互作用、共同影響的[12-13],比如,在運(yùn)用坦克駕駛模擬訓(xùn)練系統(tǒng)進(jìn)行駕駛操作技能訓(xùn)練時(shí),對(duì)油門(mén)、離合器、制動(dòng)器的操作并不是孤立的,應(yīng)該相互配合才能更好掌握操作要領(lǐng),提高訓(xùn)練成績(jī),因此,在對(duì)油門(mén)、離合器、制動(dòng)器的操作數(shù)據(jù)進(jìn)行離散化時(shí),必須要考慮它們之間的相互作用,否則在后續(xù)進(jìn)行數(shù)據(jù)挖掘時(shí)會(huì)產(chǎn)生錯(cuò)誤的知識(shí)。針對(duì)裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)離散化存在的問(wèn)題,提出一種基于層次聚類和相容度的數(shù)據(jù)離散化方法(discretization algorithm by hierarchical cluster and compatibility,DHCC)。該方法屬于有監(jiān)督、自下而上的處理過(guò)程,首先通過(guò)動(dòng)態(tài)確定簇?cái)?shù)對(duì)數(shù)據(jù)的所有屬性進(jìn)行層次聚類,實(shí)現(xiàn)對(duì)各屬性的初始整體劃分,然后運(yùn)用相容度差值指導(dǎo)相鄰區(qū)間的合并,有效去除冗余區(qū)間,從而獲得全局最優(yōu)屬性區(qū)間集合。實(shí)驗(yàn)階段對(duì)DHCC離散化算法進(jìn)行了比較,并在實(shí)際數(shù)據(jù)集上進(jìn)行了驗(yàn)證。

        1 裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)離散化過(guò)程建模

        根據(jù)裝備模擬訓(xùn)練系統(tǒng)產(chǎn)生的數(shù)據(jù)特點(diǎn),通常包含條件屬性和類別屬性,一組條件屬性通過(guò)相互作用共同決定了類別屬性。因此,采用決策表將這些屬性表示成數(shù)據(jù)集合的形式,從而便于直觀地對(duì)裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)離散化過(guò)程進(jìn)行建模分析。首先給出裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)決策表有關(guān)定義。

        定義1從裝備模擬訓(xùn)練系統(tǒng)關(guān)系數(shù)據(jù)庫(kù)中抽取數(shù)據(jù)挖掘所需要的數(shù)據(jù)集B,將其轉(zhuǎn)化為四元組的數(shù)學(xué)表達(dá)形式S=〈U,A=C∪D,V,F〉,其中,U為數(shù)據(jù)對(duì)象集,A為屬性集,包含條件屬性集C和決策屬性集D,V為值域集,F(xiàn)表示數(shù)據(jù)屬性到值域的映射,則稱S為決策表。

        對(duì)裝備模擬訓(xùn)練數(shù)據(jù)離散化需要結(jié)合實(shí)際的挖掘任務(wù),將連續(xù)屬性轉(zhuǎn)變成離散屬性、定量數(shù)據(jù)變換為定性數(shù)據(jù)。根據(jù)以上分析,對(duì)裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)離散化過(guò)程模型描述如下。

        假設(shè)裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)采用決策表S=〈U,A=C∪D,V,F〉表示,數(shù)據(jù)對(duì)象u∈U,屬性c∈C,c的值域?yàn)閂c=[lc,hc],則存在F(u,c)∈Vc。設(shè)值域Vc上存在一分割點(diǎn)集合T={(c,a0), (c,a1),…, (c,an)}則T將Vc劃分形成區(qū)間集合Pc={[a0,a1), [a1,a2),…, [an-1,an]},其中l(wèi)c=a0

        ?c(u)∈[ai-1,ai),i∈{ 1, 2, …,n},根據(jù)屬性到值域的映射FP(u,c)可計(jì)算連續(xù)屬性c的所屬區(qū)間i,因此通過(guò)P={Pc|c∈C}將原決策表S=〈U,A=C∪D,V,F〉轉(zhuǎn)化成離散型決策表SP=〈U,A=C∪D,VP,FP〉。與原決策表相比,離散化后的決策表SP改變了屬性A的值域,對(duì)原有的取值范圍采用了有限個(gè)區(qū)間進(jìn)行劃分,并用離散的數(shù)值標(biāo)記每個(gè)區(qū)間,區(qū)間范圍內(nèi)的數(shù)據(jù)都會(huì)被離散值所取代。

        對(duì)于裝備模擬訓(xùn)練數(shù)據(jù)決策表既包含連續(xù)型,又含有離散型數(shù)據(jù),屬于混合型決策表,比如運(yùn)用步戰(zhàn)車模擬訓(xùn)練系統(tǒng)產(chǎn)生的數(shù)據(jù)既有電路總開(kāi)關(guān)、音響按鈕等狀態(tài)數(shù)據(jù),還包括油門(mén)裝置、發(fā)動(dòng)機(jī)轉(zhuǎn)速等連續(xù)數(shù)據(jù),有時(shí)不僅需要對(duì)連續(xù)型數(shù)據(jù)離散,為了挖掘出更加簡(jiǎn)潔的作戰(zhàn)規(guī)則,在必要的時(shí)候?qū)﹄x散型數(shù)據(jù)也需更進(jìn)一步的泛化處理,由此建立裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)離散化總體框架如圖1所示。其關(guān)鍵在于研究提出適當(dāng)?shù)臄?shù)據(jù)離散化算法,同時(shí)滿足混合型決策表離散化的需求。

        圖1 裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)離散化的總體框架Fig.1 Framework of equipment simulation training system data discretization

        2 基于層次聚類和相容度的數(shù)據(jù)離散化方法

        基于層次聚類和相容度的裝備訓(xùn)練系統(tǒng)數(shù)據(jù)離散化方法,首先通過(guò)層次聚類,并結(jié)合屬性間的關(guān)聯(lián),計(jì)算簇的正域調(diào)整確定聚類數(shù)目,實(shí)現(xiàn)對(duì)屬性的初始劃分。然后結(jié)合類別屬性信息,運(yùn)用簡(jiǎn)化的相容度對(duì)初始離散化結(jié)果的相鄰區(qū)間進(jìn)行合并,減少斷點(diǎn)數(shù)和去除冗余區(qū)間,從而生成最終的離散化方案。

        2.1 基于層次聚類的初始整體劃分

        層次聚類是對(duì)整個(gè)決策表的所有條件屬性同時(shí)進(jìn)行,可以更好地保持屬性間的關(guān)聯(lián)(和分類精度下降問(wèn)題)。在聚類前,為便于比較數(shù)據(jù)對(duì)象間的相似性,對(duì)?c∈C的屬性值進(jìn)行標(biāo)準(zhǔn)化處理,處理依據(jù)為

        (1)

        式(1)中:max[c(U)]、min[c(U)]分別表示整個(gè)決策表中屬性c的最大值和最小值。初始時(shí)將整個(gè)U中的每個(gè)對(duì)象都看作一個(gè)簇,選擇歐氏距離建立簇之間的相似度矩陣(simulation matrix, SIM),矩陣元素SIMij表示ui和uj之間的距離,即

        (2)

        選擇矩陣SIM中最小元素所對(duì)應(yīng)的兩個(gè)數(shù)據(jù)對(duì)象進(jìn)行聚類,對(duì)新形成的簇與其他數(shù)據(jù)對(duì)象的相似性按照平均距離計(jì)算,爾后更新相似度矩陣,刪除原來(lái)的兩個(gè)數(shù)據(jù)對(duì)象。依此循環(huán)迭代進(jìn)行聚類,直到滿足事先指定的聚類個(gè)數(shù),但裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)所形成的決策表無(wú)法預(yù)知簇的個(gè)數(shù)。針對(duì)這一問(wèn)題,利用數(shù)據(jù)自身的固有特征,在每次聚類過(guò)程中,計(jì)算正域的變化,當(dāng)值減少表明聚類后出現(xiàn)了不一致性的數(shù)據(jù),對(duì)該簇的聚類過(guò)程應(yīng)當(dāng)終止。反之表明聚類后沒(méi)有降低正域,可以繼續(xù)進(jìn)行聚類,依次迭代直到處理完所有的數(shù)據(jù)對(duì)象。

        假定最終生成的聚類數(shù)為L(zhǎng),將形成的每個(gè)簇向條件屬性空間進(jìn)行投影,可得到每個(gè)屬性的一系列取值區(qū)間。以屬性c為例,對(duì)于第k個(gè)(1≤k≤L)簇所包含的數(shù)據(jù)對(duì)象集合為Uk,則屬性c在該簇中的取值集合為

        (3)

        進(jìn)一步可得出屬性c在該簇的區(qū)間為

        (4)

        則屬性c在各個(gè)簇的左、右區(qū)間集合表示為

        (5)

        (6)

        對(duì)上述兩個(gè)區(qū)間集合的元素按從小到大進(jìn)行排序,得到屬性c的初始劃分區(qū)間為

        (7)

        2.2 基于相容度的區(qū)間合并

        第一步的層次聚類用于初始劃分屬于無(wú)監(jiān)督離散化,運(yùn)算效率高,但容易導(dǎo)致相似的區(qū)間被分離,且隨著屬性數(shù)量的增多,產(chǎn)生的區(qū)間也會(huì)增加,因此,通過(guò)引入類別屬性信息,同時(shí)結(jié)合相容度指導(dǎo)區(qū)間合并,以此最小化屬性的區(qū)間數(shù),提高離散化效果。

        區(qū)間合并前,首先需要確定合并的優(yōu)先級(jí)。根據(jù)信息論,熵值反映了數(shù)據(jù)的類分布特征。進(jìn)一步,如果屬性區(qū)間的信息熵越小,則相應(yīng)的類分布一致性越高,屬性區(qū)間的重要程度就越低,特別是當(dāng)區(qū)間的信息熵為0時(shí),相應(yīng)的類屬性完全一致,該區(qū)間的重要程度最低,不會(huì)對(duì)其他屬性造成影響,應(yīng)作為區(qū)間合并的首要選擇。因此,重要程度低的屬性區(qū)間優(yōu)先合并。

        (8)

        (9)

        (10)

        為了體現(xiàn)不同屬性區(qū)間相對(duì)于類屬性的聯(lián)系,將所有屬性區(qū)間的信息熵進(jìn)行排序,選擇信息熵最小的相鄰區(qū)間作為候選合并對(duì)象,確保每個(gè)屬性區(qū)間均有被選取的機(jī)會(huì)。

        在執(zhí)行合并的過(guò)程中,需要保持整個(gè)決策表的一致性不變,以此作為區(qū)間合并的判斷條件。為實(shí)現(xiàn)這一目的,通過(guò)采用計(jì)算合并后的相容度φ′,并將其與原始的相容度φ0進(jìn)行比較,可以避免傳統(tǒng)采用人工設(shè)定閾值作為合并判斷條件帶來(lái)的誤差。即

        Δ=φ′-φ0

        (11)

        當(dāng)Δ<0,表明相容度減少,合并后引起了決策表的不一致性,對(duì)這個(gè)區(qū)間的合并應(yīng)當(dāng)終止,并將這一相鄰區(qū)間標(biāo)記為不可合并狀態(tài),后續(xù)也不會(huì)成為候選的合并對(duì)象。反之當(dāng)Δ≥0,表明合并后決策表的一致性仍然滿足數(shù)據(jù)集的精度要求,可以執(zhí)行區(qū)間合并。依次選擇需要合并的下一個(gè)相鄰區(qū)間,直到所有相鄰區(qū)間處理完畢或剩下的相鄰區(qū)間已被標(biāo)記為不可合并狀態(tài),從而得到最終的離散化區(qū)間集合。

        求解合并前后決策表的相容度是一個(gè)計(jì)算密集型過(guò)程,尤其是迭代操作將會(huì)耗費(fèi)大量時(shí)間。針對(duì)這一問(wèn)題,在計(jì)算過(guò)程中進(jìn)行了簡(jiǎn)化,即當(dāng)每次相鄰區(qū)間合并,決策表相容度的變化主要是由相鄰區(qū)間合并所引起的,對(duì)于未參與合并的其他區(qū)間對(duì)相容度的變化不會(huì)帶來(lái)影響,這些屬性區(qū)間的一致性不變。因此,在計(jì)算相容度變化時(shí)只考慮待合并的相鄰區(qū)間,具體推導(dǎo)為

        Δ=φ′-φ0=

        (12)

        式(12)中:POS表示粗糙集中的正域關(guān)系;IND表示等價(jià)關(guān)系。

        2.3 算法描述

        根據(jù)前兩節(jié)的分析,基于層次聚類和相容度的數(shù)據(jù)離散化算法具體流程如圖2所示。

        圖2 算法流程圖Fig.2 Algorithm flow chart

        輸入:原始決策表S=〈U,A=C∪D,V,F〉,C={c1,c2,…,ck}為所有條件屬性的集合,即待離散化的屬性。

        輸出:最終的離散化決策表。

        Step 1標(biāo)準(zhǔn)化處理,為比較數(shù)據(jù)對(duì)象間的相似性,對(duì)?c∈C的屬性值按式(1)進(jìn)行處理。

        Step 2

        Step 2.1:將整個(gè)U中的每個(gè)數(shù)據(jù)對(duì)象視為一個(gè)單獨(dú)的簇,構(gòu)建初始相似度矩陣SIM。

        Step 2.2:選擇SIM中最小值所對(duì)應(yīng)的兩個(gè)元素作為聚類的候選對(duì)象,按式(2)計(jì)算新形成的簇的正域。

        Step 2.3:根據(jù)正域的變化情況,若出現(xiàn)了不一致性的數(shù)據(jù),則放棄該簇的聚類,轉(zhuǎn)到步驟Step 2.2。否則轉(zhuǎn)到Step 2.4。

        Step 2.4:對(duì)候選的數(shù)據(jù)對(duì)象執(zhí)行聚類,并更新聚類后的相似度矩陣。

        Step 2.5:判斷U中的數(shù)據(jù)對(duì)象是否處理完畢,若沒(méi)有則轉(zhuǎn)到Step 2.2。否則轉(zhuǎn)到Step 2.6。

        Step 2.6:由式(7)計(jì)算得到每個(gè)屬性的初始劃分區(qū)間。

        Step 3

        Step 3.2:優(yōu)先合并信息熵為0的相鄰區(qū)間,然后選擇重要程度最低的區(qū)間進(jìn)行合并。

        Step 3.3:計(jì)算合并后相容度的變化Δ=φ′-φ0,當(dāng)Δ≥0,轉(zhuǎn)到Step 3.4。否則終止區(qū)間的合并,轉(zhuǎn)到Step 3.2。

        Step 3.4:判斷是否還有相鄰區(qū)間需要處理,若沒(méi)有則轉(zhuǎn)到Step 4。否則轉(zhuǎn)到Step 3.2。

        Step 4對(duì)最終形成的區(qū)間用整數(shù)或字符進(jìn)行編碼,完成最終的離散化。

        對(duì)基于層次聚類和相容度的數(shù)據(jù)離散化算法的四點(diǎn)說(shuō)明:

        (1)Step 2.3結(jié)合正域的計(jì)算判斷數(shù)據(jù)的一致性,考慮了條件屬性與類別屬性之間的關(guān)聯(lián),使聚類更加合理。

        (2)Step 3.2計(jì)算區(qū)間信息熵并按從小到大進(jìn)行排序,以此度量區(qū)間的重要程度,這一步驟是對(duì)條件屬性集合同時(shí)進(jìn)行比較,確保每個(gè)屬性得到一致處理,避免了對(duì)單個(gè)屬性過(guò)度離散化。

        (3)為提高算法效率,Step 3.3采用了簡(jiǎn)化的相容度差值計(jì)算。

        (4)當(dāng)區(qū)間的信息熵為0時(shí),相應(yīng)的類屬性完全一致,合并后不會(huì)影響數(shù)據(jù)的一致性。當(dāng)出現(xiàn)多個(gè)區(qū)間信息熵一致的情形時(shí),優(yōu)先選擇類屬性一致性較高的區(qū)間。

        3 實(shí)驗(yàn)與對(duì)比分析

        3.1 實(shí)驗(yàn)設(shè)計(jì)

        為驗(yàn)證DHCC離散化方法的性能,選擇UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中6個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)(裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)屬于涉密范圍),分別為Heart disease、Movement、Vehicle、Artificial、Iris plant、Glass,包含不同的數(shù)據(jù)樣本、條件屬性和類別屬性數(shù)目,已被廣泛應(yīng)用于數(shù)據(jù)挖掘領(lǐng)域。表1對(duì)這些數(shù)據(jù)集進(jìn)行了簡(jiǎn)要描述。選擇等寬(Equal-W)、等頻(Equal-F)、Chimerge、MDLP、CAIM離散化方法進(jìn)行對(duì)比分析。

        表1 實(shí)驗(yàn)數(shù)據(jù)集描述

        實(shí)驗(yàn)所用計(jì)算機(jī)處理器為Core i7、內(nèi)存8 G,操作系統(tǒng)Windows7,編程環(huán)境為Matlab2010、Python3.7。

        離散化后的數(shù)據(jù)集簡(jiǎn)化了信息的表示,減少了所需的存儲(chǔ)空間,符合知識(shí)水平的表示,使得學(xué)習(xí)的過(guò)程更加準(zhǔn)確和快速。因此,主要使用以下三個(gè)指標(biāo)來(lái)綜合衡量離散化方法的優(yōu)劣。

        (1)離散化后的區(qū)間總數(shù)。對(duì)于實(shí)際的離散化,最終形成的區(qū)間總數(shù)越小,離散化結(jié)果越簡(jiǎn)潔、效果越好。

        (2)離散化后的精度。指離散化后數(shù)據(jù)相比原始數(shù)據(jù)的一致性程度,離散后的信息損失越少,離散化方法的精度越高。這一指標(biāo)通過(guò)對(duì)離散化后的數(shù)據(jù)運(yùn)行分類方法,計(jì)算分類的準(zhǔn)確率來(lái)具體體現(xiàn)。

        (3)方法運(yùn)行時(shí)間。方法耗時(shí)體現(xiàn)了方法運(yùn)行效率,對(duì)于動(dòng)態(tài)離散化過(guò)程而言尤為重要。

        實(shí)驗(yàn)中,首先對(duì)數(shù)據(jù)集分別運(yùn)用6種離散化方法進(jìn)行處理,記錄離散化后的區(qū)間總數(shù)和方法運(yùn)行時(shí)間,然后對(duì)離散化后的數(shù)據(jù)集運(yùn)用5折交叉驗(yàn)證的方法,隨機(jī)選取80%的數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為測(cè)試集,采用C4.5分類方法進(jìn)行測(cè)試,得到分類的準(zhǔn)確率,為消除誤差實(shí)驗(yàn)重復(fù)5次,計(jì)算各指標(biāo)的平均值作為最終評(píng)價(jià)標(biāo)準(zhǔn)。

        3.2 實(shí)驗(yàn)結(jié)果分析

        3.2.1 離散化后的區(qū)間總數(shù)分析

        由表2可知,DHCC方法離散后的平均區(qū)間總數(shù)最少,因?yàn)樵摲椒ǖ膶哟尉垲惒糠帜芤淮螌?duì)所有屬性進(jìn)行聚類處理,屬于全局離散化,同時(shí)結(jié)合正域的變化作為終止判斷條件,可以避免分別對(duì)單個(gè)屬性離散化所產(chǎn)生的不合理區(qū)間,平均排名得分1.4。Chimerge、MDLP離散化方法采用χ2統(tǒng)計(jì)量和信息熵作為區(qū)間劃分的依據(jù),對(duì)單個(gè)屬性依次處理,屬于局部離散化,最終所得區(qū)間總數(shù)有所增加,且隨著設(shè)定的顯著性水平增加,會(huì)對(duì)屬性進(jìn)行過(guò)度的離散化操作,產(chǎn)生大量的冗余區(qū)間。Equal-W、Equal-F方法通過(guò)經(jīng)驗(yàn)公式設(shè)定初始的離散區(qū)間數(shù),隨著數(shù)據(jù)集的規(guī)模變大、屬性增多,離散區(qū)間數(shù)也顯著增加,平均排名得分為4.8、5.3。

        表2 區(qū)間總數(shù)

        3.2.2 離散精度分析

        由表3可知,在測(cè)試的數(shù)據(jù)集中,DHCC方法的精度具有一定優(yōu)勢(shì),測(cè)試精度的平均排名1.5分,表明DHCC方法在層次聚類和區(qū)間合并過(guò)程中,考慮所有條件屬性、類別屬性之間的相關(guān)性,有效減少信息損失,同時(shí)運(yùn)用類別屬性信息對(duì)相鄰區(qū)間的合并進(jìn)行有監(jiān)督指導(dǎo),最大限度地保留原始數(shù)據(jù)的一致性。Equal-W、Equal-F離散化方法的精度相比較低,主要是因?yàn)檫@兩種方法都屬于無(wú)監(jiān)督,不使用類別屬性信息,當(dāng)數(shù)據(jù)分布不平衡時(shí)容易產(chǎn)生較差的區(qū)間,比如在Movement數(shù)據(jù)集中的測(cè)試精度只有47.5%和43.3%。Chimerge、MDLP方法屬于有監(jiān)督離散化,精度相比有所較高,但在離散化的過(guò)程中每次只考慮一個(gè)屬性,忽視了屬性之間的相互影響,平均精度比DHCC方法低。CAIM方法僅考慮最大類屬性的樣本,忽視了其他類屬性的作用,使得在選擇分割點(diǎn)時(shí)易出現(xiàn)誤差,將具有不同分布的類別屬性樣本劃分至同一個(gè)區(qū)間,降低分類的測(cè)試精度。

        表3 離散精度Table 3 Discretization accuracy

        3.2.3 運(yùn)行時(shí)間分析

        由表4可知,在測(cè)試的6個(gè)數(shù)據(jù)集中,Equal-W、Equal-F方法的運(yùn)行時(shí)間最少,因?yàn)檫@兩種方法在離散化時(shí)都不考慮類別屬性信息,依據(jù)數(shù)據(jù)分布和經(jīng)驗(yàn)公式進(jìn)行區(qū)間劃分,沒(méi)有復(fù)雜的迭代計(jì)算過(guò)程。DHCC方法因?yàn)樯婕皩哟尉垲惡拖嗳荻鹊挠?jì)算、迭代合并操作,所需時(shí)間相對(duì)較長(zhǎng)。Chimerge、MDLP、CAIM方法通過(guò)計(jì)算設(shè)定的離散化度量值,然后迭代進(jìn)行合并、分割操作,在Artificial、Movement兩個(gè)數(shù)據(jù)集的運(yùn)行時(shí)間增加明顯。

        表4 運(yùn)行時(shí)間

        從實(shí)驗(yàn)對(duì)比分析可以得出,DHCC離散化算法在離散化后的區(qū)間總數(shù)、精度方面相比其他5種離散化算法具有一定優(yōu)勢(shì),確保了離散化后的數(shù)據(jù)質(zhì)量。

        3.3 實(shí)例驗(yàn)證

        為驗(yàn)證所提離散化方法的有效性,以一個(gè)實(shí)際例子進(jìn)行說(shuō)明。表5為利用某型裝備模擬訓(xùn)練系統(tǒng)進(jìn)行射擊訓(xùn)練時(shí)所涉及的部分?jǐn)?shù)據(jù)決策表,具體屬性包括軍銜、裝備操作等級(jí)、裝備訓(xùn)練科目、裝備訓(xùn)練次數(shù)、裝備訓(xùn)練成績(jī)等。

        表5的數(shù)據(jù)表既包含連續(xù)型數(shù)據(jù),又包含離散型數(shù)據(jù)。為從中挖掘裝備訓(xùn)練規(guī)則,根據(jù)文中所提出的數(shù)據(jù)離散化處理框架和DHCC算法,對(duì)表5的數(shù)據(jù)進(jìn)行離散化處理,生成離散化編碼如表6所示。

        表5 某型裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)決策表

        表6 離散化編碼表

        根據(jù)離散化編碼表對(duì)表5的數(shù)據(jù)進(jìn)行離散化處理可得表7。

        表7 離散化處理后的決策表

        得到離散化后的數(shù)據(jù)后,采用經(jīng)典的Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘,設(shè)定支持度最小值為15%,置信度最小值為70%,以裝備訓(xùn)練成績(jī)作為關(guān)聯(lián)規(guī)則后件,最終得到如下規(guī)則(“∧”表示屬性取值條件同時(shí)滿足,“?”表示由前項(xiàng)可推出后項(xiàng))。

        (1)X13∧X14∧X24∧X25∧X36?Y15,獲得裝備操作等級(jí)三級(jí)以上的下士、中士在“穩(wěn)像模式下原地對(duì)不動(dòng)目標(biāo)射擊”中獲評(píng)成績(jī)[90, 98]。通過(guò)了解該分隊(duì)擔(dān)負(fù)射擊教學(xué)保障任務(wù),對(duì)士官的等級(jí)評(píng)定要求嚴(yán)、抓得緊,保證了三級(jí)以上射手的裝備訓(xùn)練水平達(dá)到規(guī)定的標(biāo)準(zhǔn),也有利于形成射手的梯次配備,促進(jìn)整體戰(zhàn)斗力提升。

        (2)X32∧X41?Y14∧Y15,表明“火控系統(tǒng)模式轉(zhuǎn)換”科目通過(guò)較少次數(shù)訓(xùn)練后,評(píng)定分?jǐn)?shù)位于[82, 89][90, 98]兩個(gè)區(qū)間。這與實(shí)際情況相符,“火控系統(tǒng)模式轉(zhuǎn)換”動(dòng)作相對(duì)簡(jiǎn)單,訓(xùn)練對(duì)象能較快掌握要領(lǐng),可適當(dāng)減少訓(xùn)練次數(shù)。

        通過(guò)某型裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)實(shí)現(xiàn)DHCC算法在實(shí)際裝備訓(xùn)練中的應(yīng)用,挖掘了裝備訓(xùn)練科目、裝備訓(xùn)練成績(jī)等屬性之間的關(guān)聯(lián),有助于提高裝備訓(xùn)練效果。

        4 結(jié)論

        構(gòu)建了裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)離散化總體框架,提出了一種基于層次聚類和相容度的數(shù)據(jù)離散化方法,并應(yīng)用于某型裝備模擬訓(xùn)練系統(tǒng)數(shù)據(jù)分析,得出如下主要結(jié)論。

        (1)離散化總體框架滿足了裝備模擬系統(tǒng)數(shù)據(jù)混合型決策表的處理需求,規(guī)范了系統(tǒng)數(shù)據(jù)預(yù)處理流程。

        (2)動(dòng)態(tài)確定簇?cái)?shù)的層次聚類考慮屬性相關(guān)性,實(shí)現(xiàn)了對(duì)各屬性的初始劃分,避免了人工指定閾值帶來(lái)的誤差。

        (3)簡(jiǎn)化相容度差值合并相鄰區(qū)間,能有效去除冗余劃分,獲得全局最優(yōu)屬性區(qū)間集合。

        猜你喜歡
        方法
        中醫(yī)特有的急救方法
        中老年保健(2021年9期)2021-08-24 03:52:04
        高中數(shù)學(xué)教學(xué)改革的方法
        化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
        變快的方法
        兒童繪本(2020年5期)2020-04-07 17:46:30
        學(xué)習(xí)方法
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        最有效的簡(jiǎn)單方法
        山東青年(2016年1期)2016-02-28 14:25:23
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢(qián)方法
        亚洲国产一区二区av| 国产成人亚洲不卡在线观看 | 99精品成人片免费毛片无码| 亚洲中文字幕第二十三页| 日韩一区二区三区久久精品| 曰本女人与公拘交酡| 国产农村妇女高潮大叫| 国产美女精品AⅤ在线老女人| 精品久久一品二品三品| 奇米影视7777久久精品| 放荡的闷骚娇妻h| 日本最新一区二区三区免费看| 国产中文字幕亚洲精品| 久久午夜无码鲁丝片午夜精品| 国产欧美日韩视频一区二区三区| 白白青青视频在线免费观看 | 按摩师玩弄少妇到高潮hd| 青青草视频在线观看色| 亚洲国产天堂一区二区三区| 毛片毛片免费看| 亚洲av男人免费久久| 久久久久99人妻一区二区三区| 欧美jizzhd精品欧美| 国产高清在线91福利| 亚洲综合视频一区二区| 精品欧洲av无码一区二区14| 亚洲精品国产成人AV| 精品粉嫩国产一区二区三区| 国产免费一区二区三区精品视频| 欧美内射深喉中文字幕| 国产99页| 亚洲成人av大片在线观看| 狠狠躁日日躁夜夜躁2020| 黄色资源在线观看| 一级黄色一区二区三区视频| 日韩 亚洲 制服 欧美 综合| 亚洲色欲久久久久综合网 | 亚洲人成在线播放网站| 天堂一区人妻无码| 色窝综合网| 日本最新一区二区三区在线视频|