李妍 劉華軍 徐秦
中國(guó)人民解放軍91550部隊(duì),遼寧省 大連市 116023
基于判定樹的數(shù)據(jù)挖掘技術(shù)在軍訓(xùn)管理中的應(yīng)用研究
李妍 劉華軍 徐秦
中國(guó)人民解放軍91550部隊(duì),遼寧省 大連市 116023
目前數(shù)據(jù)挖掘技術(shù)已廣泛應(yīng)用到諸如金融、醫(yī)學(xué)、軍事、工業(yè)等眾多領(lǐng)域中。本文基于數(shù)據(jù)挖掘技術(shù)的理論背景,運(yùn)用判定樹歸納分類方法,同時(shí)依據(jù)軍事訓(xùn)練管理考核成績(jī),對(duì)軍事訓(xùn)練管理情況進(jìn)行預(yù)測(cè)、管理效果評(píng)估,并對(duì)其管理方法做出分析指導(dǎo)。
軍事訓(xùn)練; 數(shù)據(jù)發(fā)掘; 判定樹
military training;Data mining;Decision Tree
隨著軍隊(duì)“三化”建設(shè)的不斷發(fā)展,對(duì)軍事訓(xùn)練、科技干部管理也提出了更多、更高的要求。對(duì)參訓(xùn)人員狀態(tài)、軍事訓(xùn)練課程、軍事訓(xùn)練考核成績(jī)等多種信息進(jìn)行分析評(píng)估,對(duì)提高訓(xùn)練質(zhì)量,加強(qiáng)訓(xùn)練管理,推進(jìn)軍隊(duì)事業(yè)的建設(shè)有著重要的意義。數(shù)據(jù)發(fā)掘技術(shù)在軍事訓(xùn)練管理及教學(xué)中的應(yīng)用處于研究試驗(yàn)階段,包括訓(xùn)練成績(jī)的分析,改進(jìn)訓(xùn)練/培訓(xùn)質(zhì)量,調(diào)整訓(xùn)練/培訓(xùn)課程設(shè)置,合理安排訓(xùn)練/培訓(xùn)內(nèi)容,輔助教學(xué)評(píng)價(jià)等。借助數(shù)據(jù)發(fā)掘技術(shù)的方法,通過(guò)對(duì)收集的培訓(xùn)人員、課程、成績(jī)等各類信息進(jìn)行分析,尋找其中的規(guī)律、趨勢(shì)和問(wèn)題,提供客觀科學(xué)的結(jié)論作為指揮員決策依據(jù),能夠大大提高軍隊(duì)干部訓(xùn)練管理水平,指導(dǎo)軍隊(duì)人員軍事訓(xùn)練/培訓(xùn)工作和學(xué)習(xí)。
1 數(shù)據(jù)發(fā)掘技術(shù)
數(shù)據(jù)發(fā)掘技術(shù)是一種從大量數(shù)據(jù)中提取或“發(fā)掘”隱含的、未知的、用戶可能感興趣的和對(duì)決策有潛在價(jià)值的知識(shí)和規(guī)則,它通過(guò)數(shù)據(jù)預(yù)處理、數(shù)據(jù)選擇、變換過(guò)程,將對(duì)變化后的數(shù)據(jù)應(yīng)用數(shù)據(jù)發(fā)掘算法以產(chǎn)生期望結(jié)果。再以適當(dāng)方式提交給用戶,進(jìn)行效果評(píng)估[1]。如圖1所示:
圖1 數(shù)據(jù)發(fā)掘過(guò)程
數(shù)據(jù)庫(kù)內(nèi)容豐富,蘊(yùn)藏大量信息,可以用來(lái)做出智能決策[2]。分類和預(yù)測(cè)是兩種數(shù)據(jù)分析形式,可以用于提取描述重要數(shù)據(jù)類的模型或預(yù)測(cè)未來(lái)的數(shù)據(jù)趨勢(shì)。判定樹歸納就是數(shù)據(jù)分類的基本技術(shù)之一。
判定樹歸納是一種用于解決分類問(wèn)題的辦法,它以自頂向下遞歸的各個(gè)擊破方式構(gòu)造判定樹。利用樹枝狀展現(xiàn)各變量影響情況的分析預(yù)測(cè)模型,根據(jù)對(duì)目標(biāo)變量產(chǎn)生主效應(yīng)的不同而制定分類規(guī)則。
對(duì)于數(shù)據(jù)發(fā)掘技術(shù)在軍事訓(xùn)練、科技干部管理中的研究已得到部分應(yīng)用,比如有過(guò)濾篩模型算法、統(tǒng)計(jì)分析法、聚類分析法、關(guān)聯(lián)規(guī)則法等等,本文將運(yùn)用判定樹歸納方法來(lái)對(duì)其進(jìn)行預(yù)測(cè)分析、評(píng)估。
判定樹(decision tree)是一個(gè)類似于流程圖的樹結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試,每個(gè)分枝代表一個(gè)測(cè)試輸出,而每個(gè)樹葉節(jié)點(diǎn)代表類或類分布[1]。如圖2所示。
圖2 判定樹
具體描述如下:
給定數(shù)據(jù)庫(kù)D={D1,D2,…,Dn},其中 Ii={Ii1,Ii2,…,Iin},數(shù)據(jù)庫(kù)模式包含屬性{A1,A2,…,An} 。同時(shí)給定類別集合C={C1,C2,…,Cn}。通過(guò)訓(xùn)練數(shù)據(jù)結(jié)構(gòu)建判定樹,確定每個(gè)元組的類別,并對(duì)所有元組的類別進(jìn)行分析,得出需要的結(jié)論。判定樹歸納法主要用于對(duì)離散數(shù)據(jù)進(jìn)行分類,在訓(xùn)練/培訓(xùn)方面能夠用來(lái)對(duì)參訓(xùn)人員選擇、制定訓(xùn)練方案進(jìn)行分析指導(dǎo)。
基于判定樹的分析過(guò)程,一是進(jìn)行分類準(zhǔn)備,對(duì)各個(gè)屬性進(jìn)行分類測(cè)試,選出最高信息增益屬性做節(jié)點(diǎn),引出其它分枝,從而對(duì)樣本進(jìn)行劃分,創(chuàng)建判定樹。二是進(jìn)行預(yù)測(cè)性、評(píng)價(jià)性分析,對(duì)訓(xùn)練成績(jī)進(jìn)行分析,對(duì)效果進(jìn)行評(píng)估。
2.1 建立數(shù)據(jù)倉(cāng)庫(kù)??梢允褂密娛掠?xùn)練信息管理的建立數(shù)據(jù)倉(cāng)庫(kù),采集的數(shù)據(jù)內(nèi)容主要包括軍事訓(xùn)練人員的專業(yè)理論知識(shí)考核成績(jī)、實(shí)際操作能力考核成績(jī)、理論研究能力考核成績(jī)等等。在本文中假定給出數(shù)據(jù)庫(kù)數(shù)據(jù)元組訓(xùn)練集見(jiàn)表1。
表1 數(shù)據(jù)元組訓(xùn)練集
2.2 對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。當(dāng)判定樹被創(chuàng)建時(shí),由于數(shù)據(jù)中的噪聲和孤立點(diǎn)(諸如對(duì)錯(cuò)誤信息的校正,對(duì)缺考、無(wú)效結(jié)果等進(jìn)行處理),許多分枝反映的是訓(xùn)練數(shù)據(jù)中的異常。這時(shí)用“樹剪枝”的方法來(lái)處理這種過(guò)分適應(yīng)數(shù)據(jù)的問(wèn)題。剪去最不可靠的分枝,這樣將導(dǎo)致較快的分類,從而提高樹獨(dú)立于測(cè)試數(shù)據(jù)正確分類的能力。
在構(gòu)造樹時(shí),測(cè)試屬性的正確選擇可以用于評(píng)估分類的優(yōu)良性。對(duì)于測(cè)試屬性的選擇必須在樹的每個(gè)節(jié)點(diǎn)上使用信息增益(information gain)方式來(lái)進(jìn)行度量。選擇具有最高信息增益的屬性作為當(dāng)前節(jié)點(diǎn)的測(cè)試屬性。
上式是一個(gè)給定樣本分類所需的期望信息。S是s個(gè)數(shù)據(jù)樣本集合,m為類標(biāo)號(hào)屬性具有的不同值。
上式是在A熵分枝將獲得的編碼信息。
根據(jù)公式(1)、(2)、(3),對(duì)每個(gè)屬性都進(jìn)行一次信息增益的計(jì)算。具有最高信息增益的屬性將被選擇作為集合S的測(cè)試屬性。創(chuàng)建一個(gè)節(jié)點(diǎn),并標(biāo)記該屬性,對(duì)其的每個(gè)值再創(chuàng)建分枝,據(jù)此來(lái)劃分樣本。
表1中標(biāo)題欄均屬于訓(xùn)練集的屬性。通過(guò)以上公式計(jì)算每個(gè)屬性的熵,期望信息值及信息增益值。計(jì)算結(jié)果如下:
Gain(年齡)=0.253,Gain(學(xué)歷)=0.022,……Gain(考核等級(jí))=0.168。根據(jù)樹剪枝方法及計(jì)算結(jié)果,得出最高信息增益屬性為“年齡”,依此作為判定樹根節(jié)點(diǎn)的測(cè)試屬性。如圖3所示。
圖3 具有最高信息增益的屬性
以它為標(biāo)記,創(chuàng)建節(jié)點(diǎn),再對(duì)每個(gè)屬性值進(jìn)行分枝劃分。據(jù)此劃分,得出如圖4所示的考核等級(jí)判定樹。
圖4 考核等級(jí)判定樹
2.3 由判定樹提取分類規(guī)則,以IFTHEN的形式進(jìn)行分類規(guī)則表示。對(duì)從根到樹葉的每條路徑都可創(chuàng)建一個(gè)規(guī)則。依照此屬性分類規(guī)則來(lái)構(gòu)造判定樹,以指導(dǎo)參訓(xùn)人員選擇特定訓(xùn)練方案為例,以一門或多門相關(guān)科目的考核成績(jī),如實(shí)操能力的區(qū)別、理論研究能力及專業(yè)理論知識(shí)的區(qū)別等作為分類屬性,通過(guò)對(duì)以往參訓(xùn)人員信息數(shù)據(jù)庫(kù)進(jìn)行分析,得出關(guān)于參訓(xùn)人員成績(jī)優(yōu)劣的規(guī)則。
以下由圖2提取的規(guī)則:
IF年齡=“<=30”AND人員類別=“軍校生”AND實(shí)操能力=“>90”THEN 考核等級(jí)=“優(yōu)”
I F年齡=“>3 0”A N D 學(xué)歷=“碩士”AND 理論研究=“70-90”THEN 考核等級(jí)=“中”
I F年齡=“>3 0”A N D 學(xué)歷=“本科”A N D 均分=“p o o r”THEN 考核等級(jí)=“差”
……
通過(guò)這些規(guī)則的整理和進(jìn)一步分析,可以為不同類型的參訓(xùn)人員選擇、制定不同的訓(xùn)練/培訓(xùn)方案。這樣一來(lái),既可以對(duì)不同類型的參訓(xùn)人員之不足處進(jìn)行及時(shí)有效的改進(jìn),又能夠保證訓(xùn)練素質(zhì)的不斷提高。
數(shù)據(jù)發(fā)掘技術(shù)適合從各種復(fù)雜的數(shù)據(jù)中分析出直觀、明確的規(guī)律,數(shù)據(jù)利用率高,運(yùn)行成本低,預(yù)見(jiàn)性強(qiáng),在各個(gè)領(lǐng)域中有著廣闊的應(yīng)用前景。雖然現(xiàn)在較高程度的應(yīng)用技術(shù)還不多,還處在試驗(yàn)研究階段,但隨著軍隊(duì)信息化的快速建設(shè)與大力推進(jìn),數(shù)據(jù)發(fā)掘技術(shù)將在軍事訓(xùn)練管理和訓(xùn)練/培訓(xùn)教學(xué)改革中發(fā)揮重要的作用。
[1] Jiawei Han, Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù).機(jī)械工業(yè)出版社,2006:3-5;185-196.
[2] Peter Rob Carlos Coronel.數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)、實(shí)現(xiàn)與管理.電子工業(yè)出版社,2004:4-9.
Study on Data Mining Technology Based on the Decision Tree Applying to Military Training Management
At present Data mining is a technology which is widely applied in many fields such as finance, medicine, military and industry and so on. Based on the theory background of Data mining technology, this paper applied the Decision Tree Induce Classification according to the examination scores of military training management to predict the result of military training management and evaluate the effect of management and Analysis to Guide the management methods.
10.3969/j.issn.1001-8972.2012.10.051