摘 要:大數(shù)據(jù)時代已經(jīng)到來,對數(shù)據(jù)的處理越來越受到關(guān)注,人們迫切需要海量數(shù)據(jù)背后的重要信息和知識,發(fā)現(xiàn)數(shù)據(jù)中潛在的聯(lián)系并且發(fā)現(xiàn)可以有效運用的方式,取得對獲取知識有用的信息,然后根據(jù)當(dāng)前的信息對今后的發(fā)展趨勢進(jìn)行預(yù)測。目前最常用的評價方式就是運用C4.5算法,將日常的數(shù)據(jù)有效匯總,然后對客戶的相關(guān)數(shù)據(jù)分析比對,根據(jù)客戶之間不同的特征進(jìn)行不同的改善方式,達(dá)到了提升滿意度的效果。
關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹算法;C4.5算法;信息增益
中圖分類號:TP311.13
隨著信息技術(shù)的快速發(fā)展,同時軟件評測項目也逐漸走進(jìn)了大眾的視野,并獲得了廣泛的認(rèn)可,針對當(dāng)前市場環(huán)境變化風(fēng)云莫測,競爭越來越激烈的情況,如何提升軟件評測滿意度是軟件企業(yè)生存發(fā)展的根本動力。本文就從當(dāng)前客戶對評測不滿意的情況進(jìn)行挖掘,對信息進(jìn)行分析,找出相似點,采取有針對性的措施提高客戶對評測過程的滿意度。
1 數(shù)據(jù)準(zhǔn)備階段
對于準(zhǔn)備階段的工作就是將長期積累下來的大量的數(shù)據(jù)進(jìn)行測量,看是否適合進(jìn)行深入的挖掘,這是對于數(shù)據(jù)挖掘的關(guān)鍵性的一點,由于很多數(shù)據(jù)在長時間的積累下,產(chǎn)生了冗長的、繁瑣的信息,這時就要對數(shù)據(jù)進(jìn)行篩選,然后凈化,最后還要檢查對于數(shù)據(jù)挖掘的工作是否已經(jīng)做充分。
我單位的評測信息庫中,許多信息是有必要采集的,但有些數(shù)據(jù)不必要采集,在如單位名稱、評測價格、評測分類、軟件功能、聯(lián)系人等信息屬性中,對于這些信息就要在其中剔除一些我們不需要的干擾因素,只留下需要的數(shù)據(jù)。(1)屬性刪除。對于單位的評測信息庫中我們不需要的數(shù)據(jù)屬性就要進(jìn)行合理的刪除,因為如果不刪除,就會有一些無用的信息取代合理需要的屬性從而使軟件無法對我們需要提取數(shù)據(jù)的領(lǐng)域進(jìn)行操作,這些屬性通常概念層面較低,比如用戶的電話、傳真等等,就要將其刪除。(2)屬性泛化。屬性泛化的意思就是要對閾值控制的層面進(jìn)行上下的分層。從軟件測試形式看有功能測試、單元測試、性能測試等20多種類型,以測試目的來劃分主要為產(chǎn)品登記測試、鑒定測試、符合性測試、驗收測試等這幾種情況。如果將工作區(qū)域理解為工作的地區(qū)進(jìn)行搜集,工作地區(qū)分為本地區(qū)和與外地,這對于搜尋的準(zhǔn)確性有較大的影響;將工作區(qū)域縮小為市級單位,會因為取值的數(shù)目太多超過了規(guī)定的閾值,所以要將工作地區(qū)刪除。(3)連續(xù)型屬性概化為離散值:表中評測費用和企業(yè)規(guī)模人數(shù)是具有連續(xù)性的,而且在對決策樹進(jìn)行構(gòu)建時,運用分散的數(shù)據(jù)處理起來更加方便,所以對于連續(xù)性的屬性將其概化為離散值,這樣能更方便的運用,將評測費用分為以下六組。FY1<3000,3000≤FY2<5000,5000≤FY3<10000,10000≤FY4<50000,50000≤FY5<200000,200000≤FY6。人數(shù)分為5組:RS1≤100,100 表1 企業(yè)規(guī)模評測費用合同情況評測類別軟件復(fù)雜度報告內(nèi)容報告滿意度 ①不滿意 ②滿意 ③基本滿意 ②滿意 ………………. 2 用C4.5算法構(gòu)建滿意度樹 2.1 決策樹生成。(1)計算滿意度分類所需的總信息熵。設(shè)S為訓(xùn)練集樣本總數(shù),共有m類樣本Ci,(i=1,2,3,……m),Si為類Ci中的樣本數(shù),計算公式為:I(s1,s2,……sm)=-,其中pi是任意樣本屬于Ci的概率,可用Si/S來估計。在這個例子中,將滿意度分為三個類別,滿意,基本滿意和不滿意,且m=3。(2)計算每個屬性的信息熵。設(shè)屬性X具有u個值﹛X1,X2,……,Xu﹜,它將S分成u個集﹛S1,S2,……Su﹜,其中Sj包含S中這樣的一些樣本,它們在屬性X上具有值Xj(j=1,2,…u)。以屬性X為分類所需的期望熵(條件熵)是:,其中Sij是子集Sj中屬于類Ci的樣本數(shù),,是Sj中的樣本屬于Ci類的概率。(3)計算該屬性的信息增益和信息增益率。屬性X的信息增益函數(shù)為:Gain(X)=I(S1,K,Sm)-E(X)。信息增益函數(shù)對于那些產(chǎn)生多分枝的測試傾向于生產(chǎn)大的函數(shù)值,但是輸出分枝多,并不表示該測試對未知的對象具有更好的預(yù)測效果。使用“信息增益率函數(shù)”,它同時考慮了每一次劃分所產(chǎn)生的子結(jié)點的個數(shù)和每個子結(jié)點的大?。ò臄?shù)據(jù)實例的個數(shù)),考慮的對象主要是一個個地劃分,而不再考慮分類所蘊涵的信息量,屬性X的信息增益函數(shù)為:,其中u為該節(jié)點的分枝數(shù),Si為第i個分枝下的記錄個數(shù)。(4)歸納決策樹。依次計算每個屬性的信息增益Gain(X)以及信息增益率A(X),選取信息增益率最大的,以該客戶類別標(biāo)記該樹葉。如此類推,直到子集中的數(shù)據(jù)記錄在主屬性上取值都相同,或沒有屬性可再供劃分使用,遞歸地形成初始決策樹。 2.2 決策樹剪枝。對于構(gòu)建滿意度樹剪枝的方式,要在得到數(shù)據(jù)后對數(shù)據(jù)的可利用情況進(jìn)行詳細(xì)的分析,對于異常的數(shù)據(jù)要予以剔除,因為他們可以引起滿意度數(shù)異常的情況,通常剪枝方式可以運用后剪枝的方式,對于可能產(chǎn)生的滿意度運用最差滿意度估計的方式彌補(bǔ)偏差,信息決策樹上的分枝上如果出現(xiàn)在估計范圍內(nèi)的錯誤,就要對每個分支的權(quán)重進(jìn)行分析,計算對于不能剪枝的期望錯誤率,因為如果因為剪枝導(dǎo)致了該節(jié)點產(chǎn)生了更高的錯誤率超過了期望值,那么就必須對分枝進(jìn)行保留,如果影響不大,那么就可以剪去子樹。 2.3 模式評估與應(yīng)用。對于決策樹模式的評估運用一般是根據(jù)分析數(shù)據(jù)的執(zhí)行結(jié)果來確定的,要選擇影響滿意度的決策樹,將對我們有用的數(shù)據(jù)進(jìn)行提取和分析。對決策樹的評估方法有保持方法和K-折交叉確認(rèn)方法等。結(jié)果的可靠性更高,也更加精確。 通過決策樹,可以看到企業(yè)規(guī)模越大(RS4、RS5),由于軟件的復(fù)雜度高,更傾向于做軟件的代碼測試、可靠性測試和一些新技術(shù)的測試,導(dǎo)致我們滿意度下降的主要因素是報告的質(zhì)量;企業(yè)規(guī)模一般和?。≧S3),由于企業(yè)正加速轉(zhuǎn)型升級,系統(tǒng)性的產(chǎn)品剛剛形成,市場不夠穩(wěn)定,報告類別多變,因此類別往往導(dǎo)致滿意度下降;企業(yè)規(guī)模?。≧S2),有一定的技術(shù)水平,但資金缺乏,費用往往導(dǎo)致滿意度的下降;企業(yè)規(guī)模微?。≧S1),企業(yè)管理比較混亂,往往是突發(fā)性的趕報告,合同周期往往導(dǎo)致我們滿意度下降。 3 結(jié)束語 客戶滿意度是評測機(jī)構(gòu)的生命線,較高的客戶滿意度是電子產(chǎn)品發(fā)展致勝的發(fā)包,對于評測機(jī)構(gòu)來說也是發(fā)展中提升競爭力的重要方面,在C4.5算法對軟件評測滿意度的分析中可以看出,將決策樹運用到日常數(shù)據(jù)分析十分可行,也是對數(shù)據(jù)深入挖掘的常用工具,而且可以轉(zhuǎn)化為直觀的圖像讓使用者更加明確信息,當(dāng)前將決策樹技術(shù)引用到滿意度的分析中去,我們改進(jìn)服務(wù)意識,提高管理水平,增強(qiáng)專業(yè)知識。 參考文獻(xiàn): [1]陶雙紅,常炳國.一種改進(jìn)的C4.5算法及在貧困生認(rèn)定中的應(yīng)用[J].計算機(jī)光盤軟件與應(yīng)用,2013(02). [2]王蓉,李偉.數(shù)字圖像處理課程教學(xué)輔助軟件的設(shè)計與實現(xiàn)[J].計算機(jī)光盤軟件與應(yīng)用,2013(09). 作者單位:浙江省電子信息產(chǎn)品檢驗所 軟件評測實驗室,杭州 310007