鄭 潔
(貴陽(yáng)職業(yè)技術(shù)學(xué)院,貴州 貴陽(yáng) 550081)
近年來(lái),數(shù)據(jù)挖掘技術(shù)得到了蓬勃的發(fā)展,人們能夠從海量的數(shù)據(jù)信息中提取或“挖掘”出有用的知識(shí),這些知識(shí)可提供給相關(guān)領(lǐng)域使用,因此,將數(shù)據(jù)挖掘技術(shù)看作是信息技術(shù)自然演化的結(jié)果[1]。在現(xiàn)實(shí)生活中,我們面臨著各種各樣的數(shù)據(jù)問(wèn)題,通常,我們將數(shù)據(jù)預(yù)處理作為進(jìn)行數(shù)據(jù)挖掘的一個(gè)前期工作。缺失數(shù)據(jù)的處理問(wèn)題作為數(shù)據(jù)預(yù)處理領(lǐng)域的一個(gè)研究熱點(diǎn)[2],為了能夠更加充分地利用已經(jīng)搜集到的數(shù)據(jù),對(duì)缺失數(shù)據(jù)的處理是非常必要的。
Relief算法以類內(nèi)和類間的距離作為基礎(chǔ)來(lái)評(píng)判該特征屬性的重要性,作為一種重要的機(jī)器學(xué)習(xí)方法,廣泛應(yīng)用于數(shù)據(jù)的特征選擇、分類等方面[3],本文的研究工作是在基于Relief算法的思想上來(lái)求解屬性特征權(quán)值。
對(duì)于一個(gè)含有決策屬性的數(shù)據(jù)集,假設(shè)x是數(shù)據(jù)集合中的任一個(gè)樣本,如果x'是與同類距離最近的樣本,y是與x異類距離最近的樣本,考慮x與x',y的距離在各個(gè)特征上的投影,記為pin(a,x,x')與pout(a,x,y),其中a是屬性特征集合中的一個(gè)特征。對(duì)于連續(xù)型的數(shù)值變量,Relief算法給出了計(jì)算特征權(quán)值的規(guī)則:
其中:pin(a, x, x ')=| x -x′|, pout(a, x, y) =|x -y|,初始化特征權(quán)值wk= 1/m;對(duì)于數(shù)據(jù)集中每一個(gè)樣本數(shù)據(jù)按照公式(1)更新每一維屬性權(quán)值,即可輸出屬性集的特征權(quán)值
在殼近鄰計(jì)算方法(Shell Neighbors Imputation,SNI)中[4],我們把每一個(gè)選擇出來(lái)的左、右近鄰對(duì)數(shù)據(jù)修復(fù)的結(jié)果影響程度看作是相同的,但實(shí)際上,由于每一維屬性的重要程度是不同的,因此,我們將特征權(quán)值引入數(shù)據(jù)填充計(jì)算,采取如下公式:
為了說(shuō)明本文提出的修復(fù)方法的有效性,我們引入一個(gè)衡量預(yù)測(cè)準(zhǔn)備率的參數(shù):均方根誤差(Root Mean Square Error,RMSE),它的定義如下:
其中:ei是原來(lái)的屬性值,是填充值,n是數(shù)據(jù)集中缺失值的個(gè)數(shù),對(duì)數(shù)據(jù)進(jìn)行填充后,通過(guò)計(jì)算得出RMSE的值可以驗(yàn)證數(shù)據(jù)的修復(fù)效果,RMSE的值越大,表示預(yù)測(cè)準(zhǔn)確率就越低,即數(shù)據(jù)的修復(fù)效果越不好,相反則說(shuō)明修復(fù)效果越好。
本章的實(shí)驗(yàn)數(shù)據(jù)來(lái)源是UCI標(biāo)準(zhǔn)數(shù)據(jù)集[5]中的兩個(gè)真實(shí)數(shù)據(jù)集,為了測(cè)試預(yù)測(cè)的準(zhǔn)確率,我們選擇完整的數(shù)據(jù)集,每次隨機(jī)地將其中部分的數(shù)據(jù)設(shè)為缺失,對(duì)其進(jìn)行填充后,再與原本的值一起計(jì)算RMSE的值來(lái)比較修復(fù)效果。每一個(gè)數(shù)據(jù)集上進(jìn)行500次實(shí)驗(yàn),表1是實(shí)驗(yàn)數(shù)據(jù)集的基本信息。
表1 數(shù)據(jù)集基本信息
將本文提出的修復(fù)方法與殼近鄰計(jì)算方法分別在表1描述的兩個(gè)真實(shí)的UCI數(shù)據(jù)集上進(jìn)行模擬實(shí)驗(yàn),結(jié)果如圖1—2所示。
根據(jù)上述實(shí)驗(yàn)結(jié)果,我們可以得到以下結(jié)論:
(1)隨著數(shù)據(jù)集中數(shù)據(jù)缺失程度不斷提高,兩種填充算法計(jì)算所得的RMSE的值會(huì)逐漸增大,即數(shù)據(jù)填充準(zhǔn)確率隨著數(shù)據(jù)缺失率的增加會(huì)逐漸降低。尤其是當(dāng)數(shù)據(jù)缺失率超過(guò)20%以后,兩種算法數(shù)據(jù)修復(fù)的準(zhǔn)確率明顯下降。
圖1 Iris數(shù)據(jù)集上的填充效果對(duì)比
圖2 Pen-Based數(shù)據(jù)集上的效果對(duì)比
(2)在大數(shù)據(jù)集Pen-Based的RMSE值明顯小于小數(shù)據(jù)集Iris的RMSE值,也就是說(shuō),我們可以認(rèn)為在數(shù)據(jù)缺失率相同的情況下,數(shù)據(jù)集越大,計(jì)算過(guò)程中可以利用的已知信息會(huì)越多,由此可能會(huì)使得缺失數(shù)據(jù)的修復(fù)準(zhǔn)確率更高。
(3)在兩個(gè)數(shù)據(jù)集上,本文提出的方法對(duì)缺失數(shù)據(jù)修復(fù)的效果都優(yōu)于SNI,由此我們可知:如果對(duì)屬性的特征權(quán)值計(jì)算合理,將其引入數(shù)據(jù)填充計(jì)算中,可以提升數(shù)據(jù)修復(fù)的效果。