亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征權(quán)值的缺失數(shù)據(jù)修復(fù)方法

        2018-12-27 11:35:58
        無(wú)線互聯(lián)科技 2018年20期
        關(guān)鍵詞:集上權(quán)值數(shù)據(jù)挖掘

        鄭 潔

        (貴陽(yáng)職業(yè)技術(shù)學(xué)院,貴州 貴陽(yáng) 550081)

        近年來(lái),數(shù)據(jù)挖掘技術(shù)得到了蓬勃的發(fā)展,人們能夠從海量的數(shù)據(jù)信息中提取或“挖掘”出有用的知識(shí),這些知識(shí)可提供給相關(guān)領(lǐng)域使用,因此,將數(shù)據(jù)挖掘技術(shù)看作是信息技術(shù)自然演化的結(jié)果[1]。在現(xiàn)實(shí)生活中,我們面臨著各種各樣的數(shù)據(jù)問(wèn)題,通常,我們將數(shù)據(jù)預(yù)處理作為進(jìn)行數(shù)據(jù)挖掘的一個(gè)前期工作。缺失數(shù)據(jù)的處理問(wèn)題作為數(shù)據(jù)預(yù)處理領(lǐng)域的一個(gè)研究熱點(diǎn)[2],為了能夠更加充分地利用已經(jīng)搜集到的數(shù)據(jù),對(duì)缺失數(shù)據(jù)的處理是非常必要的。

        1 特征權(quán)值計(jì)算

        Relief算法以類內(nèi)和類間的距離作為基礎(chǔ)來(lái)評(píng)判該特征屬性的重要性,作為一種重要的機(jī)器學(xué)習(xí)方法,廣泛應(yīng)用于數(shù)據(jù)的特征選擇、分類等方面[3],本文的研究工作是在基于Relief算法的思想上來(lái)求解屬性特征權(quán)值。

        對(duì)于一個(gè)含有決策屬性的數(shù)據(jù)集,假設(shè)x是數(shù)據(jù)集合中的任一個(gè)樣本,如果x'是與同類距離最近的樣本,y是與x異類距離最近的樣本,考慮x與x',y的距離在各個(gè)特征上的投影,記為pin(a,x,x')與pout(a,x,y),其中a是屬性特征集合中的一個(gè)特征。對(duì)于連續(xù)型的數(shù)值變量,Relief算法給出了計(jì)算特征權(quán)值的規(guī)則:

        其中:pin(a, x, x ')=| x -x′|, pout(a, x, y) =|x -y|,初始化特征權(quán)值wk= 1/m;對(duì)于數(shù)據(jù)集中每一個(gè)樣本數(shù)據(jù)按照公式(1)更新每一維屬性權(quán)值,即可輸出屬性集的特征權(quán)值

        2 基于屬性權(quán)值的數(shù)據(jù)修復(fù)

        在殼近鄰計(jì)算方法(Shell Neighbors Imputation,SNI)中[4],我們把每一個(gè)選擇出來(lái)的左、右近鄰對(duì)數(shù)據(jù)修復(fù)的結(jié)果影響程度看作是相同的,但實(shí)際上,由于每一維屬性的重要程度是不同的,因此,我們將特征權(quán)值引入數(shù)據(jù)填充計(jì)算,采取如下公式:

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 預(yù)測(cè)準(zhǔn)確率和數(shù)據(jù)缺失率

        為了說(shuō)明本文提出的修復(fù)方法的有效性,我們引入一個(gè)衡量預(yù)測(cè)準(zhǔn)備率的參數(shù):均方根誤差(Root Mean Square Error,RMSE),它的定義如下:

        其中:ei是原來(lái)的屬性值,是填充值,n是數(shù)據(jù)集中缺失值的個(gè)數(shù),對(duì)數(shù)據(jù)進(jìn)行填充后,通過(guò)計(jì)算得出RMSE的值可以驗(yàn)證數(shù)據(jù)的修復(fù)效果,RMSE的值越大,表示預(yù)測(cè)準(zhǔn)確率就越低,即數(shù)據(jù)的修復(fù)效果越不好,相反則說(shuō)明修復(fù)效果越好。

        3.2 實(shí)驗(yàn)方法與數(shù)據(jù)集

        本章的實(shí)驗(yàn)數(shù)據(jù)來(lái)源是UCI標(biāo)準(zhǔn)數(shù)據(jù)集[5]中的兩個(gè)真實(shí)數(shù)據(jù)集,為了測(cè)試預(yù)測(cè)的準(zhǔn)確率,我們選擇完整的數(shù)據(jù)集,每次隨機(jī)地將其中部分的數(shù)據(jù)設(shè)為缺失,對(duì)其進(jìn)行填充后,再與原本的值一起計(jì)算RMSE的值來(lái)比較修復(fù)效果。每一個(gè)數(shù)據(jù)集上進(jìn)行500次實(shí)驗(yàn),表1是實(shí)驗(yàn)數(shù)據(jù)集的基本信息。

        表1 數(shù)據(jù)集基本信息

        3.3 實(shí)驗(yàn)結(jié)果與分析

        將本文提出的修復(fù)方法與殼近鄰計(jì)算方法分別在表1描述的兩個(gè)真實(shí)的UCI數(shù)據(jù)集上進(jìn)行模擬實(shí)驗(yàn),結(jié)果如圖1—2所示。

        根據(jù)上述實(shí)驗(yàn)結(jié)果,我們可以得到以下結(jié)論:

        (1)隨著數(shù)據(jù)集中數(shù)據(jù)缺失程度不斷提高,兩種填充算法計(jì)算所得的RMSE的值會(huì)逐漸增大,即數(shù)據(jù)填充準(zhǔn)確率隨著數(shù)據(jù)缺失率的增加會(huì)逐漸降低。尤其是當(dāng)數(shù)據(jù)缺失率超過(guò)20%以后,兩種算法數(shù)據(jù)修復(fù)的準(zhǔn)確率明顯下降。

        圖1 Iris數(shù)據(jù)集上的填充效果對(duì)比

        圖2 Pen-Based數(shù)據(jù)集上的效果對(duì)比

        (2)在大數(shù)據(jù)集Pen-Based的RMSE值明顯小于小數(shù)據(jù)集Iris的RMSE值,也就是說(shuō),我們可以認(rèn)為在數(shù)據(jù)缺失率相同的情況下,數(shù)據(jù)集越大,計(jì)算過(guò)程中可以利用的已知信息會(huì)越多,由此可能會(huì)使得缺失數(shù)據(jù)的修復(fù)準(zhǔn)確率更高。

        (3)在兩個(gè)數(shù)據(jù)集上,本文提出的方法對(duì)缺失數(shù)據(jù)修復(fù)的效果都優(yōu)于SNI,由此我們可知:如果對(duì)屬性的特征權(quán)值計(jì)算合理,將其引入數(shù)據(jù)填充計(jì)算中,可以提升數(shù)據(jù)修復(fù)的效果。

        猜你喜歡
        集上權(quán)值數(shù)據(jù)挖掘
        一種融合時(shí)間權(quán)值和用戶行為序列的電影推薦模型
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        CONTENTS
        Cookie-Cutter集上的Gibbs測(cè)度
        鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
        復(fù)扇形指標(biāo)集上的分布混沌
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于權(quán)值動(dòng)量的RBM加速學(xué)習(xí)算法研究
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        日本一区二区三区视频国产| 99精品欧美一区二区三区美图| 国产亚洲av手机在线观看| 开心五月骚婷婷综合网| 国产成人精品2021| 久久精品国产自清天天线| 2017天天爽夜夜爽精品视频| 97成人精品在线视频| 国产精品久免费的黄网站 | 成人免费丝袜美腿视频| 精品国产一区二区三区香| 色五月丁香五月综合五月| 国产精品午睡沙发系列| 亚洲啊啊啊一区二区三区 | 日本精品熟妇一区二区三区| 精品国产精品久久一区免费式 | 在线精品亚洲一区二区动态图| 亚洲欧美成人一区二区在线电影 | 亚洲精品乱码久久久久久麻豆不卡| 经典亚洲一区二区三区| 亚洲成av人片在线观看| 女性女同性aⅴ免费观女性恋| 亚洲欧美日韩精品久久亚洲区色播| 精品婷婷国产综合久久| 亚洲精品国产精品国自产| 精品国产午夜福利在线观看| 亚洲国产av自拍精选| 手机在线观看免费av网站| a级毛片高清免费视频就| 精品国产品欧美日产在线| 国产自拍视频免费在线观看| 国产又爽又大又黄a片| 国产精品日韩高清在线蜜芽| 都市激情亚洲综合一区| 男吃奶玩乳尖高潮视频| а√天堂资源8在线官网在线 | 挺进邻居丰满少妇的身体| 亚洲日韩乱码中文无码蜜桃臀 | 精品黑人一区二区三区久久hd | av资源在线看免费观看| 青青草手机视频免费在线播放|