亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征權(quán)值的缺失數(shù)據(jù)修復(fù)方法

        2018-12-27 11:35:58
        無線互聯(lián)科技 2018年20期
        關(guān)鍵詞:數(shù)據(jù)挖掘特征效果

        鄭 潔

        (貴陽職業(yè)技術(shù)學(xué)院,貴州 貴陽 550081)

        近年來,數(shù)據(jù)挖掘技術(shù)得到了蓬勃的發(fā)展,人們能夠從海量的數(shù)據(jù)信息中提取或“挖掘”出有用的知識(shí),這些知識(shí)可提供給相關(guān)領(lǐng)域使用,因此,將數(shù)據(jù)挖掘技術(shù)看作是信息技術(shù)自然演化的結(jié)果[1]。在現(xiàn)實(shí)生活中,我們面臨著各種各樣的數(shù)據(jù)問題,通常,我們將數(shù)據(jù)預(yù)處理作為進(jìn)行數(shù)據(jù)挖掘的一個(gè)前期工作。缺失數(shù)據(jù)的處理問題作為數(shù)據(jù)預(yù)處理領(lǐng)域的一個(gè)研究熱點(diǎn)[2],為了能夠更加充分地利用已經(jīng)搜集到的數(shù)據(jù),對缺失數(shù)據(jù)的處理是非常必要的。

        1 特征權(quán)值計(jì)算

        Relief算法以類內(nèi)和類間的距離作為基礎(chǔ)來評判該特征屬性的重要性,作為一種重要的機(jī)器學(xué)習(xí)方法,廣泛應(yīng)用于數(shù)據(jù)的特征選擇、分類等方面[3],本文的研究工作是在基于Relief算法的思想上來求解屬性特征權(quán)值。

        對于一個(gè)含有決策屬性的數(shù)據(jù)集,假設(shè)x是數(shù)據(jù)集合中的任一個(gè)樣本,如果x'是與同類距離最近的樣本,y是與x異類距離最近的樣本,考慮x與x',y的距離在各個(gè)特征上的投影,記為pin(a,x,x')與pout(a,x,y),其中a是屬性特征集合中的一個(gè)特征。對于連續(xù)型的數(shù)值變量,Relief算法給出了計(jì)算特征權(quán)值的規(guī)則:

        其中:pin(a, x, x ')=| x -x′|, pout(a, x, y) =|x -y|,初始化特征權(quán)值wk= 1/m;對于數(shù)據(jù)集中每一個(gè)樣本數(shù)據(jù)按照公式(1)更新每一維屬性權(quán)值,即可輸出屬性集的特征權(quán)值

        2 基于屬性權(quán)值的數(shù)據(jù)修復(fù)

        在殼近鄰計(jì)算方法(Shell Neighbors Imputation,SNI)中[4],我們把每一個(gè)選擇出來的左、右近鄰對數(shù)據(jù)修復(fù)的結(jié)果影響程度看作是相同的,但實(shí)際上,由于每一維屬性的重要程度是不同的,因此,我們將特征權(quán)值引入數(shù)據(jù)填充計(jì)算,采取如下公式:

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 預(yù)測準(zhǔn)確率和數(shù)據(jù)缺失率

        為了說明本文提出的修復(fù)方法的有效性,我們引入一個(gè)衡量預(yù)測準(zhǔn)備率的參數(shù):均方根誤差(Root Mean Square Error,RMSE),它的定義如下:

        其中:ei是原來的屬性值,是填充值,n是數(shù)據(jù)集中缺失值的個(gè)數(shù),對數(shù)據(jù)進(jìn)行填充后,通過計(jì)算得出RMSE的值可以驗(yàn)證數(shù)據(jù)的修復(fù)效果,RMSE的值越大,表示預(yù)測準(zhǔn)確率就越低,即數(shù)據(jù)的修復(fù)效果越不好,相反則說明修復(fù)效果越好。

        3.2 實(shí)驗(yàn)方法與數(shù)據(jù)集

        本章的實(shí)驗(yàn)數(shù)據(jù)來源是UCI標(biāo)準(zhǔn)數(shù)據(jù)集[5]中的兩個(gè)真實(shí)數(shù)據(jù)集,為了測試預(yù)測的準(zhǔn)確率,我們選擇完整的數(shù)據(jù)集,每次隨機(jī)地將其中部分的數(shù)據(jù)設(shè)為缺失,對其進(jìn)行填充后,再與原本的值一起計(jì)算RMSE的值來比較修復(fù)效果。每一個(gè)數(shù)據(jù)集上進(jìn)行500次實(shí)驗(yàn),表1是實(shí)驗(yàn)數(shù)據(jù)集的基本信息。

        表1 數(shù)據(jù)集基本信息

        3.3 實(shí)驗(yàn)結(jié)果與分析

        將本文提出的修復(fù)方法與殼近鄰計(jì)算方法分別在表1描述的兩個(gè)真實(shí)的UCI數(shù)據(jù)集上進(jìn)行模擬實(shí)驗(yàn),結(jié)果如圖1—2所示。

        根據(jù)上述實(shí)驗(yàn)結(jié)果,我們可以得到以下結(jié)論:

        (1)隨著數(shù)據(jù)集中數(shù)據(jù)缺失程度不斷提高,兩種填充算法計(jì)算所得的RMSE的值會(huì)逐漸增大,即數(shù)據(jù)填充準(zhǔn)確率隨著數(shù)據(jù)缺失率的增加會(huì)逐漸降低。尤其是當(dāng)數(shù)據(jù)缺失率超過20%以后,兩種算法數(shù)據(jù)修復(fù)的準(zhǔn)確率明顯下降。

        圖1 Iris數(shù)據(jù)集上的填充效果對比

        圖2 Pen-Based數(shù)據(jù)集上的效果對比

        (2)在大數(shù)據(jù)集Pen-Based的RMSE值明顯小于小數(shù)據(jù)集Iris的RMSE值,也就是說,我們可以認(rèn)為在數(shù)據(jù)缺失率相同的情況下,數(shù)據(jù)集越大,計(jì)算過程中可以利用的已知信息會(huì)越多,由此可能會(huì)使得缺失數(shù)據(jù)的修復(fù)準(zhǔn)確率更高。

        (3)在兩個(gè)數(shù)據(jù)集上,本文提出的方法對缺失數(shù)據(jù)修復(fù)的效果都優(yōu)于SNI,由此我們可知:如果對屬性的特征權(quán)值計(jì)算合理,將其引入數(shù)據(jù)填充計(jì)算中,可以提升數(shù)據(jù)修復(fù)的效果。

        猜你喜歡
        數(shù)據(jù)挖掘特征效果
        按摩效果確有理論依據(jù)
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        迅速制造慢門虛化效果
        抓住“瞬間性”效果
        中華詩詞(2018年11期)2018-03-26 06:41:34
        抓住特征巧觀察
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        模擬百種唇妝效果
        Coco薇(2016年8期)2016-10-09 02:11:50
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        国内偷拍精品一区二区| 蜜臀av免费一区二区三区| 久久狠狠第一麻豆婷婷天天| 国产精品毛片99久久久久| 快射视频网站在线观看| 国产精品免费一区二区三区四区 | 日日澡夜夜澡人人高潮| 中文字幕在线日韩| 国产一级av理论手机在线| 国产av天堂亚洲av刚刚碰| 人妻少妇乱子伦精品无码专区电影| 激情内射亚洲一区二区三区爱妻 | 人妻 日韩 欧美 综合 制服| 成年女人永久免费看片| 久久国产av在线观看| 日韩一区二区三区熟女| 少妇愉情理伦片| 人人妻人人澡av天堂香蕉| 40分钟永久免费又黄又粗| av手机免费在线观看高潮| aⅴ精品无码无卡在线观看| 亚洲图区欧美| 亚洲av天堂久久精品| 亚洲第一幕一区二区三区在线观看| 亚洲精品国产suv一区88| 精品国内自产拍在线视频| 日本二区三区视频在线观看| 久久久国产精品| 人人妻人人澡人人爽欧美二区| 青青国产成人久久91| 午夜一区二区三区免费观看| 欧美成人秋霞久久aa片| 久久棈精品久久久久久噜噜| 青青青国产免A在线观看| 男奸女永久免费视频网站| 日韩视频中文字幕精品偷拍| 真实国产乱视频国语| 亚洲一区二区三区天堂av| 亚洲欧美日韩综合一区二区| 无码人妻精品一区二区三18禁| 久久无码中文字幕东京热|