亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于內(nèi)核的低秩逼近算法的改進

        2013-08-21 02:41:58
        關(guān)鍵詞:參數(shù)設置概率分布定理

        高 超

        (哈爾濱工程大學信息與通信工程學院,哈爾濱150001)

        分析、提取和處理數(shù)據(jù)集的幾何結(jié)構(gòu)在數(shù)據(jù)挖掘中占有重要的地位[1].多數(shù)情況下,數(shù)據(jù)集(如文本數(shù)據(jù)集)的結(jié)構(gòu)是非線性的,或者數(shù)據(jù)集的運算可能不具有線性運算的特點.此時,非線性特征更能反映數(shù)據(jù)集的特性[2].低秩逼近技術(shù)是解決非線性模式分析問題的有效途徑之一.文獻[3]提出了一種較有代表性的方法,基于低秩逼近技術(shù)的內(nèi)核算法(KBLA).它從原數(shù)據(jù)矩陣中非均勻地抽取一個小的樣本矩陣,再用與原數(shù)據(jù)矩陣相關(guān)的概率分布函數(shù)處理該樣本矩陣,接下來構(gòu)建一個可用于逼近原數(shù)據(jù)矩陣的秩為k的小塊矩陣,最后用此小塊矩陣逼近原數(shù)據(jù)矩陣.

        雖然該算法在一定程度上可以較好的逼近原數(shù)據(jù)矩陣,但是該算法的逼近精度還有待提高.本文通過對原始矩陣的每一列賦予一個概率,并抽取概率最大的前c列構(gòu)成樣本矩陣,接下來用此樣本矩陣生成小塊逼近矩陣,以提高逼近精度.

        1 改進的基于內(nèi)核的低秩逼近算法

        定義1 假設W∈?n×n是對稱半正定矩陣,W(i)表示矩陣W的第i列,與W的列相關(guān)的概率分布函數(shù) pi用下式表示,

        定義2 權(quán)值矩陣D:D∈?c×c,是一個對角矩陣,對角線上的元素服從與矩陣列相關(guān)的非均勻分布,且其值依次遞減,

        其中:pt表示在第t次獨立隨機試驗中第 t次的概率.

        定義3 采樣矩陣S:S∈?c×c,是一個由數(shù)字0和1組成的矩陣,且它的每列只有一個元素是1,其余元素是0.它的前c行也具有相同的特征.后n-c行構(gòu)成全零矩陣.在對矩陣A的列向量進行c次獨立隨機抽樣試驗時,如果在第j次抽樣試驗中,

        記,n×c矩陣C=WSD為經(jīng)過賦權(quán)值后的,從矩陣W中按非均勻概率分布函數(shù)抽取的列向量構(gòu)成的矩陣.再記,c×c方陣=(SD)TWSD為經(jīng)過賦權(quán)值后的,從矩陣W中抽取的列標簽和行標簽相交的元素構(gòu)成的矩陣.

        具體的算法實現(xiàn)步驟如下.

        輸入:數(shù)據(jù) A∈?n×p,采樣點數(shù) c,尺度因子 t.

        1)根據(jù)數(shù)據(jù)集A建立相似度矩陣W;

        2)分別利用式(1),(2)和(3)計算概率分布函數(shù)pi、對角矩陣D和抽樣矩陣S;

        2 誤差分析

        定理1[4](標準 Nystr?m 方法)在上述假設條件下,對任意的c,δ>0,以下不等式成立的概率至少是1-δ,

        定理2[3](KBLA)在上述假設條件下,如果存在概率分布函數(shù)pi,使得

        那么,當 c≥64kη2/ε4,η =1+(8log(1/δ))1/2,時,對任意的ε>0,不等式以至少1-δ的概率成立,

        IKBLA算法的逼近誤差的上界與KBLA的相同,其推導過程與定理2的相同,在此,不再給出(參見文獻[3]的定理3).從上述2個定理可知,基于低秩逼近技術(shù)的KBLA和IKBLA算法的逼近誤差的上界比標準Nystr?m方法的逼近誤差的上界小得多.

        3 實驗設計與結(jié)果分析

        為了驗證IKBLA的有效性,本文將之與三種逼近算法進行了比較.在UCI數(shù)據(jù)庫中部分數(shù)據(jù)集上的實驗結(jié)果驗證了算法的有效性.

        實驗環(huán)境:硬件環(huán)境,CPU Intel Core 2 Quad Q6600 2.4G,Internal memory 4G,Hard disk Hitachi HDP 725050GLA360 500G.軟件環(huán)境,Windows 2003+Matlab2007b.

        3.1 實驗數(shù)據(jù)集描述

        在表1的描述中,Sonar,H.S,L.D,L.M,P.I.D,C.M.C,I.S,W.D.G 分別是如下數(shù)據(jù)集的縮 寫,ConnectionistBench (Sonar, Minesvs.Rocks),Haberman’s Survival,Liver Disorders,Libras Movement,Pima Indians Diabetes,Contraceptive Method Choice,Image Segmentation,Waveform Database Generator(Version 1).

        表1 實驗數(shù)據(jù)集描述

        3.2 實驗方法的參數(shù)設置及評價指標

        以下是實驗中用到的幾種方法及其參數(shù)設置.

        利用Nystr?m方法的譜聚類(NS):是文獻[5]提出的方法.只執(zhí)行NS的逼近程序不執(zhí)行聚類程序.高斯核的尺度因子 t為0.5,采樣點數(shù) c為50個.

        基于Nystr?m的核方法(NBKM):是文獻[6-7]提出的逼近方法.采用服從均勻分布的概率分布函數(shù)計算矩陣D.參數(shù)設置同上.

        KBLA:是文獻[3]提出的逼近算法.與NBKM算法的惟一區(qū)別是采用式(7)計算矩陣D.參數(shù)設置同上.

        IKBLA:本文提出的算法.與KBLA算法的區(qū)別是IKBLA采用式(1)和(2)計算矩陣D.參數(shù)設置同上.

        誤差E的計算方法為,

        3.3 實驗結(jié)果與分析

        本文將上述四種算法在表1描述的數(shù)據(jù)集上進行了測試.所得的逼近誤差E如表2所示.每次實驗產(chǎn)生的最小逼近誤差E用“粗體+下劃線”標出.

        表2 四種算法的逼近誤差E

        表2指出,NS的逼近誤差最大,其值大致分布在104~106之間.這一點與定理1的結(jié)論吻合.IKBLA,NBKM和KBLA的逼近誤差均比NS的小得多,值大致分布在102~103之間.這表明在用小塊采樣矩陣恢復大塊原數(shù)據(jù)矩陣的過程中,不宜用基于Nystr?m采樣技術(shù)的 NS.比較 KBLA和 NBKM的逼近誤差.數(shù)據(jù)顯示兩者的逼近誤差不相上下.這說明在聲吶、圖像和波浪等數(shù)據(jù)集上,與原數(shù)據(jù)矩陣所有列向量相關(guān)的,在數(shù)值上無規(guī)律可循的,服從非均勻分布的,概率分布函數(shù)的引入幾乎沒有改善低秩逼近算法的性能.再分別比較IKBLA和NBKM,IKBLA和KBLA的逼近誤差.可以看到IKBLA取得了最低的逼近誤差.這是因為所選的c個代表點與剩余點間的關(guān)系更密切,更能反映數(shù)據(jù)集的特性.也表明同樣是服從非均勻分布的,但在數(shù)值上呈現(xiàn)遞減規(guī)律的,概率分布函數(shù)的引入在一定程度上改善了低秩逼近算法的性能.綜上所述,IKBLA可以被有效地應用于UCI中部分數(shù)據(jù)集的逼近中.

        4 結(jié)語

        針對KBLA的逼近精度還有待提高的問題,本文提出了一種改進的低秩逼近算法.用在數(shù)值上呈遞減規(guī)律的,非均勻概率分布函數(shù)取代在數(shù)值上無規(guī)律可循的非均勻概率分布函數(shù),使低秩逼近技術(shù)的逼近精度進一步的提高.算法在UCI數(shù)據(jù)庫中部分數(shù)據(jù)集上取得的實驗結(jié)果驗證了它的有效性.

        [1]TAN P N,STEINBACH M,KUMAR V.Introduction to Data Mining[M].USA:Addison Wesley,2005.

        [2]史衛(wèi)亞.大規(guī)模數(shù)據(jù)集下核方法的技術(shù)研究[D].上海:復旦大學,2008:5-9.

        [3]DRINEAS P,MAHONEY M W.On the nystr?m method for approximating a gram matrix for improved kernel-based learning[J].Journal of Machine Learning Research,2005,6:2153-2175.

        [4]KUMAR S,MOHRI M,TALWALKAR A.Ensemble nystr?m method[C]//23rd Conference on Neural Information Processing Systems,Vancouver,BC,Canada:The MIT Press,2009,1060-1068.

        [5]FOWLKES C,BELONGIE S,F(xiàn)AN C,et al.Spectral grouping using the nystr?m method[J].IEEE Trans.Pattern Anal.Mach.Intell.,2004,26(2):214-225.

        [6]WILLIAMS C,SEEGER M.Using the nystr?m method to speed up kernel machines[C]//Proceedings of the 2000 Conference on Advances in Neural Information Processing Systems,Chicago,USA:The MIT Press,2001:682-688.

        [7]李萬臣,高毓亮,齊 歡.基于LIE-QC結(jié)構(gòu)的速率兼容LDPC碼優(yōu)化構(gòu)造方法[J].哈爾濱商業(yè)大學學報:自然科學版,2012,28(5):546-550.

        猜你喜歡
        參數(shù)設置概率分布定理
        J. Liouville定理
        離散型概率分布的ORB圖像特征點誤匹配剔除算法
        A Study on English listening status of students in vocational school
        “三共定理”及其應用(上)
        關(guān)于概率分布函數(shù)定義的辨析
        科技視界(2016年19期)2017-05-18 10:18:46
        基于概率分布的PPP項目風險承擔支出測算
        蟻群算法求解TSP中的參數(shù)設置
        動車環(huán)境下U900異頻切換參數(shù)設置探討
        Individual Ergodic Theorems for Noncommutative Orlicz Space?
        基于MATLAB仿真的井下變壓器參數(shù)設置研究
        性生大片免费观看性少妇| 中文无码精品a∨在线观看不卡| 白天躁晚上躁麻豆视频| 欧美老熟妇又粗又大| 中文字幕乱码中文乱码毛片| 日本一区二区三区不卡在线| 久9re热视频这里只有精品 | 亚洲日韩成人无码| 亚洲av首页在线| 永久免费不卡在线观看黄网站| 国产欧美日韩图片一区二区| 开心五月激情五月天天五月五月天 | 人妻被公上司喝醉在线中文字幕| 黑丝美女喷水在线观看| 日韩一区二区av极品| 18禁在线永久免费观看| 99国内精品久久久久久久| 国产精品高潮呻吟av久久4虎| 丝袜美腿网站一区二区| 国产91在线精品观看| 欧美性猛交99久久久久99按摩| 丰满的少妇xxxxx青青青| 亚洲中出视频| 日本视频在线观看一区二区 | 蜜桃av在线播放视频| 亚洲国产精品成人精品无码区在线| 女人色毛片女人色毛片18| 九九精品国产99精品| 日本亚洲系列中文字幕| 性裸交a片一区二区三区| 久久久国产精品樱花网站| 日韩不卡无码三区| 久久精品国产亚洲av性瑜伽| 精品亚洲成a人片在线观看| 亚洲aⅴ无码日韩av无码网站| 日本顶级片一区二区三区| 中文亚洲av片不卡在线观看| 两个人看的www高清视频中文| 婷婷成人亚洲综合国产| 亚洲av午夜一区二区三| 亚洲精品久久中文字幕|