亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進的LSSVM算法在垃圾標(biāo)簽檢測上的應(yīng)用

        2015-07-27 02:11:11楊曉雷楊清琳杜英俊廣西財經(jīng)學(xué)院現(xiàn)代教育技術(shù)部南寧530003
        山東工業(yè)技術(shù) 2015年8期
        關(guān)鍵詞:乘子量度標(biāo)簽

        楊曉雷,楊清琳,杜英?。◤V西財經(jīng)學(xué)院現(xiàn)代教育技術(shù)部,南寧 530003)

        改進的LSSVM算法在垃圾標(biāo)簽檢測上的應(yīng)用

        楊曉雷,楊清琳,杜英俊
        (廣西財經(jīng)學(xué)院現(xiàn)代教育技術(shù)部,南寧 530003)

        為了解決 Folksonomy 存在垃圾標(biāo)簽的問題,提出垃圾標(biāo)簽檢測模型。利用向量空間模型表征用戶特征,再用支持向量機將Folksonomy 用戶二分類。通過檢測出隱藏在正常用戶群體中的垃圾投放人,以此減少垃圾標(biāo)簽數(shù)量。垃圾標(biāo)簽數(shù)據(jù)集具有數(shù)量大,緯度高的特點。面對傳統(tǒng)svm算法處理高維大規(guī)模數(shù)據(jù)集上過于復(fù)雜,存在速度和精度的瓶頸的問題,筆者曾經(jīng)提出用lssvm算法進行垃圾標(biāo)簽檢測處理,取得一定的效果。但是,lssvm算法本身也存在稀疏性以及處理重要數(shù)據(jù)點不敏感的問題,所以針對這點,提出了用剪切法進行解決,通過實驗表明,改進的LSSVM提高了建模的精度,而稀疏化的處理雖然對精度有一定影響,但大大減少了訓(xùn)練數(shù)據(jù)量,從而有效減輕了計算負擔(dān),使快速性得到了保障。

        垃圾標(biāo)簽;Folksonomy lssvm;剪切法

        1 引言

        隨著 Web 2.0 技術(shù)架構(gòu)的推廣,社會網(wǎng)絡(luò)( SN) 的應(yīng)用逐漸擴大。社會化標(biāo)簽系統(tǒng)廣受大眾的歡迎。國內(nèi)外知名的社會化標(biāo)簽系統(tǒng)有Delicious、Flickr、Last. fm、豆瓣網(wǎng)等。由于采用 Folksonomy 的框架,社會化標(biāo)簽系統(tǒng)特別強調(diào)用戶參與其創(chuàng)建和維護過程。在 Folksonomy中,用戶行為十分自由,這為垃圾信息的投放提供了新的途徑。這些投放在社會化標(biāo)簽系統(tǒng)中的垃圾信息,稱為社會垃圾( social spam) 或垃圾標(biāo)簽。目前檢測垃圾標(biāo)簽的主流方法是從用戶中檢測出垃圾投放人,通過控制垃圾投放人的行為,達到減少垃圾標(biāo)簽的效果[1]。筆者曾經(jīng)采用lssvm算法進行垃圾標(biāo)簽檢測的應(yīng)用,雖然比起傳統(tǒng)的svm方法有一定的改進,但是lssvm算法本身也存在一定問題。

        2 算法的改進

        在LSSVM中,由于Lagrange乘子均不為零,因此所有的數(shù)據(jù)向量都是支持向量。那如何區(qū)分這些支持向量的重要程度呢?本章引入了“支持向量度”的概念,為每個訓(xùn)練數(shù)據(jù)定義了一個支持向量度。訓(xùn)練數(shù)據(jù)(xi,yi)對應(yīng)的支持向量度為0<si<1,代表了該數(shù)據(jù)隸屬于支持向量的程度。0<si<1值越大,則對應(yīng)的訓(xùn)練點隸屬于支持向量的程度越高。

        給定訓(xùn)練數(shù)據(jù)集{xi,yi,si}Ni=1。在標(biāo)準(zhǔn)LSSVM優(yōu)化問題(2.2)的第二項中引入支持向量度構(gòu)成了改進的LSSVM的優(yōu)化問題

        顯然,當(dāng)所有的支持向量度 定義為1時,改進的LSSVM就是標(biāo)準(zhǔn)LSSVM.從這個意義上說,標(biāo)準(zhǔn)LSSVM可以看成是改進的LSSVM的一種特殊情況。

        構(gòu)建Lagrange函數(shù)

        根據(jù)最優(yōu)性條件,得到

        整理上面的方程組,消去變量。得到矩陣形式為

        其中,向量S=diag{S1,S2…Sn}是一個由所有支持向量度{Si}Ni=1絲構(gòu)成的N×N對角陣。其它參數(shù)的意義同前。

        假定矩陣

        可逆,則參數(shù)。和b的解析解可通過下式得到

        最終得到的改進的LSSVM模型表達式為

        改進的LSSVM建模算法的實施。要實施改進的LSSVM,還存在一個問題:既然支持向量度是由Lagrange乘子所決定的,而Lagrange乘子是由LSSVM學(xué)習(xí)后產(chǎn)生的,那么在算法沒有實施之前,如何得到Lagrange乘子來計算支持向量度呢?我們解決這個問題的辦法是,首先假定所有的支持向量度{s*}均為1,訓(xùn)練得到Lagrange乘子,然后根據(jù)Lagrange乘子的值來確定支持向量度,然后再進行改進的LSSVM的訓(xùn)練。

        針對自回歸對象模型,改進的LSSVM回歸的一般流程可歸納如下:

        (1)由得到的數(shù)據(jù)集{xi,yi}Ni=1進行訓(xùn)練,得到Lagrange乘子{αi}Ni=1;

        (2)根據(jù)公式(8),選擇合適的數(shù)0≤δ≤1,利用上次訓(xùn)練得到的Lagrange乘子確定支持向量度;

        (3)構(gòu)建新的訓(xùn)練數(shù)據(jù)集{xi,yi,si}Ni=1進行改進的LSSVM訓(xùn)練,得到模型參數(shù){αi}Ni=11和b;(4)根據(jù)|αi|Ni=1升序排列訓(xùn)練集{xi,yi,si}N

        i=1中的數(shù)據(jù),剪除一小部分(如5%)具有最小αi值的數(shù)據(jù)點;

        (5)由剩余的Lagrange乘子重新計算8、,由剩余的數(shù)據(jù)重新構(gòu)建訓(xùn)練集{xi,yi,si}Ni=1再次進行改進的LSSVM訓(xùn)練,得到新的Lagrange乘子。如果擬合性能下降,則結(jié)束訓(xùn)練,得到對象模型;否則,轉(zhuǎn)至(3)。

        3 實驗與分析

        用改進的LSSVM方法辨識上述模型,采用徑向基函數(shù)作為核函數(shù)。

        特此說明的是,因為改進的LSSVM采用迭代方式訓(xùn)練得到Lagrange乘子,然后根據(jù)Lagrange乘子的值來確定支持向量度,因此訓(xùn)練時間方面會變長,采用訓(xùn)練時間衡量算法性能是沒有意義的,因此我們只用訓(xùn)練精度做為衡量標(biāo)準(zhǔn)。

        實驗的程序使用MATLAB2009a實現(xiàn),實驗硬件環(huán)境:CPU為P4,3.0GHz,1GB內(nèi)存。所有實驗運行15次取平均值。本文采用的數(shù)據(jù)集來自二元分類測試數(shù)據(jù)集synth、bc本文采取的源數(shù)據(jù)包含2個數(shù)據(jù)文件(tas,bookmark),其中tas文件包含用戶、tas_id、標(biāo)簽和對應(yīng)bookmark_id的關(guān)系記錄,bookmark文件包含資源、資源描述、bookmark_id和對應(yīng)tas_id的關(guān)系記錄。為兩個數(shù)據(jù)文件接由tas_id和bookmark_id來接。

        第一組:

        表1 bc數(shù)據(jù)集樣本及維度

        第二組:

        表2 bc數(shù)據(jù)集樣本及維度

        實驗方案設(shè)計分為兩組,第一組是訓(xùn)練集樣本維度為10的時候,分別采用LSSVM和改進的LSSVM算法進行分類,而第二組是當(dāng)訓(xùn)練集維度為2的時候分別采用兩種算法進行分類。

        首先采用標(biāo)準(zhǔn)LSSVM方法分別對bc數(shù)據(jù)集和synth 數(shù)據(jù)集取300,150,60,30組采樣數(shù)據(jù)進行訓(xùn)練,然后用200組測試數(shù)據(jù)進行測試,其中參數(shù)由libSVM工具箱自動尋優(yōu)函數(shù)給出,改進的LSSVM中,最小的支持向量度使用上一步標(biāo)準(zhǔn)LSSVM所得出的參數(shù),每迭代一次剪切5%的數(shù)據(jù),用200組測試數(shù)據(jù)得到的測試結(jié)果。測試得到的結(jié)果如下所示:

        第一組:

        表3 bc 數(shù)據(jù)集LSSVM測試結(jié)果

        表4 bc 數(shù)據(jù)集 改進的LSSVM測試結(jié)果

        第二組:

        表5 synth 數(shù)據(jù)集LSSVM測試結(jié)果

        表6 改進的LSSVM測試結(jié)果

        由表3和4可以看出可以看出,當(dāng)我們采用較小數(shù)據(jù)集做測試時候,比如50,在改進的LSSVM的精度為61.7,而標(biāo)準(zhǔn) LSSVM為60.5,精度只有微量的提升,而我們增大訓(xùn)練數(shù)據(jù)集,,采用數(shù)據(jù)集個數(shù)為100和150的時候,精度開始有明顯的提高,提高了接近10的百分點。當(dāng)我們數(shù)據(jù)量增到到300的時候,提升更是明顯,提升了18個百分點。因此,通過實驗我們可以發(fā)現(xiàn),采用剪切算法在數(shù)據(jù)集數(shù)量增大的時候,對精度的提高就越明顯。同樣第二組實驗中改進的lssvm算法在低維數(shù)據(jù)集中,通過表5 和6觀察也能得出相同的結(jié)論。因此,通過支持向量度的引入采用剪切數(shù)據(jù)的改進的LSSVM方法,精度要好于LSSVM。因此,通過剪切數(shù)據(jù)的方法來實現(xiàn)改進的LSSVM算法是可行的。

        [1] KIM C J,HWANG K B.Naive Bayes classier.learning with featureselection for spam detection in social bookmarking[C]//Lecture Notes in Computer Science. Berlin: Springer-Verlag,2008.

        [2]覃希,夏寧霞,蘇一丹.基于支持向量機的垃圾標(biāo)簽檢測模型.[J].計算機應(yīng)用研究,2010,27(10):40-46.

        [3]GRAMME P,CHEVALIER J F. Rank for spam dsetection[C]/ /Lecture Notes in Computer Science. Berlin: Springer-Verlag,2008.

        [4]Van Gestel, T. Suykens, J.A.K., Baesens, B., Viaene, S., Vanthienen, J., Dedene, G., De Moor, B., Vandewalle, J., Benchmarking least squares support vector machine classifiers", Mach. Learning, vol 54, pp.5-32, 2003.

        [5]ADKOUR A,HEFNI T,HEFNY A,et al. Using semantic featuresto detect spamming in social bookmarking systems [C]// LectureNotes in Computer Science. Berlin: Springer-Verlag,2008.

        [6]HOTHO A,JASCHKE R,SCHMITZ C,et al.Emergent semantics in BibSonomy[M]. Liskowsky: GI Jahrestagung,2006:305-312.

        [7]SALTON G,McGILL M J. Introduction to modern information retrieval[M].New York: McGraw-Hill,1983: 1-12.

        [8]http://www.csie.ntu.edu.tw/-cjlin/libsvmtools/datasets/.

        [9] BROADLY. Social spam definition[EB/OL].(2008-7-21) .http://www. bryanchen. com /2008 /07 /21 / social-spam /.

        [10]Kuh, A., De Wilde, P. "Comments on pruning error minimization in least squares support vector machines". IEEE Trans. Neural Networks, vol 18 (2). 2007.

        [11]Lazar, A. Income prediction via support vector machine[C]. New York:Machine Learning and Applications, IEEE 2004' Proceedings,2004.

        猜你喜歡
        乘子量度標(biāo)簽
        再談單位球上正規(guī)權(quán)Zygmund空間上的點乘子
        雙線性傅里葉乘子算子的量化加權(quán)估計
        單位球上正規(guī)權(quán)Zygmund空間上的點乘子
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        單位球上正規(guī)權(quán)Zygmund空間上的點乘子
        標(biāo)簽化傷害了誰
        基于多進制查詢樹的多標(biāo)簽識別方法
        計算機工程(2015年8期)2015-07-03 12:20:27
        語體轉(zhuǎn)化的量度與語體規(guī)范
        中國修辭(2015年0期)2015-02-01 07:07:26
        機械能轉(zhuǎn)化量度的認識誤區(qū)
        免费一区啪啪视频| 蜜臀av色欲a片无码精品一区| а√资源新版在线天堂| 91尤物视频在线观看| 无遮挡粉嫩小泬| 四季极品偷拍一区二区三区视频 | 国产成人啪精品| 亚洲色图第一页在线观看视频| 成人偷拍自拍视频在线观看| 一本一道久久综合久久| 亚洲综合免费| 加勒比久草免费在线观看| 国产精品激情自拍视频| 无码成人aaaaa毛片| 国产精品自产拍在线观看中文| 九九久久精品一区二区三区av| 久久久久久久亚洲av无码| 欧美日韩精品一区二区在线观看| 99久久久精品免费| 亚洲一区二区三区在线最新| 亚洲精品国产成人片| 最近免费中文字幕| 熟女白浆精品一区二区 | 丰满少妇愉情中文字幕18禁片| 成人国产精品免费网站| 最近更新中文字幕一区二区| 激烈的性高湖波多野结衣| 屁屁影院一区二区三区| 一本久久伊人热热精品中文| 东北女人啪啪对白| 国产内射999视频一区| 国产强伦姧在线观看| 亚洲一区二区日韩精品在线| 久久不见久久见中文字幕免费| 91天堂素人精品系列全集亚洲| 9l国产自产一区二区三区| 久久天天躁夜夜躁狠狠| 国产日产高清欧美一区| 日韩精品国产一区在线| 青青草原综合久久大伊人精品 | 欧美人与动zozo|