亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于清晰有理數(shù)均值的新匹配聚類算法

        2018-03-27 09:14:09尚靖博左萬(wàn)利
        關(guān)鍵詞:論域欺詐網(wǎng)頁(yè)

        尚靖博, 左萬(wàn)利

        (1. 吉林大學(xué) 軟件學(xué)院, 長(zhǎng)春 130012; 2. 吉林大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 長(zhǎng)春 130012)

        聚類的本質(zhì)是將本屬于同類而因某種原因分離的事物, 按照某種邏輯和方法重新聚合的過程. 聚類主要分為層次聚類、 劃分式聚類、 網(wǎng)格聚類和密度聚類. 層次聚類以倒樹形結(jié)構(gòu)排列, 通過從根節(jié)點(diǎn)層層向下不斷聚合和分裂, 最終完成聚類. 由于倒樹形結(jié)構(gòu)的特性, 所以更適用于小型數(shù)據(jù)集[1]. 文獻(xiàn)[2]的方法為典型層次聚類方法, 它先基于HTML特征和層次聚類實(shí)現(xiàn)Web接口查詢, 再利用Web中的各種關(guān)系和相關(guān)特性建立倒樹形結(jié)構(gòu), 最后通過層次聚類的方式完成聚類, 該方法在實(shí)驗(yàn)室的準(zhǔn)確率可達(dá)90%以上. 劃分式聚類通過預(yù)先設(shè)置好聚類的中心或數(shù)目, 經(jīng)過一系列的計(jì)算最終收斂完成聚類過程. 劃分式聚類在使用頻率上有K均值聚類和模糊聚類等類型[1]. 文獻(xiàn)[3]的方法為典型的劃分式聚類, 它將樣本數(shù)據(jù)集高維化處理, 并結(jié)合K均值聚類的方法劃分出各時(shí)段的負(fù)荷差異, 實(shí)驗(yàn)結(jié)果表明, 該方法可以在一個(gè)長(zhǎng)周期內(nèi)穩(wěn)定運(yùn)行. 網(wǎng)格聚類和密度聚類都是基于觀察樣本空間中各組成部分的疏密程度完成聚類[1], 因此更適用于圖像與視頻的聚類. 該聚類方法最典型的是文獻(xiàn)[4]中方法, 它利用圖像由像素點(diǎn)組成, 且不同圖像各部分的疏密程度必不同的原理聚類, 實(shí)驗(yàn)結(jié)果表明, 該方法對(duì)噪聲數(shù)據(jù)過濾效果較好, 執(zhí)行效率較高, 能更好地識(shí)別出不同類別的簇. 此外, 文獻(xiàn)[5]利用匹配程度的量度決定隸屬, 利用主成分分析決定縱向壓縮, 該方法壓縮率也較高. 本文通過改進(jìn)文獻(xiàn)[6]的清晰有理數(shù)均值方法, 提出一種針對(duì)人工標(biāo)注型數(shù)據(jù)的聚類算法, 稱為新匹配聚類算法.

        1 算法描述

        本文對(duì)清晰有理數(shù)均值方法進(jìn)行如下改進(jìn): 對(duì)于論域U=(x1,x2,…,xn)(n∈), 其中x1,x2,…,xn是一組有若干重復(fù)項(xiàng)的自然數(shù), 將其刪除重復(fù)項(xiàng)后, 論域U變?yōu)檎撚騐=(x1,x2,…,xm}(m≤n,m∈), 其中x1,x2,…,xm稱為匹配項(xiàng). 計(jì)算x1,x2,…,xm分別在論域U中的個(gè)數(shù), 記作c1,c2,…,cm, 則x1,x2,…,xm在論域U中的概率記作p1,p2,…,pm. 計(jì)算有理數(shù)的均值計(jì)算結(jié)果僅取其整數(shù)位, 與匹配項(xiàng)匹配后, 標(biāo)記與匹配項(xiàng)相關(guān)的信息, 標(biāo)記結(jié)果即為聚類結(jié)果. 算法過程偽代碼描述如下:

        U={以矩陣形式表示的數(shù)據(jù)集}, //導(dǎo)入數(shù)據(jù)集, 其行數(shù)為i, 列數(shù)為j;

        forkin range (i) { //遍歷矩陣的每一行;

        V=U[k].drop_duplicates( ); //刪除重復(fù)項(xiàng)得到匹配項(xiàng);

        m=V.count( ); //計(jì)算匹配值的總數(shù)目;

        forsin range(m) {c[s]=U[k].count(′V[s]′)}; //計(jì)算每個(gè)匹配項(xiàng)的數(shù)目;

        forqin range (m) {sumc=sumc([q]);} //計(jì)算所有匹配項(xiàng)數(shù)目總和;

        forbin range (m) {p(b)=c[b]/sumc;} //計(jì)算每個(gè)匹配項(xiàng)的概率;

        fortin range (m) {

        E1+=V[t]*p[t]; //計(jì)算清晰有理數(shù)的均值分子;

        E2+=p[t]; //計(jì)算清晰有理數(shù)的均值分母;

        E=E1/E2; } //計(jì)算清晰有理數(shù)的均值;

        if (E==V[ ]) { //計(jì)算結(jié)果依次與匹配項(xiàng)比較, 匹配到哪項(xiàng)就將目標(biāo)數(shù)據(jù)名加入對(duì)應(yīng)的集合, 完成聚類.

        A.append( );

        else:

        B.append( ); }}

        2 實(shí)驗(yàn)結(jié)果與分析

        為驗(yàn)證本文新匹配聚類算法的效果, 將其應(yīng)用于非欺詐網(wǎng)頁(yè)檢測(cè)實(shí)驗(yàn). 互聯(lián)網(wǎng)的飛速發(fā)展推動(dòng)了搜索引擎的提升, 但由于利益的驅(qū)使, 大批量的欺詐網(wǎng)頁(yè)混雜于互聯(lián)網(wǎng)中. 欺詐者采取非正常方法, 人工干預(yù)搜索引擎的排序策略, 以獲取與其地位不相符的高排名, 擾亂用戶對(duì)信息的獲取, 甚至侵害用戶利益. 所以要將非欺詐網(wǎng)頁(yè)通過聚類的方式提取出來(lái). 本文采用Webspam-uk2007數(shù)據(jù)集(http://chato.cl/webspam/datasets/), 其為一組由人工合作完成, 對(duì)UK域上的114 529個(gè)主機(jī)的105 896 555個(gè)頁(yè)面人工標(biāo)記(包括S: 欺詐網(wǎng)頁(yè);N: 非欺詐網(wǎng)頁(yè);B: 無(wú)法確定;U: 未知)所形成的數(shù)據(jù)集, 在實(shí)驗(yàn)中選取其中最終可確定是欺詐網(wǎng)頁(yè)或非欺詐網(wǎng)頁(yè)的6 053個(gè)頁(yè)面作為數(shù)據(jù)集.

        首先產(chǎn)生原始矩陣U, 對(duì)數(shù)據(jù)集中的兩種標(biāo)注情況(“欺詐網(wǎng)頁(yè)”、 “非欺詐網(wǎng)頁(yè)”)分別使用1和2替換, 缺位的用0補(bǔ)全, 保證數(shù)據(jù)的每一行列數(shù)相同. 然后取每一行, 刪除重復(fù)元素后確定最終的匹配項(xiàng)x1,x2,…,xm, 計(jì)算每個(gè)匹配項(xiàng)的數(shù)目, 記作c1,c2,…,cm, 計(jì)算每個(gè)匹配項(xiàng)的概率, 記作p1,p2,…,pm, 利用匹配項(xiàng)和概率計(jì)算清晰有理數(shù)均值, 記作E. 若E=1, 則標(biāo)記為欺詐網(wǎng)頁(yè); 若E=2, 則標(biāo)記為非欺詐網(wǎng)頁(yè), 其他情況則標(biāo)記為未知.

        為評(píng)估其性能, 本文采用準(zhǔn)確率、 召回率和F值作為評(píng)價(jià)標(biāo)準(zhǔn), 公式如下:

        其中:TP表示非欺詐網(wǎng)頁(yè)樣本集中被標(biāo)記正確的數(shù)量;TN表示非欺詐網(wǎng)頁(yè)樣本集中被標(biāo)記錯(cuò)誤的數(shù)量;FP表示欺詐網(wǎng)頁(yè)樣本集中被標(biāo)記錯(cuò)誤的數(shù)量;FN表示欺詐網(wǎng)頁(yè)樣本集中被標(biāo)記正確的數(shù)量.

        新匹配聚類算法在非欺詐網(wǎng)頁(yè)檢測(cè)問題的實(shí)驗(yàn)結(jié)果: 非欺詐網(wǎng)頁(yè)樣本集中被標(biāo)記正確的數(shù)量為5 596, 非欺詐網(wǎng)頁(yè)樣本集中被標(biāo)記錯(cuò)誤的數(shù)量為113, 欺詐網(wǎng)頁(yè)樣本集中被標(biāo)記錯(cuò)誤的數(shù)量為0, 欺詐網(wǎng)頁(yè)樣本集中被標(biāo)記正確的數(shù)量為334, 準(zhǔn)確率為100%, 召回率為98.02%. 由準(zhǔn)確率為100%和召回率為98.02%, 可計(jì)算出F值為0.99, 實(shí)驗(yàn)結(jié)果較好, 因此驗(yàn)證了本文提出的新匹配聚類算法在反欺詐網(wǎng)頁(yè)領(lǐng)域的有效性及在人工標(biāo)注型數(shù)據(jù)聚類的合理性. 使用傳統(tǒng)的K最近鄰算法[7]與本文算法在同一名稱但不同類型的數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn), 實(shí)驗(yàn)結(jié)果如圖1所示. 由圖1可見, 本文算法在反欺詐網(wǎng)頁(yè)檢測(cè)問題上具有更好的效果.

        [1] 孫吉貴, 劉杰, 趙連宇. 聚類算法研究 [J]. 軟件學(xué)報(bào), 2008, 19(1): 48-61. (SUN Jigui, LIU Jie, ZHAO Lianyu. Clustering Algorithms Research [J]. Journal of Software, 2008, 19(1): 48-61.)

        [2] 魏佳欣, 葉飛躍. 基于HTML特征與層次聚類的Web查詢接口發(fā)現(xiàn) [J]. 計(jì)算機(jī)工程, 2016, 42(2): 56-61. (WEI Jiaxin, YE Feiyue. Discovery of Web Query Interface Based on HTML Features and Hierarchical Clustering [J]. Computer Engineering, 2016, 42(2): 56-61.)

        [3] 李娜, 王磊, 張文月, 等. 基于高維數(shù)據(jù)優(yōu)化聚類的長(zhǎng)周期峰谷時(shí)段劃分模型研究 [J]. 現(xiàn)代電力, 2016, 33(4): 67-71. (LI Na, WANG Lei, ZHANG Wenyue, et al. Reasearch on the Partition Model of Long Period Peak and Valley Time Based on High Dimensional Data Clustering [J]. Modern Electric Power, 2016, 33(4): 67-71.)

        [4] 田宇, 羅辛. 一種基于圖像去噪的多密度網(wǎng)格聚類算法 [J]. 智能計(jì)算機(jī)與應(yīng)用, 2016, 6(1): 44-47. (TIAN Yu, LUO Xin. A Multi Mesh Density Clustering Algorithm Based on Image Denoising [J]. Intelligent Computer and Applications, 2016, 6(1): 44-47.)

        [5] 馮靜, 金遠(yuǎn)平, 馮欣. 基于主成分分析及匹配聚類分析的數(shù)據(jù)表語(yǔ)義壓縮方法 [J]. 東南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2006, 36(6): 927-930. (FENG Jing, JIN Yuanping, FENG Xin. Semantic Compression for Data Tables Based on Principal Component and Matching Clustering Analysis [J]. Journal of Southeast University (Natural Science Edition), 2006, 36(6): 927-930.)

        [6] 蘇發(fā)慧. 清晰理論基礎(chǔ) [M]. 合肥: 合肥工業(yè)大學(xué)出版社, 2012: 123-126. (SU Fahui. Clear Theoretical Basis [M]. Hefei: Hefei University of Technology Press, 2012: 123-126.)

        [7] Ali H, Behrouz M B. Multi-view Learning for Web Spam Detection [J]. Journal of Emerging Technologies in Web Intelligence, 2013, 5(4): 395-400.

        猜你喜歡
        論域欺詐網(wǎng)頁(yè)
        關(guān)于假冒網(wǎng)站及欺詐行為的識(shí)別
        關(guān)于假冒網(wǎng)站及欺詐行為的識(shí)別
        基于變論域模糊控制的Taylor逼近型內(nèi)模PID算法
        警惕國(guó)際貿(mào)易欺詐
        變論域自適應(yīng)模糊PID控制系統(tǒng)仿真與應(yīng)用
        基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        雙論域粗糙集在故障診斷中的應(yīng)用
        網(wǎng)購(gòu)遭欺詐 維權(quán)有種法
        微生物燃料電池的變論域自適應(yīng)模糊控制研究
        丰满人妻无套中出中文字幕| 天天干夜夜躁| 亚洲码国产精品高潮在线| 粉嫩国产av一区二区三区| 国产精品国产三级国av在线观看 | 无码伊人久久大蕉中文无码 | 日韩精品极品系列在线免费视频| 欧美手机在线视频| 八区精品色欲人妻综合网| 国产两女互慰高潮视频在线观看| 国产视频一区二区三区观看| 久久91精品国产91久久麻豆| 日韩中文字幕不卡在线| 美女视频永久黄网站免费观看国产| 久久久久亚洲av无码尤物| 国自产精品手机在线观看视频| 日韩人妻精品中文字幕专区| 国语对白三级在线观看| 日本a在线免费观看| 国产麻无矿码直接观看| 天天躁日日躁狠狠躁| 97人妻精品一区二区三区男同| 中文字幕日韩精品中文字幕| 日韩中文字幕网站| 亚洲综合网在线观看首页| 人人爽人人爽人人爽人人片av| 亚洲国产av无码精品| 99久久精品一区二区国产| av资源在线永久免费观看| 国产91在线精品福利| 国产精品嫩草影院AV| 蜜臀av 国内精品久久久| 97se亚洲国产综合自在线观看| 日本av亚洲中文字幕| 亚洲精品国产av成拍色拍| 美女福利一区二区三区在线观看 | 无套无码孕妇啪啪| 久久亚洲中文字幕精品二区| 日本办公室三级在线看| 亚洲精品2区在线观看| 伊人久久一区二区三区无码|