亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Web網(wǎng)絡中的離群數(shù)據(jù)挖掘技術研究與改進

        2017-09-25 16:55:04翁佩純張遠海馬慧
        現(xiàn)代電子技術 2017年18期
        關鍵詞:BP神經網(wǎng)絡

        翁佩純+張遠海+馬慧

        摘 要: 離散數(shù)據(jù)在Web網(wǎng)絡中分布較廣,是造成數(shù)據(jù)挖掘有用信息容量低的主要原因。霍金斯離散數(shù)據(jù)挖掘方法自提出以來獲得了很高的成就,但仍存在挖掘數(shù)據(jù)分類性能不高的缺點,在此,使用BP神經網(wǎng)絡對其進行改進?;艚鹚闺x散數(shù)據(jù)挖掘方法分離散數(shù)據(jù)掃描和離散信息挖掘兩個步驟進行,所提改進方法通過優(yōu)化原方法中離散數(shù)據(jù)的排序規(guī)律,挖掘最優(yōu)BP神經網(wǎng)絡連接節(jié)點權值集群,改進離散數(shù)據(jù)集群的正確分區(qū)能力,降低離散信息挖掘過程的時空復雜度,提高原方法的分類精度和分類效率。實驗結果表明,所提改進方法在Web網(wǎng)絡離散數(shù)據(jù)中能獲取高度可靠的挖掘結果。

        關鍵詞: Web網(wǎng)絡; 霍金斯離群數(shù)據(jù)挖掘; 改進的離散信息挖掘; BP神經網(wǎng)絡

        中圖分類號: TN711?34; TP301.6 文獻標識碼: A 文章編號: 1004?373X(2017)18?0029?03

        Research and improvement of outlier data mining technology in Web network

        WENG Peichun1, ZHANG Yuanhai2, MA Hui1

        (1. Zhongshan Institute, University of Electronic Science and Technology of China, Zhongshan 528400, China;

        2. Zhongshan Torch Polytechnic, Zhongshan 528403, China)

        Abstract: Discrete data has a wide distribution in the Web network, and is the main reason causing the low capacity of useful information. Since Hawkins discrete data mining method was put forward, it has been obtain a high achievement, but it still exists a fault that its data classification performance is not high. Therefore, the BP neural network is adopted to improve it. Hawkins discrete data mining method is divided into two steps: discrete data mining and discrete information mining. The improved method can optimize the discrete data sorting law of the original method, mine the optimal weight of BP neural network connecting node, improve the correct partition ability of discrete data cluster, reduce the time and space complexity in the process of discrete information mining, and improve the classification accuracy and classification efficiency of the original method. The experimental results show that the improved method can obtain highly reliable mining results in discrete data of Web network.

        Keywords: Web network; Hawkins outlier data mining; improved outlier data mining; BP neural network

        0 引 言

        在Web網(wǎng)絡與人工智能的發(fā)展進程中,產生了“數(shù)據(jù)挖掘”這種專門針對數(shù)據(jù)進行深層原理解析的研究技術。隨著網(wǎng)絡科技的不斷進步,Web網(wǎng)絡作為廣大網(wǎng)民收集知識的主要媒介,往往卻只能索引到不足30%數(shù)據(jù)容量的有用信息,在大部分網(wǎng)頁中顯示的均為無用動態(tài)信息,而且數(shù)據(jù)結構混亂、復雜,可借鑒性不高。離散數(shù)據(jù)在Web網(wǎng)絡中分布較廣,是造成數(shù)據(jù)挖掘有用信息容量低的主要原因。由于離散數(shù)據(jù)結構的相對孤立性和整體分散性,研究者霍金斯曾在1980年提出“離散數(shù)據(jù)與普通數(shù)據(jù)產生機理不相同”的理念,并展開Web網(wǎng)絡中離群數(shù)據(jù)挖掘方法的研究工作,在這一挖掘方法上進行改進,對網(wǎng)絡科技的發(fā)展具有很大的增益效果。

        1 Web網(wǎng)絡中的離群數(shù)據(jù)挖掘方法研究

        Web網(wǎng)絡中離散數(shù)據(jù)的定義是:“不符合既定數(shù)據(jù)規(guī)律的少數(shù)、異常性數(shù)據(jù)” [1],在計算誤差、設備運轉失誤或者傳輸偏差等網(wǎng)絡行為中均可能產生離散數(shù)據(jù)?;艚鹚乖谘芯恐邪l(fā)現(xiàn),幾乎每個離散數(shù)據(jù)都對應著Web網(wǎng)絡的異常行為或規(guī)則,是網(wǎng)絡防入侵、數(shù)據(jù)防異常的重要媒介。

        圖1是霍金斯離散數(shù)據(jù)挖掘方法的處理原理,在一個完整的離散數(shù)據(jù)挖掘流程內,網(wǎng)格細化法[2]是數(shù)據(jù)挖掘的重要處理方法。

        圖1 霍金斯離散數(shù)據(jù)挖掘方法原理圖

        在霍金斯離散數(shù)據(jù)挖掘方法的離散數(shù)據(jù)掃描過程中,需要對每個局部細化區(qū)間分別構建哈希查詢表,聚類數(shù)據(jù)獲取精度高,為高水準數(shù)據(jù)挖掘提供了可能。但是,離散信息挖掘的密度檢測過程沒能很好地將離散數(shù)據(jù)控制在一個Web節(jié)點最大負荷內,存儲挖掘信息時經常不能將同一聚類區(qū)間的離散信息放在一起,后續(xù)還需要進行比較復雜的分類處理[3]??梢?,霍金斯離散數(shù)據(jù)挖掘方法的缺點主要是時空復雜度大,式(1)是時空復雜度[O]的計算公式:

        [O=O(N)+O(n2)] (1)

        式中:[O(N)]是離散數(shù)據(jù)掃描的時空復雜度,與離散數(shù)據(jù)總量[N]有關;[O(n2)]是離散信息挖掘的時空復雜度;[n]是掃描結果數(shù)據(jù)總量。一般而言[n]遠小于[N],由于Web網(wǎng)絡中離散數(shù)據(jù)維度很高,故用[n2]進行維度校正[4?5]。在接下來的改進處理中,將對霍金斯離散數(shù)據(jù)挖掘方法中的[O(n2)]進行降低,主要是提高挖掘結果的分類精度和分類效率。

        2 霍金斯離散數(shù)據(jù)挖掘改進方法

        2.1 改進原理

        基于神經網(wǎng)絡的霍金斯離散數(shù)據(jù)挖掘改進方法的核心是BP神經網(wǎng)絡,所使用的改進原理是挖掘最優(yōu)的關聯(lián)網(wǎng)絡連接點權值集群,得到挖掘結果后直接將其存儲在原聚類區(qū)間。BP神經網(wǎng)絡先任意設置權值集群內的數(shù)據(jù)點,數(shù)據(jù)大小區(qū)間[6]為(-1,1),權值控制方法通過修正權值梯度訓練BP神經網(wǎng)絡離散數(shù)據(jù)聚類結構,并且梯度修正也可以減少分類誤差的產生。

        設Web網(wǎng)絡離散數(shù)據(jù)維度為[m],BP神經網(wǎng)絡隱含層關聯(lián)節(jié)點有[k]個,聚類區(qū)間用[C]表示,關聯(lián)節(jié)點上的聚類區(qū)間表示為[C1,C2,…,Ck]。用初始權值劃分聚類區(qū)間,對聚類區(qū)間中的離散數(shù)據(jù)進行訓練,使得BP神經網(wǎng)絡輸入層和輸出層中的離散數(shù)據(jù)與挖掘結果具有一一對應關系。BP神經網(wǎng)絡隱含層上的節(jié)點處于休眠狀態(tài)[7],需要對其進行激活,激活方式是把輸入層連接權值串聯(lián)成一個非線性驅動函數(shù),計算結果用來激活休眠節(jié)點。將輸入層第[i]個節(jié)點與隱含層第[k]個節(jié)點的連接權值表示為[wki],[1≤i≤k],設離散集群數(shù)據(jù)在輸入層中的輸入值為[Xi],則非線性驅動函數(shù)可表示為:

        [ak=fi=1mwkiXi-tk] (2)

        式中:[tk]表示隱含層第[k]個節(jié)點的偏置延時,能夠實現(xiàn)大量離散數(shù)據(jù)在小范圍上的信息映射;函數(shù)[f[·]]是曲面切面函數(shù),設函數(shù)參量為[x],則[f[]]表示式為:

        [f[x]=ex-e-xex+e-x] (3)

        當隱含層所有節(jié)點都擺脫休眠狀態(tài)后,BP神經網(wǎng)絡輸出層第[p]個節(jié)點將輸出:

        [Sp=nσp=1akvkp] (4)

        式中:[σ[]]是輸出層節(jié)點的休眠破壞函數(shù),取值為[1ex+e-x];[vkp]是第[p]個輸出層與第[k]個隱含層之間連接節(jié)點的權值。為了令Web網(wǎng)絡挖掘信息能夠被正確地分區(qū)域并存儲起來,BP神經網(wǎng)絡三個層次之間的權值應符合式(5)給出的條件:

        [maxwki-vkp≤η] (5)

        式中,[η]為閾值。當[Xi]位于首聚類區(qū)間[C1],[η=0.5];當[Xi]位于尾聚類區(qū)間[Ck],[η=1];其他情況下,[η=0]。

        在此基礎上,通過BP神經網(wǎng)絡為霍金斯離散數(shù)據(jù)挖掘方法搜尋一個最優(yōu)關聯(lián)網(wǎng)絡連接點權值集群。權值集群搜尋誤差應先置于最小值,從而降低挖掘結果分類誤差。式(6)是權值集群搜尋誤差[E]的定義式,為了獲取其最小值,設置式(7)所示的誤差補償函數(shù),對不同聚類區(qū)間之間的交接點進行模糊化處理。使用[E]的最小值設置權值集群,可獲取較高的Web網(wǎng)絡離群數(shù)據(jù)挖掘精度。隨后開始進行Web網(wǎng)絡集群數(shù)據(jù)挖掘結果的分類,如式(8)所示。

        [E=-i=1mp=1k{(tklogSp+tk-1)[log(1-Sp)]}] (6)

        [P=ε1i=1kp=1kβ(wki)21+β(wki)2+ε2i=1kp=1kβ(vkp)21+β(vkp)2+ ε2i=1kp=1k(wki)2+i=1kp=1k(vkp)2] (7)

        [Ck=xi,k-xp,k×n-Sp] (8)

        式中:[ε1],[ε2]分別表示正、負權值的衰減變量;[β]為初始權值;[xi,k],[xp,k]分別表示輸入層與隱含層、隱含層與輸出層之間的離散數(shù)據(jù)聚類關聯(lián)度。

        2.2 改進方法基本要求

        從第2.1節(jié)的函數(shù)推導中可以看出,基于BP神經網(wǎng)絡的霍金斯離散數(shù)據(jù)挖掘改進方法能夠優(yōu)化原方法中離散數(shù)據(jù)的排序規(guī)律,使得數(shù)據(jù)挖掘精度可輕而易舉地滿足用戶需求。圖2對所提方法的改進流程進行了總結。因為BP神經網(wǎng)絡在使用之前需要訓練數(shù)據(jù)樣本,這會消耗一定的時間,所以直接在輸入層輸入任意一次的霍金斯離散數(shù)據(jù)挖掘結果進行訓練,但挖掘結果維度必須滿足以下要求:高維度數(shù)據(jù)必須易于降維;離散數(shù)據(jù)屬性可隨意進行剔除和歸一化操作。

        根據(jù)用戶對挖掘效率的要求,將挖掘結果降維并進行無用屬性剔除和全局歸一化,輸入BP神經網(wǎng)絡,經輸出層輸出離散數(shù)據(jù)聚類關聯(lián)度,作為訓練樣本使用。按照關聯(lián)度順序激活隱含層和輸出層的休眠節(jié)點,使輸入層中的離散數(shù)據(jù)能夠流通,從而獲取最優(yōu)關聯(lián)網(wǎng)絡連接點權值集群,提高挖掘結果的分類精度和分類效率,使霍金斯離散數(shù)據(jù)挖掘方法的時空復雜度得以降低。

        3 實驗分析

        本次實驗使用Web網(wǎng)絡中的真實離散數(shù)據(jù),所選類型是籃球比賽中與得分有關的離散數(shù)據(jù),由于不同球員身體素質和得分技巧不同,每個球員均可看成不同離散度的離散數(shù)據(jù)集群,其數(shù)據(jù)屬性關聯(lián)度和權值集群也各不相同。使用本文所提基于BP神經網(wǎng)絡的霍金斯離散數(shù)據(jù)挖掘改進方法對5名球員在Web網(wǎng)絡中離散數(shù)據(jù)進行數(shù)據(jù)挖掘,分配球員上場時間。通過計算機建立云計算虛擬環(huán)境,分析這個分配方案在籃球比賽中的可靠性,如表1所示。

        表1中,成功得分率等于球員投籃成功率減去違規(guī)率的,得分增益是指本文改進方法比賽得分相對于原籃球比賽得分的增加值。由表1可知,本文方法所提分配方案共能夠得到27分的得分增益,這對籃球比賽來說是一個較大的比分差距,表明本文方法能獲取高度可靠的挖掘結果。

        4 結 論

        本文提出一種借助BP神經網(wǎng)絡對霍金斯離散數(shù)據(jù)挖掘方法進行改進的方法。通過學習Web網(wǎng)絡中的離散數(shù)據(jù)行為,搜尋到BP神經網(wǎng)絡最優(yōu)關聯(lián)網(wǎng)絡連接點權值集群,使用這個集群管理離群數(shù)據(jù)挖掘結果的存儲區(qū)間,對霍金斯離散數(shù)據(jù)挖掘方法的分類性能進行提高。最后,實驗使用Web網(wǎng)絡中的真實離散數(shù)據(jù)分析出本文所提改進方法是高度可靠的。

        注:本文通訊作者為張遠海。

        參考文獻

        [1] 黃宏本.基于改進關聯(lián)規(guī)則的危險Web信息挖掘技術研究[J].現(xiàn)代電子技術,2016,39(6):14?17.

        [2] 李平.網(wǎng)絡安全防范與Web數(shù)據(jù)挖掘技術的整合研究[J].信息安全與技術,2016,7(8):63?65.

        [3] 施佺,錢源,孫玲.基于教育數(shù)據(jù)挖掘的網(wǎng)絡學習過程監(jiān)管研究[J].現(xiàn)代教育技術,2016,26(6):87?93.

        [4] 鐘旭東,黃章進,顧乃杰,等.Web文本分類中的標簽權重自動優(yōu)化研究[J].小型微型計算機系統(tǒng),2016,37(5):890?894.

        [5] 田秀娟.網(wǎng)絡環(huán)境中不完整數(shù)據(jù)挖掘方法研究與仿真[J].計算機仿真,2016,33(10):454?457.

        [6] 李建林,籍天明,孔令達,等.光伏發(fā)電數(shù)據(jù)挖掘中的跨度選取[J].電工技術學報,2015,30(14):450?456.

        [7] 張繼榮,王向陽.基于X ML數(shù)據(jù)挖掘的Apriori算法的研究與改進[J].計算機測量與控制,2016,24(6):178?180.endprint

        猜你喜歡
        BP神經網(wǎng)絡
        基于神經網(wǎng)絡的北京市房價預測研究
        商情(2016年43期)2016-12-23 14:23:13
        一種基于OpenCV的車牌識別方法
        軟件導刊(2016年11期)2016-12-22 22:01:20
        基于遺傳算法—BP神經網(wǎng)絡的乳腺腫瘤輔助診斷模型
        軟件導刊(2016年11期)2016-12-22 21:53:59
        一種基于改進BP神經網(wǎng)絡預測T/R組件溫度的方法
        基于BP神經網(wǎng)絡的光通信系統(tǒng)故障診斷
        科技視界(2016年26期)2016-12-17 17:57:49
        提高BP神經網(wǎng)絡學習速率的算法研究
        考試周刊(2016年21期)2016-12-16 11:02:03
        就bp神經網(wǎng)絡銀行選址模型的相關研究
        基于DEA—GA—BP的建設工程評標方法研究
        價值工程(2016年30期)2016-11-24 13:17:31
        基于BP神經網(wǎng)絡的旅行社發(fā)展方向研究
        商情(2016年39期)2016-11-21 09:30:36
        復雜背景下的手勢識別方法
        国产精品老熟女乱一区二区| 无码精品黑人一区二区三区| 色偷偷88888欧美精品久久久| 久久精品国产乱子伦多人| 国产麻豆剧传媒精品国产av| 色老汉免费网站免费视频| 人片在线观看无码| 免费看黄片视频在线观看| 国产成年人毛片在线99| 又嫩又硬又黄又爽的视频| 亚洲 自拍 另类 欧美 综合| 91精品国产91热久久p| 久久久人妻丰满熟妇av蜜臀| 亚洲av免费不卡在线观看| 亚洲成在人线av品善网好看| 开心婷婷五月激情综合社区| 亚洲一区不卡在线导航| 国产视频一区2区三区| 色窝窝亚洲av网在线观看| 午夜福利理论片高清在线观看| 草草网站影院白丝内射| 国产目拍亚洲精品区一区| 天堂丝袜美腿在线观看| 奶头又大又白喷奶水av| 中文字幕一区二区三区精彩视频| 成人无码无遮挡很H在线播放| 亚洲一区二区三区毛片| 亚洲av天堂免费在线观看| 内射少妇36p亚洲区| 国产成人国产在线观看| 一区二区三区在线观看视频免费| 一区二区三区激情免费视频| 五月丁香综合激情六月久久| 亚洲国产理论片在线播放| 97色人阁俺也去人人人人人| 与最丰满美女老师爱爱视频| 黄桃av无码免费一区二区三区| 少妇被爽到高潮动态图| 日本最新一区二区三区免费看| 青青草原综合久久大伊人精品| 精品国产乱码久久久久久郑州公司 |