亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        試論一種基于粗糙集的海量數(shù)據(jù)挖掘算法

        2018-04-16 12:40:09中國計量大學(xué)信息工程學(xué)院蔡叢豫
        電子世界 2018年20期
        關(guān)鍵詞:數(shù)據(jù)挖掘

        中國計量大學(xué)信息工程學(xué)院 蔡叢豫

        引言:就傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)來說,其在數(shù)據(jù)量級方面存在著一定的局限性,影響最終的效果,所以將粗糙集理論應(yīng)用其中。對此,本文以算法的優(yōu)化為切入點,對一種基于粗糙集的海量數(shù)據(jù)挖掘算法進行分析。結(jié)合本文的分析,其目的就是優(yōu)化海量數(shù)據(jù)挖掘算法,并以全新的并行算法等為基礎(chǔ),提高海量數(shù)據(jù)挖掘的效率,以期為相關(guān)人員提供參考。

        1.基于粗糙集對Rough Set知識約簡算法的改進

        1.1 離散化算法

        在Rough Set知識獲取方法中,數(shù)據(jù)離散化是其關(guān)鍵的構(gòu)成內(nèi)容之一,本文就采用屬性重要性的方式,將CDL引入到原算法之中,保證這種算法能夠?qū)崿F(xiàn)對海量數(shù)據(jù)的挖掘。具體來說,這種算法的具體步驟為:

        (1)對每一個連續(xù)的條件屬性,進行循環(huán)遍歷,同時能夠生成條件信息熵,即ICDL({ai})的信息熵。

        (2)結(jié)合條件信息,對信息熵以降序的方式進行排序,即將所有連續(xù)的屬性均進行排列。

        (3)對于完成排序的DT,并每個條件的ai進行循環(huán)遍歷,從而能夠形成ICDL(C{ai})。在這一條件下,可以將Szone設(shè)置為null,而Szone實際上是ai值域的子集。

        (4)對(Sa,Sb)區(qū)間的額每一個斷點,進行循環(huán)遍歷,而Sa、Sb是ai的連續(xù)屬性值,并設(shè)Szone的值為Szone與Sa的和。

        (5)對DT中所有滿足條件SVj(ai)=Sh的樣本,進行循環(huán)遍歷,即SVj,而其中的Sh=屬于Szone。

        (6)對DT中所有滿足條件SVj(ai)=Sb的樣本,進行循環(huán)遍歷,即SVk,如果樣本SVk、SVj屬于ICDL({ai})的同一分類中,并且使用@的符號進行連接,在需要將(Sa,Sb)的斷點選擇出來,并對Szone進行重置(空)。

        1.2 值約簡算法

        基于粗糙集理論,能夠?qū)χ导s簡算法進行改進,以此來實現(xiàn)對海量的挖掘,保證數(shù)據(jù)分析結(jié)果的穩(wěn)定性。具體來說,值約簡算法的具體步驟如下:

        (1)輸入一個完備的信息系統(tǒng)DT,最終輸出的結(jié)果為規(guī)則集RT。假設(shè)Index為樣本標(biāo)號,DA表示決策屬性,C則為條件屬性的集合,然后進行以下的計算步驟。

        (2)對RT進行初始化,使其轉(zhuǎn)化為DT。

        (3)對所有的條件屬性ai進行循環(huán)遍歷,并將SSCDL(ai)中的所有樣本,均以“?”的符號標(biāo)記在ai之上。

        (4)對MSCDL(ai)中的所有樣本ai,均以“*”進行屬性值的標(biāo)記。另外,在MSCDL(ai)中剩余的樣本,其ai的屬性值并不需要進行改變。

        (5)在后續(xù)的計算步驟,只需要按照傳統(tǒng)的值約簡算法進行即可。

        2.基于粗糙集的兩步離散化算法并行化

        2.1 離散化算法

        實際上,本文所提及的離散化算法,其是以動態(tài)聚類為基礎(chǔ)的。對于這種算法的具體步驟,本文將做出如下的分析:

        (1)輸入決策表,即S=<U,同時R=C∪D,還包括V、F>。輸出的結(jié)果為:對S進行篩選而形成具體的斷點集,即CUTfirst,以此來對S中的每一個屬性k進行遍歷,然后進行如下的計算。

        (2)對k斷點的重要性進行計算、分析,并按照由小到大的順序進行排序。然后,在數(shù)組Importantk[]中對計算結(jié)果進行保存,數(shù)組的索引m表示斷點最為重要的位置。具體來說,Importantk[m]=max{Importantk[i],i∈并設(shè)l等于0,n等于|h-l+1|,而h等于m。

        (3)采用歸一化的方式對數(shù)據(jù)進行處理,并對Importantk[]進行循環(huán)遍歷,最終得出:Importantk[i]=Importantk[i]/Importantk[m]。

        (5)對聚類的個別數(shù)進行初始化,并對變量v=e+1進行循環(huán)控制。

        (6)如果v的數(shù)值大于e,則應(yīng)該進行以下的循環(huán):1)建立中心表T,定在Importantk中對l~h的范圍進行隨機選擇K個中心;2)對e1=0的循環(huán)變量進行設(shè)定;3)如果e1不等于v時,其所執(zhí)行的循環(huán)為:e1等于v,應(yīng)對Importantk中數(shù)值距離、數(shù)值類別進行統(tǒng)計,然后將其與距離最小的類別進行同類處理,并對聚類中心的數(shù)值進行調(diào)整,明確T中各類標(biāo)準(zhǔn)差的數(shù)值,并使v等于

        (8)在每一個聚類類別中,選擇最重要的斷點,添加至CUT-ifrst之中。基于這樣的方式,就能夠基于粗糙集理論實現(xiàn)對離散化算法的優(yōu)化,以便于對海量數(shù)據(jù)進行挖掘與計算。

        2.2 并行離散化算法

        依據(jù)粗糙集理論,可以在動態(tài)聚類的基礎(chǔ)上,實現(xiàn)兩步并行理算化算法,其具體的計算步驟為:

        (1)輸入S=<U,同時R=C∪D,還包括V、F>。輸出的結(jié)果為:決策表S中的斷點集,即CUTlast,然后進行如下的計算。

        (2)在沒有進行離散化的基礎(chǔ)上,對決策表中區(qū)域的POSc(D)進行詳細的計算[2]。

        (3)在散播屬性的階段,可以在主進程中設(shè)置證其能夠滿足條件條件屬性的全集,并將S1分配給P1……。并保

        (4)在進行并行處理的過程中,假設(shè)進程為Pi,則可以通過兩步離散化算法進行處理,實現(xiàn)對斷點的聚類,并將其發(fā)送至CUTfirst中。

        (6)在并行離散化算法的過程中,實際上需要對斷點補充進行修正,這一階段的具體方式,與兩步離散化算法相同。

        (7)在斷點散播階段之中,其中的斷點集可以由各個進程L進行表示,將以等價類的方式對集合進行實例劃分,即CUTlast為空集,而L則等于{U}。在計算的過程中,可以設(shè)置滿足條件另外還包括條

        (8)在對數(shù)據(jù)進行并行處理的階段,可以根據(jù)斷點的重要性,進行選擇與發(fā)送。

        (9)在斷點的歸約階段之中,其主進程應(yīng)該接受所有的結(jié)果[3]。

        (10)對各個進程的CUTlast進行更新。

        (11)依據(jù)X∈L的條件,對相關(guān)的數(shù)據(jù)進行處理,最終將其中的X取掉。

        (12)如果L中的實例并沒有形成相同的決策,在需要從步驟(3)進行重復(fù),反之則可以結(jié)束算法。

        結(jié)語:綜上所述,為了能夠?qū)崿F(xiàn)對海量數(shù)據(jù)的挖掘,就應(yīng)該打破傳統(tǒng)算法的限制。在本文的分析中,對于算法的改進,其創(chuàng)新點在于以粗糙集為基礎(chǔ),結(jié)合傳統(tǒng)算法實現(xiàn)了對海量數(shù)據(jù)挖掘算法的優(yōu)化,而本文的研究能夠在一定程度上為豐富文獻類的類型做出貢獻,基于這一條件,提高了數(shù)據(jù)算法的簡便性,并實現(xiàn)了對數(shù)據(jù)深入挖掘的目標(biāo),發(fā)揮了基于粗糙集的海量數(shù)據(jù)挖掘算法的價值。通過這樣的優(yōu)化方式,在根本上強化了數(shù)據(jù)挖掘算法的準(zhǔn)確性,在未來的發(fā)展中,很可能會應(yīng)用在各個行業(yè)的大數(shù)據(jù)分析中,為其制定決策、戰(zhàn)略提供有價值的數(shù)據(jù)依據(jù)。另外,所以,結(jié)合本文的分析發(fā)現(xiàn),文中所論述的一種基于粗糙集的海量數(shù)據(jù)挖掘算法,其具有較強的可行性。

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
        欧美综合区| 欧美成人片一区二区三区 | 在线观看av永久免费| 亚洲乱码视频在线观看| 国产精品99久久久精品免费观看| 精品无码成人片一区二区| 久久精品国产亚洲av热明星| 亚洲伊人av综合福利| 国内精品国产三级国产| 51国产偷自视频区视频| 337p人体粉嫩胞高清视频| 男男受被攻做哭娇喘声视频| 国产色诱视频在线观看| 免费看一级a女人自慰免费| 果冻国产一区二区三区| 日本97色视频日本熟妇视频| 国产一区亚洲二区三区极品| 国产午夜免费高清久久影院| 老太脱裤子让老头玩xxxxx| 欧美与黑人午夜性猛交久久久| 人人看人人做人人爱精品| 精品国产亚洲一区二区三区演员表 | 日本成本人三级在线观看| 国产一区二区三区在线观看免费| 屁屁影院一区二区三区| 中文岛国精品亚洲一区| 日韩在线精品视频免费| 亚洲av色在线播放一区| 人人超碰人人爱超碰国产| 国产办公室沙发系列高清| 大地资源网更新免费播放视频| 精品国产91久久综合| 女同视频网站一区二区| 天堂网日韩av在线播放一区| 欧美老妇交乱视频在线观看| 九九精品国产亚洲av日韩 | 国产福利一区二区三区在线观看| 亚洲免费国产中文字幕久久久| 一边做一边喷17p亚洲乱妇50p| 韩国精品一区二区三区无码视频| 国产丝袜精品不卡|