亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征加權(quán)與特征選擇的數(shù)據(jù)挖掘算法研究

        2016-03-14 03:22:41孫興文
        關(guān)鍵詞:特征選擇子集數(shù)據(jù)挖掘

        ◆孫興文

        (永州職業(yè)技術(shù)學(xué)院 湖南 425100)

        基于特征加權(quán)與特征選擇的數(shù)據(jù)挖掘算法研究

        ◆孫興文

        (永州職業(yè)技術(shù)學(xué)院 湖南 425100)

        數(shù)據(jù)挖掘作為一門迅速發(fā)展的研究領(lǐng)域,面臨著越來越多新的問題和挑戰(zhàn)。數(shù)據(jù)挖掘在科技、航空、軍事等多個(gè)領(lǐng)域得到了廣泛應(yīng)用,甚至直接決定了行業(yè)的發(fā)展速度和先進(jìn)性,但是在實(shí)踐當(dāng)中,同樣存在許多的問題。本文根據(jù)數(shù)據(jù)挖掘的特性展開分析,以特征加權(quán)與特征選擇的方法進(jìn)行計(jì)算。

        特征加權(quán);特征選擇;數(shù)據(jù)挖掘;算法

        0 前言

        特征加權(quán)算法也被稱為knn算法,就是在挖掘數(shù)據(jù)的計(jì)算當(dāng)中,集合數(shù)據(jù)樣本權(quán)重和特征權(quán)重來確定其真實(shí)性和準(zhǔn)確性。在一定的條件下,能夠極大地提高數(shù)據(jù)分類準(zhǔn)確率,但是卻改變不了計(jì)算機(jī)信息技術(shù)中的主頁和惡意軟件問題,也無法進(jìn)行查驗(yàn)。

        1 數(shù)據(jù)挖掘綜述

        數(shù)據(jù)挖掘的應(yīng)用范圍較廣,不僅是實(shí)現(xiàn)數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)的重要步驟,還能從眾多的數(shù)據(jù)庫當(dāng)中快速、自動(dòng)搜索隱藏在龐大數(shù)據(jù)中非常有價(jià)值的規(guī)律信息,數(shù)據(jù)挖掘也是一種對某種決策的支持過程。但隨著科技的發(fā)展,數(shù)據(jù)挖掘面臨著諸多的挑戰(zhàn),首先是數(shù)據(jù)的挖掘規(guī)模越來越大,龐大的數(shù)據(jù)無法采用有效的辦法進(jìn)行歸納梳理,也不能更好地管理和運(yùn)用;其次是隨著數(shù)據(jù)特征的維數(shù)不斷增加,呈現(xiàn)出許多的維數(shù)災(zāi)難問題;最后是數(shù)據(jù)挖掘,特別是計(jì)算機(jī)信息技術(shù)的數(shù)據(jù)挖掘當(dāng)中,更多的是強(qiáng)調(diào)由學(xué)科交叉產(chǎn)生的綜合性,在挖掘過程中不僅要求工程技術(shù)人員能夠設(shè)計(jì)出具有靈活運(yùn)用統(tǒng)計(jì)、計(jì)算機(jī)、數(shù)學(xué)的建模技術(shù),還需要具有生物、醫(yī)學(xué)、證劵金融等學(xué)科的知識(shí)背景。這些交叉性、多樣化的學(xué)科數(shù)據(jù)挖掘,不僅需要更為科學(xué)有效的管理,還需要對龐大的數(shù)據(jù)流精確的分析方法,尤其是針對高維數(shù)據(jù)的特征加權(quán)和特征選擇方法上,同時(shí)也要對生物信息學(xué)點(diǎn)的交叉性較強(qiáng)的學(xué)科的數(shù)據(jù)挖掘方式加以提升,提高其數(shù)據(jù)準(zhǔn)確性和科學(xué)性,精確數(shù)據(jù)內(nèi)容。

        本文中主要利用特征加權(quán)軟、硬空間聚類方式進(jìn)行計(jì)算,并將特征選擇應(yīng)用到實(shí)踐當(dāng)中。尤其是因?yàn)閿?shù)據(jù)交叉性強(qiáng),數(shù)量龐大,甚至出現(xiàn)高維數(shù)據(jù)的現(xiàn)象,以此探討特征加權(quán)和選擇的問題,以及對多學(xué)科交叉進(jìn)行研究探討。

        2 基于數(shù)據(jù)挖掘規(guī)模龐大的軟子空間聚類算法

        軟子空間聚類算法主要是將挖掘數(shù)據(jù)的原始特征空間分為不同的子區(qū)域,站在不同的角度考察各個(gè)數(shù)據(jù)的分類,在分類的過程中找到相對應(yīng)的特征子空間。運(yùn)用軟子空間聚類算法對挖掘數(shù)據(jù)進(jìn)行計(jì)算,實(shí)際上就是將傳統(tǒng)的特征選擇技術(shù)和聚類算法進(jìn)行有機(jī)結(jié)合,讓每個(gè)數(shù)據(jù)簇都能得到對應(yīng)的特征子集或者權(quán)重,以下進(jìn)行具體分析。

        2.1 自底向上子空間聚類算法

        所謂自底向上子空間聚類算法主要是依照網(wǎng)絡(luò)e構(gòu)建密度設(shè)定,利用網(wǎng)絡(luò)的自底向上的搜索策略將子空間中的數(shù)據(jù)簇聚攏合算。這種方式能夠?qū)⑼诰驍?shù)據(jù)最原始的特征空間分成若干個(gè)小網(wǎng)格,按照不同的特性將數(shù)據(jù)簇落到相應(yīng)的網(wǎng)格樣本點(diǎn),能夠準(zhǔn)確落到相應(yīng)網(wǎng)格中的概率,就表示這個(gè)子空間的密度狀況。當(dāng)某個(gè)網(wǎng)格中的密度超過一定閾值后,需要將子空間作為密集單元保留,對不密集的網(wǎng)格空間直接舍棄,在自底向上的子空間聚類算法當(dāng)中是利用熵理論作為密度度量,再通過靜態(tài)網(wǎng)格進(jìn)行計(jì)算,動(dòng)態(tài)網(wǎng)格查找策略,這樣才能夠得到更加穩(wěn)定的劃分結(jié)果。

        2.2 自頂向下子空間聚類算法

        自頂向下的聚類算法運(yùn)用的是數(shù)據(jù)投影技術(shù)的迭代搜索策略進(jìn)行挖掘計(jì)算,首先是將整個(gè)挖掘數(shù)據(jù)劃分為多個(gè)不同的數(shù)據(jù)簇,比如生物學(xué)一類、醫(yī)學(xué)一類,每個(gè)數(shù)據(jù)簇都有相同的權(quán)值及不同類型的特征權(quán)重。劃分好后就能夠采用迭代策略對這些初步數(shù)據(jù)不斷更新改良,重新定義數(shù)據(jù)簇的權(quán)重和聚類。當(dāng)然龐大數(shù)據(jù)的迭代計(jì)算復(fù)雜度相當(dāng)高,所以在計(jì)算時(shí)通常采用采樣以提高其準(zhǔn)確性,比如PROCLUS(普羅克洛斯)、FINDIT等。運(yùn)用以上計(jì)算方式在初始、迭代、改良等階段的計(jì)算有所不同。在初始數(shù)據(jù)階段的計(jì)算就是隨機(jī)抽樣,運(yùn)用數(shù)據(jù)的探析策略尋找網(wǎng)格潛在中心集合的超集,只要保證挖掘數(shù)據(jù)簇中都有一個(gè)超集中心點(diǎn)即可。而在迭代階段則是從超集當(dāng)中隨機(jī)選一個(gè)聚類中心,以此替代當(dāng)前集合中不好的樣本點(diǎn),以此循環(huán)得到更為優(yōu)質(zhì)的中心點(diǎn)集,直到每個(gè)聚類中心點(diǎn)的集合達(dá)到穩(wěn)定后,再以子空間樣本點(diǎn)對聚類中心平均距離做數(shù)據(jù)簇半徑,找到對應(yīng)特征子集。在改良極端就是將每個(gè)數(shù)據(jù)簇聚類中心再次掃描確定特征子集,并計(jì)算出樣本點(diǎn)到中心的曼哈頓距離,去除孤立點(diǎn)后重新劃分。

        2.3 模糊加權(quán)軟子空間聚類算法

        上述兩種方式是軟子空間聚類,而模糊加權(quán)空間聚類算法屬于硬子空間聚類計(jì)算,在計(jì)算時(shí)具有更好的適應(yīng)性和靈活性。具體來說就是將挖掘數(shù)據(jù)集,由軟子空間計(jì)算出聚類中心V={v1,1≤i≤C},C是獲得的數(shù)據(jù)簇的聚類中心數(shù)量,j則表示樣本x是屬于第j個(gè)聚類中心vi的模糊隸屬度,要計(jì)算出整個(gè)數(shù)據(jù)集的模糊隸屬度矩陣U={uij|l≤i≤C,l≤j≤N|}。當(dāng)然為了更好地挖掘每個(gè)數(shù)據(jù)集子空間結(jié)構(gòu),聚類計(jì)算方法會(huì)在聚類當(dāng)中,都會(huì)賦予每簇?cái)?shù)據(jù)特征加權(quán)系數(shù)。在計(jì)算當(dāng)中用wik表示與某個(gè)特征對應(yīng)的數(shù)據(jù)簇的重要性,以w來表示數(shù)據(jù)集特征加權(quán)系數(shù),將相應(yīng)的特征加權(quán)系數(shù)和模糊加權(quán)指數(shù)引入函數(shù)計(jì)算公式當(dāng)中:。在計(jì)算的過程中,只要給定m和t相應(yīng)的數(shù)據(jù),就能計(jì)算出初始、迭代、改良等階段的數(shù)據(jù)。比如當(dāng)m大于1和t大于1時(shí),最小化的FWSC算法的目標(biāo)函數(shù)計(jì)算出的模糊隸屬度。

        3 特征選擇算法

        特征選擇是數(shù)據(jù)挖掘和機(jī)械領(lǐng)域的關(guān)鍵,在挖掘數(shù)據(jù)數(shù)量龐大及高維特征時(shí),原有的特征選擇方式不能更精確數(shù)據(jù)。要獲得有效的數(shù)據(jù),就需要在計(jì)算的框架內(nèi)有針對性的選擇,這就是特征選擇。特征選擇主要是通過對原始特征空間數(shù)據(jù)簇進(jìn)行篩選,生成策略,然后形成特征子集,對選擇的數(shù)據(jù)進(jìn)行評價(jià),停止條件選擇,最后得出結(jié)論等幾個(gè)步驟。

        3.1 過濾型特征選擇方式

        過濾型特征選擇最大的優(yōu)勢是不會(huì)依靠相應(yīng)的分類器材,確定時(shí)僅靠數(shù)據(jù)本省的特征,在選擇時(shí)先假設(shè)每個(gè)特征都是獨(dú)立存在的,采用某種搜索方式選擇出合理的特征子集。在選擇算法當(dāng)中,過濾型是最為簡單的,常見的計(jì)算方式有FOCUS、Relief和分?jǐn)?shù)方程。在選擇期間,選用一組具有代表的特征作為數(shù)據(jù)的子集,這是有利于提高計(jì)算的準(zhǔn)確率,具體方式如圖1所示:

        猜你喜歡
        特征選擇子集數(shù)據(jù)挖掘
        由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
        拓?fù)淇臻g中緊致子集的性質(zhì)研究
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        關(guān)于奇數(shù)階二元子集的分離序列
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        每一次愛情都只是愛情的子集
        都市麗人(2015年4期)2015-03-20 13:33:22
        基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
        亚洲人妖女同在线播放| 日韩少妇激情一区二区| 久久99欧美| 亚洲熟女国产熟女二区三区| 久久精品女同亚洲女同| 国产电影一区二区三区| 永久黄网站色视频免费| 国语精品视频在线观看不卡| 中文字幕综合一区二区| 久久亚洲av午夜福利精品一区| 午夜福利电影| 亚洲欧洲美洲无码精品va| 中文字幕一区二区综合| 内射合集对白在线| 亚洲欧美日韩在线观看一区二区三区| 特黄三级一区二区三区| 亚洲中文av中文字幕艳妇| 亚洲国产精品ⅴa在线观看| 欧美日韩国产一区二区三区地区| 亚洲国产av中文字幕| 国产精品一区二区三久久不卡| 亚洲av无码精品色午夜在线观看| 一本无码av一区二区三区| 中文字幕亚洲永久精品| 麻豆md0077饥渴少妇| 国产精品麻花传媒二三区别| 激情文学人妻中文字幕| 国产视频一区二区在线免费观看| 大肉大捧一进一出视频| 曰韩精品无码一区二区三区| 翘臀诱惑中文字幕人妻| 亚洲av综合色区无码专区桃色| 人妻无码久久一区二区三区免费| 波多野无码AV中文专区| 日韩中文字幕素人水野一区 | 国产顶级熟妇高潮xxxxx| 亚洲综合偷自成人网第页色| 99久久精品人妻一区二区三区 | 美女污污网站| 乳乱中文字幕熟女熟妇| 久久天天躁狠狠躁夜夜avapp|