亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘K-Means算法在實(shí)踐應(yīng)用中的分析

        2016-08-07 16:15:34李江鵬
        大科技 2016年1期
        關(guān)鍵詞:群集數(shù)據(jù)挖掘聚類

        李江鵬

        (廣西金融職業(yè)技術(shù)學(xué)院 廣西南寧 530007)

        數(shù)據(jù)挖掘K-Means算法在實(shí)踐應(yīng)用中的分析

        李江鵬

        (廣西金融職業(yè)技術(shù)學(xué)院 廣西南寧 530007)

        在數(shù)據(jù)挖掘中,聚類分析K-Means算法幾乎是目前最主流的算法和應(yīng)用了,因為其技術(shù)的成熟和算法的可靠,并且所建模型的見解、高校、易理解和易實(shí)施,所以被廣泛應(yīng)用于商業(yè)實(shí)踐中,在數(shù)據(jù)化運(yùn)營實(shí)踐中,我們發(fā)現(xiàn)K-Means算法有其需要重點(diǎn)注意事項,通過優(yōu)化這些注意事項,可以使K-Means算法更高效、應(yīng)用得更好。

        K-Means算法;聚類分析;數(shù)據(jù)挖掘

        1 K-Means算法

        K-Means聚類算法是使用最普遍的一種聚類算法。名稱中的K食指算法所有尋找的群集數(shù)。K的取值需要算法的使用者事先設(shè)定。為便于解釋,本文用二維變量下的二維圖形來展示該技術(shù)。值得注意的是,一般情況下輸入變量大都多于二維。但是,把輸入變量限定為二維可以使用二維空間的離散點(diǎn)來簡單形象地說明聚類過程,該過程對于高維變量的數(shù)據(jù)而言也相同。

        每一條記錄都被看成是一個離散點(diǎn),這也意味著所有的輸入變量都必須是數(shù)值型的。數(shù)據(jù)在散點(diǎn)圖上的分布就像云一樣。聚類算法的目標(biāo)是找到K個點(diǎn)作為群集的中心。群集的中心定義了群集:將每條記錄分配到與它最近的群集中心所在的群集中。

        很明顯,好的群集中心應(yīng)該在數(shù)據(jù)云中最密集的區(qū)域。可以將群集中心的最佳分配方式定義為:使所有的數(shù)據(jù)點(diǎn)到其最近群集中心的聚類或者距離平方和最小。找到這些最優(yōu)解比較困難,K-Means算法也沒打算這樣做。相反,其開始時隨機(jī)選定一些點(diǎn)作為群集中心點(diǎn),然后采用一系列步驟加以改進(jìn)。所以在改進(jìn)的過程中就有一些需要注意的事項。

        2 K-Means算法在實(shí)踐應(yīng)用中需要重點(diǎn)注意的事項

        2.1 如何處理數(shù)據(jù)噪聲和異常值

        K-Means算法對噪聲和異常值是非常敏感的,這些個別數(shù)據(jù)對于平均值的影響非常大,相對而言,K-中心點(diǎn)的方法不像K-Means算法,它不是求樣本的平均值,而是用類中最接近于中心點(diǎn)的對象來代表類,因此K-中心點(diǎn)的方法對于噪聲和異常值沒有K-Means算法那么敏感。鑒于K-Means算法的這一局限性,我們應(yīng)用該算法時需要特別注意這些數(shù)據(jù)噪聲和異常值,常用處理方法如下:

        (1)直接刪除那些比其他任何數(shù)據(jù)點(diǎn)都要遠(yuǎn)離聚類中心點(diǎn)的異常值。為了防止誤刪的情況發(fā)生,數(shù)據(jù)挖掘中需要在多次的聚類循環(huán)中監(jiān)控這些異常值,然后依據(jù)業(yè)務(wù)邏輯與多次的循環(huán)結(jié)果進(jìn)行對比,再決定是否刪除這些異常值。

        (2)隨機(jī)抽樣的方法也可以較好地規(guī)避數(shù)據(jù)噪聲的影響。因為是隨機(jī)抽樣,作為稀有事件的數(shù)據(jù)噪聲和異常值能被隨機(jī)抽進(jìn)樣本中的概率會很小,這樣隨機(jī)抽出的樣本就比較干凈。針對該隨機(jī)樣本進(jìn)行聚類分析時不僅可以避免數(shù)據(jù)噪聲的誤導(dǎo)和干擾,而且其聚類后的結(jié)果作為聚類模型可以應(yīng)用到生育的數(shù)據(jù)集中,完成對整個數(shù)據(jù)集的聚類劃分。利用這種隨機(jī)抽樣方式得到的聚類模型,在應(yīng)用于整個數(shù)據(jù)集時至少有以下兩種方式:

        ①直接用該聚類模型對剩余的數(shù)據(jù)集進(jìn)行判斷,也就是把剩余的數(shù)據(jù)分配給那些離他們最近的聚類中心,這種方法最簡單、最直觀、最快捷。

        ②利用監(jiān)督學(xué)習(xí)中的分類器的原理,每個聚類被認(rèn)為是一個類別,已經(jīng)參與聚類的這些隨機(jī)抽樣數(shù)據(jù)則被看作是學(xué)習(xí)的樣本,由此產(chǎn)生的分類器可以用于判斷剩余的那些數(shù)據(jù)點(diǎn)最適合放進(jìn)那個類別或者那個聚類群體中。這種方式較第一種方式來說比較費(fèi)時,尤其是當(dāng)聚類出來的群體較多的時候,利用分類器的原理去分別判斷時會更加耗時。

        2.2 數(shù)據(jù)標(biāo)準(zhǔn)化

        在數(shù)據(jù)化運(yùn)營的商業(yè)實(shí)踐中,參與聚類的變量絕大多數(shù)都是區(qū)間型變量,不同區(qū)間型變量之間區(qū)間型變量之間的單位數(shù)量不同,如果不加處理直接進(jìn)行聚類,很容易造成聚類結(jié)果的失真。比如,長度單位有的是公里,有的是毫米;質(zhì)量單位有的是噸,有的是克;一般而言,變量的單位越小,變量可能的值域就越大,對聚類結(jié)果的影響也就越大。為了避免對度量單位選擇的依賴,在聚類之前所才去的一個重要的技術(shù)措施就是進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化。

        數(shù)據(jù)的標(biāo)準(zhǔn)化有多種不同的方式,其中,以標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化最常用。標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,又叫Z-Score標(biāo)準(zhǔn)化,經(jīng)過這種方法處理后的數(shù)據(jù)符合標(biāo)準(zhǔn)正太分布,即均值為0,標(biāo)準(zhǔn)差為1,其轉(zhuǎn)化公式如下:

        式中:μ-所有樣本數(shù)據(jù)的均值;σ-所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。

        2.3 聚類變量的少而精

        在聚類分析中,參與聚類的指標(biāo)變量不能太多,如果太多,一方面會顯著增加運(yùn)算的時間,更重要的是變量之間或多或少的相關(guān)性會嚴(yán)重?fù)p害聚類的效果,并且太多的變量參與期中后會使隨后的聚類群體的業(yè)務(wù)解釋變得很復(fù)雜。鑒于此,聚類之前,如何精心挑選特定的少數(shù)變量參與聚類是聚類分析技術(shù)應(yīng)用的有一個關(guān)鍵點(diǎn)。

        那么要如何落實(shí)聚類變量少而精的原則呢?本文提出以下幾點(diǎn):

        (1)緊緊圍繞具體分析目的和業(yè)務(wù)需求挑選聚類變量。在分析展開之前,密切保持與業(yè)務(wù)需求方的溝通,借鑒業(yè)務(wù)方的業(yè)務(wù)經(jīng)驗和業(yè)務(wù)直覺,直接排除大量無關(guān)的指標(biāo)變量,鎖定與項目需求關(guān)系最密切的核心變量。任何數(shù)據(jù)挖掘項目都是有明確挖掘任務(wù)定義的,聚類分析也如此,在聚類之前應(yīng)該明確的聚類應(yīng)用目的。然后根據(jù)這個目的挑選一些相應(yīng)的字段。比如:如果在10000個用戶樣本中,想從產(chǎn)品使用習(xí)慣不同的角度來細(xì)分群體,以此調(diào)整我們的客戶服務(wù),可以優(yōu)先考慮把產(chǎn)品使用頻率,產(chǎn)品檔次、主要損耗件的類別等作為其中的聚類字段;而如果要從不同的購買習(xí)慣的角度來劃分群體,以供營銷策劃參考,則會把付費(fèi)的方式、產(chǎn)品檔次、是否響應(yīng)促銷等作為優(yōu)先考慮的聚類字段。這主要是想說明,對于任何具體的聚類項目,都應(yīng)該事先在腦海里有一些相應(yīng)的基本核心字段可以與該項目相匹配,而不能不管是什么項目、什么任務(wù)、什么目的,把所有變量統(tǒng)統(tǒng)放進(jìn)去,這樣做是沒有任何意義的。

        (2)通過相關(guān)性監(jiān)測,可防止相關(guān)性高的變量同時進(jìn)入聚類計算。比如:互聯(lián)網(wǎng)行業(yè)的分析中,登陸次數(shù)、在線時長、PV瀏覽量等這些變量相互之間都是有明顯關(guān)系的,只取其中一個變量就足夠了。

        (3)數(shù)據(jù)分析也好,數(shù)據(jù)挖掘也好,其本身是充滿想象藝術(shù)的,所謂一半是科學(xué)、一半是藝術(shù),這是聚類分析在實(shí)踐中應(yīng)用的特點(diǎn)。數(shù)據(jù)分析在很多時候是需要一些衍生變量來畫龍點(diǎn)睛的。我們常常容易從現(xiàn)有的數(shù)據(jù)庫中提取縣城的字段,而經(jīng)常忘記一些衍生的新字段,比如比率。很多時候,我們的分析中有太多直接提取的絕對值字段,而常會忘記增添一些有價值的相對值字段,什么時候要考慮哪些有價值的比率字段,這需要業(yè)務(wù)知識和挖掘經(jīng)驗來支持的。

        (4)主要成分分析,作為一種常用的降維方法,可以在聚類之前進(jìn)行數(shù)據(jù)清理,幫助有效精簡變量的數(shù)量,確保參與聚類運(yùn)算變量的少而精。然而任何事物都是具有兩面性的,主成分分析在幫助聚類算法精簡輸入變量數(shù)目的同時,也會造成聚類結(jié)論的可解釋性、可理解性上相對于原始變量而言更加復(fù)雜,在直觀上不容易理解。

        3 總結(jié)與展望

        以上的內(nèi)容總結(jié)的聚類分析都是在典型業(yè)務(wù)場景中的應(yīng)用。除此之外,聚類分析還有更多的擴(kuò)展應(yīng)用,這些擴(kuò)展應(yīng)用有的能顯著提升單純聚類分析所無法實(shí)現(xiàn)的商業(yè)應(yīng)用價值,有的可以作為輔助工具提升其他建模工具的應(yīng)用效果,而效果很顯著,還有的突破了常規(guī)聚類應(yīng)用的場景,參與到個性化推薦的應(yīng)用中了。聚類分析技術(shù)的這些擴(kuò)展應(yīng)用,生動體現(xiàn)了數(shù)據(jù)挖掘分析技術(shù)在業(yè)務(wù)實(shí)踐中的生命力,也對人們提出了自我專業(yè)提升的方向和思路,即與時俱進(jìn)、緊貼業(yè)務(wù)需求、以不變的聚類原理,從容應(yīng)對萬變的業(yè)務(wù)員場景和業(yè)務(wù)需求。

        [1]張立.基于新聞評論數(shù)據(jù)的K-means聚類算法的研究[D].太原理工大學(xué),2010.

        [2]于劍,程乾生.模糊聚類方法中的最佳聚類數(shù)的搜索范圍[J].中國科學(xué):E 輯,2002,32(2):274~280.

        [3]楊燕,薪蕃.微粒群優(yōu)化算法研究現(xiàn)狀及其發(fā)展[J].計算機(jī)工程,2004,30(21).

        [4]張麗平,俞歡軍,陳德釗,等.粒子群優(yōu)化算法的分析與改進(jìn)[J].信息與控制,2004,33(5).

        TP311

        A

        1004-7344(2016)01-0285-02

        2015-12-25

        猜你喜歡
        群集數(shù)據(jù)挖掘聚類
        Cecilia Chiang, pioneer of Chinese cuisine
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于自組織結(jié)對行為的群集機(jī)器人分群控制方法
        基于改進(jìn)的遺傳算法的模糊聚類算法
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        淺談ODX與動態(tài)群集
        一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
        自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
        日韩精品一区二区三区视频| 国产精品久久无码一区二区三区网| 99热精品国产三级在线观看| 国产一区二区三区av免费观看| 国产高清一区二区三区三州| 深夜福利啪啪片| 亚洲精品久久无码av片软件| 最新国产成人综合在线观看| 中文字幕日韩精品人妻久久久| 99久久无色码中文字幕人妻蜜柚| 狠狠色噜噜狠狠狠狠色综合久 | 久久精品99久久香蕉国产| 中文字幕av在线一二三区| 亚洲亚洲亚洲亚洲亚洲天堂| 久久久精品国产免费看| 免费成人在线电影| 日韩在线免费| 亚洲av成人久久精品| 伊人中文字幕亚洲精品乱码| 亚洲精品午睡沙发系列| 色综合久久久久综合999| av一区二区三区观看| 97se亚洲国产综合自在线观看| 免费男人下部进女人下部视频| 亚洲乱码一区AV春药高潮| 91精品啪在线观九色 | 国产露脸精品产三级国产av| 99日本亚洲黄色三级高清网站| 大屁股流白浆一区二区三区| 久久久久久久97| 亚洲国产一区二区三区网| 色婷婷一区二区三区77| 浓毛老太交欧美老妇热爱乱 | 国产精品综合日韩精品第一页| 女同视频网站一区二区| 国产玉足榨精视频在线观看| 黑人巨大白妞出浆| 精品少妇ay一区二区三区| 四虎无码精品a∨在线观看| 国产亚洲熟妇在线视频| 国内精品卡一卡二卡三|