韓 玉,黨宏鵬,朱 猛
(東北電力大學(xué) 理學(xué)院,吉林 吉林 132012)
隨著現(xiàn)代數(shù)據(jù)存儲(chǔ)技術(shù)的發(fā)展,海量數(shù)據(jù)庫(kù)的內(nèi)在規(guī)律愈加復(fù)雜難辨.在對(duì)海量數(shù)據(jù)進(jìn)行分類挖掘時(shí),傳統(tǒng)的聚類方法面臨諸多的局限[1].事實(shí)上,某種聚類分析方法僅僅適用于分析數(shù)據(jù)中的某類規(guī)律,如果忽略模型的適用前提和聚類對(duì)象的具體特點(diǎn),簡(jiǎn)單地套用傳統(tǒng)聚類模型將難以取得理想的分類效果.關(guān)于如何解決傳統(tǒng)聚類方法,處理現(xiàn)有海量數(shù)據(jù)問(wèn)題,很多學(xué)者進(jìn)行了很多有益的探討.國(guó)內(nèi)學(xué)者劉瑞元[2]定義了加權(quán)歐氏距離,并討論了它的性質(zhì),并應(yīng)用加權(quán)歐氏距離對(duì)2000年奧運(yùn)金牌榜前10名的國(guó)家進(jìn)行了加權(quán)聚類分析.在傳統(tǒng)聚類分析的基礎(chǔ)上,加權(quán)聚類分析方法考慮了指標(biāo)之間重要性的差異,但沒(méi)有考慮指標(biāo)之間存在高度相關(guān)性的因素.王慶豐[3]采用主成分分析與聚類分析相結(jié)合的集成方法(即一般主成分聚類分析方法)將指標(biāo)降維成若干相互獨(dú)立的主成分因子[4],進(jìn)而以等權(quán)的主成分因子代替原始指標(biāo)對(duì)我國(guó)各地區(qū)人口素質(zhì)差異進(jìn)行聚類分析.一般主成分聚類是在忽略主成分因子的特征權(quán)重的條件下進(jìn)行聚類,雖然解決了指標(biāo)之間的高度相關(guān)性,但又忽略了因子特征權(quán)重的影響,特征權(quán)重是對(duì)主成分因子進(jìn)行賦權(quán),再對(duì)賦權(quán)的主成分因子進(jìn)行聚類,這樣便加大了第一主成分對(duì)分類的影響,也會(huì)對(duì)分類的精度產(chǎn)生影響.
基于現(xiàn)有的聚類方法,本文基于已有聚類及主成分分析方法,提出一種新的聚類方法——加權(quán)主成分距離聚類方法.加權(quán)主成分距離聚類是按特征權(quán)重,對(duì)主成分因子進(jìn)行賦權(quán),這樣可使各主成分的重要性保持著原有的比例關(guān)系.
傳統(tǒng)的聚類分析多是基于樣本(指標(biāo))之間距離(相關(guān)系數(shù))的親疏關(guān)系進(jìn)行分類[5~9],相似性度量不但取決于指標(biāo)之間的親疏程度,而且依賴于指標(biāo)重要性的內(nèi)在差異.因此,用于構(gòu)建聚類統(tǒng)計(jì)量的指標(biāo)選擇至為重要.傳統(tǒng)的聚類算法要求描述樣本的指標(biāo)重要性相同,并且彼此獨(dú)立,然而對(duì)于復(fù)雜的海量數(shù)據(jù)庫(kù),系統(tǒng)層次結(jié)構(gòu)的指標(biāo)體系中各指標(biāo)重要性相差懸殊,指標(biāo)之間不可避免地會(huì)有信息的重疊.如果對(duì)存有高度共線性的指標(biāo)不加處理,直接聚類,那么聚類統(tǒng)計(jì)量將同類指標(biāo)重復(fù)計(jì)算,過(guò)于放大共線性指標(biāo)的作用,而淹沒(méi)獨(dú)立性指標(biāo)的貢獻(xiàn),導(dǎo)致分類結(jié)果失真.應(yīng)用傳統(tǒng)聚類模型處理實(shí)際分類問(wèn)題,為了克服指標(biāo)體系的高度共線性,往往是定性分析指標(biāo)之間的機(jī)理關(guān)系,再主觀刪除信息重疊的指標(biāo),這樣以達(dá)到聚類指標(biāo)彼此獨(dú)立.例如通過(guò)專家打分賦予不同指標(biāo)相應(yīng)的權(quán)重,以體現(xiàn)指標(biāo)重要性的差異.顯然,定性地篩選指標(biāo)和主觀賦權(quán),需要對(duì)每一指標(biāo)的實(shí)際意義有深入的了解,并且要求分析者具有相關(guān)的領(lǐng)域知識(shí)和客觀公正的賦權(quán)標(biāo)準(zhǔn),這在實(shí)際應(yīng)用中難以保證.
主成分分析方法是降低數(shù)據(jù)空間維度的重要方法[10],其分析結(jié)果是將原始錯(cuò)綜復(fù)雜的指標(biāo)體系通過(guò)線性變換轉(zhuǎn)化為少數(shù)相互獨(dú)立的主成分綜合指標(biāo),并且要求低維主成分空間能夠體現(xiàn)原始指標(biāo)體系的絕大部分信息.一般主成分聚類分析方法,首先應(yīng)用主成分分析克服原始指標(biāo)之間的共線性影響,再用少數(shù)主成分代替原始指標(biāo)進(jìn)行聚類.值得肯定的是,主成分聚類克服了傳統(tǒng)聚類模型不能處理指標(biāo)之間高度共線性的不足,但應(yīng)該注意到,不同主成分體現(xiàn)原始指標(biāo)體系信息的能力(方差貢獻(xiàn)率)往往相差懸殊,如果忽略不同主成分重要性的客觀差異,不加區(qū)別地直接將主成分代替原始指標(biāo)聚類,則必然會(huì)影響主成分聚類分析的準(zhǔn)確性.
設(shè)F1,F(xiàn)2,,F(xiàn)s(s≤p)為提取的主成分因子的列向量,其中Fi=(Fi1,,F(xiàn)ip).假設(shè)所提取主成分因子F1,F(xiàn)2,,F(xiàn)s對(duì)應(yīng)的特征值分別為λ1,λ2,,λs,且λ1≥λ2≥≥λs,
(1)
式中:dij(q)為樣本Ii與Ij之間的距離,dij(q)越小(大)表示兩樣本接近程度越大(小).不難發(fā)現(xiàn),該距離定義直接將主成分因子代替原始指標(biāo)聚類,在實(shí)際運(yùn)用時(shí)存在一個(gè)前提假設(shè),即s個(gè)主成分因子對(duì)分類的重要性均相等,即主成分因子的特征權(quán)重β1=β2==βs.然而,由于提取主成分因子時(shí)已假設(shè)β1≥β2≥≥βs,因此,dij(q)樣本距離定義的前提假設(shè)與主成分因子提取的前提假設(shè)相違背,采用等權(quán)的主成分因子代替原始指標(biāo)直接進(jìn)行聚類分析,便削弱了特征權(quán)重較大的第一主成分因子的重要性,同時(shí)放大了特征權(quán)重較小的其他主成分因子的重要性,從而導(dǎo)致一般主成分聚類分析方法的分類結(jié)果失真.
借鑒主成分聚類分析思想,考慮主成分體現(xiàn)原始指標(biāo)信息含量的差異性[11],本文通過(guò)賦予各主成分相應(yīng)的客觀權(quán)重體現(xiàn)其重要程度的不同,從而定義加權(quán)主成分距離為分類統(tǒng)計(jì)量,定義第i個(gè)樣本和第j個(gè)樣本之間的加權(quán)主成分距離為
(2)
通過(guò)主成分分析的特征提取,加權(quán)主成分聚類分析既剔除了原始指標(biāo)共線性的重疊信息,又體現(xiàn)了各主成分包含原始指標(biāo)信息含量的差異.
顯然在該距離的定義中,主成分因子Fk(k=1,2,3,,s)對(duì)距離dij(q)的權(quán)重實(shí)際可理解為
針對(duì)上述聚類分析方法在特定情形下的失真問(wèn)題,本文提出加權(quán)主成分距離聚類分析方法.設(shè)為F1,F(xiàn)2,,F(xiàn)s(sp)由p維指標(biāo)向量X=(x1,x2,xp)提取的主成分因子列向量.假設(shè)所提取主成分因子F1,F(xiàn)2,,F(xiàn)s對(duì)應(yīng)的特征值分別為λ1,λ2,,λs,且為主成分因子Fk所對(duì)應(yīng)的特征權(quán)重,于是有采用一般主成分聚類分析方法所定義的樣本Ii與Ij之間的距離為
(3)
其中:與公式(2)不同的地方,公式(3)是按照主成分因子對(duì)應(yīng)的權(quán)重對(duì)不同主成分因子下的距離進(jìn)行加權(quán),由此進(jìn)行聚類分析.聚類距離的定義需要滿足非負(fù)性、對(duì)稱性和三角不等式,不難證明公式(3)滿足上述三條性質(zhì).與現(xiàn)有聚類分析改進(jìn)的研究成果相比,加權(quán)主成分距離聚類的核心優(yōu)勢(shì)在于,同時(shí)克服了經(jīng)典聚類分析存在的兩個(gè)典型缺陷:(1)通過(guò)主成分的特征提取,剔除了原始指標(biāo)體系高度的重疊信息;(2)每一主成分的距離權(quán)重βk來(lái)源于原始指標(biāo)數(shù)據(jù),體現(xiàn)了不同主成分聚類效率的差異,并且對(duì)各主成分因子下的樣本距離賦權(quán),但沒(méi)有改變各主成分因子對(duì)分類重要的比例關(guān)系,賦權(quán)準(zhǔn)則客觀合理.加權(quán)主成分距離聚類的具體步驟如下:
步驟 1:比較原始指標(biāo)數(shù)據(jù)數(shù)量級(jí)和離散程度的差異,從而確定是采用標(biāo)準(zhǔn)化處理后的無(wú)量綱數(shù)據(jù),還是采用非標(biāo)準(zhǔn)化的原始數(shù)據(jù);
步驟 2:計(jì)算指標(biāo)的相關(guān)系數(shù)矩陣、KMO檢驗(yàn)與Bartlett球形檢驗(yàn)值及顯著性水平,以判斷樣本數(shù)據(jù)是否適宜進(jìn)行主成分分析,如符合則進(jìn)入步驟3;
步驟 3:進(jìn)行主成分分析,計(jì)算相關(guān)系數(shù)矩陣或協(xié)方差矩陣的特征值和特征向量,以及各主成分因子的貢獻(xiàn)率和累計(jì)貢獻(xiàn)率,提取主成分因子,并結(jié)合因子載荷矩陣對(duì)所提取的主成分因子進(jìn)行命名;
步驟 4:將所提取的主成分因子代替原始指標(biāo),采用本文所定義的公式(3)加權(quán)主成分距離,為分類統(tǒng)計(jì)量進(jìn)行聚類,并結(jié)合實(shí)際情況確定樣本的所屬類別.
客觀公正地評(píng)判模型的分類質(zhì)量是困難而復(fù)雜的問(wèn)題,目前沒(méi)有評(píng)判所有聚類模型有效性的統(tǒng)一標(biāo)準(zhǔn).在眾多的評(píng)判標(biāo)準(zhǔn)中,比較客觀的是將聚類模型的分類結(jié)果與預(yù)先已知的本來(lái)類屬進(jìn)行對(duì)比,以錯(cuò)分率為標(biāo)準(zhǔn)判斷不同聚類模型的優(yōu)劣.為驗(yàn)證拓展聚類模型的有效性,本文選用三個(gè)不同品種鳶尾花,將其花瓣長(zhǎng)度、花瓣寬度、萼片長(zhǎng)度、萼片寬度四個(gè)指標(biāo)生成原始數(shù)據(jù),下面說(shuō)明原始指標(biāo)間的信息高度重疊.按照累計(jì)貢獻(xiàn)率≥85%的原則,提取了兩個(gè)主成分因子,主成分因子的特征值、方差貢獻(xiàn)率、和因子載荷矩陣見(jiàn)表1.
表1 主成分分析結(jié)果
表1結(jié)果顯示,所提取的兩個(gè)主成分因子的累計(jì)貢獻(xiàn)率達(dá)到了95.55%,能夠反映原指標(biāo)變量的大量信息.由特征值知第一主成分所含信息量是第二主成分因子的3倍,說(shuō)明兩個(gè)主成分因子對(duì)分類重要性差異較大.因此忽略兩個(gè)主成分因子對(duì)分類重要性的客觀差異,而只是采用一般主成分聚類分析方法對(duì)兩個(gè)主成分因子等權(quán)重地進(jìn)行聚類,一方面無(wú)法顯現(xiàn)出第一主成分因子對(duì)于提高分類質(zhì)量的突出作用,另一方面還會(huì)過(guò)于放大第二主成分因子的作用,導(dǎo)致低效率的分類結(jié)果.而如果采用加權(quán)主成分聚類分析方法,先按特征權(quán)重對(duì)主成分因子賦權(quán),再對(duì)賦權(quán)的主成分因子進(jìn)行聚類,雖然考慮了不同主成分因子對(duì)分類重要性的客觀差異,但其放大了第一主成分因子對(duì)分類的重要性,分類結(jié)果的精度亦難以保證.
本文分別用傳統(tǒng)聚類方法、一般主成分聚類方法、加權(quán)主成分聚類方法和加權(quán)主成分距離聚類方法對(duì)標(biāo)準(zhǔn)化處理后的鳶尾花無(wú)量綱數(shù)據(jù)進(jìn)行聚類分析.由于距離維數(shù)對(duì)分類結(jié)果有影響,本文分別測(cè)量并對(duì)比的在距離維數(shù)q=2,q=3,q=4情形下的各聚類的效果,如表2所示.
表2 不同聚類方法的分類效果
由表2可知,在q=2時(shí),以錯(cuò)分率為標(biāo)準(zhǔn),聚類的優(yōu)劣次序?yàn)榧訖?quán)主成分距離聚類、加權(quán)主成分聚類、一般主成分聚類、傳統(tǒng)聚類.在q=3和q=4時(shí),以錯(cuò)分率為標(biāo)準(zhǔn),聚類的優(yōu)劣次序?yàn)榧訖?quán)主成分距離聚類、一般主成分聚類、加權(quán)主成分聚類、傳統(tǒng)聚類.
根據(jù)分類結(jié)果來(lái)看,傳統(tǒng)聚類的分類效果最差,一般主成分聚類和加權(quán)主成分聚類的效果也不理想.結(jié)合表1的計(jì)算結(jié)果,其原因是各指標(biāo)之間存在較高的相關(guān)性,并且本文提取的兩個(gè)主成分因子的信息含量分別為72.073%和23.477%.采用一般主成分聚類分析方法的時(shí)候減弱第一主成分的作用增強(qiáng)第二主成分的作用,因此導(dǎo)致分類效果不明顯.采用加權(quán)主成分聚類分析方法的時(shí)放大了第一主成分的作用(特別是在q=3和q=4時(shí)),因此導(dǎo)致結(jié)果失真.
通過(guò)以上的分析,在相同情況下,用不同的分析方法得到不同的分析結(jié)果,顯然可以看出加權(quán)主成分距離聚類方法的錯(cuò)分率要遠(yuǎn)低于其他的幾種方法,這為聚類方法提供了一種更為嚴(yán)謹(jǐn)?shù)姆诸惙桨?,顯然這種聚類方案要優(yōu)于其他的幾種聚類方案,而維數(shù)對(duì)結(jié)果的影響并不是很大.
統(tǒng)計(jì)分析模型的層出不窮為學(xué)術(shù)研究提供了廣闊的選擇空間,但是如果對(duì)統(tǒng)計(jì)分析方法的理論基礎(chǔ)、適用性前提以及存在的問(wèn)題缺乏深入理解,可能陷入統(tǒng)計(jì)方法的研究誤區(qū).指標(biāo)之間的高度相關(guān)性導(dǎo)致傳統(tǒng)的聚類分析方法無(wú)法取得良好的分類效果,通過(guò)主成分分析的方法可以將多維數(shù)據(jù)降至低維,避免指標(biāo)之間的高度相關(guān)性對(duì)聚類產(chǎn)生影響.理論研究和實(shí)驗(yàn)結(jié)果證明加權(quán)主成分距離聚類的優(yōu)點(diǎn),在各主成分分子信息含量相差不大的時(shí)候等同于一般主成分聚類,在第一主成分信息含量遠(yuǎn)遠(yuǎn)大于其他主成分信息含量的情況下,避免了采用加權(quán)主成分聚類過(guò)度放大了第一主成分作用的因素.但是在原始指標(biāo)變量之間相關(guān)較弱不具備主成分聚類分析的條件時(shí),加權(quán)主成分距離聚類可能會(huì)失效,此時(shí)采用傳統(tǒng)聚類分析方法較好.