亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征提取的多指標(biāo)面板數(shù)據(jù)聚類方法

        2016-12-09 07:51:30黨耀國侯荻青
        統(tǒng)計與決策 2016年19期
        關(guān)鍵詞:交通事故面板聚類

        黨耀國,侯荻青

        (南京航空航天大學(xué)經(jīng)濟與管理學(xué)院,南京211106)

        基于特征提取的多指標(biāo)面板數(shù)據(jù)聚類方法

        黨耀國,侯荻青

        (南京航空航天大學(xué)經(jīng)濟與管理學(xué)院,南京211106)

        多指標(biāo)面板數(shù)據(jù)能夠較全面的提供研究對象的信息和數(shù)據(jù)特征,但復(fù)雜的數(shù)據(jù)結(jié)構(gòu)也給其聚類分析帶來了一定的困難。針對這一問題,文章提出了基于特征提取的多指標(biāo)面板數(shù)據(jù)聚類方法,該方法將能夠表征面板數(shù)據(jù)動態(tài)變化的“絕對量”特征、“波動”特征、“偏度”特征、“峰度”特征及“趨勢”特征引入動態(tài)聚類算法中,可以避免以往采用歐式距離進行聚類的局限性,還可以處理帶有缺失數(shù)據(jù)的面板數(shù)據(jù),同時大大提高了聚類效率,并最大限度地保證時間維度信息不受損失。利用該方法分析了2001至2013年我國不同省份道路交通事故的不平衡狀況,通過實證分析表明該方法能夠解決多指標(biāo)面板數(shù)據(jù)聚類的問題。

        面板數(shù)據(jù);特征提取;動態(tài)聚類;交通事故

        0 引言

        面板數(shù)據(jù)又稱時間序列截面數(shù)據(jù)或混合數(shù)據(jù),是由不同個體在多個時期上觀測得到的數(shù)據(jù),它綜合了時間序列與截面數(shù)據(jù)的特征,能夠描述研究對象的動態(tài)特征,在經(jīng)濟與管理問題的建模與分析中具有重要的地位。面板數(shù)據(jù)的聚類分析是指依據(jù)不同指標(biāo)的觀測數(shù)據(jù),把數(shù)據(jù)劃分為若干類,以尋找每一類的模式或各種潛在的有用信息,有效的聚類結(jié)果還可以作為面板數(shù)據(jù)計量研究前的預(yù)處理步驟,避免僅靠經(jīng)驗分類造成的誤差[1]。

        本文指出了目前常用的歐式距離在聚類時的缺點,然后提出了一種基于特征提取的面板數(shù)據(jù)聚類方法:首先從多個角度出發(fā)描述面板數(shù)據(jù)的統(tǒng)計特征,通過提取的特征值構(gòu)建特征向量來反映面板數(shù)據(jù)的主要信息,之后通過動態(tài)聚類的方法對這些特征進行聚類,以提高聚類效率,并最大限度保證時間維度信息不受損失。

        1 面板數(shù)據(jù)的數(shù)據(jù)格式及數(shù)據(jù)特征

        1.1單指標(biāo)面板數(shù)據(jù)

        單指標(biāo)面板數(shù)據(jù)是由多個樣本在不同時點的指標(biāo)值構(gòu)成的數(shù)據(jù)集合,與截面數(shù)據(jù)數(shù)據(jù)格式類似,都可用二維表或矩陣的形式來表示。其聚類分析的思路有兩種:第一,將單指標(biāo)面板數(shù)據(jù)的時間維度轉(zhuǎn)換為截面數(shù)據(jù)的指標(biāo)維度,采用與截面數(shù)據(jù)完全相同的方法進行聚類;第二,將單指標(biāo)面板數(shù)據(jù)的每個樣本看做一條時間序列,通過衡量時間序列的相似程度進行聚類??偟膩碚f,單指標(biāo)面板數(shù)據(jù)的聚類分析比較簡單,聚類方法一般包括系統(tǒng)聚類、動態(tài)聚類、灰色聚類等。

        1.2多指標(biāo)面板數(shù)據(jù)

        多指標(biāo)面板數(shù)據(jù)從橫截面上看,是由若干個體在某一時刻構(gòu)成的截面觀測值,從縱剖面上看則是一組時間序列,其包含的每個數(shù)據(jù)點可用三下標(biāo)變量表示,例如,i=1,2,…,N,k=1,2,…,P,t=1,2,…,T。N表示面板數(shù)據(jù)中含有的個體數(shù);P表示指標(biāo)變量的總數(shù);T表示時間序列的最大長度。嚴(yán)格來說,多指標(biāo)面板數(shù)據(jù)應(yīng)該以空間三維表的形式來表示,但考慮到面板數(shù)據(jù)是由不同個體的多個指標(biāo)隨時間變化的序列構(gòu)成,本文從個體維度將多指標(biāo)面板數(shù)據(jù)展開為平面上的二級矩陣,重點從時間維度來設(shè)計面板數(shù)據(jù)的統(tǒng)計量。

        樣本總體X可表示為矩陣[X1…Xi…XN]T,其中,總體的一個樣本Xi的矩陣表示為:

        (1)樣本i的第k個指標(biāo)的均值μki

        (2)樣本i的第k個指標(biāo)的標(biāo)準(zhǔn)差:

        1.3多指標(biāo)面板數(shù)據(jù)的時間序列特征

        多指標(biāo)面板數(shù)據(jù)不僅能反映某一時期指標(biāo)發(fā)展的絕對水平,還能反映其描述的對象在一段時期內(nèi)的發(fā)展趨勢、波動程度等動態(tài)演化規(guī)律。這些特點決定了在對多指標(biāo)面板數(shù)據(jù)進行聚類分析時,要綜合考慮其時空特征。多指標(biāo)面板數(shù)據(jù)的時空特征至少包括以下四方面的信息:(1)某時期指標(biāo)發(fā)展的絕對水平;(2)對某個特定個體而言,某項指標(biāo)的增長變化情況,即趨勢;(3)對某個特定個體而言,某項指標(biāo)的起伏變化或波動情況;(4)對某個特定個體而言,某項指標(biāo)的分布特征。

        已有文獻雖然對面板數(shù)據(jù)的增量變化進行了一定的討論,但并未對面板數(shù)據(jù)的動態(tài)變化進行深度挖掘,且計算量異常繁重,使得方法的實用性有所削弱。此外,過去的文獻大多采用歐氏距離來刻畫面板數(shù)據(jù)之間的相似性,而歐式距離在處理帶有時間序列的數(shù)據(jù)時存在固有的缺陷。例如,從面板數(shù)據(jù)中抽取某樣本不同指標(biāo)的兩條數(shù)據(jù)序列與,二者取值時點相同,并且在相同時點上所取的值都相差一個相同的常數(shù),即序列是由向下平移c個單位得到的,兩條序列的波動情況完全是相似的,但如果計算歐氏距離,很可能因為兩者之間距離過大而得出不屬于同一類的結(jié)論。

        盡管已有一些改進,例如構(gòu)建反映面板數(shù)據(jù)波動情況的綜合距離,并通過權(quán)重的調(diào)節(jié)來減少上述誤差,但是這些改進仍然不支持面板數(shù)據(jù)可能出現(xiàn)的線性漂移和時間彎曲。如圖1所示,兩條單指標(biāo)序列的波形基本相似,但是波峰和波谷的位置并沒有完全對齊,而是略有偏差,在歐式距離下這兩條時間序列卻不會被認為是相似的,這是因為歐式距離只能考察不同樣本在對應(yīng)時點上取值的差異,沒有考慮到樣本是隨時間變化的一列值。

        圖1 兩條單指標(biāo)序列不同時期的波形

        2 面板數(shù)據(jù)的特征提取

        2.1面板數(shù)據(jù)的標(biāo)準(zhǔn)化處理

        由于面板數(shù)據(jù)的各指標(biāo)量綱不盡相同或數(shù)值范圍相差較大,因此需要對進行標(biāo)準(zhǔn)化處理,標(biāo)準(zhǔn)化公式較多,這里采用均值化的方法,即

        即均值化后各指標(biāo)的方差是各指標(biāo)變異系數(shù)的平方,這樣既消除了量綱和數(shù)量級的影響,又可以保留指標(biāo)值的變異信息,突出后續(xù)所提取特征的差異性。為方便表示,下文仍用來表示標(biāo)準(zhǔn)化后得到的

        2.2特征提取的基本思想

        聚類之前對面板數(shù)據(jù)進行特征提取,可以揭示其潛在的相似變化機制和結(jié)構(gòu),從而發(fā)現(xiàn)更有意義的聚類結(jié)果。本文利用盡可能少的特征來反應(yīng)面板數(shù)據(jù)的主要信息,然后再將這些特征進行聚類,可避免上述提到的采用歐式距離進行聚類的缺陷;此外,由于提取的特征來自數(shù)據(jù)本身,且具有特定的含義,所以最后的聚類結(jié)果也具有可解釋性。可將基于面板數(shù)據(jù)的特征提取概括為兩個步驟:特征值的計算與特征向量的構(gòu)建[2,3]。

        2.3面板數(shù)據(jù)特征向量的設(shè)計與度量

        為了能夠準(zhǔn)確的刻畫面板數(shù)據(jù)的時空特征,必須考慮指標(biāo)在考察期內(nèi)發(fā)展的絕對水平、趨勢、波動程度、分布情況等,因此,對面板數(shù)據(jù)聚類的特征向量的設(shè)計必須是幾方面信息的有效融合。對于面板數(shù)據(jù)集,設(shè)其有N個樣品,每個樣品有T個時期的P項指標(biāo)。

        定義1樣本i的第k個指標(biāo)的全時“絕對量”特征(AbsoluteQuantity Feature),簡記為

        定義2樣本i的第k個指標(biāo)的全時“波動”特征(Variance Feature),簡記為VF

        定義3樣本i的第k個指標(biāo)的全時“偏度”特征(SkewnessCoefficientFeature),簡記為SCF

        定義4樣本i的第k個指標(biāo)的全時“峰度”特征(KurtosisCoefficientFeature),簡記為KCF

        該特征表征了個體i在整個時期T內(nèi)指標(biāo)值的集中程度或分布曲線的尖峭程度,若大于0,表示指標(biāo)值的分布比正態(tài)分布更集中在平均值周圍;若小于0,表示指標(biāo)值的分布比正態(tài)分布更分散。定義3和定義4都反映了樣本數(shù)據(jù)的分布特征,若兩個樣本隨時間發(fā)展呈現(xiàn)較一致的分布,則說明二者更相似。

        定義5樣本i的第k個指標(biāo)的全時“趨勢”特征(Trend Feature),簡記為

        定義6樣本i的特征向量(Feature Vector),簡記為M i:

        其中

        3 聚類方法及聚類步驟

        3.1動態(tài)聚類分析的基本思想

        為了克服系統(tǒng)聚類法效率太低的缺點,就需要避開全面的計算和比較,基于這種思想產(chǎn)生了動態(tài)聚類法,又稱逐步聚類法。動態(tài)聚類法利用迭代法的思想聚類,在局部分析的基礎(chǔ)上,作出較為粗略的分類,然后再按某種最優(yōu)的準(zhǔn)則進行修正,直至分類比較合理為止,這樣就得到了最終的分類結(jié)果。

        動態(tài)聚類法有許多種方法,目前運用最為普遍的是重心法,又稱k均值法,它是麥奎恩(MacQueen)于1967年提出的。這一方法的基本思想是:按照一定的原則,從樣本集中選取K個點作為初始聚類中心,記為,括號內(nèi)序號為迭代次序號;計算各樣本點與初始聚類中心的距離D,按照距離最小的原則將樣本集分為K類,記為再計算各個類的重心,從而得到新的分類結(jié)果重復(fù)以上兩步,得到分類結(jié)果序列給定充分小的允許誤差值,當(dāng)兩次分類結(jié)果不超過該誤差值時,即得到最終分類[4]。

        3.2距離的定義

        由于聚類算法以距離作為聚集的基礎(chǔ),因此本文采用了標(biāo)準(zhǔn)的歐氏距離來計算類直徑以及類之間的距離。對于包含T個時期,P個指標(biāo),N個樣品的面板數(shù)據(jù),我們需要對上文得到的由特征向量Mi表示的不同樣本進行聚類,為便于表示,用代替特征向量Mi中的元素,由于向量Mi中包含有P×5個特征值,顯然。

        這里給出類直徑與類間距離的相應(yīng)公式:

        類Gi的直徑:

        類Gi與類Gj之間的距離:

        3.3初始聚類數(shù)目的確定

        需要指出的是,動態(tài)聚類法中的聚類數(shù)目K需要事先確定。一般來說,聚類數(shù)目的增加會導(dǎo)致類內(nèi)距離下降,類間距離增加,因此,要得到一個絕對最優(yōu)的聚類數(shù)是不可能的。此外,由于經(jīng)濟領(lǐng)域的聚類分析主要用于探索性研究,其分析結(jié)果可以存在多個可能解。所以應(yīng)根據(jù)研究目的,針對面板數(shù)據(jù)的數(shù)據(jù)信息,并結(jié)合所研究問題的實踐意義,先初步確定聚類數(shù)目的合理區(qū)間,進而在上述聚類數(shù)目確定方法的基礎(chǔ)上,根據(jù)實際問題的需要,通過不斷篩選和調(diào)整,最終獲得相對滿意的聚類數(shù)目,以實現(xiàn)類內(nèi)相似度和類間相似度二者的協(xié)調(diào)[5]。

        先定義如下函數(shù)

        可根據(jù)實際情況設(shè)定最大和最小的聚類數(shù)K1和K2,然后從K1到K2進行聚類計算,從中選取使達到最大的K作為最佳聚類數(shù)目。

        3.4面板數(shù)據(jù)動態(tài)聚類的步驟

        設(shè)有N個樣品,每個樣品有T個時期的P項指標(biāo),面板數(shù)據(jù)動態(tài)聚類的具體步驟如下:

        步驟2根據(jù)式(2)到(6)、(8)分別計算特征值及標(biāo)準(zhǔn)化,根據(jù)式(7)得到每個樣本的特征值向量Mi,由此構(gòu)成特征向量集合Ω={Mi| i=1,2,…,N};

        步驟3從特征向量集合Ω中選取K個點作為初始聚類中心,記為L(0)={A1(0),A2(0),···,Ak(0)},根據(jù)式(10)計算各樣本與初始聚類中心的聚類D,若D[Mi,Ah(0)]=min{D[Mi,Aj(0)],?j=1,2,···,K,j≠i},則判斷Mi∈Gh(0),由此把Ω中的向量分為K類,記為Θ(0)={G1(0),G2(0),···,Gk(0)};

        步驟6根據(jù)式(11)計算各類之間的聚類,得到最終的聚類結(jié)果。

        4 實證分析

        本文對2001年至2013年我國31個省區(qū)的交通事故情況進行聚類分析,呈現(xiàn)了我國地區(qū)間交通事故的不平衡狀況,并對造成這種差異性的可能原因進行了分析。

        4.1數(shù)據(jù)來源和處理方法

        本文選取交通事故次數(shù)、死亡人數(shù)、受傷人數(shù)以及直接經(jīng)濟損失這四個指標(biāo)來考察我國的交通事故情況。該四項指標(biāo)既是認識交通事故的起點,又是構(gòu)造其他交通事故統(tǒng)計指標(biāo)的基礎(chǔ),基本涵蓋了道路交通事故所造成各種損害的主要方面,表征的交通事故情況直觀、明確,在交通事故統(tǒng)計分析中具有重要意義。本文使用的數(shù)據(jù)來源于中國統(tǒng)計年鑒(2002年-2014年)。

        4.2聚類分析結(jié)果

        按照前文提出的面板數(shù)據(jù)聚類方法與步驟,借助SPSS19與EXCEL2007運算工具對各省交通事故數(shù)據(jù)進行了聚類。為了對聚類結(jié)果進行對比分析,本文分別計算了特征向量取不同權(quán)重時的聚類結(jié)果,見表1。顯然,可以看出,不同權(quán)重系數(shù)確定的分類結(jié)果存在一定的差異,一般來說,某個特征值的權(quán)重系數(shù)越大,最終的聚類結(jié)果越能反映該方面的特點。對權(quán)重向量W1、W2、W3的賦值分別側(cè)重于反映面板數(shù)據(jù)的絕對量、長期趨勢及發(fā)展波動情況。例如,在權(quán)重W=(0,0.25,0.25,0.25,0.25)時,上海、江蘇、浙江、福建、山東、河南、廣東被聚為一類,這幾個省份每年交通事故的指標(biāo)值有較大差異,但波動情況十分相似,各項指標(biāo)幾乎同時在2002年達到最大值,之后快速下降,這與2003年《道路交通安全法》的出臺應(yīng)該存在直接的關(guān)系,說明該法的頒布實施對這些地區(qū)維護交通安全和預(yù)防交通事故,起到了至關(guān)重要的作用。

        表1 不同權(quán)重下交通事故的面板數(shù)據(jù)聚類結(jié)果

        本文在專家調(diào)查的基礎(chǔ)上,通過AHP法得到了面板數(shù)據(jù)5個特征的主觀權(quán)重系數(shù),即:W=(0.375,0.125,0.1,0.1, 0.3),此權(quán)重系數(shù)表明:決策者最看重的是中國交通事故發(fā)展的絕對量特征,其次是趨勢特征,此時31個省的交通事故狀況被分為三類。

        第一類包括北京、天津、山西、內(nèi)蒙古、遼寧、吉林、黑龍江、安徽、江西、湖北、湖南、廣西、海南、重慶、貴州、云南、西藏、陜西、甘肅、青海、寧夏、新疆,多為西南和東北地區(qū),這些地區(qū)地域廣闊、人口密度低、經(jīng)濟相對落后,道路的技術(shù)等級和通達性總體較差,交通機動化程度和運輸規(guī)模均很低,交通安全狀況相對較好,但北京和天津為例外;第二類包括河北、上海、江蘇、福建、山東、河南、四川,這些地區(qū)作為全國社會經(jīng)濟發(fā)展的中間帶,交通安全狀況一般;第三類包括浙江、廣東,由于社會經(jīng)濟活躍、人口總量大,不僅道路條件好,而且機動化程度高、交通運輸規(guī)模和道路通行率很大,所以交通狀況最差,各項指標(biāo)值都遠高于其他各省。

        經(jīng)濟發(fā)展必然依賴并帶動人員出行和物資流通,從而導(dǎo)致交通運輸規(guī)模的擴張,因此,經(jīng)濟的發(fā)展在初期會導(dǎo)致交通事故的增加;但隨著經(jīng)濟的進一步發(fā)展,為交通建設(shè)提供了財力保障,政府和社會也會更加重視交通安全,積極加強交通管理和行為規(guī)范,從而有利于降低車輛的事故率[6,7]。這就解釋了為什么北京市和天津市的經(jīng)濟發(fā)達程度明顯優(yōu)于其他各省,但交通安全狀況卻較好。另一方面,浙江和廣東雖然經(jīng)濟發(fā)達程度也很高,但本身常住人口密度大,且外來務(wù)工人員多,流動性大,無形中增加了交通管制的難度,但交通規(guī)模擴大后的交通沖突增加,仍會使事故的總量提高,所以交通事故的各項指標(biāo)值都位于各省前列,交通安全形勢依然嚴(yán)峻。

        5 結(jié)束語

        本文聚類方法適用于多指標(biāo)面板數(shù)據(jù)的樣本分類問題,綜合考慮多指標(biāo)面板數(shù)據(jù)的動態(tài)特征,提出了用“絕對量”特征、“波動”特征、“偏度”特征、“峰度”特征、“趨勢”特征來表征多指標(biāo)面板數(shù)據(jù),并在此基礎(chǔ)上提出了多指標(biāo)面板數(shù)據(jù)的動態(tài)聚類方法,利用該方法分析了2001至2013年我國不同省份道路交通事故的不平衡狀況,通過實證分析表明該方法能夠解決多指標(biāo)面板數(shù)據(jù)聚類的問題。需要指出的是,本文中的特征提取思想實際上是一種數(shù)據(jù)的壓縮處理,勢必會造成部分信息的損失,因此僅適用于具有較長時間維度的面板數(shù)據(jù)的聚類(T≥10);此外,本文僅僅構(gòu)造了幾個基礎(chǔ)性的特征統(tǒng)計量來反映經(jīng)濟管理中面板數(shù)據(jù)的動態(tài)特征,其他更深層次更復(fù)雜的特征統(tǒng)計量還有待進一步研究。

        [1]劉文麗,郝萬祿,夏球.我國科技金融對經(jīng)濟增長影響的區(qū)域差異——基于東部、中部和西部面板數(shù)據(jù)的實證分析[J].宏觀經(jīng)濟研究,2014,(02).

        [2]Wang X,Wirth A,Wang L.Structure-based Statistical Features and Multivariate Time Series Clustering[R].Proceedings of the Seventh IEEE InternationalConferenceon DataMining,2007.

        [3]宋辭,裴韜.基于特征的時間序列聚類方法研究進展[J].地理科學(xué)進展,2012,10(31)

        [4]徐華鋒,方志耕.面板數(shù)據(jù)聚類分析的投影尋蹤模型[J].統(tǒng)計與決策,2010,(04).

        [5]卞亦文.大樣本數(shù)據(jù)聚類的改進方法[J].統(tǒng)計與決策,2009(01).

        [6]王明霞.道路交通安全與社會經(jīng)濟影響因素的綜合關(guān)聯(lián)分析[J].管理世界,2011(03).

        [7]王洪明.我國區(qū)域道路交通安全形勢對比與影響因素分析[J].中國安全科學(xué)學(xué)報,2010,(06).

        (責(zé)任編輯/易永生)

        0212,C812

        A

        1002-6487(2016)19-0068-05

        國家自然科學(xué)基金資助項目(71071077,71371098);中央高?;究蒲袠I(yè)務(wù)費專項資金資助項目(NC2012001);南京航空航天大學(xué)基本科研業(yè)務(wù)費專項科研資助項目(NZ2010006)

        黨耀國(1964—),男,江蘇南京人,教授,博士生導(dǎo)師,研究方向:灰色系統(tǒng)理論、數(shù)量經(jīng)濟。

        猜你喜歡
        交通事故面板聚類
        面板燈設(shè)計開發(fā)與應(yīng)用
        不同尋常的交通事故
        預(yù)防交通事故
        MasterCAM在面板類零件造型及加工中的應(yīng)用
        模具制造(2019年4期)2019-06-24 03:36:50
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        Photoshop CC圖庫面板的正確打開方法
        一起高速交通事故院前急救工作實踐與探討
        基于改進的遺傳算法的模糊聚類算法
        一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
        自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
        在线免费观看黄色国产强暴av| 女同中的p是什么意思| 超高清丝袜美腿视频在线| 久久91精品国产一区二区| 中文字幕亚洲综合久久| 日本熟妇人妻xxxxx视频| 97在线观看播放| 初尝黑人嗷嗷叫中文字幕| 欧洲亚洲色一区二区色99| 日本亚洲视频免费在线看| 高潮毛片无遮挡高清视频播放| 亚洲国产长腿丝袜av天堂 | 精品亚洲一区二区在线观看| 97久久婷婷五月综合色d啪蜜芽| 日韩免费无码一区二区三区 | 手机免费在线观看日韩av| 亚洲国产av无码精品无广告| 色播久久人人爽人人爽人人片av| 青青草视频华人绿色在线| 久久色悠悠综合网亚洲| 亚洲精品一区二区国产精华液| 国产精品亚洲综合色区韩国| 欧美日韩国产乱了伦| 亚洲精品第四页中文字幕| 可以免费看亚洲av的网站| 成人久久久久久久久久久| 无码国产精品第100页| 精品人妻av区二区三区| 亚洲一区二区三区2021| 米奇7777狠狠狠狠视频影院| 久久精品国产99精品九九| 国内精品久久人妻互换| 国产女人18毛片水真多18精品| 九月婷婷人人澡人人添人人爽| 亚洲国产综合专区在线电影| 男男啪啪激烈高潮无遮挡网站网址| 国产福利视频在线观看| 国产亚洲欧美在线| 日本精品啪啪一区二区| 一边做一边说国语对白| 精品国产v无码大片在线观看|