亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混合高斯模型的上市企業(yè)聚類研究

        2016-07-09 13:11:16黃詠寧
        現(xiàn)代商貿(mào)工業(yè) 2016年7期
        關(guān)鍵詞:財(cái)務(wù)指標(biāo)聚類

        黃詠寧

        摘要:已有的基于上市企業(yè)財(cái)務(wù)指標(biāo)的聚類研究往往無法反映出聚類過程的不確定性,其聚類結(jié)果也欠缺可解釋性。在核主成分的基礎(chǔ)上,引入了混合高斯模型聚類算法,不僅能較好地實(shí)現(xiàn)樣本聚類,更能提高聚類結(jié)果的可解釋性。實(shí)驗(yàn)證明以上方法的可行性及有效性。

        關(guān)鍵詞:財(cái)務(wù)指標(biāo);核主成分;混合高斯模型;聚類

        中圖分類號(hào):F23 文獻(xiàn)標(biāo)識(shí)碼:A doi:10.19311/j.cnki.1672-3198.2016.07.046

        1 研究背景

        上市企業(yè)定期公布的財(cái)務(wù)報(bào)表對(duì)投資者選股、持股有一定的參考價(jià)值,但大量數(shù)據(jù)背后的信息往往難以被發(fā)掘。聚類分析是一種以數(shù)據(jù)特征為基礎(chǔ)的分類技術(shù),通過對(duì)上市企業(yè)財(cái)務(wù)數(shù)據(jù)的聚類分析,能基于財(cái)務(wù)指標(biāo)的相似性實(shí)現(xiàn)對(duì)上市企業(yè)的有效分類,對(duì)投資者有重要的指導(dǎo)意義。

        原思聰(1995)首次探討了模糊數(shù)學(xué)方法在股票選擇方面的應(yīng)用,通過綜合隸屬函數(shù)與模糊函數(shù)構(gòu)建了股票選擇的評(píng)價(jià)體系,然而模糊聚類的主觀性較強(qiáng)。沈周翔、鐘鍵(2005)則采用主成分(PCA)的方法,通過提取累計(jì)方差貢獻(xiàn)率大于95%的兩個(gè)主要成分,將股票財(cái)務(wù)數(shù)據(jù)投影到二維平面上,并根據(jù)平面象限區(qū)分聚類類別,但傳統(tǒng)的PCA算法是基于線性組合構(gòu)造主成分的,并不能處理具有非線性結(jié)構(gòu)的財(cái)務(wù)數(shù)據(jù),因此學(xué)者提出了以核主成分(KPCA)技術(shù)替代PCA技術(shù)進(jìn)行特征提取。余樂安、汪壽陽(2009)先用KPCA算法對(duì)股票的財(cái)務(wù)數(shù)據(jù)進(jìn)行降維處理,再對(duì)降維后的數(shù)據(jù)采用K-Means聚類,這種處理方法能得到準(zhǔn)確率更高的聚類結(jié)果。但K-Means聚類為硬聚類技術(shù),無法反映KPCA降維及聚類過程中的不確定性,更無法對(duì)聚類結(jié)果提供有效的解釋。針對(duì)此問題,在KPCA降維數(shù)據(jù)的基礎(chǔ)上,本文引入一種基于混合高斯模型的聚類算法,能有效地提高聚類結(jié)果的可解釋性。

        2 混合高斯模型軟聚類算法

        已有研究所采用的聚類算法都是一類優(yōu)化目標(biāo)函數(shù)的硬聚類算法,其特點(diǎn)是能清晰地對(duì)事物進(jìn)行劃分,不允許模棱兩可的結(jié)果。然而,上市企業(yè)的財(cái)務(wù)指標(biāo)具有多樣性及復(fù)雜性等特點(diǎn),硬聚類算法顯然很難基于復(fù)雜多樣的財(cái)務(wù)指標(biāo)將上市企業(yè)清晰地加以區(qū)分。一種基于混合高斯模型的軟聚類算法能有效地解決該類問題。

        2.1 混合高斯模型的基本概念

        混合高斯模型(Gaussian Mixture Model,GMM)是一種以高斯分布為基礎(chǔ)的混合模型,其概率密度函數(shù)可表示為多個(gè)高斯分布概率密度函數(shù)的線性組合。Wilson(1999)已證明,由有限多個(gè)高斯分布構(gòu)成的混合高斯模型能以任意精度逼近任何的多元分布,這種良好的性質(zhì)使得其在降維或聚類中有良好的應(yīng)用前景。

        2.2 混合高斯模型算法

        混合高斯模型是由多個(gè)獨(dú)立的單高斯分布模型(Singal Gaussian Model)的線性組合而成,每一個(gè)單高斯分布可稱為混合高斯模型的成分(Component)??紤]多元的情況,假設(shè)1×d的多維變量x服從單高斯分布,其概率密度函數(shù)f(x;μ,∑)為:(1)

        其中,μ是1×d的均值向量,∑是d×d的協(xié)方差矩陣。而GMM的概率密度函數(shù)g(x)則可表示為:(2)

        K為成分的數(shù)目,在聚類應(yīng)用中同時(shí)代表類簇的數(shù)目;αi(i=1,2,…,K)是權(quán)值因子,是第i個(gè)單高斯分布在混合模型中所占的權(quán)重;μi,∑i分別是第i個(gè)單高斯分布的均值向量及協(xié)方差矩陣。

        2.3 混合高斯模型參數(shù)估計(jì)

        由于聚類是一種無監(jiān)督學(xué)習(xí)的方法,其結(jié)果具有較強(qiáng)的目的導(dǎo)向性,因此在聚類應(yīng)用中,聚類類簇?cái)?shù)據(jù)K,即混合高斯模型的成分個(gè)數(shù)往往是外生的,而需要估計(jì)的參數(shù)有αi、μi及∑i(i=1,2,…,K)。假設(shè)N×d的數(shù)據(jù)集,服從概率密度函數(shù)為g(x;θ)的混合高斯分布,θ表示所有參數(shù)的集合,其似然函數(shù)L的形式如下:(3)

        由于單個(gè)混合高斯概率密度函數(shù)值一般都很小,隨著數(shù)據(jù)點(diǎn)個(gè)數(shù)N的增大,連乘的結(jié)果會(huì)變得非常小,容易造成浮點(diǎn)數(shù)下溢,因此采用自然對(duì)數(shù)形式改寫目標(biāo)似然函數(shù):(4)

        一般的參數(shù)求解方法是通過對(duì)對(duì)數(shù)似然函數(shù)求偏導(dǎo)以求得各參數(shù)的極值,然而(4)式中在對(duì)數(shù)函數(shù)里面存在大型求和符號(hào),不能用求偏導(dǎo)解方程的發(fā)法直接求得參數(shù)極值。Bilmes(1998)提出的期望最大化算法(EM),能通過多次迭代的方法簡(jiǎn)化參數(shù)估計(jì)過程,進(jìn)而求取模型參數(shù)。

        首先初始化混合高斯模型的所有參數(shù),設(shè)為θ0=(α0,μk0,∑k0),k=1,2,…,K,其中K個(gè)多元高斯分布的均值向量μk、協(xié)方差矩陣∑k可通過統(tǒng)計(jì)方法進(jìn)行計(jì)算權(quán)值αi初步設(shè)定為1/K。在迭代的過程中,對(duì)于第j個(gè)樣本點(diǎn)xj,其由第k個(gè)多元高斯模型生成的概率定義為:(5)

        然后,在第一次更新參數(shù)的步驟中,計(jì)算可得ωj1(k),對(duì)于任意一個(gè)樣本點(diǎn)xj,其值的ωj1(k)*xj部分可看作是由第k個(gè)單高斯模型產(chǎn)生的,即將該部分?jǐn)?shù)據(jù)用作第k個(gè)單高斯模型的參數(shù)估計(jì)。因此,第k個(gè)單高斯模型共產(chǎn)生了ωj1(k)*xj(j=1,2,…,N)共N個(gè)數(shù)據(jù)點(diǎn),通過這N個(gè)數(shù)據(jù)點(diǎn)能計(jì)算出第k個(gè)單高斯模型的均值向量與協(xié)方差矩陣參數(shù),在第一次更新參數(shù)時(shí),第k個(gè)單高斯模型的參數(shù)可更新為:(6)(7)(8)(9)

        在第一次EM迭代計(jì)算后,可得到所有參數(shù)的更新值θ1,用θ1代替初始化參數(shù),即可以進(jìn)行第二次的EM迭代計(jì)算。在目標(biāo)精度下,設(shè)置一個(gè)閾值thresh-old,在n次重復(fù)EM迭代后,當(dāng)滿足|ln(L)[n-1]-ln(L)[n]|

        3 實(shí)證分析

        3.1 數(shù)據(jù)來源

        本文參考了財(cái)務(wù)綜合能力分析的指標(biāo)體系構(gòu)建方法,考慮到數(shù)據(jù)的全面性及可得性,搜索了2014年滬市、深市134家房地產(chǎn)上市企業(yè)的年度財(cái)務(wù)指標(biāo),包括償債能力、運(yùn)營(yíng)能力、盈利能力及發(fā)展?jié)摿λ膫€(gè)一級(jí)維度之下的18個(gè)二級(jí)財(cái)務(wù)指標(biāo)(見表1),形成樣本數(shù)據(jù)集(本文數(shù)據(jù)來自Wind資訊金融終端,實(shí)證分析通過Matlab實(shí)現(xiàn))。

        3.2 實(shí)證分析

        在聚類類簇?cái)?shù)目設(shè)定上,參考通達(dá)信軟件對(duì)于股票收益率板塊的區(qū)分(《通達(dá)信板塊解釋》),將作為外生參數(shù)設(shè)置為三類,分別表示下游企業(yè)、中游企業(yè)以及優(yōu)質(zhì)企業(yè)。

        通過KPCA降維,在85%的閾值下將18個(gè)指標(biāo)壓縮為12個(gè),并以該13412的降維后數(shù)據(jù)為基礎(chǔ),采用EM算法估算混合高斯模型的參數(shù)。參數(shù)估計(jì)后根據(jù)所得的概率矩陣,將134家上市企業(yè)聚為三類,其中聚于一類(優(yōu)質(zhì)企業(yè))有5家,二類(中游企業(yè))有113家,歸于三類(下游企業(yè))的有16家,聚類的三維可視圖見圖1。其中,132家上市企業(yè)能以85%以上的概率進(jìn)行聚類,說明三成分的混合高斯模型能很好地逼近樣本數(shù)據(jù)的多元分布,對(duì)樣本聚類的把握性較大,而聚類概率低于85%的兩家企業(yè)具體情況見表2。從表2可看出,兩個(gè)聚類異常點(diǎn)與三維可視圖結(jié)果相似,此外,由于不能以較高的概率確定其歸屬,因此對(duì)該兩家企業(yè)的聚類情況應(yīng)謹(jǐn)慎對(duì)待。

        4 結(jié)論及建議

        4.1 結(jié)論

        實(shí)證分析顯示,基于GMM的聚類算法能較好地實(shí)現(xiàn)對(duì)房地產(chǎn)上市企業(yè)的聚類,并反映各企業(yè)歸屬各類別的概率大小。事實(shí)上,GMM參數(shù)的估計(jì)依賴于樣本點(diǎn)屬于各個(gè)類別的概率大小,當(dāng)遇到某樣本點(diǎn)屬于兩個(gè)類別的概率相差甚小的時(shí)候,可對(duì)分類結(jié)果抱有懷疑態(tài)度,從而通過修正算法等方法找尋更精細(xì)的分類。

        此外,通過GMM參數(shù)的估計(jì),能獲得各類簇近似的單高斯分布,而通過相應(yīng)單高斯分布能深入了解到各類簇的結(jié)構(gòu)與性質(zhì),便于對(duì)各類簇進(jìn)行評(píng)估或進(jìn)一步的研究。

        4.2 建模的啟示及建議

        綜合上述分析,有如下啟示和建議:

        (1)對(duì)于證券公司而言,其公布的業(yè)績(jī)?cè)u(píng)價(jià)對(duì)于投資者購買股票具有舉足輕重的作用,因此其評(píng)價(jià)必須嚴(yán)謹(jǐn)并有充分的依據(jù)。通過本文的分析,券商可以適當(dāng)在上市公司業(yè)績(jī)?cè)u(píng)級(jí)的過程中采用高維數(shù)據(jù)聚類的方法,通過該方法所得的聚類結(jié)果較之傳統(tǒng)的凈資產(chǎn)收益率識(shí)別具有更高的可信性。

        (2)對(duì)于政府而言,加快證券市場(chǎng)的改革進(jìn)度,進(jìn)一步完善上市公司財(cái)務(wù)報(bào)表審核機(jī)制,確保所以上市公司公開財(cái)務(wù)報(bào)表的真實(shí)性。只有基于準(zhǔn)確真實(shí)的數(shù)據(jù)出發(fā),才能使研究結(jié)果貼近市場(chǎng)、貼近企業(yè)、貼近投資者,才能帶動(dòng)金融行業(yè)的進(jìn)一步發(fā)展。

        (3)對(duì)于科研大部分傳統(tǒng)的統(tǒng)計(jì)分析手段都可以采用不同方式與大數(shù)據(jù)結(jié)合,并且基于大數(shù)據(jù)研究基礎(chǔ)上的統(tǒng)計(jì)分析結(jié)果往往由于單純的傳統(tǒng)分析結(jié)果,其結(jié)論通常更具有針對(duì)性、前瞻性,對(duì)于豐富統(tǒng)計(jì)分析的內(nèi)容,提高統(tǒng)計(jì)分析的質(zhì)量具有重要意義。

        猜你喜歡
        財(cái)務(wù)指標(biāo)聚類
        基于K-means聚類的車-地?zé)o線通信場(chǎng)強(qiáng)研究
        我國(guó)金融機(jī)構(gòu)股價(jià)和主要財(cái)務(wù)指標(biāo)的相關(guān)性分析
        基于DBSACN聚類算法的XML文檔聚類
        全國(guó)國(guó)有企業(yè)主要財(cái)務(wù)指標(biāo)
        條紋顏色分離與聚類
        全國(guó)國(guó)有企業(yè)主要財(cái)務(wù)指標(biāo)
        中央管理企業(yè)主要財(cái)務(wù)指標(biāo)
        基于Spark平臺(tái)的K-means聚類算法改進(jìn)及并行化實(shí)現(xiàn)
        榮豐控股財(cái)務(wù)指標(biāo)分析
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        免费观看黄网站在线播放| 偷拍视频这里只有精品| 东京热日本av在线观看| 成人做受黄大片| 人禽无码视频在线观看| AV在线中出| 人妻中文久久人妻蜜桃| 伊甸园亚洲av久久精品| 日韩精品无码av中文无码版| 99久久精品一区二区三区蜜臀| 五月综合丁香婷婷久久| 女人18片毛片60分钟| 国产精选污视频在线观看| 色伊人国产高清在线| 精品中文字幕久久久人妻| 女人无遮挡裸交性做爰| 天堂8中文在线最新版在线| 亚洲欧美日韩国产精品网| 一区二区激情偷拍老牛视频av| 精品国产天堂综合一区在线 | 女女同性黄网在线观看| 日本一区二区偷拍视频| 久久人人爽av亚洲精品| 熟妇人妻无码中文字幕| 无码专区亚洲avl| 久久精品一区二区熟女| 成人午夜特黄aaaaa片男男 | 天堂8在线天堂资源bt| 97色在线视频| av免费在线观看在线观看| 国产成人无码一区二区三区| 午夜亚洲av永久无码精品| 91福利国产在线观看网站| 日本va中文字幕亚洲久伊人| 久久99精品久久久久久9蜜桃| 亚洲区小说区图片区| 国产美女主播福利一区| 日本真人添下面视频免费| 成人小说亚洲一区二区三区| 国产精品国产三级国产三不| 国产情侣自拍在线视频|