亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于KPCA-GaussianNB的電子商務(wù)信用風(fēng)險(xiǎn)分類

        2019-02-26 03:51:20
        物流技術(shù) 2019年2期
        關(guān)鍵詞:樸素信用風(fēng)險(xiǎn)貝葉斯

        (河北工業(yè)大學(xué) 理學(xué)院,天津 300401)

        1 引言

        近年來,電子商務(wù)作為虛擬交易平臺(tái)正發(fā)揮著越來越重要的作用,它匯集了大量的廠商信息、消費(fèi)者信息以及交易信息,深深改變著當(dāng)今社會(huì)的企業(yè)形態(tài)和消費(fèi)行為。根據(jù)2017年9月的詳細(xì)數(shù)據(jù)顯示,中國電子商務(wù)零售額比前一個(gè)周期增長近38個(gè)百分點(diǎn),達(dá)到同期的最高水平。在電子商務(wù)取得巨大成績的同時(shí),確定交易主體的信用狀況成為電子商務(wù)交易發(fā)展中亟待解決的問題。精準(zhǔn)辨認(rèn)和評價(jià)電子商務(wù)企業(yè)的信用風(fēng)險(xiǎn),加強(qiáng)信用風(fēng)險(xiǎn)分類指導(dǎo),不僅能夠?yàn)槠髽I(yè)本身提供風(fēng)險(xiǎn)預(yù)警,降低企業(yè)的損失,而且對于參與交易的采購者來說,也是一個(gè)識別風(fēng)險(xiǎn)的重要參照。

        企業(yè)信用風(fēng)險(xiǎn)評估長期以來深受國內(nèi)外學(xué)術(shù)界和商界的關(guān)注。然而以電子商務(wù)企業(yè)信用風(fēng)險(xiǎn)為主題的研究卻很少。在國內(nèi),風(fēng)險(xiǎn)機(jī)制方面,如楊曉梅等[1]經(jīng)過研究中國電子商務(wù)網(wǎng)站的信用管理機(jī)制給出應(yīng)對信用風(fēng)險(xiǎn)的對策;許進(jìn)[2]基于收入鏈提出電子商務(wù)信用風(fēng)險(xiǎn)管理策略。在電子商務(wù)信用風(fēng)險(xiǎn)評價(jià)方面,Wang等[3]在2008年采用馬爾可夫鏈模型對電子商務(wù)信用風(fēng)險(xiǎn)進(jìn)行評估;余樂安[4]在2012年通過建立最小二乘近似支持向量回歸模型對電子商務(wù)信用風(fēng)險(xiǎn)進(jìn)行預(yù)警研究,并給出不同的預(yù)警策略;鄔建平[5]在2016年利用灰色關(guān)聯(lián)分析對電子商務(wù)信用風(fēng)險(xiǎn)指標(biāo)進(jìn)行約簡后使用粒子群優(yōu)化算法將最小二乘支持向量回歸模型優(yōu)化,對電子商務(wù)信用風(fēng)險(xiǎn)進(jìn)行評價(jià)和預(yù)測研究。在國外,一些統(tǒng)計(jì)方法已被廣泛應(yīng)用于構(gòu)建企業(yè)信用風(fēng)險(xiǎn)評估模型,如線性判別分析[6]、Probit分析[7]和Logit分析[8]等。但是,這些統(tǒng)計(jì)方法在企業(yè)信用風(fēng)險(xiǎn)評估中的應(yīng)用容易使人們忽視相關(guān)指標(biāo)之間存在的非線性關(guān)系,即這些方法在理論上會(huì)對有限樣本無效。近年來,許多研究表明,智能方法,如基于案例推理(CBR)[9],決策樹(DT)[10],人工神經(jīng)網(wǎng)絡(luò)(ANN)[11]和支持向量機(jī)(SVM)[12]等可以作為企業(yè)信用風(fēng)險(xiǎn)評估的替代方法。這些方法從訓(xùn)練數(shù)據(jù)中自動(dòng)提取知識,在非線性模式分類研究中表現(xiàn)很好。其中,SVM是被成功應(yīng)用于企業(yè)信用風(fēng)險(xiǎn)評價(jià)中最有效的方法之一。然而,上述工作大都以金融企業(yè)為研究對象,以電子商務(wù)企業(yè)信用風(fēng)險(xiǎn)為核心的研究卻較少。

        在上述研究方法的基礎(chǔ)上發(fā)現(xiàn),樸素貝葉斯算法在電子商務(wù)信用風(fēng)險(xiǎn)研究中還不成熟,原因是該方法只有在特征條件獨(dú)立的情況下表現(xiàn)很好,在處理電子商務(wù)信用風(fēng)險(xiǎn)問題時(shí)各指標(biāo)間又很難達(dá)到“獨(dú)立”這個(gè)條件,從而影響最后的實(shí)證分析結(jié)果。在使用SVM進(jìn)行信用風(fēng)險(xiǎn)評估中還發(fā)現(xiàn),特征選擇也是建立分類系統(tǒng)的一個(gè)重要問題,合理限制分類器輸入特征的數(shù)量,可以使分類器具有良好的預(yù)測準(zhǔn)確率和較少的計(jì)算成本。因?yàn)橛脕砻枋鲭娮由虅?wù)企業(yè)信用風(fēng)險(xiǎn)的指標(biāo)屬性太多,造成指標(biāo)數(shù)據(jù)的維度過高,所以指標(biāo)數(shù)據(jù)中必存在冗余信息,需要通過選擇出一個(gè)小的特征集來代替原始數(shù)據(jù)集。針對上述兩個(gè)方面的問題,本文試圖引入KPCA方法對GaussianNB算法進(jìn)行優(yōu)化后再對電子商務(wù)信用風(fēng)險(xiǎn)進(jìn)行分類研究。首先應(yīng)用KPCA方法在所有指標(biāo)數(shù)據(jù)中提取主要特征。一方面,考慮KPCA方法可以挖掘包含在數(shù)據(jù)集中的非線性信息,使數(shù)據(jù)可以保留更加充分的信息,所以可以找到較少幾個(gè)信息充分的綜合指標(biāo)來代替原始數(shù)據(jù)。另一方面,KPCA方法是在高維特征空間中使用PCA方法,能夠消除指標(biāo)間的信息冗余性以及削弱指標(biāo)間的相關(guān)性,降低模型檢驗(yàn)計(jì)算成本的同時(shí)提高檢驗(yàn)效率。其次,特征選擇出的小的數(shù)據(jù)集指標(biāo)間變得不相關(guān),使得數(shù)據(jù)集能夠克服樸素貝葉斯算法特征條件相互獨(dú)立的假設(shè)。又結(jié)合指標(biāo)數(shù)據(jù)的連續(xù)性,選擇建立高斯樸素貝葉斯模型對電子商務(wù)企業(yè)信用風(fēng)險(xiǎn)進(jìn)行分類研究。最后,使用真實(shí)指標(biāo)數(shù)據(jù)進(jìn)行實(shí)證檢驗(yàn),查看模型的有效性,并根據(jù)分類結(jié)果提出應(yīng)對風(fēng)險(xiǎn)的策略。

        2 組合模型

        2.1 核主成分分析的原理

        核主成分分析(簡稱KPCA)是將核函數(shù)方法添加到主成分分析的一種多元統(tǒng)計(jì)方法,它是經(jīng)過某種隱式形式將輸入空間(由訓(xùn)練樣本集構(gòu)成)映射到某個(gè)高維空間(即特征空間)并在高維空間完成主成分分析,達(dá)到對樣本數(shù)據(jù)降維卻能保留充分的特征信息的目的。因此,KPCA作為PCA方法的一種非線性拓展方法,用其挖掘電子商務(wù)信用風(fēng)險(xiǎn)指標(biāo)體系中包含的非線性信息更有利于后續(xù)的分類研究。

        假設(shè)訓(xùn)練樣本用x1,x2,...,xN表示,核函數(shù)將輸入空間{xi}通過非線性映射Φ映射到特征空間F上,且數(shù)據(jù)集在F中滿足中心化的條件如下:

        那么特征空間F中樣本集的協(xié)方差矩陣C可以表示為:

        根據(jù)式(2)求得C的特征值λ及其相應(yīng)的特征向量V:

        因?yàn)樗械奶卣飨蛄烤杀硎緸棣?x1),Φ(x2),...,Φ(xN)的線性組合,故存在βi(i=1,2,...,N),使得:

        在式(4)中,由于V為特征空間F的映射函數(shù)Φ(xi)(i=1,2,...,N)的生成空間,所以有:

        接下來,定義N×N維矩陣K,則有:

        系數(shù)βi的特征值問題由核函數(shù)Kij決定并且K為點(diǎn)積核矩陣,因此式(6)可以寫成:

        求解式(7)就可以得到特征值和相應(yīng)的特征向量。那么測試集x在特征向量Vj方向的投影如下:

        用核函數(shù)代替內(nèi)積:

        如果式(1)不成立,需調(diào)整如下:

        則核矩陣可用如下形式代替:

        本文基于上述KPCA方法的根本思想,首先將樣本集表示成一個(gè)(m×n)維的數(shù)據(jù)矩陣:

        其次,選定高斯徑向基(簡稱RBF)核函數(shù):

        此核函數(shù)將樣本數(shù)據(jù)集通過非線性映射方式映射到一個(gè)高維特征空間。最后,在高維特征空間中通過PCA方法對樣本集降維操作,根據(jù)各個(gè)成分各自的方差百分比(也稱為貢獻(xiàn)率),選擇出少數(shù)幾個(gè)不相關(guān)的綜合指標(biāo)代替原始多個(gè)指標(biāo)的數(shù)據(jù)。

        2.2 高斯樸素貝葉斯模型

        樸素貝葉斯方法是一種以貝葉斯定理為基礎(chǔ),以各個(gè)特征相互獨(dú)立為假設(shè)的概率分類算法。樸素貝葉斯算法分類效率高、需要關(guān)注的參數(shù)少、具備良好的泛化能力,并且能夠?qū)⒆詈蟮姆诸惤Y(jié)果給出合理的概率解釋。

        對于給定的訓(xùn)練數(shù)據(jù)集,樸素貝葉斯算法將輸入(特征向量)定義為在輸入空間的隨機(jī)變量X,輸出(類標(biāo)記)定義為在輸出空間的隨機(jī)變量Y,學(xué)習(xí)聯(lián)合分布P(X,Y)。具體學(xué)習(xí)如下:

        (1)先驗(yàn)概率分布:

        (2)條件概率分布:

        因其假設(shè)各個(gè)特征相互獨(dú)立,則條件概率可以表示為:

        (3)計(jì)算給定輸入變量的后驗(yàn)概率分布如下:

        (4)最后遵循期望風(fēng)險(xiǎn)最小化準(zhǔn)則,保留后驗(yàn)概率最大的類標(biāo)記。樸素貝葉斯分類模型的輸入變量既可以是離散型變量,又可以是連續(xù)型變量。其中,對于連續(xù)型變量應(yīng)用最好的模型是高斯樸素貝葉斯(GaussianNB)模型,其條件概率可以表示為:

        需要從訓(xùn)練樣本集估計(jì)μk和的值。μk是在樣本類別為ck下,所有的Xj的均值,是在樣本類別為ck下所有Xj的方差。

        高斯樸素貝葉斯模型的主要參數(shù)只有一個(gè),即先驗(yàn)概率P(Y=ck)。通常情況下,默認(rèn)為P(Y=ck)=mkm,m是訓(xùn)練樣本集總數(shù),mk是輸出第k類時(shí)的訓(xùn)練樣本數(shù)。當(dāng)然,如果給出先驗(yàn)概率,則以給出的值為準(zhǔn)。本文選擇默認(rèn)的先驗(yàn)概率值對電子商務(wù)信用風(fēng)險(xiǎn)進(jìn)行分類。

        3 實(shí)證分析與模型檢驗(yàn)

        利用核主成分分析方法優(yōu)化高斯樸素貝葉斯算法的主要思想:利用KPCA方法將原始數(shù)據(jù)提取出少數(shù)幾個(gè)但能夠充分保留原始信息的綜合指標(biāo),并且提取出的綜合指標(biāo)之間變得不相關(guān)。既能減少計(jì)算成本、挖掘到樣本信息中包含的非線性信息,還能克服分類算法超強(qiáng)的條件之間相互獨(dú)立的假設(shè),提高模型的分類效率。

        3.1 數(shù)據(jù)來源

        一般情況下,從靜態(tài)指標(biāo)和動(dòng)態(tài)指標(biāo)兩方面描述電子商務(wù)企業(yè)信用風(fēng)險(xiǎn)的指標(biāo)屬性。靜態(tài)指標(biāo)主要包括企業(yè)的外部因素和企業(yè)本身的素質(zhì),動(dòng)態(tài)指標(biāo)主要包括企業(yè)的履約狀況、支付信用能力、其他交易參與者的信用及企業(yè)交往印象。本文的電子商務(wù)信用風(fēng)險(xiǎn)指標(biāo)主要來自文獻(xiàn)[13]中篩選出的19個(gè)指標(biāo)作為本次的指標(biāo)體系,具體指標(biāo)及計(jì)算公式見表1。

        本文使用的原始數(shù)據(jù)來源于文獻(xiàn)[13]中收集的18家電子商務(wù)企業(yè)的樣本數(shù)據(jù)以及專家組給出的打分結(jié)果(選定兩種分類:0代表無信用風(fēng)險(xiǎn),其信用評分高于60分;1代表有信用風(fēng)險(xiǎn),其信用評分低于60分),并將19個(gè)指標(biāo)分別用X1,X2,...,X19表示,整理數(shù)據(jù)見表2。

        利用上述構(gòu)建的電子商務(wù)信用風(fēng)險(xiǎn)指標(biāo)體系及收集的18家企業(yè)樣本數(shù)據(jù),就可以運(yùn)用核主成分分析和高斯樸素貝葉斯組合模型進(jìn)行電子商務(wù)信用風(fēng)險(xiǎn)分類的研究。

        3.2 模型檢驗(yàn)

        為了對比本文提出的組合模型的預(yù)測準(zhǔn)確率,同時(shí)采用高斯樸素貝葉斯模型(GaussianNB)、主成分分析和高斯樸素貝葉斯組合模型(PCA-GaussianNB)對電子商務(wù)信用風(fēng)險(xiǎn)進(jìn)行分類,檢驗(yàn)?zāi)P偷挠行?。針對本文收集?shù)據(jù)的結(jié)構(gòu),選擇1-13家電子商務(wù)企業(yè)的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),其余14-18家電子商務(wù)企業(yè)的數(shù)據(jù)作為測試數(shù)據(jù)。

        表1 電子商務(wù)信用風(fēng)險(xiǎn)指標(biāo)體系選取結(jié)果

        表2 18家電子商務(wù)企業(yè)信用風(fēng)險(xiǎn)原始數(shù)據(jù)

        3.2.1 數(shù)據(jù)處理。應(yīng)用SPSS軟件,利用主成分分析方法對13家電子商務(wù)企業(yè)信用風(fēng)險(xiǎn)數(shù)據(jù)指標(biāo)進(jìn)行相關(guān)性分析,相關(guān)性分析矩陣見表3、表4。

        表3 指標(biāo)之間的相關(guān)性分析矩陣(1)

        表4 指標(biāo)之間的相關(guān)性分析矩陣(2)

        通過觀察指標(biāo)之間的相關(guān)性分析矩陣,發(fā)現(xiàn)電子商務(wù)企業(yè)信用風(fēng)險(xiǎn)數(shù)據(jù)指標(biāo)之間具有相關(guān)性。因而對訓(xùn)練數(shù)據(jù)集進(jìn)行有效的主成分提取,有利于后續(xù)貝葉斯分類的研究。解釋的總方差見表5。

        一般主成分分析或者核主成分分析選擇累計(jì)貢獻(xiàn)率達(dá)85%以上的主成分個(gè)數(shù)。本文通過輸出解釋的總方差,可以看到各成分各自的方差百分比(貢獻(xiàn)率)以及前6個(gè)主成分累計(jì)貢獻(xiàn)率已經(jīng)占據(jù)原始數(shù)據(jù)85%以上的信息。結(jié)合碎石圖(如圖1所示)也可以看出,成分?jǐn)?shù)小于等于6的部分特征值大,說明包含數(shù)據(jù)中的信息比較多;成分?jǐn)?shù)大于6的部分曲線逐漸變得平緩,特征值小,說明包含數(shù)據(jù)中的信息少。本文為保持一致性和可比性,在進(jìn)行主成分分析和核主成分分析時(shí)均選取前6個(gè)主成分進(jìn)行分析。

        表5 主成分統(tǒng)計(jì)信息表

        圖1 成分?jǐn)?shù)和特征值之間的關(guān)系

        3.2.2 模型結(jié)果和評估。利用GaussianNB、PCAGaussianNB和KPCA-GaussianNB分別對電子商務(wù)企業(yè)信用風(fēng)險(xiǎn)數(shù)據(jù)進(jìn)行分類,具體分類流程如圖2所示。PCA-GaussianNB和KPCA-GaussianNB兩個(gè)模型均先通過PCA方法或KPCA方法對訓(xùn)練數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理;然后使用預(yù)處理之后的數(shù)據(jù)進(jìn)行高斯樸素貝葉斯模型的建立;最后,使用14-18家電子商務(wù)企業(yè)的數(shù)據(jù)作為測試數(shù)據(jù)進(jìn)行驗(yàn)證。

        圖2 分類模型流程圖

        根據(jù)分類模型的步驟進(jìn)行實(shí)證分析,分別記錄GaussianNB、PCA-GaussianNB和KPCA-GaussianNB三組模型的分類結(jié)果,見表6。

        表6 5家電子商務(wù)企業(yè)信用風(fēng)險(xiǎn)分類結(jié)果

        為了檢驗(yàn)KPCA-GaussianNB組合模型的優(yōu)越性,需要對模型進(jìn)行評估。本文采用的分類器評估指標(biāo)為準(zhǔn)確率、召回率、F1度量值。一般二分類問題將真實(shí)類別和預(yù)測類別劃分成真正例(TP)、假正例(FP)、假負(fù)例(FN)、真負(fù)例(TN)。相應(yīng)的評估指標(biāo)計(jì)算方式如下:

        根據(jù)上述三種評估指標(biāo),分別計(jì)算得到GaussianNB、PCA-GaussianNB和KPCA-GaussianNB三組模型的評估矩陣結(jié)果,見表7-表9。

        表7 GaussianNB-評估矩陣

        表8 PCA-GaussianNB-評估矩陣

        表9 KPCA-GaussianNB-評估矩陣

        依據(jù)上述評估結(jié)果,三個(gè)模型的平均準(zhǔn)確率依次為0.300、0.867、1.000,可見不管是PCA-Gaussian-NB組合模型還是KPCA-GaussianNB組合模型都優(yōu)于GaussianNB模型,說明GaussianNB模型對屬性指標(biāo)間要求相互獨(dú)立的假設(shè)確實(shí)破壞了模型的分類準(zhǔn)確率。但是,因?yàn)镵PCA方法可以保留電子商務(wù)企業(yè)信用風(fēng)險(xiǎn)樣本數(shù)據(jù)中的非線性信息,它降維后的數(shù)據(jù)比PCA方法降維后的數(shù)據(jù)保留的信息更充分,所以KPCA-GaussianNB組合模型的分類效果更好。除此之外,結(jié)合召回率進(jìn)行分析,一般情況下,準(zhǔn)確率高時(shí),召回率低(上述三個(gè)結(jié)果矩陣也證實(shí)了這一點(diǎn)),所以我們將準(zhǔn)確率和召回率融合成一個(gè)F1度量值(調(diào)和均值F1-score)進(jìn)行比較,可見KPCA-GaussianNB組合模型的F1度量值同樣是優(yōu)于前兩個(gè)模型的。因此,可以說本文提出的KPCA-GaussianNB組合模型是可行且有效的。

        4 結(jié)語

        本文利用KPCA方法優(yōu)化高斯樸素貝葉斯模型,對電子商務(wù)企業(yè)信用風(fēng)險(xiǎn)進(jìn)行分類探討的結(jié)果表明:KPCA方法能夠降低計(jì)算成本、高效挖掘數(shù)據(jù)中的有用信息,還能降低數(shù)據(jù)之間的相關(guān)性、提高GaussianNB方法的分類準(zhǔn)確率。KPCA-GaussianNB組合模型與其它常見分類方法比較:首先,所需估計(jì)的參數(shù)較少,模型結(jié)構(gòu)簡單易理解;再者,繼承樸素貝葉斯算法的增量式訓(xùn)練,可以達(dá)到動(dòng)態(tài)預(yù)測電子商務(wù)企業(yè)信用風(fēng)險(xiǎn)的目的;最后,對小數(shù)據(jù)集表現(xiàn)很好,也就是說,這對于很難獲取大量數(shù)據(jù)的電子商務(wù)企業(yè)信用風(fēng)險(xiǎn)研究來說非常實(shí)用。

        依據(jù)組合模型分類結(jié)果,對電子商務(wù)企業(yè)本身可提供非常有價(jià)值的參考。一方面,對不存在信用風(fēng)險(xiǎn)的電子商務(wù)企業(yè),企業(yè)本身要居安思危,加強(qiáng)信用風(fēng)險(xiǎn)的防范,保持企業(yè)持續(xù)健康經(jīng)營。另外,對存在信用風(fēng)險(xiǎn)的電子商務(wù)企業(yè),企業(yè)要努力改善與信用風(fēng)險(xiǎn)相關(guān)的指標(biāo),降低風(fēng)險(xiǎn)、減小損失。最后,電子商務(wù)企業(yè)在進(jìn)行信用風(fēng)險(xiǎn)預(yù)測時(shí),要?jiǎng)討B(tài)的獲取新數(shù)據(jù),保持?jǐn)?shù)據(jù)的時(shí)效性。

        猜你喜歡
        樸素信用風(fēng)險(xiǎn)貝葉斯
        隔離樸素
        樸素的安慰(組詩)
        他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
        最神奇最樸素的兩本書
        淺析我國商業(yè)銀行信用風(fēng)險(xiǎn)管理
        貝葉斯公式及其應(yīng)用
        京東商城電子商務(wù)信用風(fēng)險(xiǎn)防范策略
        基于貝葉斯估計(jì)的軌道占用識別方法
        一種基于貝葉斯壓縮感知的說話人識別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        個(gè)人信用風(fēng)險(xiǎn)評分的指標(biāo)選擇研究
        国产精选自拍视频网站| av狼人婷婷久久亚洲综合| 久久久国产精品ⅤA麻豆百度| 亚洲视频在线中文字幕乱码| 日本a爱视频二区三区| 国产亚州精品女人久久久久久| 亚洲精品国产av天美传媒| 荡女精品导航| 国产精品亚洲美女av网站| 国产诱惑人的视频在线观看| 日本精品一区二区三区福利视频 | 国产在线精品成人一区二区三区 | 久久精品亚洲成在人线av| 日韩人妻中文字幕高清在线| 亚洲国产成人av在线观看| 亚洲欧美日韩中文无线码| 色窝窝手在线视频| 日韩精品一区二区亚洲专区| 午夜人妻久久久久久久久| 精品9e精品视频在线观看| 传媒在线无码| 国产白浆流出一区二区| 国内自拍色第一页第二页| 国产高跟黑色丝袜在线| 18级成人毛片免费观看| 亚洲精品中文字幕尤物综合| 精彩视频在线观看一区二区三区| 老色鬼在线精品视频| 国产成人亚洲精品无码h在线| 99久久精品国产片| 国产精品高湖呻呤久久av| 人妻丝袜中文无码av影音先锋专区| 精品无码中文字幕在线| 国产国拍亚洲精品福利| 伊人五月亚洲综合在线| 久久精品人人做人人爱爱| 亚洲人成色777777老人头| 久久精品午夜免费看| 国产精品女主播在线播放| 亚洲高清乱码午夜电影网| 免费做爰猛烈吃奶摸视频在线观看|