亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于XGBoost的跨境電商企業(yè)征信等級預(yù)測研究

2018-07-21 02:20:18王珊珊查林濤

韶關(guān)學(xué)院學(xué)報 2018年6期

王珊珊，查林濤

（安徽國際商務(wù)職業(yè)學(xué)院商貿(mào)流通學(xué)院，安徽合肥230011）

在國內(nèi)，對于跨境電子商務(wù)平臺研究有很多，主要集中在模式選擇、發(fā)展路徑研究方面.付蔚蔚［1］提出了利用AHP評價法用于中小企業(yè)跨境電商平臺選擇.宛建偉［2］分析了目前已經(jīng)成型的進(jìn)口跨境電商發(fā)展模式的利弊以及跨境電商網(wǎng)站運營建設(shè)等問題.劉晉飛［3］利用因子分析法構(gòu)建了電商采納及企業(yè)發(fā)展指標(biāo)體系，探討電子商務(wù)采納及對跨境電商制造型企業(yè)成長的影響和作用機(jī)理.但對供應(yīng)商建立完善的信用評價體系的研究則較少.

本文根據(jù)數(shù)據(jù)分析基本流程構(gòu)建大數(shù)據(jù)環(huán)境下的指標(biāo)體系.流程如下：（1）數(shù)據(jù)采集.面對互聯(lián)網(wǎng)海量的數(shù)據(jù)，在確定基本評價指標(biāo)的基礎(chǔ)上，利用爬蟲工具對數(shù)據(jù)進(jìn)行獲取，使得數(shù)據(jù)充足并具有時效性.（2）數(shù)據(jù)清洗.雖然在互聯(lián)網(wǎng)上獲取的數(shù)據(jù)是海量的，但也存在著大量的噪音.為了去除這些噪音，需要對數(shù)據(jù)進(jìn)行了清洗［4］.（3）數(shù)據(jù)標(biāo)準(zhǔn)化.最后在構(gòu)建指標(biāo)之前，采用Z標(biāo)準(zhǔn)化來對數(shù)據(jù)進(jìn)行處理［5］.通過以上步驟，本文構(gòu)建供應(yīng)商信用指標(biāo)：企業(yè)基本指標(biāo)（銷售額、從業(yè)人員數(shù)）、產(chǎn)品質(zhì)量（產(chǎn)品與描述相符程度、信息完整性、好評率）、服務(wù)質(zhì)量（服務(wù)細(xì)節(jié)評分、客服首次響應(yīng)時間）、顧客滿意度（新客增長率、老客回頭率）.

1 信用評估模型

Boosting算法是一種機(jī)器學(xué)習(xí)方法［6］，其主要作用是將弱分類轉(zhuǎn)化為強(qiáng)分類，達(dá)到有效分類的目的，其中GBDT就是一種有代表性的Boosting算法［7］.算法計算流程如下：

(1)根據(jù)最大熵理論，初始化為各訓(xùn)練樣本賦予相同的權(quán)重，如：；

(2)迭代訓(xùn)練模型，每次迭代都使用一種弱分類器對訓(xùn)練樣本進(jìn)行分類，并計算分類錯誤率：

其中ωi：第i個訓(xùn)練樣本在本次迭代中的權(quán)重，Gm：第m個弱分類器;

(3)計算分類器權(quán)重：am=log((1-errm)/errm);

(4) 在第 m+1 次迭代時,修改樣本權(quán)重，將 ωi重置為可以看出，在第 m+1 次迭代中，對于第m次迭代分類錯誤的樣本會得到更多的權(quán)重;

(5)全部迭代完成后，把所有弱分類器集成在一起，構(gòu)成完整的分類模型，其最終效果采用投票方式計算.

XGBoost［8］算法在GBDT基礎(chǔ)上對性能的一種改進(jìn)，可以穩(wěn)定高效的在大數(shù)據(jù)環(huán)境下執(zhí)行，其中最基本的組成結(jié)構(gòu)為回歸樹（CART）.XGBoost模型可以表示為：

其中，i=1,2，…,n為特征數(shù)據(jù)，F(xiàn)為所有弱分類器的集合，可以為各種回歸樹，弱分類器由fk表示.二分類中，定義≥0.5 的為正類，<0.5 為反類.

建立模型需要尋找使目標(biāo)函數(shù)最小化的前提下，所能找到的最優(yōu)參數(shù)，目標(biāo)函數(shù)fobj(θ)由誤差項L(θ)和正則化項Ω(θ)組合構(gòu)成，其中L(θ)表示函數(shù)的損失，即預(yù)測結(jié)果與真值之間的差距，Ω(θ)用于降低模型復(fù)雜度，避免出現(xiàn)過擬合.定義目標(biāo)函數(shù)fobj(θ)表達(dá)式：

定義：

建模時，除了對現(xiàn)有模型進(jìn)行訓(xùn)練以外，XGBoost增加了一個函數(shù)f(x)，新函數(shù)的加入有助于最小化目標(biāo)函數(shù)，將該新加入的函數(shù)引入模型中，主要計算過程如下：

式中，C表示與f(x)無關(guān)的常數(shù)項.

利用泰勒公式對目標(biāo)函數(shù)進(jìn)行展開，目標(biāo)函數(shù)可以近似為：

可見，特征點在誤差函數(shù)上的一階和二階導(dǎo)數(shù)可以決定目標(biāo)函數(shù)的值.

2 模型復(fù)雜度及評價標(biāo)準(zhǔn)

為了計算模型復(fù)雜度，將f(x)細(xì)化：劃分回歸樹為兩部分，一部分表示樹結(jié)構(gòu)本身，用q表示，另一部分表示葉子節(jié)點的權(quán)重，用w表示，因此f(x)表示為：

輸入變量特征被樹結(jié)構(gòu)映射到葉子節(jié)點索引id上，同時為每個葉子節(jié)點賦予了一個權(quán)重w作為葉子節(jié)點的得分.因此，定義XGBoost模型復(fù)雜度為每棵弱分類器樹中節(jié)點的個數(shù)與其對應(yīng)葉子節(jié)點得分的平方和：

式中，γ,T是超參數(shù)，用于防止模型過擬合.目標(biāo)函數(shù)可以改寫成：

式中，Ij={i|q(xi)=j}表示第j棵樹中所有葉子節(jié)點集合.

令：

目標(biāo)函數(shù)變化為：

假設(shè)，樹結(jié)構(gòu)q已知，通過優(yōu)化目標(biāo)函數(shù)尋找最好的參數(shù)w，以及對應(yīng)的目標(biāo)函數(shù)最大值，問題便轉(zhuǎn)換為求解二次函數(shù)最小值問題，可以得到：

其中，fobj作為模型評價函數(shù)，fobj值與模型效果成反比.

以本文構(gòu)建的大數(shù)據(jù)環(huán)境下的征信體系作為特征，使用XGBoost模型為每個樣本用戶預(yù)測一個征信等級，建立信用評估等級，由差、中、良和優(yōu)表示，為了便于計算，分別為各等級設(shè)定取值1～4.本文使用相應(yīng)類別的準(zhǔn)確率(precision)和召回率(recall)作為評價指標(biāo)，定義為.其中，Tp為正確預(yù)測真實目標(biāo)類別的樣本數(shù)量，Np為錯誤預(yù)測真實目標(biāo)類別的樣本數(shù)量，F(xiàn)N為錯誤預(yù)測非真實目標(biāo)類別的樣本數(shù)量.

3 實驗效果

本文選取的跨境平臺供應(yīng)商樣本數(shù)2 752條，取90%的樣本作為訓(xùn)練集，剩下10%作為測試集，訓(xùn)練集用于模型訓(xùn)練，測試集用來衡量模型效果.

首先將樣本都進(jìn)行隨機(jī)處理，充分的隨機(jī)處理可以保證效果的客觀.XGBoost模型本身就有相應(yīng)的正則化項用于防止模型過擬合，設(shè)置學(xué)習(xí)率0.3，最大深度3，經(jīng)過138次迭代后，訓(xùn)練集損失持續(xù)下降，但測試集損失開始上升，模型效果達(dá)到最佳，如圖1所示.

圖1 loss曲線

最終模型準(zhǔn)確度均值如表2所示，召回率如表3所示.表2的數(shù)據(jù)表示了多分類任務(wù)下，對各真實類別預(yù)測的準(zhǔn)確度，矩陣中每一元素對應(yīng)著模型預(yù)測類別為該實際類別的概率.對角線上元素代表了該類被正確預(yù)測的概率，且每一行加總為1.可以看出，本文建立的對企業(yè)信用預(yù)測的模型效果較好，可以精確預(yù)測目標(biāo)所屬類別.

表2 信用等級查準(zhǔn)率均值

表3 信用等級召回率均值

4 結(jié)語

本文從數(shù)據(jù)分析的基本流程出發(fā).在建立XGBoost模型前，對跨境電商平臺供應(yīng)商的信用特征進(jìn)行分析，有效地獲取多維數(shù)據(jù)，并對數(shù)據(jù)進(jìn)行清洗和處理.據(jù)此建立了針對跨境電商平臺供應(yīng)商信用指標(biāo)體系，相信對跨境電商平臺信用評價起到指導(dǎo)作用.

從XGBoost模型搭建分類預(yù)測模式看來，該模型雖在人工智能領(lǐng)域應(yīng)用較多，但是在跨境電商供應(yīng)商信用評價過程中也表現(xiàn)出良好的穩(wěn)定性和泛化性，可以推廣到實際問題中.下一步可以擴(kuò)大樣本數(shù)據(jù)，構(gòu)建更為精確的分類模型，對改模型進(jìn)行更進(jìn)一步的優(yōu)化.