亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于XGBoost的跨境電商企業(yè)征信等級預(yù)測研究

        2018-07-21 02:20:18王珊珊查林濤
        韶關(guān)學(xué)院學(xué)報 2018年6期
        關(guān)鍵詞:分類器跨境分類

        王珊珊,查林濤

        (安徽國際商務(wù)職業(yè)學(xué)院 商貿(mào)流通學(xué)院,安徽 合肥230011)

        在國內(nèi),對于跨境電子商務(wù)平臺研究有很多,主要集中在模式選擇、發(fā)展路徑研究方面.付蔚蔚[1]提出了利用AHP評價法用于中小企業(yè)跨境電商平臺選擇.宛建偉[2]分析了目前已經(jīng)成型的進(jìn)口跨境電商發(fā)展模式的利弊以及跨境電商網(wǎng)站運營建設(shè)等問題.劉晉飛[3]利用因子分析法構(gòu)建了電商采納及企業(yè)發(fā)展指標(biāo)體系,探討電子商務(wù)采納及對跨境電商制造型企業(yè)成長的影響和作用機(jī)理.但對供應(yīng)商建立完善的信用評價體系的研究則較少.

        本文根據(jù)數(shù)據(jù)分析基本流程構(gòu)建大數(shù)據(jù)環(huán)境下的指標(biāo)體系.流程如下:(1)數(shù)據(jù)采集.面對互聯(lián)網(wǎng)海量的數(shù)據(jù),在確定基本評價指標(biāo)的基礎(chǔ)上,利用爬蟲工具對數(shù)據(jù)進(jìn)行獲取,使得數(shù)據(jù)充足并具有時效性.(2)數(shù)據(jù)清洗.雖然在互聯(lián)網(wǎng)上獲取的數(shù)據(jù)是海量的,但也存在著大量的噪音.為了去除這些噪音,需要對數(shù)據(jù)進(jìn)行了清洗[4].(3)數(shù)據(jù)標(biāo)準(zhǔn)化.最后在構(gòu)建指標(biāo)之前,采用Z標(biāo)準(zhǔn)化來對數(shù)據(jù)進(jìn)行處理[5].通過以上步驟,本文構(gòu)建供應(yīng)商信用指標(biāo):企業(yè)基本指標(biāo)(銷售額、從業(yè)人員數(shù))、產(chǎn)品質(zhì)量(產(chǎn)品與描述相符程度、信息完整性、好評率)、服務(wù)質(zhì)量(服務(wù)細(xì)節(jié)評分、客服首次響應(yīng)時間)、顧客滿意度(新客增長率、老客回頭率).

        1 信用評估模型

        Boosting算法是一種機(jī)器學(xué)習(xí)方法[6],其主要作用是將弱分類轉(zhuǎn)化為強(qiáng)分類,達(dá)到有效分類的目的,其中GBDT就是一種有代表性的Boosting算法[7].算法計算流程如下:

        (1)根據(jù)最大熵理論,初始化為各訓(xùn)練樣本賦予相同的權(quán)重,如:;

        (2)迭代訓(xùn)練模型,每次迭代都使用一種弱分類器對訓(xùn)練樣本進(jìn)行分類,并計算分類錯誤率:

        其中ωi:第i個訓(xùn)練樣本在本次迭代中的權(quán)重,Gm:第m個弱分類器;

        (3)計算分類器權(quán)重:am=log((1-errm)/errm);

        (4) 在第 m+1 次迭代時,修改樣本權(quán)重,將 ωi重置為可以看出,在第 m+1 次迭代中,對于第m次迭代分類錯誤的樣本會得到更多的權(quán)重;

        (5)全部迭代完成后,把所有弱分類器集成在一起,構(gòu)成完整的分類模型,其最終效果采用投票方式計算.

        XGBoost[8]算法在GBDT基礎(chǔ)上對性能的一種改進(jìn),可以穩(wěn)定高效的在大數(shù)據(jù)環(huán)境下執(zhí)行,其中最基本的組成結(jié)構(gòu)為回歸樹(CART).XGBoost模型可以表示為:

        其中,i=1,2,…,n為特征數(shù)據(jù),F(xiàn)為所有弱分類器的集合,可以為各種回歸樹,弱分類器由fk表示.二分類中,定義≥0.5 的為正類,<0.5 為反類.

        建立模型需要尋找使目標(biāo)函數(shù)最小化的前提下,所能找到的最優(yōu)參數(shù),目標(biāo)函數(shù)fobj(θ)由誤差項L(θ)和正則化項Ω(θ)組合構(gòu)成,其中L(θ)表示函數(shù)的損失,即預(yù)測結(jié)果與真值之間的差距,Ω(θ)用于降低模型復(fù)雜度,避免出現(xiàn)過擬合.定義目標(biāo)函數(shù)fobj(θ)表達(dá)式:

        定義:

        建模時,除了對現(xiàn)有模型進(jìn)行訓(xùn)練以外,XGBoost增加了一個函數(shù)f(x),新函數(shù)的加入有助于最小化目標(biāo)函數(shù),將該新加入的函數(shù)引入模型中,主要計算過程如下:

        式中,C表示與f(x)無關(guān)的常數(shù)項.

        利用泰勒公式對目標(biāo)函數(shù)進(jìn)行展開,目標(biāo)函數(shù)可以近似為:

        可見,特征點在誤差函數(shù)上的一階和二階導(dǎo)數(shù)可以決定目標(biāo)函數(shù)的值.

        2 模型復(fù)雜度及評價標(biāo)準(zhǔn)

        為了計算模型復(fù)雜度,將f(x)細(xì)化:劃分回歸樹為兩部分,一部分表示樹結(jié)構(gòu)本身,用q表示,另一部分表示葉子節(jié)點的權(quán)重,用w表示,因此f(x)表示為:

        輸入變量特征被樹結(jié)構(gòu)映射到葉子節(jié)點索引id上,同時為每個葉子節(jié)點賦予了一個權(quán)重w作為葉子節(jié)點的得分.因此,定義XGBoost模型復(fù)雜度為每棵弱分類器樹中節(jié)點的個數(shù)與其對應(yīng)葉子節(jié)點得分的平方和:

        式中,γ,T是超參數(shù),用于防止模型過擬合.目標(biāo)函數(shù)可以改寫成:

        式中,Ij={i|q(xi)=j}表示第j棵樹中所有葉子節(jié)點集合.

        令:

        目標(biāo)函數(shù)變化為:

        假設(shè),樹結(jié)構(gòu)q已知,通過優(yōu)化目標(biāo)函數(shù)尋找最好的參數(shù)w,以及對應(yīng)的目標(biāo)函數(shù)最大值,問題便轉(zhuǎn)換為求解二次函數(shù)最小值問題,可以得到:

        其中,fobj作為模型評價函數(shù),fobj值與模型效果成反比.

        以本文構(gòu)建的大數(shù)據(jù)環(huán)境下的征信體系作為特征,使用XGBoost模型為每個樣本用戶預(yù)測一個征信等級,建立信用評估等級,由差、中、良和優(yōu)表示,為了便于計算,分別為各等級設(shè)定取值1~4.本文使用相應(yīng)類別的準(zhǔn)確率(precision)和召回率(recall)作為評價指標(biāo),定義為.其中,Tp為正確預(yù)測真實目標(biāo)類別的樣本數(shù)量,Np為錯誤預(yù)測真實目標(biāo)類別的樣本數(shù)量,F(xiàn)N為錯誤預(yù)測非真實目標(biāo)類別的樣本數(shù)量.

        3 實驗效果

        本文選取的跨境平臺供應(yīng)商樣本數(shù)2 752條,取90%的樣本作為訓(xùn)練集,剩下10%作為測試集,訓(xùn)練集用于模型訓(xùn)練,測試集用來衡量模型效果.

        首先將樣本都進(jìn)行隨機(jī)處理,充分的隨機(jī)處理可以保證效果的客觀.XGBoost模型本身就有相應(yīng)的正則化項用于防止模型過擬合,設(shè)置學(xué)習(xí)率0.3,最大深度3,經(jīng)過138次迭代后,訓(xùn)練集損失持續(xù)下降,但測試集損失開始上升,模型效果達(dá)到最佳,如圖1所示.

        圖1 loss曲線

        最終模型準(zhǔn)確度均值如表2所示,召回率如表3所示.表2的數(shù)據(jù)表示了多分類任務(wù)下,對各真實類別預(yù)測的準(zhǔn)確度,矩陣中每一元素對應(yīng)著模型預(yù)測類別為該實際類別的概率.對角線上元素代表了該類被正確預(yù)測的概率,且每一行加總為1.可以看出,本文建立的對企業(yè)信用預(yù)測的模型效果較好,可以精確預(yù)測目標(biāo)所屬類別.

        表2 信用等級查準(zhǔn)率均值

        表3 信用等級召回率均值

        4 結(jié)語

        本文從數(shù)據(jù)分析的基本流程出發(fā).在建立XGBoost模型前,對跨境電商平臺供應(yīng)商的信用特征進(jìn)行分析,有效地獲取多維數(shù)據(jù),并對數(shù)據(jù)進(jìn)行清洗和處理.據(jù)此建立了針對跨境電商平臺供應(yīng)商信用指標(biāo)體系,相信對跨境電商平臺信用評價起到指導(dǎo)作用.

        從XGBoost模型搭建分類預(yù)測模式看來,該模型雖在人工智能領(lǐng)域應(yīng)用較多,但是在跨境電商供應(yīng)商信用評價過程中也表現(xiàn)出良好的穩(wěn)定性和泛化性,可以推廣到實際問題中.下一步可以擴(kuò)大樣本數(shù)據(jù),構(gòu)建更為精確的分類模型,對改模型進(jìn)行更進(jìn)一步的優(yōu)化.

        猜你喜歡
        分類器跨境分類
        分類算一算
        跨境支付兩大主流渠道對比談
        中國外匯(2019年20期)2019-11-25 09:54:56
        在跨境支付中打造銀企直聯(lián)
        中國外匯(2019年14期)2019-10-14 00:58:28
        關(guān)于促進(jìn)跨境投融資便利化的幾點思考
        中國外匯(2019年21期)2019-05-21 03:04:14
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        教你一招:數(shù)的分類
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        一二三四五区av蜜桃| 久久夜色精品国产亚洲噜噜| 亚洲区一区二区中文字幕| 黑人玩弄极品人妻系列视频| 国产三级在线观看完整版| 亚洲人成亚洲精品| 亚洲欧美日韩高清一区二区三区| 国内揄拍国内精品久久| 蜜桃传媒免费在线播放| 护士人妻hd中文字幕| 久久成人免费电影| 亚洲精品99久91在线| 亚洲午夜狼人综合影院| 亚洲人午夜射精精品日韩| 亚洲国产午夜精品乱码| 中文字幕亚洲精品高清| 香蕉久久一区二区不卡无毒影院| 国产麻豆精品久久一二三| 亚洲另类激情专区小说婷婷久| 91久久国产露脸国语对白| 女人的精水喷出来视频| 国产超碰人人做人人爱ⅴa| 欧美成人精品福利在线视频| 少妇熟女天堂网av天堂| 久久国产成人精品国产成人亚洲| 玩弄人妻少妇500系列网址| 天天摸天天做天天爽天天舒服| 粉嫩人妻91精品视色在线看| 尤物在线精品视频| 黄色毛片在线看| 日本高清长片一区二区| 午夜秒播久久精品麻豆| 国产精品久久久久久久免费看| 国产一区二区三区精品久久呦| 久久久精品国产av麻豆樱花| 国产人妻大战黑人20p| 污污污污污污WWW网站免费| 日本久久一区二区三区高清| 日本无遮挡真人祼交视频| 欧美最猛黑人xxxx黑人表情| 国产精品涩涩涩一区二区三区免费 |