王珊珊,查林濤
(安徽國際商務(wù)職業(yè)學(xué)院 商貿(mào)流通學(xué)院,安徽 合肥230011)
在國內(nèi),對于跨境電子商務(wù)平臺研究有很多,主要集中在模式選擇、發(fā)展路徑研究方面.付蔚蔚[1]提出了利用AHP評價法用于中小企業(yè)跨境電商平臺選擇.宛建偉[2]分析了目前已經(jīng)成型的進(jìn)口跨境電商發(fā)展模式的利弊以及跨境電商網(wǎng)站運營建設(shè)等問題.劉晉飛[3]利用因子分析法構(gòu)建了電商采納及企業(yè)發(fā)展指標(biāo)體系,探討電子商務(wù)采納及對跨境電商制造型企業(yè)成長的影響和作用機(jī)理.但對供應(yīng)商建立完善的信用評價體系的研究則較少.
本文根據(jù)數(shù)據(jù)分析基本流程構(gòu)建大數(shù)據(jù)環(huán)境下的指標(biāo)體系.流程如下:(1)數(shù)據(jù)采集.面對互聯(lián)網(wǎng)海量的數(shù)據(jù),在確定基本評價指標(biāo)的基礎(chǔ)上,利用爬蟲工具對數(shù)據(jù)進(jìn)行獲取,使得數(shù)據(jù)充足并具有時效性.(2)數(shù)據(jù)清洗.雖然在互聯(lián)網(wǎng)上獲取的數(shù)據(jù)是海量的,但也存在著大量的噪音.為了去除這些噪音,需要對數(shù)據(jù)進(jìn)行了清洗[4].(3)數(shù)據(jù)標(biāo)準(zhǔn)化.最后在構(gòu)建指標(biāo)之前,采用Z標(biāo)準(zhǔn)化來對數(shù)據(jù)進(jìn)行處理[5].通過以上步驟,本文構(gòu)建供應(yīng)商信用指標(biāo):企業(yè)基本指標(biāo)(銷售額、從業(yè)人員數(shù))、產(chǎn)品質(zhì)量(產(chǎn)品與描述相符程度、信息完整性、好評率)、服務(wù)質(zhì)量(服務(wù)細(xì)節(jié)評分、客服首次響應(yīng)時間)、顧客滿意度(新客增長率、老客回頭率).
Boosting算法是一種機(jī)器學(xué)習(xí)方法[6],其主要作用是將弱分類轉(zhuǎn)化為強(qiáng)分類,達(dá)到有效分類的目的,其中GBDT就是一種有代表性的Boosting算法[7].算法計算流程如下:
(1)根據(jù)最大熵理論,初始化為各訓(xùn)練樣本賦予相同的權(quán)重,如:;
(2)迭代訓(xùn)練模型,每次迭代都使用一種弱分類器對訓(xùn)練樣本進(jìn)行分類,并計算分類錯誤率:
其中ωi:第i個訓(xùn)練樣本在本次迭代中的權(quán)重,Gm:第m個弱分類器;
(3)計算分類器權(quán)重:am=log((1-errm)/errm);
(4) 在第 m+1 次迭代時,修改樣本權(quán)重,將 ωi重置為可以看出,在第 m+1 次迭代中,對于第m次迭代分類錯誤的樣本會得到更多的權(quán)重;
(5)全部迭代完成后,把所有弱分類器集成在一起,構(gòu)成完整的分類模型,其最終效果采用投票方式計算.
XGBoost[8]算法在GBDT基礎(chǔ)上對性能的一種改進(jìn),可以穩(wěn)定高效的在大數(shù)據(jù)環(huán)境下執(zhí)行,其中最基本的組成結(jié)構(gòu)為回歸樹(CART).XGBoost模型可以表示為:
其中,i=1,2,…,n為特征數(shù)據(jù),F(xiàn)為所有弱分類器的集合,可以為各種回歸樹,弱分類器由fk表示.二分類中,定義≥0.5 的為正類,<0.5 為反類.
建立模型需要尋找使目標(biāo)函數(shù)最小化的前提下,所能找到的最優(yōu)參數(shù),目標(biāo)函數(shù)fobj(θ)由誤差項L(θ)和正則化項Ω(θ)組合構(gòu)成,其中L(θ)表示函數(shù)的損失,即預(yù)測結(jié)果與真值之間的差距,Ω(θ)用于降低模型復(fù)雜度,避免出現(xiàn)過擬合.定義目標(biāo)函數(shù)fobj(θ)表達(dá)式:
定義:
建模時,除了對現(xiàn)有模型進(jìn)行訓(xùn)練以外,XGBoost增加了一個函數(shù)f(x),新函數(shù)的加入有助于最小化目標(biāo)函數(shù),將該新加入的函數(shù)引入模型中,主要計算過程如下:
式中,C表示與f(x)無關(guān)的常數(shù)項.
利用泰勒公式對目標(biāo)函數(shù)進(jìn)行展開,目標(biāo)函數(shù)可以近似為:
可見,特征點在誤差函數(shù)上的一階和二階導(dǎo)數(shù)可以決定目標(biāo)函數(shù)的值.
為了計算模型復(fù)雜度,將f(x)細(xì)化:劃分回歸樹為兩部分,一部分表示樹結(jié)構(gòu)本身,用q表示,另一部分表示葉子節(jié)點的權(quán)重,用w表示,因此f(x)表示為:
輸入變量特征被樹結(jié)構(gòu)映射到葉子節(jié)點索引id上,同時為每個葉子節(jié)點賦予了一個權(quán)重w作為葉子節(jié)點的得分.因此,定義XGBoost模型復(fù)雜度為每棵弱分類器樹中節(jié)點的個數(shù)與其對應(yīng)葉子節(jié)點得分的平方和:
式中,γ,T是超參數(shù),用于防止模型過擬合.目標(biāo)函數(shù)可以改寫成:
式中,Ij={i|q(xi)=j}表示第j棵樹中所有葉子節(jié)點集合.
令:
目標(biāo)函數(shù)變化為:
假設(shè),樹結(jié)構(gòu)q已知,通過優(yōu)化目標(biāo)函數(shù)尋找最好的參數(shù)w,以及對應(yīng)的目標(biāo)函數(shù)最大值,問題便轉(zhuǎn)換為求解二次函數(shù)最小值問題,可以得到:
其中,fobj作為模型評價函數(shù),fobj值與模型效果成反比.
以本文構(gòu)建的大數(shù)據(jù)環(huán)境下的征信體系作為特征,使用XGBoost模型為每個樣本用戶預(yù)測一個征信等級,建立信用評估等級,由差、中、良和優(yōu)表示,為了便于計算,分別為各等級設(shè)定取值1~4.本文使用相應(yīng)類別的準(zhǔn)確率(precision)和召回率(recall)作為評價指標(biāo),定義為.其中,Tp為正確預(yù)測真實目標(biāo)類別的樣本數(shù)量,Np為錯誤預(yù)測真實目標(biāo)類別的樣本數(shù)量,F(xiàn)N為錯誤預(yù)測非真實目標(biāo)類別的樣本數(shù)量.
本文選取的跨境平臺供應(yīng)商樣本數(shù)2 752條,取90%的樣本作為訓(xùn)練集,剩下10%作為測試集,訓(xùn)練集用于模型訓(xùn)練,測試集用來衡量模型效果.
首先將樣本都進(jìn)行隨機(jī)處理,充分的隨機(jī)處理可以保證效果的客觀.XGBoost模型本身就有相應(yīng)的正則化項用于防止模型過擬合,設(shè)置學(xué)習(xí)率0.3,最大深度3,經(jīng)過138次迭代后,訓(xùn)練集損失持續(xù)下降,但測試集損失開始上升,模型效果達(dá)到最佳,如圖1所示.
圖1 loss曲線
最終模型準(zhǔn)確度均值如表2所示,召回率如表3所示.表2的數(shù)據(jù)表示了多分類任務(wù)下,對各真實類別預(yù)測的準(zhǔn)確度,矩陣中每一元素對應(yīng)著模型預(yù)測類別為該實際類別的概率.對角線上元素代表了該類被正確預(yù)測的概率,且每一行加總為1.可以看出,本文建立的對企業(yè)信用預(yù)測的模型效果較好,可以精確預(yù)測目標(biāo)所屬類別.
表2 信用等級查準(zhǔn)率均值
表3 信用等級召回率均值
本文從數(shù)據(jù)分析的基本流程出發(fā).在建立XGBoost模型前,對跨境電商平臺供應(yīng)商的信用特征進(jìn)行分析,有效地獲取多維數(shù)據(jù),并對數(shù)據(jù)進(jìn)行清洗和處理.據(jù)此建立了針對跨境電商平臺供應(yīng)商信用指標(biāo)體系,相信對跨境電商平臺信用評價起到指導(dǎo)作用.
從XGBoost模型搭建分類預(yù)測模式看來,該模型雖在人工智能領(lǐng)域應(yīng)用較多,但是在跨境電商供應(yīng)商信用評價過程中也表現(xiàn)出良好的穩(wěn)定性和泛化性,可以推廣到實際問題中.下一步可以擴(kuò)大樣本數(shù)據(jù),構(gòu)建更為精確的分類模型,對改模型進(jìn)行更進(jìn)一步的優(yōu)化.