亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于集成學(xué)習(xí)的煙草異常數(shù)據(jù)挖掘研究與應(yīng)用

        2020-12-04 08:02:20李天舉謝志峰張侃弘陶亦筠
        關(guān)鍵詞:數(shù)據(jù)挖掘特征模型

        李天舉,謝志峰,張侃弘,陶亦筠,范 杰,湯 臻

        (1.上海大學(xué),上海 200072; 2.上海煙草集團(tuán)有限責(zé)任公司,上海 200082; 3.上海市煙草專(zhuān)賣(mài)局,上海 200120)

        0 引 言

        隨著數(shù)字化信息時(shí)代的到來(lái),煙草行業(yè)數(shù)據(jù)量正在以驚人的速度快速增長(zhǎng),這種數(shù)字化趨勢(shì)為機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘技術(shù)在其生產(chǎn)、物流、監(jiān)管等各方面的應(yīng)用創(chuàng)造了新機(jī)遇[1-3]。數(shù)據(jù)挖掘技術(shù)已經(jīng)逐漸地應(yīng)用于各行各業(yè),對(duì)異常數(shù)據(jù)的挖掘也開(kāi)始得到人們更多的重視,所謂異常指的是在海量數(shù)據(jù)中存在著與一般數(shù)據(jù)形式相差較大或者與正常行為相左的數(shù)據(jù)對(duì)象,一般的數(shù)據(jù)挖掘過(guò)程常常將這些數(shù)據(jù)當(dāng)作噪聲進(jìn)行清除處理,但大多時(shí)候它們可能包含了解決現(xiàn)實(shí)問(wèn)題中極其重要的信息。異常數(shù)據(jù)挖掘技術(shù)已在模式識(shí)別、信用欺詐、企業(yè)監(jiān)管等領(lǐng)域得到廣泛應(yīng)用。比如在金融行業(yè)的征信系統(tǒng)中,異常數(shù)據(jù)往往代表了用戶存在違約、造假等不良行為;在電網(wǎng)系統(tǒng)中,異常數(shù)據(jù)通常警示設(shè)備故障問(wèn)題或者用戶的異常用電的行為;在城市軌道安防系統(tǒng)中,異常數(shù)據(jù)意味著行人或車(chē)輛存在違章行為。在這樣的背景下,面向煙草行業(yè)的異常數(shù)據(jù)挖掘技術(shù)有望從海量的煙草數(shù)據(jù)中,提取挖掘出零售戶在卷煙經(jīng)營(yíng)中是否存在涉煙違法的行為。數(shù)據(jù)挖掘技術(shù)的應(yīng)用將有效推進(jìn)整個(gè)煙草行業(yè)向信息化、智能化方向發(fā)展。

        基于數(shù)據(jù)挖掘的市場(chǎng)異常預(yù)警預(yù)測(cè)研究,能夠進(jìn)一步加強(qiáng)煙草零售市場(chǎng)監(jiān)管力度,有效限制零售戶的涉煙違法行為,合理分配稽查工作中的人員調(diào)度,有效凈化卷煙市場(chǎng)經(jīng)營(yíng)環(huán)境。在煙草專(zhuān)賣(mài)市場(chǎng)監(jiān)管方面,異常數(shù)據(jù)挖掘的任務(wù)就是在專(zhuān)賣(mài)監(jiān)管數(shù)據(jù)中發(fā)現(xiàn)那些有違規(guī)經(jīng)營(yíng)跡象的數(shù)據(jù)對(duì)象,并找到隱藏在這些對(duì)象背后的各類(lèi)違規(guī)經(jīng)營(yíng)情況。通過(guò)深入挖掘分析現(xiàn)有的煙草專(zhuān)賣(mài)信息數(shù)據(jù),能夠有效結(jié)合現(xiàn)有市場(chǎng)監(jiān)管模式,加快煙草專(zhuān)賣(mài)管理方式的信息化轉(zhuǎn)變,加強(qiáng)對(duì)重點(diǎn)涉煙違法行為的治理,提升市場(chǎng)監(jiān)管的精準(zhǔn)性。

        目前將前沿的機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘技術(shù)應(yīng)用于煙草專(zhuān)賣(mài)市場(chǎng)監(jiān)管方面的研究稍顯不足,但在其他領(lǐng)域的相關(guān)研究為筆者提供了寶貴的經(jīng)驗(yàn)。文獻(xiàn)[4]將機(jī)器學(xué)習(xí)技術(shù)運(yùn)用于發(fā)布虛假財(cái)務(wù)報(bào)表(FFS)公司的異常行為檢測(cè)中,通過(guò)使用優(yōu)化的Stacking多模型融合方法將典型的機(jī)器學(xué)習(xí)算法組合在一起,取得了比任何單一算法和經(jīng)過(guò)檢驗(yàn)的簡(jiǎn)單集成方法更好的檢測(cè)性能。文獻(xiàn)[5]利用XGBoost機(jī)器學(xué)習(xí)算法,能夠?qū)υ朴?jì)算中SDN控制器易受到分布式拒絕服務(wù)(DDoS)的異常攻擊行為進(jìn)行快速的檢測(cè)。文獻(xiàn)[6]通過(guò)使用基于功能樹(shù)分類(lèi)器和三種當(dāng)前比較先進(jìn)的機(jī)器學(xué)習(xí)集成框架Bagging、AdaBoost和MultiBoost,提出并驗(yàn)證了一種能夠提高滑坡異常和敏感性模型預(yù)測(cè)性能的集成方法。文獻(xiàn)[7]將前沿的機(jī)器學(xué)習(xí)LightGBM算法應(yīng)用于廣告轉(zhuǎn)化率預(yù)估中,通過(guò)LightGBM模型提取廣告日志中的高階組合特征,并結(jié)合了區(qū)域因子分解機(jī)FFM模型對(duì)稀疏數(shù)據(jù)進(jìn)行相應(yīng)處理,有效提高了廣告轉(zhuǎn)化率預(yù)估模型的有效性和泛化能力。文獻(xiàn)[8]提出的深度網(wǎng)絡(luò)xDeepFM算法,能夠有效地自動(dòng)學(xué)習(xí)數(shù)據(jù)的特征交互。

        該文基于上海市卷煙經(jīng)營(yíng)零售戶從2016年1月到2019年4月的煙草專(zhuān)賣(mài)相關(guān)數(shù)據(jù),提出了基于多模型Stacking集成學(xué)習(xí)的煙草異常數(shù)據(jù)挖掘模型,旨在利用前沿的機(jī)器學(xué)習(xí)算法XGBoost、LightGBM等,以及深度學(xué)習(xí)網(wǎng)絡(luò)xDeepFM算法對(duì)該數(shù)據(jù)進(jìn)行建模預(yù)測(cè)和分析,最終推動(dòng)煙草專(zhuān)賣(mài)市場(chǎng)監(jiān)管方式的轉(zhuǎn)型,進(jìn)而促進(jìn)全市煙草市場(chǎng)監(jiān)管水平的大幅提升。

        1 數(shù)據(jù)預(yù)處理

        1.1 數(shù)據(jù)來(lái)源

        選取了上海市4萬(wàn)多家零售戶從2016年1月-2019年4月的煙草專(zhuān)賣(mài)相關(guān)數(shù)據(jù),基礎(chǔ)數(shù)據(jù)主要包括:經(jīng)營(yíng)戶靜態(tài)數(shù)據(jù)、客戶歷史數(shù)據(jù)、訂貨數(shù)據(jù)、卷煙主數(shù)據(jù)、市場(chǎng)檢查數(shù)據(jù)、投訴舉報(bào)數(shù)據(jù)、案件數(shù)據(jù)等。

        1.2 數(shù)據(jù)預(yù)處理(構(gòu)建數(shù)據(jù)指標(biāo))

        影響數(shù)據(jù)分析與挖掘的第一要素是數(shù)據(jù)的預(yù)處理工作,而數(shù)據(jù)挖掘技術(shù)的合理運(yùn)用是異常數(shù)據(jù)檢測(cè)能否正確運(yùn)行的核心環(huán)節(jié)。在對(duì)數(shù)據(jù)進(jìn)行預(yù)處理之后,必須結(jié)合有效的分析手段,才能找出數(shù)據(jù)的規(guī)律,從而挖掘出異常經(jīng)營(yíng)行為。通過(guò)對(duì)煙草市場(chǎng)監(jiān)管數(shù)據(jù)的深入分析,發(fā)現(xiàn)大部分的數(shù)據(jù)屬于結(jié)構(gòu)化數(shù)據(jù),其中主要包含了連續(xù)和離散兩種形式的變量類(lèi)型,這兩種類(lèi)型數(shù)據(jù)相對(duì)應(yīng)的處理方式明顯不同,因此,如何快速有效地實(shí)現(xiàn)復(fù)雜條件下結(jié)構(gòu)化數(shù)據(jù)的分析與挖掘尤為重要。針對(duì)煙草行業(yè)中的海量、多維、動(dòng)態(tài)數(shù)據(jù),分析煙草結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn),從營(yíng)銷(xiāo)、物流、市場(chǎng)監(jiān)管、案件等多個(gè)維度進(jìn)行分析,梳理形成靜態(tài)特征指標(biāo)與動(dòng)態(tài)特征指標(biāo)。部分特征分類(lèi)如表1所示。

        表1 部分特征分類(lèi)

        在數(shù)據(jù)預(yù)處理階段,需要對(duì)類(lèi)別數(shù)據(jù)進(jìn)行編碼,比如:訂貨方式包括POS訂貨、電話訂貨、電子商務(wù)、手工訂貨、網(wǎng)上配貨等,需要將其轉(zhuǎn)為數(shù)值型數(shù)據(jù)進(jìn)行處理。對(duì)數(shù)據(jù)的編碼往往會(huì)影響到模型訓(xùn)練的速度和預(yù)測(cè)的結(jié)果,所以如何合理選擇數(shù)據(jù)的編碼方式十分重要。常見(jiàn)的編碼方式有獨(dú)熱編碼(one-hot encoding)、標(biāo)簽編碼(label encoding)和實(shí)體嵌入(embedding)。

        (1)one-hot編碼,其基本思想是使用位寄存器對(duì)類(lèi)別數(shù)據(jù)的N種類(lèi)別狀態(tài)分別編碼,每個(gè)類(lèi)別狀態(tài)占用其中的一位,且每種狀態(tài)只有一個(gè)位置是1,其他狀態(tài)位置都為0。例如,“POS訂貨”編碼后的形式為[0 0 0 0 1],“電話訂貨”編碼后的形式為[0 0 0 1 0],“電子商務(wù)”編碼后的形式為[0 0 1 0 0],“手工訂貨”編碼后的形式為[0 1 0 0 0],“網(wǎng)上配貨”編碼后的形式為[1 0 0 0 0]。

        (2)標(biāo)簽編碼:給每種類(lèi)別分配整數(shù),例如“POS訂貨”為1,“電話訂貨”為2,“電子商務(wù)”為3,“手工訂貨”為4、“網(wǎng)上配貨”為5。由于連續(xù)的數(shù)字代表著數(shù)字之間的先后順序,要盡量避免將其使用在線性模型中,而基于樹(shù)的算法模型則不受這種數(shù)值順序的限制。

        (3)采用實(shí)體嵌入方式可以將類(lèi)別數(shù)據(jù)用向量來(lái)表示,生成高維數(shù)據(jù)在高維空間體現(xiàn)它們的相互關(guān)聯(lián)。一般多用于深度神經(jīng)網(wǎng)絡(luò)算法模型中。

        通過(guò)觀察樣本發(fā)現(xiàn),大多數(shù)類(lèi)別數(shù)據(jù)在5個(gè)類(lèi)別以下,所以選擇使用one-hot編碼對(duì)類(lèi)別數(shù)據(jù)進(jìn)行編碼,一方面防止標(biāo)簽編碼帶來(lái)的賦值順序問(wèn)題,另一方面又可以同時(shí)適用于機(jī)器學(xué)習(xí)算法和深度神經(jīng)網(wǎng)絡(luò)算法。最后,由于原始數(shù)據(jù)中還存在一些比較臟、亂、差的數(shù)據(jù),還需要對(duì)其進(jìn)行大量清洗,比如經(jīng)營(yíng)面積數(shù)據(jù)存在大量不合理數(shù)值,而經(jīng)營(yíng)面積代碼則是以類(lèi)別A、B、C、D來(lái)表示,則提取特征時(shí)就去掉經(jīng)營(yíng)面積數(shù)值型數(shù)據(jù),轉(zhuǎn)而用類(lèi)別型數(shù)據(jù)代替。大戶類(lèi)別數(shù)據(jù)中只包含空值和其他大戶類(lèi)別,那么這一特征數(shù)據(jù)全是無(wú)用信息,則無(wú)需進(jìn)入模型。零售戶的檔位信息存在缺失值,處理方式是按當(dāng)前時(shí)間點(diǎn)往前最近的一次檔位進(jìn)行填補(bǔ)。通過(guò)數(shù)據(jù)預(yù)處理和特征工程提取之后,最終進(jìn)入模型的一共有244個(gè)特征(指標(biāo))。

        2 相關(guān)算法

        2.1 XGBoost算法

        XGBoost(extreme gradient boosting,極端梯度提升算法[9]),是一種基于CART樹(shù)的boosting算法,高效地實(shí)現(xiàn)了GBDT算法,并進(jìn)行了算法和工程上的許多改進(jìn)。

        XGBoost模型的目標(biāo)函數(shù)主要包含兩個(gè)部分:

        (1)

        XGBoost模型每次訓(xùn)練一棵新的樹(shù)都要擬合上一次結(jié)果的殘差,每次增加的函數(shù)的增量要使新一輪的殘差盡可能減小,在進(jìn)行到第t次時(shí),模型的目標(biāo)函數(shù)可以寫(xiě)為:

        (2)

        模型訓(xùn)練的最終目標(biāo)是要找到一個(gè)能夠最小化目標(biāo)函數(shù)的ft(xi),對(duì)式(2)采用其在x=0處的泰勒二階展開(kāi)式來(lái)近似,近似的目標(biāo)函數(shù)為:

        Ω(ft)

        (3)

        去掉不影響目標(biāo)函數(shù)最終優(yōu)化的項(xiàng),可簡(jiǎn)化為:

        (4)

        2.2 LightGBM算法

        LightGBM算法主要使用了基于梯度的單邊采樣和互斥特征捆綁這兩種方法來(lái)彌補(bǔ)傳統(tǒng)Boosting在處理大數(shù)據(jù)樣本時(shí)的計(jì)算損耗問(wèn)題[10]。

        模型在訓(xùn)練時(shí)首先采用基于梯度的單邊采樣(簡(jiǎn)稱(chēng)GOSS),計(jì)算梯度時(shí)不再是掃描全部的樣本點(diǎn),而是保留梯度比較大的一小部分樣本數(shù)據(jù),對(duì)梯度小的大多數(shù)樣本進(jìn)行隨機(jī)采樣;而互斥特征捆綁(簡(jiǎn)稱(chēng)EFB)主要依據(jù)高維數(shù)據(jù)的稀疏性,主要特點(diǎn)是存在很多特征不會(huì)同時(shí)取值為非零值,稱(chēng)具有這樣的性質(zhì)的特征為互斥特征,將這些特征組合在一起可以達(dá)到降低特征維度的目的,使得確定切分點(diǎn)的計(jì)算損耗減少,同時(shí)對(duì)互斥特征的處理也在一定程度上降低了模型過(guò)擬合的風(fēng)險(xiǎn)。

        2.3 xDeepFM算法

        對(duì)于預(yù)測(cè)性的模型來(lái)說(shuō),如何讓模型自動(dòng)地去學(xué)習(xí)特征之間的交叉特性對(duì)數(shù)據(jù)挖掘系統(tǒng)是特別必要的。所謂特征之間的交叉特性也稱(chēng)之為交叉特征[11],是指兩個(gè)及兩個(gè)以上的特征進(jìn)行組合形成一個(gè)新的特征。深度神經(jīng)學(xué)習(xí)網(wǎng)絡(luò)為解決這一問(wèn)題提供了突破口,比如基于因子分解機(jī)的FNN、PNN和DeepFM等深度神經(jīng)網(wǎng)絡(luò)算法[12-14],對(duì)特征之間的高階交互特性的學(xué)習(xí)使用了多層的全連接網(wǎng)絡(luò),但是這些網(wǎng)絡(luò)的缺點(diǎn)是模型學(xué)習(xí)出的是隱式的交叉特征,使得其具體形式是未知的和不可控的。為了挖掘不同交叉特征之間的潛在聯(lián)系,該文引入xDeepFM(極深因子分解機(jī))深度神經(jīng)網(wǎng)絡(luò)模型[8],來(lái)讓模型自動(dòng)地去學(xué)習(xí)特征之間的交叉特性。其基本結(jié)構(gòu)如圖1所示。

        xDeepFM算法首先把數(shù)據(jù)集的原始特征中每個(gè)one-hot編碼后的特征組成一個(gè)field,用來(lái)克服數(shù)據(jù)的稀疏性;然后進(jìn)行embedding轉(zhuǎn)換使特征表現(xiàn)為向量級(jí);接著將數(shù)據(jù)送入壓縮交互網(wǎng)絡(luò)CIN模型中,使得模型以顯示的方式自動(dòng)學(xué)習(xí)高階的交互特征,CIN每層的神經(jīng)元都是由原始特征向量和它前面的隱層計(jì)算而來(lái),即:

        圖1 xDeepFM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        (5)

        其中,Xo為數(shù)據(jù)的原始特征,Xk為CIN神經(jīng)網(wǎng)絡(luò)中的隱層,點(diǎn)乘的計(jì)算為:

        °=

        (6)

        同時(shí)xDeepFM模型中還分別包含了集成的線性模型和DNN神經(jīng)網(wǎng)絡(luò)模型,前者使得模型具有泛化的記憶能力,后者使得模型能夠隱式地學(xué)習(xí)特征的交互特性。

        3 煙草異常數(shù)據(jù)挖掘建模分析流程

        3.1 整體流程分析

        基于Stacking的集成學(xué)習(xí)[15]是按照一定的方式將多種不同的算法集成組合來(lái)提升模型的訓(xùn)練效果,相比于單一的模型,使用該方法通常可以產(chǎn)生更好的預(yù)測(cè)性能。與Bagging[16]和Boosting[17]采用單一的機(jī)器學(xué)習(xí)算法訓(xùn)練單個(gè)模型不一樣的地方在于,Stacking是一種每一層都可以使用多個(gè)模型來(lái)進(jìn)行訓(xùn)練的集成學(xué)習(xí)方式,每一層的多個(gè)模型都有各自輸出值,將該層每一個(gè)模型的輸出值作為新的特征組合成新的數(shù)據(jù)集作為下一層的輸入進(jìn)行學(xué)習(xí)。

        圖2 整體流程

        模型構(gòu)建流程如圖2所示。首先對(duì)煙草市場(chǎng)監(jiān)管數(shù)據(jù)進(jìn)行預(yù)處理,在訓(xùn)練集上對(duì)單個(gè)算法進(jìn)行訓(xùn)練調(diào)參,使單個(gè)模型性能達(dá)到最優(yōu)狀態(tài);然后確定Stacking集成學(xué)習(xí)模型的第一層模型組合方式,利用劃分后的數(shù)據(jù)集來(lái)訓(xùn)練,將第一層的各個(gè)初級(jí)學(xué)習(xí)器模型的輸出組合形成新的數(shù)據(jù)集;Stacking第二層次級(jí)學(xué)習(xí)器模型用新生成的數(shù)據(jù)集來(lái)訓(xùn)練,并輸出最終的預(yù)測(cè)概率值。

        3.2 煙草異常數(shù)據(jù)挖掘建模分析

        煙草異常數(shù)據(jù)挖掘模型最終要實(shí)現(xiàn)的目標(biāo)是,預(yù)測(cè)出零售戶“銷(xiāo)假,銷(xiāo)私,亂渠道進(jìn)貨”等異常經(jīng)營(yíng)行為的可能性。基于模型的預(yù)測(cè)性能,Stacking集成學(xué)習(xí)方式一般要求組合中的單個(gè)基學(xué)習(xí)器不僅要有較強(qiáng)的學(xué)習(xí)預(yù)測(cè)能力,還要在算法原理上具有較大的差別。因此Stacking模型中的第一層除了選用學(xué)習(xí)性能比較強(qiáng)的XGBoost算法、LightGBM算法和xDeepFM算法,還使用了AdaBoost算法、隨機(jī)森林算法(random forest,RF)、極端隨機(jī)樹(shù)算法(extratrees,ETR)和Logistic Regression算法(LR)。其中RF和AdaBoost分別使用了基于Bagging與Boosting的集成學(xué)習(xí)方式,具有較強(qiáng)的學(xué)習(xí)能力和嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)理論作為支撐[18]。ETR算法是在RF的基礎(chǔ)上多了一層隨機(jī)性,即在對(duì)連續(xù)變量特征選取最優(yōu)分裂值時(shí),不會(huì)計(jì)算所有分裂值的效果來(lái)選擇分裂特征,而是在每一個(gè)特征的取值范圍內(nèi),隨機(jī)產(chǎn)生一個(gè)分裂值,從中計(jì)算出一個(gè)較優(yōu)值來(lái)進(jìn)行分裂。其次與RF使用Bagging集成學(xué)習(xí)方式對(duì)樣本數(shù)據(jù)進(jìn)行有放回抽樣不同,ETR使用所有的樣本,只是特征是隨機(jī)選取的。LR算法相對(duì)來(lái)說(shuō)是弱一點(diǎn)的基學(xué)習(xí)器,使用該算法的原因是為了防止過(guò)擬合,讓Stacking模型具有更強(qiáng)的魯棒性。Stacking模型中的第二層的元學(xué)習(xí)器用了學(xué)習(xí)預(yù)測(cè)能力比較出色的LightGBM算法?;诙嗄P蚐tacking的煙草異常數(shù)據(jù)挖掘模型如圖3所示。

        圖3 基于多模型Stacking的預(yù)測(cè)模型

        Stacking模型訓(xùn)練具體步驟如下:

        (1)劃分原始數(shù)據(jù)集,其中劃分的方式為隨機(jī)采樣選取90%的數(shù)據(jù)作為訓(xùn)練集,10%的數(shù)據(jù)作為測(cè)試集,在訓(xùn)練集上使用五折交叉驗(yàn)證的方式對(duì)單個(gè)算法模型進(jìn)行訓(xùn)練,確定每一個(gè)模型的最優(yōu)參數(shù),使單個(gè)模型性能達(dá)到最優(yōu)狀態(tài);

        (2)確定Stacking第一層模型組合方式,利用劃分后的數(shù)據(jù)集來(lái)訓(xùn)練,將第一層的各個(gè)模型的輸出組合形成新的數(shù)據(jù)集,具體過(guò)程如圖3中上半部分,其中每個(gè)模型最終的輸出結(jié)果為五次交叉驗(yàn)證結(jié)果的平均值,將每個(gè)模型的輸出結(jié)果作為新的特征組成一個(gè)新的數(shù)據(jù)集;

        (3)Stacking第二層模型用新生成的數(shù)據(jù)集來(lái)訓(xùn)練,并輸出最終的預(yù)測(cè)概率值。

        3.3 模型訓(xùn)練與結(jié)果分析

        實(shí)驗(yàn)數(shù)據(jù)使用經(jīng)過(guò)整理好的2016年1月到2019年4月上海市煙草專(zhuān)賣(mài)市場(chǎng)監(jiān)管數(shù)據(jù)中的檢查數(shù)據(jù)以及對(duì)應(yīng)的靜態(tài)和動(dòng)態(tài)指標(biāo)數(shù)據(jù)作為模型的數(shù)據(jù)集??偣?66 563個(gè)樣本,244個(gè)特征,其中30個(gè)靜態(tài)特征和214個(gè)動(dòng)態(tài)特征。

        由于該模型預(yù)測(cè)屬于二分類(lèi)預(yù)測(cè)問(wèn)題,且最終的輸出值為概率值,為了直接分析模型輸出的概率值,預(yù)測(cè)評(píng)價(jià)指標(biāo)采用Log_loss和AUC來(lái)評(píng)價(jià)模型的預(yù)測(cè)效果,避免了將其轉(zhuǎn)換成類(lèi)別數(shù)值帶來(lái)的可能誤差。公式如下所示:

        (7)

        其中,N為樣本的總數(shù);M為預(yù)測(cè)的類(lèi)別數(shù),比如文中實(shí)驗(yàn)為二分類(lèi)預(yù)測(cè),M就為2;樣本i屬于分類(lèi)j時(shí)yi,j為1,否則為0;pi,j為樣本i被預(yù)測(cè)為第j類(lèi)的概率。

        (8)

        要想使融合模型Stacking性能達(dá)到最好,首先要確保其第一層的各個(gè)基學(xué)習(xí)器達(dá)到最佳的學(xué)習(xí)能力,因此將各個(gè)基學(xué)習(xí)器在原始數(shù)據(jù)集上單獨(dú)訓(xùn)練,從而確定每一個(gè)模型的訓(xùn)練參數(shù),具體參數(shù)如表2所示。

        表2 模型參數(shù)

        在相同的數(shù)據(jù)集上對(duì)每個(gè)單一模型和Stacking模型分別進(jìn)行訓(xùn)練并預(yù)測(cè),最佳模型通常具有較小的Log_loss值以及較大的AUC值,各個(gè)模型的預(yù)測(cè)結(jié)果對(duì)比如表3所示,對(duì)應(yīng)ROC曲線如圖4所示。

        表3 模型預(yù)測(cè)結(jié)果

        圖4 ROC曲線對(duì)比

        通過(guò)預(yù)測(cè)結(jié)果可知,單個(gè)模型中表現(xiàn)最好的是xDeepFM神經(jīng)網(wǎng)絡(luò)算法,說(shuō)明該算法可以很好地學(xué)習(xí)不同特征之間的交叉特性,加上模型兼具記憶和泛化的學(xué)習(xí)能力,使得其在最終的預(yù)測(cè)精度上表現(xiàn)更好。其次是LightGBM算法,兩項(xiàng)指標(biāo)也都達(dá)到了不錯(cuò)的效果,對(duì)比其他幾個(gè)機(jī)器學(xué)習(xí)基學(xué)習(xí)器,可以確定LightGBM算法比較適合處理這種大樣本,高維度,特征稀疏的數(shù)據(jù)集。雖然其他幾個(gè)基學(xué)習(xí)器的表現(xiàn)稍差,但是通過(guò)Stacking方式集成以后,效果上更加出色。一方面是由于Stacking模型可以很好地保持學(xué)習(xí)能力優(yōu)異的單個(gè)學(xué)習(xí)器的性能,提升自身的預(yù)測(cè)能力;另一方面基學(xué)習(xí)器之間算法原理的明顯不同使得Stacking集成后的模型具有更加穩(wěn)健的預(yù)測(cè)性能。

        4 煙草異常數(shù)據(jù)挖掘模型的應(yīng)用

        經(jīng)過(guò)前期階段充分測(cè)試、驗(yàn)證模型的有效性后,該文提出的基于多模型Stacking集成學(xué)習(xí)的煙草異常數(shù)據(jù)挖掘模型,在上海市煙草專(zhuān)賣(mài)市場(chǎng)監(jiān)管工作中進(jìn)行了實(shí)際應(yīng)用,對(duì)模型的推薦名單進(jìn)行了稽查實(shí)證。

        本次實(shí)證數(shù)據(jù)分別選取截止2019年06月30日和2019年07月31日這兩天的上海市煙草專(zhuān)賣(mài)數(shù)據(jù),將數(shù)據(jù)處理成相應(yīng)的特征指標(biāo)作為模型的測(cè)試集,來(lái)對(duì)7月份和8月份的稽查名單進(jìn)行預(yù)測(cè),其中7月份推薦的煙草零售戶為1 322戶,8月份推薦的煙草零售戶為1 344戶,最后對(duì)稽查結(jié)果計(jì)算最終的查實(shí)率。具體數(shù)據(jù)如表4所示。

        表4 實(shí)證結(jié)果

        表中涉及到的計(jì)算公式如下:

        (9)

        其中,立案標(biāo)準(zhǔn)主要分為三類(lèi):(1)真煙流入,即零售戶從其他渠道低價(jià)購(gòu)買(mǎi)香煙再高價(jià)賣(mài)出的情況,稽查時(shí)若零售戶真煙流入條數(shù)大于等于5條則進(jìn)行立案處理;(2)假煙,即零售戶有販賣(mài)假煙的情況;(3)走私煙,即零售戶有銷(xiāo)售走私煙的情況。

        此外表中部分地區(qū)存在實(shí)際檢查戶數(shù)低于當(dāng)月需檢查戶數(shù)的情況,這是因?yàn)榇嬖趥€(gè)別零售戶當(dāng)月暫不經(jīng)營(yíng)的情況,實(shí)際檢查中做另外的處理。

        上海市煙草專(zhuān)賣(mài)市場(chǎng)監(jiān)管體系現(xiàn)有稽查方法主要依據(jù)違規(guī)加分制,即對(duì)零售戶的卷煙經(jīng)營(yíng)數(shù)據(jù)進(jìn)行分析,對(duì)零售戶的違規(guī)行為按照一定的規(guī)則對(duì)其賦分,最終得分越高的零售戶,其違規(guī)風(fēng)險(xiǎn)越高。結(jié)合2016年1月到2019年4月的檢查數(shù)據(jù)及檢查結(jié)果分析得知,原有檢查方式在實(shí)際稽查中,每個(gè)月檢查的零售戶中有涉煙違法行為的查實(shí)率在5%左右。而由表4可以看出,在7月份和8月份Stacking模型預(yù)測(cè)名單的查實(shí)率分別達(dá)到了14.67%和17.34%,相比原有的傳統(tǒng)方式有比較大的提升,稽查實(shí)證結(jié)果進(jìn)一步證明了Stacking模型的有效性。

        5 結(jié)束語(yǔ)

        基于深度神經(jīng)網(wǎng)絡(luò)xDeepFM算法,機(jī)器學(xué)習(xí)LightGBM、XGBoost等算法,利用集成學(xué)習(xí)Stacking方式將多個(gè)算法學(xué)習(xí)器進(jìn)行集成組合,構(gòu)建了基于多模型Stacking集成學(xué)習(xí)的煙草異常數(shù)據(jù)挖掘預(yù)測(cè)模型。對(duì)2016年1月到2019年4月的上海市煙草專(zhuān)賣(mài)數(shù)據(jù)進(jìn)行訓(xùn)練及驗(yàn)證分析,在2019年7月和8月對(duì)模型推薦名單進(jìn)行實(shí)地稽查驗(yàn)證,兩個(gè)月的查實(shí)率均達(dá)到了預(yù)期,使得上海市卷煙市場(chǎng)監(jiān)管稽查工作中的人員調(diào)撥分配更加合理,對(duì)零售戶涉煙違法行為的監(jiān)管更加精準(zhǔn),有效凈化了卷煙市場(chǎng)的經(jīng)營(yíng)環(huán)境。

        同時(shí),從稽查結(jié)果的查實(shí)率可以看到存在各區(qū)局查實(shí)率結(jié)果不平衡的問(wèn)題,因此,在后續(xù)的研究中會(huì)在以下幾個(gè)方面繼續(xù)優(yōu)化完善:

        (1)可以引入權(quán)重因子,使各區(qū)局預(yù)測(cè)精度更加準(zhǔn)確;

        (2)除了機(jī)器學(xué)習(xí)算法外,著重研究目前較為流行的深度學(xué)習(xí)算法,挖掘特征之間更高階的有效信息;

        (3)將異常行為綜合預(yù)測(cè)分析與現(xiàn)有市場(chǎng)監(jiān)管處理流程進(jìn)行充分結(jié)合,形成從數(shù)據(jù)預(yù)處理到模型構(gòu)建再到評(píng)估應(yīng)用的全流程處理模式,建立智能化的全流程市場(chǎng)監(jiān)管處理流程,全面提升市場(chǎng)監(jiān)管水平。

        猜你喜歡
        數(shù)據(jù)挖掘特征模型
        一半模型
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        3D打印中的模型分割與打包
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        亚洲黄色免费网站| 国产激情无码视频在线播放性色| 人妻夜夜爽天天爽| 亚洲饱满人妻视频| 精品国产自拍在线视频| 中文字幕日产人妻久久| 亚洲国产综合久久精品| 国产精品女直播一区二区| 久久久久久人妻一区精品| 亚洲美女啪啪| 亚洲av性色精品国产| 91露脸半推半就老熟妇| 亚洲熟妇无码八av在线播放| 国产女人精品视频国产灰线| 美女人妻中文字幕av| 亚洲av无码国产精品久久| 亚洲精品久久中文字幕| 中文人妻AV高清一区二区| 国产91精品自拍视频| 丰满少妇作爱视频免费观看| 欧美不卡视频一区发布| АⅤ天堂中文在线网| 日本九州不卡久久精品一区| 女的扒开尿口让男人桶30分钟| 亚洲国产毛片| 亚洲h电影| 亚洲中文字幕精品久久久| 少妇被粗大的猛进出69影院| 免费精品无码av片在线观看| 久久精品国产亚洲片| 亚洲精品国产成人久久av| 免费操逼视频| 国产激情在观看| 国产精品后入内射日本在线观看| 国产中文三级全黄| 国产精品 高清 尿 小便 嘘嘘| 男女上床视频免费网站| 老熟女老女人国产老太| 国产97在线 | 中文| 伊人久久网国产伊人| 中文字幕中文一区中文字幕|