亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)LSTM的多源時(shí)序卷煙審計(jì)數(shù)據(jù)分析方法

        2023-01-02 12:06:38王樹(shù)明吳時(shí)清
        軟件導(dǎo)刊 2022年11期
        關(guān)鍵詞:查準(zhǔn)率卷煙時(shí)序

        王樹(shù)明,吳時(shí)清,余 菁,陳 軍,宋 偉

        (1.中國(guó)煙草總公司湖北省公司;2.武漢楚煙信息技術(shù)有限公司,湖北武漢 430030;3.武漢大學(xué)計(jì)算機(jī)學(xué)院,湖北武漢 430070)

        0 引言

        對(duì)卷煙銷售和經(jīng)營(yíng)活動(dòng)進(jìn)行嚴(yán)格的規(guī)范化管理是煙草行業(yè)專賣專營(yíng)體制的內(nèi)在要求。卷煙生產(chǎn)、銷售網(wǎng)絡(luò)非常龐大,面對(duì)紛繁復(fù)雜的卷煙業(yè)務(wù)系統(tǒng)和數(shù)據(jù),如何挖掘和利用其中的信息和知識(shí),從而準(zhǔn)確、高效地識(shí)別潛在風(fēng)險(xiǎn)行為成為卷煙專賣專營(yíng)管理的核心任務(wù)和需求。當(dāng)前卷煙專營(yíng)網(wǎng)絡(luò)中擁有眾多的獨(dú)立運(yùn)行子系統(tǒng),數(shù)據(jù)紛雜,包括營(yíng)銷、物流、煙葉、專賣等十余個(gè)業(yè)務(wù)子領(lǐng)域。直接分析各個(gè)子系統(tǒng)數(shù)據(jù)并不能充分利用業(yè)務(wù)平臺(tái)數(shù)據(jù),充分發(fā)現(xiàn)卷煙業(yè)務(wù)平臺(tái)中的潛在風(fēng)險(xiǎn)行為。卷煙專營(yíng)網(wǎng)絡(luò)平臺(tái)中的審計(jì)子系統(tǒng)按照審計(jì)計(jì)劃管理模塊定義的審計(jì)任務(wù)和審計(jì)數(shù)據(jù),對(duì)卷煙網(wǎng)絡(luò)平臺(tái)中的業(yè)務(wù)數(shù)據(jù)備份、審計(jì)。審計(jì)數(shù)據(jù)覆蓋多個(gè)卷煙平臺(tái)子系統(tǒng),而且可以定義數(shù)據(jù)清理操作,提高多源審計(jì)數(shù)據(jù)的數(shù)據(jù)質(zhì)量。因此,針對(duì)卷煙審計(jì)數(shù)據(jù)開(kāi)展挖掘和分析,將會(huì)更加準(zhǔn)確、高效地發(fā)現(xiàn)業(yè)務(wù)平臺(tái)中的高風(fēng)險(xiǎn)行為。

        1 相關(guān)研究

        對(duì)審計(jì)數(shù)據(jù)進(jìn)行建模分析和預(yù)測(cè)的前提是針對(duì)審計(jì)數(shù)據(jù)構(gòu)建高質(zhì)量數(shù)據(jù)特征。傳統(tǒng)數(shù)據(jù)特征構(gòu)建方法非常依賴用戶對(duì)業(yè)務(wù)的理解,具有很大的局限性。卷煙業(yè)務(wù)平臺(tái)非常龐大,各省業(yè)務(wù)也有很大差異,這些因素均限制了對(duì)平臺(tái)業(yè)務(wù)數(shù)據(jù)的理解和分析。

        近年來(lái),隨著以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)方法逐漸普及,利用神經(jīng)網(wǎng)絡(luò)卷積層提升數(shù)據(jù)特征維度可以盡可能地充分挖掘數(shù)據(jù)特征,篩選出對(duì)數(shù)據(jù)分析任務(wù)更有利的數(shù)據(jù)特征,不僅可以提高模型預(yù)測(cè)精度,而且可有效針對(duì)高維數(shù)據(jù)約束關(guān)鍵數(shù)據(jù)特征維度,提高模型訓(xùn)練效率。2015年,Yann 等[1]在Nature 雜志上發(fā)表論文介紹了深度學(xué)習(xí)的原理、優(yōu)勢(shì)和應(yīng)用。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[2-3]、長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)[4-5]和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[6]等深度學(xué)習(xí)技術(shù)通過(guò)構(gòu)建數(shù)據(jù)的序列層次可有效獲取數(shù)據(jù)的時(shí)序依賴關(guān)系,在許多領(lǐng)域,尤其是自然語(yǔ)言處理、圖像識(shí)別、語(yǔ)音合成等非結(jié)構(gòu)化數(shù)據(jù)分析方面取得了令人矚目的成果[7]。例如,Kanter 等[8]針對(duì)高維科學(xué)數(shù)據(jù)的自動(dòng)特征提取問(wèn)題提出了Deep Feature Synthesis方法,該方法針對(duì)科學(xué)數(shù)據(jù)中關(guān)系型或用戶行為數(shù)據(jù)的特征提取問(wèn)題,自動(dòng)提取能夠表達(dá)豐富特征空間的數(shù)據(jù)特征,但該方法并不能充分利用復(fù)雜的數(shù)據(jù)特征;Chong 等[9]從3 種無(wú)監(jiān)督特征提取方法出發(fā)研究了基于深度學(xué)習(xí)的股票市場(chǎng)預(yù)測(cè)算法,研究結(jié)果表明深度神經(jīng)網(wǎng)絡(luò)可以從殘差中提取更多額外信息,提高整個(gè)學(xué)習(xí)模型的預(yù)測(cè)準(zhǔn)確率。LSTM 可以有效克服傳統(tǒng)RNN 的梯度爆炸問(wèn)題,例如Jin 等[5]基于LSTM 模型提出了LSTM-DE 模型,將檢測(cè)序列數(shù)據(jù)作為附加輸入連接到藥物處方預(yù)測(cè)序列中,提高了處方預(yù)測(cè)效果,然而LSTM-DE 模型受到RNN 網(wǎng)絡(luò)遺忘性的限制,當(dāng)測(cè)試數(shù)據(jù)的時(shí)間序列變大時(shí),預(yù)測(cè)效率有較明顯的下降;Ma 等[10]基于雙向神經(jīng)網(wǎng)絡(luò)(BRNN)提出了Dipole 模型,利用歷史和未來(lái)時(shí)序數(shù)據(jù)作為輸入進(jìn)行聯(lián)合訓(xùn)練,提高了針對(duì)長(zhǎng)序列時(shí)序數(shù)據(jù)的學(xué)習(xí)精度,然而Dipole模型沒(méi)有考慮到多模態(tài)數(shù)據(jù)對(duì)于預(yù)測(cè)結(jié)果的影響;Zhang等[11-12]基于CNN 提出面向時(shí)空數(shù)據(jù)分析的時(shí)空殘差網(wǎng)絡(luò)模型,該模型對(duì)時(shí)空數(shù)據(jù)的時(shí)間特性、空間特性和關(guān)聯(lián)關(guān)系進(jìn)行建模,學(xué)習(xí)時(shí)空數(shù)據(jù)的時(shí)空關(guān)聯(lián)特征,很好地解決了時(shí)空數(shù)據(jù)特征分析,但對(duì)多模態(tài)數(shù)據(jù)的特征分析代價(jià)較大;王曉飛等[13]設(shè)計(jì)了一種基于Prophet-LSTM 模型的PM2.5 濃度預(yù)測(cè)方法,利用Prophet 模型可分解方法,將PM2.5日值濃度序列分解成趨勢(shì)、周期和隨機(jī)波動(dòng)分量,對(duì)隨機(jī)波動(dòng)分量建立LSTM 模型進(jìn)行分析;覃智威等[14]構(gòu)建了一種基于粒子群優(yōu)化算法的LSTM 模型,并用于醫(yī)院門診量的時(shí)序關(guān)系預(yù)測(cè);謝貴才等[15]提出一種基于深度學(xué)習(xí)的多尺度時(shí)序卷積網(wǎng)絡(luò)MSCNN,實(shí)現(xiàn)了人流量時(shí)序數(shù)據(jù)中短時(shí)依賴、長(zhǎng)時(shí)周期模式的獲取和多尺度時(shí)序模式特征的重標(biāo)定,可對(duì)任意時(shí)段人流量進(jìn)行預(yù)測(cè)。

        現(xiàn)有研究方法缺乏針對(duì)多源審計(jì)數(shù)據(jù)的時(shí)序特征、多模態(tài)特性開(kāi)展高效深度學(xué)習(xí)方法的研究。卷煙審計(jì)數(shù)據(jù)來(lái)源多、維度大,卷煙業(yè)務(wù)平臺(tái)中用戶行為也往往具有時(shí)空差異性,用戶行為模式也都具有極大的不確定性,這給卷煙審計(jì)數(shù)據(jù)分析帶來(lái)了巨大挑戰(zhàn),目前仍然缺乏針對(duì)卷煙審計(jì)數(shù)據(jù)的有效分析方法[16-18]。為此,本文基于卷煙審計(jì)數(shù)據(jù)的兩個(gè)內(nèi)在特征,即多源異構(gòu)性和時(shí)序關(guān)聯(lián)性,發(fā)揮深度學(xué)習(xí)在深層次數(shù)據(jù)特征分析和多維數(shù)據(jù)時(shí)序關(guān)聯(lián)分析兩方面的優(yōu)勢(shì),提出一種改進(jìn)LSTM 的RNN,并對(duì)LSTM 門函數(shù)結(jié)構(gòu)進(jìn)行優(yōu)化,提高針對(duì)多源數(shù)據(jù)卷煙審計(jì)數(shù)據(jù)的特征提取能力,準(zhǔn)確高效地發(fā)現(xiàn)卷煙業(yè)務(wù)網(wǎng)絡(luò)中的潛在高風(fēng)險(xiǎn)行為,為我國(guó)省級(jí)卷煙業(yè)務(wù)網(wǎng)絡(luò)平臺(tái)提供面向多源卷煙審計(jì)數(shù)據(jù)的深度學(xué)習(xí)分析解決方案。

        2 基于改進(jìn)LSTM 的多源時(shí)序卷煙審計(jì)數(shù)據(jù)分析機(jī)制

        2.1 LSTM

        RNN 能夠有效處理大數(shù)據(jù)量數(shù)據(jù),也可以對(duì)序列數(shù)據(jù)進(jìn)行有效處理,但RNN 需要逐層傳遞狀態(tài)信息,這種模型訓(xùn)練方式導(dǎo)致隨著序列長(zhǎng)度的增加,參數(shù)傳遞的層數(shù)也會(huì)越多,導(dǎo)致梯度爆炸等問(wèn)題,同時(shí)神經(jīng)網(wǎng)絡(luò)對(duì)于長(zhǎng)序列數(shù)據(jù)也會(huì)產(chǎn)生長(zhǎng)時(shí)間間隔的消息失憶問(wèn)題。

        LSTM 是RNN 針對(duì)長(zhǎng)序列數(shù)據(jù)依賴關(guān)系的改進(jìn)實(shí)現(xiàn),LSTM 單元結(jié)構(gòu)如圖1 所示,其通過(guò)在RNN 中增加遺忘門和更新門,從而有選擇地對(duì)狀態(tài)信息進(jìn)行記憶增強(qiáng)和遺忘,使得特定信息可以有效記憶并傳遞。LSTM 單元中遺忘門和更新門采用Sigmoid 函數(shù),Sigmoid 函數(shù)取值接近于0 則門處于關(guān)閉狀態(tài),接近于1 則門處于開(kāi)啟狀態(tài),可對(duì)信息進(jìn)行有選擇的采納。LSTM 的前向傳播計(jì)算函數(shù)表示為:

        Fig.1 Unit structure of LSTM neural network圖1 LSTM 神經(jīng)網(wǎng)絡(luò)單元結(jié)構(gòu)

        式中,ft、it、ot分別為遺忘門、更新門和輸出門的t時(shí)刻狀態(tài)值;Ct-1和Ct分別為L(zhǎng)STM單元在t-1和t時(shí)刻的狀態(tài)值;ht-1和ht分別為L(zhǎng)STM單元在t-1和t時(shí)刻的輸出值;為L(zhǎng)STM 單元在t時(shí)刻的候選狀態(tài)值。遺忘門可以選擇LSTM 單元狀態(tài)中哪些分量繼續(xù)傳遞,哪些分量丟棄;更新門決定了LSTM 狀態(tài)中哪些分量更加重要;輸出門則決定了哪些分量作為當(dāng)前狀態(tài)傳遞到下一個(gè)時(shí)刻。

        對(duì)于卷煙審計(jì)數(shù)據(jù)分析任務(wù)來(lái)說(shuō),審計(jì)記錄、交易行為按照固定的時(shí)間間隔記錄,LSTM 可以針對(duì)審計(jì)數(shù)據(jù)的時(shí)間關(guān)聯(lián)特性,將用戶行為數(shù)據(jù)按照時(shí)間順序依次輸入到LSTM 中,利用LSTM 對(duì)高維審計(jì)數(shù)據(jù)進(jìn)行篩選和處理。雖然LSTM 可以更好地利用時(shí)序關(guān)聯(lián)數(shù)據(jù)特征,但是卷煙交易行為往往具有長(zhǎng)時(shí)間關(guān)聯(lián)特性(如明顯的季節(jié)性和政策導(dǎo)向性),這些服務(wù)特點(diǎn)導(dǎo)致LSTM 應(yīng)用于卷煙審計(jì)數(shù)據(jù)分析時(shí)訓(xùn)練模型時(shí)間較長(zhǎng),模型精確性有限。為此,本文引入總體經(jīng)驗(yàn)?zāi)B(tài)分解(Complementary Ensemble Empirical Mode Decomposition,CEEMD)方法對(duì)審計(jì)數(shù)據(jù)特性進(jìn)行增強(qiáng),以提高模型訓(xùn)練效率,使得針對(duì)多源時(shí)序卷煙業(yè)務(wù)審計(jì)數(shù)據(jù)的分析效果更好。

        2.2 CEEMD

        卷煙業(yè)務(wù)審計(jì)系統(tǒng)是一個(gè)非線性、非平穩(wěn)的復(fù)雜動(dòng)態(tài)系統(tǒng),與單業(yè)務(wù)系統(tǒng)不同,卷煙審計(jì)數(shù)據(jù)來(lái)源于多個(gè)業(yè)務(wù)系統(tǒng),數(shù)據(jù)特征復(fù)雜,同時(shí)審計(jì)數(shù)據(jù)的時(shí)序特征是一個(gè)重要的數(shù)據(jù)特征。經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical Mode Decomposition,EMD)方法由Huang 等[19]提出,是用于處理非線性、非平穩(wěn)時(shí)間序列的有效方法。EMD 可將任意的復(fù)雜信號(hào)分解成為有限規(guī)模的本征模態(tài)函數(shù)(Intrinsic Mode Function,IMF),且每個(gè)IMF 表征原始信號(hào)不同特征尺度的時(shí)間序列。EMD 方法與Hilbert 頻譜結(jié)合是一種自適應(yīng)的時(shí)間頻域分析方法。當(dāng)信號(hào)中存在間歇性信號(hào)時(shí),EMD 分解方法會(huì)產(chǎn)生所謂的頻率混疊現(xiàn)象,即一個(gè)IMF 分量中會(huì)包含多個(gè)不同特征尺度的成分,或者相似尺度的數(shù)據(jù)特征在不同的IMF 分量中存在。為解決由于間歇性數(shù)據(jù)信號(hào)導(dǎo)致的模態(tài)混疊現(xiàn)象,Yeh 等[20]基于EMD 分解方法提出了CEEMD。

        針對(duì)審計(jì)數(shù)據(jù)的復(fù)雜時(shí)序特征,本文采用CEEMD 方法對(duì)審計(jì)業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行處理,分解得到一系列相對(duì)平穩(wěn)的時(shí)序分量,處理流程為:

        (1)針對(duì)一組序列審計(jì)數(shù)據(jù)輸入X={x1,x2,…,xn},對(duì)xi加入第i組高斯白噪聲,得到兩個(gè)信號(hào)序列mi+和mi-,表示為:

        式中,ni+和ni-為正負(fù)成對(duì)的高斯白噪聲。

        (2)對(duì)mi+和mi-進(jìn)行EMD 分解,得到兩組集成的IMF分量,分別為加入正噪聲組的IMF+和加入負(fù)噪聲組的IMF-。

        (3)針對(duì)時(shí)序?qū)徲?jì)數(shù)據(jù)x(i1≤i≤n),得到兩組IMF 向量IMFi+和IMFi-。

        2.3 卷煙業(yè)務(wù)審計(jì)數(shù)據(jù)

        省級(jí)卷煙業(yè)務(wù)平臺(tái)中審計(jì)管理業(yè)務(wù)主要分為審計(jì)資源管理、審計(jì)計(jì)劃管理、經(jīng)責(zé)與專項(xiàng)審計(jì)、工程審計(jì)、采購(gòu)審計(jì)等五大業(yè)務(wù)環(huán)節(jié)。業(yè)務(wù)涉及的源端系統(tǒng)主要包括營(yíng)銷、物流、專賣、煙葉、財(cái)務(wù)、人力資源、內(nèi)管等業(yè)務(wù)系統(tǒng)。數(shù)據(jù)中心采集源端業(yè)務(wù)系統(tǒng)業(yè)務(wù)數(shù)據(jù)后,進(jìn)入數(shù)據(jù)中心進(jìn)行數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加工匯聚后形成數(shù)據(jù)服務(wù)目錄,對(duì)外提供數(shù)據(jù)服務(wù),為支撐數(shù)據(jù)應(yīng)用服務(wù)及源端業(yè)務(wù)系統(tǒng)的統(tǒng)計(jì)分析、審計(jì)數(shù)據(jù)中心提供基于CEEMD 的LSTM 審計(jì)數(shù)據(jù)分析引擎,提供針對(duì)多源時(shí)序卷煙審計(jì)數(shù)據(jù)的高效分析服務(wù)。卷煙審計(jì)數(shù)據(jù)中心框架如圖2所示。

        Fig.2 Framework of cigarette audit data center圖2 卷煙審計(jì)數(shù)據(jù)中心框架

        2.4 基于CEEMD 的LSTM 多源時(shí)序卷煙審計(jì)數(shù)據(jù)分析方法

        卷煙業(yè)務(wù)平臺(tái)審計(jì)數(shù)據(jù)來(lái)自多個(gè)綜合業(yè)務(wù)平臺(tái),為實(shí)現(xiàn)對(duì)多源時(shí)序?qū)徲?jì)數(shù)據(jù)的精準(zhǔn)分析,結(jié)合審計(jì)數(shù)據(jù)具有的不規(guī)則時(shí)序特征,本文設(shè)計(jì)的基于CEEMD 的LSTM 多源時(shí)序卷煙審計(jì)數(shù)據(jù)分析框架如圖3所示。

        針對(duì)多源審計(jì)數(shù)據(jù),首先采用CEEMD 方法對(duì)審計(jì)源數(shù)據(jù)進(jìn)行模態(tài)分解,得到多組IMF 分解向量IMFi+和IMFi-。基于CEEMD 的特性,分解后的向量組IMFi+和IMFi-仍然保持原業(yè)務(wù)系統(tǒng)的時(shí)序特征,并且使得數(shù)據(jù)的時(shí)序變化相對(duì)更加平穩(wěn),有利于后續(xù)基于LSTM 對(duì)審計(jì)數(shù)據(jù)分析的精確性。

        Fig.3 LSTM analysis framework over multi-sources audit data based on CEEMD圖3 基于CEEMD的多源時(shí)序?qū)徲?jì)數(shù)據(jù)LSTM 分析框架

        得到IMF 分量后,為分析多源時(shí)序數(shù)據(jù)之間的時(shí)序關(guān)聯(lián)關(guān)系,對(duì)IMF 分量采用相似性分析方法擴(kuò)展構(gòu)建時(shí)序數(shù)據(jù)序列X={X1,X2,…,Xn}。對(duì)于給定IMF 分量IMFi={x1,x2,…,x}l和IMFj={y1,y2,…,y}l,利用公式(3)評(píng)價(jià)其相似度,表示為:

        針對(duì)各IMF 分量選擇top-k的時(shí)序相似序列后,擴(kuò)展得到時(shí)序數(shù)據(jù)序列X={X1,X2,…,Xn},作為后續(xù)LSTM 網(wǎng)絡(luò)的輸入數(shù)據(jù)。例如卷煙審計(jì)平臺(tái)數(shù)據(jù)來(lái)自卷煙平臺(tái)合同、營(yíng)銷、專賣、財(cái)務(wù)、物流等業(yè)務(wù)系統(tǒng),針對(duì)單業(yè)務(wù)系統(tǒng)數(shù)據(jù)難以充分體現(xiàn)卷煙審計(jì)數(shù)據(jù)的時(shí)序關(guān)聯(lián)數(shù)據(jù)特征。營(yíng)銷數(shù)據(jù)僅記錄了卷煙銷售商戶的訂單信息,目前卷煙物流配送存在一定滯后性,因此單純從營(yíng)銷數(shù)據(jù)和卷煙數(shù)據(jù)方面不能充分體現(xiàn)卷煙經(jīng)營(yíng)戶的經(jīng)營(yíng)時(shí)間特性。本文利用CEEMD 抽取跨營(yíng)銷域與物流域的綜合IMF 分量可以更好地體現(xiàn)經(jīng)營(yíng)時(shí)間特性,例如抽取營(yíng)銷數(shù)據(jù)和異步物流配送數(shù)據(jù)的階段時(shí)間窗口方差和平均值來(lái)體現(xiàn)卷煙經(jīng)營(yíng)戶的時(shí)序經(jīng)營(yíng)特征。

        傳統(tǒng)RNN 中同樣的權(quán)重參數(shù)矩陣在不同循環(huán)層之間共享,最終的輸出層梯度為各層梯度之和。RNN 網(wǎng)絡(luò)中總的梯度并不會(huì)消失,但遠(yuǎn)距離的梯度仍然會(huì)被近距離的數(shù)據(jù)梯度所主導(dǎo)并覆蓋,導(dǎo)致RNN 模型很難對(duì)遠(yuǎn)距離的依賴關(guān)系進(jìn)行學(xué)習(xí)。卷煙平臺(tái)行為數(shù)據(jù)具有明顯的季節(jié)性和周期性,而這種時(shí)間關(guān)聯(lián)性的時(shí)效特征往往非常長(zhǎng),因此針對(duì)煙草審計(jì)數(shù)據(jù)的學(xué)習(xí)模型必須能夠適應(yīng)數(shù)據(jù)長(zhǎng)效時(shí)間關(guān)聯(lián)特征。

        LSTM 是一種特殊的RNN,主要是為了解決長(zhǎng)序列訓(xùn)練過(guò)程中的梯度消失和梯度爆炸問(wèn)題。如圖1 所示,LSTM中梯度的傳播有多條途徑,在以公式(4)為代表的路徑上,逐個(gè)元素直接疊加,梯度流最穩(wěn)定,但是其他路徑上梯度流傳播與普通RNN 相似,仍然有權(quán)重矩陣反復(fù)連乘,會(huì)存在梯度消失和梯度爆炸的問(wèn)題。LSTM 通過(guò)保證公式(4)路徑上的梯度傳遞保證遠(yuǎn)距離梯度的傳遞。

        LSTM 單元中遺忘門可以將時(shí)序關(guān)系有選擇地傳遞給后續(xù)LSTM 單元。為了更好適應(yīng)卷煙審計(jì)數(shù)據(jù)的長(zhǎng)時(shí)間關(guān)聯(lián)特征,對(duì)LSTM 單元進(jìn)行改進(jìn)。首先,為保證時(shí)間梯度流穩(wěn)定傳播,將公式(4)主路徑的ft設(shè)置為1(即不經(jīng)過(guò)遺忘門直接傳遞給下一個(gè)狀態(tài)),利用公式(5)保證遠(yuǎn)距離梯度的流暢傳遞不會(huì)遺失。

        然而這樣的方式會(huì)導(dǎo)致多余的狀態(tài)信息被大量傳遞到后續(xù)LSTM 單元,進(jìn)而導(dǎo)致潛在的狀態(tài)爆炸問(wèn)題。為解決這個(gè)問(wèn)題,保障對(duì)煙草審計(jì)數(shù)據(jù)的學(xué)習(xí)效果和效率,對(duì)其他路徑的參數(shù)傳遞進(jìn)行控制。如圖4 所示,遺忘門負(fù)責(zé)壓縮之前的狀態(tài)信息,并過(guò)濾前一個(gè)狀態(tài)的無(wú)效參數(shù);更新門的輸入數(shù)據(jù)受遺忘門控制,部分無(wú)效或低關(guān)聯(lián)度數(shù)據(jù)被過(guò)濾掉而不進(jìn)入更新門,以控制參數(shù)爆炸的規(guī)模;輸出門控制有多少信息進(jìn)入到下一個(gè)LSTM 單元。這種結(jié)構(gòu)可有效控制LSTM 的信息傳遞,同時(shí)可以更好地體現(xiàn)周期性的時(shí)序關(guān)聯(lián)數(shù)據(jù)特征,非常適用于卷煙業(yè)務(wù)平臺(tái)中時(shí)序?qū)徲?jì)數(shù)據(jù)的分析任務(wù)。

        Fig.4 Improved LSTM unit structure for time series cigarette audit data圖4 面向時(shí)序卷煙審計(jì)數(shù)據(jù)的改進(jìn)LSTM 單元結(jié)構(gòu)

        3 實(shí)驗(yàn)方法與結(jié)果分析

        3.1 實(shí)驗(yàn)設(shè)置

        將面向多源時(shí)序卷煙審計(jì)數(shù)據(jù)分析算法用于湖北省卷煙業(yè)務(wù)平臺(tái)中的審計(jì)數(shù)據(jù)分析,實(shí)驗(yàn)明確定義多源數(shù)據(jù)審計(jì)過(guò)程中的數(shù)據(jù)不一致性、數(shù)據(jù)不合規(guī)以及數(shù)據(jù)異常現(xiàn)象為風(fēng)險(xiǎn)行為,以發(fā)現(xiàn)其中的潛在交易風(fēng)險(xiǎn)行為。設(shè)計(jì)實(shí)驗(yàn)分析比較本文算法與LSTM、ATTAIN[5]、LSTM-DE 模型[6]針對(duì)多源時(shí)序煙草審計(jì)數(shù)據(jù)的分析性能,統(tǒng)計(jì)在不同模型參數(shù)及數(shù)據(jù)情況下的風(fēng)險(xiǎn)行為發(fā)現(xiàn)查全率和查準(zhǔn)率,并對(duì)查詢結(jié)果進(jìn)行分析。

        訓(xùn)練數(shù)據(jù)選用卷煙審計(jì)平臺(tái)中覆蓋5 個(gè)子業(yè)務(wù)系統(tǒng)(合同、營(yíng)銷、專賣、財(cái)務(wù)、物流)的審計(jì)數(shù)據(jù),數(shù)據(jù)記載2019年1-12 月的各個(gè)子業(yè)務(wù)系統(tǒng)業(yè)務(wù)數(shù)據(jù),每個(gè)子系統(tǒng)業(yè)務(wù)數(shù)據(jù)規(guī)??刂圃? 萬(wàn)條,訓(xùn)練數(shù)據(jù)規(guī)模為10 萬(wàn)條。測(cè)試數(shù)據(jù)選用2020 年6 月-2021 年6 月的卷煙審計(jì)數(shù)據(jù)(2020 年卷煙營(yíng)銷數(shù)據(jù)由于疫情原因缺失,因此實(shí)驗(yàn)忽略2020 年數(shù)據(jù))共計(jì)200 萬(wàn)規(guī)模,標(biāo)注風(fēng)險(xiǎn)行為主要包括跨區(qū)配送(即不合理異常配送)和異常營(yíng)銷風(fēng)險(xiǎn)行為(即卷煙品類采購(gòu)與銷售異常)兩類。實(shí)驗(yàn)運(yùn)行環(huán)境為CPU AMD 5900X,ASUS RTX-3090,32GB 內(nèi)存的服務(wù)器。訓(xùn)練過(guò)程按照時(shí)序特征對(duì)原始訓(xùn)練數(shù)據(jù)進(jìn)行分片,分片規(guī)模保持與訓(xùn)練層層數(shù)一致(10~50),各數(shù)據(jù)分片采用“2.4”節(jié)介紹方法提取數(shù)據(jù)特征作為輸入數(shù)據(jù)輸入學(xué)習(xí)單元。

        3.2 查全率預(yù)測(cè)

        圖5(彩圖掃OSID 碼可見(jiàn),下同)統(tǒng)計(jì)了模型參數(shù)對(duì)學(xué)習(xí)預(yù)測(cè)查全率的影響。圖5(a)為當(dāng)審計(jì)數(shù)據(jù)來(lái)源3 個(gè)業(yè)務(wù)系統(tǒng)(K=3)時(shí),查全率隨著隱藏層數(shù)的變化規(guī)律。如圖5(a)所示,本文方法的查全率優(yōu)于其他對(duì)比方法,當(dāng)隱藏層為50 時(shí),本文方法的查全率R=88.5%,可以很好地滿足卷煙業(yè)務(wù)系統(tǒng)對(duì)審計(jì)數(shù)據(jù)分析的應(yīng)用需求。

        卷煙業(yè)務(wù)平臺(tái)包含了多個(gè)業(yè)務(wù)系統(tǒng),來(lái)源于不同審計(jì)數(shù)據(jù)具有不同的數(shù)據(jù)模態(tài),本文設(shè)計(jì)實(shí)驗(yàn)驗(yàn)證設(shè)計(jì)方法是否可以更好地適應(yīng)多源時(shí)序?qū)徲?jì)數(shù)據(jù)的分析需求。圖5(b)為當(dāng)固定LSTM 隱藏層數(shù)為50 時(shí)查全率與數(shù)據(jù)源規(guī)模之間的關(guān)系。如圖5(b)所示,針對(duì)多源審計(jì)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系引入CEEMD 方法對(duì)時(shí)序?qū)徲?jì)數(shù)據(jù)進(jìn)行模態(tài)分解,分解后的輸入數(shù)據(jù)在時(shí)序特征上更加平滑,可以更好地適應(yīng)多源業(yè)務(wù)系統(tǒng)之間數(shù)據(jù)模態(tài)的差異,而隨著數(shù)據(jù)來(lái)源業(yè)務(wù)系統(tǒng)的增加,其他沒(méi)有對(duì)數(shù)據(jù)進(jìn)行預(yù)處理的方法查全率均出現(xiàn)了不同程度的下降。由圖5(b)可知,本文方法可有效提高多源審計(jì)數(shù)據(jù)的分析效果。

        3.3 查準(zhǔn)率預(yù)測(cè)

        設(shè)計(jì)實(shí)驗(yàn)統(tǒng)計(jì)分析模型參數(shù)對(duì)學(xué)習(xí)查準(zhǔn)率的影響。圖6(a)記為當(dāng)審計(jì)數(shù)據(jù)來(lái)源3 個(gè)業(yè)務(wù)系統(tǒng)(K=3)時(shí),查準(zhǔn)率隨著隱藏層數(shù)的變化情況,可以看出本文方法的查準(zhǔn)率優(yōu)于其他方法,在不同隱藏層數(shù)情況下,本文方法的查準(zhǔn)率維持在90%以上,當(dāng)隱藏層為50 時(shí),本文方法的查準(zhǔn)率R=92.3%。卷煙業(yè)務(wù)數(shù)據(jù)具有長(zhǎng)時(shí)間特征,導(dǎo)致LSTM 和LSTM-DE 方法的查準(zhǔn)率不足,而ATTAIN 方法運(yùn)用了注意力機(jī)制,本文方法設(shè)計(jì)了LSTM 單元利用遺忘門控制更新,均可以很好地利用長(zhǎng)期數(shù)據(jù)的關(guān)聯(lián)特征。

        Fig.5 experiments of recall rate圖5 查全率實(shí)驗(yàn)結(jié)果

        Fig.6 Precision experiments圖6 查準(zhǔn)率實(shí)驗(yàn)結(jié)果

        如圖6(b)所示,當(dāng)審計(jì)數(shù)據(jù)來(lái)源于多個(gè)業(yè)務(wù)系統(tǒng)時(shí),由于數(shù)據(jù)模態(tài)的差異,對(duì)比方法的查準(zhǔn)率均隨著數(shù)據(jù)模態(tài)的差異加大而有明顯下降,而本文方法采用CEEMD 進(jìn)行模態(tài)分解,可以更好地使用多源業(yè)務(wù)系統(tǒng)的數(shù)據(jù)模態(tài)差異,其在數(shù)據(jù)源增加的前提下,分析查準(zhǔn)率并不會(huì)出現(xiàn)顯著下降,仍然維持在90%以上,說(shuō)明該方法針對(duì)多源卷煙審計(jì)數(shù)據(jù)具有很好的查準(zhǔn)效率。

        4 結(jié)語(yǔ)

        本文設(shè)計(jì)并實(shí)現(xiàn)了一種面向多源時(shí)序卷煙審計(jì)數(shù)據(jù)的深度學(xué)習(xí)分析算法,針對(duì)卷煙審計(jì)數(shù)據(jù)具有的多模態(tài)、時(shí)序關(guān)聯(lián)特性,設(shè)計(jì)了一種改進(jìn)LSTM 網(wǎng)絡(luò),從而更好地適應(yīng)卷煙審計(jì)數(shù)據(jù)的長(zhǎng)時(shí)間關(guān)聯(lián)特征。將本文方法應(yīng)用于湖北省卷煙業(yè)務(wù)平臺(tái),實(shí)現(xiàn)了面向卷煙審計(jì)數(shù)據(jù)的高效、準(zhǔn)確分析,為大型省級(jí)卷煙業(yè)務(wù)平臺(tái)提供了跨業(yè)務(wù)系統(tǒng)的高效審計(jì)業(yè)務(wù)數(shù)據(jù)分析解決方案。后續(xù)將繼續(xù)關(guān)注稀疏審計(jì)數(shù)據(jù)集的分析問(wèn)題,設(shè)計(jì)適用于稀疏審計(jì)數(shù)據(jù)的高效數(shù)據(jù)挖掘分析方法。

        猜你喜歡
        查準(zhǔn)率卷煙時(shí)序
        時(shí)序坐標(biāo)
        基于Sentinel-2時(shí)序NDVI的麥冬識(shí)別研究
        基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息過(guò)濾系統(tǒng)設(shè)計(jì)
        大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
        基于深度特征分析的雙線性圖像相似度匹配算法
        一種毫米波放大器時(shí)序直流電源的設(shè)計(jì)
        電子制作(2016年15期)2017-01-15 13:39:08
        卷煙包裝痕跡分析
        DPBUS時(shí)序及其設(shè)定方法
        河南科技(2014年15期)2014-02-27 14:12:36
        中文分詞技術(shù)對(duì)中文搜索引擎的查準(zhǔn)率及查全率的影響
        我國(guó)卷煙需求預(yù)測(cè)研究述評(píng)
        国产精女同一区二区三区久| 欧美成人激情在线| 亚洲欧美日韩国产综合专区| 日韩午夜三级在线视频| 国产白浆一区二区三区性色| 欧美寡妇xxxx黑人猛交| 亚洲人成电影在线无码| 抖射在线免费观看视频网站| 日本超级老熟女影音播放| 久久天天躁狠狠躁夜夜av| 欧美丰满熟妇bbbbbb百度| 国产精品亚洲美女av网站| 天堂av网手机线上天堂| 中国丰满人妻videoshd| 国产精品无码无片在线观看| 国产白浆精品一区二区三区| 国产让女高潮的av毛片| 高潮迭起av乳颜射后入| 一本大道久久精品 东京热| 91九色精品日韩内射无| 中文字幕av伊人av无码av| 看曰本女人大战黑人视频| 西西人体大胆视频无码| 久久精品熟女亚洲av香蕉| 麻豆精品久久久久久中文字幕无码| 大地资源中文第三页| 精品蜜桃一区二区三区| 丰满少妇按摩被扣逼高潮| 国产精品无码av天天爽| 日本口爆吞精在线视频| 美女被黑人巨大入侵的的视频 | 色综合自拍| 一本久道视频无线视频试看| 精品国产yw在线观看| 亚洲一区精品无码色成人| 日韩人妻无码中文字幕一区| 日本视频一中文有码中文| 农村欧美丰满熟妇xxxx| 国产亚洲欧洲AⅤ综合一区| 午夜精品男人天堂av| 亚洲精品夜夜夜妓女网|