陶濤 周喜 馬博 趙凡
摘 要:加油時序數(shù)據(jù)包含加油行為的多維信息,但是指定加油站點數(shù)據(jù)較為稀疏,現(xiàn)有成熟的數(shù)據(jù)異常檢測算法存在挖掘較多假性異常點以及遺漏較多真實異常點的缺陷,并不適用于挖掘加油站時序數(shù)據(jù)。提出一種基于深度學習的異常檢測方法識別加油異常車輛,首先通過自動編碼器對加油站點采集到的相關(guān)數(shù)據(jù)進行特征提取,然后采用嵌入雙向長短期記憶(Bi-LSTM)的Seq2Seq模型對加油行為進行預測,最后通過比較預測值和原始值來定義異常點的閾值。通過在加油數(shù)據(jù)集以及信用卡欺詐數(shù)據(jù)集上的實驗驗證了該方法的有效性,并且相對于現(xiàn)有方法在加油數(shù)據(jù)集上均方根誤差(RMSE)降低了21.1%,在信用卡欺詐數(shù)據(jù)集上檢測異常的準確率提高了1.4%。因此,提出的模型可以有效應用于加油行為異常的車輛檢測,從而提高加油站的管理和運營效率。
關(guān)鍵詞:加油站時序數(shù)據(jù);深度學習;Seq2Seq;雙向長短期記憶;異常檢測
中圖分類號: TP391.4
文獻標志碼:A
文章編號:1001-9081(2019)03-0924-06
Abstract: Time series data of gas station contains multi-dimensional information of fueling behavior, but the data of specific gas station are sparse. The existing abnormal data detection algorithms are not suitable for gas station time series data, because many pseudo outliers are mined and many real abnormal points are missed. To solve the problems, an abnormal detection method based on deep learning was proposed to detect vehicles with abnormal fueling. Firstly, feature extraction was performed on data collected from the gas station through an automatic encoder. Then, a deep learning model Seq2Seq with embedding Bidirectional Long Short-Term Memory (Bi-LSTM) was used to predict the fueling behavior. Finally, the threshold of outliers was defined by comparing the predicted value and the original value. The experiments on a fueling dataset and a credit card fraud dataset verify the effectiveness of the proposed method. Compared with the existing methods, the Root Mean Squared Error (RMSE) of the proposed method is decreased by 21.1% on the fueling dataset, and abnormal detection accuracy of the proposed method is improved by 1.4% on the credit card fraud dataset. Therefore, the proposed method can be applied to detect vehicles with abnormal fueling behavior, improving the management and operational efficiency of gas station.
Key words: gas station time-serise data; deep learning; Seq2Seq; Bidirectional Long Short-Term Memory (Bi-LSTM); outlier detection
0 引言
加油數(shù)據(jù)采集系統(tǒng)的廣泛使用產(chǎn)生了大量的加油數(shù)據(jù),包含了豐富有價值的信息。然而數(shù)據(jù)采集系統(tǒng)發(fā)生故障或者人為記錄失誤會使得加油站點數(shù)據(jù)采集完成后產(chǎn)生異常數(shù)據(jù),異常數(shù)據(jù)包括加油量異常以及加油行為異常等,如何有效地檢測異常數(shù)據(jù)點對于提高加油站的管理和運營效率有著重要意義。目前關(guān)于數(shù)據(jù)異常檢測的方法有很多種,并且已經(jīng)取得一定的成果。然而對于指定加油站點加油數(shù)據(jù)排列較為稀疏且沒有異常數(shù)據(jù)標簽,現(xiàn)有成熟的異常檢測算法在加油站時序數(shù)據(jù)上表現(xiàn)不盡如人意,甚至有的算法并不適用,在進行異常數(shù)據(jù)檢測時存在挖掘較多假性異常點以及遺漏較多真實異常點的缺陷。為了更為有效、準確地挖掘加油站時序數(shù)據(jù)中的異常值,本文針對加油站時序數(shù)據(jù)提出一種基于深度學習的方法——TS-DL(Time-Series based Deep Learning)來檢測異常。首先,利用深度學習的特征學習以及信息記憶能力來對輸入時間序列數(shù)據(jù)進行預測,然后再比較原始數(shù)據(jù)和預測數(shù)據(jù)的差異值,依據(jù)3σ準則[1]設(shè)定閾值,最終檢測到異常點。本文的主要工作分為三個部分:1)利用自動編碼機(AutoEncoder)從原始數(shù)據(jù)集中提取有效特征。2)利用嵌入雙向長短期記憶(Bidirectional Long Short-Term Memory, Bi-LSTM)[2]的Seq2Seq[3]模型預測包含1)中特征以及附加特征的時間序列數(shù)據(jù)。3)通過比較原始數(shù)據(jù)和2)中預測數(shù)據(jù)的差異值來挖掘異常點。圖1為本文方法的總體流程。
1 相關(guān)工作
目前關(guān)于異常檢測的算法主要可以分成四類,分別為:基于統(tǒng)計的模型、基于距離的模型、基于線性變換的模型以及基于非線性變換的模型。
1.1 基于統(tǒng)計的模型
1.2 基于距離的模型
基于距離的模型[5]主要分為基于角度、基于距離以及基于密度的方法?;诮嵌鹊姆椒ㄕJ為相對聚集的數(shù)據(jù)實例彼此間的角度要遠遠小于相對分散的數(shù)據(jù)實例,而分散的數(shù)據(jù)實例可以認為是異常的,所以可以利用數(shù)據(jù)實例間的角度進行異常檢測?;诰嚯x的方法相比基于角度的方法更直觀,該類方法利用數(shù)據(jù)實例的距離衡量其聚集程度,離群點即為異常點。此類方法衍生出許多方法,包括基于聚類、基于分類以及基于劃分的方法等?;诿芏鹊姆椒ㄈ鏛OF(Loacl Outlier Facter)算法比較數(shù)據(jù)實例及其周圍k個最鄰近數(shù)據(jù)實例的密度,如果兩者差異越大,則意味著該數(shù)據(jù)實例為異常數(shù)據(jù)的可能性越大。在加油站時序數(shù)據(jù)中正常數(shù)據(jù)沒有足夠的鄰居或者異常點有很多鄰居,另外對于時序數(shù)據(jù)定義數(shù)據(jù)之間的距離也會很困難,故基于距離的模型不適用于加油站時序數(shù)據(jù)。
1.3 基于線性變換的模型
基于線性變換的模型基于以下關(guān)鍵假設(shè):數(shù)據(jù)可嵌入到低維子空間中,其中正常情況和異常情況存在顯著不同[6]。檢測異常值的線性模型可分為兩類:第一類模型主要使用統(tǒng)計回歸建模[7];第二類模型使用主成分分析(Principal Component Analysis, PCA)來確定投影的低維子空間[8]。在加油站時序數(shù)據(jù)中正常點和異常點的界限并不是很明確,正常數(shù)據(jù)點的表現(xiàn)不斷變化,異常點難以確認,故基于線性變換的模型不適用于加油站時序數(shù)據(jù)。
1.4 基于非線性變換的模型
基于非線性的模型主要針對多維大型數(shù)據(jù)庫的異常檢測問題,通過神經(jīng)網(wǎng)絡較強的學習能力來計算異常數(shù)據(jù)的偏離度。在過去的幾年里,深度學習在數(shù)據(jù)挖掘和分析方面取得了很大的進展,并提出了各種有效模型。對于序列數(shù)據(jù)往往采用基于循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN)的方法[9],這類方法首先采用正常數(shù)據(jù)對網(wǎng)絡進行訓練,對于待檢測數(shù)據(jù)實例,利用重構(gòu)誤差(reconstruction error)作為異常數(shù)據(jù)的度量值:
綜上所述,神經(jīng)網(wǎng)絡具備的強特征提取和信息記憶能力更適用于加油站時序數(shù)據(jù),利用神經(jīng)網(wǎng)絡構(gòu)建契合的模型能夠較好地完成加油站時序數(shù)據(jù)異常檢測工作。
2 異常檢測模型
2.1 問題定義及分析
循環(huán)神經(jīng)網(wǎng)絡(RNN)具有有限的短期記憶優(yōu)勢,所以RNN作為訓練時序數(shù)據(jù)的首選神經(jīng)網(wǎng)絡。然而RNN只能學習到一定間隔時間序列信息,當序列數(shù)據(jù)超過一定長度時,利用RNN訓練數(shù)據(jù)會出現(xiàn)嚴重的梯度消失問題而導致訓練停止[10]。由于ODB中時間序列較長,在這種情況下RNN無法有效利用這些長序列歷史信息,即無法學習到長依賴的特征。為了盡可能有效學習到ODB中時間序列信息,本文提出一種嵌入Bi-LSTM的Seq2Seq模型,其中Seq2Seq是一種Encoder-Decoder結(jié)構(gòu)的網(wǎng)絡模型,其輸入序列和輸出序列都是可變長度的,基于這樣的機制,嵌入性能較好的Bi-LSTM進行預測,相比于單純使用長短期記憶(Long Short-Term Memory, LSTM)進行預測,此方法具有較優(yōu)的效率。
結(jié)合上述分析,本文為了有效挖掘ODB中異常模式提出一種基于深度學習的異常檢測方法,該方法首先通過自動編碼器(AutoEncoder)對加油站點采集到的相關(guān)數(shù)據(jù)進行特征提取,然后采用嵌入Bi-LSTM的Seq2Seq模型對加油行為進行預測,最后依照3σ準則比較預測值和原始值來定義異常點的閾值。
2.2 特征提取
由于原始數(shù)據(jù)中數(shù)據(jù)維度大且較為稀疏,首先采用自動編碼機[11]對其進行特征提取。自動編碼機是神經(jīng)網(wǎng)絡的一種,經(jīng)過訓練后能嘗試將輸入復制到輸出。但是為了使之能夠?qū)W習到有效的特征,通過強加一些約束,使自動編碼機只能近似地復制,從而能夠?qū)W習到數(shù)據(jù)的有用特性達到數(shù)據(jù)降維的效果。
如圖2,通過限制L2層(隱藏層)的維度,使其比L1層(輸入層)維度低,這樣強制自動編碼機捕捉訓練數(shù)據(jù)中最顯著的特征,從而達到特征提取的目的。
算法偽代碼:數(shù)據(jù)特征提取。
2.3 加油對象預測
為了更為準確地完成本文核心的預測任務,主要通過對Seq2Seq模型[12]進行變換來實現(xiàn)。Seq2Seq模型的核心思想是把一個語言序列翻譯成另外一種語言序列,整個處理過程是通過使用RNN將一個序列作為輸入映射為另外一個輸出序列。而RNN在處理時序數(shù)據(jù)上往往會過于依賴鄰近點數(shù)據(jù)而忽略長距離的信息,后來出現(xiàn)的LSTM在RNN上作了改進,使其能夠捕捉到更長距離的信息,從而學習到長依賴的特征[13]。但是不論是LSTM還是RNN,在進行預測時都是從前向后進行的,因此后面的數(shù)據(jù)點會比前面的更加重要,這樣往往會遺漏許多長關(guān)聯(lián)數(shù)據(jù)點的信息。而雙向LSTMBi-LSTM[14]的出現(xiàn)改善了這種缺陷,其基本機制是對于一個訓練序列進行向前和向后兩次LSTM訓練,而且它們都連接著一個輸出層,從而提供給輸出層輸入序列中每一個點完整的過去和未來的上下文信息,從而構(gòu)建了基于Bi-LSTM的Seq2Seq預測模型(記為BL-Seq2Seq模型)。
此外對于長時間序列數(shù)據(jù),為了加強模型的記憶能力,本文沒有采用Bahdanau 或 Luong 注意力機制[15], 因為經(jīng)典的注意力機制在每個預測步長上使用所有的歷史數(shù)據(jù)點從頭開始計算,這樣對于長時間序列數(shù)據(jù)來說計算復雜度是無法承受的。因此取而代之的方案是將時間序列中重要的數(shù)據(jù)點(節(jié)假日、雙休日等)作為編碼器和解碼器的附加特征和處理后的數(shù)據(jù)一起放入模型中進行訓練,在采樣的數(shù)據(jù)序列上進行實驗,文獻[16]結(jié)果表明[16]這樣的方法能夠有效加強模型的記憶能力。
如圖3,在本文的預測模型BL-Seq2Seq中,包含附加特征的序列數(shù)據(jù)(x1,x2,…,xn)進入編碼器Encoder中,完成編碼得到語義向量e。然后將e放入解碼器Decoder中,解碼器根據(jù)上一個時刻的輸出會作為當前時刻的輸入,依此循環(huán)完成預測。
算法偽代碼:加油數(shù)據(jù)預測。
在預測模型BL-Seq2Seq中,輸入經(jīng)過預處理過的時間序列數(shù)據(jù),首先進入具備Bi-LSTM結(jié)構(gòu)的編碼層中,通過編碼完成得到語義向量,然后語義向量進入相似結(jié)構(gòu)的解碼層中解碼完成,最終根據(jù)局部最優(yōu)算法計算得到預測概率最大的點,并且依次循環(huán)預測得到輸出的預測數(shù)據(jù)序列。
2.4 異常對象挖掘
通過2.3節(jié)可以得到預測的數(shù)據(jù)集合S′,顯然易得預測數(shù)據(jù)和實際數(shù)據(jù)的差異值集合D=S′-S。再計算D的均值μ和標準差σ,并將D中數(shù)據(jù)擬合到正態(tài)分布上,最終定義D中數(shù)據(jù)i滿足i-μ>3σ條件的數(shù)據(jù)點為異常點。
算法偽代碼:異常對象挖掘。
3 實驗與分析
3.1 實驗配置
為了驗證該方法對異常對象挖掘的準確性和有效性,本文在兩個數(shù)據(jù)集上進行了實驗,兩個數(shù)據(jù)集分別為中國某省份汽車加油數(shù)據(jù)集以及信用卡欺詐檢測數(shù)據(jù)集[17]。前者為無異常標簽標注的時序數(shù)據(jù)集,后者為帶異常標簽標注的公開數(shù)據(jù)集。實驗機器系統(tǒng)為Win7 64位,CPU型號為Intel Core i7-4720HQ CPU @ 2.60GHz,內(nèi)存8GB,python版本為3.6,keras版本為2.0.8,使用的數(shù)據(jù)庫為MongDB3.0。
3.2 加油數(shù)據(jù)集
采用的是數(shù)據(jù)集是中國某省的各個加油站點的加油數(shù)據(jù),通過進行融合、清洗,然后再對數(shù)值型特征進行歸一化,非數(shù)值型特征進行數(shù)字編碼后再歸一化處理,此外將時間序列中屬于節(jié)假日和雙休日的數(shù)據(jù)作為附加特征標注后放入訓練數(shù)據(jù)中,這樣最終得到可靠的實驗數(shù)據(jù)。為驗證算法有效
性,將預處理后的數(shù)據(jù)分別取80%作為訓練集,將剩下20%作為測試集。
為了驗證本文核心預測模型(BL-Seq2Seq)在預處理后的數(shù)據(jù)集上的性能,通過與標準LSTM模型進行比較評估。采用的評價函數(shù)主要有如下兩個。
1)模型訓練過程中的損失函數(shù)。本文采用神經(jīng)網(wǎng)絡模型訓練中常用的均方誤差(Mean Squared Error, MSE),其具體公式如下:
2)加載訓練完成的模型進行預測時采用均方根誤差(Root Mean Square Error, RMSE)。其具體公式如下:
3.3 信用卡欺詐數(shù)據(jù)集
信用卡欺詐數(shù)據(jù)集是公開數(shù)據(jù)集,包含兩天各個時間點的284807筆交易記錄,有492筆交易已標注為欺詐行為。影響欺詐因素包含有28個數(shù)值型變量v1,v2,…,v28,另外兩列數(shù)據(jù)是交易金額Amount和欺詐標簽Class。經(jīng)驗證原數(shù)據(jù)集數(shù)據(jù)項完整且影響欺詐因素的28個數(shù)值型變量都已通過PCA變換處理完畢,故只需對交易金額進行歸一化處理。為驗證算法有效性,將處理后的數(shù)據(jù)分別從正常值取80%作為訓練集,將剩下20%的正常值和所有異常值(欺詐行為)作為測試集。
為了驗證本文算法(TS-DL)的性能,通過與經(jīng)驗證在此數(shù)據(jù)集上效果好的邏輯回歸(LogisticRegression-Based)模型[18]以及雅虎(Yahoo)大規(guī)模時序數(shù)據(jù)自動異常檢測架構(gòu)(Extensible Generic Anomaly Detection System, EGADS)[19]中的主要預測模型進行比較評估。實驗常用的評價標準用準確率和召回率以及F1score等;但是在本文異常檢測的場景中,實驗所用數(shù)據(jù)集為非均衡數(shù)據(jù)集,且正負樣本數(shù)量差距較大,即異常對象和正常對象比例差異非常大,故此時上述評價標準無法全面地展示算法性能。Shi等[20]指出馬修斯系數(shù)(Matthews Correlation Coefficient, MCC)能夠有效衡量不平衡數(shù)據(jù)集,所以本文將MCC作為主要性能衡量指標。具體公式如下:
3.4 實驗結(jié)果與分析
3.4.1 加油數(shù)據(jù)集實驗
1)模型訓練過程中的損失函數(shù)對比。
實驗在采樣數(shù)據(jù)點上分別比較LSTM向前傳播(LSTM_forw)、LSTM向后傳播(LSTM_back)以及本文模型BL-Seq2Seq在迭代訓練過程中損失函數(shù)loss的平均值如表1所示。
表1中l(wèi)oss平均值表示模型在經(jīng)過250輪訓練后得到的損失函數(shù)平均值。由表1易知,相對于LSTM的前后向傳播,本文模型BL-Seq2Seq在訓練過程中具有較低的損失函數(shù),說明BL-Seq2Seq具有較好的模型擬合效果。
2)進行預測時的均方根誤差對比。
在采樣的數(shù)據(jù)點上分別對EGADS中移動平均模型MovingAverageModel、統(tǒng)計模型NaiveForecastingModel、回歸模型RegressionModel、季節(jié)模型OlympicModel、指數(shù)平滑模型DoubleExponentialSmoothingModel、 LSTM模型以及BL-Seq2Seq模型進行預測實驗,用RMSE去度量其預測效果,結(jié)果如表2所示。
實驗結(jié)果表明:相比于EGADS中經(jīng)典的預測模型, LSTM模型和本文模型BL-Seq2Seq明顯具有較低的RMSE,說明采用神經(jīng)網(wǎng)絡的兩種模型大大降低了預測誤差。而本文模型BL-Seq2Seq相比于目前成熟的LSTM模型,預測誤差RMSE降低了21.1%,說明本文模型BL-Seq2Seq在對采樣的加油數(shù)據(jù)進行預測時相對于當前性能較好的LSTM模型具有較低的預測誤差,證明本文模型能夠有效提升一定的預測準確度。
3.4.2 信用卡欺詐數(shù)據(jù)集實驗
1)ROC曲線圖對比。
在本實驗中欺詐行為挖掘的準確性由TP和TN占總樣本的比例決定,此比例越高代表準確率越高。為比較兩個算法的準確性,分別繪制二者ROC曲線如圖4所示。
由ROC曲線的性質(zhì):ROC曲線越靠近左上角所代表的分類結(jié)果越準確,此外亦可通過分別計算各個模型的ROC曲線下的面積(Area Under the Curve, AUC)進行比較,AUC值越大表示模型的分類性能越好。由圖4可知,在相同的數(shù)據(jù)集上,本文提出的模型BL-Seq2Seq相對于邏輯回歸(LogisticRegression)模型ROC曲線更靠近左上角,且經(jīng)計算可得邏輯回歸模型的AUC值為0.9458而BL-Seq2Seq模型的AUC值為0.9602,說明本文提出的模型性能更好。
2)MCC對比。
MCC針對不平衡的數(shù)據(jù)集具有較好的評估效果,如表3所示實驗結(jié)果可知,LogisticRegression和BL-Seq2Seq的馬修斯系數(shù)(MCC)分別為0.2300和0.3597。
實驗結(jié)果表明:BL-Seq2Seq相比于LogisticRegression具有較高的MCC,證明本文算法能夠有效地檢測到欺詐行為,并且提升了一定的檢測準確度。
4 結(jié)語
本文鑒于循環(huán)神經(jīng)網(wǎng)絡RNN在長時間序列預測時存在的缺陷,提出一種采用嵌入Bi-LSTM的Seq2Seq模型并將重要數(shù)據(jù)點作為Seq2Seq的附加特征進行預測從而檢測數(shù)據(jù)異常的方法。該方法首先對數(shù)據(jù)集中高維特征通過自動編碼機進行特征提取,然后將處理后的數(shù)據(jù)及附加特征一起放入嵌入Bi-LSTM的Seq2Seq模型進行訓練,接著加載訓練好的模型進行相應的數(shù)據(jù)預測,最后比較預測值與真實值的差異值并將其擬合到正態(tài)分布上通過3σ準則檢測異常。在加油數(shù)據(jù)集以及信用卡欺詐數(shù)據(jù)集上的實驗說明了本文方法有效且對于現(xiàn)有較好算法有了一定程度的改進。但是在實驗過程中將差異值直接擬合到數(shù)據(jù)分布上的方法較為簡單,后續(xù)的研究中將探索更多的異常檢測方法。另外數(shù)據(jù)集中總體數(shù)據(jù)量巨大,在后續(xù)工作中將采用服務器多GPU進行并行化處理。
參考文獻 (References)
[1] ROUSSEEUW P J, LEROY A M. Robust Regression and Outlier Detection [M]. New York: John Wiley & Sons, 2005: 254-255.
[2] HUANG Z, XU W, YU K. Bidirectional LSTM-CRF models for sequence tagging[EB/OL]. [2015-08-09]. https://arxiv.org/pdf/1508.01991.pdf.
[3] SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks [C]// NIPS 2014: Proceedings of the 2014 Advances in Neural Information Processing Systems 27. Montréal: [s.n.], 2014: 3104-3112.
[4] 嚴宏,楊波,楊紅雨.基于異方差高斯過程的時間序列數(shù)據(jù)離群點檢測[J].計算機應用,2018,38(5):1346-1352.(YAN H, YANG B, YANG H Y. Outlier detection in time series data based on heteroscedastic Gaussian processes [J]. Journal of Computer Applications, 2018, 38(5): 1346-1352.)
[5] 陳斌,陳松燦,潘志松,等.異常檢測綜述[J].山東大學學報(工學版), 2009,39(6):13-23. (CHEN B, CHEN S C, PAN Z S. et al. Survey of outlier detection technologies [J]. Journal of Shandong University (Engineering Science), 2009, 39(6): 13-23.)
[6] HUANG T, ZHU Y, WU Y, et al. Anomaly detection and identification scheme for VM live migration in cloud infrastructure [J]. Future Generation Computer Systems, 2016, 56(C): 736-745.
[7] WANG T, LI Z. Outlier detection in high-dimensional regression model [J]. Communications in Statistics, 2016, 46(14): 6947-6958.
[8] 鮑蘇寧,張磊,楊光.基于核主成分分析的異常軌跡檢測方法[J].計算機應用,2014,34(7):2107-2110.(BAO S N, ZHANG L, YANG G. Trajectory outlier detection method based on kernel principal component analysis [J]. Journal of Computer Applications, 2014, 34(7): 2107-2110.
[9] SHIPMON D T, GUREVITCH J M, PISELLI P M, et al. Time series anomaly detection: detection of anomalous drops with limited features and sparse examples in noisy highly periodic data [EB/OL]. [2017-08-11].http://cn.arxiv.org/ftp/arxiv/papers/1708/1708.03665.pdf.
[10] BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate [EB/OL]. [2016-05-19]. https://arxiv.org/pdf/1409.0473.pdf.
[11] FARIAS G, DORMIDO-CANTO S, VEGA J, et al. Automatic feature extraction in large fusion databases by using deep learning approach [J]. Fusion Engineering and Design, 2016, 112: 979-983.
[12] SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks [J]. 2014, 4:3104-3112.
SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks [EB/OL]. [2018-07-10]. https://arxiv.org/pdf/1409.3215.pdf
[13] ZHENG J, XU C, ZHANG Z, et al. Electric load forecasting in smart grids using long-short-term-memory based recurrent neural network [C]// CISS 2017: Proceedings of the 2017 51st Annual Conference on Information Sciences and Systems. Piscataway, NJ: IEEE, 2017: 1-6.
[14] TAI K S, SOCHER R, MANNING C D. Improved semantic representations from tree-structured long short-term memory networks [EB/OL].[2018-05-30]. https://arxiv.org/pdf/1503.00075.pdf.
[15] CHO K, van MERRIENBOER B, GULCEHRE C, et al. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation[EB/OL]. [2017-09-03]. https://arxiv.org/pdf/1406.1078.pdf.
[16] MADLENK R, MADLENKOV L, SVADLENKA L, et al. Analysis of website traffic dependence on use of selected Internet marketing tools [J]. Procedia Economics and Finance, 2015, 23: 123-128.
[17] Manoj AGNIHOTRI M. Credit card fraud detection [DB/OL]. [2017-04-27]. https://www.kaggle.com/fly2matrix/creditcard-frauddetection/datahttps://www.ushuji.com/financial/296.html.
[18] TSANGARATOS P, ILIA I. Comparison of a logistic regression and Nave Bayes classifier in landslide susceptibility assessments: the influence of models complexity and training dataset size [J]. Catena, 2016, 145:164-179.
[19] LAPTEV N, AMIZADEH S, FLINT I. Generic and scalable framework for automated time-series anomaly detection [C]// KDD '15: Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2015: 1939-1947.
[20] SHI Y, EBERHART R C. Empirical study of particle swarm optimization [C]// CEC '99: Proceedings of the 1999 Congress on Evolutionary Computation. Piscataway, NJ: IEEE, 1999, 3: 1945-1950.
[21] 周志華.機器學習:=Machine learning[M]. 北京:清華大學出版社,2016:33-36.(ZHOU Z H. Machine learning:=Machine learning [M]. Beijing: Tsinghua University Press, 2016:33-36.)