梁肖裕 苗晨 山東科技大學(xué)信息管理與信息系統(tǒng)
關(guān)鍵字:LSTM 邏輯回歸分類(lèi)器 混淆矩陣檢驗(yàn)
我們擁有的初始數(shù)據(jù)集是某城市安裝四分之一的移動(dòng)支付設(shè)備時(shí),全部公交的移動(dòng)支付情況。那么,該城市的公交車(chē)全部安裝移動(dòng)支付設(shè)備后,當(dāng)前移動(dòng)支付人數(shù)的四倍約為全部安裝移動(dòng)支付設(shè)備后的總乘車(chē)人數(shù)。利用這個(gè)關(guān)鍵信息,使用LSTM神經(jīng)網(wǎng)絡(luò)對(duì)人數(shù)進(jìn)行預(yù)測(cè)。
LSTM網(wǎng)絡(luò)的訓(xùn)練采用誤差的反向傳播算法,當(dāng)前細(xì)胞的狀態(tài)會(huì)受到前一個(gè)細(xì)胞狀態(tài)的影響。同時(shí)在誤差反向傳播計(jì)算時(shí),當(dāng)前單元的輸出誤差不僅僅包含當(dāng)前時(shí)刻T的誤差,也包括T時(shí)刻之后所有時(shí)刻的誤差,這樣每個(gè)時(shí)刻的誤差都可以經(jīng)由當(dāng)前單元的輸出和前一時(shí)刻單元的輸出迭代計(jì)算。
經(jīng)過(guò)訓(xùn)練后,我們利用LSTM的記憶特點(diǎn),對(duì)全部安裝設(shè)備后的公交卡支付人數(shù)進(jìn)行預(yù)測(cè),再與移動(dòng)支付人數(shù)進(jìn)行對(duì)比。通過(guò)數(shù)據(jù)對(duì)比發(fā)現(xiàn),移動(dòng)支付的人數(shù)一直比公交卡支付的人數(shù)多。且在統(tǒng)計(jì)范圍的28天之內(nèi),共計(jì)多出1440824人。
邏輯回歸是將線(xiàn)性函數(shù)的結(jié)果映射到了Sigmoid函數(shù)中,Sigmoid函數(shù)如圖1:
圖1 Sigmoid函數(shù)
其中x為樣本輸入,對(duì)應(yīng)的函數(shù)為模型輸出,可以理解為某一分類(lèi)的概率大小。而θ為分類(lèi)模型的要求出的模型參數(shù)。對(duì)于模型輸出,令其讓它和二元樣本輸出y(假設(shè)為0和1)有以下的對(duì)應(yīng)關(guān)系:如果模型輸出值大于0.5,則y為1。
混淆矩陣是一個(gè)兩行兩列的情形分析表,可以用來(lái)對(duì)分類(lèi)器進(jìn)行評(píng)估檢驗(yàn)。矩陣的每一列表達(dá)了分類(lèi)器對(duì)于樣本的類(lèi)別預(yù)測(cè),二矩陣的每一行則表達(dá)了版本所屬的真實(shí)類(lèi)別,顯示以下四組記錄的數(shù)目:作出正確判斷的肯定記錄(真陽(yáng)性)、作出錯(cuò)誤判斷的肯定記錄(假陰性)、作出正確判斷的否定記錄(真陰性)以及作出錯(cuò)誤判斷的否定記錄(假陽(yáng)性)。
我們將用LSTM預(yù)測(cè)出的結(jié)果放入邏輯回歸分類(lèi)器進(jìn)行重復(fù)訓(xùn)練,每天抽調(diào)出400個(gè)數(shù)據(jù)作為訓(xùn)練集,100個(gè)作為測(cè)試集,對(duì)28天的數(shù)據(jù)分別進(jìn)行檢驗(yàn)。
圖2 訓(xùn)練集檢驗(yàn)圖
圖3 測(cè)試集檢驗(yàn)圖
可知重復(fù)預(yù)測(cè)的結(jié)果比較理想,再根據(jù)混淆矩陣的輸出,以2月13日為例,當(dāng)天一百個(gè)測(cè)試集的數(shù)據(jù)的混淆矩陣,得到矩陣打印結(jié)果:
即成功率為89%,模型通過(guò)驗(yàn)證。
綜合來(lái)看,移動(dòng)支付平臺(tái)由四分之一到全部開(kāi)放的過(guò)程中,增加了一定的固定成本,更關(guān)鍵的是移動(dòng)支付客流量的大幅增長(zhǎng),經(jīng)過(guò)代入數(shù)值計(jì)算,可得該城市在全部移動(dòng)支付平臺(tái)投入運(yùn)行后的第13天開(kāi)始盈利,且第三方支付平臺(tái)在每位用戶(hù)處獲利0.5%,由于移動(dòng)支付的客流量增大,故開(kāi)始盈利三十天內(nèi),利潤(rùn)可達(dá)到340000元。