亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        鐵路互聯(lián)網(wǎng)售票異常行為分類技術(shù)的研究與應(yīng)用

        2019-12-05 05:25:20周亮瑾閻志遠戴琳琳
        中國鐵道科學 2019年6期
        關(guān)鍵詞:購票賬號準確率

        周亮瑾,閻志遠,戴琳琳

        (1.中國鐵道科學研究院 研究生部,北京 100081;2.中國鐵道科學研究院集團有限公司 電子計算技術(shù)研究所,北京 100081)

        與傳統(tǒng)基于鐵路內(nèi)網(wǎng)的鐵路電子商務(wù)系統(tǒng)不同的是,鐵路互聯(lián)網(wǎng)售票系統(tǒng)是面向互聯(lián)網(wǎng)的電子商務(wù)網(wǎng)站,面臨著更為復(fù)雜的風險防控要求。自從2011年鐵路互聯(lián)網(wǎng)售票啟動以來,互聯(lián)網(wǎng)售票網(wǎng)站、手機APP購票成為旅客購票的主渠道,為廣大旅客提供了更加便利快捷的購票服務(wù)。2018年春運期間,互聯(lián)網(wǎng)售票量單日高峰已超過1000萬張,平均每天售票量達到鐵路全渠道總售票量的70%。在節(jié)假日購票高峰,一些不法分子利用非法收集用戶信息、使用搶票軟件或搭建高性能搶票服務(wù)器等手段,對熱門火車票進行“秒殺”,嚴重干擾了公平公正的購票秩序,對廣大旅客正常購票造成了影響。如何從海量購票請求中有效區(qū)分異常購票行為,是解決“黃牛搶票”的關(guān)鍵所在。

        異常購票行為是指不同于正常用戶人工購票過程中的單個或一系列行為的組合,包括通過非法簡化預(yù)設(shè)的購票流程,壓縮購票關(guān)鍵步驟的執(zhí)行時間,以及通過大量并發(fā)提交同一個用戶的購票請求以提高非法購票成功率等行為。對鐵路互聯(lián)網(wǎng)售票系統(tǒng)產(chǎn)生較大影響的異常購票請求主要來源于其他電商網(wǎng)站,這些電商通過非法解析網(wǎng)站購票接口,構(gòu)建搶票服務(wù)器,模擬購票請求和自動化購票流程,從而獲得比正常用戶人工操作更快的速度實現(xiàn)非法“搶票”。這些電商搶票使用的網(wǎng)站賬號信息,部分是其通過非法收集證件提前建立和認證的網(wǎng)站賬號,部分是其誘導(dǎo)用戶提供本人已注冊的網(wǎng)站賬號和密碼。

        對于這些異常購票行為的區(qū)分可從分析購票請求的用戶賬號和行為兩方面入手。從購票請求的用戶賬號分析,主要是使用基于用戶關(guān)系特征的識別算法。比如,根據(jù)用戶常用命名方法識別機器人賬號,或是利用貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)分類法進行用戶和購票人關(guān)系分析[1-4]。但是,由于建立深度學習分析的網(wǎng)絡(luò)需要大量復(fù)雜樣本進行訓練,同時越來越多非法“搶票”利用正常用戶賬號進行操作,使其行為更具隱蔽性。從購票請求的行為分析,主要是基于行為特征的分類識別算法,例如貝葉斯算法、決策樹分類算法和SVM算法等。這些算法普遍具有運行效率高、訓練樣本簡單的特點,但是如何選擇有效屬性,特別是確定屬性閾值,是這些算法實現(xiàn)精確分類需要解決的問題。

        本文提出基于樸素貝葉斯分類算法的異常行為分類技術(shù),同時結(jié)合使用遺傳算法計算屬性閾值,從而進一步提高分類算法的準確性,可有效解決異常行為分類問題。

        1 基于樸素貝葉斯分類算法的異常行為分類框架

        1.1 確定購票行為關(guān)鍵屬性

        如果把1個互聯(lián)網(wǎng)訂票請求操作劃分為獨立的步驟,那么可分為登錄、選擇目標車次、查詢目標車次余票信息、選擇乘坐旅客信息、確認訂單信息、提交訂單信息、支付等步驟,每個步驟都有1個操作停留時間,其中每步是相對獨立的。為了達到搶票目的,訂票請求中各個步驟的操作時間必須是遠低于正常人工操作時間。這里可把查詢目標車次余票信息(Query Ticketing Step,QTS)、選擇乘坐旅客(Select Passenger Step,SPS)、提交訂單(Submit Order Step,SOS)、完成支付(Pay Order Step,POS)4個步驟的停留時間作為購票行為的4個關(guān)鍵屬性。

        目前第三方電商推出了高度自動化的“搶票”服務(wù),其實現(xiàn)原理是通過模擬器或者真機黑廠,使用程序自動調(diào)用互聯(lián)網(wǎng)售票服務(wù)接口來模擬用戶的正常購票流程,因此停留時間的計算定義為:在購票流程中,上個接口調(diào)用完成后,與目標接口調(diào)用之間的延時值。

        由于非法電商自己構(gòu)建的用戶賬號里的常用聯(lián)系人會定期變化,同時非法電商為了實現(xiàn)更快搶購車票,從中獲得代理費用,會使用其他用戶添加該用戶為常用聯(lián)系人,使用多個賬號進行并發(fā)購票。因此,發(fā)起購票請求的用戶,其常用聯(lián)系人更新頻率和相關(guān)性(User Relevance Information,URI),可以在一定程度上表明該用戶是否被網(wǎng)上代買服務(wù)利用;出行人的信息在多個賬號內(nèi)關(guān)聯(lián)性(Passenger Relevance Information,PRI),可以表明該出行人是否經(jīng)常在第三方電商上購買代買服務(wù);在短時間內(nèi)接到多個用戶對某個出行人的購票請求(Concurrent Request Information,CRI),在一定程度表明該出行人可能目前正在使用非法“搶票”軟件。

        (1)

        (2)

        (3)

        (4)

        定義5 請求用戶賬號更新聯(lián)系人屬性(guri)。該屬性反映了用戶賬號常用聯(lián)系人變化的頻率。用mun表示該用戶賬號下常用聯(lián)系人更新個數(shù),用nuc表示常用聯(lián)系人更新次數(shù),因此,請求用戶賬號更新聯(lián)系人屬性guri的公式為

        (5)

        定義6 常用聯(lián)系人相關(guān)性屬性(gpri)。該屬性反映了常用聯(lián)系人與用戶賬號的黏性,數(shù)值越小表明乘車人經(jīng)常使用固定用戶賬號進行購票,與用戶賬號的黏性比較強,這也符合正常旅客購票習慣。用bi表示購票請求中乘車人,在所有關(guān)聯(lián)的用戶賬號中購票次數(shù),因此,常用聯(lián)系人相關(guān)性屬性gpri的公式為

        (6)

        定義7 并發(fā)購票請求屬性(gcri)。該屬性反映同一乘車人同時使用多個賬號進行并發(fā)購票請求的異常情況。用t表示計算的時間區(qū)間,用qi表示該時間區(qū)間內(nèi),不同用戶賬號為同一旅客提交的并發(fā)購票請求量,因此,并發(fā)購票請求屬性gcri的公式為

        (7)

        查詢目標車次余票信息屬性tQTS、選擇乘坐旅客屬性tSPS、提交訂單屬性tSOS和完成支付屬性tPOS,這些屬性值在每次請求中是動態(tài)變化,是下一步使用異常行為識別模型進行判斷的基本屬性。同時配合基于請求用戶特征統(tǒng)計的靜態(tài)屬性,如請求用戶賬號更新聯(lián)系人屬性guri,常用聯(lián)系人相關(guān)性屬性gpri,以及同一乘車人的并發(fā)購票請求屬性gcri,結(jié)合用戶是否有異常操作歷史記錄、購票請求設(shè)備指紋是否屬于模擬器或黑廠等其他屬性對異常購票行為進行綜合判斷。

        1.2 基于樸素貝葉斯分類算法的異常行為識別模型

        對于一個未分類的數(shù)據(jù)E,E由i個特征屬性組成,可以表示為E={t1,t2,…,ti}。對于類別集合C={a1,a2},其中a1是正常用戶請求類別,a2是異常用戶請求類別。分別計算P(a1│E),P(a2|E)。如果P(ak│E)=max{P(a1│E),P(a2│E)},則E∈ak。

        根據(jù)貝葉斯定理可以得到

        (8)

        那么對于每個分類來說,分母P(E)都相同,想要比較1個最大值,只需要分子P(E│ak)P(ak)最大化就行。

        由于事件的特征屬性都是獨立的,那么可以得到

        P(E│ak)P(ak)

        =P(t1│ak)P(t2│ak)…P(ti│ak)P(ak)

        (9)

        這里的P(ak)就是基于樣本中統(tǒng)計1個請求屬于正常請求和異常請求的先驗概率,P(tm│ak)可以通過查詢屬性閾值矩陣和相應(yīng)的概率矩陣獲得,這樣就可以得到未分類的數(shù)據(jù)E的分類值。

        1.3 確定屬性閾值

        本文設(shè)計了一個通過遺傳算法來確定每個屬性的閾值以及持續(xù)細化閾值的方法[5]。首先將人工標記的樣本作為訓練樣本,根據(jù)遺傳算法對訓練樣本的每個屬性求解出閾值的最優(yōu)值,然后應(yīng)用于樣本進行準確率校驗。

        采用遺傳算法進行最優(yōu)值計算時,需要通過編碼方式確定每個閾值使用多少位的二進制來代表基因染色體編碼,隨機初始化若干閾值矩陣父代,選取適應(yīng)度函數(shù)作為閾值矩陣優(yōu)化的目標函數(shù),通過選擇算法和遺傳變異算法會產(chǎn)生若干閾值矩陣子代,迭代確定出最終閾值矩陣,這是屬性一次閾值矩陣的計算過程,可以使用相同過程持續(xù)細化閾值。

        1.3.1 編碼方式

        每個二進制代碼對應(yīng)的十進制值為

        (10)

        在取值區(qū)間內(nèi)對應(yīng)的值為

        (11)

        1.3.2 適應(yīng)度函數(shù)

        1.3.3 選擇算法

        根據(jù)遺傳算法,適應(yīng)度函數(shù)值越高的個體就越有可能繁殖后代,但也并非適應(yīng)度越高的就肯定后代越多,都是從概率上進行估算。本文采用常用的選擇函數(shù)輪盤賭(Roulette Wheel Selection)選擇法。假設(shè)種群數(shù)目n,某個體適應(yīng)度為f,則其被選中繼續(xù)繁衍的概率為

        (12)

        顯然適應(yīng)度越高對應(yīng)的選擇概率也就越大。按照這樣的比例組成1個“輪盤”,轉(zhuǎn)動“輪盤”隨機選擇其中個體進入遺傳變異階段,選擇后保持種群規(guī)模不變。

        1.3.4 遺傳變異

        二進制閾值矩陣的基因重組是,2個矩陣中同1個屬性的二進制編碼在隨機幾個位置上進行交換;基因變異時,閾值矩陣本身每個屬性的隨機幾個位置上按照概率進行取反。同時,為了加快遺傳算法的進化速度,而又能保證后期能夠比較精確地收斂到最優(yōu)解上,采取動態(tài)改變步長的方法,使用基因重組概率Pcom和基因變異概率Pvar來動態(tài)調(diào)節(jié)。對于適應(yīng)度較高的個體,對應(yīng)的Pcom和Pvar值較低,使得優(yōu)良的基因得以保持;對于適應(yīng)度較低的個體,對應(yīng)的Pcom和Pvar值較高,加速其進化速度;當種群中每個個體的適應(yīng)度趨于一致時,加大Pcom和Pvar值;當種群中每個個體的適應(yīng)度比較分散時,適當減少Pcom和Pvar值[6]。

        (13)

        (14)

        式中:Pc1為基因重組的常數(shù)概率,表明進行基因重組的可能性大??;λ為適應(yīng)性權(quán)重系數(shù);fc為要基因重組的2個個體中適應(yīng)函數(shù)較高的值;fv為要基因變異的個體中適應(yīng)函數(shù)值;favg為適應(yīng)函數(shù)值的平均值;Pc2為基因變異的常數(shù)概率,表明進行基因變異的可能性大小;μ為變異權(quán)重系數(shù)。

        1.3.5 確定閾值矩陣

        1.3.6 持續(xù)細化閾值

        當通過遺傳算法[7-9]計算出第1個閾值矩陣后,每個屬性可以進一步細化閾值,通過類似的算法進行下1個閾值計算,直到閾值個數(shù)超出預(yù)設(shè)值?c后退出。

        1.4 異常行為分類算法運行框架

        由于鐵路購票請求具有規(guī)律性,在節(jié)假日期間,購票壓力大,使用非法搶票軟件的可能性大,而在非節(jié)假日期間,購票請求相對平穩(wěn),因此在異常行為分析中,需要充分考慮到鐵路售票自身的特點,需要根據(jù)不同時期、長短途票等特點,選取不同樣本進行訓練,生成應(yīng)用于不同時期異常行為分析的算法數(shù)據(jù),這是本文設(shè)計的異常行為分類算法運行框架第1步。

        異常行為分類算法運行框架第2步需要根據(jù)樣本集分別進行算法訓練,如圖1所示,分為以下步驟。

        步驟1:前期收集人工標識好的屬性樣本集S,據(jù)訓練樣本提取當前待細化的閾值矩陣。

        步驟2:根據(jù)得到的閾值矩陣,計算訓練樣本中的異常行為分類條件概率表,將該條件概率表應(yīng)用于樣本,進行準確率、召回率、調(diào)和平均值計算[10-12],得到種群中每個個體的適應(yīng)值。

        步驟3:根據(jù)得到的當前待細化的閾值矩陣[13],計算屬性閾值區(qū)間,并確定相應(yīng)的基因編碼方式,隨機生成6~10個閾值矩陣種群進入遺傳算法進行優(yōu)化計算。

        步驟4:根據(jù)個體適應(yīng)值,使用輪盤賭選擇法,選擇個體進入基因重組變異,通過選擇后依然保持種群規(guī)模不變,適應(yīng)性強的個體更有可能多次入選。

        步驟5:根據(jù)個體適應(yīng)值計算得到的基因重組概率Pcom和基因變異概率Pvar進行基因重組變異產(chǎn)生新一代屬性矩陣種群,根據(jù)設(shè)置的進化代數(shù)?g,重復(fù)步驟4,直到得到最后的閾值矩陣。

        步驟6:將得到的閾值矩陣計算適應(yīng)值,與之前閾值矩陣對比,如果有提升同時控制閾值細度不高于6個,分別得到子閾值矩陣,繼續(xù)重復(fù)步驟2,直至退出。

        圖1 異常行為分類算法運行框架—算法訓練流程圖

        異常行為分類算法運行框架第3步根據(jù)需要選擇合適的算法數(shù)據(jù)對實際購票請求進行分類,根據(jù)分類結(jié)果進行處理。同時,將購票請求及分析結(jié)果進行存儲,作為后續(xù)算法改進的數(shù)據(jù)依據(jù),如圖2所示。

        2 算例驗證

        為了區(qū)分正常請求和異常請求,預(yù)先在幾個非法電商上注冊200個用戶賬號,按照不同熱門車次、乘車時間進行購票請求,在鐵路互聯(lián)網(wǎng)售票系統(tǒng)后臺根據(jù)預(yù)先標識的用戶和購買車次對請求進行區(qū)分,并對各個屬性值進行統(tǒng)計;然后再使用100個用戶賬號在網(wǎng)站及手機應(yīng)用進行正常購票模擬,并在后臺系統(tǒng)進行數(shù)據(jù)統(tǒng)計。先后整理和分類春運售票期間4 000個實際網(wǎng)站用戶請求,其中1 500個正常請求,2 500個異常請求,同時還收集了同一時期的1 500個標識測試樣本進行驗證。

        圖2 異常行為分類算法運行框架-系統(tǒng)結(jié)構(gòu)圖

        如圖3所示,通過調(diào)整遺傳代數(shù)?g值,計算樣本準確率βacc、召回率βrec以及調(diào)和平均值fm,以準確率值為主要參考值。在算例中,遺傳代數(shù)?g值在5~15時比較平穩(wěn),但是隨著?g值的增加,準確率也隨之上升,在40~45達到較高值,并趨于穩(wěn)定。由于召回率和調(diào)和平均值也相對穩(wěn)定,因此?g值可以在40~50之間進行選擇。

        圖3 遺傳代數(shù)對算法準確率、召回率、調(diào)和平均值的影響測試結(jié)果

        如圖4所示,通過調(diào)整閾值矩陣細化次數(shù)?c值,計算樣本準確率βacc、召回率βrec以及調(diào)和平均值fm,以準確率為主要參考值。隨著閾值細化次數(shù)增加,一開始準確率也隨之上升,但隨著細化次數(shù)的進一步增加,準確率值逐漸下探,表明閾值矩陣細化到一定程度后,對于算法判斷沒有增益,反而會降低算法計算性能和判斷準確度。因此,閾值矩陣細化次數(shù)?c取值2次,此時算法綜合運行效果較好。

        圖4 閾值矩陣細化次數(shù)對算法準確率、召回率、調(diào)和平均值的影響測試結(jié)果

        如圖5所示,與決策樹算法相比,本文算法的準確率、召回率以及調(diào)和平均值都有優(yōu)勢,可以達到97.1%分類準確率,與決策樹算法相比,有接近3%~5%的提升。

        圖5 本文算法與決策樹算法對比測試結(jié)果

        圖6 細化閾值矩陣對算法影響測試結(jié)果

        如圖6所示,進行閾值矩陣細化算法對樸素貝葉斯分類算法(NBC)的運行效果影響對比測試。實驗表明,在增加了閾值矩陣細化算法后,本文算法比NBC算法有了6.5%的準確率提升。

        3 結(jié) 語

        為了更嚴厲地打擊異常用戶購票行為,目前鐵路互聯(lián)網(wǎng)售票網(wǎng)站基于購票行為的風險控制機制往往會增加正常用戶的誤傷率。為了更好地實現(xiàn)鐵路互聯(lián)網(wǎng)售票系統(tǒng)異常購票行為的有效識別,通過分析提取購票行為的特征屬性,有機結(jié)合了貝葉斯分類算法和遺傳算法,實現(xiàn)了鐵路互聯(lián)網(wǎng)異常購票行為識別分類器,通過特征閾值的細化分類后的概率矩陣能夠準確地識別異常用戶購票行為。通過實驗數(shù)據(jù)測試表明,本文設(shè)計的識別和分類用戶請求算法,基于簡單的樣本訓練,就可以達到97.1%的分類控制的效果,與決策樹算法相比,準確率有接近3%~5%的提升,同時算法運行效率很高,可以滿足1000TPS高并發(fā)請求分類的要求。

        猜你喜歡
        購票賬號準確率
        不同的購票方法
        彤彤的聊天賬號
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        施詐計騙走游戲賬號
        派出所工作(2021年4期)2021-05-17 15:19:10
        不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
        2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
        直擊痛點的“候補購票”可多來一些
        鐵路候補購票服務(wù)擴大到全部列車
        高速公路車牌識別標識站準確率驗證法
        Google Play游戲取消賬號綁定沒有Google賬號也能玩
        CHIP新電腦(2016年3期)2016-03-10 14:52:50
        少妇三级欧美久久| 尹人香蕉久久99天天拍| 麻豆tv入口在线看| 久久99精品国产99久久| 成人无码激情视频在线观看| 亚洲av综合av国一区二区三区| 黑人大群体交免费视频| 日韩精品人妻视频一区二区三区 | 亚洲丰满熟女一区二亚洲亚洲| 成熟丰满熟妇av无码区| 国产999精品久久久久久| 综合久久久久6亚洲综合| h视频在线免费观看视频| 国产精品三区四区亚洲av| 妇女bbbb插插插视频| 亚洲V日韩V精品v无码专区小说| 久久av一区二区三区下| av免费不卡一区二区| 亚洲av无码久久精品狠狠爱浪潮 | 高清无码一区二区在线观看吞精| 亚洲综合精品在线观看中文字幕| 亚洲国产一区二区三区精品 | 日本午夜免费福利视频| 亚洲黄片久久| 最新中文字幕日韩精品| 国产综合无码一区二区辣椒 | 国产一区二区黄色的网站| 国产草草影院ccyycom| 91视频免费国产成人| 亚洲av一区二区网址| 无码爽视频| 欧美 日韩 国产 成人 在线观看| 日韩少妇无码一区二区免费视频| 一区二区三区视频亚洲| 无码国产福利av私拍| 亚洲亚洲网站三级片在线| 美利坚亚洲天堂日韩精品| 国产无遮挡又黄又爽高潮| 996久久国产精品线观看| 国产大片在线观看三级| 亚洲av无码成人精品国产|