李 黎,梁 劍
(四川大學錦城學院,四川 成都 611731)
近年來在我國電子商務市場的迅猛發(fā)展下,從而帶動出一系列相應的服務中介機構(gòu),例如第三方支付系統(tǒng),它的作用主要是完成第三方擔保的支付功能,同時也保證了雙方的買賣信用等類似問題,然而第三方支付系統(tǒng)的發(fā)展迅猛,信息泄露等問題也隨之而來?,F(xiàn)階段信息泄露風險逐漸增大,卻缺乏完整的信息泄露風險預警系統(tǒng),對于買家而言存在巨大的信息泄露風險。買家的個人身份信息、設備信息、消費和產(chǎn)品的使用記錄以及瀏覽記錄等信息都暴露在所謂的大網(wǎng)絡數(shù)據(jù)庫中。
針對上述問題目前大部分改善方法如下:文獻[1]在神經(jīng)網(wǎng)絡基礎上建立動態(tài)風險指標,輸入多種參數(shù)變量,使輸出結(jié)果的預警效果達到最優(yōu),但是該方法涉及變量較多,極易受環(huán)境影響產(chǎn)生巨大誤差。文獻[2]針對固定閾值難以應付復雜多變的數(shù)據(jù)行為,使用無監(jiān)督學習發(fā)簡歷多維度模型,確定異常及可能泄露的區(qū)域,但是規(guī)劃時間窗口提取特征過于繁瑣,時效性較差。文獻[3]對歷史審計數(shù)據(jù)分類,精簡用戶特征描述,降低冗余計算量,然而大部分信息泄露的大數(shù)據(jù)環(huán)境中一定存在著相應的信息泄露節(jié)點,但是K-means和naive Bayes算法不易檢測出信息泄露點的具體位置,從而會導致影響整體檢測的進程以及準確率。
為此,分布式信息泄漏檢測模型必須要求檢測對象在檢測過程中保證運動軌跡無偏移,并且存在信息泄露精準度較低的情況。就此要求,本文設計的信息泄露預警模型相對于上述方法來說,不會出現(xiàn)此類精準度較低的以及不能確保檢測對象運動軌跡等問題,通過卡爾曼軌跡運動預測法明確下一目標運動狀態(tài)值,同時設定相應動態(tài)閾值檢測節(jié)點是否存在泄露情況,明確具體泄露點,建立的預警模型設定預警指標能級,能夠更有效確定風險范疇。
卡爾曼濾波原理[4]是對觀測對象的動態(tài)行為數(shù)據(jù)進行狀態(tài)估計,運用當前時刻的軌跡觀測數(shù)據(jù)和上一時刻的狀態(tài)估量值對當前狀態(tài)進行更進及估量計算,并利用一步推測法中遞推方程來實現(xiàn)迭代預測。從而判斷出下一時刻的動態(tài)軌跡[5]位置,動態(tài)信息分析方程步驟如下:
1)對動態(tài)檢測目標進行大體的軌跡數(shù)據(jù)分析,以及數(shù)據(jù)篩查、修改、坐標軸x、y的轉(zhuǎn)換等基本操作處理。同時用誤差方根公式來計算觀測對象的實際軌跡檢測點:
(1)
2)由系統(tǒng)數(shù)據(jù)中的動態(tài)軌跡方程和當下時刻的觀測方程來確定的動態(tài)軌跡模型參數(shù),并初始化相應參數(shù)。
3)通過測量出的初始時刻(i=0)下的最佳狀態(tài)下的估量值X(0,0)和估量誤差組列P(0,0),可通過誤差方根公式得出運動軌跡對象下一時刻(i=1)的預測數(shù)值X(1,0),同時得到估量方差組列P(1,0),然后根據(jù)(i=1)狀態(tài)下當下時刻觀測值Z(1)得到(i=1)狀態(tài)下最佳估量X(1,1),和最新更進的誤差組列P(1,1),從而完成第一步的預測濾波;然后根據(jù)上述步驟依次推斷得出當下時刻的最佳狀態(tài)X(n-1,n-1),完成整個觀測過程。計算公式如下
Z(k)=H(k)X(k)+V(k)
(2)
式中Z(k)表示當下時刻的向量觀測數(shù)據(jù)值,k表達了當下狀態(tài)下的觀測數(shù)據(jù)值。H(k)表示當下時刻的觀測組列,X(k)則代表系統(tǒng)狀態(tài)向量表達了在同時刻k狀態(tài)下運動軌跡的矢量狀態(tài)[6]。V(k)為軌跡運動時產(chǎn)生的觀測噪聲。
4)根據(jù)之前步驟得到的最佳運動軌跡狀態(tài)估量X(n-1,n-1),以及通過當前狀態(tài)下預測得出運動軌跡第n+1個時刻下的式(3),并通過預測軌跡點p′與實際軌跡點p進行對比,得出預測誤差計算式(4),重復上述步驟依次計算完成運動軌跡點的預測,計算過程如下
X(k+1,k)=A(k)X(k,k)
(3)
Z(k+1,k)=H(k)X(k+1,k)
(4)
通過卡爾曼濾波得到的數(shù)據(jù)預測值準確性較差、誤差率高,所以本文結(jié)合動態(tài)閾值計算可能發(fā)生信息泄露的節(jié)點,提高準確率。當?shù)谌街Ц断到y(tǒng)中發(fā)生信息數(shù)據(jù)變換時,變換的數(shù)值超過設定的閾值范圍,則認為存在相應的泄漏點。在以上第三方支付時發(fā)生的分布信息數(shù)據(jù)濾波和相應特點基礎上,創(chuàng)建基于動態(tài)閾值的泄露點預測方法。這種檢測方法,可以根據(jù)自身支付系統(tǒng)信息的網(wǎng)絡歷史數(shù)據(jù)熵值的變化,對相對應的閾值的大小進行調(diào)整,再利用當下時刻的泄漏點數(shù)值、數(shù)據(jù)熵值平均值與相應動態(tài)閾值做對比,從而判斷出第三方支付系統(tǒng)中的數(shù)據(jù)信息是否存在泄漏點,具體應用步驟如下:
1)在第三方支付系統(tǒng)分布信息查詢的單位時間T內(nèi),對大致的信息采樣進行分布統(tǒng)計。
2)并在每一個時間單位T內(nèi)計算出信息數(shù)據(jù)特征點分布的熵值E,并得到數(shù)據(jù)特征點E值的分布序列
(5)
在上述表達公式中N′表示在三方支付系統(tǒng)分布網(wǎng)絡查詢過程中的單位時間T內(nèi),不同的IP源地址出現(xiàn)的數(shù)量,Q代表為第i個IP源地址在查詢過程中出現(xiàn)的數(shù)據(jù)數(shù)目占總數(shù)的比值。
3)計算第三方支付系統(tǒng)下信息泄露節(jié)點在當前時刻中的檢測熵值ω和熵值平均值A之間的差值。例如兩個差值之間相差的數(shù)值小于k*D就判斷為正常,相反,如果兩個差值之間的數(shù)值大于k*D則為泄漏點。A表示在信息泄露檢測時當下時刻的ω個正常熵值的平均值,D表示熵值平均值A與ω的最新更進正常值E′i之間的最大偏差值;k表示信息泄漏檢測中最大偏差指數(shù),此指數(shù)有關檢測泄漏點[7]的準確率以及靈敏度。計算公式如下
(6)
D=max(|E′-A|/ω),i=1,2,…,ω
(7)
如果第三方支付系統(tǒng)中沒有信息泄漏點,就可在分布序列中放置上述計算得出的熵值[8],并根據(jù)式(7)計算得的熵值平均值A和D進行更新,就可對下一時刻的分布數(shù)據(jù)進行泄漏點檢測。
如果第三方支付系統(tǒng)分布信息中有出現(xiàn)泄漏點,則就不對當下時刻的熵值平均值A和D進行更新。直接進行下一步對下一時刻的分布數(shù)據(jù)進行快速的信息泄露檢測,保證所有的數(shù)據(jù)檢測整體完成。
最后結(jié)合以上步驟對實際對象進行分步的信息泄漏節(jié)點檢測。
根據(jù)上述原理進行初步信息泄露預測,之后本文采用加權融合法對相關的目標進行篩查及采集控制,并進行統(tǒng)一的抽象標準化的處理,再構(gòu)建一體實體化的預警模型。
假設H表示實體對象W的空間私密信息合集,Y代表私密信息的特征合集,O代表各個時刻私密信息的抽樣合集,綜上所述實體私密信息的時刻、特征、空間的合集組合為
W=(H,Y,O)
(8)
假設O表示n個的維度隊形中的一個私密信息密閉空間,則O就成為n個維度隊形中一個代表私密信息的超曲面,如果O表示一個私密性的空間信息則相應方程如下
(9)
(10)
當私密信息通過第三方支付系統(tǒng)進入檢測區(qū)域時,對私密信息進行線性到非線性的組合排列通過卡爾曼濾波以及動態(tài)閾值確定當前是否存在泄漏節(jié)點,同時輸出層需要一個傳遞信號來表示私密信息已轉(zhuǎn)入。函數(shù)公式為
(11)
例如G表示私密信息縱向函數(shù)的差值,則線性函數(shù)作為私密信息的實效激活函數(shù)就可表示為
(12)
假設xl代表私密信息的第個l輸入樣本,k代表樣本輸入的空間維度,ck代表機密信息的結(jié)合中心點,ωkj代表私密信息從輸入層到檢測層的連接值,m代表私密信息的縱向函數(shù)數(shù)目,yi代表實際輸出樣本數(shù)目,則在第三方支付系統(tǒng)私密信輸出預警的函數(shù)公式為
(13)
根據(jù)上述過程,第三方支付系統(tǒng)中發(fā)生信息泄露時,預警模型可以有較好的準確率和查全率。
表1 預警指標等級
在第三方支付系統(tǒng)中發(fā)生的信息泄露可按風險的嚴重程度劃分出五個等級分別如下:優(yōu)、良、中、差、危這五個安全等級(表1),這五個安全等級也分別對應上述中的五個風險泄露的嚴重程度等級,在預測發(fā)生泄露風險時,給出相對應的風險等級就可發(fā)出相對應等級的安全警示,可讓此信息泄露預警系統(tǒng)安全有效地落實于實際應用中去。
表2 仿真環(huán)境參數(shù)
表3 參數(shù)結(jié)果解釋
假設風險預警精度用precision表示,查全率用recall表示,其中F-measure作為上述二者的調(diào)和均值,各個評估指標運算公式如下
(14)
(15)
(16)
方案針對文獻[1]、[2]、[3]以及本文預警模型,進行仿真,將在2000到9000組的不同規(guī)模測試組內(nèi)進行分析比較。
圖1 預警準確率對比分析圖
預警準確率分析:根據(jù)圖1能夠看出,相比于另外方法本文模型的預警正確率最高,基本保持在70%上下浮動,并且未出現(xiàn)較大波動。這主要因為本文使用卡爾曼濾波動態(tài)軌跡預測法確定了數(shù)據(jù)下一階段狀態(tài),在初始階段進行短暫濾波會對后期泄露風險監(jiān)測和預警打下良好的基礎,減小后期出現(xiàn)的干擾信息,并且提高運算數(shù)據(jù),增強準確率。
為了驗證設計的第三方支付系統(tǒng)信息泄露風險預警模型的性能,采用文獻[1]模型、文獻[2]模型、文獻[3]模型以及設計模型的CPU占用率如圖2所示。
圖2 各個數(shù)據(jù)集下運行時間利用率對比分析
由圖2可以看出,相比其它三種文獻方法,所提預警模型的CPU占用率增加較為平緩,且最高點也沒有超出整體的50%,比大多數(shù)方法更節(jié)省空間。這是因為,本文模型能夠更具不同數(shù)據(jù)環(huán)境動態(tài)調(diào)整泄漏檢測閾值,一邊適用于更多硬件中。
為了驗證設計的第三方支付系統(tǒng)信息泄露風險預警模型的性能,獲得預警的幅度波動率結(jié)果如圖3所示。
圖3 本文模型預警幅度波動率
預警幅度波動率能夠表達預警模型的結(jié)果是否平穩(wěn),判斷其是否容易受外界影響。從圖3中能夠看出,本文預警模型的波動率保持在[50,-50]區(qū)間,可證明該模型若在干擾條件下也能獲得較為穩(wěn)定準確的預警結(jié)果,可應用于多種環(huán)境中。
為了驗證設計的第三方支付系統(tǒng)信息泄露風險預警模型的性能,采用文獻[1]模型、文獻[2]模型、文獻[3]模型以及設計模型的監(jiān)控性能如圖4所示。
圖4 監(jiān)控性能對比
隨著迭代數(shù)量的不斷增加,本文預警綜合性能比較高,這是因為通過動態(tài)閾值節(jié)點檢測能夠計算出可能發(fā)生泄漏節(jié)點,降低計算量的同時,提升查全率,最終使預警結(jié)果具有較高可信度。
為緩解日益嚴峻的第三方支付系統(tǒng)信息泄露問題,本文提出建立信息泄露預警模型進行改善。實驗結(jié)果表明無論是從預警準確率、CPU占用率、預警的幅度波動率以及最后預警效果來看,此預警模型在各種實驗中都占有一定優(yōu)勢,并可運用到實際當中去達到可觀的效果。
但本方法也存在一定的局限性,例如在進行初步的信息泄漏預測時,可通過檢測閾值檢測出信息的泄露節(jié)點,但無法推斷出具體的信息泄露路徑,也就不能從根源上解決信息泄露問題,只能用預警的方法來緩解。同時為保障信息泄露預警模型的穩(wěn)定性和準確率,在進行初步檢測以及后續(xù)預警時都必須保證網(wǎng)絡環(huán)境大致穩(wěn)定,確保不會對檢測數(shù)據(jù)造成影響。