摘 要:本文首先分析了虛假數據注入攻擊的現狀,接下來詳細闡述了虛假趨勢時間序列分析,希望通過本文的分析研究,給行業(yè)內人士以借鑒和啟發(fā)。
關鍵詞:虛假數據;時間序列;趨勢性;隨機性分析;基函數
引言
虛假數據是為了達到一種預期目標而人工偽造的帶有一定虛假價值的數據,它的存在嚴重影響了數據分析結果,并給數據處理、信息安全、資源利用、控制決策等工作帶來了巨大威脅。隨著大數據時代的到來,信息資源的利用頻率急劇增長,虛假數據分析作為改善數據質量、提高管控能力、增強安全性、提升數據價值的關鍵環(huán)節(jié)愈來愈被人們所重視,眾多學者更是從網絡服務、控制系統、多媒體信息等視角開展了虛假數據識別的研究。
一、虛假數據注入攻擊的現狀
虛假數據注入攻擊(FalseDataInjection,簡稱FDI)是通過劫持網絡節(jié)點或物理設備,向系統注入錯誤的或無用但存在安全隱患的數據信息,破壞數據的完整性,導致系統失去系統穩(wěn)定性甚至崩潰的一種惡意網絡攻擊。與其他網絡攻擊相比,FDI更加的巧妙、復雜以及具有很高的隱蔽性,可以成功騙過普通的攻擊探測機制,進而達到破壞系統的關鍵數據信息的目的。目前針對虛假數據注入攻擊下信息物理系統的安全控制問題的研究還存在很多的不足之處,所設計的攻擊檢測方法的檢測效率很低甚至無法判斷是否存在FDI攻擊入侵行為;而至于系統防御的安全控制策略都是以改變或者損害控制系統本身性能來抵御FDI攻擊,而且計算繁瑣,浪費了有限的系統資源。
二、虛假趨勢時間序列分析
時間序列是按照時間順序記錄的社會經濟、自然現象的數量指標,其數值隨時間發(fā)展變化,起伏不定,具備某種趨勢。通常時間序列可表示為xt*,t=0,1,...,n,并由長期趨勢量d*、季節(jié)變動量s*、周期變動量c*、隨機變動量r*四個部分構成,亦即xt* =f(dt*,st*,ct*,rt*),t=0,1,...,n當被測對象依時間變化呈現某種上升或下降態(tài)勢,且沒有明顯的季節(jié)波動、周期變動時,時間序列簡化為一種趨勢時間序列,此時可構造一個合適的函數曲線反映這種變化趨勢。虛假趨勢時間序列則是指為了到達商業(yè)欺詐、掩蓋事實等目的,由不誠信者在已知歷史數據資料基礎上偽造的趨勢時間序列,以實現惡意的利益訴求。虛假趨勢時間序列類似趨勢時間序列,也包含長期趨勢量和隨機變動量兩部分,但這兩部分中至少一部分是虛假的。對虛假趨勢時間序列進行分析,就是探索該虛假序列的長期趨勢量和隨機變動量的構建動機和方法,以便于通過相應檢測手段予以甄別。虛假趨勢時間序列并不是觀測得到的真實數據,而通常由偽造者按照某一企圖而構建。為了便于區(qū)分不同偽造能力,此處將偽造者分為簡單偽造者和復雜偽造者兩類。其中,簡單偽造者大多對照歷史數據憑借個人經驗以及預期目標估計出一系列虛假數值tx。受限于人工的編制效率和構造能力,一般來說序列tx僅部分含有虛假隨機成分tr,因此主要體現為對虛假趨勢時間序列中隨機變動量的一種簡單偽造。而復雜偽造者則運用程序算法按照預期目標構造一個虛假趨勢td,然后再按照隨機生成規(guī)則構造虛假隨機tr,并將其疊加到td上,因此體現為對虛假趨勢時間序列中長期趨勢量和隨機變動量兩部分的復雜偽造。如圖1所示,依照來自美國加州米克斯灣(MeeksBay;經緯度-120.11,39.05;編號:10336645)水質數據庫的水溫真實序列圖1(a),手工給出偽造目標趨勢的關鍵點位并進行樣條插值獲得一個虛假趨勢圖1(b),然后將均勻分布的隨機數據疊加到該虛假趨勢上,最后為了增強虛假數據的逼真性,對圖1(c)手工調整獲得最終偽造序列如圖1(d)。無論是簡單偽造者還是復雜偽造者,。然而由于真值通常未知或被隱藏,故而只能通過構成虛假趨勢時間序列tx的虛假趨勢td和虛假隨機tr兩部分加以分析。(1)虛假趨勢:虛假趨勢td是虛假趨勢時間序列中的長期趨勢量部分。它是由偽造者參考歷史數據、背景信息、經驗估算、推演分析等,按照預期目標建立且類似于真實的序列。通常在未知情況下難以辨別真?zhèn)?,而只有在虛假序列出現違背常理、突發(fā)跳躍等時可通過M-K等突變檢測加以判別,或者在特定滑動窗口下通過與歷史數據之間的相似性分析來加以初判,因此采用虛假趨勢甄別序列的真?zhèn)尾⒉痪哂写硇?。?)虛假隨機:虛假隨機tr是虛假趨勢時間序列中的隨機變動量部分。簡單偽造者往往通過簡單推理計算、數值估計形成帶有部分虛假隨機特性的虛假趨勢時間序列tx,由于其隨機變動量部分偽造方法過于簡單,難以滿足自然的隨機特征,故可以通過隨機性檢測來判別真?zhèn)?。而對于復雜偽造者而言,雖然可以通過各種算法構造出滿足隨機規(guī)律的tr,但將其疊加到td后就必然導致了數據量的改變,原本的趨勢性受到tr的影響在部分時刻將無法保證預期目標,或呈現出不符合偽造者意圖的起伏變化,因此需要對疊加后的序列進行手工調整,然而這種調整卻往往會打破序列的隨機性,故而可以通過分析該部分的隨機性檢測來判別趨勢時間序列的真?zhèn)巍?/p>
結語
虛假數據的檢測與分析一直在改善數據質量、提高系統能力、保障信息安全等方面占據重要地位,并隨著大數據技術的不斷發(fā)展和數據資源使用頻率的增加,成為了信息技術領域的研究熱點。
參考文獻:
[1]任亞峰,姬東鴻,張紅斌,尹蘭.基于PU學習算法的虛假評論識別研究[J].計算機研究與發(fā)展,2015,52(03):639-648.
作者簡介:
劉然(1988—),對外經濟貿易大學統計學院在職人員高級課程研修班學員,研究方向:大數據科學與應用。