廉小親,劉 鈺,吳艷華,程智博
(1.北京工商大學人工智能學院,北京 100048;2.國家鐵路智能運輸系統(tǒng)工程技術研究中心,北京 100081)
隨著新建高鐵快速發(fā)展,鐵路數(shù)字化、智能化建設逐步深入,中國新建鐵路在建設階段就已經(jīng)積累了海量結構化、半結構化、非結構化數(shù)據(jù),包括勘察設計數(shù)據(jù)、工程進度數(shù)據(jù)和自然災害檢測數(shù)據(jù)等。鐵路建設期數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)類型多、數(shù)據(jù)增長快、業(yè)務價值大的特點[1],傳統(tǒng)的數(shù)據(jù)存儲方式管理復雜、成本較高、訪問速度較低。因此,為了能夠滿足鐵路建設期數(shù)據(jù)存儲量大、存儲方式多樣的需求,選擇分級存儲的方式能夠有效降低存儲成本,提高系統(tǒng)性能。
數(shù)據(jù)分級存儲是根據(jù)數(shù)據(jù)自身價值高低,選擇與數(shù)據(jù)價值相匹配的存儲設備來進行存儲,將數(shù)據(jù)價值高、經(jīng)常被訪問以及重要程度高的數(shù)據(jù)存儲在高性能的存儲設備中,數(shù)據(jù)價值低、備份數(shù)據(jù)以及重要程度低的數(shù)據(jù)則存儲在低性能的存儲設備中,基于此就需要對數(shù)據(jù)價值進行準確判定才能保證數(shù)據(jù)分級存儲有效性。江菲[2]等提出的數(shù)據(jù)價值評估模型從靜態(tài)因素以及動態(tài)因素多指標考慮,相較于基于頻率評估數(shù)據(jù)遷移結果準確率有明顯提升,但該數(shù)據(jù)模型中未考慮到數(shù)據(jù)業(yè)務特性,無法滿足不同業(yè)務類別、不同數(shù)據(jù)類型的鐵路建設期數(shù)據(jù)業(yè)務存儲需求;黃冬梅[3]等提出海洋數(shù)據(jù)價值遷移模型綜合考慮了時間屬性、文件大小和海洋數(shù)據(jù)的區(qū)域性等,但要素涉及范圍不夠全面,對數(shù)據(jù)價值判斷準確性有影響;邊根慶[4]等提出的海量數(shù)據(jù)價值評估模型通過多項參數(shù)加權求和實現(xiàn)數(shù)據(jù)價值精確判定,但簡單的疊加求和方法所求得的結果是否準確難以判定。
為了改進上述問題,本文提出一種基于聚類-PSO-RBF神經(jīng)網(wǎng)絡的多維鐵路數(shù)據(jù)價值映射模型。將數(shù)據(jù)量大小、數(shù)據(jù)訪問時間重要性、數(shù)據(jù)訪問頻率重要性、訪問用戶相似度和數(shù)據(jù)業(yè)務價值共同作為判定數(shù)據(jù)價值高低因素,從數(shù)據(jù)自身屬性以及業(yè)務特征、訪問情況、未來被訪問的可能性等方面進行多維度全面衡量數(shù)據(jù)價值,以改進RBF神經(jīng)網(wǎng)絡模型構建數(shù)據(jù)價值判定因素與數(shù)據(jù)價值等級之間的非線性映射關系模型,數(shù)據(jù)價值高低直接對應數(shù)據(jù)分級存儲位置,使得數(shù)據(jù)分級結果更準確。
2.1.1 鐵路建設期數(shù)據(jù)業(yè)務價值指標評價體系
針對當前鐵路建設期數(shù)據(jù)的業(yè)務特點以及存儲需求[5],本文提出三級鐵路建設期數(shù)據(jù)業(yè)務價值指標評價體系,如圖1所示。
圖1 鐵路建設期數(shù)據(jù)業(yè)務價值指標評價體系
從鐵路建設期數(shù)據(jù)屬性特征業(yè)務特征以及屬性特征業(yè)務特征兩方面設置“數(shù)據(jù)創(chuàng)建/訪問指標”定量二級指標以及“數(shù)據(jù)業(yè)務特征指標”、“數(shù)據(jù)組成屬性指標”以及“數(shù)據(jù)保密等級指標”定性二級指標。定性二級指標分別通過專家評價方式法判定數(shù)據(jù)符合的下一級三級指標內容,根據(jù)數(shù)據(jù)類別重要程度對同一二級指標下的各項三級指標賦權值,重要程度越高,權值越大,判定符合的三級指標權值則為相應二級指標結果。
“數(shù)據(jù)創(chuàng)建/訪問指標”下的三級指標,通過訪問日志計算某一時間周期內數(shù)據(jù)所存儲數(shù)據(jù)庫內所有數(shù)據(jù)執(zhí)行“增”、“刪”、“改”、“查”操作行為頻次作為相應的指標結果;“數(shù)據(jù)創(chuàng)建時間指標”計算數(shù)據(jù)創(chuàng)建時間截止到當前時間的時間范圍,分為五個區(qū)間,“5年以上”、“4-5年”、“3-4年”、“2-3年”和“2年以內”,“數(shù)據(jù)庫創(chuàng)建時間指標”根據(jù)區(qū)間范圍設定對應為1-5權值,5年以上權值為“1”,權值越大創(chuàng)建時間截止到當前時間越短,根據(jù)時間范圍計算結果確定的權值作為該項指標結果。
2.1.2 鐵路建設期數(shù)據(jù)業(yè)務價值計算方法
在計算鐵路建設期數(shù)據(jù)業(yè)務價值的過程中,得到鐵路建設期數(shù)據(jù)業(yè)務價值指標評價體系中的各項指標結果后,需要建立各個指標間的關系,確定“數(shù)據(jù)創(chuàng)建/訪問指標”下五項三級指標之間的權重W1,“數(shù)據(jù)創(chuàng)建/訪問指標”、“數(shù)據(jù)業(yè)務特征指標”、“數(shù)據(jù)組成屬性指標”以及“數(shù)據(jù)保密等級指標”四項二級指標之間的權重W2,通過指標所賦權值大小來體現(xiàn)不同指標之間的重要程度差異,同時,將多個指標的綜合評價結果作為最終的鐵路建設期數(shù)據(jù)業(yè)務價值結果,鐵路建設期數(shù)據(jù)業(yè)務價值計算方法的邏輯架構如圖2所示。
圖2 數(shù)據(jù)業(yè)務價值計算方法邏輯架構
1)指標間權重確定方法
“數(shù)據(jù)創(chuàng)建/訪問指標”下的三級指標值均為統(tǒng)計結果,“數(shù)據(jù)業(yè)務特征指標”、“數(shù)據(jù)組成屬性指標”以及“數(shù)據(jù)保密等級指標”值為專家評價結果,針對指標結果性質,本文在確定指標間權重時平衡主觀性與客觀性之間的影響,選用熵值法-優(yōu)序圖組合方式確定鐵路建設期數(shù)據(jù)業(yè)務價值指標評價體系中兩組指標權重,能很好地解決單一權重確定方法主客觀性不能兼顧的問題,結果可靠。
“數(shù)據(jù)創(chuàng)建/訪問指標”下五項三級指標權重W1通過熵值法確定,熵值法[6]根據(jù)指標結果的信息熵確定指標間的權重值,以量化特征的方式保留指標結果數(shù)據(jù)本身的客觀性,能夠更好地體現(xiàn)鐵路建設期數(shù)據(jù)業(yè)務價值指標評價體系中定量指標結果的數(shù)字特征;“數(shù)據(jù)創(chuàng)建/訪問指標”、“數(shù)據(jù)業(yè)務特征指標”、“數(shù)據(jù)組成屬性指標”以及“數(shù)據(jù)保密等級指標”四項二級指標間權重通W2過優(yōu)序圖法確定,優(yōu)序圖法[7]通過指標重要性專家評價矩陣計算指標權重,適用于通過專家評價方法獲取的數(shù)據(jù),能較好體現(xiàn)評價對象所處的背景條件和評價者意圖。
2)計算鐵路建設期數(shù)據(jù)業(yè)務價值方法
鐵路建設期數(shù)據(jù)業(yè)務價值結果是鐵路建設期數(shù)據(jù)業(yè)務價值指標評價體系各項指標結果結合指標權重的綜合評價結果,在本文中提出的三級鐵路建設期數(shù)據(jù)業(yè)務價值指標評價體系中需要兩次計算。
“數(shù)據(jù)創(chuàng)建/訪問指標”下五項三級指標結果與指標權重W1的綜合評價結果是“數(shù)據(jù)創(chuàng)建/訪問指標”結果,結合建設期鐵路數(shù)據(jù)量大、評價指標復雜的特點,選用TOPSIS方法[8]。TOPSIS方法可在具有多個評價指標情況下對不同方案進行綜合評估比較,在指標多少、樣本含量和數(shù)據(jù)分布等方面都沒有嚴格的限制和要求,且能夠實現(xiàn)不同評價指標在同一方案之間橫向比較和同一評價指標在不同方案間縱向比較;四項二級特征指標結果與指標權重W2通過加權求和綜合評價法計算得到最終數(shù)據(jù)業(yè)務價值結果。
為了更精準地判定鐵路建設期數(shù)據(jù)價值,從數(shù)據(jù)被訪問情況、被訪問可能性以及自身業(yè)務特征角度,本文提出從數(shù)據(jù)量大小、數(shù)據(jù)訪問時間重要性、數(shù)據(jù)訪問頻率重要性、數(shù)據(jù)訪問用戶相似度和數(shù)據(jù)業(yè)務價值五個方面判定鐵路建設期數(shù)據(jù)價值[9]。
1)數(shù)據(jù)量大小因素S(X)
對于數(shù)據(jù)分級存儲系統(tǒng),為節(jié)約存儲成本,高性能存儲設備容量相對于其它存儲設備來說是最小的,若將數(shù)據(jù)量較大的數(shù)據(jù)存儲在高性能存儲設備中,占用存儲空間較大同時存儲成本較高,將有可能導致數(shù)據(jù)量較小而且重要的數(shù)據(jù)無法及時被訪問,造成高性能存儲設備資源浪費。將數(shù)據(jù)量大小S(X)作為數(shù)據(jù)綜合價值判定因素之一。數(shù)據(jù)量較小的數(shù)據(jù)價值相對較高,應優(yōu)先考慮將數(shù)據(jù)量較小的數(shù)據(jù)存儲在高性能存儲設備,數(shù)據(jù)量較大的數(shù)據(jù)更適合存儲在存儲容量充足的低性能存儲設備。
2)數(shù)據(jù)訪問時間重要性因素T(X)
用戶對于數(shù)據(jù)的訪問情況從訪問時間的角度考慮具有一定規(guī)律,一般最新創(chuàng)建或最近被頻繁訪問過的數(shù)據(jù)在未來短時間內再次被訪問的可能性更大,數(shù)據(jù)在這段時間內重要程度比較高,該數(shù)據(jù)的數(shù)據(jù)價值也會隨之提高,應優(yōu)先考慮將此類數(shù)據(jù)存儲在高性能存儲設備;相反,數(shù)據(jù)在被訪問過后未被訪問的時間間隔逐漸拉長,數(shù)據(jù)被重新訪問的可能性也會隨之降低,數(shù)據(jù)價值以及重要程度就會隨之降低,在這種情況下就需要將數(shù)據(jù)存儲到低性能的存儲設備。因此,數(shù)據(jù)被訪問的時間間隔可作為數(shù)據(jù)綜合價值判定因素之一。
在某一特定周期下,數(shù)據(jù)每次被訪問和修改的時間集合為{t1,t2,…,tn},當前時間是t,時間集合內的時間點距離當前時間的間隔為{t-t1,t-t2,…,t-tn},設以上時間段為{T1,T2,…,Tn},則計算數(shù)據(jù)X的訪問時間重要性因素T(X)如式(1)所示。
(1)
3)數(shù)據(jù)訪問頻率重要性因素F(X)
數(shù)據(jù)訪問頻率可以理解為橫坐標為時間、縱坐標為數(shù)據(jù)訪問次數(shù)的二維坐標圖的斜率,斜率在一定程度上能夠預示圖形未來短時間內的變化趨勢。在一段時間內,數(shù)據(jù)訪問頻率變化成正相關,則該數(shù)據(jù)在未來短時間內訪問次數(shù)依舊持續(xù)增加的可能性比較大,數(shù)據(jù)綜合價值及重要性也相對提高,這樣的數(shù)據(jù)應優(yōu)先考慮存儲在高性能存儲設備。因此,可將數(shù)據(jù)訪問頻率重要性作為判定數(shù)據(jù)綜合價值高低的因素之一。計算數(shù)據(jù)X的訪問頻率重要性因素F(X)如式(2)所示。在某一特定時間周期內包含N個Tk時間段,每個Tk時間段內數(shù)據(jù)訪問頻率為fk,在Tk-Tk-1時間段內數(shù)據(jù)訪問頻率的變化趨勢為fk-fk-1,N個時間段數(shù)據(jù)訪問頻率變化的代數(shù)和即數(shù)據(jù)訪問頻率重要性因素。
(2)
4)數(shù)據(jù)訪問用戶相似度因素H(X)
通過計算所有訪問過數(shù)據(jù)X用戶的相似用戶個數(shù)之和能夠預測數(shù)據(jù)在未來短時間內被更多用戶訪問的可能性以及可增加的數(shù)據(jù)訪問量,相似性較高的用戶,具有較為相似的用戶習慣和興趣,訪問過數(shù)據(jù)X用戶的相似用戶越多,則數(shù)據(jù)被更多用戶訪問的可能性也就越高,可增加的數(shù)據(jù)潛在訪問量也就越多,則數(shù)據(jù)價值以及重要性就越高,應優(yōu)先考慮存儲在高性能存儲設備。
(3)
計算數(shù)據(jù)X的訪問用戶相似度因素H(X)需要遍歷訪問過數(shù)據(jù)X的用戶以及沒有訪問過數(shù)據(jù)X的用戶,多次重復計算一個訪問過數(shù)據(jù)X用戶與一個未訪問過數(shù)據(jù)X的用戶之間的相似度,計算數(shù)據(jù)X的訪問用戶相似度因素H(X)具體計算步驟如下所示:
1)設訪問過數(shù)據(jù)X的用戶集合用U來表示,未訪問過數(shù)據(jù)X的用戶集合用V來表示,則有U={u1,u2,…,ui,…,un},V={v1,v2,…,vj,…,vm},式中:n和m為各自集合內用戶的數(shù)量。
2)循環(huán)逐一取出用戶集合U、V中的用戶,通過式(3)分別計算計算一個集合U中用戶和一個集合V中用戶兩兩之間的相似度S,最終得到相似矩陣如式(4)所示。
(4)
式中:i∈[1,n],j∈[1,m]。
4)避免訪問過數(shù)據(jù)X用戶集的相似用戶集合可能包含有相同的用戶,重復的用戶應只計算一次,則計算數(shù)據(jù)X的訪問用戶相似度因素H(X)如式(5)所示。
(5)
5)數(shù)據(jù)業(yè)務價值因素P(X)
鐵路建設期數(shù)據(jù)的業(yè)務價值體現(xiàn)了數(shù)據(jù)在業(yè)務方面的重要程度,同時數(shù)據(jù)業(yè)務特征對數(shù)據(jù)存儲有特殊的存儲需求,在一定程度上也影響了數(shù)據(jù)存儲級別的選擇。因此,將數(shù)據(jù)業(yè)務價值作為判定數(shù)據(jù)綜合價值的一項因素,鐵路數(shù)據(jù)業(yè)務價值計算方法如1.1.2節(jié)所示。
RBF神經(jīng)網(wǎng)絡包含輸入層、隱含層和輸出層三層結構,對于非線性函數(shù)具有較強的逼近能力,且具有結構簡單、收斂速度快的特點。利用RBF神經(jīng)網(wǎng)絡的自學習功能,在提供神經(jīng)網(wǎng)絡輸入、輸出的前提下,確定數(shù)據(jù)價值判定因素與數(shù)據(jù)價值高低等級之間的非線性映射關系,構建多維鐵路建設期數(shù)據(jù)綜合價值映射模型,拓撲結構如圖3所示。以5個數(shù)據(jù)價值判定因素作為網(wǎng)絡的輸入向量,以數(shù)據(jù)價值等級作為RBF神經(jīng)網(wǎng)絡的輸出,設置數(shù)據(jù)價值高等級標簽為“1”、中等級標簽為“2”、低等級標簽為“3”。
圖3 RBF網(wǎng)絡拓撲結構
網(wǎng)絡隱含層為高斯徑向基層,隱含層神經(jīng)元的激活函數(shù)φ(X,Cj)如式(6)所示[10]。
(6)
網(wǎng)絡隱含層與輸出層以權值矩陣W連接,在RBF神經(jīng)網(wǎng)絡訓練過程中采取梯度下降法調節(jié)C、b和W,但此算法易陷入局部最小值[11]。為提高RBF神經(jīng)網(wǎng)絡收斂性,保證神經(jīng)網(wǎng)絡輸出結果的準確性,本文引入粒子群算法(PSO)以及聚類方法,通過聚類方法確定RBF的隱層神經(jīng)元徑向基函數(shù)中心向量C以及擴展常數(shù)b,利用PSO算法選擇隱含層到輸出層之間的最佳權值矩陣W,以獲得最優(yōu)神經(jīng)網(wǎng)絡模型。
粒子群優(yōu)化算法(PSO)具有全局收斂性,在RBF神經(jīng)網(wǎng)絡發(fā)揮泛化映射性的基礎上,能夠提高網(wǎng)絡的自學能力以及有效性。
PSO算法是在D維空間下n個粒子尋找最優(yōu)解的過程,在每次迭代中更新粒子適應度函數(shù)個體最優(yōu)值Pbest和全局最優(yōu)值Gbest追蹤當前最優(yōu)粒子,根據(jù)式(7)和式(8)來更新粒子的速度和位置。
(8)
通過PSO算法確定RBF神經(jīng)網(wǎng)絡隱含層到輸出層之間的權值矩陣W,PSO算法的評價函數(shù)如式(9)所示。
(9)
圖4 基于聚類-PSO-RBF神經(jīng)網(wǎng)絡的鐵路數(shù)據(jù)價值映射模型算法流程
本文設計了驗證聚類-PSO-RBF神經(jīng)網(wǎng)絡模型結果的準確性實驗,以當前真實存儲的鐵路建設期結構化數(shù)據(jù)作為實驗數(shù)據(jù),包含了28個鐵路建設期數(shù)據(jù)相關業(yè)務系統(tǒng)的數(shù)據(jù)庫以及其中的721張數(shù)據(jù)表,以一張數(shù)據(jù)表作為一個數(shù)據(jù)單位,模擬數(shù)據(jù)表訪問記錄、構造RBF神經(jīng)網(wǎng)絡模型數(shù)據(jù)集、分析聚類-PSO-RBF神經(jīng)網(wǎng)絡映射模型結果。
3.1.1 模擬數(shù)據(jù)表訪問記錄
參考數(shù)據(jù)存儲系統(tǒng)的數(shù)據(jù)訪問日志內容,針對721張數(shù)據(jù)表模擬生成隨機數(shù)量的訪問記錄,構成原始數(shù)據(jù)集如表1所示。
表1 訪問記錄原始數(shù)據(jù)集
每條記錄包含了被訪問數(shù)據(jù)的數(shù)據(jù)庫名稱、數(shù)據(jù)表名稱、訪問用戶IP地址、訪問時間、訪問操作以及執(zhí)行訪問操作后的數(shù)據(jù)表大小,設定訪問IP地址范圍從“192.**.**.1”-“192.**.**.20”,訪問時間為“2022.04.01”-“2022.04.30”這一周期內任一時刻,訪問操作存在“add”、“delete”、“select”和“update”四種操作,執(zhí)行訪問操作后的數(shù)據(jù)表大小以MB為單位。每一張數(shù)據(jù)表的訪問記錄均大于10條,共生成了7583條訪問記錄,
3.1.2 構造RBF神經(jīng)網(wǎng)絡模型數(shù)據(jù)集
基于鐵路建設期數(shù)據(jù)模擬生成的數(shù)據(jù)表訪問記錄,根據(jù)各數(shù)據(jù)價值判定因素計算公式,計算出每張數(shù)據(jù)表2022年4月這一周期內的數(shù)據(jù)量大小、數(shù)據(jù)訪問時間重要性、數(shù)據(jù)訪問頻率重要性因和數(shù)據(jù)訪問用戶相似度五項因素結果,通過三級指標體系專家評價結果計算數(shù)據(jù)表業(yè)務價值,將數(shù)據(jù)價值判定因素結果作為RBF神經(jīng)網(wǎng)絡模型的輸入;同時將每張數(shù)據(jù)表專家評價數(shù)據(jù)價值等級作為RBF神經(jīng)網(wǎng)絡模型的輸出,構成鐵路建設期數(shù)據(jù)價值映射模型訓練數(shù)據(jù)集。
本文設計了四組對比實驗,梯度下降-RBF神經(jīng)網(wǎng)絡、聚類-RBF神經(jīng)網(wǎng)絡、RBF工具箱神經(jīng)網(wǎng)絡以及聚類-PSO-RBF神經(jīng)網(wǎng)絡分別作為鐵路建設期數(shù)據(jù)價值映射模型,721組樣本數(shù)據(jù)中,隨機選擇其中500組數(shù)據(jù)為訓練集,剩下的221組為測試集,驗證訓練模型的有效性。聚類-PSO-RBF神經(jīng)網(wǎng)絡作為鐵路建設期數(shù)據(jù)價值映射模型多次測試集分級準確率平均能達到95%以上,最優(yōu)分級準確率能達到99%以上,四組對比實驗判定數(shù)據(jù)各存儲級別準確率如表2所示。
表2 四組對比試驗數(shù)據(jù)分級結果準確率
四組對比實驗測試集數(shù)據(jù)標簽結果以及實際網(wǎng)絡輸出結果散點圖如圖5-圖8所示。
圖5 梯度下降-RBF神經(jīng)網(wǎng)絡模型輸出結果
圖6 聚類-RBF神經(jīng)網(wǎng)絡模型輸出結果
圖7 ToolBox-RBF神經(jīng)網(wǎng)絡模型輸出結果
圖8 聚類-PSO-RBF神經(jīng)網(wǎng)絡模型輸出結果
針對當前基于數(shù)據(jù)價值的數(shù)據(jù)分級存儲模型存儲模型簡化、因素不全面等問題,本文提出了一種基于聚類-PSO-RBF神經(jīng)網(wǎng)絡的多維鐵路數(shù)據(jù)價值映射模型。從數(shù)據(jù)量大小、數(shù)據(jù)訪問時間重要性、數(shù)據(jù)訪問頻率重要性、數(shù)據(jù)訪問用戶相似度和數(shù)據(jù)業(yè)務價多維度衡量數(shù)據(jù)價值,選用RBF神經(jīng)網(wǎng)絡、引入聚類方法、PSO算法優(yōu)化RBF神經(jīng)網(wǎng)絡模型參數(shù)選擇,構建數(shù)據(jù)價值判定因素與數(shù)據(jù)價值高低等級之間的映射關系模型。實驗結果表明,基于聚類-PSO-RBF神經(jīng)網(wǎng)絡的多維數(shù)據(jù)價值映射模型能準確判定數(shù)據(jù)價值高低,對實現(xiàn)鐵路建設期數(shù)據(jù)分級存儲十分有意義。