張 平,關麗紅
(長春大學理學院,吉林 長春 130022)
數(shù)據(jù)處理技術[1]迅猛發(fā)展,待處理數(shù)據(jù)規(guī)模日益龐大,在初始數(shù)據(jù)內(nèi)挖掘出所需信息的有效手段逐漸增多,已成為數(shù)據(jù)處理技術的一個主要研究方向[2]。數(shù)據(jù)挖掘技術與統(tǒng)計分析息息相關,只有經(jīng)過數(shù)據(jù)分析,才能發(fā)現(xiàn)數(shù)據(jù)之間隱藏的關系與模式。該項技術作為應用策略之一,其數(shù)據(jù)間具有一種獨有的關聯(lián)規(guī)則,此類數(shù)據(jù)統(tǒng)稱為關聯(lián)數(shù)據(jù)[3,4]。為拓寬關聯(lián)數(shù)據(jù)挖掘技術的應用領域,相關研究領域的眾多專家與學者對其展開了深入探索。
例如,部分學者通過建立強關聯(lián)規(guī)則,經(jīng)選擇、交叉、變異等操作,結合信息增益建立決策樹挖掘模型,運用該模型實現(xiàn)關聯(lián)數(shù)據(jù)挖掘;部分學者通過數(shù)據(jù)處理層、挖掘層、儲存層以及查詢層構建硬件部分,結合數(shù)據(jù)量化、子集抽取以及模糊聚類等軟件程序,建立漏洞信息數(shù)據(jù)挖掘系統(tǒng)。除上述方法外,文獻[5]在關聯(lián)規(guī)則中添加改進遺傳算法,基于此,通過引入親密度來構建一種數(shù)據(jù)挖掘方法。但是,以往的數(shù)據(jù)挖掘方法通常是靜態(tài)挖掘已有的歷史數(shù)據(jù),無法滿足實時獲取的應用需求,因此,本文以挖掘領域中最基礎、最關鍵的統(tǒng)計策略為基礎,架構出基于概率統(tǒng)計的多維關聯(lián)數(shù)據(jù)動態(tài)挖掘方法。構建的非參數(shù)概率統(tǒng)計模型基礎是核密度估計,有助于互補參數(shù)化與非參數(shù)化優(yōu)劣勢,提升少樣本數(shù)據(jù)的概率密度預估準確度;根據(jù)參數(shù)設置原則,合理設置模型參數(shù),使概率統(tǒng)計模型性能得到最大化發(fā)揮;提取多維關聯(lián)數(shù)據(jù)之間的關聯(lián)規(guī)則,增加多維關聯(lián)數(shù)據(jù)動態(tài)挖掘的有效性。
假定任意采集到的獨立樣本集合為{X1,X2,…,Xn},樣本數(shù)量是n,且服從某未知概率密度f(x)分布,則引入核密度估計[6]的非參數(shù)概率密度預估界定表達式如下所示
(1)
由上式推導出
(2)
其中,核函數(shù)與窗寬分別是K(z)、h,且h>0,對概率密度預估平滑度起著決定性作用。
根據(jù)核密度估計理念下的非參數(shù)概率密度預估方法,結合實際的數(shù)據(jù)分布先驗知識,建立一種以提升少樣本數(shù)據(jù)的概率密度預估準確度為目標,互補參數(shù)化與非參數(shù)化優(yōu)劣勢的半?yún)?shù)化概率密度預估模型。
(x)=r(x)*f(x,)
(3)
依據(jù)式(3)所示的理想修正因子形式,通過核密度估計的概率密度預估方法,完成非參數(shù)化修正因子r(x)預估的界定,表達式如下所示
(4)
(5)
基于式(4)的界定公式,構建出下列基于核密度估計的半?yún)?shù)化概率密度預估模型
(6)
為使概率統(tǒng)計模型性能最大化,依據(jù)設計的半?yún)?shù)化概率密度預估模型,結合以下參數(shù)設置原則,合理設置模型參數(shù):
1)利用積分均方誤差算法[7],最小化窗寬h的最佳值,計算公式如下所示
(7)
2)若式(6)中的f(Xi,)≈0或與f(x,)的差值較大,則分式的值對概率密度預估結果有直接影響,因此,利用下列截斷表達式,令分式值局限在0.1到10以內(nèi):
(8)
為有效實現(xiàn)多維關聯(lián)數(shù)據(jù)的動態(tài)挖掘,需先挖掘出多維關聯(lián)數(shù)據(jù)之間的關聯(lián)規(guī)則,規(guī)則提取通過改進的遺傳優(yōu)化算法[8]完成,具體流程描述如下:
1)令初始種群隨機產(chǎn)生,得到種群P={A1,A2,…,Am};
2)基于種群P={A1,A2,…,Am},獲取使用者預設的支持度與置信度極小值,分別為smin、cmin;
3)利用下列計算公式求解種群P={A1,A2,…,Am}所含個體的適應度值:
(9)
4)根據(jù)解得的個體濃度dj與選擇概率
5)完成當前種群內(nèi)所有個體至交配池的復制;
6)在交配池里任意選取到個體A′、A″,采用下式任意動態(tài)選擇到的交叉概率,完成交叉操作
(10)
7)利用任意動態(tài)選擇到的變異概率,完成變異操作
(11)
8)當符合遺傳優(yōu)化算法停止迭代的條件時,運算停止;反之,則返回第3)步,開始新一周期的循環(huán)計算;
9)根據(jù)解得的置信度,提取出多維關聯(lián)數(shù)據(jù)之間的關聯(lián)規(guī)則。
將滑動窗口設定成動態(tài)采集窗口,以平滑地動態(tài)采集多維關聯(lián)數(shù)據(jù)?;瑒哟翱诘膬蓚€相關界定條件描述如下:
1)對于多維關聯(lián)的動態(tài)數(shù)據(jù)源,已知標識號是i∈Z+的數(shù)據(jù)di,根據(jù)數(shù)據(jù)形成時長,劃分為τ規(guī)格窗口的數(shù)據(jù)段Dk,其中,k∈N,τ表示時段,同時也指代數(shù)據(jù)的門限值[9],因此,各數(shù)據(jù)段均是一個數(shù)據(jù)窗口;
2)ω是一個給定正數(shù),滿足ω=τn,當ω規(guī)格的窗口在T時間時,出現(xiàn)數(shù)據(jù)段集合D={D1,D2,…,Dn},且每間隔τ時段,窗口就會向前運動,步長是s個數(shù)據(jù)窗口,則該窗口就是滑動窗口。
圖1展示的是多維關聯(lián)數(shù)據(jù)的滑動窗口動態(tài)采集過程,將兩個數(shù)據(jù)窗口作為滑動窗口規(guī)格,移動步長設定成每次一個窗口。
圖1 滑動窗口動態(tài)采集過程示意圖
為避免忽略邊界數(shù)據(jù),利用疊加窗口方法設計一種動態(tài)窗口,完成數(shù)據(jù)的實時動態(tài)處理。給定有限數(shù)據(jù)集Z={Z1,Z2,…,Zn},Z?RC,將其分類成數(shù)量為(2k-1)的數(shù)據(jù)窗口,令窗口i與i+1局部疊加,反復求解重合區(qū)域的邊界數(shù)據(jù),逐個窗口完成處理直至結束。該方法使密度點的選擇貢獻值全部相同,并有助于減小k值對密度點的影響。
將動態(tài)窗口規(guī)格界定為sτ,按照表1所示的窗口分類條件,劃分多維關聯(lián)的動態(tài)數(shù)據(jù)源,以處理所有數(shù)據(jù)di。
表1 動態(tài)數(shù)據(jù)源窗口分類條件
在數(shù)據(jù)窗口不斷向前運動的過程中,基于數(shù)據(jù)流特征,采用設計的動態(tài)窗口,按照以下流程完成數(shù)據(jù)的實時動態(tài)處理:
1)針對滑動窗口采集到的m維流式數(shù)據(jù)序列{x1,x2,…,xi,…}與數(shù)據(jù)處理窗口時間序列{t1,t2,…,ti,…},根據(jù)滑動窗口的兩個相關界定條件,推動出下列表達式
(12)
2)令數(shù)據(jù)集滿足下列等式
xi={D(i-1)*s+k|0 (13) 3)設定2τs為動態(tài)窗口規(guī)格,v=τs; 4)先后在流式數(shù)據(jù)集xi、xi∩xi+1以及xi+1內(nèi),分別提取出特征項; 5)逐個窗口進行處理,去除重復特征項,發(fā)送處理結果至目標數(shù)據(jù)集。 假設θτ(θ∈R+)表示時間門限值,每當?shù)竭_該時間門限值時,動態(tài)挖掘便運行一次,且需要于下個運行周期開始前結束挖掘。 在動態(tài)挖掘目標數(shù)據(jù)集的過程中,利用K標號方法標識使用的數(shù)據(jù),實現(xiàn)動態(tài)控制目標數(shù)據(jù),解決處理后、未處理以及目標數(shù)據(jù)間的平滑問題。 針對已知目標數(shù)據(jù)集TDS={TD1,TD2,…,TDj},其中,j∈N,0是其初始標識號碼,在每次實施動態(tài)挖掘后,都要在目標數(shù)據(jù)TDi的標號數(shù)值上做加一處理,待標號增加至K(K∈N)后,處理操作停止。動態(tài)挖掘的每次運行均采用比K小的標號數(shù)值數(shù)據(jù)。 選取某市區(qū)五個交警大隊半年內(nèi)的道路交通事故數(shù)據(jù)作為挖掘目標,利用本文構建的動態(tài)挖掘模型分析事故屬性數(shù)據(jù),提取出潛在關聯(lián)規(guī)則,獲取實驗結論。 表2所示為多維關聯(lián)數(shù)據(jù)動態(tài)挖掘方法的開發(fā)環(huán)境與運行環(huán)境軟硬件相關參數(shù)。 表2 挖掘方法仿真環(huán)境參數(shù)配置 根據(jù)事故成因,將道路交通事故進行分類,利用由美國flexsim公司開發(fā)的FlexSim仿真軟件[10],繪制出圖2所示的道路交通事故類別及其對應數(shù)量。 圖2 道路交通事故類別及其對應發(fā)生數(shù)量 以違章變更車道為例,在設定支持度閾值與置信度閾值的極小值后,挖掘與該事故成因類別存在關聯(lián)的多維數(shù)據(jù)相關規(guī)則。部分關聯(lián)規(guī)則描述如下,其中,括號中數(shù)據(jù)分別表示各關聯(lián)規(guī)則的支持度與置信度,用于反映該條關聯(lián)規(guī)則的必要性與可用性: 1)道路因素+時間因素:混合式橫斷面與主干路(5.48%,42.65%);四岔口路段(6.23%,38.11%);瀝青路面、混合式橫斷面、日間時段、無信號燈(10.31%,40.38%); 2)道路因素+天氣因素+時間因素:晴天、平原地形、混合式橫斷面、日間時段、直行線路、無信號燈(8.76%,41.98%);陰天;瀝青路面、混合式橫斷面、日間時段(9.37%,35.61%);霧天、平坦路面、混合式橫斷面、夜間時段、直行線路、無信號燈(7.56%,39.74%);雨天、平原地形、混合式橫斷面、日間時段、彎曲線路、無信號燈(10.31%,42.18%); 3)道路因素+時間因素+駕駛員因素:主干路、混合式橫斷面、日間時段、無信號燈、無證駕駛(12.16%,44.65%);平坦路面、混合式橫斷面、夜間時段、疲勞駕駛(12.75%,43.49%);瀝青路面、混合式橫斷面、日間時段、彎曲線路、無信號燈、醉酒駕駛(11.68%,43.57%)。 基于得到的多維數(shù)據(jù)關聯(lián)規(guī)則,從直行與彎曲道路類型、不同天氣狀況的月統(tǒng)計周期數(shù)據(jù)以及不同時段的事故數(shù)量中,動態(tài)挖掘多維關聯(lián)數(shù)據(jù),并將其與實際事故發(fā)生數(shù)據(jù)作對比,如圖3所示。 根據(jù)圖3中動態(tài)挖掘到的事故數(shù)據(jù)可以看出:在直行、晴天等視野更好的行車環(huán)境中,駕駛員更容易麻痹大意,導致直行與晴天條件下的道路交通事故發(fā)生頻率高于其它情況,從事故發(fā)生時段來講,午后發(fā)生頻率更高,尤其是疲憊感劇增的傍晚時段,肇事死亡率較大;通過對比事故的實際發(fā)生次數(shù),顯而易見,本文方法能夠有效挖掘出所需的多維關聯(lián)數(shù)據(jù),且具有較為理想的精準度,究其原因是半?yún)?shù)化概率密度預估模型的構建目標是提升少樣本數(shù)據(jù)的概率密度預估準度,利用遺傳優(yōu)化算法,提取到了多維關聯(lián)數(shù)據(jù)之間的關聯(lián)規(guī)則,通過滑動窗口動態(tài)采集、疊加窗口動態(tài)處理,結合時間門限值與K標號方法,實現(xiàn)動態(tài)控制、挖掘目標數(shù)據(jù)。 在大數(shù)據(jù)中發(fā)現(xiàn)可用信息的處理過程就是數(shù)據(jù)挖掘,該項技術已隨著網(wǎng)絡技術的發(fā)展演變成了學術界的主要課題,并在保險、醫(yī)療、電信、金融等現(xiàn)代社會的諸多重要領域中,起著決策與管理的指導作用。不斷更新的數(shù)據(jù)信息對以往的挖掘技術提出了前所未有的巨大挑戰(zhàn),使其無法及時給予有效信息,故利用概率統(tǒng)計方法,動態(tài)挖掘多維關聯(lián)數(shù)據(jù),實現(xiàn)本文的研究目的。概率統(tǒng)計作為數(shù)據(jù)挖掘的關鍵環(huán)節(jié),需做深入的理論知識研究,使概率統(tǒng)計方法與數(shù)據(jù)動態(tài)挖掘技術更有效地結合;需嘗試利用開環(huán)分類學習系統(tǒng),通過逆向反饋流程,檢驗、明確反饋效果,實現(xiàn)適應性調(diào)整,提升模型學習效率;由于提取到的關聯(lián)規(guī)則以支持度與置信度為基礎,存在使用者不感興趣的規(guī)則,為解決該問題,應將興趣度添加作為下一階段的研究側重點,令得到的關聯(lián)規(guī)則更具實用性。3.4 多維關聯(lián)數(shù)據(jù)動態(tài)挖掘
4 多維關聯(lián)數(shù)據(jù)動態(tài)挖掘仿真
4.1 仿真環(huán)境配置
4.2 多維關聯(lián)數(shù)據(jù)動態(tài)挖掘
5 結論