亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于概率統(tǒng)計的多維關聯(lián)數(shù)據(jù)動態(tài)挖掘仿真

2022-04-19 00:47:02關麗紅

計算機仿真 2022年3期

張平，關麗紅

(長春大學理學院，吉林長春 130022)

1 引言

數(shù)據(jù)處理技術[1]迅猛發(fā)展，待處理數(shù)據(jù)規(guī)模日益龐大，在初始數(shù)據(jù)內(nèi)挖掘出所需信息的有效手段逐漸增多，已成為數(shù)據(jù)處理技術的一個主要研究方向[2]。數(shù)據(jù)挖掘技術與統(tǒng)計分析息息相關，只有經(jīng)過數(shù)據(jù)分析，才能發(fā)現(xiàn)數(shù)據(jù)之間隱藏的關系與模式。該項技術作為應用策略之一，其數(shù)據(jù)間具有一種獨有的關聯(lián)規(guī)則，此類數(shù)據(jù)統(tǒng)稱為關聯(lián)數(shù)據(jù)[3，4]。為拓寬關聯(lián)數(shù)據(jù)挖掘技術的應用領域，相關研究領域的眾多專家與學者對其展開了深入探索。

例如，部分學者通過建立強關聯(lián)規(guī)則，經(jīng)選擇、交叉、變異等操作，結合信息增益建立決策樹挖掘模型，運用該模型實現(xiàn)關聯(lián)數(shù)據(jù)挖掘；部分學者通過數(shù)據(jù)處理層、挖掘層、儲存層以及查詢層構建硬件部分，結合數(shù)據(jù)量化、子集抽取以及模糊聚類等軟件程序，建立漏洞信息數(shù)據(jù)挖掘系統(tǒng)。除上述方法外，文獻[5]在關聯(lián)規(guī)則中添加改進遺傳算法，基于此，通過引入親密度來構建一種數(shù)據(jù)挖掘方法。但是，以往的數(shù)據(jù)挖掘方法通常是靜態(tài)挖掘已有的歷史數(shù)據(jù)，無法滿足實時獲取的應用需求，因此，本文以挖掘領域中最基礎、最關鍵的統(tǒng)計策略為基礎，架構出基于概率統(tǒng)計的多維關聯(lián)數(shù)據(jù)動態(tài)挖掘方法。構建的非參數(shù)概率統(tǒng)計模型基礎是核密度估計，有助于互補參數(shù)化與非參數(shù)化優(yōu)劣勢，提升少樣本數(shù)據(jù)的概率密度預估準確度；根據(jù)參數(shù)設置原則，合理設置模型參數(shù)，使概率統(tǒng)計模型性能得到最大化發(fā)揮；提取多維關聯(lián)數(shù)據(jù)之間的關聯(lián)規(guī)則，增加多維關聯(lián)數(shù)據(jù)動態(tài)挖掘的有效性。

2 概率統(tǒng)計模型

假定任意采集到的獨立樣本集合為{X1，X2，…，Xn}，樣本數(shù)量是n，且服從某未知概率密度f(x)分布，則引入核密度估計[6]的非參數(shù)概率密度預估界定表達式如下所示

(1)

由上式推導出

(2)

其中，核函數(shù)與窗寬分別是K(z)、h，且h>0，對概率密度預估平滑度起著決定性作用。

根據(jù)核密度估計理念下的非參數(shù)概率密度預估方法，結合實際的數(shù)據(jù)分布先驗知識，建立一種以提升少樣本數(shù)據(jù)的概率密度預估準確度為目標，互補參數(shù)化與非參數(shù)化優(yōu)劣勢的半?yún)?shù)化概率密度預估模型。

(x)=r(x)*f(x，)

(3)

依據(jù)式(3)所示的理想修正因子形式，通過核密度估計的概率密度預估方法，完成非參數(shù)化修正因子r(x)預估的界定，表達式如下所示

(4)

(5)

基于式(4)的界定公式，構建出下列基于核密度估計的半?yún)?shù)化概率密度預估模型

(6)

為使概率統(tǒng)計模型性能最大化，依據(jù)設計的半?yún)?shù)化概率密度預估模型，結合以下參數(shù)設置原則，合理設置模型參數(shù)：

1)利用積分均方誤差算法[7]，最小化窗寬h的最佳值，計算公式如下所示

(7)

2)若式(6)中的f(Xi，)≈0或與f(x，)的差值較大，則分式的值對概率密度預估結果有直接影響，因此，利用下列截斷表達式，令分式值局限在0.1到10以內(nèi)：

(8)

3 基于概率統(tǒng)計的多維關聯(lián)數(shù)據(jù)動態(tài)挖掘

3.1 多維關聯(lián)數(shù)據(jù)挖掘規(guī)則

為有效實現(xiàn)多維關聯(lián)數(shù)據(jù)的動態(tài)挖掘，需先挖掘出多維關聯(lián)數(shù)據(jù)之間的關聯(lián)規(guī)則，規(guī)則提取通過改進的遺傳優(yōu)化算法[8]完成，具體流程描述如下：

1)令初始種群隨機產(chǎn)生，得到種群P={A1，A2，…，Am}；

2)基于種群P={A1，A2，…，Am}，獲取使用者預設的支持度與置信度極小值，分別為smin、cmin；

3)利用下列計算公式求解種群P={A1，A2，…，Am}所含個體的適應度值：

(9)

4)根據(jù)解得的個體濃度dj與選擇概率

5)完成當前種群內(nèi)所有個體至交配池的復制；

6)在交配池里任意選取到個體A′、A″，采用下式任意動態(tài)選擇到的交叉概率，完成交叉操作

(10)

7)利用任意動態(tài)選擇到的變異概率，完成變異操作

(11)

8)當符合遺傳優(yōu)化算法停止迭代的條件時，運算停止；反之，則返回第3)步，開始新一周期的循環(huán)計算；

9)根據(jù)解得的置信度，提取出多維關聯(lián)數(shù)據(jù)之間的關聯(lián)規(guī)則。

3.2 多維關聯(lián)數(shù)據(jù)動態(tài)采集

將滑動窗口設定成動態(tài)采集窗口，以平滑地動態(tài)采集多維關聯(lián)數(shù)據(jù)?；瑒哟翱诘膬蓚€相關界定條件描述如下：

1)對于多維關聯(lián)的動態(tài)數(shù)據(jù)源，已知標識號是i∈Z+的數(shù)據(jù)di，根據(jù)數(shù)據(jù)形成時長，劃分為τ規(guī)格窗口的數(shù)據(jù)段Dk，其中，k∈N，τ表示時段，同時也指代數(shù)據(jù)的門限值[9]，因此，各數(shù)據(jù)段均是一個數(shù)據(jù)窗口；

2)ω是一個給定正數(shù)，滿足ω=τn，當ω規(guī)格的窗口在T時間時，出現(xiàn)數(shù)據(jù)段集合D={D1，D2，…，Dn}，且每間隔τ時段，窗口就會向前運動，步長是s個數(shù)據(jù)窗口，則該窗口就是滑動窗口。

圖1展示的是多維關聯(lián)數(shù)據(jù)的滑動窗口動態(tài)采集過程，將兩個數(shù)據(jù)窗口作為滑動窗口規(guī)格，移動步長設定成每次一個窗口。

圖1 滑動窗口動態(tài)采集過程示意圖

3.3 多維關聯(lián)數(shù)據(jù)動態(tài)處理

為避免忽略邊界數(shù)據(jù)，利用疊加窗口方法設計一種動態(tài)窗口，完成數(shù)據(jù)的實時動態(tài)處理。給定有限數(shù)據(jù)集Z={Z1，Z2，…，Zn}，Z?RC，將其分類成數(shù)量為(2k-1)的數(shù)據(jù)窗口，令窗口i與i+1局部疊加，反復求解重合區(qū)域的邊界數(shù)據(jù)，逐個窗口完成處理直至結束。該方法使密度點的選擇貢獻值全部相同，并有助于減小k值對密度點的影響。

將動態(tài)窗口規(guī)格界定為sτ，按照表1所示的窗口分類條件，劃分多維關聯(lián)的動態(tài)數(shù)據(jù)源，以處理所有數(shù)據(jù)di。

表1 動態(tài)數(shù)據(jù)源窗口分類條件

在數(shù)據(jù)窗口不斷向前運動的過程中，基于數(shù)據(jù)流特征，采用設計的動態(tài)窗口，按照以下流程完成數(shù)據(jù)的實時動態(tài)處理：

1)針對滑動窗口采集到的m維流式數(shù)據(jù)序列{x1，x2，…，xi，…}與數(shù)據(jù)處理窗口時間序列{t1，t2，…，ti，…}，根據(jù)滑動窗口的兩個相關界定條件，推動出下列表達式

(12)

2)令數(shù)據(jù)集滿足下列等式

xi={D(i-1)*s+k|0

(13)

3)設定2τs為動態(tài)窗口規(guī)格，v=τs；

4)先后在流式數(shù)據(jù)集xi、xi∩xi+1以及xi+1內(nèi)，分別提取出特征項；

5)逐個窗口進行處理，去除重復特征項，發(fā)送處理結果至目標數(shù)據(jù)集。

3.4 多維關聯(lián)數(shù)據(jù)動態(tài)挖掘

假設θτ(θ∈R+)表示時間門限值，每當?shù)竭_該時間門限值時，動態(tài)挖掘便運行一次，且需要于下個運行周期開始前結束挖掘。

在動態(tài)挖掘目標數(shù)據(jù)集的過程中，利用K標號方法標識使用的數(shù)據(jù)，實現(xiàn)動態(tài)控制目標數(shù)據(jù)，解決處理后、未處理以及目標數(shù)據(jù)間的平滑問題。

針對已知目標數(shù)據(jù)集TDS={TD1，TD2，…，TDj}，其中，j∈N，0是其初始標識號碼，在每次實施動態(tài)挖掘后，都要在目標數(shù)據(jù)TDi的標號數(shù)值上做加一處理，待標號增加至K(K∈N)后，處理操作停止。動態(tài)挖掘的每次運行均采用比K小的標號數(shù)值數(shù)據(jù)。

4 多維關聯(lián)數(shù)據(jù)動態(tài)挖掘仿真

選取某市區(qū)五個交警大隊半年內(nèi)的道路交通事故數(shù)據(jù)作為挖掘目標，利用本文構建的動態(tài)挖掘模型分析事故屬性數(shù)據(jù)，提取出潛在關聯(lián)規(guī)則，獲取實驗結論。

4.1 仿真環(huán)境配置

表2所示為多維關聯(lián)數(shù)據(jù)動態(tài)挖掘方法的開發(fā)環(huán)境與運行環(huán)境軟硬件相關參數(shù)。

表2 挖掘方法仿真環(huán)境參數(shù)配置

4.2 多維關聯(lián)數(shù)據(jù)動態(tài)挖掘

根據(jù)事故成因，將道路交通事故進行分類，利用由美國flexsim公司開發(fā)的FlexSim仿真軟件[10]，繪制出圖2所示的道路交通事故類別及其對應數(shù)量。

圖2 道路交通事故類別及其對應發(fā)生數(shù)量

以違章變更車道為例，在設定支持度閾值與置信度閾值的極小值后，挖掘與該事故成因類別存在關聯(lián)的多維數(shù)據(jù)相關規(guī)則。部分關聯(lián)規(guī)則描述如下，其中，括號中數(shù)據(jù)分別表示各關聯(lián)規(guī)則的支持度與置信度，用于反映該條關聯(lián)規(guī)則的必要性與可用性：

1)道路因素+時間因素：混合式橫斷面與主干路(5.48%，42.65%)；四岔口路段(6.23%，38.11%)；瀝青路面、混合式橫斷面、日間時段、無信號燈(10.31%，40.38%)；

2)道路因素+天氣因素+時間因素：晴天、平原地形、混合式橫斷面、日間時段、直行線路、無信號燈(8.76%，41.98%)；陰天；瀝青路面、混合式橫斷面、日間時段(9.37%，35.61%)；霧天、平坦路面、混合式橫斷面、夜間時段、直行線路、無信號燈(7.56%，39.74%)；雨天、平原地形、混合式橫斷面、日間時段、彎曲線路、無信號燈(10.31%，42.18%)；

3)道路因素+時間因素+駕駛員因素：主干路、混合式橫斷面、日間時段、無信號燈、無證駕駛(12.16%，44.65%)；平坦路面、混合式橫斷面、夜間時段、疲勞駕駛(12.75%，43.49%)；瀝青路面、混合式橫斷面、日間時段、彎曲線路、無信號燈、醉酒駕駛(11.68%，43.57%)。

基于得到的多維數(shù)據(jù)關聯(lián)規(guī)則，從直行與彎曲道路類型、不同天氣狀況的月統(tǒng)計周期數(shù)據(jù)以及不同時段的事故數(shù)量中，動態(tài)挖掘多維關聯(lián)數(shù)據(jù)，并將其與實際事故發(fā)生數(shù)據(jù)作對比，如圖3所示。

根據(jù)圖3中動態(tài)挖掘到的事故數(shù)據(jù)可以看出：在直行、晴天等視野更好的行車環(huán)境中，駕駛員更容易麻痹大意，導致直行與晴天條件下的道路交通事故發(fā)生頻率高于其它情況，從事故發(fā)生時段來講，午后發(fā)生頻率更高，尤其是疲憊感劇增的傍晚時段，肇事死亡率較大；通過對比事故的實際發(fā)生次數(shù)，顯而易見，本文方法能夠有效挖掘出所需的多維關聯(lián)數(shù)據(jù)，且具有較為理想的精準度，究其原因是半?yún)?shù)化概率密度預估模型的構建目標是提升少樣本數(shù)據(jù)的概率密度預估準度，利用遺傳優(yōu)化算法，提取到了多維關聯(lián)數(shù)據(jù)之間的關聯(lián)規(guī)則，通過滑動窗口動態(tài)采集、疊加窗口動態(tài)處理，結合時間門限值與K標號方法，實現(xiàn)動態(tài)控制、挖掘目標數(shù)據(jù)。

5 結論

在大數(shù)據(jù)中發(fā)現(xiàn)可用信息的處理過程就是數(shù)據(jù)挖掘，該項技術已隨著網(wǎng)絡技術的發(fā)展演變成了學術界的主要課題，并在保險、醫(yī)療、電信、金融等現(xiàn)代社會的諸多重要領域中，起著決策與管理的指導作用。不斷更新的數(shù)據(jù)信息對以往的挖掘技術提出了前所未有的巨大挑戰(zhàn)，使其無法及時給予有效信息，故利用概率統(tǒng)計方法，動態(tài)挖掘多維關聯(lián)數(shù)據(jù)，實現(xiàn)本文的研究目的。概率統(tǒng)計作為數(shù)據(jù)挖掘的關鍵環(huán)節(jié)，需做深入的理論知識研究，使概率統(tǒng)計方法與數(shù)據(jù)動態(tài)挖掘技術更有效地結合；需嘗試利用開環(huán)分類學習系統(tǒng)，通過逆向反饋流程，檢驗、明確反饋效果，實現(xiàn)適應性調(diào)整，提升模型學習效率；由于提取到的關聯(lián)規(guī)則以支持度與置信度為基礎，存在使用者不感興趣的規(guī)則，為解決該問題，應將興趣度添加作為下一階段的研究側重點，令得到的關聯(lián)規(guī)則更具實用性。