亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于概率統(tǒng)計的多維關聯(lián)數(shù)據(jù)動態(tài)挖掘仿真

        2022-04-19 00:47:02關麗紅
        計算機仿真 2022年3期
        關鍵詞:數(shù)據(jù)挖掘關聯(lián)規(guī)則

        張 平,關麗紅

        (長春大學理學院,吉林 長春 130022)

        1 引言

        數(shù)據(jù)處理技術[1]迅猛發(fā)展,待處理數(shù)據(jù)規(guī)模日益龐大,在初始數(shù)據(jù)內(nèi)挖掘出所需信息的有效手段逐漸增多,已成為數(shù)據(jù)處理技術的一個主要研究方向[2]。數(shù)據(jù)挖掘技術與統(tǒng)計分析息息相關,只有經(jīng)過數(shù)據(jù)分析,才能發(fā)現(xiàn)數(shù)據(jù)之間隱藏的關系與模式。該項技術作為應用策略之一,其數(shù)據(jù)間具有一種獨有的關聯(lián)規(guī)則,此類數(shù)據(jù)統(tǒng)稱為關聯(lián)數(shù)據(jù)[3,4]。為拓寬關聯(lián)數(shù)據(jù)挖掘技術的應用領域,相關研究領域的眾多專家與學者對其展開了深入探索。

        例如,部分學者通過建立強關聯(lián)規(guī)則,經(jīng)選擇、交叉、變異等操作,結合信息增益建立決策樹挖掘模型,運用該模型實現(xiàn)關聯(lián)數(shù)據(jù)挖掘;部分學者通過數(shù)據(jù)處理層、挖掘層、儲存層以及查詢層構建硬件部分,結合數(shù)據(jù)量化、子集抽取以及模糊聚類等軟件程序,建立漏洞信息數(shù)據(jù)挖掘系統(tǒng)。除上述方法外,文獻[5]在關聯(lián)規(guī)則中添加改進遺傳算法,基于此,通過引入親密度來構建一種數(shù)據(jù)挖掘方法。但是,以往的數(shù)據(jù)挖掘方法通常是靜態(tài)挖掘已有的歷史數(shù)據(jù),無法滿足實時獲取的應用需求,因此,本文以挖掘領域中最基礎、最關鍵的統(tǒng)計策略為基礎,架構出基于概率統(tǒng)計的多維關聯(lián)數(shù)據(jù)動態(tài)挖掘方法。構建的非參數(shù)概率統(tǒng)計模型基礎是核密度估計,有助于互補參數(shù)化與非參數(shù)化優(yōu)劣勢,提升少樣本數(shù)據(jù)的概率密度預估準確度;根據(jù)參數(shù)設置原則,合理設置模型參數(shù),使概率統(tǒng)計模型性能得到最大化發(fā)揮;提取多維關聯(lián)數(shù)據(jù)之間的關聯(lián)規(guī)則,增加多維關聯(lián)數(shù)據(jù)動態(tài)挖掘的有效性。

        2 概率統(tǒng)計模型

        假定任意采集到的獨立樣本集合為{X1,X2,…,Xn},樣本數(shù)量是n,且服從某未知概率密度f(x)分布,則引入核密度估計[6]的非參數(shù)概率密度預估界定表達式如下所示

        (1)

        由上式推導出

        (2)

        其中,核函數(shù)與窗寬分別是K(z)、h,且h>0,對概率密度預估平滑度起著決定性作用。

        根據(jù)核密度估計理念下的非參數(shù)概率密度預估方法,結合實際的數(shù)據(jù)分布先驗知識,建立一種以提升少樣本數(shù)據(jù)的概率密度預估準確度為目標,互補參數(shù)化與非參數(shù)化優(yōu)劣勢的半?yún)?shù)化概率密度預估模型。

        (x)=r(x)*f(x,)

        (3)

        依據(jù)式(3)所示的理想修正因子形式,通過核密度估計的概率密度預估方法,完成非參數(shù)化修正因子r(x)預估的界定,表達式如下所示

        (4)

        (5)

        基于式(4)的界定公式,構建出下列基于核密度估計的半?yún)?shù)化概率密度預估模型

        (6)

        為使概率統(tǒng)計模型性能最大化,依據(jù)設計的半?yún)?shù)化概率密度預估模型,結合以下參數(shù)設置原則,合理設置模型參數(shù):

        1)利用積分均方誤差算法[7],最小化窗寬h的最佳值,計算公式如下所示

        (7)

        2)若式(6)中的f(Xi,)≈0或與f(x,)的差值較大,則分式的值對概率密度預估結果有直接影響,因此,利用下列截斷表達式,令分式值局限在0.1到10以內(nèi):

        (8)

        3 基于概率統(tǒng)計的多維關聯(lián)數(shù)據(jù)動態(tài)挖掘

        3.1 多維關聯(lián)數(shù)據(jù)挖掘規(guī)則

        為有效實現(xiàn)多維關聯(lián)數(shù)據(jù)的動態(tài)挖掘,需先挖掘出多維關聯(lián)數(shù)據(jù)之間的關聯(lián)規(guī)則,規(guī)則提取通過改進的遺傳優(yōu)化算法[8]完成,具體流程描述如下:

        1)令初始種群隨機產(chǎn)生,得到種群P={A1,A2,…,Am};

        2)基于種群P={A1,A2,…,Am},獲取使用者預設的支持度與置信度極小值,分別為smin、cmin;

        3)利用下列計算公式求解種群P={A1,A2,…,Am}所含個體的適應度值:

        (9)

        4)根據(jù)解得的個體濃度dj與選擇概率

        5)完成當前種群內(nèi)所有個體至交配池的復制;

        6)在交配池里任意選取到個體A′、A″,采用下式任意動態(tài)選擇到的交叉概率,完成交叉操作

        (10)

        7)利用任意動態(tài)選擇到的變異概率,完成變異操作

        (11)

        8)當符合遺傳優(yōu)化算法停止迭代的條件時,運算停止;反之,則返回第3)步,開始新一周期的循環(huán)計算;

        9)根據(jù)解得的置信度,提取出多維關聯(lián)數(shù)據(jù)之間的關聯(lián)規(guī)則。

        3.2 多維關聯(lián)數(shù)據(jù)動態(tài)采集

        將滑動窗口設定成動態(tài)采集窗口,以平滑地動態(tài)采集多維關聯(lián)數(shù)據(jù)?;瑒哟翱诘膬蓚€相關界定條件描述如下:

        1)對于多維關聯(lián)的動態(tài)數(shù)據(jù)源,已知標識號是i∈Z+的數(shù)據(jù)di,根據(jù)數(shù)據(jù)形成時長,劃分為τ規(guī)格窗口的數(shù)據(jù)段Dk,其中,k∈N,τ表示時段,同時也指代數(shù)據(jù)的門限值[9],因此,各數(shù)據(jù)段均是一個數(shù)據(jù)窗口;

        2)ω是一個給定正數(shù),滿足ω=τn,當ω規(guī)格的窗口在T時間時,出現(xiàn)數(shù)據(jù)段集合D={D1,D2,…,Dn},且每間隔τ時段,窗口就會向前運動,步長是s個數(shù)據(jù)窗口,則該窗口就是滑動窗口。

        圖1展示的是多維關聯(lián)數(shù)據(jù)的滑動窗口動態(tài)采集過程,將兩個數(shù)據(jù)窗口作為滑動窗口規(guī)格,移動步長設定成每次一個窗口。

        圖1 滑動窗口動態(tài)采集過程示意圖

        3.3 多維關聯(lián)數(shù)據(jù)動態(tài)處理

        為避免忽略邊界數(shù)據(jù),利用疊加窗口方法設計一種動態(tài)窗口,完成數(shù)據(jù)的實時動態(tài)處理。給定有限數(shù)據(jù)集Z={Z1,Z2,…,Zn},Z?RC,將其分類成數(shù)量為(2k-1)的數(shù)據(jù)窗口,令窗口i與i+1局部疊加,反復求解重合區(qū)域的邊界數(shù)據(jù),逐個窗口完成處理直至結束。該方法使密度點的選擇貢獻值全部相同,并有助于減小k值對密度點的影響。

        將動態(tài)窗口規(guī)格界定為sτ,按照表1所示的窗口分類條件,劃分多維關聯(lián)的動態(tài)數(shù)據(jù)源,以處理所有數(shù)據(jù)di。

        表1 動態(tài)數(shù)據(jù)源窗口分類條件

        在數(shù)據(jù)窗口不斷向前運動的過程中,基于數(shù)據(jù)流特征,采用設計的動態(tài)窗口,按照以下流程完成數(shù)據(jù)的實時動態(tài)處理:

        1)針對滑動窗口采集到的m維流式數(shù)據(jù)序列{x1,x2,…,xi,…}與數(shù)據(jù)處理窗口時間序列{t1,t2,…,ti,…},根據(jù)滑動窗口的兩個相關界定條件,推動出下列表達式

        (12)

        2)令數(shù)據(jù)集滿足下列等式

        xi={D(i-1)*s+k|0

        (13)

        3)設定2τs為動態(tài)窗口規(guī)格,v=τs;

        4)先后在流式數(shù)據(jù)集xi、xi∩xi+1以及xi+1內(nèi),分別提取出特征項;

        5)逐個窗口進行處理,去除重復特征項,發(fā)送處理結果至目標數(shù)據(jù)集。

        3.4 多維關聯(lián)數(shù)據(jù)動態(tài)挖掘

        假設θτ(θ∈R+)表示時間門限值,每當?shù)竭_該時間門限值時,動態(tài)挖掘便運行一次,且需要于下個運行周期開始前結束挖掘。

        在動態(tài)挖掘目標數(shù)據(jù)集的過程中,利用K標號方法標識使用的數(shù)據(jù),實現(xiàn)動態(tài)控制目標數(shù)據(jù),解決處理后、未處理以及目標數(shù)據(jù)間的平滑問題。

        針對已知目標數(shù)據(jù)集TDS={TD1,TD2,…,TDj},其中,j∈N,0是其初始標識號碼,在每次實施動態(tài)挖掘后,都要在目標數(shù)據(jù)TDi的標號數(shù)值上做加一處理,待標號增加至K(K∈N)后,處理操作停止。動態(tài)挖掘的每次運行均采用比K小的標號數(shù)值數(shù)據(jù)。

        4 多維關聯(lián)數(shù)據(jù)動態(tài)挖掘仿真

        選取某市區(qū)五個交警大隊半年內(nèi)的道路交通事故數(shù)據(jù)作為挖掘目標,利用本文構建的動態(tài)挖掘模型分析事故屬性數(shù)據(jù),提取出潛在關聯(lián)規(guī)則,獲取實驗結論。

        4.1 仿真環(huán)境配置

        表2所示為多維關聯(lián)數(shù)據(jù)動態(tài)挖掘方法的開發(fā)環(huán)境與運行環(huán)境軟硬件相關參數(shù)。

        表2 挖掘方法仿真環(huán)境參數(shù)配置

        4.2 多維關聯(lián)數(shù)據(jù)動態(tài)挖掘

        根據(jù)事故成因,將道路交通事故進行分類,利用由美國flexsim公司開發(fā)的FlexSim仿真軟件[10],繪制出圖2所示的道路交通事故類別及其對應數(shù)量。

        圖2 道路交通事故類別及其對應發(fā)生數(shù)量

        以違章變更車道為例,在設定支持度閾值與置信度閾值的極小值后,挖掘與該事故成因類別存在關聯(lián)的多維數(shù)據(jù)相關規(guī)則。部分關聯(lián)規(guī)則描述如下,其中,括號中數(shù)據(jù)分別表示各關聯(lián)規(guī)則的支持度與置信度,用于反映該條關聯(lián)規(guī)則的必要性與可用性:

        1)道路因素+時間因素:混合式橫斷面與主干路(5.48%,42.65%);四岔口路段(6.23%,38.11%);瀝青路面、混合式橫斷面、日間時段、無信號燈(10.31%,40.38%);

        2)道路因素+天氣因素+時間因素:晴天、平原地形、混合式橫斷面、日間時段、直行線路、無信號燈(8.76%,41.98%);陰天;瀝青路面、混合式橫斷面、日間時段(9.37%,35.61%);霧天、平坦路面、混合式橫斷面、夜間時段、直行線路、無信號燈(7.56%,39.74%);雨天、平原地形、混合式橫斷面、日間時段、彎曲線路、無信號燈(10.31%,42.18%);

        3)道路因素+時間因素+駕駛員因素:主干路、混合式橫斷面、日間時段、無信號燈、無證駕駛(12.16%,44.65%);平坦路面、混合式橫斷面、夜間時段、疲勞駕駛(12.75%,43.49%);瀝青路面、混合式橫斷面、日間時段、彎曲線路、無信號燈、醉酒駕駛(11.68%,43.57%)。

        基于得到的多維數(shù)據(jù)關聯(lián)規(guī)則,從直行與彎曲道路類型、不同天氣狀況的月統(tǒng)計周期數(shù)據(jù)以及不同時段的事故數(shù)量中,動態(tài)挖掘多維關聯(lián)數(shù)據(jù),并將其與實際事故發(fā)生數(shù)據(jù)作對比,如圖3所示。

        根據(jù)圖3中動態(tài)挖掘到的事故數(shù)據(jù)可以看出:在直行、晴天等視野更好的行車環(huán)境中,駕駛員更容易麻痹大意,導致直行與晴天條件下的道路交通事故發(fā)生頻率高于其它情況,從事故發(fā)生時段來講,午后發(fā)生頻率更高,尤其是疲憊感劇增的傍晚時段,肇事死亡率較大;通過對比事故的實際發(fā)生次數(shù),顯而易見,本文方法能夠有效挖掘出所需的多維關聯(lián)數(shù)據(jù),且具有較為理想的精準度,究其原因是半?yún)?shù)化概率密度預估模型的構建目標是提升少樣本數(shù)據(jù)的概率密度預估準度,利用遺傳優(yōu)化算法,提取到了多維關聯(lián)數(shù)據(jù)之間的關聯(lián)規(guī)則,通過滑動窗口動態(tài)采集、疊加窗口動態(tài)處理,結合時間門限值與K標號方法,實現(xiàn)動態(tài)控制、挖掘目標數(shù)據(jù)。

        5 結論

        在大數(shù)據(jù)中發(fā)現(xiàn)可用信息的處理過程就是數(shù)據(jù)挖掘,該項技術已隨著網(wǎng)絡技術的發(fā)展演變成了學術界的主要課題,并在保險、醫(yī)療、電信、金融等現(xiàn)代社會的諸多重要領域中,起著決策與管理的指導作用。不斷更新的數(shù)據(jù)信息對以往的挖掘技術提出了前所未有的巨大挑戰(zhàn),使其無法及時給予有效信息,故利用概率統(tǒng)計方法,動態(tài)挖掘多維關聯(lián)數(shù)據(jù),實現(xiàn)本文的研究目的。概率統(tǒng)計作為數(shù)據(jù)挖掘的關鍵環(huán)節(jié),需做深入的理論知識研究,使概率統(tǒng)計方法與數(shù)據(jù)動態(tài)挖掘技術更有效地結合;需嘗試利用開環(huán)分類學習系統(tǒng),通過逆向反饋流程,檢驗、明確反饋效果,實現(xiàn)適應性調(diào)整,提升模型學習效率;由于提取到的關聯(lián)規(guī)則以支持度與置信度為基礎,存在使用者不感興趣的規(guī)則,為解決該問題,應將興趣度添加作為下一階段的研究側重點,令得到的關聯(lián)規(guī)則更具實用性。

        猜你喜歡
        數(shù)據(jù)挖掘關聯(lián)規(guī)則
        撐竿跳規(guī)則的制定
        “苦”的關聯(lián)
        當代陜西(2021年17期)2021-11-06 03:21:36
        數(shù)獨的規(guī)則和演變
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        奇趣搭配
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        TPP反腐敗規(guī)則對我國的啟示
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        国产精品视频露脸| 亚洲综合欧美色五月俺也去| 欧美熟妇另类久久久久久多毛| 三级做a全过程在线观看| 双腿张开被9个男人调教| 日韩高清亚洲日韩精品一区| 性色av无码中文av有码vr| 国产精品久久一区二区三区| 亚洲欧美日韩精品高清| 在线无码国产精品亚洲а∨| 妇女自拍偷自拍亚洲精品| 在线观看国产自拍视频| 国产av综合网站不卡| 亚洲av永久无码天堂网小说区| 国产剧情麻豆女教师在线观看 | 日韩精品免费视频久久| 人妻诱惑中文字幕在线视频| 亚洲日韩久久综合中文字幕| 8ⅹ8x擦拨擦拨成人免费视频| 91福利视频免费| 麻豆久久久国内精品| 亚洲女同精品一区二区久久| 亚洲另类丰满熟妇乱xxxx| 国产大片黄在线观看| 边做边流奶水的人妻| 国产精品无码精品久久久| 国产v精品成人免费视频400条| 亚洲中文字幕乱码在线视频| 亚洲中文av中文字幕艳妇| 国内精品久久久久伊人av| 无码人妻一区二区三区免费| 精品国产一区二区三区香蕉| 日日噜噜夜夜久久密挑| av黄色在线免费观看| 国产综合精品一区二区三区| 国产成人精品三级麻豆| 亚洲中出视频| 街拍丝袜美腿美女一区| 性高朝久久久久久久3小时| 亚洲h在线播放在线观看h| 精品国产免费久久久久久|