亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于主成分分析的模糊頻繁項集合挖掘方法

        2022-03-15 10:33:00耿立校李恒昱劉麗莎
        計算機(jī)仿真 2022年2期
        關(guān)鍵詞:規(guī)則方法

        耿立校,李恒昱,劉麗莎

        (河北工業(yè)大學(xué),天津 300401)

        1 引言

        模糊頻繁項集合的挖掘是數(shù)據(jù)挖掘的關(guān)鍵步驟[1],但通常情況下頻繁項集合的數(shù)量較多,導(dǎo)致挖掘過程難度較大。針對數(shù)據(jù)中最大模糊頻繁項集合中含有頻繁項的特點,對模糊頻繁項集合挖掘展開研究[2,3]。

        文獻(xiàn)[4]提出基于高效改進(jìn)的模糊頻繁項集合挖掘方法。該方法首先掃描數(shù)據(jù)庫,構(gòu)建存儲項集關(guān)系的"投影"數(shù)據(jù)架構(gòu),提取出頻繁1-項集和頻繁2-項集,其次構(gòu)建高階項集的位置索引表,在跨越式搜索和連接的基礎(chǔ)上找出模糊頻繁項集合,實現(xiàn)模糊頻繁項集合挖掘。但是由于該方法在模糊頻繁項集合挖掘前沒有對數(shù)據(jù)進(jìn)行預(yù)處理,無法減少數(shù)據(jù)變量中的項,導(dǎo)致冗余數(shù)據(jù)的計算量過大,進(jìn)而加大了方法運行內(nèi)存。文獻(xiàn)[5]提出基于DiffNodeset結(jié)構(gòu)的模糊頻繁項集合挖掘方法。該方法運用數(shù)據(jù)結(jié)構(gòu)DiffNodeset求出支持度,并利用線性連接方法來降低連接的復(fù)雜度,減少無效計算量,其次在集合枚舉樹搜索空間的基礎(chǔ)上利用優(yōu)化剪枝策略減小搜索空間范圍,最后中和超集檢測技術(shù)提取模糊頻繁項集合,實現(xiàn)模糊頻繁項集合挖掘,該方法未利用主成分分析法對數(shù)據(jù)進(jìn)行降維,而是直接對數(shù)據(jù)重新運算,只能在原始信息素排序表的基礎(chǔ)上進(jìn)行挖掘,該方法的挖掘計算量過大。文獻(xiàn)[6]提出基于AO算法的模糊頻繁項集合挖掘方法,該方法在滑動窗口思想的基礎(chǔ)上對模糊頻繁項集合分塊挖掘,當(dāng)滿窗口有模糊頻繁項集合進(jìn)入時,利用區(qū)域插入的方式獲取全新模糊頻繁項集合,并求解支持度,同時結(jié)合超集檢測,保證在最高效率下挖掘出模糊頻繁項集合,實現(xiàn)模糊頻繁項集合挖掘,該方法沒有對模糊頻繁項集合進(jìn)行間隔約束處理而是直接挖掘模糊頻繁項集合,導(dǎo)致散亂數(shù)據(jù)不能保持平衡,數(shù)據(jù)散亂程度過高,該方法的準(zhǔn)確率、召回率和F1值均均不夠理想。

        為解決上述方法中存在的問題,引入主成分分析法,優(yōu)化間隔約束條件下的模糊頻繁項集合挖掘方法。通過實驗驗證了所提方法具有一定應(yīng)用優(yōu)勢,為相關(guān)領(lǐng)域的研究提供可靠依據(jù)。

        2 模糊頻繁項集合預(yù)處理

        2.1 修補(bǔ)模糊頻繁缺損數(shù)據(jù)

        經(jīng)過標(biāo)準(zhǔn)化處理后的模糊頻繁數(shù)據(jù)可相互對比,進(jìn)而排除量綱帶來的影響[7],假設(shè)標(biāo)準(zhǔn)化處理后的模糊頻繁項集合為X,X是由n個自身帶有s維模糊頻繁項數(shù)據(jù)的向量X1,X2,…,Xn組成,其中向量Xj=(x1j,x2j,…,xsj)T∈Rs,j=1,2,…,n,xi0j0是模糊頻繁項的缺損數(shù)據(jù),即需要修補(bǔ)的模糊頻繁項數(shù)據(jù)。

        假設(shè)向量Xj中的行向量為bi(i=1,…,s),列向量為aj(j=1,…,n),則模糊頻繁項集合X的矩陣表達(dá)式為

        (1)

        將模糊頻繁項集合X中的缺損數(shù)據(jù)xi0j0所在的第i0行進(jìn)行消除,獲取全新數(shù)據(jù)A,其矩陣表達(dá)式為

        (2)

        (3)

        (4)

        根據(jù)上述算法的逆過程將標(biāo)準(zhǔn)化數(shù)據(jù)還原成帶有量綱的數(shù)據(jù),最終輸出的數(shù)據(jù)就是標(biāo)準(zhǔn)化后的完整數(shù)據(jù)。

        2.2 基于主成分分析法的數(shù)據(jù)降維

        主成分分析法是數(shù)據(jù)降維的重要手段之一,可提高數(shù)據(jù)挖掘效率,與其它降維手段相比,主成分分析法的降維力度最強(qiáng)[8],該方法將修補(bǔ)后的完整模糊頻繁項數(shù)據(jù)進(jìn)行數(shù)值化處理,并按照數(shù)據(jù)類型將模糊頻繁項數(shù)據(jù)劃分成多個子數(shù)據(jù)集,并逐一進(jìn)行降維,保證最大程度地排除數(shù)據(jù)中的冗余特征,其大致過程為:

        ①構(gòu)建觀測矩陣

        假設(shè)數(shù)據(jù)中含有m個變量,對所有變量進(jìn)行n次觀測后每個子數(shù)據(jù)中都會生成n條樣本數(shù)據(jù),進(jìn)而生成的觀測數(shù)據(jù)矩陣表達(dá)式為

        (5)

        式中,xij表示分割后的子數(shù)據(jù)集,m表示模糊頻繁項數(shù)據(jù)矩陣的行,即矩陣的每一行均是數(shù)據(jù)進(jìn)行數(shù)值化后的一個樣本模糊頻繁項數(shù)據(jù),n表示模糊頻繁項數(shù)據(jù)矩陣的列,即劃分后的子數(shù)據(jù)內(nèi)的主成分樣本個數(shù)。

        ②數(shù)據(jù)中心標(biāo)準(zhǔn)化

        (6)

        ③求解樣本數(shù)據(jù)相關(guān)矩陣R

        ④特征分解矩陣R,獲取R=U∧UT

        1)計算樣本相關(guān)矩陣R的特征值

        經(jīng)計算發(fā)現(xiàn)矩陣R中含有m個特征值,將所有特征值自大到小的順序進(jìn)行排列后得到λ1≥λ2≥…≥λm≥0,進(jìn)而求出所有主成分的貢獻(xiàn)率,從中選取貢獻(xiàn)率在85%以上的成分,并在這些成分中篩選出符合特征值小于1的前p主成分,篩選后的成分記為主成分分析結(jié)果,則主成分貢獻(xiàn)率公式為

        Cj=λj/(λ1+λ2+…+λm)

        (7)

        利用式(10)即可計算出每個主成分的貢獻(xiàn)率,即每種成分可提供的信息量,Cj越大說明成分中信息量越多,且每個成分各自獨立存在,即不存在信息重復(fù)的情況,因此提取滿足上式兩個要求的特征值即可。

        2)計算特征向量

        根據(jù)特征值的排序運算出對應(yīng)的特征向量eig1,eig2,…,eigm,這些特征向量屬于單位向量,即|eigi|=1,且特征向量兩兩相交,即eigi⊥eigj。

        3)構(gòu)建主成分載荷矩陣

        根據(jù)貢獻(xiàn)率最高的前p個主成分生成主成分載荷陣Um×p=(eig1,eig2,…,eigp),則此矩陣就是主成分分析的最終結(jié)果,其中,m是特征向量的個數(shù)。

        ⑤將原始變量轉(zhuǎn)換為主成分變量即可實現(xiàn)特征降維,即最大程度減少模糊頻繁項數(shù)據(jù)數(shù)量,其表達(dá)式為

        (8)

        式中,ηi表示轉(zhuǎn)化后的主成分變量,其中i=1,2,…,p,ξj表示原始變量,且j=1,2,…,m。

        2.3 間隔約束最大模糊頻繁項目集

        在實際挖掘過程中,有項約束是最常用的約束條件[9],假設(shè)項目約束條件是B,且B為I內(nèi)的布爾代表公式,I是由多個不同的模糊頻繁項目構(gòu)成的集合,將約束條件B轉(zhuǎn)換成析取范式(DNF),即B1∨B2∨B3∨…∨Bk形式,在DNF形式下的約束條件集合為B={B1,B2,B3,…,BK},且每個Bi表示b1∧b2∧b3∧…∧b1,其中bj∈I,假設(shè)T是模糊頻繁項目集合的一個交易數(shù)據(jù)庫,已知布爾表達(dá)式B,則可將間隔約束條件下的模糊頻繁項目集合挖掘問題轉(zhuǎn)化成提取符合約束條件B的模糊頻繁項目集合問題,且挖掘過程中還需保證挖掘結(jié)果的支持度大于等于固定的最小支持度閾值[10]。

        3 模糊頻繁項目集合挖掘

        模糊頻繁項集合中的數(shù)據(jù)雖隸屬于同一數(shù)據(jù)庫,但實際上數(shù)據(jù)分散在各個場地,將模糊頻繁項數(shù)據(jù)利用傳統(tǒng)方法進(jìn)行分類難度較大,而蟻群優(yōu)化系統(tǒng)具有記憶性、自主性、反應(yīng)性、容錯性、社會性、移動性以及適應(yīng)性等優(yōu)點[11],基于以上優(yōu)點可將此方法應(yīng)用于數(shù)據(jù)挖掘中,同時可建立出一條又一條互不依賴的規(guī)則,按照歷史錯誤更新經(jīng)驗,逐一計算得出最優(yōu)解,即生成ACO分布式分類算法,此算法首先將數(shù)據(jù)進(jìn)行初始化處理,獲取所有挖掘通道的相關(guān)信息,并計算出數(shù)據(jù)相關(guān)函數(shù),進(jìn)而生成一條有規(guī)則又互不依賴的數(shù)據(jù)挖掘通道,其次修剪規(guī)則從而修改蟻群爬行路徑的信息,最終在所有規(guī)則中提取出一條質(zhì)量最優(yōu)的規(guī)則,根據(jù)此規(guī)則挖掘出模糊頻繁項數(shù)據(jù)。

        綜上所述可知在建立規(guī)則前必須提前求解規(guī)則內(nèi)所需的條件項,并根據(jù)規(guī)則自身的條件項得出可能執(zhí)行此任務(wù)的可能性P,其表達(dá)式為

        Pij(t)=Rij(t)2/θ+Rij(t)2

        (9)

        利用蟻群算法建立出規(guī)則后的信息素總數(shù)表達(dá)式為

        τij(t)=τij(t-1)·(1-1/(1+Q))

        +(1-ρ)·τij(t-1)

        (10)

        式中,ρ表示信息素可能損失的概率,Q表示根據(jù)蟻群算法建立的規(guī)則質(zhì)量。

        參數(shù)ρ可直接反映出蟻群算法在爬行過程中信息的損失速度,因此參數(shù)ρ越大,此路徑中的信息損失速度越快。在對一個訓(xùn)練集進(jìn)行多次蟻群算法后即可獲取多條數(shù)據(jù)分類規(guī)則,利用Q選取出其中質(zhì)量最優(yōu)的規(guī)則,則Q的表達(dá)式為

        Q=(TruePos/FalseNeg+TruePos)×

        (TrueNeg/FalsePos+TrueNeg)

        (11)

        式中,TruePos代表規(guī)則路徑中滿足規(guī)則的條件項,且此條件項的數(shù)量和預(yù)測出規(guī)則類型數(shù)量一致,F(xiàn)alsePos代表規(guī)則路徑中滿足規(guī)則的條件項,但此條件項的數(shù)量和預(yù)測出規(guī)則類型數(shù)量不相同,F(xiàn)alseNeg代表規(guī)則路徑中不符合規(guī)則的條件項,但此條件項的數(shù)量和預(yù)測出規(guī)則類型數(shù)量一致,TeueNeg代表規(guī)則路徑中不符合規(guī)則的條件項,且此條件項的數(shù)量和預(yù)測出規(guī)則類型數(shù)量不相同。

        根據(jù)信息素和啟發(fā)函數(shù)值選出最優(yōu)規(guī)則路徑后將條件項添加到規(guī)則路徑中,保證數(shù)據(jù)分類準(zhǔn)確率最高的同時還可簡化分類規(guī)則[12],將數(shù)據(jù)進(jìn)行最優(yōu)分類,實現(xiàn)模糊頻繁項集合挖掘。

        4 實驗與結(jié)果

        為驗證所提方法的整體有效性,對間隔約束條件下的模糊頻繁項集合挖掘方法、文獻(xiàn)[4]方法和文獻(xiàn)[5]方法進(jìn)行運行內(nèi)存和挖掘有效性的測試。

        4.1 運行內(nèi)存大小測試

        根據(jù)圖1可看出隨著最小支持度的增加,三種挖掘方法的運行內(nèi)存均有所下降,進(jìn)而提高系統(tǒng)的流暢程度,但所提方法的運行內(nèi)存最大為65M,隨著最小支持度的增加其運行內(nèi)存一直在下降,因此所提方法的系統(tǒng)最流暢,其它兩種方法的運行內(nèi)存過于依賴系統(tǒng)支持度,在支持度過小的情況下兩種方法的最大運行內(nèi)存分別為105M和140M,導(dǎo)致文獻(xiàn)[4]方法和文獻(xiàn)[5]方法的系統(tǒng)比較卡頓,而所提方法可一直保證系統(tǒng)流暢是因為在進(jìn)行模糊頻繁項集合挖掘前對數(shù)據(jù)進(jìn)行了預(yù)處理,數(shù)據(jù)變量中的項明顯下降,排除大量冗余數(shù)據(jù),保證了系統(tǒng)的流暢程度,降低運行內(nèi)存使用率。

        圖1 不同方法的運行內(nèi)存使用情況

        4.2 挖掘有效性測試

        隨機(jī)選取了六組訓(xùn)練數(shù)據(jù),比較三種方法處理后的數(shù)據(jù)精確率、召回程度以及F1值,模糊頻繁項集合中的信息素比較散亂,對這種數(shù)據(jù)進(jìn)行挖掘有較大的難度,難以保證其挖掘有效性,如圖2所示,文獻(xiàn)[4]方法在挖掘時只能加大計算量進(jìn)而提高準(zhǔn)確率、召回率和F1值,文獻(xiàn)[5]方法沒有做任何處理,導(dǎo)致其挖掘有效性十分低下,而所提方法經(jīng)過對數(shù)據(jù)的間隔約束處理后進(jìn)行數(shù)據(jù)挖掘,相當(dāng)于將信息素進(jìn)行一個平衡處理,使得數(shù)據(jù)的散亂程度有所改善,因此無論是所提方法的準(zhǔn)確率、召回率還是F1值,它都是三種方法中最優(yōu)的方法,驗證了所提方法的有效性。

        圖2 不同方法的挖掘有效性

        5 結(jié)束語

        為解決目前方法所存在的問題,提出了間隔約束條件下的模糊頻繁項集合挖掘方法,該方法首先對模糊頻繁項集合進(jìn)行預(yù)處理和約束,其次利用蟻群算法分類項目,最終實現(xiàn)模糊頻繁項集合挖掘,解決運行內(nèi)存過大和挖掘有效性低的問題,此方法提高項集查找速度,將原本需要多次完成的任務(wù)一次完成,大大縮小工作壓力,降低成本。

        猜你喜歡
        規(guī)則方法
        撐竿跳規(guī)則的制定
        數(shù)獨的規(guī)則和演變
        學(xué)習(xí)方法
        規(guī)則的正確打開方式
        幸福(2018年33期)2018-12-05 05:22:42
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        TPP反腐敗規(guī)則對我國的啟示
        可能是方法不對
        搜索新規(guī)則
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        久久精品国产亚洲av影院毛片| 放荡人妻一区二区三区| 精品国产v无码大片在线观看| 日产精品久久久久久久| 国产免费av片在线观看麻豆| 亚洲电影一区二区| 亚洲精品熟女乱色一区| 亚洲一区二区三区在线激情| 国产一区二区精品人妖系列在线 | 国产视频导航| 99JK无码免费| 少妇被日到高潮的视频| 蜜桃传媒免费观看视频| 日本久久久免费观看视频| 久久久精品中文字幕麻豆发布| 女局长白白嫩嫩大屁股| 婷婷亚洲久悠悠色悠在线播放| 韩国三级中文字幕hd久久精品| 中文人妻无码一区二区三区| 午夜在线观看有码无码| 中文字幕被公侵犯的丰满人妻| 日本一区二区三区爱爱视频| 中文字幕一区二区三区视频| 一区二区三区中文字幕| 精品国产一区二区三区av 性色| 最新国产乱视频伦在线| 国内视频一区| 天天综合色中文字幕在线视频| 亚洲中文字幕人成乱码在线| 国产三级av在线播放| 亚洲日韩精品欧美一区二区| 久久国产精品99精品国产987| 国产亚洲专区一区二区| 亚洲精品无码专区| 老熟妻内射精品一区| 久久九九有精品国产尤物| 国产av91在线播放| 日韩中文字幕在线观看一区| 射精专区一区二区朝鲜| 日本无遮挡吸乳呻吟视频| 狼友AV在线|