亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘地域性強(qiáng)關(guān)聯(lián)規(guī)則數(shù)據(jù)提取

        2022-12-16 09:38:10
        關(guān)鍵詞:置信度數(shù)據(jù)挖掘關(guān)聯(lián)

        陳 剛

        (廣州華商學(xué)院 數(shù)據(jù)科學(xué)學(xué)院,廣州 511300)

        0 引 言

        特征挖掘就是準(zhǔn)確地提取存儲(chǔ)介質(zhì)中大量的不完整和干擾特征,從而挖掘出人們所需要的潛在有用信息。若想進(jìn)一步使用大數(shù)據(jù)需要大量的人力和時(shí)間,往往不能得到有價(jià)值的分析結(jié)果,且關(guān)聯(lián)屬性不強(qiáng),數(shù)據(jù)提取過程的融合性不好。

        成紅紅等[1]設(shè)計(jì)了一種有效的相關(guān)度測量方法,該方法不存在相關(guān)關(guān)系的偏差。根據(jù)大數(shù)據(jù)環(huán)境下底層關(guān)聯(lián)關(guān)系公平排序的要求,結(jié)合當(dāng)前關(guān)聯(lián)度的公理化條件,給出了大數(shù)據(jù)關(guān)聯(lián)關(guān)系度量的可能性質(zhì)。但這種方法耗時(shí)長,不利于實(shí)時(shí)檢索。田方[2]提出了一種基于云計(jì)算管理系統(tǒng)的數(shù)據(jù)查詢技術(shù)。基于數(shù)據(jù)挖掘技術(shù),分析了云計(jì)算管理系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)和分布狀態(tài)模型,并利用數(shù)據(jù)流互信息特征提取技術(shù)對數(shù)據(jù)進(jìn)行挖掘,但它需要大量內(nèi)存和硬件資源。

        筆者提出一種基于數(shù)據(jù)挖掘算法的地域性強(qiáng)關(guān)聯(lián)規(guī)則數(shù)據(jù)提取方法。強(qiáng)關(guān)聯(lián)規(guī)則數(shù)據(jù),即如果在數(shù)據(jù)x前和后不久訪問數(shù)據(jù)y,則數(shù)據(jù)x和數(shù)據(jù)y將被關(guān)聯(lián),反之,同時(shí)被訪問,為此,引入數(shù)據(jù)關(guān)聯(lián)度,在計(jì)算關(guān)聯(lián)特征數(shù)據(jù)值時(shí)具有明顯的優(yōu)越性,能得到較準(zhǔn)確的關(guān)聯(lián)特征數(shù)據(jù)值。

        1 地域性強(qiáng)關(guān)聯(lián)規(guī)則數(shù)據(jù)管理系統(tǒng)分析

        圖1 地域性強(qiáng)關(guān)聯(lián)規(guī)則數(shù)據(jù)管理系統(tǒng)Fig.1 Regional strong association rule data management system

        地域性強(qiáng)關(guān)聯(lián)規(guī)則數(shù)據(jù)管理系統(tǒng)包括地域種類的劃分、存儲(chǔ)和順序的管理等功能。這種設(shè)計(jì)能給系統(tǒng)帶來許多好處,比如提供地域特征的詳細(xì)分析。系統(tǒng)的硬件支撐平臺(tái)如圖1所示。

        如圖1所示,該系統(tǒng)利用現(xiàn)有資源,以虛擬社區(qū)的形式創(chuàng)建按需開放訂閱平臺(tái),允許web服務(wù)器將收集的信息源發(fā)布在互聯(lián)網(wǎng)上,也可滿足用戶的需求,查詢地域資料,檢索特征關(guān)聯(lián)性[3]。并且若沒有相關(guān)的地域資料,也可通過電子郵件建立地域數(shù)據(jù)庫。通過用戶需求處理系統(tǒng)將結(jié)果提供給用戶,用戶要求的信息處理完畢后,工作人員可根據(jù)情況進(jìn)行回復(fù),并以電子郵件的形式提供地域信息,以此收集地域特征,挖掘特征關(guān)聯(lián)度[4-5]。

        2 地域數(shù)據(jù)提取分析方法

        2.1 地域特征關(guān)聯(lián)的相似度計(jì)算

        在地域性強(qiáng)關(guān)聯(lián)規(guī)則數(shù)據(jù)特征挖掘過程中,需要檢索速率快和準(zhǔn)確性高的方法,為實(shí)現(xiàn)地域性強(qiáng)關(guān)聯(lián)規(guī)則數(shù)據(jù)提取,需要計(jì)算地域性強(qiáng)關(guān)聯(lián)規(guī)則數(shù)據(jù)特征的相似性,地域檢索過程中,用戶u選擇標(biāo)記集的特征向量是根據(jù)相鄰節(jié)點(diǎn)v∈Nu對用戶實(shí)施分析,其主導(dǎo)特征數(shù)據(jù)表示為

        (1)

        (2)

        通過對同義詞和歧義詞的協(xié)同過濾,使推薦的可靠性和用戶的地域性內(nèi)容和興趣有所提升。使用余弦相似性過濾同義詞,相似度運(yùn)算式為

        (3)

        其中i為同義詞的評級(jí)向量,j為歧義詞的評級(jí)向量。

        利用數(shù)據(jù)關(guān)聯(lián)度[6],分析地域信息檢索中地域特征之間的關(guān)聯(lián)性,其表達(dá)式為

        (4)

        (5)

        通過分析標(biāo)簽的上下文信息代替地域信息數(shù)量的關(guān)聯(lián)行為,使優(yōu)先列表受到地域性強(qiáng)關(guān)聯(lián)規(guī)則數(shù)據(jù)特征相似性的約束[8]。詳情如表1所示。

        表1 相似度約束下的優(yōu)先級(jí)列表Tab.1 The priority list under the similarity constraints

        由表1可知,在相似性約束下,利用協(xié)同過濾推薦控制查詢地域信息種類,利用優(yōu)先級(jí)列表,有效確定上下文信息。

        2.2 支持度計(jì)算方法

        在約束條件Con下,依據(jù)支持度和置信度,筆者計(jì)算[9],分析地域性強(qiáng)關(guān)聯(lián)規(guī)則數(shù)據(jù)管理的集成性,在關(guān)聯(lián)規(guī)則下,若X是A,設(shè)Sup(〈X,A〉→〈Y,B〉)用于描述獲得的數(shù)據(jù)集τ中,則Y是B形式的支持度??傻?/p>

        (6)

        其中〈X,A〉和〈Y,B〉為屬性概念對,μcyk(ti[xj])為記錄ti值對屬于概念cxj的屬性xj的隸屬度,μcyk(ti[xj])的含義與此類似。對于ti,如果其屬性值ti[xj](xj∈X,j=1,2,…,r),cxj的隸屬度積大于ε(ε為大于零的最小值),說明該記錄滿足〈X,A〉的條件,并用cxj作為梯形云數(shù)字特征表,當(dāng)ti[xj]在概念cxj的期望區(qū)間時(shí),隸屬度為1,否則隸屬度為(0,1)中的某一值。

        2.3 置信度計(jì)算方法

        置信度是指滿足〈X,A〉和〈Y,B〉要求的記錄在滿足〈X,A〉或〈Y,B〉的記錄數(shù)量中所占的比例,它反映了所發(fā)現(xiàn)規(guī)則的確定性[10]。采用Conf(〈X,A〉→〈Y,B〉)表示在約束條件下在Con下獲得的數(shù)據(jù)集τ中,如果X是A,則Y是B形式的置信度??傻?/p>

        根據(jù)式(6),式(7)進(jìn)行簡化處理,得

        (8)

        根據(jù)式(6)和式(7)可知,若在滿足記錄數(shù)據(jù)的基礎(chǔ)上,計(jì)算結(jié)果不超過閾值范圍,可判定為強(qiáng)關(guān)聯(lián)規(guī)則。

        2.4 相關(guān)性分析

        通過支持置信度框架,可從地域性強(qiáng)關(guān)聯(lián)規(guī)則數(shù)據(jù)管理系統(tǒng)中挖掘出大量的關(guān)聯(lián)規(guī)則。筆者通過Kulczynski,分析測度Kule不平衡的原因,依據(jù)關(guān)聯(lián)規(guī)則,對不符合條件的數(shù)據(jù)進(jìn)行分析和過濾,它具有零不變性質(zhì),是兩個(gè)方向上條件概率的綜合,公式如下

        (9)

        在關(guān)聯(lián)規(guī)則蘊(yùn)涵式內(nèi),不平衡率公式為

        (10)

        由式(10)可知,當(dāng)Sup(〈X,A〉)和supSup(〈Y,B〉)相同時(shí),IR(〈X,A〉→〈Y,B〉)為0,當(dāng)Sup(〈X,A〉)和supSup(〈Y,B〉)不同時(shí),二者的不平衡率越大。Kule利用不平衡比解決支持度置信空間不足的問題,篩分出偽項(xiàng)目集的關(guān)聯(lián)規(guī)則。

        設(shè)置10%、50%、50%和0.3的最小Kule閾值和最大不平衡度閾值、最小支持度閾值、最小置信度閾值。數(shù)據(jù)及關(guān)聯(lián)性分析結(jié)果如表2所示。其中,Sup(a,b)為a、b兩個(gè)方位點(diǎn)同時(shí)超標(biāo)的支持度;Nab為兩個(gè)方位點(diǎn)a、b同時(shí)超標(biāo)的數(shù)據(jù)記錄數(shù),其余均相同;Conf(a→b)為若方位點(diǎn)a超過標(biāo)準(zhǔn)的置信度,則方位點(diǎn)b也超標(biāo),Conf(b→a)為若方位點(diǎn)b超過標(biāo)準(zhǔn)的置信度,則方位點(diǎn)a也超標(biāo),Kule(a,b)為Conf(a→b)和Conf(b→a)在方位點(diǎn)a、b上的概率集;IR(a,b)為對方位點(diǎn)a和b不平衡度的評價(jià)。

        表2 數(shù)據(jù)及關(guān)聯(lián)性分析結(jié)果Tab.2 Data and association analysis results

        3 實(shí)驗(yàn)結(jié)果分析

        為驗(yàn)證筆者方法的有效性,選用Matlab 7作為仿真軟件,在大型網(wǎng)絡(luò)數(shù)據(jù)庫中,選取10組測試樣本,將10組樣本的數(shù)據(jù)量從500 Mbit逐步增加到5 000 Mbit,將文獻(xiàn)[1]和文獻(xiàn)[2]方法作為對比對象,測試指標(biāo)為數(shù)據(jù)挖掘時(shí)間開銷,不同方法挖掘時(shí)間對比如圖2所示。

        從圖2可以看出,每種挖掘方法的時(shí)間成本都隨著數(shù)據(jù)大小的增加而增加。文獻(xiàn)[1]和文獻(xiàn)[2]關(guān)聯(lián)挖掘方法的耗費(fèi)時(shí)間較長。而筆者挖掘方法耗費(fèi)時(shí)間較短,具有較高的挖掘效率。然后對比不同數(shù)據(jù)挖掘方法的內(nèi)存消耗如表3所示。對3種方法分析結(jié)果如圖3所示。

        圖2 不同方法挖掘時(shí)間對比 圖3 不同方法擴(kuò)展率對比 Fig.2 Mining time comparison for different methods Fig.3 Extension rate comparison between different methods

        從表3可以看出,筆者方法為0.486 Mbit,內(nèi)存消耗比較小,不影響系統(tǒng)的正常工作,也不會(huì)受到大數(shù)據(jù)規(guī)模操作的影響,在海量數(shù)據(jù)挖掘方面具有很大的優(yōu)勢。為驗(yàn)證該方法的擴(kuò)展率,在上述實(shí)驗(yàn)條件下,對3種方法進(jìn)行了比較分析,結(jié)果如圖3所示。

        由圖3可知,相比兩種文獻(xiàn)方法,筆者方法擴(kuò)展率下降速度較為緩慢,擴(kuò)展率較高,使挖掘性能有效提升,內(nèi)存開銷可以降到最低極限值。

        表3 內(nèi)存消耗對比結(jié)果Tab.3 Memory consumption comparative results (Mbit)

        4 結(jié) 語

        筆者提出一種基于數(shù)據(jù)挖掘算法的地域性強(qiáng)關(guān)聯(lián)規(guī)則數(shù)據(jù)提取方法,在數(shù)據(jù)挖掘中的平均時(shí)間開銷和內(nèi)存消耗都有所降低,具有一定優(yōu)勢,具備較高的挖掘效率和廣泛應(yīng)用價(jià)值。

        猜你喜歡
        置信度數(shù)據(jù)挖掘關(guān)聯(lián)
        硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
        正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
        奇趣搭配
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        置信度條件下軸承壽命的可靠度分析
        軸承(2015年2期)2015-07-25 03:51:04
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        漂亮人妻被黑人久久精品| 久久精品国产成人午夜福利| 国产亚洲精品美女久久久| √天堂中文官网8在线| 久久这里有精品国产电影网| 中文字幕亚洲综合久久久| 一个人看的www片免费高清视频| 久久精品国产www456c0m| 亚洲国产香蕉视频欧美| 久久久精品人妻一区二区三区免费| 国产欧美精品aaaaaa片| 欧美艳星nikki激情办公室| 免费无码又爽又刺激高潮的视频网站| 日韩精品成人一区二区三区| 亚洲 小说区 图片区 都市| 激情偷乱人成视频在线观看| 日本手机在线| 超碰青青草手机在线免费观看| 电影内射视频免费观看| 亚洲精品国产成人无码区a片| 无码中文字幕av免费放| 国产中文字幕免费视频一区| 人妻中文字幕无码系列| 亚洲色在线视频| 国产精品国产三级厂七| 欧美又大粗又爽又黄大片视频 | 熟妇人妻不卡中文字幕| 中文字幕一区二三区麻豆| 99久久婷婷国产综合精品青草免费| 国产欧美日产久久| 国产一区二区三区日韩精品| 中文字幕亚洲乱码成熟女1区| 精品一区二区三区免费播放| 日本中文字幕一区二区高清在线 | 中文字幕视频二区三区| 欧美群妇大交群| 久久午夜伦鲁片免费无码| 无码熟妇人妻av在线c0930| 亚洲色图在线免费视频| 国产成人aaaaa级毛片| 国产成人免费高清激情明星|