亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向糖尿病數(shù)據(jù)集挖掘頻繁項(xiàng)目集和關(guān)聯(lián)規(guī)則*

        2022-12-16 09:23:00耿飆梁成全
        計(jì)算機(jī)時(shí)代 2022年12期
        關(guān)鍵詞:關(guān)聯(lián)可視化數(shù)量

        耿飆,梁成全

        (1.蘇州衛(wèi)生職業(yè)技術(shù)學(xué)院基礎(chǔ)部,江蘇 蘇州 215009;2.華東療養(yǎng)院信息科)

        0 引言

        從大型數(shù)據(jù)庫(kù)中提取知識(shí)是數(shù)據(jù)挖掘中的重要內(nèi)容。在過(guò)去的幾十年中,已經(jīng)開(kāi)發(fā)了一些算法[1-3]。本文對(duì)關(guān)聯(lián)規(guī)則算法如基于FP-Growth[4]的算法及其變體,以及CFP-Growth[5]和ICFP-Growth[6],對(duì)這三種算法進(jìn)行比較研究。ICFP-Growth 是CPF-Growth 算法的改進(jìn)版本,該算法包括三個(gè)步驟:多項(xiàng)目支持樹(shù)(MIS-Tree)[7]的構(gòu)建、緊湊型MIS 樹(shù)的提取和緊湊型MIS 挖掘樹(shù)。本文開(kāi)發(fā)環(huán)境:操作系統(tǒng)Windows 10專(zhuān)業(yè)版;軟件平臺(tái)為Python 3.7.6。數(shù)據(jù)集是女性的糖尿病數(shù)據(jù)集(https://www.kaggle.com/mathchi/diabetesdata-set)。它分為兩個(gè)“.csv”文件,第一個(gè)用于訓(xùn)練數(shù)據(jù)集,另一個(gè)用于測(cè)試數(shù)據(jù)集。這兩個(gè)“.csv”文件包含8 個(gè)功能:①懷孕次數(shù);②葡萄糖;③血壓;④皮膚厚度;⑤胰島素;⑥BMI:體重指數(shù);⑦糖尿病譜系函數(shù);⑧年齡。

        1 數(shù)據(jù)庫(kù)轉(zhuǎn)換

        該數(shù)據(jù)集僅包含數(shù)值。FP-Growth、CFP-Growth和ICFP-Growth接受事務(wù)數(shù)據(jù)集。糖尿病數(shù)據(jù)集(數(shù)值數(shù)據(jù)集)被轉(zhuǎn)換為交易數(shù)據(jù)集。為了進(jìn)行這種轉(zhuǎn)換,每個(gè)特征都被可視化,以便了解它在個(gè)體數(shù)量中的變化,將每個(gè)特征重新劃分組合為幾個(gè)個(gè)體的域。0:表示無(wú)糖尿病,1:表示有糖尿病。

        第一個(gè)特征是年齡,可視化結(jié)果如圖1所示。

        圖1 年齡與個(gè)體數(shù)量

        在范圍[20,30]中所看到的,與糖尿病患者的數(shù)量相比,沒(méi)有糖尿病的人數(shù)很高,而對(duì)于范圍[30,80],0和1兩個(gè)類(lèi)別的人數(shù)幾乎相同,所以可將特征的范圍分為兩個(gè)域:A1:[0,30]和A2:[30,80]。

        第二個(gè)特征是血壓,結(jié)果如圖2 所示。在[0,40]范圍內(nèi),對(duì)0 類(lèi)和1 類(lèi)有相同的變化,在[40,90]中,0 類(lèi)最高,在[90,120]范圍內(nèi),也有0 類(lèi)和1 類(lèi)的相同變體,因此將此特征劃分為三個(gè)域:B1:[0,40];B2:[40,90];B3:[90,120]。

        圖2 血壓與個(gè)體數(shù)量

        第三個(gè)特征是BMI,可視化結(jié)果如圖3所示??梢詫MI特征的范圍劃分為兩個(gè)域,第一個(gè)BMI1:[0,30],其中有0類(lèi)的個(gè)體數(shù)量高于1類(lèi),第二個(gè)是BMI2:[30,60]其中兩個(gè)類(lèi)具有幾乎相同的變化。

        圖3 BMI與個(gè)體數(shù)量

        第四個(gè)特征是糖尿病譜系函數(shù),可視化在圖4中。在這張圖中,可以看到在[0,0.8]中,0 類(lèi)的個(gè)體數(shù)量最多,而在[0.8,2.5]范圍內(nèi),相反,類(lèi)1 的個(gè)體數(shù)量最多,因此可以將特征分為兩個(gè)域:D1:[0,0.8]和D2:[0.8,2.5]。

        圖4 糖尿病譜系功能與個(gè)體數(shù)量

        第五個(gè)特征是葡萄糖,其可視化結(jié)果如圖5所示。在范圍[0,125]內(nèi),與類(lèi)別1 的個(gè)體數(shù)量相比,類(lèi)別0 的數(shù)量較多,而對(duì)于范圍[125,200],對(duì)于0 類(lèi)和1 類(lèi)個(gè)體數(shù)量幾乎相同,可以將特征的范圍劃分為兩個(gè)域:G1:[0,125]和G2:[125,200]。

        圖5 葡萄糖與個(gè)體數(shù)量

        第六個(gè)特征是胰島素,結(jié)果如圖6 所示。在[0,30]范圍內(nèi)的胰島素與個(gè)體數(shù)量的關(guān)系中,對(duì)于0類(lèi)和1類(lèi)有幾乎相同的變化,在范圍[30,150]內(nèi),0 類(lèi)高于1 類(lèi),在范圍[150,800]內(nèi),也有0 類(lèi)和1 類(lèi)的相同變體,因此將此特征劃分為三個(gè)域:I1:[0,30];I2:[30,150];I3:[150,800]。

        圖6 胰島素與個(gè)體數(shù)量

        第七個(gè)特征是Pregnancy,可視化結(jié)果如圖7所示??梢詫regnancies 特征的范圍劃分為兩個(gè)域,第一個(gè)P1:[0,7],其中0 類(lèi)的個(gè)體數(shù)量高于1 類(lèi)個(gè)體的數(shù)量,第二個(gè)是P2:[7,17]其中兩個(gè)類(lèi)具有幾乎相同的變化。

        圖7 懷孕與個(gè)體數(shù)量

        最后一個(gè)特征是皮膚厚度,可視化在圖8 中。在這張圖中,可以看到在[0,8]中,兩個(gè)類(lèi)的變化幾乎相同,而在[8,45]中,0 類(lèi)的個(gè)體數(shù)量幾乎比1 類(lèi)多。此外,對(duì)于[45,60]范圍,這兩個(gè)類(lèi)也有相同的變化,因此可以將特征分為三個(gè)域:S1:[0,8],S2:[8,45]和S3:[45,60]。

        圖8 皮膚厚度與個(gè)體數(shù)量

        經(jīng)過(guò)以上分析,可以總結(jié)出所有轉(zhuǎn)換的信息。轉(zhuǎn)換結(jié)果如表1所示。

        表1 轉(zhuǎn)換結(jié)果

        現(xiàn)在可以使用域?qū)?shù)據(jù)集轉(zhuǎn)換為事務(wù)數(shù)據(jù)集。從轉(zhuǎn)換中獲得的結(jié)果如圖9所示。

        圖9 轉(zhuǎn)換的部分結(jié)果

        2 關(guān)聯(lián)規(guī)則的提取

        首先,必須初始化FP-Growth 的minsupport,以及CFP-Growth和ICFP-Growth的MIS值。要為CFP增長(zhǎng)分配MIS值,使用式⑴。

        其中MIS(i)是項(xiàng)目“i”的MIS 值。β ∈[0,1]是一個(gè)參數(shù),它控制項(xiàng)目的MIS 值,與其頻率相關(guān)。f(i)是項(xiàng)目“i”的頻率值。LS 是一個(gè)使用指定值,表示允許的最小支持。此外,對(duì)于ICFP-Growth,有:

        在本實(shí)驗(yàn)中,我們將FP-Growth 的最小支持定義為40,對(duì)于CFP-Growth的β等于0.1,LS等于40,對(duì)于ICFP-Growth,SD值為0.1,LMS等于50,LMIS等于40。

        針對(duì)CFP-Growth的MIS值生成結(jié)果如表2所示。此外,對(duì)于ICFP-Growth,MIS 值初始化的結(jié)果在表3中給出。

        表2 CFP-Growth算法的MIS值

        表3 ICFP-Growth算法的MIS值

        在該數(shù)據(jù)集上應(yīng)用這三種算法后,獲得了三個(gè)包含關(guān)聯(lián)規(guī)則的模型,如圖10所示。

        圖10 已獲取關(guān)聯(lián)規(guī)則

        我們所提模型的結(jié)構(gòu)是(left)→(right,Confidence)。左為因,右為果。置信度是[0,1] 范圍內(nèi)的一個(gè)數(shù)字,它可以表示有多少左可以將我們引向右,有多少原因可以導(dǎo)致結(jié)果,使用式⑷計(jì)算置信度:

        圖11顯示了所有特征之間的關(guān)聯(lián)規(guī)則,但在所給例子中,想要做一個(gè)分類(lèi)模型,因?yàn)檫^(guò)濾關(guān)聯(lián)規(guī)則以在結(jié)果(右)中只包含代表類(lèi)的項(xiàng)目('0'和'1'),結(jié)果如圖11所示。

        圖11 關(guān)聯(lián)規(guī)則結(jié)果

        在圖中有分類(lèi)模型的關(guān)聯(lián),例如有這個(gè)關(guān)聯(lián)規(guī)則('A2','BMI2','G2','P2')→(('1'),0.89)。這表示如果個(gè)人的年齡在[30,80]之間,則為A2。BMI2體重指數(shù)在[30,60]范圍內(nèi),G2血漿葡萄糖濃度在口服葡萄糖耐量試驗(yàn)中2小時(shí)在[125,200]范圍內(nèi),P2懷孕次數(shù)在[7,17]之間,因此可以看到該個(gè)體患有糖尿病,置信度為0.89。

        3 性能評(píng)價(jià)

        FP-Growth、CFP-Growth 和ICFP-Growth 這三種算法使用與在訓(xùn)練數(shù)據(jù)集上應(yīng)用的相同預(yù)處理進(jìn)行評(píng)估,以將數(shù)值數(shù)據(jù)集轉(zhuǎn)換為事務(wù)數(shù)據(jù)集。之后,從數(shù)據(jù)集中取出一個(gè)事務(wù),并計(jì)算測(cè)試事務(wù)與模型關(guān)聯(lián)規(guī)則左側(cè)的距離。在這種情況下,使用一種方法來(lái)計(jì)算距離。例如,有T測(cè)試交易和G模型中存在的關(guān)聯(lián)規(guī)則的左側(cè)。T=['P1','G1','B2','S2','I3','BMI2','D2','A2'],G=['A1','B3','BMI2','D1','G2','I2','P1']。

        首先,在數(shù)據(jù)集中有八個(gè)特征。將距離初始化為8,并檢查T(mén) 的每個(gè)項(xiàng)目是否存在于G 中,并且對(duì)于每個(gè)項(xiàng)目存在,將距離減1。在這個(gè)例子中,有P1存在于T 和G,所以距離是7。另外,G1 不存在于G,所以仍然有距離是7,而B(niǎo)2、S2、I3、D2、A2 也沒(méi)有。t 存在于G 中,有BMI2存在,所以將距離減1,這時(shí)有距離等于6,G 和T 之間的距離是6。另外,在計(jì)算距離之后,選擇三個(gè)closet 關(guān)聯(lián)規(guī)則,計(jì)算誰(shuí)對(duì)“0”和“1”投了多少票,然后選擇票數(shù)最高的類(lèi)。在這個(gè)測(cè)試過(guò)程之后,計(jì)算每個(gè)算法的準(zhǔn)確性。三種算法FP-Growth、CFP-Growth和ICFP-Growth的準(zhǔn)確率分別為51.30%,57%和60.5%。

        4 總結(jié)

        頻繁項(xiàng)目集挖掘是數(shù)據(jù)挖掘中的一個(gè)重要課題。本文實(shí)現(xiàn)了三種關(guān)聯(lián)規(guī)則算法,即FP-Growth、CFPGrowth 和ICFP-Growth。這些算法使用python 編程語(yǔ)言提取糖尿病數(shù)據(jù)集上的頻繁項(xiàng)目集。實(shí)驗(yàn)結(jié)果表明,ICFP-Growth比其他兩種算法更準(zhǔn)確。

        猜你喜歡
        關(guān)聯(lián)可視化數(shù)量
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        基于CGAL和OpenGL的海底地形三維可視化
        “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
        “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
        統(tǒng)一數(shù)量再比較
        奇趣搭配
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        頭發(fā)的數(shù)量
        我國(guó)博物館數(shù)量達(dá)4510家
        亚洲中文字幕无线乱码va | 男子把美女裙子脱了摸她内裤| 一区二区三区日本高清| 隔壁老王国产在线精品| 久久精品人人爽人人爽| 久久一区二区三区四区| 国产精品亚洲av一区二区三区| 亚洲偷自拍国综合第一页| 国产精品亚洲欧美大片在线看| 在线精品国产一区二区| 国产99久久精品一区| 富婆猛男一区二区三区| 精品久久香蕉国产线看观看亚洲| 中文字幕久久久精品无码| 国产人成在线免费视频| 真实夫妻露脸爱视频九色网| 国产精品欧美一区二区三区| 无码国产精品一区二区免费97| 天堂av中文在线官网| 日韩午夜理论免费tv影院| 日本丰满熟妇bbxbbxhd| 精品国产91久久综合| 精品精品国产一区二区性色av | 国产视频一区二区三区在线看| 日韩精品综合一本久道在线视频 | 国产成人无码a区在线观看导航 | 亚洲国产一区二区三区在线观看 | 欧美午夜刺激影院| 国产成人精品自在线无码| 亚洲av午夜福利一区二区国产 | 91麻豆精品激情在线观最新| 亚洲一区二区三区中国| 日韩高清在线观看永久| 国产视频在线一区二区三区四区 | 亚洲天堂久久午夜福利| 欧美日韩国产码高清综合人成| 99精品成人片免费毛片无码| 亚洲人妻精品一区二区三区| 亚洲夜夜性无码| 亚洲中久无码永久在线观看软件| av亚洲在线一区二区|