亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于樸素貝葉斯分類方法對(duì)公民身體健康狀況的研究

        2019-05-12 09:00:20張旭光
        市場(chǎng)周刊 2019年3期
        關(guān)鍵詞:數(shù)據(jù)挖掘分類

        摘要:肥胖問題一直是人類難以擺脫的健康問題。為了更深入了解肥胖問題,本文從KDD Dataset下載有關(guān)公民身體各項(xiàng)指標(biāo)的有關(guān)調(diào)查數(shù)據(jù),選擇的主要指標(biāo)有性別(Gender)、種族(Race_Ethnicity)、婚姻狀況(Marital_Status)、身體質(zhì)量指數(shù)(BMI)、腰圍(Waist)共5項(xiàng)指標(biāo)來反映公民健康情況。本文使用數(shù)據(jù)挖掘分類規(guī)則中的樸素貝葉斯分類進(jìn)行分析,對(duì)樣本所屬分類進(jìn)行預(yù)測(cè)。

        關(guān)鍵詞:數(shù)據(jù)挖掘;樸素貝葉斯;分類

        中圖分類號(hào):G254.11文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1008-4428(2019)03-0126-02

        一、 引言

        數(shù)據(jù)挖掘(Data Mining),是數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(KDD, Knowledge Discovery in Databases)的步驟之一,是從大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中提取人們感興趣的知識(shí)的過程,這些知識(shí)是隱含的、實(shí)現(xiàn)未知的、潛在有用的信息。數(shù)據(jù)挖掘作為一門交叉學(xué)科,涉及機(jī)器學(xué)習(xí)、模式識(shí)別、歸納推理、統(tǒng)計(jì)學(xué)、智能數(shù)據(jù)庫(kù)、數(shù)據(jù)可視化高性能計(jì)算等多個(gè)領(lǐng)域。

        數(shù)據(jù)挖掘的主要任務(wù)是從大量數(shù)據(jù)中提取出可信的、新穎的、有效的并能被人們理解的模式,挖掘數(shù)據(jù)背后蘊(yùn)含的許多重要的信息以便充分利用這些數(shù)據(jù)。數(shù)據(jù)挖掘的兩個(gè)高層次目標(biāo)是預(yù)測(cè)和描述。前者是根據(jù)一些變量或數(shù)據(jù)庫(kù)的若干已知字段預(yù)測(cè)其他感興趣的變量或字段的未知的未來的值;后者是找到描述數(shù)據(jù)的可理解模式。根據(jù)發(fā)現(xiàn)知識(shí)的不同,可以將數(shù)據(jù)挖掘人為歸納為特征規(guī)則、序列模式、分類、關(guān)聯(lián)規(guī)則、聚類、預(yù)測(cè)、變化和偏差分析。

        在數(shù)據(jù)挖掘的各種方法中,分類是一種主要的分析手段,旨在生成一個(gè)分類函數(shù)或分類模型,由該模型把數(shù)據(jù)庫(kù)中的數(shù)據(jù)映射到某一給定類別中,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)的分類。目前研究的分類模型主要有決策樹、貝葉斯分類、神經(jīng)網(wǎng)絡(luò)、粗糙集、統(tǒng)計(jì)方法、遺傳算法等。

        近年來,隨著人民生活水平的普遍提高,人民的身體健康問題越來越被得到重視。在國(guó)家發(fā)布“健康中國(guó)”的號(hào)令后,健身、慢走等運(yùn)動(dòng)成了百姓們更熱衷的休閑方式。為了探究什么因素對(duì)人類肥胖有影響,本文從KDD Dataset下載有關(guān)公民身體各項(xiàng)指標(biāo)的有關(guān)調(diào)查數(shù)據(jù),使用分類方法中的樸素貝葉斯分類進(jìn)行分析,對(duì)樣本所屬分類進(jìn)行預(yù)測(cè),這能對(duì)人們有效地關(guān)注人類健康問題提供建議。

        二、 貝葉斯理論背景

        (一)條件概率和乘法定理

        已知事件A發(fā)生的條件下,事件B發(fā)生的概率,叫作事件B在事件A發(fā)生下的條件概率,記為P(B|A),其中P(A)叫作先驗(yàn)概率,P(B|A)叫作后驗(yàn)概率,

        計(jì)算條件概率的公式為:P(B|A)=P(B∩A)P(A)

        條件概率公式通過變形得到乘法公式:P(B∩A)=P(B|A)×P(A)

        (二)事件的獨(dú)立性

        設(shè)A,B為兩個(gè)隨機(jī)事件,如果有P(AB)=P(A)×P(B)成立,則稱事件A和B相互獨(dú)立,此時(shí)有P(A|B)=P(A),P(AB)=P(A)P(B)成立。

        設(shè)A1,A2,…,An為n個(gè)隨機(jī)事件,如果對(duì)其中任意m個(gè)(2≤m≤n)個(gè)事件Ak1,Ak2,…,Akm,都有P(Ak1,Ak2,…,Akm)=P(Ak1)P(Ak2)…,P(Akm)成立,則稱事件Ak1,Ak2,…,Akm相互獨(dú)立。

        (三)貝葉斯公式

        設(shè)B1,B2,…,Bn為互不相容事件,P(Bi)>0,i=1,2,…,n,P(A)>0,則在事件A發(fā)生的條件下,事件Bi發(fā)生的概率為,P(Bi|A)=P(BiA)P(A)=P(Bi)×P(A|Bi)∑ni=1P(Bi)×P(A|Bi)則該公式稱為貝葉斯公式。

        (四)極大后驗(yàn)假設(shè)和極大似然假設(shè)

        首先介紹先驗(yàn)概率。先驗(yàn)概率(prior probability)表示的是還沒有訓(xùn)練數(shù)據(jù)前,某一假設(shè)所擁有的初始概率,它反映了這一假設(shè)是正確假設(shè)的背景知識(shí)多少。令P(C)是假設(shè)C的先驗(yàn)概率,X為訓(xùn)練樣本,P(X)為將要觀察的訓(xùn)練樣本X的先驗(yàn)概率。P(X|C)表示在假設(shè)C正確的條件下樣本X出現(xiàn)的概率,根據(jù)貝葉斯公式可以得到后驗(yàn)概率的計(jì)算公式:P(C|X)=P(X|C)P(C)P(X),它反映了訓(xùn)練樣本X出現(xiàn)后假設(shè)C成立的置信度。

        設(shè)C為待選的假設(shè)集合,在給定訓(xùn)練樣本X時(shí),通過計(jì)算找到可能性最大的假設(shè)(或存在多個(gè)這樣的假設(shè)時(shí)選擇其中之一)c∈C,具有最大可能性的假設(shè)被稱為極大后驗(yàn)假設(shè)(maximum a posteriori),記cmap=argmaxc∈CP(c|X)=argmaxc∈CP(X|c)P(c)P(X)。由于P(C)與假設(shè)C無關(guān),上式可變?yōu)椋篶map=argmaxc∈CP(X|c)P(c)。確定極大后驗(yàn)假設(shè)的方法是用貝葉斯公式計(jì)算每個(gè)候選假設(shè)的后驗(yàn)概率。

        如果沒有給定類別概率的情形下,假設(shè)C中每個(gè)假設(shè)都有相等的先驗(yàn)概率(即對(duì)C中任意的ci,cj∈C(i≠j),有 P(ci)=P(cj)),進(jìn)一步簡(jiǎn)化后,計(jì)算使P(X|c)達(dá)到最大的假設(shè),這時(shí)P(X|c)被稱為極大似然假設(shè)(maximum likelihood),記為cml=argmaxc∈CP(X|c)。

        三、 樸素貝葉斯分類模型

        樸素貝葉斯分類器(Naive Bayes Classifier, NBC)是貝葉斯分類模型中一種最簡(jiǎn)單、有效而且易于實(shí)現(xiàn)的分類器,多用于文本分類,比如垃圾郵件過濾。其基本思想是:對(duì)于待分類的樣本,求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,將此待分類項(xiàng)歸類為概率最大的類別。求解樸素貝葉斯分類的工作過程如下:

        1. 設(shè)待分類樣本為X={x1,x2,…,xn}。

        2. 設(shè)類別集合為C={c1,c2,…,cm},預(yù)測(cè)X屬于某一類的過程即為求解P(ci|X)最大值的過程。

        3. 根據(jù)貝葉斯定理,要使得P(ci|X)最大化,需要P(X|ci)P(ci)最大化。其中ci類的先驗(yàn)概率P(ci)用頻率Si/S去估計(jì),Si是給定類別Ci中訓(xùn)練樣本的個(gè)數(shù),S是訓(xùn)練樣本的總數(shù)。

        4. 對(duì)待分類樣本進(jìn)行劃分,如果有:P(ci|X)=max{P(c1|X),P(c2|X),…,P(cm|X)},則X∈Ci。

        四、 樸素貝葉斯分類模型

        (一)實(shí)驗(yàn)平臺(tái)

        本實(shí)驗(yàn)是在WEKA 3.6平臺(tái)上完成的。WEKA(Waikato Environment for Knowledge Analysis)是一種具有全面功能的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘應(yīng)用程序平臺(tái)。該軟件集成了許多能完成數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,其中包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、聚類、分類、關(guān)聯(lián)規(guī)則挖掘等,它還能夠提供豐富的可視化功能。

        (二)數(shù)據(jù)來源及預(yù)處理

        本文數(shù)據(jù)來源于KDD Dataset中的分類數(shù)據(jù),通過刪除一些不相關(guān)因素和缺失數(shù)據(jù),再進(jìn)行規(guī)約后,得到10149個(gè)公民的身體狀況表。

        (三)分析過程與結(jié)果

        本次實(shí)驗(yàn)分為兩次進(jìn)行,第一次實(shí)驗(yàn)隨機(jī)選擇70%的數(shù)據(jù)作為訓(xùn)練集,剩余30%作為測(cè)試集。WEKA的分類結(jié)果展示如表1:

        五、 總結(jié)

        本文從KDD Dataset下載有關(guān)公民身體各項(xiàng)指標(biāo)的有關(guān)調(diào)查數(shù)據(jù),選擇的主要指標(biāo)有性別(Gender)、種族(Race_Ethnicity)、婚姻狀況(Marital_Status)、身體質(zhì)量指數(shù)(BMI)、腰圍(Waist)共5項(xiàng)指標(biāo)來反映公民健康情況。本文使用分類規(guī)則中的樸素貝葉斯分類進(jìn)行分析,對(duì)樣本所屬分類進(jìn)行預(yù)測(cè)。預(yù)測(cè)結(jié)果顯示,基于樸素貝葉斯算法分類對(duì)結(jié)果的預(yù)測(cè)準(zhǔn)確率很高,一個(gè)人是否肥胖,確實(shí)和性別、種族、婚姻狀況、身體質(zhì)量指數(shù)相關(guān),但文中并沒有指出他們之間的具體關(guān)系,這是本文的不足之處。

        參考文獻(xiàn):

        [1]王峻.樸素貝葉斯分類模型的研究與應(yīng)用[D].合肥:合肥工業(yè)大學(xué),2006.

        [2]韓家煒,Kamber.M.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.

        [3]蔣良孝.樸素貝葉斯分類器及其改進(jìn)算法研究[D].武漢:中國(guó)地質(zhì)大學(xué),2009.

        [4]段晶.樸素貝葉斯分類及其應(yīng)用研究[D].大連:大連海事大學(xué),2011.

        作者簡(jiǎn)介:

        張旭光,男,河南商丘人,新疆財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與信息學(xué)院碩士研究生,研究方向:大數(shù)據(jù)應(yīng)用。

        猜你喜歡
        數(shù)據(jù)挖掘分類
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        給塑料分分類吧
        国产高清女主播在线观看| 人妻熟妇乱系列| 国产精品自拍首页在线观看 | 性感女教师在线免费观看| 亚洲国产精品无码专区| 欧美多毛肥胖老妇做爰| 久草视频在线这里只有精品| 久久精品亚洲精品国产区| 超短裙老师在线观看一区| 国产免费人成视频网站在线18| 日韩精品久久久久久久电影蜜臀| 久久久久无码精品亚洲日韩| 少妇被粗大猛进进出出| 国产传媒精品成人自拍| 国产伦精品免编号公布| 99re6热在线精品视频播放6| 国产精品一区二区三密桃| 久久夜色国产精品噜噜亚洲av | 日本人妻免费一区二区三区| 免费a级作爱片免费观看美国| 日韩我不卡| 激情视频在线播放一区二区三区| 亚洲成av人片一区二区密柚| 免费无码黄动漫在线观看| 日本视频一区二区三区免费观看 | 呦系列视频一区二区三区| 香蕉久久久久久久av网站| 人妻无码中文专区久久AV| 日本久久精品福利视频| 久久久久久曰本av免费免费| 国产小视频网址| 最新亚洲视频一区二区| 国产成人精品优优av| 国产精品人妻一区夜夜爱| 亚洲AV秘 无码一区二区在线| 邻居人妻的肉欲满足中文字幕| 私人毛片免费高清影视院| 亚洲阿v天堂网2021| 亚洲第一女优在线观看| 国产成人无码精品久久久露脸| 欧美一级欧美一级在线播放|