亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于身高和拃長(zhǎng)數(shù)據(jù)的性別分類研究

        2016-09-21 06:53:46王澤昕陜西省商洛中學(xué)
        科學(xué)中國(guó)人 2016年24期
        關(guān)鍵詞:錯(cuò)誤率模式識(shí)別貝葉斯

        王澤昕陜西省商洛中學(xué)

        基于身高和拃長(zhǎng)數(shù)據(jù)的性別分類研究

        王澤昕
        陜西省商洛中學(xué)

        本文以身高和拃長(zhǎng)②數(shù)據(jù)為特征,對(duì)男女性別進(jìn)行分類,采用的分類方法為最小錯(cuò)誤率貝葉斯決策。本文統(tǒng)計(jì)了樣本數(shù)為25時(shí)的決策分類詳細(xì)結(jié)果,并研究了樣本數(shù)為5~50時(shí)錯(cuò)誤率的變化趨勢(shì)。研究結(jié)果表明,以身高和拃長(zhǎng)數(shù)據(jù)為特征時(shí),能夠較為有效地區(qū)分出男女性別,且當(dāng)訓(xùn)練集樣本數(shù)量逐漸增大時(shí),錯(cuò)誤率顯現(xiàn)出逐漸減小的趨勢(shì)。

        性別分類;模式識(shí)別;貝葉斯決策;Matlab編程

        1.引言

        模式識(shí)別(也稱模式分類)是指對(duì)表征事物或現(xiàn)象的各種形式的(數(shù)值的、文字的和邏輯關(guān)系的)信息進(jìn)行處理和分析,以對(duì)事物或現(xiàn)象進(jìn)行描述、辨認(rèn)、分類和解釋的過程,是信息科學(xué)和人工智能的重要組成部分,被廣泛運(yùn)用與文字識(shí)別、語(yǔ)音識(shí)別、指紋識(shí)別、遙感、醫(yī)學(xué)診斷等領(lǐng)域。

        性別分類是模式識(shí)別領(lǐng)域中廣受關(guān)注的一個(gè)問題,它能體現(xiàn)男女性別在某些方面的差異,為人體生理學(xué)和心理學(xué)等方面研究提供理論基礎(chǔ)和數(shù)據(jù)支持。目前,已有學(xué)者進(jìn)行了人臉特征性別分類[1][2]、社交媒體使用習(xí)慣的性別分類[3]、觸覺經(jīng)驗(yàn)性別分類[4]、基于語(yǔ)音的性別分類[5]、基于頭發(fā)信息的性別分類[6]、基于步態(tài)的性別分類[7]等。

        本論文將研究利用人體某些數(shù)值型的生理數(shù)據(jù)(身高與手掌長(zhǎng)度)進(jìn)行分類,以探索出性別分類的簡(jiǎn)易、方便的模型和方法,同時(shí)加深人們對(duì)男女性別與生理特征之間的關(guān)系的理解。模式識(shí)別包含許多種分類方法,能夠?qū)υS多領(lǐng)域的問題進(jìn)行數(shù)據(jù)處理和分析。本課題采用最小錯(cuò)誤率貝葉斯決策方法,以人體的身高和拃長(zhǎng)數(shù)據(jù)為特征,對(duì)數(shù)據(jù)集進(jìn)行性別分類。本課題的特征數(shù)據(jù)易于搜集和處理,且分類錯(cuò)誤率較低,有力地體現(xiàn)了男女性別在這兩種體征上的差異性。

        2.分類方法介紹

        分類可以看成一種決策過程,也即我們根據(jù)對(duì)樣本的觀測(cè)做出其應(yīng)歸屬哪一類的決策[8]。我們采用的分類方法為最小錯(cuò)誤率貝葉斯決策。下面我們將詳細(xì)介紹最小錯(cuò)誤率貝葉斯決策的決策原理。

        在這里,我們僅討論兩類的情況:記類別為ω1和ω2,假設(shè)現(xiàn)在我們已知數(shù)據(jù)的特征x,用P(ω1|x)和P(ω2|x)分別表示此時(shí)兩類的后驗(yàn)概率。所謂后驗(yàn)概率,是指某事件已經(jīng)發(fā)生,要求該事件發(fā)生的原因是由某個(gè)因素引起的可能性的大小。例如,此處的P(ω1|x)和P(ω2|x)分別表示,在已知我們觀測(cè)到數(shù)據(jù)特征為x時(shí),造成我們觀測(cè)到特征為x的原因分別是由于該數(shù)據(jù)屬于ω1和ω2的概率。

        根據(jù)貝葉斯公式,我們可以將P(ωi|x)(i=1,2)表示為:

        其中P(ωi)(i=1,2)為ω1和ω2這兩類的先驗(yàn)概率。所謂先驗(yàn)概率,就是在事件還沒有發(fā)生,要求這件事情發(fā)生的可能性的大小。在此處,先驗(yàn)概率P(ωi)(i=1,2)是指我們還沒有開始進(jìn)行觀測(cè)樣本時(shí),ω1類和ω2類的概率。通??梢杂妙A(yù)先知道的知識(shí)(例如ω1類和ω2類的數(shù)量占比)來(lái)得到。

        在一般的模式識(shí)別問題中,我們往往希望盡量減少分類的錯(cuò)誤率,即目標(biāo)是追求最小錯(cuò)誤率。從這一目標(biāo)要求出發(fā),利用(2-1)中的貝葉斯公式就能得出使得錯(cuò)誤率最小的分類決策,稱之為最小錯(cuò)誤率貝葉斯決策。最小錯(cuò)誤率貝葉斯決策可描述為:

        P(x|ωi)(i=1,2)的具體值可由訓(xùn)練集數(shù)據(jù)在一定分布假設(shè)下求得。通常我們可認(rèn)為人群中的身高和拃長(zhǎng)分布滿足正態(tài)分布,雙變量正態(tài)分布聯(lián)合概率密度函數(shù)公式為如下:

        其中-∞<x,y<+∞;-∞<μ1,μ2<+∞;σ1,σ2>0;-1≤ρ≤1。其中μ1,μ2分別為x和y的均值,σ12,σ22分別為x和y的方差,ρ為x 和y的相關(guān)系數(shù)。

        3.研究方案設(shè)計(jì)

        3.1數(shù)據(jù)集說(shuō)明

        本課題所采用的數(shù)據(jù)集來(lái)自于賓夕法尼亞州立大學(xué)Mind on Statistic公開數(shù)據(jù)庫(kù)①。該數(shù)據(jù)集包含167名大學(xué)生的身高(單位:英寸)與拃長(zhǎng)數(shù)據(jù)(單位:厘米),其中女性89名,男性78名。

        我們?cè)跀?shù)據(jù)集中隨機(jī)挑選一定數(shù)目的數(shù)據(jù)作為訓(xùn)練集(訓(xùn)練集中男女性別數(shù)量一致),而測(cè)試集為整個(gè)原始數(shù)據(jù)集。我們首先選取了樣本數(shù)為25的訓(xùn)練集,對(duì)最小錯(cuò)誤率貝葉斯分類器進(jìn)行訓(xùn)練,得到參數(shù)。為了研究訓(xùn)練集大小對(duì)分類效果的影響,我們研究并記錄了訓(xùn)練集大小為5~50的情況下分類錯(cuò)誤率,并繪制了錯(cuò)誤率隨訓(xùn)練集大小變化的趨勢(shì)圖,具體結(jié)果見第4章。

        3.2整體錯(cuò)誤率的計(jì)算

        整體錯(cuò)誤率的計(jì)算公式如下:

        也即整體錯(cuò)誤率是各類錯(cuò)誤率的加權(quán)平均和,各類的錯(cuò)誤率的權(quán)重即為該類的先驗(yàn)概率。其中P(ω1)和P(ω2)分別代表ω1類和ω2類的先驗(yàn)概率,e1和e2分別代表ω1類和ω2類的分類錯(cuò)誤率。e1與e2的計(jì)算公式如下:

        3.3仿真環(huán)境介紹

        在本課題中,我們采用MATLAB作為仿真環(huán)境。MATLAB是美國(guó)Math Works公司出品的商業(yè)數(shù)學(xué)軟件,在數(shù)值計(jì)算方面具有強(qiáng)大的能力,被廣大科研人員和工程技術(shù)人員所采用。我們主要用MATLAB的m文件編程功能來(lái)進(jìn)行數(shù)據(jù)的預(yù)處理、最小錯(cuò)誤率貝葉斯分類器的建立以及決策分類過程的實(shí)現(xiàn)。

        3.4 MATLAB程序設(shè)計(jì)框架

        本課題的MATLAB程序設(shè)計(jì)思路及流程如下:

        (1)數(shù)據(jù)預(yù)處理。首先將公開數(shù)據(jù)集導(dǎo)入到Excel表格中,然后利用MATLAB的m文件編寫讀取數(shù)據(jù)的函數(shù),將數(shù)據(jù)讀取到MATLAB工作空間中。

        (2)設(shè)定訓(xùn)練樣本數(shù)量,從數(shù)據(jù)集中隨機(jī)選取一定數(shù)目的樣本作為訓(xùn)練集。根據(jù)訓(xùn)練樣本計(jì)算公式(2-3)中的μ1,μ2,σ12,σ22,ρ,以便后續(xù)建立最小錯(cuò)誤率貝葉斯分類器。

        (3)根據(jù)(2)中計(jì)算結(jié)果,結(jié)合(2-3)可得P(x|ωi)(i=1,2)的表達(dá)式,并結(jié)合(2-2)建立最小錯(cuò)誤率貝葉斯分類器。

        (4)利用(3)中建立的最小錯(cuò)誤率貝葉斯分類器,對(duì)測(cè)試集每個(gè)樣本進(jìn)行決策分類,決策分類的依據(jù)為(2-2)。

        (5)利用公式(3-2)和公式(3-3)計(jì)算ω1類和ω2類的錯(cuò)誤率,并利用公式(3-1)計(jì)算整體錯(cuò)誤率,以判斷決策效果。先驗(yàn)概率P (ω1)和P(ω2)均取0.5,即默認(rèn)男女比例為1:1。這和我們的日常生活經(jīng)驗(yàn)是一致的。

        (6)改變樣本大小,將樣本大小從5取到50,分別統(tǒng)計(jì)不同樣本大小下的的整體錯(cuò)誤率。

        4.決策分類結(jié)果

        我們采用Matlab建立最小錯(cuò)誤率貝葉斯分類器,首先在樣本大小為25的情況下進(jìn)行決策分類。決策分類中間過程參數(shù)值及最終錯(cuò)誤率見表4.1。

        表4.1 樣本數(shù)為25時(shí)的決策分類結(jié)果記錄表

        接下來(lái),我們對(duì)訓(xùn)練集大小為5~50的情況進(jìn)行了分類,共計(jì)46次分類實(shí)驗(yàn)。為了減小數(shù)據(jù)隨機(jī)噪聲的影響,在每次分類實(shí)驗(yàn)中,我們進(jìn)行了共計(jì)10次測(cè)試,并統(tǒng)計(jì)每次測(cè)試的錯(cuò)誤率,而后求取平均值,作為最終的錯(cuò)誤率。46次實(shí)驗(yàn)對(duì)應(yīng)的錯(cuò)誤率與訓(xùn)練集大小之間的關(guān)系記錄如表4.2,變化趨勢(shì)圖如圖4.1:

        表4.2 樣本數(shù)為5~50時(shí)的決策分類結(jié)果記錄表

        由表4.2和圖4.1可見,分類錯(cuò)誤率隨著訓(xùn)練集的增大有減小的趨勢(shì)。

        5.總結(jié)

        性別分類是模式識(shí)別領(lǐng)域中廣受關(guān)注的一個(gè)問題,它能體現(xiàn)男女性別在某些方面的差異,為人體生理學(xué)和心理學(xué)等方面研究提供理論基礎(chǔ)和數(shù)據(jù)支持。本文采用最小錯(cuò)誤率貝葉斯決策方法,利用賓夕法尼亞州立大學(xué)Mind on Statistic公開數(shù)據(jù)庫(kù)的數(shù)據(jù)集,對(duì)身高和拃長(zhǎng)數(shù)據(jù)集進(jìn)行性別分類。本課題的算法實(shí)現(xiàn)相對(duì)簡(jiǎn)單,且數(shù)據(jù)易于搜集和處理,分類結(jié)果較為明顯。同時(shí),我們發(fā)現(xiàn),分類錯(cuò)誤率隨著訓(xùn)練集的增大有減小的趨勢(shì),說(shuō)明在有條件的情況下應(yīng)選取盡可能多的數(shù)據(jù)作為訓(xùn)練集。

        注釋:

        ①Data Sets for Mind on Statistics(Utts and Heckard):http:// sites.stat.psu.edu/~rho/mindon/readme.htm l

        ②拃長(zhǎng):指一個(gè)人張開大姆指和中指(或小指)兩端的距離。

        [1]趙海英,楊一帆,徐正光.基于多角度LBP特征的三維人臉性別分類[J].自動(dòng)化學(xué)報(bào),2012,09:1544-1549.

        [2]武勃,艾海舟,肖習(xí)攀,徐光祐.人臉的性別分類[J].計(jì)算機(jī)研究與發(fā)展,2003,11:1546-1553.

        [3]王晶晶,李壽山,黃磊.中文微博用戶性別分類方法研究[J].中文信息學(xué)報(bào),2014,06:150-155+168.

        [4]崔倩,葉浩生.觸覺經(jīng)驗(yàn)對(duì)性別分類的影響:具身的視角[J].廣州大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2013,03:41-45.

        [5]高原.基于性別分類的說(shuō)話人識(shí)別研究[D].江蘇師范大學(xué),2012.

        [6]劉爽,謝金融,呂寶糧.基于頭發(fā)信息的性別分類[J].計(jì)算機(jī)仿真,2009,02:212-216.

        [7]余美霞.基于步態(tài)的性別分類研究[D].北方工業(yè)大學(xué),2013.

        [8]張學(xué)工.模式識(shí)別[M].第三版.北京:清華大學(xué)出版社,2010:13-13.

        王澤昕(1999-),男,漢族,陜西省商洛人,就讀于陜西省商洛中學(xué),高中在讀,研究方向機(jī)械自動(dòng)化與智能系統(tǒng)。

        猜你喜歡
        錯(cuò)誤率模式識(shí)別貝葉斯
        限制性隨機(jī)試驗(yàn)中選擇偏倚導(dǎo)致的一類錯(cuò)誤率膨脹*
        貝葉斯公式及其應(yīng)用
        正視錯(cuò)誤,尋求策略
        教師·中(2017年3期)2017-04-20 21:49:49
        淺談模式識(shí)別在圖像識(shí)別中的應(yīng)用
        第四屆亞洲模式識(shí)別會(huì)議
        解析小學(xué)高段學(xué)生英語(yǔ)單詞抄寫作業(yè)錯(cuò)誤原因
        基于貝葉斯估計(jì)的軌道占用識(shí)別方法
        一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        第3屆亞洲模式識(shí)別會(huì)議
        降低學(xué)生計(jì)算錯(cuò)誤率的有效策略
        AV在线毛片| 中文成人无字幕乱码精品区| 麻豆国产成人av高清在线观看| 免费国产黄片视频在线观看| 日韩黄色大片免费网站| 国产亚洲精品美女久久久久| 亚洲国产另类精品| 国产免费AV片在线看| 亚洲av一区二区三区网站| 免费av网站大全亚洲一区| 成人免费无码大片a毛片软件| 好吊妞人成免费视频观看| 中文字幕人妻少妇久久| 国产高清一区二区三区四区色| 最近中文字幕大全在线电影视频| 国产精品主播视频| 一区二区三区在线观看精品视频| 亚洲中文字幕av天堂自拍| 久久人与动人物a级毛片| 国产激情视频在线观看首页| 国产麻豆国精精品久久毛片| 一本无码中文字幕在线观| 无码人妻丰满熟妇片毛片| 国产目拍亚洲精品一区二区| 亚洲av狠狠爱一区二区三区| 国产又色又爽无遮挡免费软件| 69精品丰满人妻无码视频a片| 人妻中文字幕一区二区二区| 漂亮人妻被强了中文字幕| 国产高清av首播原创麻豆| 无码日韩AⅤ一区二区三区| 中文字幕久久国产精品| 2018天天躁夜夜躁狠狠躁| 欧美亚洲精品一区二区| 99久久久精品国产性黑人| 在线观看 国产一区二区三区| 性欧美videofree高清精品| 2021精品国产综合久久| 女主播国产专区在线观看| 亚洲av精品一区二区三区| 亚州综合激情另类久久久|