亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        人臉關(guān)鍵點檢測

        2015-05-30 17:41:51章樂
        中國新通信 2015年20期
        關(guān)鍵詞:方根關(guān)鍵點線性

        章樂

        【摘要】 人臉關(guān)鍵點檢測又稱臉部關(guān)鍵點定位。在機器學(xué)習(xí)的領(lǐng)域里,人臉關(guān)鍵點檢測技術(shù)有著其獨特的應(yīng)用價值,因為該技術(shù)是眾多臉部圖片處理的先序步驟,這些應(yīng)用包括但不限于人臉識別,臉部表情分析,臉部變形動畫。本文嘗試了四種不同的機器學(xué)習(xí)模型來實現(xiàn)人臉關(guān)鍵點的檢測,并利用Kaggle數(shù)據(jù)庫對各模型的檢測效果進行橫向?qū)Ρ?。其中卷積神經(jīng)網(wǎng)絡(luò)模型擬合效果最好,其Kaggle測試均方根誤差僅為3.21。

        【關(guān)鍵字】 Kaggle 人臉關(guān)鍵點檢測 線性回歸 支持向量機 前饋神經(jīng)網(wǎng)絡(luò) 卷積神經(jīng)網(wǎng)絡(luò)

        一、Kaggle數(shù)據(jù)庫簡介

        Kaggle數(shù)據(jù)庫一共提供了7049張96x96像素的訓(xùn)練灰度圖。對于每個樣本點,數(shù)據(jù)庫提供15個關(guān)鍵點的x, y坐標(biāo)(關(guān)鍵點坐標(biāo)允許部分缺失),即30個訓(xùn)練特征(feature)。對于測試數(shù)據(jù)集,Kaggle提供了1783臉部灰度圖。模型預(yù)測坐標(biāo)將被用于與Kaggle內(nèi)置的臉部關(guān)鍵點坐標(biāo)進行比對,其相應(yīng)的均方根誤差(RMSE)為模型得分。

        二、線性回歸

        2.1 線性回歸模型存在的問題

        對于線性回歸模型,9216個像素灰度值將被作為輸入特征,而相應(yīng)的15個人臉關(guān)鍵點(位于眼、鼻、嘴等處)的X,Y坐標(biāo)將被視為目標(biāo)變數(shù)(variable)。為解決模型的過度擬合問題(overfitting),我們采取了部分特征抽樣的方法以減少輸入特征。

        2.2 特征提取

        在給定特征抽樣比例時,我們?nèi)孕鑼?216個輸入特征進行篩選。分段啟發(fā)函數(shù)(stepwise methods)是一個普適的特征選擇方法[1],但隨機性過強的分段方法并沒有充分考慮臉部關(guān)鍵點坐標(biāo)間存在的聯(lián)系 。

        與一般機器學(xué)習(xí)問題不同,關(guān)鍵點定位存在很直觀的特征提取啟發(fā)策略—我們可僅提取眼、鼻、嘴處的像素值。實驗中,我們采用了以健壯性著稱的方向梯度直方圖HOG(Histogram of Oriented Gradients)來探測并截取其對應(yīng)區(qū)域的像素,如圖1所示[2]。

        2.3 模型復(fù)雜度控制

        我們從左右眼、鼻及嘴區(qū)域截取了長寬分別是H,W的像素塊作為線性回歸模型的輸入特征,通過調(diào)整像素塊的大小來控制模型的復(fù)雜度。當(dāng)H與W增大時,模型復(fù)雜度隨之增加。在實驗中我們發(fā)現(xiàn),檢驗方差及訓(xùn)練方差(Validation and traning MSE)隨著像素塊的增大而減小。這說明我們得到的線性回歸模型仍處于欠擬合區(qū)域(Underfitting)。然而,我們無法進一步增大提取像素塊,否則像素塊邊界將會產(chǎn)生越界現(xiàn)象。通過觀測,最佳的像素塊長寬均為32(像素)。對于該大小的像素塊得到的最終線性回歸模型,其Kaggle測試均方根誤差約為4.6367。

        三、 支持向量機(support vector machine)

        支持向量機(SVM)是廣泛應(yīng)用于機器學(xué)習(xí)分類以及回歸的抽象模型,因此存在眾多成熟的工具包。在實驗中,我們采用了著名的LIBSVM [3]來對數(shù)據(jù)進行擬合。我們利用9216個像素值作為輸入特征分別訓(xùn)練30個向量機,每個向量機輸出15個臉部關(guān)鍵點的X或Y坐標(biāo)。這樣的簡化處理并忽略了坐標(biāo)間存在的內(nèi)部聯(lián)系,卻成功避免了引入多目標(biāo)變數(shù)向量機(SVM struct [4]),使代碼大為簡化。

        3.1線性卷積核

        對于輸入特征較多,訓(xùn)練樣本較小的機器學(xué)習(xí)問題,線性卷積核是一個合理的選擇。在LIBSVM工具包中,我們?nèi)孕柽x取合適的正則參數(shù)C(regularization parameter)。對于線性卷積核,搜索得到的最佳正則參數(shù)C為0.1,其對應(yīng)模型的方差由默認(rèn)參數(shù)的10.663降至10.454,Kaggle測試均方根誤差為4.35512。

        3.2 多項式卷積核

        對于多項式卷積核的SVM模型,其最重要的調(diào)諧參數(shù)是多項式的最高次冪。在交叉檢驗中(Cross-validation),我們發(fā)現(xiàn)均方差與多項式核的最高次數(shù)呈正相關(guān),即檢驗均方差從線性核(P=1)時便開始增大,說明多項式卷積核的SVM在P=1時就已經(jīng)出現(xiàn)了過度擬合的現(xiàn)象。

        3.3徑向基函數(shù)核與參數(shù)調(diào)諧

        由于徑向基函數(shù)核(Radial Basis Kernel)能夠非線性地將輸入特征映射到更高維空間,因此它能夠處理絕大部分目標(biāo)參數(shù)與輸入特征存在非線性關(guān)系的機器學(xué)習(xí)問題。更為巧妙的是,當(dāng)徑向基函數(shù)核的懲罰參數(shù)C (不同于正則參數(shù))及核參數(shù)γ為某一特定組合時,其SVM模型的擬合效果將完全等同于與線性核SVM模型 [5]。邏輯回歸卷積核與徑向基卷積核SVM也有類似的關(guān)系[6]。

        四、 前饋神經(jīng)網(wǎng)絡(luò)

        4.1 基本結(jié)構(gòu)

        常見的神經(jīng)網(wǎng)絡(luò)(Neural Network)結(jié)構(gòu)包括前饋神經(jīng)網(wǎng)絡(luò)(feed-forward),遞歸神經(jīng)網(wǎng)絡(luò)(recurrent)以及對稱連通網(wǎng)絡(luò)(symmetrically connected)等等。在該論文中,我們采用了實際應(yīng)用較廣的前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

        根據(jù)[7]的論述,在給定相同數(shù)量的神經(jīng)元,擁有更深結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型擁有更強的表達能力。因此,一個典型的前饋神經(jīng)網(wǎng)絡(luò)應(yīng)至少包含三個層次-----輸入層,輸出層以及在這兩層之間的隱藏層。對于臉部關(guān)鍵點檢測問題,輸入層一共有9216個神經(jīng)元,輸出層將由30個神經(jīng)元組成。

        4.2 模型的參數(shù)設(shè)定

        如前所述,神經(jīng)網(wǎng)絡(luò)模型復(fù)雜度主要取決于隱藏層的層數(shù),每層擁有的神經(jīng)元個數(shù)以及迭代次數(shù)(epochs)。在該實驗中,我們使用了目前較為先進的機器學(xué)習(xí)工具包 Theano[http://deeplearning.net/software/theano/]。

        4.2.1 隱藏層層數(shù)、每層神經(jīng)元數(shù)量及迭代次數(shù)的選取

        由于特征值域映射問題,Theano的顯示誤差為均方差的千分之一。由圖2知,當(dāng)層間神經(jīng)元數(shù)量超過300時,交叉檢驗誤差顯著上升,模型出現(xiàn)了過度擬合現(xiàn)象。在實際Kaggle測試中,我們嘗試了三個不同隱藏層層數(shù)(1,2及3層),其對應(yīng)的均方根誤差為3.82109, 3.85388以及3.81652。這一結(jié)果顯示了隱藏層數(shù)的改變并不會對擬合結(jié)果有顯著的影響。顯然,當(dāng)?shù)螖?shù)增加時模型復(fù)雜度也隨之增加。由圖2(右)知,迭代次數(shù)設(shè)置為1000是一個較為合適的選擇。

        4.3 集成學(xué)習(xí)4.3.1 Bagging對于神經(jīng)網(wǎng)絡(luò)模型,我們可以采取兩種不同Bagging策略。

        (1)從訓(xùn)練數(shù)據(jù)中抽樣選取部分樣本點。我們分別訓(xùn)練了10個不同的神經(jīng)網(wǎng)絡(luò),其輸入樣本為從訓(xùn)練數(shù)據(jù)中隨機抽取的1940個樣本點。最終的臉部關(guān)鍵點坐標(biāo)取這10個模型預(yù)測結(jié)果的算術(shù)平均值,其Kaggle測試均方根誤差為3.67293。

        (2)從每個樣本點(臉部圖片)中選取部分輸入特征,每個樣本點的輸入特征為隨機抽取的8000個像素點。相應(yīng)模型的Kaggle均方根誤差為3.62655

        4.3.2 混合模型

        同樣地,我們可以采取如下兩種不同的混合策略。

        (1)我們分別訓(xùn)練三個僅有1層,2層以及3層隱層的神經(jīng)網(wǎng)絡(luò),并取其預(yù)測的臉部關(guān)鍵點坐標(biāo)算術(shù)均值作為預(yù)測結(jié)果。該模型Kaggle測試均方根誤差降至3.62702。

        (2)混合由(1)中的神經(jīng)網(wǎng)絡(luò)以及Bagging的第二種模型(部分特征抽樣)。這兩種目前表現(xiàn)最佳的神經(jīng)網(wǎng)絡(luò)的結(jié)合進一步降低了均方根誤差。該模型的測試均方根誤差約為3.58884。

        4.4 總結(jié)

        在論文的本節(jié)中,我們嘗試了一系列參數(shù)各異的神經(jīng)網(wǎng)絡(luò)和集成學(xué)習(xí)模型,使得均方根誤差由最初的3.8降至了3.58884。模型及其相應(yīng)的均方根誤差如表1所示。

        五、卷積神經(jīng)網(wǎng)絡(luò)

        5.1 模型結(jié)構(gòu)

        卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks, CNN)是一種較為新型、直到90年代末才被成熟開發(fā)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。在沒有犧牲模型的普適性前提下,卷積神經(jīng)網(wǎng)絡(luò)有效地利用了局部像素間關(guān)聯(lián)性,縮短了機器學(xué)習(xí)訓(xùn)練周期。對于卷積神經(jīng)網(wǎng)絡(luò),每一層神經(jīng)元將構(gòu)成三維結(jié)構(gòu)(傳統(tǒng)神經(jīng)網(wǎng)絡(luò)是二維平面結(jié)構(gòu)),而層間的神經(jīng)元只與前一層的神經(jīng)網(wǎng)絡(luò)的局部神經(jīng)元存在激勵、反饋聯(lián)系,這一特性稱為局部感知。

        5.2 訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)

        在本論文中,我們嘗試了一系列參數(shù)各異的神經(jīng)網(wǎng)絡(luò)模型,并使用NVIDA GTX-650顯卡與1GB內(nèi)存對模型進行訓(xùn)練。在訓(xùn)練過程中,我們將Kaggle提供的訓(xùn)練數(shù)據(jù)庫分成訓(xùn)練數(shù)據(jù)及檢驗數(shù)據(jù),其規(guī)模之比為4:1。

        5.2.1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        實驗中使用的模型參數(shù):輸入層一層,由9216個神經(jīng)元組成;卷積層(Convolution)及最大值池化層(Max Poolling)各四層,每一層的卷積濾窗大小為3x3,池化過濾窗大小為2x2,位移步長為2。卷積核數(shù)從第一層至第四層分別為32, 64, 128以及256;全連通卷積層一層,包含500個隱藏神經(jīng)元;輸出層一層,由30個神經(jīng)元組成。神經(jīng)元的激勵函數(shù)采用的是RELU非線性函數(shù),輸出層輸出將取決于全連通層激勵信號的線性組合。為了提高訓(xùn)練速率,我們將學(xué)習(xí)速率(training rate)設(shè)置為一較大值并隨迭代次數(shù)線性減??;動量項(momentum)隨迭代次數(shù)線性增加。為了避免可能的內(nèi)存問題,斯托克斯數(shù)據(jù)包大?。╯tochastic batch size)設(shè)定為64. 從圖5.1可以看出,上述的改進大大加快了均方差的收斂速度,縮短了訓(xùn)練周期。

        5.2.2 數(shù)據(jù)擴充

        對于圖片類型數(shù)據(jù),我們可以垂直翻轉(zhuǎn)圖片實現(xiàn)數(shù)據(jù)擴充。由于訓(xùn)練數(shù)據(jù)庫規(guī)模變大,我們將迭代次數(shù)上線由600增至700。

        利用數(shù)據(jù)擴充的策略,從圖5.1中可以清晰地看到不僅訓(xùn)練誤差明顯降低,檢驗誤差也隨之下降,意味著卷積神經(jīng)網(wǎng)絡(luò)得到正確的優(yōu)化。

        5.2.3 激勵摒棄(dropout)

        激勵摒棄(dropout)是避免過度擬合的又一新型策略,其在卷積神經(jīng)網(wǎng)絡(luò)中的應(yīng)用直到最近幾年才被關(guān)注并被開發(fā)。激勵摒棄是在每一卷積層隨機選取一定數(shù)量的激勵神經(jīng)元,并將其激勵人為地置零。對于不同的訓(xùn)練圖片,歸零的激勵神經(jīng)元也需重新選取。激勵摒棄可以有效地抑制神經(jīng)元間的過強聯(lián)系。

        利用激勵摒棄的策略,我們將迭代次數(shù)增至1000,此時Kaggle測試均方根誤差降至3.45;若將迭代次數(shù)增3000,其相應(yīng)的Kaggle均方根誤差降至3.21。當(dāng)我們進一步增大迭代次數(shù)時,均方根誤差下降已十分緩慢。

        六、結(jié)語

        在本篇論文里,我們嘗試了一系列健壯的機器學(xué)習(xí)模型并系統(tǒng)地比較了他們的擬合效果。由于缺乏有效的特征選取及模型復(fù)雜度控制機制,基于計算機視覺的線性回歸模型并不能取得很好的效果。

        而卷積核的靈活性使得支持向量機SVM在前者的基礎(chǔ)上有了明顯的進步。然而前饋神經(jīng)網(wǎng)絡(luò)以及卷積神經(jīng)網(wǎng)絡(luò)能夠更為有效地控制了高維模型的復(fù)雜度。

        其中,專門用于圖片機器學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)在Kaggle的測試中有著極佳的表現(xiàn),經(jīng)優(yōu)化后其均方根誤差僅為3.21959。

        參 考 文 獻

        [1] Efroymson, M. A. “Multiple regression analysis.” Mathematical methods for digital computers 1 (1960): 191-203.

        [2] Dalal, Navneet, and Bill Triggs. ?Histograms of oriented gradients for human detection.? Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on. Vol. 1. IEEE, 2005.

        [3] Chang, Chih-Chung, and Chih-Jen Lin. ?LIBSVM: a library for support vector machines.? ACM Transactions on Intelligent Systems and Technology (TIST)2.3 (2011): 27.

        [4] Joachims T, Finley T, Yu C N J. Cutting-plane training of structural SVMs[J]. Machine Learning, 2009, 77(1): 27-59.[5] Keerthi S S, Lin C J. Asymptotic behaviors of support vector machines with Gaussian kernel[J]. Neural computation, 2003, 15(7): 1667-1689.

        [6] Lin, Hsuan-Tien, and Chih-Jen Lin. ?A study on sigmoid kernels for SVM and the training of non-PSD kernels by SMO-type methods.? submitted to Neural Computation (2003): 1-32.

        [7] Suykens J A K, Vandewalle J. Least squares support vector machine classifiers[J]. Neural processing letters, 1999, 9(3): 293-300.

        猜你喜歡
        方根關(guān)鍵點線性
        方根拓展探究
        漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
        聚焦金屬關(guān)鍵點
        肉兔育肥抓好七個關(guān)鍵點
        線性回歸方程的求解與應(yīng)用
        二階線性微分方程的解法
        均方根嵌入式容積粒子PHD 多目標(biāo)跟蹤方法
        揭開心算方根之謎
        醫(yī)聯(lián)體要把握三個關(guān)鍵點
        數(shù)學(xué)魔術(shù)
        av网站不卡的av在线| 国产亚洲日韩在线三区| 国产精品免费久久久久影院| 久久亚洲午夜牛牛影视| 性一交一乱一乱一视频亚洲熟妇| 一区二区三区乱码专区| 欧美牲交a欧美牲交aⅴ免费下载| 精品少妇一区二区三区免费观 | 国产又色又爽的视频在线观看91 | 一区二区三区无码高清视频| 亚洲精品www久久久| 欧美婷婷六月丁香综合色| 娇妻粗大高潮白浆| 一区二区三区在线乱码| 国产一区二区三区精品免费av| 欧美一性一乱一交一视频| 免费无码肉片在线观看| 激情文学人妻中文字幕| 亚洲婷婷久久播66性av| 国产亚洲综合一区二区三区| 中文成人无码精品久久久不卡| 婷婷色综合成人成人网小说| 亚洲一区二区三区综合网| 亚洲一区二区日韩精品在线| 欧美精品videosse精子| 台湾佬娱乐中文22vvvv| 美女熟妇67194免费入口| 亚洲桃色蜜桃av影院| 2021亚洲国产精品无码| 亚洲av蜜桃永久无码精品| 呦泬泬精品导航| 91九色精品日韩内射无| 国产一区高清在线观看| 男女上下猛烈啪啪免费看| jlzzjlzz全部女高潮| 国产在线精彩自拍视频| 日本不卡在线视频二区三区| 人妻夜夜爽天天爽| 亚洲伊人久久成人综合网| 一级午夜理论片日本中文在线| 国内精品少妇高潮视频|