劉婷婷,徐 紅,梅馨元,劉一心,肖愛(ài)民
(新疆大學(xué) 紡織與服裝學(xué)院,新疆 烏魯木齊 830046)
人體體型根據(jù)時(shí)間、生活環(huán)境、地理位置等客觀因素的影響而變化。對(duì)新疆地區(qū)青年女性裙裝合體性進(jìn)行問(wèn)卷調(diào)查發(fā)現(xiàn),臀部的不合體比例較高。為了使服裝更加合體,應(yīng)對(duì)地區(qū)性體型進(jìn)行細(xì)分研究。近幾年國(guó)內(nèi)外有通過(guò)新方法建立體型分類(lèi)與判別的模型,來(lái)提高服裝合體度。而針對(duì)體型分類(lèi)的研究方法較多:如尹玲等[1]選擇有序樣本最優(yōu)分割法從整體、局部、軀干輪廓層面對(duì)女性體型分類(lèi),最終把體型劃分為3類(lèi);Maja Mahnic Naglic等[2]把K-means聚類(lèi)法應(yīng)用到人體姿勢(shì)體型分類(lèi)中,此分類(lèi)函數(shù)可基于判別函數(shù)及其因子負(fù)載來(lái)定義;王軍等[3]利用兩步聚類(lèi)法作為臀部分類(lèi)方法,選取5個(gè)指標(biāo)后對(duì)臀部進(jìn)行細(xì)分;石小強(qiáng)等[4]使用DIANA分裂聚類(lèi)將江浙地區(qū)青年女性臀部分為5類(lèi)。體型判別上的創(chuàng)新有:尹玲等[5]采用隨機(jī)森林算法建立可靠的判別模型,提升了體型判別精準(zhǔn)度;景曉寧等[6]把女童數(shù)據(jù)庫(kù)合理利用起來(lái),運(yùn)用樸素貝葉斯算法對(duì)女童體型進(jìn)行了判別分析。
極端梯度提升(XGBoost)是一種基于梯度提升決策樹(shù)的集中學(xué)習(xí)模型,該方法不僅解決了梯度提升[7]的過(guò)擬合問(wèn)題,還提升了預(yù)測(cè)的精準(zhǔn)度,是目前計(jì)算機(jī)領(lǐng)域中的一個(gè)研究熱點(diǎn)。該算法屬于提升方法,在分類(lèi)和預(yù)測(cè)領(lǐng)域中應(yīng)用廣泛,其優(yōu)點(diǎn)是模型計(jì)算運(yùn)行速度快,精準(zhǔn)度高,運(yùn)行方式簡(jiǎn)單[8]。本文采用XGBoost算法建立了判別模型,對(duì)新疆地區(qū)青年女性臀部進(jìn)行判別,得到了極高的精準(zhǔn)度。該模型可運(yùn)用到數(shù)據(jù)系統(tǒng)內(nèi),為服裝定制廠(chǎng)商提供參考依據(jù),并提高服裝的合體性。
本文采用馬丁測(cè)量?jī)x、卷尺、角度儀等作為測(cè)量工具;對(duì)新疆地區(qū)18~25歲的青年女性進(jìn)行人體數(shù)據(jù)采集。參照GB/T 1335.2—2008《服裝號(hào)型 女子》中人體部位尺寸的標(biāo)準(zhǔn)差與最大允許誤差,其中樣本量的計(jì)算公式為
式中:N為樣本量;t為標(biāo)準(zhǔn)正態(tài)分布在置信度α為5%時(shí)的概率,查表可知t為1.96;δ為標(biāo)準(zhǔn)差;A為允許誤差。
程朋朋等[9]指出,以腰圍為基礎(chǔ)的樣本量為最小值,腰圍的允許誤差為1 cm,總體標(biāo)準(zhǔn)差為6.7 cm,代入計(jì)算公式后最終可得樣本量為173??紤]到奇異值的篩選,最終選擇測(cè)量人數(shù)為220。
本文選擇臀部作為體型細(xì)致研究部位,參照王軍等對(duì)臀部分類(lèi)的指標(biāo)[2-4],及張文斌描述的前臀長(zhǎng)、側(cè)臀長(zhǎng)、后臀長(zhǎng)與人體腰臀部位、裙裝原型的關(guān)系[10],使用公因子方差分析后,確認(rèn)符合要求的17個(gè)指標(biāo):體重、臀圍、腰圍、中腰圍、大腿根圍、腰厚、腹厚、臀厚、身高、臀高、腰高、膝蓋中點(diǎn)高、前臀長(zhǎng)、后臀長(zhǎng)、側(cè)臀長(zhǎng)、臀突上角、腰側(cè)角[11]。
圖1示出臀長(zhǎng)與角度的測(cè)量方法。本文中所有測(cè)量部位誤差不超過(guò)允許誤差。
圖1 臀長(zhǎng)與角度測(cè)量示意圖Fig.1 Hip length and angle measurement schematic. (a) Face of hip body;(b) Side of hip body
通過(guò)這些指標(biāo)可計(jì)算出需要的間接變量:身體質(zhì)量指數(shù)(BMI值)、臀腰差、臀腰比、腰圍身高比、臀圍身高比、后臀長(zhǎng)腰圍比、后臀長(zhǎng)臀圍比、后臀長(zhǎng)身高比。
使用SPSS軟件對(duì)指標(biāo)進(jìn)行描述性統(tǒng)計(jì)分析,用QQ概率圖與直方圖對(duì)數(shù)據(jù)進(jìn)行正態(tài)性檢驗(yàn),所有指標(biāo)均服從正態(tài)分布。運(yùn)用XGBoost算法處理缺失值,通過(guò)箱型圖與莖葉圖查找異常值,對(duì)原始數(shù)據(jù)進(jìn)行校正。確定有效樣本量為200個(gè)。
對(duì)17項(xiàng)指標(biāo)進(jìn)行主成分貢獻(xiàn)率分析,不同主成分方差貢獻(xiàn)率如表1所示。提取特征根大于1的前4個(gè)主要成分,4個(gè)主要成分的累積貢獻(xiàn)率為77.11%,說(shuō)明前4個(gè)主要成分能表述臀部體型的絕大部分信息。
表1 主成分貢獻(xiàn)率分析Tab.1 Analysis of contribution rate of main component
旋轉(zhuǎn)后的成分矩陣如表2所示。旋轉(zhuǎn)后的載荷數(shù)的絕對(duì)值>0.5時(shí)即可被定為指標(biāo)因子。由表2可知,第1主要指標(biāo)因子是圍度相關(guān)指標(biāo)因子;第2主要指標(biāo)因子是高度相關(guān)指標(biāo)因子;第3主要指標(biāo)因子是臀長(zhǎng)相關(guān)指標(biāo)因子;第4主要指標(biāo)因子是角度相關(guān)指標(biāo)因子。
表2 旋轉(zhuǎn)后的成分矩陣Tab.2 Rotating composition matrix
表4 測(cè)量部位的間接變量與臀部體型關(guān)鍵部位的單因素方差分析Tab.4 One-way ANOVA between each derived variable and key part of hip body
相關(guān)指數(shù)與變異系數(shù)如表3所示??梢杂孟嚓P(guān)指數(shù)與變異系數(shù)來(lái)決定影響臀部的主要指標(biāo)。指標(biāo)的相關(guān)指數(shù)與變異系數(shù)越大,越具有代表性。由表3可知:圍度因子的重要指標(biāo)為體重、臀圍、腰圍;高度因子的重要指標(biāo)為身高;由于后臀長(zhǎng)的相關(guān)指數(shù)比其他指標(biāo)大,與臀角、臀突均存在相關(guān)關(guān)系,因此臀長(zhǎng)因子重要指標(biāo)為后臀長(zhǎng);角度因子的相關(guān)指數(shù)值較小,表1中的前3個(gè)主要成分的累積貢獻(xiàn)率為69.311%,也可代表所有數(shù)據(jù)的主要信息,因此可省略角度因子。最終確定體重、腰圍、臀圍、身高、后臀長(zhǎng)作為主要影響指標(biāo)。
表3 相關(guān)指數(shù)與變異系數(shù)Tab.3 Correlation coefficients and coefficients of variation
國(guó)內(nèi)外最常使用的體型分類(lèi)方法為K-means聚類(lèi)方法。本文使用K-means聚類(lèi)方法對(duì)臀部進(jìn)行分類(lèi),參照黃燦藝對(duì)福建地區(qū)上體下體分類(lèi)時(shí)選擇聚類(lèi)指標(biāo)的方法,采用單因素方差分析確定最終的聚類(lèi)指標(biāo)[12],并以此為依據(jù)進(jìn)行聚類(lèi)分析。使用長(zhǎng)度與圍度比、圍度差,體重與身高計(jì)算得出的BMI值作為間接變量[13]。
表4給出了測(cè)量部位間接變量與臀部指標(biāo)的F值與P值。P值代表顯著水平,當(dāng)P<0.05時(shí),其顯著性就越強(qiáng);而表中只有后臀長(zhǎng)腰圍比與后臀長(zhǎng)臀圍顯著性效果更好,因此定義其為聚類(lèi)指標(biāo)。聚類(lèi)指標(biāo)與主要指標(biāo)的三維散點(diǎn)圖如圖2所示,2個(gè)聚類(lèi)指標(biāo)與腰圍、臀圍、身高、后臀長(zhǎng)這4個(gè)主要指標(biāo)均存在線(xiàn)性正相關(guān)的關(guān)系,且2個(gè)變量符合K-means聚類(lèi)的要求[14],最終確定以這2個(gè)間接變量作為聚類(lèi)指標(biāo)。
注:BHL為后臀長(zhǎng);W為腰圍;H為臀圍;Z為身高。 圖2 聚類(lèi)指標(biāo)與主要指標(biāo)的散點(diǎn)圖Fig.2 Scatter plot of clustering indicators and major variables. (a) A scatterplot of clustering indicators and W; (b) A scatterplot of clustering indicators and H; (c) A scatterplot of clustering indicators and Z; (d) A scatterplot of clustering indicators and BHL
通過(guò)體型占比分布與迭代次數(shù)來(lái)選擇[15]K-means聚類(lèi)中的聚類(lèi)數(shù),為了給企業(yè)提供參考,不應(yīng)有太多類(lèi)別。在進(jìn)行3次分類(lèi)時(shí)的體型占比較為合理,初始聚類(lèi)數(shù)據(jù)與最終聚類(lèi)數(shù)據(jù)變化較大,迭代次數(shù)為12,因此確定將新疆青年女性臀部分為3類(lèi)。
3種體型用于分類(lèi)的聚類(lèi)指標(biāo)平均值及占比見(jiàn)表5。第1類(lèi)體型聚類(lèi)指標(biāo)的數(shù)值最大,描述分析中得知各臀長(zhǎng)數(shù)值也最大,臀角最??;第2類(lèi)體型聚類(lèi)指標(biāo)的數(shù)值適中,身高、腰臀圍與厚度、角度適中,且占比最大,可定義為中間體;第3類(lèi)的聚類(lèi)指標(biāo)的數(shù)值最小,腰臀圍、角度最大。3種體型的示意圖如圖3所示,參照文獻(xiàn)[11]中的臀部體型名稱(chēng),最終定義為平臀體、中間臀體、翹臀體。
表5 3種體型主要指標(biāo)平均值及占比Tab.5 Average and proportion of main indicators of three body types
圖3 3種臀型示意圖Fig.3 Three hip body shape diagram. (a)Face of hip body; (b)Side of hip body
表6示出不同地區(qū)與時(shí)間的女性臀部數(shù)據(jù)均值比較。由表可知,新疆[16]、上海[17]、東北[3]3個(gè)地區(qū)的臀部基本指標(biāo)會(huì)隨著時(shí)間的變化而增長(zhǎng)。由此可證明體型的變化與時(shí)間也有關(guān)系,因此,對(duì)新疆青年女性臀部進(jìn)行體型判別分析,并及時(shí)修正原型,設(shè)計(jì)數(shù)據(jù)系統(tǒng)是有實(shí)用價(jià)值的。
表6 不同地區(qū)與時(shí)間的女性臀部數(shù)據(jù)均值比較Tab.6 Comparison of waist and hip data mean in different regions cm
XGBoost算法是一種集中學(xué)習(xí)模型,把多個(gè)分類(lèi)準(zhǔn)確率較低的決策樹(shù)組合起來(lái),多次迭代并擬合最終值。它具有良好的推理性,可通過(guò)較少的決策樹(shù)得到更高的精度。該算法與傳統(tǒng)的梯度樹(shù)相比,有較好的權(quán)衡偏差和方差[18]。其目的在于對(duì)原有目標(biāo)函數(shù)進(jìn)行改寫(xiě)和優(yōu)化,同時(shí)進(jìn)行泰勒展開(kāi),使算法收斂得更快,最終得到最優(yōu)解,并以此來(lái)提升判別精度。
XGBoost算法的目標(biāo)函數(shù)為
式中:γ為復(fù)雜度參數(shù);T為葉子節(jié)點(diǎn)的個(gè)數(shù);λ為正則項(xiàng)懲罰系數(shù);ω為葉子上的權(quán)值。
定義一個(gè)近似目標(biāo)函數(shù),設(shè)第t次的損失函數(shù)為目標(biāo)函數(shù),用二階泰勒展開(kāi)得到的公式為
損失函數(shù)的一階導(dǎo)數(shù)gi與二階導(dǎo)數(shù)hi分別為:
定義函數(shù)葉子節(jié)點(diǎn)一階與二階導(dǎo)數(shù)之和:
Gj=∑i∈Ijgi,Hj=∑i∈Ijhi
式中,葉子節(jié)點(diǎn)樣本集合為Ij={i|q(xi=j)},化解得:
對(duì)ωi求導(dǎo),令導(dǎo)數(shù)為0,得:
代入ωj,求得最優(yōu)解目標(biāo)函數(shù)
本文使用Python軟件建立了XGBoost預(yù)測(cè)模型,用來(lái)判別未知的女性臀部體型。XGBoost模型體型判別流程如圖4所示,訓(xùn)練與測(cè)試的流程相同,在多維特征訓(xùn)練后先讓訓(xùn)練集進(jìn)行機(jī)器訓(xùn)練,再通過(guò)測(cè)試集了解其精準(zhǔn)度,最終得出判別結(jié)果。
圖4 XGBoost模型體型判別流程圖Fig.4 XGBoost model body size difference flow chart
模型機(jī)器學(xué)習(xí)的訓(xùn)練集和測(cè)試集所占比例為7∶3。XGBoost模型的參數(shù)可進(jìn)行網(wǎng)絡(luò)調(diào)參Xgboost=XGBOSTclassifier(n_estimater=100,learning_rate=0.05)。
將XGBoost算法與支持向量機(jī)(SVM)算法、臨近算法(KNN)進(jìn)行精度比較: XGBoost、KNN、SVM訓(xùn)練集的精準(zhǔn)度分別為97.8%、97.1%、75.7%,測(cè)試集的精準(zhǔn)度分別為98.4%、96.8%、74.6%。結(jié)果顯示,XGBoost算法訓(xùn)練集與測(cè)試集的精準(zhǔn)度最高。
在對(duì)人臺(tái)進(jìn)行修正后,使用立裁與平面結(jié)構(gòu)方法對(duì)版型數(shù)據(jù)進(jìn)行調(diào)整[19],標(biāo)準(zhǔn)裙裝原型與修正裙裝原型比較見(jiàn)圖5。由圖可知,B與B1分別是修正裙裝原型和標(biāo)準(zhǔn)裙裝原型的后臀長(zhǎng),2種裙裝原型的后臀長(zhǎng)之差為2.4 cm,證明新疆地區(qū)的臀部較翹;地區(qū)性的裙裝原型前后臀長(zhǎng)差值較大,后臀長(zhǎng)B比前臀長(zhǎng)A長(zhǎng)了1.4 cm;標(biāo)準(zhǔn)裙裝原型的側(cè)縫線(xiàn)處弧度C比修正裙裝原型大,說(shuō)明角度不同會(huì)影響弧度的變化。
圖5 標(biāo)準(zhǔn)裙裝原型與修正裙裝原型的比較Fig.5 Comparison of revised skirt prototype and standard skirt prototype
將不同裙裝原型[20]前后片差值進(jìn)行比較分析發(fā)現(xiàn),新疆、英式、美式裙裝原型前后片差值均大于或等于0,國(guó)內(nèi)標(biāo)準(zhǔn)裙裝原型前后片差值為-1。這可能是由于人口遷徙相互融合、地域等原因?qū)е滦陆貐^(qū)與國(guó)內(nèi)其他地區(qū)青年女性臀部差異較大,本研究可為新疆本地與線(xiàn)上服裝生產(chǎn)企業(yè)提供參考依據(jù)。
新的算法可用于實(shí)踐研究,可應(yīng)用到數(shù)據(jù)系統(tǒng)內(nèi),提升體型判別的效率,增加其實(shí)用性。本文設(shè)計(jì)的數(shù)據(jù)系統(tǒng)有體型判別的功能,先選擇XGBoost算法,再輸入后臀長(zhǎng)腰圍比與后臀長(zhǎng)臀圍比,即可快速獲得新疆地區(qū)青年女性的臀部體型類(lèi)別。
1)本文利用主成分因子分析與相關(guān)指數(shù)、變異系數(shù)分析及單因素方差分析確定了2個(gè)聚類(lèi)指標(biāo):后臀長(zhǎng)腰圍比、后臀長(zhǎng)臀圍比;通過(guò)K-means聚類(lèi)分析法將女性臀部體型分為3類(lèi):平臀體、中間臀體、翹臀體。
2)運(yùn)用XGBoost算法對(duì)新疆青年女性臀部體型進(jìn)行了判別分析,與SVM、KNN算法進(jìn)行精度比較,結(jié)果表明,該算法的訓(xùn)練集與測(cè)試集的精準(zhǔn)度均在97%以上。
3)利用標(biāo)準(zhǔn)裙裝原型與新疆地區(qū)青年女性修正裙裝原型結(jié)構(gòu)比較發(fā)現(xiàn),修正原型的后臀長(zhǎng)比前臀長(zhǎng)多1.4 cm,說(shuō)明新疆地區(qū)青年女性臀部與其他地區(qū)臀部差異較大。
4)將XGBoost算法模型應(yīng)用到數(shù)據(jù)系統(tǒng)中,可提高效率,增加實(shí)用價(jià)值。