劉睿智, 趙守香
( 北京工商大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,北京 100048)
中國(guó)是最大的服裝生產(chǎn)國(guó)、銷(xiāo)售國(guó)和出口國(guó),世界上每3件服裝就有1件來(lái)自中國(guó)。服裝是人們生活中的必需品,關(guān)系到其生活質(zhì)量。服裝號(hào)型對(duì)于服裝銷(xiāo)售至關(guān)重要,服裝號(hào)型對(duì)消費(fèi)者各種身材和體型覆蓋率越大則越有利于產(chǎn)品的銷(xiāo)售。雖然我國(guó)出臺(tái)了相關(guān)的號(hào)型標(biāo)準(zhǔn),但都是推薦性標(biāo)準(zhǔn),生產(chǎn)企業(yè)在此基礎(chǔ)上建立了自己的號(hào)型結(jié)構(gòu)體系,并且不同地區(qū)、不同年齡的消費(fèi)者身材體型不盡相同,需要生產(chǎn)企業(yè)深入調(diào)研設(shè)計(jì)號(hào)型標(biāo)準(zhǔn)。SPSS軟件是一款強(qiáng)大的數(shù)據(jù)分析軟件,利用它可以簡(jiǎn)明、快速、準(zhǔn)確地確定號(hào)型分類(lèi)及設(shè)置。文中以陜西地區(qū)男式上衣為研究對(duì)象,具體討論如何利用SPSS進(jìn)行大數(shù)據(jù)分析,精確設(shè)計(jì)服裝號(hào)型。
樣本量的確定是數(shù)據(jù)統(tǒng)計(jì)的基礎(chǔ)。采集數(shù)據(jù)量過(guò)大會(huì)費(fèi)時(shí)費(fèi)力,數(shù)據(jù)量過(guò)小容易產(chǎn)生較大誤差,科學(xué)合理的樣本量對(duì)統(tǒng)計(jì)分析預(yù)測(cè)至關(guān)重要。采用簡(jiǎn)單隨機(jī)抽樣方法,按下面公式進(jìn)行計(jì)算:
式中:N為樣本容量;Z為置信水平下的統(tǒng)計(jì)量;S為總體標(biāo)準(zhǔn)差;d為允許誤差。成年人體各控制部位尺寸可接受的誤差和標(biāo)準(zhǔn)差見(jiàn)表1[1]。95%置信水平下Z統(tǒng)計(jì)量為1.96,選取最大的S/d值6.70,經(jīng)計(jì)算N為172。隨機(jī)抽取了172名成年男子并測(cè)量獲取到了他們的體型信息。
表1 人體各控制部位的數(shù)值
在數(shù)據(jù)采集過(guò)程中難免會(huì)出現(xiàn)偏差,造成數(shù)據(jù)的失真,因此需要對(duì)這些數(shù)據(jù)進(jìn)行奇異值的檢查和處理,剔除一些異常數(shù)據(jù)以保證結(jié)果準(zhǔn)確。在進(jìn)行統(tǒng)計(jì)分析時(shí),許多分析方法要求數(shù)據(jù)符合某種概率分布,大多數(shù)方法要求符合正態(tài)分布,因此還需要進(jìn)行正態(tài)分布檢驗(yàn)。
檢查是否存在奇異值主要有兩種方法,分別是莖葉圖和箱圖,具體如圖1所示。莖葉圖可以看出奇異值的數(shù)量,箱圖可以找到奇異值的位置,文中將兩種方法組合運(yùn)用,以增強(qiáng)數(shù)據(jù)的準(zhǔn)確性。在莖葉圖中,顯示了整體身高變量的頻數(shù)、莖和葉[2]。莖表示數(shù)值的整體部分,葉表示數(shù)值的小數(shù)部分,“≥186”表示身高變量數(shù)據(jù)中存在一個(gè)奇異值。從箱圖中可以看出,107號(hào)是奇異值,該奇異值是由于身高過(guò)高導(dǎo)致的,因此將107號(hào)樣本數(shù)據(jù)剔除。按照該方法對(duì)其他變量進(jìn)行檢驗(yàn),將樣本中4個(gè)奇異值剔除,最終樣本數(shù)量為168個(gè)。
圖1 檢查奇異值的兩種方法Fig.1 Two ways to cheek singular values
正態(tài)分布檢驗(yàn)常用的方法是P-P概率圖和Q-Q概率圖,其中P-P概率圖簡(jiǎn)單直觀、便于判斷,因此文中采用該方法對(duì)身高變量進(jìn)行正態(tài)分布檢驗(yàn),檢驗(yàn)結(jié)果如圖2所示。由圖2可以看出,樣本數(shù)據(jù)大致聚集在一條直線(xiàn)上,可以認(rèn)定身高變量基本符合正態(tài)分布,且各點(diǎn)是無(wú)規(guī)則的即樣本是隨機(jī)的。同理可得,其他變量也基本遵循正態(tài)分布。
圖2 身高及身高去趨勢(shì)的正態(tài)P-P分布 Fig.2 Height and height trending normal P-P diagrom
文中選取最大值、最小值、平均值及標(biāo)準(zhǔn)差等具有代表性的指標(biāo)進(jìn)行分析,分析結(jié)果見(jiàn)表2。
表2 變量統(tǒng)計(jì)性描述
由表2可以看出,陜西地區(qū)成年男子身高、體質(zhì)量、胸圍方差較大,表示個(gè)體在這些變量上存在著很大差異,其他變量差異性較小。
相關(guān)性分析是研究變量之間關(guān)系密切程度常用的方法之一。變量間的相關(guān)程度可以用相關(guān)系數(shù)衡量。相關(guān)系數(shù)用r表示,正態(tài)分布的等間隔測(cè)度變量x與y間的相關(guān)系數(shù)采用Pearson 積矩相關(guān)公式計(jì)算:
表3為各變量間相關(guān)系數(shù)矩陣。由表3可以得出:所有變量均呈正相關(guān)關(guān)系。其中,身高與體質(zhì)量、全臂長(zhǎng)之間存在中度相關(guān)或高度相關(guān);胸圍與肩寬、后背長(zhǎng)、頸圍存在中度相關(guān)或高度相關(guān);其他變量之間也存在中度相關(guān)及低度相關(guān)。相關(guān)性分析是進(jìn)行回歸分析、建立回歸模型的重要依據(jù),相關(guān)性越強(qiáng),線(xiàn)性回歸模型效果越好。
表3 變量間相關(guān)系數(shù)矩陣
因子分析的目的是從眾多變量中挑選出一個(gè)或幾個(gè)具有代表性的變量[3],因此因子分析的前提條件是變量之間存在較強(qiáng)的相關(guān)關(guān)系。在因子分析前需要檢驗(yàn)變量間是否滿(mǎn)足較強(qiáng)相關(guān)關(guān)系,常用的檢驗(yàn)方法有KMO檢驗(yàn)和Bartlett球形度檢驗(yàn)。KMO檢驗(yàn)統(tǒng)計(jì)量用于比較變量間簡(jiǎn)單相關(guān)系數(shù)和偏相關(guān)系數(shù)的指標(biāo),計(jì)算公式為
式中:rij為變量xi和其他變量xj間的簡(jiǎn)單相關(guān)系數(shù);pij為變量xi和其他變量xj間在控制剩余變量下的偏相關(guān)系數(shù)。KMO取值范圍在0~1之間,當(dāng)所有變量間簡(jiǎn)單相關(guān)系數(shù)平方和大于偏相關(guān)系數(shù)平方和時(shí),KMO接近于1,變量間的相關(guān)性強(qiáng),適合進(jìn)行因子分析。文中運(yùn)用KMO和Bartlett球形度檢驗(yàn)對(duì)樣本數(shù)據(jù)進(jìn)行測(cè)試,具體結(jié)果見(jiàn)表4。Bartlett球形度檢驗(yàn)的統(tǒng)計(jì)量根據(jù)相關(guān)系數(shù)矩陣的行列式計(jì)算得到,若變量觀測(cè)值較大且對(duì)應(yīng)的p值小于給定的顯著性水平α,認(rèn)為原有變量適合進(jìn)行因子分析。由表4可以看出,KMO值為0.832,較接近于1,說(shuō)明適合進(jìn)行因子分析;同時(shí),Bartlett球形度檢驗(yàn)中顯著性接近于0,顯著性水平α為0.05,0小于顯著性水平α,適合進(jìn)行因子分析。因此,兩種檢驗(yàn)方法均證明變量間適合進(jìn)行因子分析。
表4 KMO 和Bartlett檢驗(yàn)結(jié)果
總方差解釋見(jiàn)表5。表5中初始特征值列反映了因子分析初始解的情況,第1個(gè)因子的特征值為4.531,解釋原有7個(gè)變量總方差的64.732%,累計(jì)方差貢獻(xiàn)率64.732%;第2個(gè)因子的特征值為1.509,解釋原有7個(gè)變量總方差的21.560%,累計(jì)方差貢獻(xiàn)率86.283%,其余數(shù)據(jù)含義類(lèi)似,初始解中提取了7個(gè)因子,原有變量總方差均被解釋?zhuān)塾?jì)方差貢獻(xiàn)率100%。提取載荷平方和列描述了因子解的情況,由于指定提取2個(gè)因子,它們共解釋了原有變量總方差的86.283%,整體上,原有變量信息丟失較少,因子分析效果較理想;旋轉(zhuǎn)載荷平方和列描述了最終因子解情況,因子旋轉(zhuǎn)后累計(jì)方差貢獻(xiàn)率沒(méi)有發(fā)生變化,但重新分配了各個(gè)因子解釋原有變量的方差,使得因子更易于解釋。
表5 總方差解釋
注:提取方法為主成分分析法。
圖3為因子分析碎石圖。
圖3 因子分析碎石圖Fig.3 Gravel map
由圖3可以看出,第1個(gè)因子的特征值很高,對(duì)解釋原有變量的貢獻(xiàn)最大;第3個(gè)因子以后的特征值都較小,對(duì)解釋原有變量的貢獻(xiàn)很小,因此提取兩個(gè)因子是合適的。
旋轉(zhuǎn)后的成分矩陣見(jiàn)表6。由表6可以看出,第1個(gè)因子主要解釋了總肩寬、胸圍、后背長(zhǎng)和頸圍這幾個(gè)變量,身高、全臂長(zhǎng)和體質(zhì)量主要由第2個(gè)因子解釋。
聚類(lèi)分析是將樣本數(shù)據(jù)按照一定的規(guī)則進(jìn)行分類(lèi),同類(lèi)樣本具有較大的相似度,不同類(lèi)樣本之間存在著較大差異。K-means均值聚類(lèi)方法具有思想簡(jiǎn)單、易于理解、容易實(shí)現(xiàn)、處理速度快、占用內(nèi)存少等優(yōu)點(diǎn),適合大樣本聚類(lèi),分類(lèi)效果較好[4],因此文中采用此方法對(duì)體型數(shù)據(jù)進(jìn)行聚類(lèi)分析。聚類(lèi)分析的核心步驟是:確定聚類(lèi)數(shù)目;確定初始類(lèi)中心點(diǎn);確定樣本點(diǎn)到中心點(diǎn)的歐氏距離,完成一次迭代過(guò)程;重新確定中心點(diǎn)并重復(fù)以上步驟,直至迭代終止。
表6 旋轉(zhuǎn)后的成分矩陣
注:提取方法為主成分分析法; 旋轉(zhuǎn)方法為凱撒正態(tài)化最大方差法;旋轉(zhuǎn)在 3 次迭代后已收斂。
通過(guò)體型的特征指標(biāo)確定聚類(lèi)變量,特征指標(biāo)包括身體的不同部位,即身高、體質(zhì)量、胸圍等[5]。通過(guò)因子分析可知,在兩個(gè)因子中都存在著具有代表性的變量,通過(guò)計(jì)算因子中相關(guān)指數(shù),找出相關(guān)指數(shù)最大的變量作為控制變量即聚類(lèi)變量,相關(guān)指數(shù)計(jì)算公式為
式中:i=1,2,…,m,m為所在類(lèi)的指標(biāo)個(gè)數(shù);rij為相關(guān)系數(shù),i≠j,j=1,2,…,m。計(jì)算結(jié)果見(jiàn)表7。
表7 因子相關(guān)指數(shù)
將身高和胸圍作為聚類(lèi)變量,按照K-means均值聚類(lèi)方法對(duì)樣本數(shù)據(jù)進(jìn)行分類(lèi)??紤]到服裝生產(chǎn)的實(shí)際,服裝號(hào)型設(shè)置不宜過(guò)多,因此3~5類(lèi)最為合理。經(jīng)過(guò)比較分析,發(fā)現(xiàn)聚類(lèi)數(shù)為3時(shí)分類(lèi)結(jié)果最清晰,效果最好,最終聚類(lèi)中心見(jiàn)表8。由表8可以看出,不同類(lèi)別個(gè)案數(shù)及所占比例中間多、兩邊較少,表明聚類(lèi)結(jié)果合理。胸圍的聚類(lèi)中心大致為86,93,99,身高為166,171,177,參考國(guó)家號(hào)型標(biāo)準(zhǔn)同時(shí)兼顧分析結(jié)果,將相鄰體型之間的胸圍差設(shè)置為4,身高差設(shè)置為5,結(jié)果清晰均勻。
表8 最終聚類(lèi)中心
Tab.8 Final cluster center
項(xiàng)目聚類(lèi)123胸圍85.992.698.8身高166.4170.6177.1個(gè)案數(shù)578922比例345313
將不同類(lèi)別樣本數(shù)據(jù)分離出來(lái),分別計(jì)算不同變量的平均值,作為中間體數(shù)值,具體結(jié)果見(jiàn)表9。中間體具有一定的代表性,反映了不同分類(lèi)樣本的體型特點(diǎn):M表示體型樣本身高較低,胸圍較??;N表示體型樣本頻率最大,表明此體型人數(shù)最多,體型中等;P為體型樣本身高較高,身材健壯[6]。為便于表示體型,將表8中1體型用M表示,2體型用N表示,3體型用P表示。如果按照表9中的數(shù)值進(jìn)行服裝號(hào)型的推算,必然會(huì)帶來(lái)許多不便,因此需要對(duì)其進(jìn)行圓整,圓整后結(jié)果見(jiàn)表10。
表9 平均值
Tab.9 Average value
項(xiàng)目MNP身高166.417170.587177.064體質(zhì)量59.06362.77369.573胸圍85.89592.55298.773頸圍38.07440.15341.586總肩寬43.97047.01349.586后背長(zhǎng)41.50544.36846.341全臂長(zhǎng)54.60255.84557.177
表10 圓整后平均值
Tab.10 Rounded average
項(xiàng)目MNP身高166171177體質(zhì)量596369胸圍869399頸圍384042總肩寬444750后背長(zhǎng)424446全臂長(zhǎng)555657
檔差的設(shè)置是為了便于號(hào)型的制定。檔差設(shè)置時(shí),不僅要考慮顧客的舒適性,還要便于企業(yè)生產(chǎn),檔差設(shè)置太大不能滿(mǎn)足眾多的消費(fèi)者需求,檔差設(shè)置太小則不利于生產(chǎn)者批量化生產(chǎn)。文中利用回歸方程設(shè)置各部位檔差。胸圍在第1個(gè)因子中具有代表性,因此其他變量用胸圍來(lái)描述,同理第2個(gè)因子用身高表示。在不同體型樣本中,分別建立身高與體質(zhì)量、全臂長(zhǎng)的線(xiàn)性關(guān)系,胸圍與頸圍、總肩寬、后背長(zhǎng)之間的線(xiàn)性關(guān)系[7]。身高用H表示,胸圍用B表示,線(xiàn)性關(guān)系見(jiàn)表11。
表11 線(xiàn)性回歸方程
首先設(shè)置身高和胸圍的檔差分別是5和4,將其代入不同部位的線(xiàn)性回歸方程可以得到相應(yīng)的檔差。為便于生產(chǎn),將3類(lèi)體型不同檔差進(jìn)行統(tǒng)一化,得到了最終確定的檔差,具體結(jié)果見(jiàn)表12。由表12可以看出,頸圍和總肩寬檔差大于國(guó)家標(biāo)準(zhǔn)中規(guī)定的數(shù)值(頸圍檔差為1,總肩寬為1.2),這充分體現(xiàn)了陜西男子的體型特征,身材中等,肩寬頸粗的特點(diǎn),這與陜西男子的體型特征相一致。
表12 檔差設(shè)置
注:括號(hào)外為計(jì)算值,括號(hào)內(nèi)為采用值。
在計(jì)算不同號(hào)型具體數(shù)值時(shí),首先要統(tǒng)計(jì)分析不同體型各部位的最大值和最小值,然后結(jié)合中間體、檔差、最大值、最小值和線(xiàn)性方程綜合考慮數(shù)值的設(shè)置。以體型N為例,首先統(tǒng)計(jì)各部位最大值和最小值,具體見(jiàn)表13;再按照中間體及檔差設(shè)置數(shù)值;最后根據(jù)最值和線(xiàn)性方程進(jìn)行調(diào)整修正,最終號(hào)型劃分結(jié)果見(jiàn)表14[8]。同理,按照此步驟對(duì)M和P體型部位數(shù)值進(jìn)行設(shè)置。
表13 N體型變量統(tǒng)計(jì)描述
表14 N體型下的號(hào)型設(shè)置
號(hào)型設(shè)置是否合理對(duì)于服裝生產(chǎn)和銷(xiāo)售至關(guān)重要。利用SPSS數(shù)據(jù)分析軟件并根據(jù)隨機(jī)樣本數(shù)據(jù)信息可以快速、準(zhǔn)確地構(gòu)建服裝號(hào)型體系,方便生產(chǎn)企業(yè)根據(jù)不同地域、不同年齡的目標(biāo)客戶(hù)建立合理的號(hào)型標(biāo)準(zhǔn)[9]。利用陜西地區(qū)男子身材體型數(shù)據(jù)信息,結(jié)合SPSS數(shù)據(jù)分析工具,劃分了N,M,P 3種體型,并在每種體型下設(shè)置了相關(guān)號(hào)型及不同號(hào)型的數(shù)據(jù)特征,為服裝設(shè)計(jì)及生產(chǎn)提供參考與借鑒。