摘要:針對長江流域棉區(qū)棉花加工過程中不同采樣點的棉花含雜率樣本中存在異常值的問題,采用SPSS統(tǒng)計分析軟件,繪制不同樣本的箱形圖,確定不同樣本中的異常值;通過比較剔除異常值前后的均值、標準差和Spearman偏度系數(shù),分析了異常值對樣本均值和標準差的影響;通過分析長江流域棉區(qū)不同采樣點棉花含雜率樣本箱形圖,確定了不同加工設(shè)備對于棉花的清雜效果;結(jié)果確定長江流域棉區(qū)棉花加工后棉花含雜率樣本均值為1.585%,可以為修訂棉花含雜率國家標準提供數(shù)據(jù)支撐。
關(guān)鍵詞:棉花含雜率;箱形圖;K-S檢驗;Spearman偏度系數(shù);長江流域棉區(qū);異常值檢驗
中圖分類號:S-3;O212-1 文獻標識碼:A 文章編號:0439-8114(2016)11-2895-04
DOI:10.14088/j.cnki.issn0439-8114.2016.11.047
棉花含雜率檢驗是棉花質(zhì)量檢驗的重要內(nèi)容,棉花含雜率標準值是貿(mào)易中計算公定質(zhì)量的關(guān)鍵指標之一。隨著棉花加工工藝的改進和加工設(shè)備進步、子棉預(yù)處理效率的提高、皮棉清理機的應(yīng)用,棉花實際含雜率總體上有所變化?,F(xiàn)行國家標準規(guī)定的棉花含雜率標準值已不能準確反映目前中國棉花實際含雜率的分布狀況[1-4]。為了推動國家標準后續(xù)修訂工作的開展,做好棉花標準含雜率設(shè)限調(diào)整的研究工作,以長江流域棉區(qū)棉花加工過程中不同取樣點的棉花含雜率作為調(diào)研對象,確定長江流域棉區(qū)棉花含雜率分布。
由于棉花含雜率調(diào)研涉及取樣、棉樣郵寄、棉樣測試、數(shù)據(jù)統(tǒng)計等諸多環(huán)節(jié),取樣過程本身就具有隨機性,可能造成最終測試的樣本數(shù)據(jù)存在異常值現(xiàn)象。異常值的存在對不同取樣點的棉花含雜率分析結(jié)果準確性造成偏差,影響棉花含雜率調(diào)研結(jié)果的準確性。為了客觀、真實地反映長江流域棉區(qū)棉花含雜率的分布現(xiàn)狀,本研究采用箱形圖法判斷棉花含雜率樣本中異常值的存在情況,對于存在異常值的樣本,剔除異常值,分析異常值對樣本均值和標準差的影響,并確定長江流域棉區(qū)棉花加工過程中不同采樣點棉花含雜率的分布狀況。
1 箱形圖異常值檢驗
箱形圖也叫箱線圖,是檢驗樣本數(shù)據(jù)中異常值的常用方法,與格拉布斯法(Grubbs)、3σ法、Z分數(shù)法等不同,箱形圖法既可以用作服從正態(tài)分布樣本數(shù)據(jù)異常值判斷,也可以用作不服從正態(tài)分布樣本數(shù)據(jù)異常值判斷,適用范圍較廣[5]。
箱形圖的中心位置為中位數(shù),箱子的長度表示四分位數(shù)的間距(IQR),兩端分別是上四分位數(shù)(Q3)和下四分位數(shù)(Q1),箱兩端的須為最大值和最小值。箱形圖法定義的異常值是指樣本數(shù)據(jù)中大于Q3+1.5IQR和小于Q1-1.5×IQR。其中Q3+1.5×IQR和Q1-1.5IQR為異常值截距線,Q3+3IQR和Q1-3IQR為極端值截距線,介于異常值截距線與極端值截距線之間的異常值叫溫和異常值,位于極端值截距線以外的異常值叫極端異常值[6-9]。箱形圖的結(jié)構(gòu)見圖1。
異常值的處理原則針對極端異常值與溫和異常值是有所不同的。對于極端異常值,通常采用直接剔除的方法,而對于溫和異常值,通常有幾種處理方法[5],包括保留、剔除、替換(用非異常值替換異常值)、修正(在找到實際原因時修正異常值)。
由于長江流域棉區(qū)棉花含雜率調(diào)研為長江流域2個省3個棉花加工廠,棉樣一旦選取就無法改變,棉樣測試后,每個棉樣的異常含雜率無法測試修正??紤]調(diào)研數(shù)據(jù)的特殊性,本研究對異常值的處理采用剔除,以確保結(jié)果的準確性。
2 數(shù)據(jù)分析
2.1 子棉清理前棉花含雜率
子棉清理前棉花含雜率樣本容量348,樣本均值為3.307%,樣本中位數(shù)為3.307%,樣本標準差為0.923%。采用SPSS軟件繪制子棉清理前含雜率樣本的箱形圖(圖2),從圖2中可以看出,子棉清理前含雜率樣本中無異常值。
采用SPSS軟件對子棉清理前棉花含雜率樣本進行K-S檢驗,其檢驗結(jié)果P>0.05,表明子棉清理前含雜率樣本服從正態(tài)分布,計算子棉清理前棉花含雜率樣本的Spearman偏度系數(shù)=0,表明子棉清理前含雜率樣本呈標準正態(tài)分布。
2.2 子棉清理后棉花含雜率
子棉清理后棉花含雜率樣本容量348,樣本均值為2.834%,樣本中位數(shù)為2.982%,樣本標準差為0.790%。采用SPSS軟件繪制子棉清理后含雜率樣本的箱形圖(圖3)。從圖3中可以看出,子棉清理后含雜率樣本中存在6個異常值,且均小于正常樣本數(shù)據(jù)的最小值,異常值的存在會減小子棉清理后含雜率的樣本均值。在剔除異常值后,子棉清理后含雜率新樣本的樣本容量為342,樣本均值為2.876%,樣本中位數(shù)為2.998%,樣本標準差為0.730%。剔除異常值前、后棉花含雜率散點圖見圖4、圖5。從剔除異常值前后樣本的比較可知,剔除異常值后,樣本標準差減小了0.060%,樣本的離散程度有所降低,剔除異常值后的樣本數(shù)據(jù)更集中于樣本均值,從圖4和圖5比較亦可得出相同結(jié)論。
在剔除異常值前采用SPSS軟件計算子棉清理后含雜率,樣本的K-S檢驗結(jié)果P=0.019<0.05,樣本不服從正態(tài)分布,在剔除異常值之后,K-S檢驗結(jié)果P=0.025,雖然P有所增加,但P<0.05,新樣本仍然不服從正態(tài)分布。
2.3 皮棉清理前棉花含雜率
皮棉清理前棉花含雜率樣本容量348,樣本均值為3.209%,樣本中位數(shù)為3.204%,樣本標準差為0.799%。采用SPSS軟件繪制皮棉清理前棉花含雜率樣本的箱形圖(圖6)。從圖6可以看出,皮棉清理前棉花含雜率樣本中存在6個異常值,其中2個大于最大值,4個小于最小值。在剔除異常值后,皮棉清理后棉花含雜率樣本容量為342,樣本均值為3.221%,樣本中位數(shù)為3.225%,樣本標準差為0.754%。剔除異常值前、后棉花含雜率散點圖見圖7、圖8。
從剔除異常值前后樣本的描述統(tǒng)計量比較可知,剔除異常值后樣本標準差減小了0.045個百分點,樣本的離散程度有所降低,樣本更集中于樣本均值,從圖7和圖8比較也可以得出此結(jié)論。
在剔除異常值之前,采用SPSS軟件進行樣本的K-S檢驗,K-S檢驗結(jié)果P=0.54>0.05,樣本服從正態(tài)分布,樣本的Spearman偏度系數(shù)為0.019,樣本略呈正偏態(tài)分布,剔除異常值之后新樣本K-S檢驗結(jié)果P=0.82>0.05,服從正態(tài)分布,新樣本的Spearman偏度系數(shù)為-0.005,略呈負偏態(tài)分布,但|0.019|> |-0.005|,新樣本分布形態(tài)更接近于標準正態(tài)分布。
2.4 皮棉清理后棉花含雜率
皮棉清理后棉花含雜率樣本容量348,樣本均值為1.657%,樣本中位數(shù)為1.602%,樣本標準差為0.510%。采用SPSS軟件繪制皮棉清理后棉花含雜率樣本箱形圖(圖9)。從圖9中可以看出,皮棉清理后棉花含雜率樣本中存在26個異常值,異常值的存在影響皮棉清理后棉花含雜率的均值。在剔除異常值后,皮棉清理后棉花含雜率樣本容量為322,樣本均值為1.585%,樣本中位數(shù)為1.550%,樣本標準差為0.350%。剔除異常值前、后棉花含雜率散點圖見圖10、圖11。
從剔除異常值前后樣本的描述統(tǒng)計量比較可知,剔除異常值后,樣本標準差減小了0.160%,樣本的離散程度有所降低,剔除異常值后的樣本更集中于樣本均值。從圖10和圖11也可以看出剔除異常值后的棉花含雜率明顯集中于剔除異常值之前。
在剔除異常值之前,對皮棉清理后棉花含雜率樣本進行K-S檢驗,檢驗結(jié)果P<0.05,樣本不服從正態(tài)分布,而在剔除異常值之后,新樣本的K-S檢驗結(jié)果P=0.42>0.05,服從正態(tài)分布,新樣本Spearman偏度系數(shù)為0.3,表明新樣本分布形態(tài)呈正偏態(tài)分布。
2.5 長江流域棉區(qū)不同采樣點棉花含雜率分析
根據(jù)長江流域棉區(qū)不同采樣點棉花含雜率樣本數(shù)據(jù),繪制棉花含雜率箱形圖(圖12)。從圖12中可以看出,隨著棉花加工設(shè)備的清雜作用,各個箱形圖的箱體大小呈逐漸減小的趨勢,在箱形圖中,箱體的大小反映了樣本的離散程度,因此,各個樣本的離散程度逐漸減小,樣本數(shù)據(jù)更集中于樣本均值;另外,從箱形圖還可以發(fā)現(xiàn),通過子棉清理和皮棉清理作用,棉花含雜率均比清理前有所降低,皮棉清理后棉花含雜率降低幅度最大,表明在棉花加工過程中,皮棉清理的效果最明顯,在棉花含雜清理過程中起主要作用;對比子棉清理后和皮棉清理前棉花含雜率中位數(shù)可知,軋花后棉花含雜率中位數(shù)比軋花前棉花含雜率中位數(shù)要高,通過分析主要是由于在軋花過程中,軋花機鋸片高速旋轉(zhuǎn),在棉纖維與棉子分離的同時產(chǎn)生了帶纖維子屑、破子等新的雜質(zhì),造成皮棉清理前棉花含雜率中位數(shù)高于子棉清理后棉花含雜率中位數(shù)。
3 結(jié)論
在研究長江流域棉區(qū)棉花含雜率分布現(xiàn)狀時,引入箱形圖分析方法,采用SPSS統(tǒng)計分析軟件,繪制不同采樣點棉花含雜率樣本的箱形圖,確定不同采樣點棉花含雜率樣本中異常值的存在狀況,針對存在異常值的樣本,在剔除異常值后統(tǒng)計新樣本的樣本均值、樣本中位數(shù)、樣本標準差和樣本K-S檢驗結(jié)果,通過與原樣本的描述性統(tǒng)計量進行比較,可知新樣本的樣本標準差均有不同程度的降低,樣本分布趨勢更集中于新的樣本均值;子棉清理后剔除異常值前后樣本的K-S檢驗結(jié)果P<0.05,表明子棉清理后樣本不服從正態(tài)分布,而皮棉清理后棉花含雜率樣本在剔除異常值之前K-S檢驗結(jié)果P<0.05,不服從正態(tài)分布,而剔除異常值之后,新樣本K-S檢驗結(jié)果P>0.05,表明剔除異常值之后,新樣本服從正態(tài)分布;通過對服從正態(tài)分布的樣本,比較樣本的Spearman偏度系數(shù)可知,樣本的Spearman偏度系數(shù)絕對值均有所減小,新樣本的分布更接近于正態(tài)分布。
通過長江流域棉區(qū)不同采樣點棉花含雜率箱形圖比較,確定在棉花加工過程中,皮棉清理作用對棉花含雜率的影響最大,棉花含雜率降低幅度最大,清雜效果最好;而在軋花過程中,由于受鋸齒軋花機工作原理決定,產(chǎn)生帶纖維子屑等新的雜質(zhì),造成軋花后棉花含雜率比軋花前棉花含雜率高的現(xiàn)象。
本研究確定長江流域棉區(qū)棉花加工后的棉花含雜率樣本均值為1.585%,Spearman偏度系數(shù)為0.3,基本接近正態(tài)分布。長江流域棉區(qū)棉花含雜率的確定,為制定棉花含雜率標準提供了數(shù)據(jù)支撐,為指導(dǎo)棉花加工提供了依據(jù)。
參考文獻:
[1] 馮志新,安浩平,吳順麗.基于RGB顏色模型棉花雜質(zhì)檢驗算法[J].計算機與現(xiàn)代化,2013(4):99-102.
[2] 宋國軍.強化質(zhì)量管理提高棉花效益——淺談機采棉提高入儲率途徑[J].中國棉花加工,2014(5):11-13.
[3] 鄭艷林.如何提高棉花雜質(zhì)檢驗結(jié)果的準確性[J].中國棉花加工,2014(2):30-31.
[4] 謝新平.研究分析影響棉花(機采棉)清理加工質(zhì)量的因素[J].中國棉花加工,2013(4):13-15.
[5] 孫向東,劉擁軍,陳雯雯,等.箱線圖法在動物衛(wèi)生數(shù)據(jù)異常值檢驗中的運用[J].中國動物檢疫,2010(7):66-68.
[6] 時立文.SPSS19.0統(tǒng)計分析從入門到精通[M].北京:清華大學(xué)出版社,2012.
[7] 范修文,唐玉榮,蘭海鵬,等.成熟期庫爾勒香梨理化指標變化規(guī)律及相關(guān)性研究[J].農(nóng)機化研究,2015(6):154-158.
[8] 劉文艷,龍潤生.SPSS在高等數(shù)學(xué)成績分析中的應(yīng)用[J].數(shù)理醫(yī)藥學(xué)雜志,2009(3):319-322.
[9] 蒲 括,邵 朋.精通Excel數(shù)據(jù)統(tǒng)計與分析[M].北京:人民郵電出版社,2014.