劉文杰
(貴州中煙工業(yè)有限責(zé)任公司畢節(jié)卷煙廠,貴州 畢節(jié) 551700)
數(shù)理統(tǒng)計(jì)學(xué),是一項(xiàng)科學(xué)的統(tǒng)計(jì)方法,用來解決各項(xiàng)實(shí)際問題。能夠通過對(duì)各項(xiàng)數(shù)據(jù)的整理排列,來直觀的呈現(xiàn)出各項(xiàng)數(shù)據(jù)中所反應(yīng)的問題,從而去預(yù)防或是制定措施來解決問題。在卷煙生產(chǎn)過程中會(huì)產(chǎn)生大量的數(shù)據(jù),通過數(shù)理統(tǒng)計(jì)和分析,可以得到各工序的生產(chǎn)信息,從而對(duì)每個(gè)工序環(huán)節(jié)進(jìn)行有效把控,從而有效提高產(chǎn)品質(zhì)量。
數(shù)理統(tǒng)計(jì)起源于古典時(shí)期的測(cè)地學(xué),發(fā)展于近代小樣本理論的形成。近代統(tǒng)計(jì)知識(shí)在“洋務(wù)運(yùn)動(dòng)”時(shí)期隨《決疑數(shù)學(xué)》傳入我國,于20 世紀(jì)前期緩慢發(fā)酵,在新中國成立后得到迅速發(fā)展,并在各行業(yè)中形成統(tǒng)計(jì)與分析結(jié)合的改進(jìn)循環(huán)。保證數(shù)據(jù)有效性方面,張德然找到利用跳躍度來檢驗(yàn)異常值的方法,王小凱和朱小文對(duì)3 種統(tǒng)計(jì)學(xué)中判別和剔除異常值的方法進(jìn)行了研究,以上研究發(fā)現(xiàn)拉依達(dá)準(zhǔn)則更適用于大樣本但精準(zhǔn)性不高,格布拉斯準(zhǔn)則精準(zhǔn)性高但用于大樣本時(shí)計(jì)算量較大。以上研究從標(biāo)準(zhǔn)偏差、回歸分析、方差分析等角度,對(duì)數(shù)理統(tǒng)計(jì)和分析在實(shí)際中的應(yīng)用進(jìn)行了闡述。接下來論述的數(shù)理統(tǒng)計(jì)和分析在卷煙產(chǎn)品質(zhì)量檢測(cè)中的應(yīng)用,借鑒了以上相關(guān)論文的研究成果,目的是讓檢測(cè)人員有效進(jìn)行數(shù)據(jù)的整理和分析等工作。
對(duì)卷煙生產(chǎn)過程質(zhì)量檢驗(yàn)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析的步驟通常如圖1。卷煙生產(chǎn)過程質(zhì)量檢驗(yàn)中,會(huì)得到大量雜亂的數(shù)據(jù),這些數(shù)據(jù)包含了產(chǎn)品的各項(xiàng)指標(biāo),通過數(shù)據(jù)的整理,去除無用的信息,將有效的信息保留梳理,再進(jìn)行分析處理,就可以得到產(chǎn)品的質(zhì)量變化規(guī)律,發(fā)現(xiàn)問題并制定相應(yīng)措施來解決問題,依據(jù)數(shù)據(jù)分析而制定的解決問題的方法具有準(zhǔn)確性和高效性的優(yōu)點(diǎn)。
圖1 檢驗(yàn)數(shù)據(jù)統(tǒng)計(jì)分析步驟
比如在卷煙物理指標(biāo)檢驗(yàn)工作中,以卷煙成品中單支克重的檢測(cè)數(shù)據(jù)為例,檢測(cè)者收集的4000 個(gè)某牌號(hào)卷煙單支克重檢驗(yàn)數(shù)據(jù),其分布情況見圖2,其橫坐標(biāo)單位為g,縱坐標(biāo)為數(shù)據(jù)個(gè)數(shù)。
圖2 某牌號(hào)卷煙單支克重檢測(cè)數(shù)據(jù)的分布圖
由圖2 可見,煙支重量是具有波動(dòng)性的,且整體呈正態(tài)分布規(guī)律進(jìn)行波動(dòng),下面將用這組數(shù)據(jù)來說明異常值的驗(yàn)證與剔除,平均值、中位數(shù)與眾數(shù),以及更多統(tǒng)計(jì)參數(shù)等在實(shí)際中的使用。
從圖2 數(shù)據(jù)看出,重量小于0.82 g 的數(shù)據(jù)有93個(gè),不符合正態(tài)分布的規(guī)律,在整理數(shù)據(jù)時(shí)就必須考慮該組數(shù)據(jù)中是否存在異常值。分析者通常將一組數(shù)據(jù)中與平均值有較大差異的數(shù)據(jù)定義為異常值,因?yàn)檫@些數(shù)據(jù)可能由于操作失誤、儀器故障或其他一些隨機(jī)因素導(dǎo)致。以國際上較為推薦的格拉布斯檢驗(yàn)法為例,格拉布斯檢驗(yàn)法以正態(tài)分布為前提,將4 000 數(shù)據(jù)按大小順序排列并切片為40 組子數(shù)據(jù),子數(shù)據(jù)第一組為(x1,x41,x81...x3961)、第二組為(x2,x42,x82...x3962)依次類推。以第一組數(shù)據(jù)計(jì)算,用最大值 x(max)=0.859 與 最 小 值 x(min)=0.821 分 別 減 去均 值 x(mean)=0.8486, 差 值 最 大 為 |x(min)-x(mean)|=0.0276,將最小值的定義為可疑值x1,i 為可疑值x 的排列序號(hào),數(shù)據(jù)組的標(biāo)準(zhǔn)偏差x(S.D)=0.005 28,根據(jù)公式:Gi=|(xi- x(mean))/x(S.D)|=5.227
格拉布斯表置信概率P 值可以設(shè)置0.9~0.995 的范圍,值越大要求越嚴(yán)格。根據(jù)P 值(此處取0.99)和數(shù)據(jù)數(shù)量(此處為100)查格拉布斯表G99(100)=3.6,Gi>G99(100),則能判斷該測(cè)量數(shù)據(jù)是異常值,可以剔除。剩下的數(shù)據(jù)再次進(jìn)行判定直到Gi<GP(n)為止。圖2 中重量93 個(gè)小于0.82 g 和6 個(gè)0.82~0.822 g 間的單支克重?cái)?shù)據(jù)就判定為異常值,從而可以發(fā)現(xiàn)檢測(cè)過程或檢測(cè)儀器出現(xiàn)了問題。格拉布斯檢驗(yàn)法對(duì)異常值的判定較為精準(zhǔn)且得到國際上廣泛認(rèn)可,但其在處理海量數(shù)據(jù)時(shí)計(jì)算量過大,這時(shí)可以考慮使用精度較差,但計(jì)算簡(jiǎn)單的拉依達(dá)準(zhǔn)則。其只要滿足 |(xi- x(mean))|≥ 3 x(S.D),就能將可疑值xi判定為異常值進(jìn)行剔除。
平均值在卷煙成品質(zhì)量的數(shù)據(jù)統(tǒng)計(jì)中通常指算數(shù)平均值,是統(tǒng)計(jì)學(xué)中最基本、最常用的一種平均指標(biāo),代表一組數(shù)據(jù)的平均水平。中位數(shù)又稱中值,是按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù)。眾數(shù)是指在統(tǒng)計(jì)分布上具有明顯集中趨勢(shì)點(diǎn)的數(shù)值,代表一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值。平均值、中位數(shù)、眾數(shù)都表示數(shù)據(jù)的集中位置。平均值適用范圍廣,但受異常數(shù)據(jù)影響較大;中位數(shù)具有良好抵抗性,受異常數(shù)據(jù)影響較小,但不適用于小樣本或是分布偏態(tài)的數(shù)據(jù);眾數(shù)能更好代表一組數(shù)據(jù)的分布情況,但其缺點(diǎn)是一組數(shù)據(jù)可能出現(xiàn)多個(gè)眾數(shù),使得可靠性較差。如圖2,案例中均值0.853 就受到了異常值的影響,使得均值偏大而不能較好的表示數(shù)據(jù)的集中位置,而眾數(shù)0.852 與中位數(shù)0.851 較為準(zhǔn)確地反映了這組數(shù)據(jù)的集中位置。
查看一組數(shù)據(jù)是否異常可以使用異常值驗(yàn)證,判斷一組數(shù)據(jù)集中趨勢(shì)可以計(jì)算其均值、中位數(shù)、眾數(shù)、四分位數(shù)等;衡量一組數(shù)據(jù)的離散程度可以使用標(biāo)準(zhǔn)偏差、極差、變異系數(shù)等。以上都是數(shù)據(jù)整理歸納常用到的統(tǒng)計(jì)參數(shù),但數(shù)據(jù)的使用不只包含以上內(nèi)容,還有衡量數(shù)據(jù)準(zhǔn)確性的置信區(qū)間、檢驗(yàn)統(tǒng)計(jì)假設(shè)是否正確的顯著性檢驗(yàn)等,但置信區(qū)間及顯著性檢驗(yàn)較少用到,所以不再詳細(xì)闡述。在對(duì)數(shù)據(jù)進(jìn)行整理統(tǒng)計(jì)時(shí),需要對(duì)數(shù)據(jù)的使用有合理的判斷,即在統(tǒng)計(jì)前根據(jù)統(tǒng)計(jì)研究的目的和研究對(duì)象的特點(diǎn),明確統(tǒng)計(jì)指標(biāo)和指標(biāo)體系,以及對(duì)應(yīng)的分組方法,這樣才能較好的以分析方法指導(dǎo)實(shí)際的統(tǒng)計(jì)活動(dòng)。
回歸分析分為線性回歸、邏輯回歸、多項(xiàng)式回歸、逐步回歸等,其是衡量?jī)煞N因素之間相互關(guān)系的統(tǒng)計(jì)分析方法。根據(jù)因素的多少分為一元回歸和多元回歸分析,根據(jù)因素所影響的其他因素多少分為簡(jiǎn)單回歸和多元回歸分析,根據(jù)因素和其所影響的因素的關(guān)系又分為線性回歸和非線性回歸分析。
以Minitab 軟件進(jìn)行回歸分析為例,在卷煙成品質(zhì)量檢驗(yàn)中,得到煙支重量與煙支吸阻數(shù)據(jù)如表1。
表1 煙支重量與煙支吸阻數(shù)據(jù)
設(shè)煙支重量為因素X,煙支吸阻為煙支重量這一因素X 所影響的因素Y,通??梢越⒕€性關(guān)系:Y=A+BX+§。公式中A 和B 為待計(jì)算出的參數(shù),其中A 表示回歸直線的截距,B 表示直線的斜率,§表示隨機(jī)誤差。在Minitab 中對(duì)數(shù)據(jù)進(jìn)行回歸分析得到線性關(guān)系為 Y=-590.8+2 033.9X
公式表示每當(dāng)煙支重量X 提高或降低0.01 g 時(shí),吸阻Y 就會(huì)相應(yīng)提高或降低20.33 Pa,如圖3,兩者呈正相關(guān)關(guān)系。
圖3 煙支重量與煙支吸阻回歸方程及數(shù)據(jù)散點(diǎn)圖
回歸分析能夠找到兩因素之間確定性的函數(shù)關(guān)系,建立起因素間溝通聯(lián)系的橋梁,還能對(duì)兩個(gè)因素間相互影響作用做出判定。對(duì)煙支重量和吸阻進(jìn)行回歸分析得到結(jié)果如表2。
表2 煙支重量與煙支吸阻回歸分析結(jié)果
Minitab 使用 F-Value 和 P-Value 表示因素間的影相互影響,F(xiàn)-Value 表示用于確定項(xiàng)是否與響應(yīng)值相關(guān)的檢驗(yàn)統(tǒng)計(jì)量,通常F-Value 越大表明項(xiàng)對(duì)響應(yīng)值影響越顯著。P-Value 由F-Value 計(jì)算得出,是一個(gè)概率值,其用來衡量否定原假設(shè)的證據(jù),概率越低,否定原假設(shè)的證據(jù)越充分。通常,顯著性水平α=0.05,當(dāng)P-Value <α 時(shí),可以判斷均值之間的差值在統(tǒng)計(jì)意義上顯著,換言之,表示因素間存在顯著的關(guān)聯(lián)性。表2 中P-Value 為0.000 5 <α,所以煙支重量的變化對(duì)煙支吸阻有顯著影響。
方差分析又稱變異系數(shù)分析,其原理與回歸分析一樣,不同的是回歸分析較適用于連續(xù)和線性的模型分析,而方差分析適用于特殊和離散的模型分析,簡(jiǎn)單來說,方差分析實(shí)際上是特殊情況的回歸分析。比如研究煙支重量對(duì)煙支吸阻的影響,因?yàn)橹亓颗c吸阻的變化曲線都是線性的,這時(shí)用回歸分析較為準(zhǔn)確,但研究不同種類、不同品牌的卷煙輔料對(duì)成品煙支的物理指標(biāo)影響,不同種類的輔料和不同廠家的輔料其變化是非線性的,這時(shí)使用方差分析較為合適。因方差分析與回歸分析方法一致,此處不再贅述。
計(jì)量是一種實(shí)現(xiàn)單位統(tǒng)一、量值準(zhǔn)確可靠的活動(dòng)。在卷煙過程質(zhì)量檢驗(yàn)中,計(jì)量工作通過檢驗(yàn)、測(cè)量和試驗(yàn)儀器的量值校準(zhǔn)、傳遞、調(diào)整,來確保量值的準(zhǔn)確性和一致性,讓檢測(cè)結(jié)果盡可能接近被測(cè)量的真值,以及測(cè)量結(jié)果呈現(xiàn)可再現(xiàn)的屬性,換言之,計(jì)量是數(shù)據(jù)統(tǒng)計(jì)分析結(jié)果準(zhǔn)確的基石。如果計(jì)量準(zhǔn)確性得不到有效保障,數(shù)據(jù)分析的結(jié)果很可能把問題導(dǎo)向錯(cuò)誤的方向,進(jìn)一步導(dǎo)致做出錯(cuò)誤的決策對(duì)工藝流程進(jìn)行不恰當(dāng)?shù)恼{(diào)整和改進(jìn),導(dǎo)致新的問題出現(xiàn)或是造成不合格品的產(chǎn)生。而如果計(jì)量的一致性得不到有效保障,數(shù)據(jù)的隨機(jī)因素增大,很可能使得問題無法被發(fā)現(xiàn)或是分析結(jié)果偏差過大,導(dǎo)致生產(chǎn)過程的工藝參數(shù)調(diào)整不準(zhǔn)確。在圖2 中,對(duì)煙支的稱重儀器正是因?yàn)橛?jì)量準(zhǔn)確性得不到保障,檢測(cè)數(shù)據(jù)異常出現(xiàn)93 個(gè)重量極端偏小的煙支,而在日常生產(chǎn)中進(jìn)行的小樣本分析時(shí),較少會(huì)進(jìn)行異常值剔除,很難發(fā)現(xiàn)這樣的計(jì)量錯(cuò)誤,該錯(cuò)誤會(huì)使得煙支重量整體均值偏小,導(dǎo)致在對(duì)重量進(jìn)行控制時(shí),進(jìn)行錯(cuò)誤的工藝參數(shù)調(diào)整。
通過上述案例可以知道,面對(duì)卷煙生產(chǎn)過程中產(chǎn)生的大量檢測(cè)數(shù)據(jù),應(yīng)該如何合理選擇和應(yīng)用數(shù)理統(tǒng)計(jì)和分析手段來發(fā)現(xiàn)生產(chǎn)中的問題:(1)異常值的驗(yàn)證和剔除。通過格拉布斯檢驗(yàn)法或拉依達(dá)準(zhǔn)則等對(duì)異常值進(jìn)行驗(yàn)證和剔除,以消除異常值對(duì)統(tǒng)計(jì)分析結(jié)果的影響。(2)平均值、中位數(shù)和眾數(shù)都可以觀察數(shù)據(jù)的集中趨勢(shì),但不同情況要合理使用不同的集中位置衡量參數(shù)。同樣,觀察數(shù)據(jù)離散程度也有標(biāo)準(zhǔn)偏差、極差等不同衡量參數(shù),需要合理利用好這些參數(shù)。(3)通過回歸方程分析和方差分析等方法建立起因素間聯(lián)系的橋梁,可以有效對(duì)因素間互相影響的程度進(jìn)行判定,但也需要合理的選擇分析方法。(4)計(jì)量是保證數(shù)據(jù)的準(zhǔn)確性和一致性,是保證數(shù)據(jù)統(tǒng)計(jì)分析結(jié)果準(zhǔn)確的基石。隨著社會(huì)科學(xué)技術(shù)的發(fā)展,現(xiàn)階段很多統(tǒng)計(jì)分析軟件都實(shí)現(xiàn)了更高的智能化,常見的統(tǒng)計(jì)分析軟件有Spss、Minitab、Design-Expert、Matlab 等。軟件智能化水平的提高降低了進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析的門檻,只要能熟練掌握這些智能化統(tǒng)計(jì)分析軟件,并了解各種參數(shù)和分析方法的原理并正確選擇,就能夠滿足卷煙生產(chǎn)過程中質(zhì)量統(tǒng)計(jì)分析的要求。順應(yīng)時(shí)代發(fā)展,相信分析方法的不斷完善,統(tǒng)計(jì)分析軟件的不斷更新?lián)Q代,企業(yè)從數(shù)據(jù)中發(fā)現(xiàn)問題的能力不斷提高,卷煙制造業(yè)的產(chǎn)品質(zhì)量水平也會(huì)不斷向好。