賈旭山,金振中
(1. 中國人民解放軍92941部隊,遼寧 葫蘆島 125001;2. 中國人民解放軍92493部隊,遼寧 葫蘆島 125001)
針對小子樣情況下的概率性能指標(biāo)的評定,近年來開展了大量的研究工作并提出了一些方法,其中影響比較大的方法有二項分布Bayes假設(shè)檢驗方法[1-2](為簡便計,下文簡稱P方法),并在國家行業(yè)標(biāo)準(zhǔn)中推薦使用。然而,該方法在使用中逐漸暴露出一些問題需要分析并解決。
設(shè)概率性能指標(biāo)記p,運(yùn)用P方法的基本步驟如下:
(1) 給出原假設(shè)H0:p=p0;
(2) 選取鑒別比d,并根據(jù)如下公式確定備擇假設(shè)H1:p=p1,其中:
(1)
(3) 根據(jù)歷史信息確定驗前概率。設(shè)歷史試驗信息成功數(shù)記S0、失敗數(shù)記F0,則有驗前概率
(2)
(4) 設(shè)試驗數(shù)記N,確定檢驗臨界值
(3)
(5) 設(shè)試驗成功數(shù)記SN,則有如下檢驗方案
(4)
(6) 令απ0為生產(chǎn)方風(fēng)險,βπ1為使用方風(fēng)險,則有如下計算公式,運(yùn)用中要求“雙方風(fēng)險相當(dāng)并小于某一值”。
(5)
式中:α和β為經(jīng)典方法時的雙方風(fēng)險,
(6)
首先,P方法表述有矛盾。P方法自名為二項分布假設(shè)檢驗方法,但卻引用了風(fēng)險概念并給出了風(fēng)險計算公式。實(shí)際上,假設(shè)檢驗屬統(tǒng)計推斷范疇,而風(fēng)險概念卻屬決策范疇[3-4],兩者并不等同。
其次,P方法確定方案的做法矛盾。P方法通過似然比檢驗公式反推拒受臨界值,運(yùn)用時卻又要求該方案雙方風(fēng)險相當(dāng),而實(shí)際上兩者之間不一致,例如:令p0=0.8,p1=0.6,設(shè)π0=π1=0.5和N=7,則有K=4,απ0=0.074和βπ1=0.210,雙方風(fēng)險相差3倍。由于P方法沒有限定鑒別比d的取值,有一些做法就試圖通過調(diào)整d來滿足風(fēng)險相當(dāng)要求[4],這又造成了P方法的嚴(yán)謹(jǐn)性問題。
對于概率性能指標(biāo)的評定,如果指標(biāo)值、驗前信息和試驗子樣數(shù)量均確定,則評定標(biāo)準(zhǔn)應(yīng)該唯一。P方法缺乏嚴(yán)謹(jǐn)性體現(xiàn)在d取值隨意而致評定標(biāo)準(zhǔn)多樣,例如以同等無知原則確定驗前信息[5-6]并令p0=0.7,N=9,則d取不同值時出現(xiàn)不同的評定標(biāo)準(zhǔn)(檢驗臨界值K)[7],具體情況見表 1。
表1 評定標(biāo)準(zhǔn)與鑒別比Table 1 Evaluation criteria and the discernible ratio
P方法的應(yīng)用要點(diǎn)是雙方風(fēng)險相當(dāng)且都小(暫且忽略一致性問題),因此其風(fēng)險值是關(guān)鍵。P方法將經(jīng)典方法視為無驗前信息特例,因而當(dāng)無驗前信息時風(fēng)險值應(yīng)與經(jīng)典方法應(yīng)一致。觀察P方法,顯然當(dāng)π0=π1=0.5,απ0=α/2和βπ1=β/2(α和β分別為經(jīng)典方法的雙方風(fēng)險)。
首先,P方法將驗前信息局限于歷史試驗信息,失去了Bayes方法的本義,因為在歷史試驗信息融合方面,經(jīng)典方法與Bayes方法一致(證明略)。其次,P方法事實(shí)上無法對驗前信息實(shí)現(xiàn)融合,文獻(xiàn)[1]指出 “該方法(P方法)有其不足,當(dāng)π0與π1相差較大時,雙方風(fēng)險難以相當(dāng),相應(yīng)的檢驗方案較偏激,難以被雙方共同接受”。舉例說明如下:設(shè)有驗前信息9發(fā)8中,現(xiàn)場試驗數(shù)量5,則有π0=0.833 2,π1=0.166 8,απ0=0.170 6,βπ1=0.057 6,顯然驗前信息不可用。
概括講,P方法有3個深層次問題:①簡單備擇對抗簡單假設(shè)的提法有錯;②引入鑒別比d的做法簡單、機(jī)械;③引入決策領(lǐng)域的風(fēng)險術(shù)語是草率的。
P方法是用于概率性能指標(biāo)評定的方法,概率的定義域是(0,1),而P方法關(guān)于概率性能指標(biāo)的提法卻是兩點(diǎn)分布-簡單備擇對抗簡單假設(shè),這既有悖對概率的常識性認(rèn)識,也是問題的根本原因。Bayes方法設(shè)定在沒有任何信息可用時可能的取值是同等無知,即各取0.5(純隨機(jī)),而隨著信息量加大隨機(jī)性會減弱,即其中一個的概率會增大,而另一個會減小。實(shí)際上,理論上2類錯誤概率互補(bǔ)(即和為1),不可能達(dá)到同等小;工程上由于容許誤差(引入鑒別比)存在,其工程計算值可以同等小,但簡單備擇對抗簡單假設(shè)的提法則消除了Bayes方法在工程上的這種可能性。
P方法沒有考察鑒別比的數(shù)學(xué)或工程背景,而導(dǎo)致其取值隨意[8]。實(shí)際上,鑒別比類似于經(jīng)典統(tǒng)計學(xué)引入的一個符號,其目的是控制犯第Ⅱ類錯誤概率的“表現(xiàn)值”,其作用是確定計算第Ⅱ類錯誤概率“表現(xiàn)值”需用到的備擇假設(shè)的“參考值”,所謂“表現(xiàn)值”和“參考值”,指不是真正的第Ⅱ類錯誤概率值和備擇假設(shè)值,而僅指在工程范圍內(nèi)允許的近似值。之所以這樣做,是因為一方面,理論上由于原假設(shè)與備擇假設(shè)之間的連續(xù)性,使得無論樣本容量多大2類錯誤概率和總為1;另一方面,工程上在誤差允許范圍內(nèi),為了同時控制2類錯誤概率,需要將原假設(shè)和備擇假設(shè)分離,在經(jīng)典統(tǒng)計學(xué)中的做法是保持原假設(shè)μ0而修改備擇假設(shè)μ1,使μ1等于μ0+δ或μ0-δ[9],這里的δ與P方法中的鑒別比d意義相同,區(qū)別在于前者用加(或減),后者用乘(或除)。因此鑒別比的提出與確定應(yīng)謹(jǐn)慎,P方法中關(guān)于鑒別比值的確定是草率的,具體情況見表 2。
表2 鑒別比對原假設(shè)、備擇假設(shè)分離值影響Table 2 Influence on the separated level between null hypothesis and alternative hypothesis by the discernible ratio
P方法其實(shí)屬基于后驗概率的似然比檢驗方法,P方法所有的步驟和概念均可以在統(tǒng)計推斷的假設(shè)檢驗領(lǐng)域解釋清楚,然而P方法卻引入決策風(fēng)險的概念[7],由此又引出如下問題。
(1) 關(guān)于決策問題3要素:狀態(tài)集、行動集和損失函數(shù)。P方法均不涉及,只是套用了一個背景意義和表現(xiàn)值均與錯誤概率相同的風(fēng)險概念,彰顯P方法的不嚴(yán)謹(jǐn)性。
(2) Bayes決策范疇包含4類風(fēng)險概念:先驗風(fēng)險、決策風(fēng)險、后驗風(fēng)險和Bayes風(fēng)險,其中先驗風(fēng)險和后驗風(fēng)險是樣本空間的函數(shù),Bayes風(fēng)險是數(shù)值,決策風(fēng)險是狀態(tài)集的函數(shù)。如果將假設(shè)檢驗問題視作基于0-1損失函數(shù)的決策問題,則經(jīng)典假設(shè)檢驗方法中的風(fēng)險α,β與Bayes決策中的決策風(fēng)險相對應(yīng),Bayes風(fēng)險則為π0β+π1β,由此P方法中的風(fēng)險在Bayes決策中找不出對應(yīng)的概念。如果認(rèn)為Bayes決策關(guān)于風(fēng)險概念是完備的,則P方法中的風(fēng)險公式是錯誤的。
(3) 如果將P方法視作基于后驗概率的似然比檢驗方法,其風(fēng)險公式就是錯誤概率公式[10],然而這個公式有誤,因為它不是基于后驗概率計算的,因為在簡單備擇對抗簡單假設(shè)的情況下,后驗概率公式并不容易導(dǎo)出。P方法只是在經(jīng)典方法的基礎(chǔ)上,將2類風(fēng)險與驗前概率對應(yīng)相乘,這樣做的背景、意義和邏輯性確實(shí)不清楚。
隨機(jī)現(xiàn)象需要通過大量重復(fù)試驗揭示其規(guī)律性,如果試驗的數(shù)量(即子樣量)有限就不能有效揭示其規(guī)律,這是小子樣問題的實(shí)質(zhì)[11]。如果將小子樣問題簡單、模糊地描述為“子樣數(shù)比較少”,則無法界定和解決小子樣問題,比如:“10個是否小子樣”。根據(jù)統(tǒng)計學(xué)大數(shù)定理,樣本容量與隨機(jī)不確定度負(fù)相關(guān),假設(shè)檢驗不確定度可用2類錯誤概率來表示,因此小子樣問題形式化描述步驟如下:
(1) 根據(jù)數(shù)學(xué)或工程背景將原假設(shè)域與備擇假設(shè)域相分離,對于概率性能指標(biāo)以通常的0.05顯著性水平定分離值,在作顯著性檢驗時將備擇假設(shè)域作退讓以分離,在作似然比檢驗時將原假設(shè)域和備擇假設(shè)域作同等退讓以分離;
(2) 以通常的0.05顯著性水平定2類錯誤概率值的允許水平(上限);
(3) 將樣本容量從1開始逐步增大,計算2類錯誤概率,當(dāng)2類錯誤概率同時小于允許水平時的樣本容量是最小需求量;
(4) 當(dāng)可用樣本量小于最小需求量時,隨機(jī)試驗存在小子樣問題,否則不存在小子樣問題。
小子樣評定方法改進(jìn)的基本思路是要解決P方法存在的問題,具體要求為:采用復(fù)雜備擇對抗復(fù)雜假設(shè);取消鑒別比,而改由工程或數(shù)學(xué)背景[12]來確定原假設(shè)與備擇假設(shè)的分離水平;取消決策風(fēng)險,同時控制2類錯誤概率與風(fēng)險相當(dāng)原則的意義一致;以貝塔分布作為概率性能的分布族,理由有3點(diǎn):①因為兩者的定義域相同;②因為貝塔分布為單峰分布,且峰度隨參數(shù)(對應(yīng)樣本量)增大而減小,符合大數(shù)定理;③因為貝塔分布與二項分布為共軛分布。
改進(jìn)后的小子樣評定方法命名為L方法,具體步驟如下:
(1) 描述概率性能指標(biāo)值,如要求命中概率大于等于p′。
(2) 以0.05的顯著性水平同等退讓后提出原假設(shè)和備擇假設(shè):
(7)
(3) 以同等無知原則確定概率性能的初始驗前分布beta1,1,該分布表示在沒有任何信息時概率性能在區(qū)間0,1上等可能取值。
(4) 以0.05的顯著性水平確定2類錯誤的允許水平。
(5) 確定樣本最小需求量。為簡單計采用探索法確定,樣本容量設(shè)為n、初值取1、逐步增1,拒受臨界值設(shè)為k、初值取0、逐步增1至n,以式(8)計算2類錯誤概率α,β,直至兩者均小于允許水平,這時n的取值就是樣本最小需求量n′。
(8)
式中:B表示貝塔分布的概率累積函數(shù)。
(6) 判定是否小子樣問題。設(shè)隨機(jī)試驗可用樣本量n,則有如下判別式:
(9)
(7) 搜尋驗前信息,得到驗前分布。對于概率性能指標(biāo),驗前分布族為貝塔分布,對于歷史試驗信息可直接確定,驗前分布的表現(xiàn)形式為betak0+1,n0-k0+1,若有n0+n≥n′則可采用小子樣方法進(jìn)行評定,否則還需繼續(xù)搜尋驗前信息。
(8) 進(jìn)行Bayes評定,有后驗分布beta(k+k0+1,n+n0-(k+k0+1))。
(10)
(9) 重新計算2類錯誤概率,公式如下:
(11)
令p′=0.7,并以0.05的顯著性水平同等退讓后提出原假設(shè)和備擇假設(shè),以同等無知原則設(shè)定p的初始驗前分布beta1,1,確定2類錯誤的允許水平為0.05,則可確定樣本最小需求量n′=229。設(shè)隨機(jī)試驗可用樣本量n=9,則可判定試驗面臨小子樣問題。若有驗前分布beta182,49,并設(shè)現(xiàn)場試驗信息為9發(fā)8中,則有后驗分布beta190,50,根據(jù)下式似然比計算結(jié)果判定接受原假設(shè),并有α=0.048 4和0.041 6。
(12)
關(guān)于L方法有幾點(diǎn)補(bǔ)充說明:
(1) 可以看出,L方法對樣本需求量比較大。當(dāng)從統(tǒng)計角度以顯著性水平0.05嚴(yán)格限定原假設(shè)和備擇假設(shè)退讓水平、及2類錯誤概率的允許水平時,實(shí)際情況是這樣的;當(dāng)做法類似P方法,以0.1作為同等退讓水平、以0.3作為2類錯誤概率的允許水平時,樣本需求量為8,2類錯誤概率為α=0.231 8和β=0.261 8,其效果與P方法相當(dāng)。該現(xiàn)象反映出L方法相比P方法并不偏激,它只是對方法應(yīng)用時的樣本量條件提出了嚴(yán)格要求,這也應(yīng)作為小子樣方法的基本應(yīng)用前提,否則小子樣方法就成了小子樣情況下的大子樣方法。
(2) 當(dāng)P方法的原假設(shè)和備擇假設(shè)分別對應(yīng)L方法原假設(shè)和備擇假設(shè)的邊界值,且樣本量相等時,2方法的方案一致,錯誤概率相當(dāng)?shù)胁町悺T摤F(xiàn)象反映出L方法與P方法效果相當(dāng)。錯誤概率的計算差異反映出2類方法的基本思想不同,P方法是固定概率值對抽樣值作累積,L方法則是固定抽樣值對概率作累積,因此兩者計算值相當(dāng)卻有差異,2種方法的對應(yīng)計算結(jié)果見表 3。
表3 L方法與P方法效果比較Table 3 Comparison of effect of method L and method P
(3) L方法解決了驗前信息融合問題,舉例如下:設(shè)p0=0.75,p1=0.65,有驗前信息9發(fā)8中,現(xiàn)場試驗量為5,則2個方法對比見表4。從中看出P方法2類風(fēng)險差值達(dá)到0.12、比值超出3倍,L方法則基本屬同一數(shù)量級;P方法風(fēng)險好像有明顯減小,但由于存在計算錯誤的問題,因此不具有表征意義,而L方法在融合了驗前信息之后雙方風(fēng)險確實(shí)有明顯減小。
表4 L方法有效性案例Table 4 Case of effectiveness of method L
小子樣方法解決小子樣問題的關(guān)鍵在于驗前信息的融合,在無驗前信息可用時小子樣方法的效果應(yīng)與經(jīng)典方法應(yīng)一致,小子樣方法也應(yīng)注重工程背景,而且不應(yīng)使方法無意義地復(fù)雜化。本文對二項分布Bayes假設(shè)檢驗方法的有關(guān)這類問題進(jìn)行了深入剖析,提出了具體改進(jìn)改施,并通過對比驗證了改進(jìn)的有效性,但須指出解決小子樣問題的關(guān)鍵在于針對具體應(yīng)用背景的驗前信息的獲取。
參考文獻(xiàn):
[1] 曲寶忠,孫曉峰,李守秀,等.海軍戰(zhàn)術(shù)導(dǎo)彈試驗與鑒定[M].北京:國防工業(yè)出版社,2005.
QU Bao-zhong, SUN Xiao-feng, LI Shou-xiu, et al.Naval Tactical Missile Test and Evaluation[M].Beijing:National Defense Industry Press,2005.
[2] 楊榜林,岳全發(fā),金振中,等.軍事裝備試驗學(xué)[M].北京:國防工業(yè)出版社,2002.
YANG Bang-lin, YUE Quan-fa, JIN Zhen-zhong, et al.Armament Test Theory[M].Beijing:National Defense Industry Press,2002.
[3] 賈乃光.統(tǒng)計決策理論與貝葉斯分析[M].北京:中國統(tǒng)計出版社,1991.
JIA Nai-guang.Statistical Decision Theory and Bayesian Analysis[M].Beijing:China Statistics Press,1991.
[4] 張堯庭,陳漢鋒.貝葉斯統(tǒng)計推斷[M].北京:科學(xué)出版社,1991.
ZHANG Yao-ting, CHEN Han-feng.Bayesian Statistical Infer[M].Beijing:Science Press,1991.
[5] 茆詩松.貝葉斯統(tǒng)計[M].北京:中國統(tǒng)計出版社,1999.
MAO Shi-song.Bayesian Statistics[M].Beijing:China Statistics Press,1999.
[6] 唐雪梅,張金槐,邵鳳昌,等.武器裝備小子樣試驗分析與評估[M].北京:國防工業(yè)出版社,2001.
TANG Xue-mei, Zhang Jin-huai, Sao Fen-chang, et al.Test Analysis and Evaluation of Weapon Systems in Small-Sample Circumstances[M].Beijing:National Defense Industry Press,2001.
[7] 賈旭山,金振中.二項分布貝葉斯假設(shè)檢驗方法[J].現(xiàn)代防御技術(shù),2008,36(5):37-40.
JIA Xu-shan, JIN Zhen-zhong. Bayes Hypothesis Testing for Binomial Distribution[J].Modern Defence Technology,2008,36(5):37-40.
[8] 賈旭山,金振中.二項分布假設(shè)檢驗樣本容量分析[J].現(xiàn)代防御技術(shù),2012,40(4):67-70.
JIA Xu-shan, JIN Zhen-zhong. Bayes Hypothesis Testing and Sample Quantity[J].Modern Defence Technology,2012,40(4):67-70.
[9] 盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計[M].北京:高等教育出版社,2001.
SHENG zhou, XIE Shi-qian, PANG Cheng-yi. Probability Theory and Mathematical Statistics [M].Beijing:Higher Education Press,2001.
[10] 賈旭山,金振中.武器系統(tǒng)概率指標(biāo)評定[J].現(xiàn)代防御技術(shù),2011,39(2):50-53.
JIA Xu-shan, JIN Zhen-zhong. Bayesian Decision Evaluation on Probability Indes of Weapon System[J].Modern Defence Technology,2011,39(2):50-53.
[11] 王國玉,申緒澗,汪連棟,等.電子系統(tǒng)小子樣試驗理論方法[M].北京:國防工業(yè)出版社,2003.
WANG Guo-yu, SHENG Xu-jian, WANG Lian-dong,et al.Test Theory and Method of electronic System in Small-Sample Circumstances[M].Beijing:National Defense Industry Press,2003.
[12] Thomas Leonard,John S J Hsu.Bayesian Methods:An Analysis for Statisticians and Interdisciplinary Reserachers[M].Beijing:Machinery Industry Press,2006.