晏榆洋
(廣安職業(yè)技術學院經濟管理學院,四川廣安638000)
近四十年綜合評價技術飛速發(fā)展,人們開始從眾多決策科學、系統(tǒng)科學中去尋找科學的綜合評價思想與方法.針對多指標問題,多元回歸與逐步回歸法、指標聚類法、逐個指標兩兩假設檢驗等統(tǒng)計性質的指標篩選法被不斷的運用;如層次分析法(AHP)、DEA方法、灰色系統(tǒng)理論(GS)、模糊數學(FUZZY)、人工神經網絡技術(ANN)等不斷被運用到各類評價模型中去.
一方面,上述評價方法或多或少夾帶著人們自身的主觀評價意識,如層次分析法(AHP)方法中的成對比較陣的構建,模糊數學(FUZZY)方法中的模糊評判矩陣的構建,當決策者的判斷過多的受主觀偏好的影響,而產生某種客觀規(guī)律的歪曲時,層次分析法(AHP)和模糊數學(FUZZY)的評價結果顯然不理想.
另一方面,上述評價方法的使用范圍太過單一,如灰色系統(tǒng)理論(GS)要求樣本數據具有時間序列特性,只能評價待評對象的相對優(yōu)劣,而不能反映絕對的水平,不適合用于對多個評價對象的研究.人工神經網絡評價法(ANN)需要大量的訓練樣本,而且評價算法十分復雜,精度不高,應用范圍十分有限.
本文從統(tǒng)計學出發(fā),基于秩和檢驗及非參數Bootstrap法構建統(tǒng)計綜合評價模型,對評價對象實現定量分析.
對評價對象的多個指標數據進行收集和預處理.首先對多組指標數據進行歸一化處理,然后乘以100,得分越高則對評價對象的評價越好.如此得到多組百分制的數據方便理解和縮小誤差.不妨以三組指標數據為例:
指標1:記為
A={x1,x2…,xm},0xi100,i=1,2,…,m
指標2:記為
B={y1,y2,…,yn},0yi100,i=1,2,…,n
指標3:記為
C={z1,z2,…,zn},0zi100,i=1,2,…,n
考慮到多組指標數據對評價對象的影響有強弱之分,對于影響較弱的指標不應納入統(tǒng)計綜合評價模型進行分析,甚至部分指標與評價對象不相關,因此有必要先分析多組指標數據的一致性.不妨采用秩和檢驗分析A、B、C三組樣本數據是否來自于同一統(tǒng)計總體,對于來自不同統(tǒng)計總體的那組數據可以認為是無效的.[1]
對于A、B、C三組樣本數據的一致性檢驗,不妨設A、B、C三組樣本數據分別來自統(tǒng)計總體X、Y、Z,采用兩兩比較的方式進行秩和檢驗,此處以A、B兩組樣本數據的一致性檢驗為例:
原假設H0:X和Y來自同一總體備擇假設H1:X和Y來自不同總體
(1)將A、B兩組樣本數據重新組合為樣本W,并將樣本W中的數據從小到大排序構造次序統(tǒng)計量:
w1w2w3…wm+n
(2)次序統(tǒng)計量W的足標即為A、B兩組樣本數據所對應的秩,如:xi=wj,則記r(xi)=j,表示xi在樣本W中的秩,若存在幾個樣本數據相同的情況,則記它們的秩為所對應次序統(tǒng)計量W的足標的平均值,記兩組樣本數據A、B的秩和分別為:
(3)若H0為真,則有A、B兩組樣本數據來自同一個統(tǒng)計總體,那么樣本A中的各元素的秩應該是隨機分散的從1~m+n中選出,因此檢驗統(tǒng)計量R1的值不應過大或過小.[2]
當m10,n10時,在顯著水平α下,有檢驗標準:
P(RL 其中RL和RU分別是秩和檢驗在顯著水平α下的臨界值,可根據m、n的值查秩和檢驗表得到.[3]若根據樣本數據A、B得到檢驗統(tǒng)計量R1∈(RL,RU),則接受原假設H0,認為A、B兩組樣本數據的評價結果具有一致性,否則拒絕原假設H0,認為A、B兩組樣本數據的評價結果不具有一致性. 當m>10,n>10時,由中心極限定理,[4]檢驗統(tǒng)計量R1近似服從正態(tài)分布,其均值和方差分別為: 其中,若樣本W中存在k個秩相同的組,如有ti個樣本數據的秩都為ri,則 將均值和方差修正為: P(-uα/2 其中-uα/2和uα/2分別是標準正態(tài)分布在顯著水平α下的雙邊檢驗的臨界值,由標準正態(tài)分布表得到.[5]若根據樣本數據A、B得到檢驗統(tǒng)計量R1∈(RL,RU),則接受原假設H0,認為A、B兩組樣本數據的評價結果具有一致性,否則拒絕原假設H0,認為A、B兩組樣本數據的評價結果不具有一致性. 為實現對評價對象的有效評價,常采用均值法,即對多組指標數據進行加權平均計算評價對象的最終得分.由于評價對象由多個指標共同影響,難免所得的某些指標數據屬于小樣本,直接加權平均不能準確的描述評價對象在該項指標的得分,誤差較大;并且多組指標數據的權重系數的確定夾帶著人為的主觀因素,缺乏科學依據.因此不妨采用非參數Bootstrap法估計多組指標數據的均值分布,并根據均值分布的方差確定各組指標數據的權重,實現對評價對象的有效評價. (3)重復上述步驟,得到N個Bootstrap樣本,即B=1,2…,N,一般N=1000; (1)三組指標數據均通過秩和檢驗,則三組指標數據都應作為有效值,納入評價對象的統(tǒng)計綜合評價體系,即 (2)三組指標數據只有i,j兩組通過秩和檢驗,則未通過秩和檢驗的指標數據應不納入評價對象的統(tǒng)計綜合評價體系,即 μ=μi(σi=min{σ1,σ2,σ3}) 某高校要對某教師的課堂教學質量進行定量分析.針對高校評教問題,國內外的高校先后經歷了由督導專家評教為主體向學生評教為主體的轉變,學生評教與專家評教相結合的二元評教體系. 然而學生評教的客觀性、公正性欠缺,專家評教的偶然性難以避免,導致“專家—學生”二元評教體系主觀性太強.因此針對該問題,不妨從教師的課堂教學出發(fā),引入學生的考試成績,建立“專家—學生—成績”三元評教體系,在兩兩比較檢驗三組數據評教結果的一致性的基礎下,采用非參數Bootstrap法的多指標統(tǒng)計綜合評價模型對該教師的課堂教學進行綜合評價. (1)評價指標數據的收集:現有10名督導專家和20名學生對該教師的課堂教學評分數據如表1、表2所示,且該20名學生的考試成績如表3所示: 表1 督導專家評分 表2 學生評分 表3 學生成績評分 (2)考慮到專家評分分和學生評分的主觀性較強,學生考試成績也有虛假的可能,在對教師甲的課堂教學質量進行模型評價時,有必要先分析三組評分數據的一致性,對不滿足一致性檢驗的指標數據,應不納入該教師的課堂教學評價體系.采用兩兩比較的方式對“專家—學生—成績”三組評分數據進行秩和檢驗,其秩和檢驗結果如下表: 表4 秩和檢驗統(tǒng)計表 當置信水平時α=0.05,原假設H0的接受域為[-1.96,1.96],由表4可知,督導專家評分與學生成績通過秩和檢驗,而專家評分與學生評分、學生評分與學生成績兩項未通過秩和檢驗,說明學生評分對該教師的課堂教學無顯著影響,因此學生評分不應納入該教師教學質量評價體系. (3)考慮到專家、學生人數有限,所得的評分數據屬于小樣本,直接加權平均不能準確的描述該教師的課堂教學質量,誤差較大;并且三組評分數據的權重系數的確定缺乏科學依據,因此采用非參數Bootstrap法對兩組樣本數據的均值進行分布估計,參數估計結果如下表: 表5 非參數Bootstrap法參數估計 (4)由樣本均值估計的方差確定其權重系數,建立基于秩和檢驗的非參數Bootstrap統(tǒng)計綜合評價模型,得到該教師的綜合評分為: 基于秩和檢驗及非參數Bootstrap法的多指標統(tǒng)計綜合評價模型,針對多指標的小樣本評價問題具有很好的穩(wěn)定性和可操作性. 相對于傳統(tǒng)的單項評價模型,秩和檢驗多組指標數據的一致性,對不通過秩和檢驗的指標不納入綜合評價體系,一定程度上消除了不相關指標對評價結果的影響;因收集的各項數據有限,并且數據本身也難免出現較大差異,采用非參數Bootstrap法對樣本數據均值分布進行估計,消除了小樣本事件對評價結果的影響;相對于帶有人為主觀因素的層次分析法(AHP)、模糊數學(FUZZY),非參數Bootstrap法的定量分析使統(tǒng)計綜合評價結果更具說服力.4 基于非參數Bootstrap法的統(tǒng)計綜合評價模型
4.1 非參數Bootstrap法樣本均值的分布估計
4.2 基于非參數Bootstrap法的統(tǒng)計綜合評價
5 仿真示例
結 論