亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

變量變換回歸分析(Ⅲ)尋找理想試驗點的方法
——

2019-08-13 01:44:50胡良平

四川精神衛(wèi)生 2019年3期

關鍵詞：因變量紗線條件

胡良平

(1.軍事科學院研究生院，北京 100850；2.世界中醫(yī)藥學會聯(lián)合會臨床科研統(tǒng)計學專業(yè)委員會，北京 100029

1 基本概念

1.1 多因素試驗設計類型

在一項試驗研究中，通常都會涉及多個試驗因素，從每個因素中各取一個水平組合起來，就形成了一個特定的“試驗條件”。在有多個試驗因素的研究場合中，以不同的方式選取因素的水平組合，就對應著不同的“試驗設計類型”。例如，將所有試驗因素的水平全面組合且在各種組合條件下進行兩次或兩次以上獨立重復試驗，此安排就被稱為“析因設計”；又例如，依據正交原理從全部水平組合中選取部分水平組合來安排試驗，就被稱為“正交設計”[1]。以此類推，還有“均勻設計”“最優(yōu)設計”和“正交組合設計”等[2-3]。

1.2 理想試驗點

前面所說的每個試驗條件常被稱為“試驗點”，也就是說，每個“試驗點”實際上就是由擬考察的試驗因素各取一個水平的一種組合。若試驗結果是定量的，在各試驗點上實施試驗后，就可以觀測到一個或多個具體的數值。在實際問題中，當定量觀測結果的取值越大越好時，就稱此類定量指標為“高優(yōu)指標”；反之，就稱為“低優(yōu)指標”。若定量指標取中等值為優(yōu)，這種情況并不多見，不屬于本文討論的范疇。

所謂“理想試驗點”，也被稱為“最優(yōu)試驗條件”，是指“高優(yōu)指標”或“低優(yōu)指標”獲得最優(yōu)取值時所對應的“試驗點”或“試驗條件”。

1.3 三種分析方法的異同點

本文涉及到三種統(tǒng)計分析方法：方差分析、回歸分析、結合分析。一般來說，方差分析的主要目的是考察各因素對定量指標的影響，一方面希望能將全部因素及其交互作用對定量結果的影響分出主次關系，另一方面希望能揭示出每個因素各水平對定量結果影響之間的差異。回歸分析的主要目的是構建因變量依賴自變量變化而變化的回歸模型，同時篩選出對因變量具有統(tǒng)計學意義的自變量，有時，還需要在給定自變量取不同值的條件下，預測因變量的數值；而結合分析的主要目的是希望給出各因素對“偏好評分”影響大小的“重要性”的度量，同時希望給出每個屬性(或因素)的每個水平作用大小的“效用值”的度量。

從上面的介紹似乎可以認為上述三種分析方法是完全不同的，事實上，它們都屬于回歸模型分析法。因為方差分析模型本質上就是一種簡單的回歸模型，而結合分析模型實際上是將屬性(或因素)的每個水平當作一個“二值自變量”，并基于“效用值”可疊加的假定構建出來的回歸模型[4]。

2 一個取自TRANSREG過程的樣例

2.1 樣例的名稱與內容

在SAS/STAT的TRANSREG過程中有一個名為“BOX-COX變換”的樣例：在紡織研究中，紗線的壽命主要受三個試驗因素的影響[5]。見表1。

表1 影響紗線壽命的三個主要試驗因素及其水平

注：表中圓括號之前的數字為因素的“真實水平”，圓括號內為因素的“代碼水平”

由表1可知，這是一個涉及三個3水平試驗因素的試驗研究，若將3個試驗因素的水平全面組合，就有27種不同的試驗條件，每個試驗條件下的試驗結果為紗線的壽命長短(單位不詳)，是一個計量變量。研究者在27種不同試驗條件下都只進行了一次試驗，即沒有進行重復試驗，其試驗結果(用Fail表示)和27種水平組合見表2。

表2 三個3水平因素水平全面組合條件下紗線壽命數據

2.2 結果變量Fail的頻數分布

表2中結果變量Fail的頻數分布見圖1。由圖1可知，結果變量Fail呈極嚴重的正偏態(tài)分布。

圖1 結果變量Fail的頻數分布直方圖

2.3 需解決的問題及困難

上述樣例的專業(yè)問題實際上就是一個具有三因素析因設計結構的一元計量資料的統(tǒng)計處理問題。由于在因素各水平組合條件下未進行重復試驗，所以，表2中的“安排”不能被稱為一個“標準的析因設計”，而只能叫做具有“析因結構”。統(tǒng)計處理的困難在于：其一，結果變量偏離正態(tài)分布很遠；其二，未進行重復試驗，樣本含量嚴重不足，無法分析因素之間可能存在的交互作用效應的大小。

2.4 統(tǒng)計分析的任務

一般來說，在多因素試驗研究場合，當結果變量為計量變量時，統(tǒng)計分析的任務是研究哪些因素對結果的影響是主要的、哪些是次要的；因素之間各級交互作用的效應大??；有時，研究者還希望求出“理想試驗點”，即在多個試驗因素分別取什么樣的水平組合條件下，所得到的試驗結果在專業(yè)上是最滿意的。就本例而言，在什么樣的試驗條件下，紗線的壽命最長(它屬于“高優(yōu)指標”)。

2.5 解決上述困難的策略

第一，可以對計量因變量采取BOX-COX變換，使其服從或近似服從正態(tài)分布[5-6]。第二，可以對定性自變量(即試驗因素)采取變量擴展變換，例如“CLASS變換”或“POINT變換”或“EPOINT變換”或“QPOINT變換”[5]。實際上，前述提及的那些“變量擴展變換”類似于將定性變量數量化，也就是給定性變量的水平重新編碼，并引入交互作用項。第三，將原本屬于“方差分析的任務”改換為“回歸分析任務”，即構建變換后的因變量關于變量擴展變換產生的自變量的回歸模型。第四，借助“結合分析”[7-8]的思路和方法，獲得各試驗因素對結果變量的“重要性”評價及試驗因素各水平的“分值效用”大小，得出“理想試驗點(即全部因素最佳的水平組合對應的試驗條件)”。

3 數據集的形成與上述策略的實現(xiàn)

3.1 數據集的形成

利用以下SAS程序，可以形成待分析的SAS數據集：

proc format；

value a -1=80 =9 1=10；

value l -1=250 0=300 1=350；

value o -1=40 0=45 1=50；

run；

data yarn；

input Fail Amplitude Length Load @@；

format amplitude a. length l. load o.；

label fail = 'Time in Cycles until Failure'；

datalines；

674-1-1-1370-1-10292-1-113380-1-12660-102100-111701-1-11181-10901-111414-10-11198-100634-101102200-162000043800144210-13321002201013636-11-13184-1102000-111156801-11070010566011114011-1884110360111

；

run；

3.2 顯示結果變量Fail的頻數分布

利用以下SAS程序，可以直方圖形式呈現(xiàn)結果變量Fail的頻數分布情況：

proc univariate data=yarn normal；

var fail；

histogram fail；

run；

以上程序運行的結果如圖1所示。

3.3 對因變量和自變量進行變量變換

對結果變量Fail進行BOX-COX變換，同時，對定性自變量進行QPOINT變量擴展變換。所需要的SAS程序如下：

ods graphics on；

proc transreg details data=yarn ss2 utilities

plots=(transformation(dependent) obp)；

model BoxCox(fail / convenientlambda=-2 to 2 by 0.05) =

qpoint(length amplitude load)；

output out=aaa approximations；

run；

【SAS程序說明】“proc transreg”調用TRANSREG過程；“model語句”等號左邊為對因變量Fail進行“BOX-COX變換”，此變換的一個關鍵參數叫做“l(fā)ambda”，經過嘗試，需在(-2,2)范圍內按步長為0.05去選擇具體的lambda值并代入計算，選擇使對數似然函數取最大值時的lambda值。當此值帶有很多位小數時，盡可能取一個簡約的數值(即“convenient”的含義)。“qpoint變量擴展變換”是對三個定性變量進行二次反應面變換，即在三個定性變量的基礎上，增加它們的平方項和二次交叉乘積項。

3.4 顯示對因變量Fail進行BOX-COX變換的結果

利用以下SAS程序，可以直方圖形式顯示對因變量Fail進行BOX-COX變換的結果(注：tfail是對變量fail采用BOX-COX變量變換后的變量)。

proc univariate data=aaa normal；

var tfail；

histogram tfail/normal；

run；

以上SAS程序的輸出結果見圖2：

圖2 經過BOX-COX變換后的結果變量tfail的頻數分布直方圖

對變換后的因變量tfail進行假設檢驗，所得結果如下：

Goodness-of-FitTestsforNormalDistribution檢驗統(tǒng)計量PKolmogorov-SmirnovD0.08312402Pr>D>0.150Cramer-vonMisesW-Sq0.02172925Pr>W-Sq>0.250Anderson-DarlingA-Sq0.13498929Pr>A-Sq>0.250

由圖2和以上關于正態(tài)性檢驗結果可知，經過BOX-COX變換后的結果變量tfail服從正態(tài)分布。

3.5 上述“model語句”輸出的結果

上述“model語句”實際上創(chuàng)建了一個經BOX-COX變換后的因變量tfail關于經QPOINT變量擴展變換后的三個定性自變量及其所有二次項的“二次反應曲面回歸模型”。見圖3。

由圖3中倒數第2列可知，三個試驗因素的主效應項(即一次項)都具有統(tǒng)計學意義；而由它們產生的所有二次項都沒有統(tǒng)計學意義。

圖3 二次反應曲面回歸模型的參數估計與假設檢驗結果

反映回歸模型對資料擬合效果的輸出結果如下：

RootMSE0.19383R-Square0.9725DependentMean6.33466AdjR-Sq0.9579CoeffVar3.05987Lambda0.0000

以上結果表明：模型對資料的擬合效果較好，R2=0.9725，校正的R2=0.9579。

3.6 尋求更簡約的回歸模型及結果

利用以下SAS程序，可以獲得更簡約的回歸模型。

proc transreg details data=yarn ss2 utilities

plots=(transformation(dependent) obp)；

model BoxCox(fail / convenientlambda=-2 to 2 by 0.05) =

class(length amplitude load/zero=sum)；output out=aaa approximations；

run；

簡約回歸模型的輸出結果見圖4。

圖4 僅含主效應回歸模型的參數估計與假設檢驗結果

由圖4可知，三個試驗因素都有3個水平，都以中間水平為“基準”，除中間水平無統(tǒng)計學意義外，其他均有統(tǒng)計學意義。

反映回歸模型對資料擬合效果的輸出結果如下：

RootMSE0.18942R-Square0.9691DependentMean6.33466AdjR-Sq0.9598CoeffVar2.99029Lambda0.0000

以上結果表明：模型對資料的擬合效果較好，R2=0.9691，校正的R2=0.9598。

與前面的結果相比，簡約回歸模型比復雜回歸模型的R2略低，但校正的R2反而略高。

關于各試驗因素的“重要性”和“效用值”的輸出結果見圖5。由圖5第4列可知，三個試驗因素的重要性分別為：紗線測試樣品的長度(A)占44.851%、負載循環(huán)時的振幅大小(B)占34.000%，負載量(C)占21.149%。由圖5第2列可知，“Utility”為各試驗因素的各水平的“效用值”，當結果變量屬于“高優(yōu)指標”時，將各試驗因素正的最大效用值對應的“水平”組合在一起，就構成了“理想試驗點”。就本例而言，在理想試驗點為“l(fā)ength 350”“Amplitude 8”和“Load 40”所構成的試驗條件下，即當紗線長度取350 mm、振幅取8 mmd和負載量取40 g時，紗線壽命最長。

圖5 各試驗因素的“重要性”及其各水平的“效用值”的輸出結果

4 討論與小結

在多因素試驗研究中，要了解各因素對試驗結果的影響情況，特別是因素之間各級交互作用的效應，最合適的試驗設計類型為多因素析因設計。然而，多因素析因設計至少應滿足兩個特點：第一，全部試驗點應該由所有試驗因素水平的全面組合而成；第二，在各試驗點條件下，至少要做兩次獨立重復試驗。本文中的樣例滿足了前面提及的第一點，但不滿足第二點，嚴格來說，此樣例在試驗設計上是存在瑕疵的。

通常的方差分析或多重回歸分析對資料都有很高的要求，例如正態(tài)性和方差齊性等。樣例中的因變量呈嚴重的正偏態(tài)分布，通過采用BOX-COX變換，使其偏斜情況得到了很好的校正。將結合分析與回歸分析有機地結合在一起，不僅可以獲得各試驗因素對試驗結果影響情況的分析結果，還能獲得關于各試驗因素重要性的評價以及確定出理想的試驗點。

SAS中的TRANSREG過程具有很強且多樣性的變量變換能力，它集方差分析、回歸分析和結合分析于一體，能夠很好地處理不符合傳統(tǒng)統(tǒng)計學要求的復雜資料，獲得滿意的統(tǒng)計分析結果。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

變量變換回歸分析(Ⅲ)尋找理想試驗點的方法——

1 基本概念

1.1 多因素試驗設計類型

1.2 理想試驗點

1.3 三種分析方法的異同點

2 一個取自TRANSREG過程的樣例

2.1 樣例的名稱與內容

2.2 結果變量Fail的頻數分布

2.3 需解決的問題及困難

2.4 統(tǒng)計分析的任務

2.5 解決上述困難的策略

3 數據集的形成與上述策略的實現(xiàn)

3.1 數據集的形成

3.2 顯示結果變量Fail的頻數分布

3.3 對因變量和自變量進行變量變換

3.4 顯示對因變量Fail進行BOX-COX變換的結果

3.5 上述“model語句”輸出的結果

3.6 尋求更簡約的回歸模型及結果

4 討論與小結

變量變換回歸分析(Ⅲ)尋找理想試驗點的方法
——