亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        兩個(gè)有序分類變量構(gòu)建一個(gè)分類復(fù)合終點(diǎn)指標(biāo)方法的模擬評(píng)價(jià)*

        2014-03-10 02:42:00郭正梅閻小妍姚
        關(guān)鍵詞:分類療效評(píng)價(jià)

        郭正梅閻小妍姚 晨,△

        兩個(gè)有序分類變量構(gòu)建一個(gè)分類復(fù)合終點(diǎn)指標(biāo)方法的模擬評(píng)價(jià)*

        郭正梅1閻小妍2姚 晨1,2△

        目的對(duì)于臨床試驗(yàn)有效性評(píng)價(jià)中兩個(gè)或可以轉(zhuǎn)變?yōu)閮蓚€(gè)均為有序分類變量的主要終點(diǎn)指標(biāo),提出一種最樂(lè)觀或最悲觀的構(gòu)建分類復(fù)合終點(diǎn)的方法,分析這種方法的合理性及應(yīng)用性。方法采用MonteCarlo模擬的方法,考慮調(diào)整樣本量和相關(guān)系數(shù),分析分類復(fù)合終點(diǎn)指標(biāo)進(jìn)行療效評(píng)價(jià)的Ⅰ型錯(cuò)誤和檢驗(yàn)效能,并與多重檢驗(yàn)和連續(xù)復(fù)合終點(diǎn)指標(biāo)的結(jié)果進(jìn)行比較。結(jié)果Ⅰ型錯(cuò)誤方面,隨著樣本量和相關(guān)系數(shù)的增大,兩個(gè)主要終點(diǎn)指標(biāo)均有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn)的Ⅰ型錯(cuò)誤遠(yuǎn)低于檢驗(yàn)水準(zhǔn)0.05,至少一個(gè)主要終點(diǎn)指標(biāo)有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn)的Ⅰ型錯(cuò)誤在0.04至0.05之間,分類復(fù)合終點(diǎn)指標(biāo)和連續(xù)復(fù)合終點(diǎn)指標(biāo)的Ⅰ型錯(cuò)誤均保持在0.05左右。檢驗(yàn)效能方面,整體上,分類復(fù)合終點(diǎn)指標(biāo)的檢驗(yàn)效能、連續(xù)復(fù)合終點(diǎn)的檢驗(yàn)效能和至少一個(gè)主要終點(diǎn)指標(biāo)有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn)的檢驗(yàn)效能接近,三者均大于兩個(gè)主要終點(diǎn)指標(biāo)均要有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn)的檢驗(yàn)效能,后者最保守。各方法的檢驗(yàn)效能與兩個(gè)主要終點(diǎn)指標(biāo)間相關(guān)系數(shù)的關(guān)系因賦值不同而有不一樣的變化趨勢(shì)。結(jié)論對(duì)于臨床試驗(yàn)兩個(gè)或可以轉(zhuǎn)變?yōu)閮蓚€(gè)均為有序分類變量的主要終點(diǎn)指標(biāo)的資料,可根據(jù)臨床實(shí)際意義構(gòu)建最樂(lè)觀或最悲觀分類復(fù)合終點(diǎn)指標(biāo),其能得出可解釋的綜合水平,能控制Ⅰ型錯(cuò)誤且具有較高的檢驗(yàn)效能。而且無(wú)論相關(guān)系數(shù)大小,都可以構(gòu)建分類的復(fù)合終點(diǎn)指標(biāo),因?yàn)闃?lè)觀與悲觀之間沒(méi)有固定的優(yōu)劣關(guān)系,使得研究者在實(shí)際研究過(guò)程中根據(jù)實(shí)際情況來(lái)構(gòu)建評(píng)價(jià)指標(biāo),而不是傾向于選擇樂(lè)觀的方法來(lái)構(gòu)建,避免這一傾向帶來(lái)的偏倚。

        多個(gè)主要終點(diǎn)指標(biāo)有序分類變量Ⅰ型錯(cuò)誤檢驗(yàn)效能

        臨床有效性指標(biāo)根據(jù)研究目的通常被分為主要指標(biāo)(primary endpoint)和次要指標(biāo)(secondary endpoint),主要指標(biāo)的選擇通常是能反映臨床試驗(yàn)的主要目的,同時(shí)易于量化、客觀性強(qiáng)、可重復(fù)性高并在相關(guān)研究領(lǐng)域已有公認(rèn)的準(zhǔn)則或標(biāo)準(zhǔn)的臨床有效性評(píng)價(jià)指標(biāo)。但是,這一情形在一些疾病或者臨床試驗(yàn)中并不適用,例如,病因未明的疾病,由于缺乏一個(gè)最重要的臨床公認(rèn)評(píng)價(jià)指標(biāo)以多角度呈現(xiàn)自身的疾病,以及治療領(lǐng)域現(xiàn)行的評(píng)價(jià)療效的方法決定從多方面來(lái)選擇療效指標(biāo)并對(duì)療效指標(biāo)進(jìn)行評(píng)價(jià)的疾病。這樣,就會(huì)出現(xiàn)多個(gè)終點(diǎn)指標(biāo)(multiple endpoints),當(dāng)采用多個(gè)主要終點(diǎn)指標(biāo)進(jìn)行多重檢驗(yàn)時(shí)就會(huì)存在檢驗(yàn)的多重性問(wèn)題,就需要在方案設(shè)計(jì)時(shí)制定出有效的策略和方法來(lái)事先控制I類錯(cuò)誤率(family-w ise error rate,F(xiàn)WER),常用的控制I類錯(cuò)誤的方法有Bonferoni方法、Holm方法、Shaffer方法等[1],為了達(dá)到預(yù)期的檢驗(yàn)效能,所需要的樣本量就會(huì)增大;當(dāng)進(jìn)行兩個(gè)干預(yù)方案比較時(shí),由于多個(gè)主要終點(diǎn)指標(biāo)對(duì)病人健康的重要性不同,而且每個(gè)指標(biāo)比較時(shí)不同方案之間的優(yōu)劣差異也是不一致的,此時(shí)就很難判斷孰優(yōu)孰劣;若多個(gè)主要終點(diǎn)指標(biāo)均為中間終點(diǎn)(intermediate endpoint),與病人最終療效評(píng)價(jià)之間的關(guān)系存在不確定性[2]。

        解決以上問(wèn)題的方法之一是構(gòu)建一個(gè)能夠綜合反映多個(gè)主要終點(diǎn)的復(fù)合終點(diǎn)(composite endpoints)。目前,有關(guān)疾病治療方面應(yīng)用復(fù)合終點(diǎn)的研究仍然是臨床試驗(yàn)設(shè)計(jì)與分析關(guān)注的領(lǐng)域,存在的爭(zhēng)議也很多[3]。盡管使用復(fù)合終點(diǎn)具有諸多優(yōu)勢(shì):首先,它可以提高終點(diǎn)事件的發(fā)生率,從而減少所需的樣本量,這應(yīng)是研究者選擇復(fù)合終點(diǎn)最主要的原因。其次,使用復(fù)合終點(diǎn)可以有效的避免競(jìng)爭(zhēng)風(fēng)險(xiǎn)。再次,當(dāng)選擇幾個(gè)重要性相似的終點(diǎn)指標(biāo)存在爭(zhēng)議時(shí),應(yīng)用復(fù)合終點(diǎn)既可以避免這一選擇上的困惑,還能更全面的評(píng)價(jià)干預(yù)措施的療效,提高統(tǒng)計(jì)學(xué)檢驗(yàn)效能,因?yàn)橐粋€(gè)終點(diǎn)指標(biāo)往往只能反映干預(yù)措施有效性和安全性的某一方面。但Neaton等認(rèn)為對(duì)同等重要的終點(diǎn)指標(biāo)選擇有困難時(shí)不能作為使用復(fù)合終點(diǎn)的理由[4]。使用復(fù)合終點(diǎn)也存在諸多局限性:第一,使用復(fù)合終點(diǎn)最常見(jiàn)的缺陷是當(dāng)治療措施對(duì)各個(gè)終點(diǎn)指標(biāo)的影響不一致時(shí),復(fù)合終點(diǎn)會(huì)削弱統(tǒng)計(jì)學(xué)檢驗(yàn)效能,可能對(duì)結(jié)果解釋產(chǎn)生誤導(dǎo),最極端的情況是干預(yù)措施對(duì)構(gòu)成指標(biāo)的療效截然相反。第二,當(dāng)各終點(diǎn)事件對(duì)患者重要性不一致時(shí),對(duì)結(jié)果的解釋可能存在困難,而且制定復(fù)合終點(diǎn)也比較復(fù)雜,需要計(jì)算各指標(biāo)的權(quán)重。第三,使用復(fù)合終點(diǎn)需要準(zhǔn)確的確定其組成事件,而且即使復(fù)合終點(diǎn)療效評(píng)價(jià)指標(biāo)被認(rèn)為具有統(tǒng)計(jì)學(xué)意義和臨床相關(guān)性,也應(yīng)同時(shí)報(bào)告干預(yù)措施對(duì)各組成事件的影響,才能據(jù)此得出可靠的結(jié)論,此時(shí)需要根據(jù)實(shí)際情況調(diào)整I類錯(cuò)誤率[5-7]。

        為了準(zhǔn)確和可靠地評(píng)估研究藥物的有效性和安全性,理想情況下,主要終點(diǎn)指標(biāo)應(yīng)該盡量是數(shù)值型連續(xù)變量。然而,在實(shí)踐中,有時(shí)患者對(duì)治療的反應(yīng)根據(jù)一些有意義且定義明確的事件發(fā)生情況去記錄,如死亡、感染、某種疾病治愈和任何嚴(yán)重不良事件,且這些事件的強(qiáng)度能被一些事先定義好的類別進(jìn)行分級(jí),所以分類數(shù)據(jù)在一些未觀察到潛在的連續(xù)變量的臨床試驗(yàn)中是有用的替代終點(diǎn)。有時(shí)候,為了便于分析或更好地呈現(xiàn)有臨床意義的結(jié)果,甚至將連續(xù)數(shù)據(jù)根據(jù)一些預(yù)先定義的標(biāo)準(zhǔn)轉(zhuǎn)化為分類數(shù)據(jù)。因此,在臨床試驗(yàn)中,許多療效和安全性終點(diǎn)是以名義分類或有序分類數(shù)據(jù)的形式記錄的[8]。繼而出現(xiàn)了使用多個(gè)均為有序分類變量的主要終點(diǎn)指標(biāo)來(lái)構(gòu)建復(fù)合終點(diǎn)評(píng)價(jià)指標(biāo)的臨床試驗(yàn),所構(gòu)建的復(fù)合終點(diǎn)評(píng)價(jià)指標(biāo)包括基于變量權(quán)重構(gòu)建的連續(xù)復(fù)合終點(diǎn)和基于臨床實(shí)際意義構(gòu)建的分類復(fù)合終點(diǎn),筆者對(duì)這部分內(nèi)容已經(jīng)發(fā)表了一篇文章[9],本文旨在對(duì)構(gòu)建分類復(fù)合終點(diǎn)方法的合理性和應(yīng)用性進(jìn)行模擬評(píng)價(jià)。

        就如何構(gòu)建分類復(fù)合終點(diǎn),在此我們只考慮最樂(lè)觀綜合評(píng)價(jià)和最悲觀綜合評(píng)價(jià)兩種方法,本文以兩個(gè)有序五分類的主要療效指標(biāo)為例來(lái)說(shuō)明主要方法的定義,假設(shè)分類1到分類5表示療效從好到差,表1表示兩個(gè)主要療效指標(biāo)復(fù)合時(shí),綜合平價(jià)按照療效更好的評(píng)價(jià),即最樂(lè)觀綜合評(píng)價(jià);表2則表示主要療效指標(biāo)復(fù)合時(shí),綜合平價(jià)按照療效更差的評(píng)價(jià),即最悲觀綜合評(píng)價(jià)。

        表1 最樂(lè)觀綜合評(píng)價(jià)

        表2 最悲觀綜合評(píng)價(jià)

        就如何構(gòu)建連續(xù)復(fù)合終點(diǎn),下面就以SF-36量表中“軀體疼痛”這一個(gè)維度為例進(jìn)行說(shuō)明,其由兩個(gè)項(xiàng)目組成,其中疼痛強(qiáng)度分6類、疼痛干擾工作分5類,傳統(tǒng)的SF-36評(píng)價(jià)方法如下表3,其實(shí)質(zhì)是首先對(duì)兩個(gè)項(xiàng)目各分類賦分,根據(jù)實(shí)際情況給每個(gè)項(xiàng)目一個(gè)權(quán)重(此處權(quán)重為1),然后將各項(xiàng)目得分乘以其權(quán)重相加得出的和為連續(xù)復(fù)合終點(diǎn)的值[10]。

        模擬研究方法

        由于本文是針對(duì)臨床試驗(yàn)兩個(gè)或可以轉(zhuǎn)為兩個(gè)均為有序分類變量的主要終點(diǎn)指標(biāo),所以本研究的多重檢驗(yàn)和分類復(fù)合終點(diǎn)的組間比較均采用秩和檢驗(yàn),連續(xù)復(fù)合終點(diǎn)的組間比較,當(dāng)數(shù)據(jù)滿足正態(tài)性時(shí)采用t檢驗(yàn),當(dāng)不滿足時(shí)采用秩和檢驗(yàn)。數(shù)據(jù)模擬由計(jì)算機(jī)完成,模擬數(shù)據(jù)的軟件采用SASversion 9.2(SAS Institute Inc.),進(jìn)行t檢驗(yàn)的SAS過(guò)程為PROC TTEST過(guò)程,進(jìn)行秩和檢驗(yàn)的SAS過(guò)程為PROC NPAR1WAY過(guò)程。

        表3 傳統(tǒng)的SF-36評(píng)價(jià)方法

        本研究設(shè)定的模擬次數(shù)為10000次,模擬比較了終點(diǎn)間相關(guān)系數(shù)為0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、0.95(不考慮相關(guān)系數(shù)為1的情況是因?yàn)椋喝绻麅蓚€(gè)主要終點(diǎn)指標(biāo)完全相關(guān),就沒(méi)有必要兩個(gè)都作為主要終點(diǎn)指標(biāo)),以及兩組樣本量均為50,100,150,200,250這50種模擬情形下幾種方法的Ⅰ型錯(cuò)誤和檢驗(yàn)效能。構(gòu)建連續(xù)復(fù)合終點(diǎn)時(shí),兩主要療效指標(biāo)的各類別賦分均假設(shè)為3、2、1、0、-1,并計(jì)算各種模擬情形下權(quán)重比為0.4·0.6、0.5·0.5、0.6·0.4(因?yàn)楫?dāng)兩指標(biāo)重要程度相當(dāng)時(shí),才會(huì)都作為主要終點(diǎn)指標(biāo))時(shí)連續(xù)復(fù)合終點(diǎn)的Ⅰ型錯(cuò)誤和檢驗(yàn)效能。共模擬比較以下幾種分析方法:

        ①最樂(lè)觀綜合評(píng)價(jià),檢驗(yàn)水準(zhǔn)均為0.05;

        ②最悲觀綜合評(píng)價(jià),檢驗(yàn)水準(zhǔn)均為0.05;

        ③多重檢驗(yàn),兩個(gè)主要終點(diǎn)指標(biāo)均要有統(tǒng)計(jì)學(xué)意義,單個(gè)主要終點(diǎn)指標(biāo)的檢驗(yàn)水準(zhǔn)為0.05;

        ④多重檢驗(yàn),至少一個(gè)主要終點(diǎn)指標(biāo)要有統(tǒng)計(jì)學(xué)意義,單個(gè)主要終點(diǎn)指標(biāo)的檢驗(yàn)水準(zhǔn)為0.025;

        ⑤連續(xù)復(fù)合終點(diǎn)評(píng)價(jià)指標(biāo),權(quán)重比為0.4:0.6、0.5:0.5、0.6:0.4,檢驗(yàn)水準(zhǔn)均為0.05。

        為了驗(yàn)證上面所提出的方法的合理性,以兩個(gè)組別、兩個(gè)有序分類的療效指標(biāo)為例進(jìn)行比較說(shuō)明,這里給出了Monte Carlo模擬的思路、過(guò)程及結(jié)果,以供讀者參考。

        模擬過(guò)程及結(jié)果

        1.分類復(fù)合終點(diǎn)、多重檢驗(yàn)和連續(xù)復(fù)合終點(diǎn)Ⅰ型錯(cuò)誤的模擬比較

        (1)模擬數(shù)據(jù)集的產(chǎn)生和參數(shù)設(shè)置

        Ⅰ型錯(cuò)誤又叫假陽(yáng)性,即拒絕了實(shí)際上成立的H0。因此,比較Ⅰ型錯(cuò)誤時(shí),模擬比較的兩個(gè)樣本應(yīng)來(lái)自同一個(gè)總體。如上所述,以兩個(gè)治療組別、兩個(gè)有序五分類的主要療效指標(biāo)為例來(lái)進(jìn)行模擬比較,其中相應(yīng)組別的各主要療效指標(biāo)的各分類的背景率假設(shè)如下:

        A組主要療效指標(biāo)1的各分類背景率假設(shè)為0.001、0.015、0.231、0.708和0.045,五個(gè)率之和為1;

        A組主要療效指標(biāo)2的各分類背景率假設(shè)為0.030、0.106、0.197、0.606和0.061,五個(gè)率之和為1;

        B組主要療效指標(biāo)1的各分類背景率假設(shè)為0.001、0.015、0.231、0.708和0.045,五個(gè)率之和為1;

        對(duì)模擬產(chǎn)生的數(shù)據(jù)集進(jìn)行模擬研究方法所述各種情形的幾種方法檢驗(yàn)分析,計(jì)算所有模擬檢驗(yàn)中出現(xiàn)陽(yáng)性結(jié)果(P≤α)的比率即該檢驗(yàn)方法的Ⅰ型錯(cuò)誤水平。

        (2)模擬結(jié)果

        模擬結(jié)果表明隨著樣本量的增大,各種方法的Ⅰ型錯(cuò)誤無(wú)明顯變化,所以只給出樣本量為50時(shí)的Ⅰ型錯(cuò)誤圖形,從圖1可以看出,隨著相關(guān)系數(shù)的增大(此處橫坐標(biāo)的相關(guān)系數(shù)為模擬產(chǎn)生的A、B組數(shù)據(jù)的兩組兩主要終點(diǎn)指標(biāo)間相關(guān)系數(shù)的平均值),兩個(gè)主要終點(diǎn)指標(biāo)均要有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn)的Ⅰ型錯(cuò)誤越來(lái)越大,但是遠(yuǎn)低于0.05;至少一個(gè)主要終點(diǎn)指標(biāo)要有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn)的Ⅰ型錯(cuò)誤有下降趨勢(shì),但是都在0.04至0.05之間;分類復(fù)合終點(diǎn)評(píng)價(jià)指標(biāo)和連續(xù)復(fù)合終點(diǎn)評(píng)價(jià)指標(biāo)的Ⅰ型錯(cuò)誤均保持在0.05左右。

        圖1 不同相關(guān)系數(shù)時(shí)各種方法的Ⅰ型錯(cuò)誤(n=50)

        2.分類復(fù)合終點(diǎn)、多重檢驗(yàn)和連續(xù)復(fù)合終點(diǎn)檢驗(yàn)效能的模擬比較

        (1)模擬數(shù)據(jù)集的產(chǎn)生和參數(shù)設(shè)置

        檢驗(yàn)效能(1-β)又叫把握度,即當(dāng)兩總體確有差異時(shí),按規(guī)定檢驗(yàn)水準(zhǔn)(α)所能發(fā)現(xiàn)該差異的能力。在檢驗(yàn)效能的模擬比較中,分析用數(shù)據(jù)集應(yīng)來(lái)自兩個(gè)確有差別的總體。如上所述,以兩個(gè)治療組別、兩個(gè)有序五分類的主要療效指標(biāo)為例來(lái)分別進(jìn)行比較說(shuō)明,根據(jù)某一實(shí)際的臨床試驗(yàn)結(jié)果,各組各分類的背景率假設(shè)如下:

        1.3.1 對(duì)照組 對(duì)照組給予乳腺外科常規(guī)圍手術(shù)期干預(yù),包括完善術(shù)前相關(guān)檢查,進(jìn)行相關(guān)知識(shí)及手術(shù)流程宣教,術(shù)后預(yù)防感染等。

        A組主要療效指標(biāo)1的各分類背景率假設(shè)為0.001、0.015、0.231、0.708和0.045,五個(gè)率之和為1;

        A組主要療效指標(biāo)2的各分類背景率假設(shè)為0.030、0.106、0.197、0.606和0.061,五個(gè)率之和為1;

        B組主要療效指標(biāo)1的各分類背景率假設(shè)為0.033、0.083、0.283、0.600和0.001,五個(gè)率之和為1;

        B組主要療效指標(biāo)2的各分類背景率假設(shè)為0.033、0.217、0.333、0.400和0.017,五個(gè)率之和為1。

        模擬情形參見(jiàn)模擬研究方法部分,對(duì)模擬數(shù)據(jù)集進(jìn)行各種情形的幾種方法檢驗(yàn)分析,計(jì)算所有模擬檢驗(yàn)中出現(xiàn)陽(yáng)性結(jié)果(P≤α)的比率即為該方法的檢驗(yàn)效能。

        (2)模擬結(jié)果

        由圖2-4可以看出,隨著樣本量的增大,檢驗(yàn)效能越來(lái)越大,當(dāng)樣本量為200時(shí),各方法的檢驗(yàn)效能已經(jīng)幾乎重疊且接近100%了,當(dāng)樣本量為250時(shí),重疊的趨勢(shì)更加明顯,所以樣本量為200和250的圖形省略。整體上,分類復(fù)合終點(diǎn)評(píng)價(jià)指標(biāo)的檢驗(yàn)效能接近連續(xù)復(fù)合終點(diǎn)和至少一個(gè)主要終點(diǎn)指標(biāo)均要有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn)的檢驗(yàn)效能;兩個(gè)主要終點(diǎn)指標(biāo)均要有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn)最保守,除了兩個(gè)主要終點(diǎn)指標(biāo)均要有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn)的檢驗(yàn)效能隨著相關(guān)系數(shù)的增大有增大趨勢(shì)外,其他方法的檢驗(yàn)效能均有隨著相關(guān)系數(shù)的增大有減小的趨勢(shì)。

        圖2 不同相關(guān)系數(shù)時(shí)各種方法的檢驗(yàn)效能(n=50)

        圖3 不同相關(guān)系數(shù)時(shí)各種方法的檢驗(yàn)效能(n=100)

        圖4 不同相關(guān)系數(shù)時(shí)各種方法的檢驗(yàn)效能(n=150)

        但是,當(dāng)假設(shè)的背景率不同時(shí),不能得出樂(lè)觀與悲觀方法誰(shuí)大誰(shuí)小,也不能得出隨相關(guān)系數(shù)有增高或減小的固定趨勢(shì),但是根據(jù)所有模擬結(jié)果能得出,整體上,分類復(fù)合終點(diǎn)評(píng)價(jià)指標(biāo)的檢驗(yàn)效能、連續(xù)復(fù)合終點(diǎn)的檢驗(yàn)效能和至少一個(gè)主要終點(diǎn)指標(biāo)要有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn)的檢驗(yàn)效能接近,三者均大于兩個(gè)主要終點(diǎn)指標(biāo)均要有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn)的檢驗(yàn)效能,后者最保守。

        討論與結(jié)論

        Ⅰ型錯(cuò)誤和檢驗(yàn)效能是反映一種檢驗(yàn)方法合理與否的兩個(gè)重要指標(biāo),筆者考察了對(duì)于臨床試驗(yàn)兩個(gè)或可以轉(zhuǎn)變?yōu)閮蓚€(gè)均為有序分類變量的主要終點(diǎn)指標(biāo),模擬比較了分類復(fù)合終點(diǎn)指標(biāo)、多重檢驗(yàn)和連續(xù)復(fù)合終點(diǎn)指標(biāo)的Ⅰ型錯(cuò)誤和檢驗(yàn)效能。模擬結(jié)果說(shuō)明,隨著樣本量和終點(diǎn)間相關(guān)系數(shù)的增大,無(wú)論是連續(xù)復(fù)合終點(diǎn)還是分類復(fù)合終點(diǎn),其Ⅰ型錯(cuò)誤均在檢驗(yàn)水準(zhǔn)0.05左右,這糾正了一些研究者認(rèn)為構(gòu)建復(fù)合變量會(huì)增大Ⅰ型錯(cuò)誤的認(rèn)識(shí),說(shuō)明了這種方法不會(huì)增加將無(wú)效的藥物推向市場(chǎng)而給病人的健康和生命帶來(lái)威脅;至少一個(gè)主要終點(diǎn)指標(biāo)要有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn)的Ⅰ型錯(cuò)誤有下降趨勢(shì),但是都在0.04至0.05之間,兩個(gè)主要終點(diǎn)指標(biāo)均要有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn)的Ⅰ型錯(cuò)誤越來(lái)越大,但是遠(yuǎn)低于0.05。檢驗(yàn)功效方面,隨著樣本量的增大,檢驗(yàn)效能越來(lái)越大,在樣本量為50時(shí),分類復(fù)合終點(diǎn)指標(biāo)的檢驗(yàn)效能和連續(xù)復(fù)合終點(diǎn)的檢驗(yàn)效能已有70%左右,而兩個(gè)主要終點(diǎn)指標(biāo)均要有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn)的檢驗(yàn)效能只有50%左右,本模擬結(jié)果進(jìn)一步驗(yàn)證,為了達(dá)到預(yù)期的檢驗(yàn)效能,使用復(fù)合終點(diǎn)可以減少所需的樣本量;當(dāng)假設(shè)的背景率不同時(shí),雖然檢驗(yàn)功效雖然沒(méi)有固定的變化趨勢(shì),但是整體上,分類復(fù)合終點(diǎn)指標(biāo)的檢驗(yàn)效能、連續(xù)復(fù)合終點(diǎn)的檢驗(yàn)效能和至少一個(gè)主要終點(diǎn)指標(biāo)要有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn)的檢驗(yàn)效能接近,三者均大于兩個(gè)主要終點(diǎn)指標(biāo)均要有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn)的檢驗(yàn)效能,后者最保守,結(jié)合Ⅰ型錯(cuò)誤和檢驗(yàn)效能的模擬結(jié)果,可見(jiàn)前三種方法更可取。

        但是,目前國(guó)內(nèi)關(guān)于多個(gè)主要終點(diǎn)問(wèn)題的討論和方法雖多,但多停留于學(xué)術(shù)上的研究,真正應(yīng)用到實(shí)際中的并不多見(jiàn),尤其是考慮到終點(diǎn)間相關(guān)性的文獻(xiàn)甚少,尚無(wú)較成熟的方法。而實(shí)際情況是多終點(diǎn)問(wèn)題常常被忽視,從而直接影響了試驗(yàn)結(jié)果的可信度。研究表明,在使用多重檢驗(yàn)的臨床試驗(yàn)中校正多終點(diǎn)檢驗(yàn)時(shí),終點(diǎn)間的相關(guān)性不容忽視[11]。既往關(guān)于多個(gè)主要終點(diǎn)的研究有的沒(méi)有明確提出對(duì)總I類錯(cuò)誤率控制的問(wèn)題,有的研究即使控制了總I類錯(cuò)誤率,往往也沒(méi)有考慮到多個(gè)主要療效評(píng)價(jià)指標(biāo)之間的相關(guān)性;近年來(lái)出現(xiàn)了一些考慮到終點(diǎn)間相關(guān)性的控制總I類錯(cuò)誤率的方法,如James'P值校正法[12],屬不多的考慮到終點(diǎn)間相關(guān)性的校正方法之一,其原理是基于標(biāo)準(zhǔn)多元正態(tài)分布對(duì)各個(gè)終點(diǎn)檢驗(yàn)的Pi值進(jìn)行校正,檢驗(yàn)水準(zhǔn)不變,該方法優(yōu)點(diǎn)是將終點(diǎn)間相關(guān)系數(shù)引入校正公式,充分考慮到了終點(diǎn)間的相關(guān)性,在多終點(diǎn)間高度相關(guān)時(shí)能較好地控制試驗(yàn)總的Ⅰ類錯(cuò)誤[13]。缺點(diǎn)是要求終點(diǎn)間等相關(guān),不等相關(guān)時(shí)近似估計(jì)等相關(guān)系數(shù),且公式復(fù)雜實(shí)際應(yīng)用中難以推廣。

        再者,構(gòu)建連續(xù)復(fù)合終點(diǎn)時(shí),將多個(gè)主要終點(diǎn)各類別賦分再加權(quán)得總分的研究的科學(xué)性有待商榷,因?yàn)?,其一,如何給各終點(diǎn)的各類別賦分?有一個(gè)共同的觀點(diǎn)認(rèn)為有序分類變量的測(cè)量性能是有序的,而不是一個(gè)具體的數(shù)值,不論標(biāo)簽的類型,有序數(shù)據(jù)只包含順序信息,而不是大小或距離信息。有序變量是可按序排列的多分類變量,紐約心臟病協(xié)會(huì)的心功能分級(jí)就是一個(gè)例子,將心功能分為四個(gè)等級(jí),盡管這四級(jí)是有序排列的,但是1級(jí)(體力活動(dòng)不受限制)和2級(jí)(體力活動(dòng)輕度受限)之間不存在數(shù)量上的差別,而1級(jí)和2級(jí)之間的差別也不等同于3級(jí)(體力活動(dòng)明顯受限)和4級(jí)(不能從事任何體力活動(dòng),休息時(shí)亦有癥狀)之間的差別。再如,沒(méi)有任何理由認(rèn)為個(gè)人反應(yīng)表示的替代方式,如“一點(diǎn)也不”(1),“輕微”(2),“中等”(3),“相當(dāng)”(4)和“極度”(5)服從相等的間隔。統(tǒng)計(jì)方法必須不受任何形式標(biāo)簽的影響,這意味著代數(shù)的基本操作沒(méi)有可能被應(yīng)用到有序數(shù)據(jù),并且從數(shù)據(jù)的數(shù)學(xué)計(jì)算得出的結(jié)論可能是無(wú)效的。不幸的是,盡管有這方面的知識(shí),在實(shí)踐中,研究者常常將間隔測(cè)量水平視為定量數(shù)據(jù)。其二,各個(gè)終點(diǎn)的權(quán)重如何確定?尤其是當(dāng)各個(gè)終點(diǎn)間存在相關(guān)性時(shí),各個(gè)終點(diǎn)的權(quán)重就更難確定。目前,雖然存在一些確定變量權(quán)重的方法,但是由于這些方法自身尚存在的一些缺陷,因此在該問(wèn)題上業(yè)界意見(jiàn)還不一致。其三,我們通過(guò)構(gòu)建連續(xù)復(fù)合變量的方法得出的數(shù)值,只有大小信息,沒(méi)有實(shí)際的臨床意義,而構(gòu)建分類復(fù)合終點(diǎn)的方法考慮到數(shù)據(jù)的非計(jì)量性質(zhì),較容易理解和使用,所以該方法可以提供一個(gè)可解釋的綜合水平,如表3中陰影部分表示分類復(fù)合后的一個(gè)分類(如為⑤),如果一組病人的軀體疼痛的中位數(shù)恰好為⑤,它意味著這組病人的軀體疼痛平均水平為"(無(wú))很輕微疼痛,不干擾工作",而這組病人相應(yīng)的SF得分的平均數(shù),卻只能提供數(shù)值大小的信息,沒(méi)有實(shí)際的臨床意義。

        因?yàn)椴煌O(shè)定數(shù)值時(shí),不能得出樂(lè)觀與悲觀方法誰(shuí)大誰(shuí)小,也不能得出隨相關(guān)系數(shù)有增高或減小的固定趨勢(shì),但是根據(jù)模擬結(jié)果能得出,在控制Ⅰ型錯(cuò)誤的前提下,分類復(fù)合終點(diǎn)指標(biāo)的檢驗(yàn)效能、連續(xù)復(fù)合終點(diǎn)的檢驗(yàn)效能和至少一個(gè)主要終點(diǎn)指標(biāo)要有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn)的檢驗(yàn)效能接近,三者均大于兩個(gè)主要終點(diǎn)指標(biāo)均要有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn)的檢驗(yàn)效能,其最保守。這個(gè)結(jié)果說(shuō)明無(wú)論相關(guān)系數(shù)大小,都可以構(gòu)建分類的復(fù)合終點(diǎn)評(píng)價(jià)指標(biāo),而且樂(lè)觀與悲觀之間沒(méi)有固定的優(yōu)劣關(guān)系,使得研究者在實(shí)際研究過(guò)程中根據(jù)實(shí)際情況來(lái)構(gòu)建評(píng)價(jià)指標(biāo),而不是傾向于選擇樂(lè)觀的方法來(lái)構(gòu)建,避免這一傾向帶來(lái)的偏倚。此外,進(jìn)一步驗(yàn)證多個(gè)主要終點(diǎn)指標(biāo)比較時(shí),合理控制Ⅰ型錯(cuò)誤的重要性,理論上,檢驗(yàn)水準(zhǔn)一致時(shí),至少一個(gè)主要終點(diǎn)指標(biāo)有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn),其檢驗(yàn)效能必然在一定程度上大于兩個(gè)主要終點(diǎn)指標(biāo)均要有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn);而減小至少一個(gè)主要終點(diǎn)指標(biāo)有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn)的檢驗(yàn)水準(zhǔn),會(huì)降低其檢驗(yàn)效能,如本文至少一個(gè)主要終點(diǎn)指標(biāo)要有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn),此時(shí)單個(gè)主要終點(diǎn)指標(biāo)的檢驗(yàn)水準(zhǔn)減小為0.025,結(jié)果這種多重檢驗(yàn)的檢驗(yàn)效能仍遠(yuǎn)大于兩個(gè)主要終點(diǎn)指標(biāo)均要有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn)的檢驗(yàn)效能,說(shuō)明檢驗(yàn)水準(zhǔn)降低后至少一個(gè)主要終點(diǎn)指標(biāo)有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn)的檢驗(yàn)效能依然高于兩個(gè)主要終點(diǎn)指標(biāo)均要有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn)。

        在此值得一提的是,關(guān)于多個(gè)主要終點(diǎn)指標(biāo)均要有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn)的檢驗(yàn)水準(zhǔn)問(wèn)題,如果研究允許的總Ⅰ類錯(cuò)誤率是雙側(cè)0.05,則每個(gè)主要指標(biāo)的檢驗(yàn)水準(zhǔn)都定為雙側(cè)0.05。本文兩個(gè)主要終點(diǎn)指標(biāo)均要有統(tǒng)計(jì)學(xué)意義的多重檢驗(yàn)最保守的結(jié)論與Offen W和Chuang-Stein C等[14-15]的觀點(diǎn)一致,他們也認(rèn)為這種方法降低了研究的檢驗(yàn)效能,并提出了平均I類錯(cuò)誤方法,基于合理的假設(shè),該方法提高了單個(gè)終點(diǎn)的檢驗(yàn)水準(zhǔn),關(guān)于平均I類錯(cuò)誤方法不是本文重點(diǎn),所以不做過(guò)多討論,讀者可以參考相關(guān)文獻(xiàn)。

        所以,雖然臨床試驗(yàn)分類復(fù)合終點(diǎn)的使用應(yīng)在沒(méi)有其它更好的辦法時(shí)才使用,但是當(dāng)臨床試驗(yàn)的主要終點(diǎn)指標(biāo)不止一個(gè)、指標(biāo)間存在相關(guān)性且各主要終點(diǎn)指標(biāo)的重要性程度不同時(shí),卻不失為一個(gè)好的選擇。對(duì)于臨床試驗(yàn)兩個(gè)或可以轉(zhuǎn)變?yōu)閮蓚€(gè)均為有序分類變量的主要終點(diǎn)指標(biāo)的資料,可采用根據(jù)臨床實(shí)際意義構(gòu)建分類復(fù)合終點(diǎn)評(píng)價(jià)指標(biāo)分析方法,該方法可以提供一個(gè)可解釋的綜合水平,能控制Ⅰ型錯(cuò)誤且具有較高的檢驗(yàn)效能。我們希望通過(guò)本研究能夠幫助促進(jìn)大家對(duì)復(fù)合終點(diǎn)的理解,將復(fù)合終點(diǎn)相關(guān)問(wèn)題明朗化,期望同行的后續(xù)深入研究和探討。

        1.王彤,易東.臨床試驗(yàn)中多重性問(wèn)題的統(tǒng)計(jì)學(xué)考慮.中國(guó)衛(wèi)生統(tǒng)計(jì),2012,29(03):445-450.

        2.李洪超,張銀花,劉國(guó)恩,等.糖尿病治療終點(diǎn)指標(biāo)綜述與復(fù)合終點(diǎn)的權(quán)重構(gòu)建.中國(guó)藥物經(jīng)濟(jì)學(xué),2010,(2):42-53.

        3.Ferreira-González I,Permanyer-M iralda G,Busse JW,et al.Methodologic discussions for using and interpreting composite endpoints are lim ited,but still identify major concerns.Journal of Clinical Epidem iology,2007,60(7):65l-657.

        4.Neaton JD,Gray G,Zuckerman BD,et al.Key issues in endpoint selection for heart failure trials:composite endpoints.JCard Fail,2005,11(8):567-575.

        5.彭菊聰,孫甜甜,李倫,等.復(fù)合終點(diǎn).中國(guó)循證兒科雜志,2012,07(4):305-307.

        6.Rauch G,Kieser M.An expected power approach for the assessment of composite endpoints and their components.Computational Statistics and Data Analysis,2013,60:111-122.

        7.Rauch G,Kieser M.Multiplicity adjustment for composite binary endpoints.Methods Inf Med,2012,51(4):309-317.

        8.Chow SC,Liu JP.Design and analysis of clinical trials:concepts and methodologies.New York:W iley-Interscience,2003:339-340.

        9.郭正梅,姚晨,閻小妍.臨床試驗(yàn)復(fù)合終點(diǎn)評(píng)價(jià)指標(biāo)的構(gòu)建方法概述.中國(guó)新藥雜志,2013,22(23):62-69.

        10.Svensson E.Construction of a single global scale formulti-item assessments of the same variable.StatMed,2001,20(24):3831-3846.

        11.王陵,蔣志偉,李嬋娟,等.多終點(diǎn)變量對(duì)藥物療效評(píng)價(jià)的影響.中國(guó)新藥雜志,2011,20(24):2396-2408.

        12.James S.Approximate multinormal probabilities applied to correlated multiple endpoints in clinical trials.Stat Med,1991,10(7):1123-1135.

        13.Leon AC,Heo M.A comparison ofmultiplicity adjustment strategies for correlated binary endpoints.JBiopharmStatis,2005,15(5):839-855.

        14.Offen W,Chuang-Stein C,Dm itrienkoA,etal.Multiple co-primary endpoints:medical and statistical solutions.Drug Inf J,2007,41(1):31-46.

        15.Chuang-Stein C,Stryszak P,Dm itrienko A,et al.Challenge ofmultiple co-primary endpoints:new approach.StatMed,2007,26(6):1181-1192.

        (責(zé)任編輯:劉 壯)

        Simulation Evaluation of Constructing a Categorical Com posite Endpoint from Two Ordered Categorical Variables

        Guo Zhengmei,Yan Xiaoyan,Yao Chen(Peking University First Hospital,Peking University(100034),Beijing)

        ObjectiveFor two or can be converted to two ordered categorical primary endpoints of clinical trials,proposethemostoptim istic or pessim isticmethod to construct categorical composite endpointand evaluate reasonableness and applicability of thismethod.MethodsThrough Monte Carlo simulation,consider adjusting the sample size and correlation coefficient,compare typeⅠerror and power of efficacy evaluation among threemethods(categorical composite endpoint index,multiple testing and continuous composite endpoint index).ResultsIn terms of typeⅠerror,w ith the increase of sample size and correlation coefficient,typeⅠerror of multiple testing that two primary endpoints are statistically significant is far below 0.05,and multiple testing that at leastone primary endpoint is statistically significant is between 0.04 and 0.05,while typeⅠerror of categorical composite endpointand continuous composite endpoint indexes aremaintained around 0.05.In terms of power,power of categorical composite endpoint,power of continuous composite endpoint and power of multiple testing that atleast one primary endpoint is statistically significantare close.The former thre epowers aremuch larger than power ofmultiple testing that two primary endpoints are statistically significant,which is themost conservative.But there is different trend of power change for different correlation coefficients between the two primary endpoints.ConclusionFor two or can be converted to two ordered categorical primary endpoints of clinical trials,we can constructthemostoptimistic or pessimistic categorical composite endpointaccording to actual clinicalmeaning,which can provide useful interpretable comprehensive level and increase power under the control of typeⅠerror.And whatever the size of the correlation coefficient,we can build categorical composite endpoint,because there is no fixed relationship about the pros and cons between optim istic and pessim istic methods.So in real clinical trials,researchers w ill construct categorical composite endpoint index according to the actual situation,rather than tending to choose optim istic approach and avoiding the tendency to bring bias.

        Multiple primary endpoints;Ordered categorical variables;TypeⅠerror;Power

        *:建設(shè)國(guó)際標(biāo)準(zhǔn)數(shù)據(jù)管理和統(tǒng)計(jì)分析平臺(tái)(2012ZX09303019-001)

        1.北京大學(xué)第一醫(yī)院(100034)

        2.北京大學(xué)臨床研究所

        △通訊作者:姚晨,E-mail:13801378685@139.com

        猜你喜歡
        分類療效評(píng)價(jià)
        SBR改性瀝青的穩(wěn)定性評(píng)價(jià)
        石油瀝青(2021年4期)2021-10-14 08:50:44
        分類算一算
        止眩湯改良方治療痰瘀阻竅型眩暈的臨床療效觀察
        冷噴聯(lián)合濕敷甘芩液治療日曬瘡的短期療效觀察
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        中西醫(yī)結(jié)合治療慢性盆腔炎的療效觀察
        教你一招:數(shù)的分類
        基于Moodle的學(xué)習(xí)評(píng)價(jià)
        針刺拉伸加TDP照射法治療落枕的療效報(bào)道
        一区二区三区高清在线观看视频| 亚洲AV无码秘 蜜桃1区| 国产精品一区二区午夜久久 | 久久一区二区av毛片国产| 少妇高潮惨叫久久久久电影69| 情侣黄网站免费看| 91性视频| 亚洲一区二区三区精彩视频 | 妺妺窝人体色www聚色窝| 亚洲图区欧美| 国产不卡一区在线视频| 亚洲av乱码二区三区涩涩屋 | 99视频偷拍视频一区二区三区| 亚洲乱码一区二区三区在线观看| 国产在视频线精品视频| 欧美伊人亚洲伊人色综| 亚洲伊人伊成久久人综合| 无码爽视频| 8ⅹ8x擦拨擦拨成人免费视频| 91福利国产在线观一区二区| 一区二区三区四区午夜视频在线| 国产精品人人做人人爽人人添 | 免费av日韩一区二区| 国产无遮挡又黄又爽免费网站 | 亚洲精品成人片在线观看精品字幕 | 日韩精品久久午夜夜伦鲁鲁| 久久久久久久极品内射| 91spa国产无码| 国产一区二区三区色区| 黄片视频免费在线观看国产| 国产色秀视频在线播放| 97精品国产高清自在线看超| 亚洲日本中文字幕乱码在线| 妇女bbbb插插插视频| 亚洲第一看片| 白嫩少妇在线喷水18禁| 国产精品永久久久久久久久久| 欧美大香线蕉线伊人久久| 国产传媒剧情久久久av| 亚洲国产美女高潮久久久| 四川少妇大战4黑人|