李希
臨床研究系列講座
代表性與可比性
——決定臨床研究價值的核心原則
李希
怎樣才能稱得上是好的臨床研究?一項好的臨床研究應(yīng)該滿足兩大條件:(1)提出了一項重要的問題。(2)給出了一個可靠的答案。而科學(xué)可行的設(shè)計是確保上述兩條得以實現(xiàn)的基本條件。在臨床研究的設(shè)計過程中,需要解決目的遴選、技術(shù)路線、對象標(biāo)準(zhǔn)、數(shù)據(jù)定義、分析計劃,以及質(zhì)控策略和倫理知情等方方面面的問題??梢哉f,相比于大規(guī)模多中心臨床研究,小研究在運(yùn)行過程中所投入的資源和時間肯定要少得多,但從設(shè)計角度來說,二者的復(fù)雜程度并沒有明顯差別。
談到研究設(shè)計,相信有一張圖是大家都比較熟悉的(圖1)——我們稱之為研究證據(jù)級別的金字塔。其中,高大上的隨機(jī)對照臨床試驗(randomized control trial, RCT)高居塔尖,備受臨床指南等的推崇。這張圖在直觀展現(xiàn)不同類型研究的證據(jù)強(qiáng)弱的同時,也被很多研究者當(dāng)做研究設(shè)計類型優(yōu)劣的金字塔,進(jìn)而導(dǎo)致了“RCT崇拜”等一些片面的觀念——RCT成為了解決所有臨床研究問題的終極設(shè)計和最佳方案。實際上,只有適合問題的答案才是好答案。要選擇最佳的設(shè)計方案,首先要辨別清楚通過研究想解決的臨床問題究竟有哪些類型。
圖1 臨床研究證據(jù)級別的“金字塔”
臨床研究要解決的問題,也就是研究的目的,可以簡單地分為兩種類型。第一種稱為“情況描述”:就是要把一群對象中的某一個臨床特征的分布情況描述清楚,比如說明全國某年急性心肌梗死住院患者的30天的平均死亡率是多少,或者這些患者入院時的血壓水平如何。另一種稱為”差異比較”或“關(guān)聯(lián)分析”,比如說明急性心肌梗死的治療中,合并糖尿病的患者是否院內(nèi)事件率更高,或者長期服用他汀類藥物的患者是否預(yù)后較好,就是要通過比較說明不同類型的對象之間的某個臨床特征分布有沒有差異,也可以被認(rèn)為是評價糖尿病或他汀類藥物治療這樣的因素與患者預(yù)后這一臨床特征之間是否存在關(guān)聯(lián)——這是臨床研究文章中對同一種情況的兩種常見的解釋方法。
了解這一分類后,如果再看一下剛才提到臨床研究設(shè)計類型的金字塔,就會只有在”差異比較”或“關(guān)聯(lián)分析”研究,即針對不同組別對象進(jìn)行比較分析時(如確定疾病危險因素的強(qiáng)弱,還是評價治療手段的優(yōu)劣),金字塔中“高端”設(shè)計的優(yōu)勢才能顯現(xiàn)出來。那么針對不同類型的研究目的來說,究竟什么樣的核心原則會直接影響到結(jié)果的可靠性,進(jìn)而決定研究的價值呢?
在試圖描述一類患者的分布情況時,研究所描述的范圍越大,研究本身的信息量也就越大。比如,一項全國性的調(diào)查,其帶給讀者的價值要遠(yuǎn)大于僅覆蓋一個地區(qū)或單獨(dú)一家醫(yī)院的調(diào)查。然而,實際研究中能納入的對象樣本量是有限的。研究樣本量越大,需要投入的資源就越多,實施的難度也越大。因此,這類研究的設(shè)計中通常需要引入抽樣的方法,以有限的對象(即“樣本”)中觀察到的結(jié)果去反映更大范圍群體(即“總體”)的特征。舉例來說,同樣是納入1 000例患者的兩項研究,如果其中一個能代表全國急性心肌梗死患者的治療模式,另一個只能說明某家醫(yī)院這類患者的治療模式。相比之下,前者當(dāng)然更容易得到雜志和讀者的青睞。所以說,在情況描述研究中,研究對象所能代表的群體范圍越大,研究的價值和意義也就越大。因此,確?!按硇裕╮epresentativeness)”是研究者在這類研究中所要把握的核心原則。
代表性并不是簡單的指研究對象來自于多大的范圍,更重要的是向讀者說明研究中樣本的結(jié)果能夠“無偏性”地推論到總體的特征。如果在從總體中納入樣本的過程中,研究者主觀上想選誰選誰,甚至故意去選擇年輕、并發(fā)癥少的患者(這些患者往往順應(yīng)性好,調(diào)查難度?。?,所得的樣本就不一定能代表總體的實際分布情況——這種“選擇性(selectiveness)”可以算得上是代表性最頑固的敵人,會直接影響到讀者對研究結(jié)果的認(rèn)可程度,也是研究者要盡可能避免的。
要實現(xiàn)研究的代表性,就需要說服讀者,研究樣本的納入中沒有摻雜主觀故意的選擇性。從設(shè)計角度來說,有三種方法可供選擇(圖2)。
圖2 普查、隨機(jī)抽樣和連續(xù)入選:三種實現(xiàn)代表性的設(shè)計方法
第一種是普查,就是把想代表的總體中的每一個對象都納入研究——這個過程中沒有任何的選擇性,結(jié)果無疑最能夠代表總體的特征。這樣的方法看起來最直接,但是實施起來卻最困難。因為如果要做一個覆蓋范圍較大(如全國)的普查研究,需要投入的人力、物力、財力和時間資源對于單個研究來說都是難以承受的。不僅在臨床研究領(lǐng)域,在其他領(lǐng)域也是如此。即使對政府而言,也只有每10年才會組織一次全國人口普查,每5年才會開展1次全國經(jīng)濟(jì)普查。
第二種是隨機(jī)抽樣,就是對總體中的每一個對象都根據(jù)隨機(jī)的方法決定其是否納入研究?!半S機(jī)”,顧名思義是“根據(jù)概率(機(jī)會)而定”,而不受研究者意愿的影響。這也就避免了主觀“選擇性”的干擾。隨機(jī)抽樣的具體設(shè)計方式有很多,包括簡單抽樣、系統(tǒng)抽樣等可以在后續(xù)的研究設(shè)計專題中具體介紹。作為研究者或讀者,更重要的是要鑒別一個抽樣研究的設(shè)計究竟是不是真正的隨機(jī)抽樣或具有代表性。我們經(jīng)常會看到雜志中一些研究在方法部分自稱是基于代表性樣本,但實際上并沒有真正采用隨機(jī)抽樣的方法,所以只能稱為“隨意抽樣”,也就是“根據(jù)研究者主觀意愿而定”的樣本選擇。
第三種是連續(xù)入選,就是選擇一個有限的時間段,在其中將每一例符合條件的患者都入選到研究樣本中,以代表更長時間范圍內(nèi)總體的情況。這也可以避免主觀選擇性的影響。隨著前瞻性臨床注冊登記研究的流行,這種方法的熱度也變得越來越高。但這種方法也有其特殊的局限性。比如某項單中心研究受經(jīng)費(fèi)和人手所限,選擇6~8個月連續(xù)入選了所有合格對象,希望代表醫(yī)院全年的急性心肌梗死患者特征和治療情況——對于再灌注治療、抗血小板藥物的使用率等指標(biāo)來說,6~8個月研究樣本中的結(jié)果有比較大的把握能夠反映全年總體的情況,但對于患者入院收縮壓水平等明顯受季節(jié)影響的指標(biāo)來說,6~8個月這個時間段的調(diào)查結(jié)果相比于全年平均水平就可能出現(xiàn)偏差,而不再具有代表性。
在關(guān)聯(lián)分析研究中,目的不僅僅是比較不同的因素(如治療)的對象之間臨床結(jié)局(如預(yù)后)差別,而是希望通過這樣的差別去推斷這種因素是否與結(jié)局之間存在獨(dú)立的關(guān)聯(lián),進(jìn)而做出更有把握的因果推論(如某種治療是否可以改善預(yù)后)。這時,就需要在關(guān)聯(lián)分析的比較過程中排除其他混雜因素的影響。比如評價他汀類藥物降低心血管事件再發(fā)風(fēng)險的療效,需要確保服藥的患者和不服藥的患者之間年齡、性別、合并癥,甚至收入水平基本一致,否則,如果服藥組的相對要年輕一些,或者合并癥相對要少一些,那么即使觀察到兩組患者之間的預(yù)后差異,也很難判斷這種差異是由治療本身造成的,還是年齡等其他因素的影響導(dǎo)致的。所以說,關(guān)聯(lián)分析研究中,研究組間越多的其他因素達(dá)到均衡可比,研究推論因果關(guān)系的可靠性就越高。因此,確?!翱杀刃裕╟omparability)”是我們在這類研究中所要把握的核心原則。
要實現(xiàn)研究的可比性,從設(shè)計角度來說,有兩種方法可以選擇(圖3)。
圖3 隨機(jī)分組和因素匹配:兩種實現(xiàn)可比性的設(shè)計方法
第一種是隨機(jī)分組,也是在RCT中采用的方法。以藥物療效評價為例,在同一類患者當(dāng)中,通過隨機(jī)的方法決定每一例對象是進(jìn)入治療組還是對照組,那么在最終得到的兩組對象之間,年齡、性別、合并癥等因素理論上來說都應(yīng)該是均衡可比的。這就為兩組分別分配治療方案后的預(yù)后比較奠定了基礎(chǔ)。
另一種方法是因素匹配,常見于隊列研究或病例對照研究這樣觀察性的臨床研究。還是以藥物療效評價為例,在觀察性研究中,患者服藥或不服藥不是由研究決定的,因此在兩類患者之間,很可能本身就存在著年齡等因素的差異——例如在臨床實踐中對高齡患者的用藥通常更加保守一些,所以服藥組的平均年齡往往比不服藥組要低一些。為了排除這種影響,在兩組患者入選時,可以從不服藥的患者中盡量多入選一些年輕的對象,通過這樣的人為措施確保研究納入的兩組患者在年齡上均衡可比。這樣當(dāng)研究觀察到兩組之間預(yù)后存在的差異時,就可以排除年齡這個潛在的混雜因素造成的影響,使得研究對藥物療效的評價更有把握。
當(dāng)然,相比于RCT的隨機(jī)分組,因素匹配的方法在確??杀刃苑矫娴木窒扌砸卜浅C黠@。盡管在觀察性研究中可以人為努力去匹配一些混雜因素,但能控制的因素總數(shù)是有限的——想匹配的因素越多,就給患者入選造成更大的困難。而且對于一些在研究之前根本沒有了解的患者特征,人為匹配也就自然無從談起。而RCT就不受這樣的限制,不論存在多少潛在的混雜因素,不論之前是否收集了相關(guān)信息,從原理上來說,隨機(jī)分組都可以實現(xiàn)其均衡可比。這也就是為什么RCT在關(guān)聯(lián)分析研究中能超越觀察性設(shè)計,在金字塔尖傲視同儕。
盡管上面談了很多在研究設(shè)計中確保代表性或可比性的方法,但這對兩大原則的把握來說只是一個開始。讀者對研究價值的判斷不是針對研究的設(shè)計方案,而是基于研究運(yùn)行完成后所得的最終結(jié)果。
研究運(yùn)行過程中,很多環(huán)節(jié)都可能影響到最終結(jié)果的代表性或可比性。比如說,一項問卷調(diào)查設(shè)計了科學(xué)的隨機(jī)抽樣方案,確保了所選患者樣本對總體的良好代表性,但在實際運(yùn)行的對象入選過程當(dāng)中,卻出現(xiàn)了大面積的拒絕應(yīng)答,最終獲得的研究結(jié)果就不再能代表設(shè)計中目標(biāo)總體的情況。再比如,在一項隨訪研究中,盡管前期設(shè)計和患者入選都貫徹了代表性原則,但在隨訪過程中的失訪率較高(失訪者往往是預(yù)后較差、結(jié)局事件高發(fā)的研究對象),研究最終獲得的的預(yù)后數(shù)據(jù)只來自于完成隨訪的患者,其代表性就大打折扣。除了代表性以外,可比性也面臨同樣的問題。比如一項臨床試驗盡管設(shè)計了嚴(yán)格的隨訪分組方案,確保了在研究開始是干預(yù)組和對照組對象各方面特征的均衡可比,但在隨訪過程中,兩組失訪率存在差異顯著(失訪者往往是預(yù)后較差、年齡較大或知識水平較低的研究對象)。在這種情況下,如果結(jié)局的分析需要基于末次隨訪的調(diào)查數(shù)據(jù),那么兩組之間的比較就不可避免地要受到其他混雜因素的影響,研究對藥物療效的評價結(jié)論也就不再可靠了。
因此,要緊扣兩大原則提升研究價值,不能僅停留在方案設(shè)計階段,還應(yīng)該貫穿研究運(yùn)行的始終。
本文的內(nèi)容可以總結(jié)為三點:(1)臨床研究中設(shè)計類型的選擇要適應(yīng)研究目的,RCT并不一定是解決所有問題的最佳方案。(2)針對不同類型的研究目的,要在設(shè)計中堅持把握代表性或可比性的原則。(3)除了研究設(shè)計中把握這些原則,還應(yīng)當(dāng)貫穿研究運(yùn)行的各個環(huán)節(jié)。這才能從根本上確保臨床研究的價值。
2017-07-19)
(編輯:寧田海)
100037 北京市,中國醫(yī)學(xué)科學(xué)院 北京協(xié)和醫(yī)學(xué)院 國家心血管病中心 阜外醫(yī)院 心血管疾病臨床醫(yī)學(xué)研究中心
了:李希 助理研究員 博士 主要研究方向為大規(guī)模多中心臨床試驗和醫(yī)療結(jié)果評價研究 Email: xi.li@fwoxford.org
R54
C
1000-3614(2017)09-0931-03
10.3969/j.issn.1000-3614.2017.09.025