楊惠芝 ,王立敏,李順平
1山東大學(xué)齊魯醫(yī)學(xué)院公共衛(wèi)生學(xué)院衛(wèi)生管理與政策研究中心,山東濟(jì)南,250012;2國(guó)家衛(wèi)生健康委員會(huì)衛(wèi)生經(jīng)濟(jì)與政策研究重點(diǎn)實(shí)驗(yàn)室(山東大學(xué)),山東濟(jì)南,250012;3山東大學(xué)健康偏好研究中心,山東濟(jì)南,250012
離散選擇實(shí)驗(yàn)(discrete choice experiment,DCE)和優(yōu)劣尺度法(best-worst scaling,BWS)是測(cè)量個(gè)體偏好的陳述性偏好研究方法。假設(shè)研究對(duì)象可以由若干個(gè)屬性進(jìn)行描述,每個(gè)屬性又包括若干水平。DCE固定屬性僅變換水平組合形成不同方案,每個(gè)選項(xiàng)集中包括至少2個(gè)方案,要求受訪者從每個(gè)選項(xiàng)集中選擇一個(gè)自己認(rèn)為最好的方案[1]。BWS要求受訪者在每個(gè)選項(xiàng)集中至少各選擇1項(xiàng)他們認(rèn)為最好的和最差的,主要分為3種類型:BWS-1是屬性之間的比較;BWS-2是固定屬性不變,僅調(diào)整每個(gè)屬性的水平;BWS-3與DCE格式一致,是比較屬性水平組合[2]。DCE和BWS每套問(wèn)卷均由若干個(gè)選項(xiàng)集組成,假設(shè)受訪者每次均選擇自己認(rèn)為效用最大的方案,通過(guò)反復(fù)權(quán)衡比較,能測(cè)量受訪者對(duì)商品或者服務(wù)的偏好程度[3]。
2014年以來(lái),DCE在醫(yī)藥衛(wèi)生領(lǐng)域的應(yīng)用迅速增加[4],BWS的產(chǎn)生和發(fā)展晚于DCE,但近些年來(lái)在醫(yī)藥衛(wèi)生領(lǐng)域的應(yīng)用備受關(guān)注[5]。盡管DCE和BWS均基于隨機(jī)效用理論,但兩者在模型的應(yīng)用與假設(shè)上存在差異,目前仍無(wú)“黃金標(biāo)準(zhǔn)”來(lái)評(píng)價(jià)孰優(yōu)孰劣,且無(wú)如何聯(lián)合使用上述2種方法的相關(guān)指南,因此了解DCE和BWS聯(lián)合使用現(xiàn)狀,比較2種方法的可接受性、有效性以及結(jié)果一致性,對(duì)推動(dòng)2種方法的應(yīng)用具有重要意義。2017年Whitty等人從可接受性、有效性和一致性3方面綜述了醫(yī)藥衛(wèi)生領(lǐng)域DCE和BWS比較的實(shí)證研究[6]。近年來(lái),醫(yī)藥衛(wèi)生領(lǐng)域中同時(shí)使用DCE和BWS的研究快速增長(zhǎng),因此,本文以Whitty等人的綜述框架為基礎(chǔ),檢索2017年1月至2021年12月發(fā)表的文獻(xiàn),并與該綜述結(jié)果進(jìn)行比較,以期為國(guó)內(nèi)讀者更深入理解和應(yīng)用DCE和BWS偏好測(cè)量方法提供相關(guān)參考。
在PubMed、Web of Science、Embase、Scoups、CNKI和Wanfang Data這6個(gè)數(shù)據(jù)庫(kù)進(jìn)行檢索,檢索時(shí)限為2017年1月至2021年12月。中文檢索詞包括離散選擇實(shí)驗(yàn)、離散選擇模型、優(yōu)劣尺度法、最佳最差測(cè)量、優(yōu)劣極值測(cè)量法、聯(lián)合分析、陳述性偏好研究;英文DCE檢索詞包括discrete choice experiment、discrete-choice experiment、discrete choice model、conjoint analysis、conjoint choice experiment、stated preference、DCE;英文BWS檢索詞包括BWS、best worst scaling、best-worst scaling、maxdiff、maxdiff scaling、maximum difference、maximum difference scaling、best-worst discrete choice experiment、best-worst choice experiment。
納入醫(yī)藥衛(wèi)生領(lǐng)域同時(shí)使用DCE和BWS(BWS-1、BWS-2和BWS-3中的任意1種)的中英文實(shí)證研究。鑒于BWS-3格式上與DCE相似,本文也納入同時(shí)使用BWS-3和BWS-1或同時(shí)使用BWS-3和BWS-2的文獻(xiàn)。排除非醫(yī)藥衛(wèi)生相關(guān),研究方法不符合要求,會(huì)議記錄、評(píng)述、綜述等非實(shí)證研究以及無(wú)法獲取全文的文獻(xiàn)。
根據(jù)PREFS質(zhì)量評(píng)分標(biāo)準(zhǔn),對(duì)納入研究的調(diào)查目的(purpose)、應(yīng)答者(respondents)、方法解釋(explanation)、結(jié)果(findings)和意義(significance)5個(gè)方面進(jìn)行計(jì)分(符合1項(xiàng)要求加1分,滿分5分)[7]。具體表述如下:①闡明研究問(wèn)題或目標(biāo)與偏好有關(guān),如效用、支付意愿、重要性或者優(yōu)先級(jí)等;②研究應(yīng)該評(píng)價(jià)應(yīng)答者和無(wú)應(yīng)答者之間是否有差異,不能只評(píng)價(jià)應(yīng)答者與目標(biāo)人群之間的差異;③清晰解釋評(píng)估偏好的方法,例如文獻(xiàn)或附錄中有偏好測(cè)量的問(wèn)題、呈現(xiàn)方式等;④闡明偏好分析是否包括所有受訪者, 如果一些受訪者未納入分析(未通過(guò)一致性檢驗(yàn)、主導(dǎo)偏好、未完成問(wèn)卷等),需檢驗(yàn)未納入與納入的結(jié)果有無(wú)顯著差異;⑤偏好結(jié)果要使用顯著性檢驗(yàn)來(lái)評(píng)估,包括P、置信區(qū)間以及與偏好結(jié)果相關(guān)的標(biāo)準(zhǔn)差或標(biāo)準(zhǔn)誤的平均值。
初篩共獲得文獻(xiàn)426篇,篩除重復(fù)文獻(xiàn)98篇,閱讀標(biāo)題和摘要,排除明顯不相關(guān)的文獻(xiàn),最后進(jìn)一步檢索閱讀全文,最終納入13篇文獻(xiàn)(具體流程見(jiàn)圖1)。納入文獻(xiàn)均為英文,2017年、2019年和2021年各3篇,2020年4篇。研究類型包括6篇DCE和BWS-1,6篇DCE和BWS-2,1篇BWS-2和BWS-3。研究領(lǐng)域涉及醫(yī)患對(duì)疾病治療的偏好[8-12],生命終末期人群/癡呆患者/兒童生命質(zhì)量評(píng)估[13-16],醫(yī)務(wù)人員工作偏好和衛(wèi)生技術(shù)評(píng)估[17-20]。除1篇來(lái)自塞內(nèi)加爾外[18],其余均來(lái)自美國(guó)、英國(guó)和澳大利亞等國(guó)家。見(jiàn)表1。
表1 納入研究的主要特征
圖1 文獻(xiàn)篩選流程
屬性和水平的確定主要通過(guò)文獻(xiàn)綜述和定性研究[8-13,17-19],或基于已有量表和調(diào)查問(wèn)卷[14-16,20]。10篇文獻(xiàn)開展預(yù)實(shí)驗(yàn)評(píng)估受訪者對(duì)問(wèn)卷選擇的理解程度,并調(diào)整完善屬性和水平[8-13,17-20]。
實(shí)驗(yàn)設(shè)計(jì)以D-高效設(shè)計(jì)(D-efficiency)和D-最優(yōu)設(shè)計(jì)(D-optimal)為主[8,10,12-13,15,17-19],1篇使用正交主效應(yīng)設(shè)計(jì)(orthogonal main effects design,OMED)[20],其他未做說(shuō)明。BWS-2和DCE各1篇分別設(shè)置退出和維持現(xiàn)狀選項(xiàng)[17-18],實(shí)驗(yàn)設(shè)計(jì)類型及選項(xiàng)集數(shù)量見(jiàn)表2。DCE和BWS數(shù)據(jù)分析大多使用相同模型,以條件logit(conditional logit,CL)和隨機(jī)參數(shù)logit(random parameters logit,RPL)為主。
表2 納入研究的實(shí)驗(yàn)設(shè)計(jì)和數(shù)據(jù)分析
DCE和BWS的可接受性可通過(guò)應(yīng)答率、完成時(shí)間以及完成問(wèn)卷的困難程度進(jìn)行比較。在應(yīng)答率方面,11項(xiàng)研究受訪者同時(shí)完成DCE和BWS問(wèn)卷,應(yīng)答率默認(rèn)為無(wú)差異。其余2項(xiàng)研究調(diào)查不同受訪者,Honda等人的研究未表述DCE和BWS的各自應(yīng)答率[18],僅Himmler等人的研究比較不同受訪者對(duì)DCE和BWS-2問(wèn)卷的應(yīng)答率差異[20],結(jié)果顯示受訪者均完成DCE問(wèn)卷,1.9%(3/159)未完成BWS-2問(wèn)卷[20]。
在完成時(shí)間方面,1項(xiàng)研究顯示[13],受訪者完成DCE和BWS的平均時(shí)長(zhǎng)相似(17分鐘),另1項(xiàng)研究表明[20],盡管DCE和BWS的選項(xiàng)集數(shù)量相同,但DCE問(wèn)卷平均用時(shí)(6分鐘)顯著低于BWS問(wèn)卷(7.2分鐘)。
在完成問(wèn)卷的困難程度方面,3項(xiàng)研究分別調(diào)查普通成年人、癡呆患者和照顧者、65歲以上老人[13-14,20],受訪者均表示DCE比BWS更容易完成,但在Rogers等人的研究中[16],兒童和青少年認(rèn)為BWS-2比DCE更容易理解和選擇。
由于DCE和BWS均為陳述性偏好研究,因此評(píng)估數(shù)據(jù)的有效性非常重要[21]。內(nèi)部有效性檢驗(yàn)參照Krucien等人的研究[22],由微觀經(jīng)濟(jì)學(xué)消費(fèi)者理論推導(dǎo)出穩(wěn)定性(stability)、單調(diào)性(monotonicity)、連續(xù)性(continuity)和完整性(completeness)4種檢驗(yàn)方法。13篇納入文獻(xiàn)中,未有文獻(xiàn)對(duì)單調(diào)性和完整性進(jìn)行檢驗(yàn)。穩(wěn)定性檢驗(yàn),也稱為一致性檢驗(yàn),是在一套問(wèn)卷的不同位置設(shè)置相同題目,并檢查兩次回答是否一致[23]。僅一項(xiàng)研究檢驗(yàn)了穩(wěn)定性[20],結(jié)果顯示DCE的穩(wěn)定性高于BWS。
連續(xù)性(continuity)假設(shè)人們的偏好是補(bǔ)償性的,即權(quán)衡之后愿意接受一個(gè)屬性變差以換取另一個(gè)屬性補(bǔ)償性變好。若受訪者只關(guān)注某個(gè)或某幾個(gè)屬性,只選擇屬性水平最好或最差的方案,則受訪者的偏好就為非連續(xù)性。連續(xù)性通過(guò)計(jì)算每個(gè)應(yīng)答者的字典分?jǐn)?shù)(lexicographic score)進(jìn)行檢驗(yàn),字典分?jǐn)?shù)范圍從0%到100%,數(shù)值越大連續(xù)性越低,受訪者做選擇時(shí)對(duì)屬性水平的權(quán)衡越少[22]。Himmler等人的研究中[20],DCE和BWS的字典分?jǐn)?shù)分別為28.9%和79.1%,BWS中存在更多的受訪者對(duì)單一屬性有顯性偏好,表明受訪者在DCE時(shí)做了更多的權(quán)衡和思考。
DCE和BWS的選項(xiàng)集內(nèi)部結(jié)構(gòu)、偏好分析模型方面均有差異,因此在比較兩者的偏好結(jié)果前需進(jìn)行規(guī)模差異調(diào)整(rescaled)。3項(xiàng)研究進(jìn)行了結(jié)果一致性比較,分別基于比例標(biāo)度(ratio-scaled)、概率的縮放程序(probability-based rescaling procedure)和皮爾遜相關(guān)系數(shù)來(lái)調(diào)整屬性相對(duì)重要性,結(jié)果顯示DCE和BWS結(jié)果一致性較高[11-12,15]。Huynh等的研究將DCE和BWS數(shù)據(jù)分別進(jìn)行潛在類別分析[13],結(jié)果顯示4個(gè)分組的原則和比例基本一致,分組結(jié)果一致性較高。
納入文獻(xiàn)的質(zhì)量評(píng)價(jià)平均得分為2.9分,納入文獻(xiàn)對(duì)“調(diào)查目的”“方法解釋”和“意義”的表述相對(duì)詳細(xì),對(duì)“應(yīng)答者”和“結(jié)果”的展示相對(duì)不足,僅1項(xiàng)研究比較了“應(yīng)答者”與“非應(yīng)答者”的差異[13],僅2項(xiàng)研究進(jìn)行敏感性分析,評(píng)估排除的數(shù)據(jù)對(duì)結(jié)果的潛在影響[12,15]。 見(jiàn)表3。
表3 PREFS質(zhì)量評(píng)價(jià)
結(jié)果顯示,DCE在可接受性和有效性方面略優(yōu)于BWS,兩者測(cè)量的偏好結(jié)果一致性較高??山邮苄苑矫?,DCE的應(yīng)答率和完成時(shí)間均比BWS更高效,成年受訪者更易于接受DCE,僅有一項(xiàng)研究結(jié)果顯示,理解能力與年齡無(wú)顯著關(guān)系,但是兒童青少年更偏好BWS[16]。有效性方面,DCE穩(wěn)定性高于BWS-2,在進(jìn)行穩(wěn)定性檢驗(yàn)時(shí),DCE只需比較2個(gè)重復(fù)設(shè)置的問(wèn)題是否選擇相同方案,BWS需要“最好”和“最差”兩個(gè)回答都一致才算通過(guò)穩(wěn)定性檢驗(yàn),因此BWS比DCE通過(guò)檢驗(yàn)的概率低,但也不排除問(wèn)卷負(fù)擔(dān)或方法本身的問(wèn)題,可以通過(guò)外部有效性檢驗(yàn)比較兩種方法有效性。結(jié)果一致性方面,雖然在受訪者潛在心理決策模型以及選擇行為假設(shè)等方面存在差異[25],但有限的研究證明DCE和BWS的偏好結(jié)果基本一致,表明2種方法可能具有同等的偏好測(cè)量能力。
Whitty的綜述結(jié)果也顯示,DCE在有效性和可接受性方面比 BWS略有優(yōu)勢(shì)[6],這與本綜述結(jié)果一致,但Whitty的綜述顯示DCE和BWS結(jié)果一致性較低。使用的BWS類型以及研究背景差異可能是影響兩者結(jié)果一致性的因素:Whitty的綜述中未有研究比較DCE和BWS-1結(jié)果一致性,本綜述中有2篇是DCE和BWS-1進(jìn)行結(jié)果一致性比較;另外2篇是DCE與BWS-2比較的文獻(xiàn),這2項(xiàng)研究樣本量分別為2996和6020,超出Whitty的綜述納入文獻(xiàn)的樣本量。將Whitty的綜述和本綜述分別納入的12篇和13篇文獻(xiàn)綜合分析,可接受性方面僅有1篇文獻(xiàn)報(bào)告了2種方法受訪者應(yīng)答率的差異;有效性檢驗(yàn)方面更側(cè)重穩(wěn)定性檢驗(yàn),其次為連續(xù)性和單調(diào)性檢驗(yàn);DCE與BWS-1結(jié)果一致性較高,與BWS-2結(jié)果一致性較低。
DCE發(fā)展至今已有較為成熟的框架,BWS發(fā)展較DCE晚,但與DCE相比更易于選擇,僅需較小樣本可獲取更豐富信息,并且能彌補(bǔ)DCE統(tǒng)計(jì)效率不足的缺點(diǎn)[26],盡管如此,但現(xiàn)有研究并不能完全證明兩種研究方法的優(yōu)劣。研究者可根據(jù)研究目的和現(xiàn)實(shí)情境選擇1種類型的BWS與DCE聯(lián)合使用,比如使用BWS-1輔助DCE進(jìn)行前期屬性確定。若開展DCE和BWS的比較研究,需重點(diǎn)考慮BWS適用類型、受訪人群、問(wèn)卷設(shè)計(jì)、有效性檢驗(yàn)方法等,分別記錄每個(gè)受訪者回答兩套問(wèn)卷的時(shí)間,條件允許應(yīng)增加受訪者關(guān)于DCE和BWS作答的認(rèn)知負(fù)擔(dān)問(wèn)題,另外,偏好結(jié)果一致性需進(jìn)行再規(guī)模化處理后比較。
DCE和BWS是目前醫(yī)藥衛(wèi)生領(lǐng)域重要的偏好測(cè)量工具,在臨床診療、疾病篩查、衛(wèi)生人力等領(lǐng)域廣泛應(yīng)用[27-29]。近五年來(lái)國(guó)外學(xué)者聯(lián)合使用DCE和BWS測(cè)量健康偏好的研究日益增多,但DCE和BWS在我國(guó)起步較晚,尤其是BWS在國(guó)內(nèi)僅有少量介紹性和實(shí)證研究[30-32],目前國(guó)內(nèi)還未有將DCE和BWS聯(lián)合使用的實(shí)證研究,僅有1項(xiàng)通過(guò)BWS-1為DCE確定屬性的研究[33]。因此了解DCE和BWS聯(lián)合使用的現(xiàn)狀及比較研究結(jié)果,對(duì)于國(guó)內(nèi)進(jìn)一步開展健康偏好測(cè)量研究具有重要意義。