張藍(lán)方 王麗潔 張明娟 劉愛(ài)玲 郭曉雷 于進(jìn)超 孫珊珊 曹樹偉 季懷君 馮虎 姜軼男 李靜宜 楊柳 于鑫 齊越 薛付忠 楊???/p>
1威海市立醫(yī)院腫瘤科,威海 264200;2山東大學(xué)齊魯醫(yī)學(xué)院公共衛(wèi)生學(xué)院生物統(tǒng)計(jì)系,濟(jì)南 250000;3山東省疾病預(yù)防控制中心慢病防治所,濟(jì)南 250000
既往研究顯示,我國(guó)肺癌發(fā)病率居高不下,是死亡率最高的腫瘤[1]。近年來(lái),針對(duì)肺癌的專病隊(duì)列研究為肺癌的機(jī)制學(xué)研究及精準(zhǔn)化診治提供了真實(shí)世界證據(jù)[2-3]?;卺t(yī)院的專病隊(duì)列收集了患者診斷時(shí)的數(shù)據(jù),通常被稱為“初始隊(duì)列”。本文描述了一個(gè)以威海地區(qū)醫(yī)院為基礎(chǔ)的肺癌隊(duì)列,即威海市立醫(yī)院肺癌隊(duì)列(SET SAIL隊(duì)列),主要介紹其構(gòu)建目的、數(shù)據(jù)收集、主要基線指標(biāo)、實(shí)際應(yīng)用及隊(duì)列構(gòu)建意義。
威海市立醫(yī)院依托山東大學(xué)信息大數(shù)據(jù)平臺(tái),建立了SET SAIL隊(duì)列,同步構(gòu)建醫(yī)院在線肺癌病例數(shù)據(jù)庫(kù),其信息高度集中,可供專業(yè)臨床科研工作者以臨床實(shí)際問(wèn)題為導(dǎo)向進(jìn)行相關(guān)研究。
研究團(tuán)隊(duì)基于數(shù)據(jù)采集融匯通用數(shù)據(jù)模型,利用電子病歷(RCDM-4)標(biāo)準(zhǔn)數(shù)據(jù)集,按照隊(duì)列通用數(shù)據(jù)模型標(biāo)準(zhǔn),由專業(yè)技術(shù)人員完成數(shù)據(jù)采集,構(gòu)建SET SAIL隊(duì)列。
1.調(diào)查對(duì)象
將2016年1月至2021年5月間在威海市立醫(yī)院首次病理確診的肺癌患者共5 246例納入隊(duì)列。
隊(duì)列納入標(biāo)準(zhǔn):①在威海市立醫(yī)院做手術(shù)或者活檢(支氣管鏡活檢,肺活檢或者淋巴結(jié)活檢)首次病理確診為肺癌的病例,ICD-10編碼為C34;②診斷日期為2016年以來(lái)的肺癌病例。排除標(biāo)準(zhǔn):①繼發(fā)性肺癌;②系統(tǒng)中身份證號(hào)格式異常者;③既往或目前合并有其它惡性腫瘤。隊(duì)列終點(diǎn)事件為研究對(duì)象是否死亡以及死亡時(shí)間(匹配山東省疾病預(yù)防控制中心的死因登記數(shù)據(jù))。
2.基線數(shù)據(jù)采集內(nèi)容
SET SAIL隊(duì)列中涵蓋人口學(xué)信息(年齡、性別、職業(yè)等)、腫瘤相關(guān)特征(病理類型、TNM分期等)、疾病(103個(gè)ICD-10編碼對(duì)應(yīng)28 868個(gè)別名)、行為生活方式(吸煙、飲酒)、手術(shù)(有無(wú)手術(shù),以及手術(shù)方式等)、藥品(主要指肺癌化療、靶向、免疫用藥,64個(gè)YPID標(biāo)碼)、實(shí)驗(yàn)室檢查(875個(gè)CNAS-AL09)等上千個(gè)標(biāo)準(zhǔn)指標(biāo)變量(具體見(jiàn)表1)。采集醫(yī)院業(yè)務(wù)系統(tǒng)(HIS、EMR、LIS等)數(shù)據(jù),匯總到科研平臺(tái),再通過(guò)非線性規(guī)劃(NLP)模型完成文本結(jié)構(gòu)化及指標(biāo)標(biāo)準(zhǔn)化治理。
表1 SET SAIL隊(duì)列數(shù)據(jù)采集內(nèi)容
3.隨訪調(diào)查
參考《大型人群隊(duì)列終點(diǎn)事件長(zhǎng)期隨訪技術(shù)規(guī)范(T/CPMA002-2019)》[4],在隨訪調(diào)查中,采用常規(guī)監(jiān)測(cè)方式對(duì)隊(duì)列終點(diǎn)事件進(jìn)行長(zhǎng)期隨訪,包括死亡監(jiān)測(cè)、發(fā)病監(jiān)測(cè)、住院事件監(jiān)測(cè)、遷移和失訪監(jiān)測(cè)。與山東省疾病預(yù)防控制中心合作,可獲取發(fā)病及死因登記數(shù)據(jù)。利用醫(yī)院病案首頁(yè)系統(tǒng)、醫(yī)保住院系統(tǒng)及醫(yī)院信息系統(tǒng),可以收集隨訪期內(nèi)因病住院治療的所有疾病診療信息。醫(yī)院隨訪系統(tǒng)可用于患者出院后的信息收集,院內(nèi)系統(tǒng)失聯(lián)者可聯(lián)系公安戶籍管理部門進(jìn)行信息收集。
1.技術(shù)安全
首先,將云存儲(chǔ)技術(shù)運(yùn)用于肺癌大數(shù)據(jù)平臺(tái),結(jié)合加密技術(shù)有效保障醫(yī)院醫(yī)療大數(shù)據(jù)集群數(shù)據(jù)的安全。其次,在處理數(shù)據(jù)時(shí),降低數(shù)據(jù)敏感度,保護(hù)患者的識(shí)別信息,采用加密技術(shù)對(duì)數(shù)據(jù)進(jìn)一步保護(hù)。另外,從網(wǎng)絡(luò)層面設(shè)置訪問(wèn)權(quán)限,控制技術(shù)人員對(duì)數(shù)據(jù)的訪問(wèn),限制非法分子對(duì)平臺(tái)數(shù)據(jù)的非法訪問(wèn)和導(dǎo)出。最后,科研平臺(tái)軟件及數(shù)據(jù)庫(kù)完成第三方數(shù)據(jù)安全測(cè)評(píng),并出具數(shù)據(jù)安全測(cè)評(píng)報(bào)告。由威海市立醫(yī)院大數(shù)據(jù)團(tuán)隊(duì)技術(shù)人員定期對(duì)大數(shù)據(jù)平臺(tái)進(jìn)行監(jiān)控和檢查。
2.管理安全
醫(yī)院建立并落實(shí)《數(shù)據(jù)安全管理辦法》,作為制度建設(shè)管理數(shù)據(jù)安全。平臺(tái)組成員需簽署保密協(xié)議。山東大學(xué)健康醫(yī)療大數(shù)據(jù)研究院定期對(duì)工作人員進(jìn)行數(shù)據(jù)平臺(tái)應(yīng)用培訓(xùn),規(guī)范操作流程。
本研究5 246例患者中,年齡最小為22歲,最大92歲,中位年齡63歲。男性2 725人,占51.94%;女性2 521人,占比48.06%。不吸煙者3 312例(65.38%),目前吸煙者926例(18.28%),既往吸煙者828例(16.34%),吸煙狀態(tài)不詳180例(3.43%)。部分人口學(xué)特征的K-M曲線分析結(jié)果顯示低齡、女性、不吸煙人群往往有更高的生存率,詳見(jiàn)圖1。
圖1 肺癌隊(duì)列不同年齡(A)、不同性別(B)、不同吸煙狀態(tài)(C)的生存曲線圖
1.隊(duì)列總體生存時(shí)間
以肺癌確診時(shí)間為起點(diǎn),死亡時(shí)間或最后隨訪時(shí)間(2021年5月26日)為終點(diǎn),總生存期(OS)分布見(jiàn)圖2。死亡1 573例,存活3 673例,死亡比例29.98%。平均隨訪時(shí)間1.74年,中位隨訪時(shí)間1.38年,最長(zhǎng)隨訪時(shí)間5.63年。肺癌總生存期的K-M生存曲線見(jiàn)圖3,根據(jù)該曲線估算5年生存率為52.77%,中位生存時(shí)間為5.37年。
圖2 肺癌隊(duì)列總生存期分布圖
圖3 肺癌隊(duì)列總生存期的生存曲線圖
2.腫瘤特征描述
SET SAIL隊(duì)列中,病理類型包含腺癌、鱗癌、小細(xì)胞癌、未特指類型(NOS)、唾液腺腫瘤、大細(xì)胞神經(jīng)內(nèi)分泌癌、類癌、肉瘤樣癌、腺鱗癌、神經(jīng)內(nèi)分泌癌、大細(xì)胞肺癌等。非小細(xì)胞肺癌4 715例,占比89.88%,其中肺腺癌3 908例,肺鱗癌659例。小細(xì)胞肺癌418例,占比7.97%。肺癌未特指病理類型113例(2.15%)。K-M曲線中,肺腺癌預(yù)后最好(5年生存率65.53%),小細(xì)胞肺癌預(yù)后最差(5年生存率15.51%),肺鱗癌居中(5年生存率26.19%)(圖4)。
圖4 不同病理類型肺癌生存期的生存曲線圖
SET SAIL隊(duì)列的TNM分期按照第8版TNM分期標(biāo)準(zhǔn)劃定,Ⅰ期病例2 497例(47.60%,ⅠA期2 177例,ⅠB期298例),Ⅱ期294例(5.60%),Ⅲ期781例(14.89%),Ⅳ期1 450例(27.64%),分期未知224例(4.27%)。不同TNM分期的K-M曲線見(jiàn)圖5。
圖5 肺癌隊(duì)列TNM分期的生存曲線圖
醫(yī)療大數(shù)據(jù)具有數(shù)量多、規(guī)模大、數(shù)據(jù)結(jié)構(gòu)多樣化、數(shù)據(jù)呈幾何增長(zhǎng)、信息價(jià)值高等特點(diǎn)[5-6]。由單一機(jī)構(gòu)經(jīng)驗(yàn)形成的隊(duì)列(如SET SAIL隊(duì)列)便于從固定機(jī)構(gòu)獲取組織、細(xì)胞和血清樣本信息,開展比基于人群登記更復(fù)雜的研究。當(dāng)然,隊(duì)列研究中沒(méi)有對(duì)不同類型的治療進(jìn)行隨機(jī)分組,因此關(guān)于治療的結(jié)論只能產(chǎn)生假設(shè)。
SET SAIL隊(duì)列作為一個(gè)區(qū)域性專病隊(duì)列,包含了2016年1月至2021年5月間在威海市立醫(yī)院就診的肺癌患者,其中大多來(lái)自威海地區(qū),納入病例數(shù)充足、提取信息量大,具有可靠的有效性和區(qū)域特性。病例死亡時(shí)間匹配山東省疾病預(yù)防控制中心的死因登記數(shù)據(jù),失訪率低。從SET SAIL隊(duì)列的初期統(tǒng)計(jì)數(shù)據(jù)來(lái)看,威海地區(qū)肺癌患者性別比例中仍以男性居多,病理類型以非小細(xì)胞肺癌為主,其中肺腺癌占比高,這與大多地區(qū)統(tǒng)計(jì)結(jié)果一致[7]。SET SAIL隊(duì)列中的肺癌分期統(tǒng)計(jì)結(jié)果提示Ⅰ期患者占比47.6%,高于部分一線城市數(shù)據(jù)[7],這可能與患者來(lái)源有關(guān)。SET SAIL隊(duì)列的患者群中當(dāng)?shù)爻踉\患者占比高,而一線大城市數(shù)據(jù)中包含了很多外地晚期患者,另外,這也與近年來(lái)民眾肺癌篩查意識(shí)提高、就醫(yī)可及性提升有關(guān)。
SET SAIL隊(duì)列為臨床醫(yī)師提供了便利安全的院內(nèi)科研數(shù)據(jù)平臺(tái),自開發(fā)以來(lái)已開展了多項(xiàng)研究,其中以SET SAIL隊(duì)列中的非小細(xì)胞肺癌隊(duì)列子集為研究對(duì)象,利用填補(bǔ)后的完全數(shù)據(jù)集建立和驗(yàn)證非小細(xì)胞肺癌預(yù)后的預(yù)測(cè)模型已取得初步研究結(jié)果。另外,基于醫(yī)院數(shù)據(jù)庫(kù)關(guān)于威海地區(qū)肺癌外科手術(shù)現(xiàn)狀的研究、晚期肺癌伴間質(zhì)性肺炎患者住院死亡率危險(xiǎn)因素回顧性觀察等研究已經(jīng)啟動(dòng)。
未來(lái),我們可以利用成熟的經(jīng)驗(yàn)開發(fā)更具疾病特異性的機(jī)構(gòu)數(shù)據(jù)庫(kù),并將其中幾個(gè)數(shù)據(jù)庫(kù)連接,形成共建共享機(jī)制,讓數(shù)據(jù)匯集、流動(dòng)、應(yīng)用起來(lái),提高研究的樣本量和統(tǒng)計(jì)能力,更好地造福于全國(guó)患者[8]。
利益沖突所有作者均聲明不存在利益沖突
作者貢獻(xiàn)聲明張藍(lán)方、王麗潔:直接參與、文章撰寫、數(shù)據(jù)分析;張明娟、薛付忠、楊福?。簲?shù)據(jù)平臺(tái)建設(shè)指導(dǎo)、專病隊(duì)列建設(shè)指導(dǎo)、工作支持;劉愛(ài)玲、郭曉雷、于進(jìn)超、孫珊珊、曹樹偉、季懷君、馮虎、姜軼男、李靜宜、楊柳、于鑫、齊越:直接參與、數(shù)據(jù)校正、隊(duì)列建設(shè)、工作支持