章鳴嬛,陳 瑛,汪 城,沈 瑛,馬軍山
?
美國國立癌癥研究所SEER數(shù)據(jù)庫概述及應(yīng)用
章鳴嬛,陳瑛,汪城,沈瑛,馬軍山
摘要:美國國立癌癥研究所“監(jiān)測、流行病學(xué)和結(jié)果數(shù)據(jù)庫”SEER是北美最具代表性的大型腫瘤登記注冊數(shù)據(jù)庫之一,收集了大量循證醫(yī)學(xué)的相關(guān)數(shù)據(jù),為臨床醫(yī)師的循證實(shí)踐及臨床醫(yī)學(xué)研究提供了系統(tǒng)的證據(jù)支持和寶貴的第一手資料。介紹了SEER的基本情況、獲取方式以及數(shù)據(jù)庫結(jié)構(gòu)等,對SEER的數(shù)據(jù)字典進(jìn)行了較詳細(xì)的描述;解讀了SEER主要的統(tǒng)計(jì)分析報(bào)告;收集了近年來國內(nèi)外基于SEER數(shù)據(jù)的部分臨床應(yīng)用案例,并對SEER數(shù)據(jù)庫的未來應(yīng)用進(jìn)行了討論與展望。關(guān)鍵詞:SEER大型腫瘤登記數(shù)據(jù)庫;數(shù)據(jù)字典統(tǒng)計(jì)分析報(bào)告臨床應(yīng)用
陳瑛(1968-),女,上海,上海杉達(dá)學(xué)院,教授,博士,研究方向:數(shù)據(jù)分析與處理,上海,201209
汪城(1994-),男,安徽,上海杉達(dá)學(xué)院,本科生,研究方向:計(jì)算機(jī)科學(xué)與技術(shù),上海,201209
沈瑛(1970-),女,上海,上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院,副主任醫(yī)師,碩士,研究方向:臨床醫(yī)學(xué),上海,200092
馬軍山(1967-),男,黑龍江,上海理工大學(xué),教授,博士,研究方向:光電信息,上海,200093
SEER記錄了美國部分州縣40年來腫瘤患者的相關(guān)信息,包括了上百萬名已確診患者的發(fā)病率、死亡率和患病情況等信息[2]。SEER在建立之初僅有少數(shù)幾個地區(qū)的登記站,目前登記站數(shù)量已擴(kuò)展為18個。這些登記站利用SEER*STAT軟件來統(tǒng)一和規(guī)范[3],這是一款可用于統(tǒng)計(jì)分析的強(qiáng)大的計(jì)算機(jī)工具。各登記站的數(shù)據(jù)資料以一年兩次的頻率提交到NCI進(jìn)行分類統(tǒng)計(jì)和匯總,并向全美及全世界發(fā)布所覆蓋人群的腫瘤信息。
SEER的研究數(shù)據(jù)主要由腫瘤發(fā)病率情況和人口數(shù)據(jù)兩大部分組成。截至2013年11月,SEER的數(shù)據(jù)記錄已有8,208,917條。數(shù)據(jù)記錄中包括患者的注冊編號、個人信息、原發(fā)病灶部位、腫瘤尺寸、腫瘤編碼、治療方案、死亡原因等信息。數(shù)據(jù)庫所涉及的腫瘤劃分為9類:乳腺、結(jié)腸&直腸、其他消化系統(tǒng)、女性生殖、淋巴&白血病、男性生殖、呼吸系統(tǒng)、泌尿系統(tǒng)及其它尚未確指的類型。
1.1醫(yī)學(xué)數(shù)據(jù)的特點(diǎn)
隨著我國醫(yī)療衛(wèi)生事業(yè)的快速發(fā)展,據(jù)衛(wèi)生和計(jì)劃生育事業(yè)發(fā)展統(tǒng)計(jì)公報(bào)[1]顯示,2013年全國醫(yī)療衛(wèi)生機(jī)構(gòu)總診療人次達(dá)73.1億人次。全國醫(yī)療服務(wù)工作量如表1所示:
表1 2013全國醫(yī)療服務(wù)工作量統(tǒng)計(jì)
全國醫(yī)療衛(wèi)生機(jī)構(gòu)入院人數(shù)達(dá)19215萬人,如圖1所示:
圖1 2013年全國醫(yī)療衛(wèi)生機(jī)構(gòu)住院量及增長速度[1]
醫(yī)學(xué)數(shù)據(jù)既具有常規(guī)數(shù)據(jù)的特點(diǎn),如數(shù)據(jù)增量巨大、來源多樣、產(chǎn)生時間和地點(diǎn)等不確定;又具有其特殊性,主要表現(xiàn)為:
(1)數(shù)據(jù)形式多樣性或異質(zhì)性。包括文本數(shù)據(jù)(如問診、觀察和解釋等非結(jié)構(gòu)化的描述語言);臨床化驗(yàn)等生理參數(shù);一維信號及其參數(shù)(如ECG);超聲、CT、MRI、PET等醫(yī)學(xué)影像特征參數(shù)。
(2)醫(yī)學(xué)數(shù)據(jù)描述的不確定性。醫(yī)生對于上述臨床數(shù)據(jù)的解釋含有豐富的經(jīng)驗(yàn)積累和知識沉淀,是醫(yī)學(xué)數(shù)據(jù)分析處理必須關(guān)注的數(shù)據(jù)源,但醫(yī)生的經(jīng)驗(yàn)與知識大多是非結(jié)構(gòu)化的文字描述非標(biāo)準(zhǔn)化形式。
(3)人體是一個復(fù)雜的生物系統(tǒng),隨著病程變化,其臨床數(shù)據(jù)在不斷變更,因此需要建立一種方法能相應(yīng)地采集、存儲和分析相關(guān)的數(shù)據(jù)及其變化過程。
(4)醫(yī)學(xué)數(shù)據(jù)的使用受其私密性、敏感性、倫理、法律和社會輿論等因素的制約。
1.2數(shù)據(jù)庫技術(shù)與大數(shù)據(jù)分析
數(shù)據(jù)庫技術(shù)是研究、管理和應(yīng)用數(shù)據(jù)庫的一門軟件科學(xué),通過研究數(shù)據(jù)庫的結(jié)構(gòu)、存儲、設(shè)計(jì)、管理以及應(yīng)用的基本理論和實(shí)現(xiàn)方法,來實(shí)現(xiàn)對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行處理、分析和理解。
當(dāng)今社會每時每刻都在產(chǎn)生海量的數(shù)據(jù),對規(guī)模巨大的數(shù)據(jù)進(jìn)行分析和研究,并從中得出有用的結(jié)論和規(guī)律,使得大數(shù)據(jù)分析技術(shù)應(yīng)運(yùn)而生。“大數(shù)據(jù)”的特點(diǎn)可概括為4個V,即數(shù)據(jù)量大(Volume)、高速(Velocity)、多樣(Variety)和價(jià)值(Value)。
醫(yī)學(xué)數(shù)據(jù)具備大數(shù)據(jù)的特點(diǎn),如何正確有效地對海量醫(yī)學(xué)數(shù)據(jù)進(jìn)行挖掘研究,是目前亟待解決的熱點(diǎn)問題。監(jiān)測、流行病學(xué)和結(jié)果數(shù)據(jù)庫(Surveillance,Epidemiology and End Results,SEER)是較為典型的醫(yī)學(xué)數(shù)據(jù)庫,由美國國立癌癥研究所(National Cancer Institute,NCI)于1973年所建立,是北美最具代表性的大型腫瘤登記注冊數(shù)據(jù)庫之一。
2.1SEER數(shù)據(jù)獲取
SEER數(shù)據(jù)對所有研究者開放,獲取1973-2011期間的SEER數(shù)據(jù)的手段有3種[4]。
(1)通過SEER*STAT軟件的客戶端-服務(wù)器模式進(jìn)入互聯(lián)網(wǎng)(http://seer.cancer.gov/resources/),這是目前最廣泛的數(shù)據(jù)獲取手段。
(2)從SEER網(wǎng)站上下載壓縮文件,解壓縮后可得到相應(yīng)的二進(jìn)制數(shù)據(jù)文件及相關(guān)文本數(shù)據(jù)。
前兩種獲取方式都要使用由SEER提供的用戶名和密碼進(jìn)入網(wǎng)絡(luò)。
(3)向SEER管理人員申請索取數(shù)據(jù)庫的DVD光盤,可直接獲取SEER*STAT軟件、二進(jìn)制數(shù)據(jù)文件及相關(guān)文本數(shù)據(jù)。不管何種數(shù)據(jù)獲取方式,之前都要簽署有關(guān)SEER研究數(shù)據(jù)的協(xié)議。
2.2SEER的數(shù)據(jù)構(gòu)成
SEER研究數(shù)據(jù)主要由腫瘤發(fā)病率數(shù)據(jù)、人口數(shù)據(jù)及數(shù)據(jù)字典構(gòu)成。
(1)1973-2011年期間腫瘤發(fā)病率研究數(shù)據(jù)(Incidence)
腫瘤發(fā)病率研究數(shù)據(jù)均按照國際疾病分類腫瘤學(xué)專輯第三版(International Classification of Diseases for Oncology Third Edition,ICD-O-3)來編碼,并保存為TXT文本格式。
此目錄包括4個子目錄:
YR1973_2011.SEER9:該目錄保存了1973~2011期間由SEER第九登記站提交的部分州縣的腫瘤研究數(shù)據(jù)。具體州縣為:亞特蘭大、康涅狄格、底特律、夏威夷、愛荷華、墨西哥、舊金山、弗朗西斯科、奧克蘭、西雅圖和猶他州普吉特海灣。
YR1992_2011.SJ_LA_RG_AK:該目錄保存了1992~2011期間部分州縣的腫瘤研究數(shù)據(jù)。具體州縣為:圣若澤、洛杉磯、蒙特雷、格魯吉亞和阿拉斯加農(nóng)村。
YR2000_2011.CA_KY_LO_NJ_GA:該目錄保存了2000~2011期間部分州縣的腫瘤研究數(shù)據(jù)。具體州縣為:大加利福尼亞、肯塔基、路易斯安那、新澤西和大格魯吉亞。
YR2005.LO_2ND_HALF:該目錄保存了2005.7~2005.12期間路易斯安那州的腫瘤診斷情況。
這4個子目錄中的研究數(shù)據(jù)均按上述9類腫瘤情況分別組織。
(2)人口數(shù)據(jù)分年齡段的統(tǒng)計(jì)情況(Populations)
人口數(shù)據(jù)的統(tǒng)計(jì)情況也遵循ICD-O-3標(biāo)準(zhǔn)來編碼,并保存為TXT文本格式。按兩種方法對人口數(shù)據(jù)進(jìn)行分段統(tǒng)計(jì)。
①以5年為一個年齡段跨度,共劃分為19個年齡段組。
②以一年為一個年齡段跨度,從0歲至100歲以上,共劃分為101個年齡段組。
此目錄中的數(shù)據(jù)文件與腫瘤發(fā)病率的數(shù)據(jù)文件相對應(yīng),分別收集了相應(yīng)年份跨度和地區(qū)的基本的人口統(tǒng)計(jì)數(shù)據(jù)情況。
(3)數(shù)據(jù)字典(Data dictionaries)
所謂數(shù)據(jù)字典,可以看作是數(shù)據(jù)庫中所有成分的定義和解釋的文字集合,描述了數(shù)據(jù)庫中每條記錄所包含的屬性意義和取值說明。因此,在數(shù)據(jù)字典中建立起嚴(yán)密一致的定義非常有助于用戶對于數(shù)據(jù)庫的理解和使用。
作為大型腫瘤登記數(shù)據(jù)庫之一,SEER也具有一定的特殊性。
①病例數(shù)據(jù)的來源時間跨度長,地區(qū)跨度廣,且數(shù)據(jù)來源多源化。因此需要數(shù)據(jù)字典對其記錄字段的屬性進(jìn)行一致化和規(guī)范化。例如字典中包括患者的中心序列號、原發(fā)病灶部位、腫瘤尺寸、腫瘤等級、治療方案以及死亡原因等字段屬性。以“中心序列號”為例,它在北美癌癥登記中心協(xié)會(NAACCR)的登記編號為380,字段長度為2。該屬性描述了所有可報(bào)告的惡性腫瘤、良性腫瘤的數(shù)量及序列,這些都是可能貫穿于病人發(fā)病生涯的疾病信息。在病人的發(fā)病生涯中,該序列號可能會發(fā)生改變。比如某病人曾被檢查出患有一種惡性腫瘤,后來又被檢查出患有第二種惡性腫瘤,那么該病人的中心序列號可能會由001變成002。
②醫(yī)學(xué)研究的進(jìn)步使得人們對于癌癥的認(rèn)識也在不斷修正,這也導(dǎo)致SEER在數(shù)據(jù)采集時考慮的因素要發(fā)生變化,以便對病例記錄進(jìn)行更精確地描述。對比發(fā)現(xiàn),在2010年11月之前,每條記錄的屬性數(shù)目為147(包括4個跳空屬性);而截至2011年11月,每條記錄的屬性數(shù)目已達(dá)155(包括4個跳空屬性)。比如,2011年11月之后的版本中,刪去了原有的“Birthplace”屬性,同時增加了“Birthplace-Country”和“Birthplace-State”屬性。再比如,2011年11月之后的版本中,增加了“Breast Subtype(2010+)”屬性,即,為了進(jìn)一步描述乳腺癌的類別和性質(zhì),2010年11月之后的病例記錄中增加了乳腺癌的亞型屬性。
之所以要設(shè)置“跳空屬性”,是因?yàn)檫@些屬性曾被使用過,而隨著技術(shù)的發(fā)展,現(xiàn)已棄之不用,但為了保證與其他字段之間的對應(yīng)關(guān)系,仍保留該屬性的原有位置。
另外,由于數(shù)據(jù)文件均為TXT文本格式,不宜直接處理,故可先用統(tǒng)計(jì)分析工具對TXT文本文件進(jìn)行格式轉(zhuǎn)換。比如利用IBM SPSS Statistics軟件將TXT文件轉(zhuǎn)換成SAV文件,以便統(tǒng)計(jì)某數(shù)據(jù)文件的字段總數(shù)和記錄總數(shù)、某離散型數(shù)據(jù)每個取值所對應(yīng)的記錄數(shù)及某連續(xù)型數(shù)據(jù)所有記錄值的均值或方差等信息。
3.1主要統(tǒng)計(jì)分析報(bào)告
SEER主要發(fā)布了四類統(tǒng)計(jì)分析報(bào)告,為腫瘤研究人員提供了完整、權(quán)威的分析數(shù)據(jù),便于研究者們對全美各個地區(qū)、各類人群中的腫瘤患者情況進(jìn)行系統(tǒng)深入的研究,具有高度的研究參考價(jià)值。
(1)癌癥的國家年度報(bào)告(1975-2013)
本報(bào)告提供了美國的癌癥發(fā)病率和死亡率趨勢,每年更新一次,由美國疾病控制和預(yù)防中心(CDC)、美國癌癥協(xié)會(ACS)、美國國家癌癥研究所(NCI)以及北美癌癥登記中心協(xié)會(NAACCR)聯(lián)合發(fā)布。最新報(bào)告的發(fā)布時間是2013年12月,主要報(bào)告了肺癌、大腸癌、乳腺疾病及前列腺癌等腫瘤的發(fā)病及死亡情況。
(2)居住在美國的亞裔及太平洋島國人口的癌癥發(fā)病率和死亡率情況報(bào)告
該報(bào)告中,美國國家癌癥研究所(NCI)及其合作部門的研究者們發(fā)布了居住在美國的亞裔與太平洋島國人口的癌癥發(fā)病率、死亡率及階段分布情況。
(3) SEER癌癥統(tǒng)計(jì)數(shù)據(jù)回顧(1975-2011)
SEER癌癥統(tǒng)計(jì)數(shù)據(jù)回顧(CSR)是一份可在線獲取的年度分析報(bào)告,包括大多數(shù)癌癥發(fā)病率、死亡率和生存率的近期統(tǒng)計(jì)數(shù)據(jù)。報(bào)告按癌癥的不同發(fā)病部位或類別加以劃分,多以圖表形式來呈現(xiàn)。
(4)美國癌癥統(tǒng)計(jì)數(shù)據(jù)(USCS)
美國癌癥統(tǒng)計(jì)數(shù)據(jù)(USCS)美聯(lián)邦最全面的癌癥發(fā)病率統(tǒng)計(jì)報(bào)告。這份報(bào)告統(tǒng)計(jì)了源自美國49個州、6個大都會地區(qū)及哥倫比亞特區(qū)的各登記處的癌癥發(fā)病率情況,涵蓋了全美99%的人口。而癌癥死亡率情況更是來全美所有州縣及哥倫比亞特區(qū),覆蓋了全美所有人口。該報(bào)告提供了必要的州縣、人口、種族、民族和性別等信息,以便更好地開展全國范圍內(nèi)的癌癥預(yù)防及控制工作。
USCS由疾病控制與預(yù)防中心(CDC)、國立癌癥研究所(NCI)及北美癌癥中心注冊協(xié)會(NAACCR)聯(lián)合發(fā)布。該數(shù)據(jù)的年度報(bào)告描述了不同人群的癌癥發(fā)病率和死亡率的變化趨勢,為學(xué)者們提供了良好的研究基礎(chǔ)。USCS的最新版本于2013年1月發(fā)布,報(bào)告了1999-2009期間的癌癥發(fā)病和死亡率情況,數(shù)據(jù)文件可從CDC網(wǎng)站上獲取。
3.2國內(nèi)外基于SEER數(shù)據(jù)庫的一些應(yīng)用
SEER信息量龐大,收集的腫瘤病種繁多,為深入研究常見腫瘤提供了強(qiáng)有力的數(shù)據(jù)支撐。故有大量醫(yī)學(xué)研究利用SEER所提供的數(shù)據(jù)來進(jìn)行分析研究,截至2014年11月,引用了SEER數(shù)據(jù)的學(xué)術(shù)論文已達(dá)8,616篇。近幾年國內(nèi)外引用了SEER數(shù)據(jù)的部分論文情況如下:
(1)國外文獻(xiàn)
Kooby DA[5]等收集了SEER數(shù)據(jù)庫1998~2002年間接受胰腺癌手術(shù)的患者11526例,探索胰腺癌術(shù)后輔助放射治療對生存率的影響。研究發(fā)現(xiàn)在很大程度上,合適的放療手段與延長胰腺癌術(shù)后生存期密切相關(guān)。McDougall JA[6]等收集了SEER數(shù)據(jù)庫2000~2008年間的相關(guān)數(shù)據(jù)并進(jìn)行相關(guān)研究。研究發(fā)現(xiàn),長期使用汀類藥物與中老年婦女罹患小葉癌存在一定的關(guān)聯(lián)。Lall RR[7]等收集了SEER數(shù)據(jù)庫1973-2008年間的相關(guān)數(shù)據(jù)并進(jìn)行相關(guān)研究,研究發(fā)現(xiàn),原發(fā)性惡性脊髓星形細(xì)胞瘤的成年患者較為罕見,患有膠質(zhì)母細(xì)胞瘤且未實(shí)施過完全切除手術(shù)的女性患者較其對照組而言死亡率顯著升高。
此外,SEER數(shù)據(jù)庫能為罕見腫瘤的研究提供足夠的數(shù)據(jù)支撐。Maysa[8]等收集了SEER數(shù)據(jù)庫1973~2005年間罕見的松果體瘤633例,通過研究其發(fā)病率、生存率及預(yù)后因素、治療方案等數(shù)據(jù)得出結(jié)論:可根據(jù)松果體瘤的臨床特征及預(yù)后來鑒別其組織類型。并分析了組織學(xué)類型、放療情況及手術(shù)切除程度對其生存期的影響[3]。
(2)國內(nèi)文獻(xiàn)
顧偉杰等[9]收集了SEER數(shù)據(jù)庫2004~2009年間臨床期分級為T1G1、T1G2、T1G3且原發(fā)腫瘤切除術(shù)后診斷為陰莖鱗狀細(xì)胞癌的患者614例。根據(jù)病變具體情況,探討哪些患者需要進(jìn)行積極的淋巴結(jié)治療。任重陽[10]收集了SEER數(shù)據(jù)庫2004~2009年間接受了曲妥珠單抗治療的≥66歲的Ⅰ~Ⅲ期乳腺癌患者的資料,探討了年齡和并發(fā)癥與是否完成曲妥珠單抗治療的關(guān)系,并發(fā)現(xiàn)未完成治療患者的心臟事件發(fā)生比例顯著更高。藏丹丹等[11]收集了SEER數(shù)據(jù)庫2002~2005年間美國乳腺癌診斷年齡,并與中國西部某地區(qū)的乳腺癌診斷年齡相比較,發(fā)現(xiàn)中國乳腺癌患者的診斷年齡較美國年輕,乳腺癌診斷平均年齡和高峰年齡段明顯提前,年輕型乳腺癌所占比例明顯增高。葉定偉等[12]收集了SEER數(shù)據(jù)庫1975~2003年間前列腺癌的發(fā)病情況,發(fā)現(xiàn)2000~2003年間美國男性前列腺癌的發(fā)病率為170.3/10萬,且雄激素依賴性前列腺癌占所有前列腺癌的83.7%,發(fā)病率隨年齡增長而逐漸增加。
4.1SEER的貢獻(xiàn)及尚存不足
(1)作為現(xiàn)階段美國大型腫瘤登記數(shù)據(jù)庫之一,SEER收集了大量循證醫(yī)學(xué)的相關(guān)數(shù)據(jù),詳細(xì)記錄了就診者的基本情況、原發(fā)病灶部位、腫瘤尺寸、治療方案、隨訪情況及死亡原因等信息,為臨床醫(yī)師的循證實(shí)踐及臨床醫(yī)學(xué)研究提供了系統(tǒng)的證據(jù)支持和寶貴的第一手資料,為降低全美及全世界的腫瘤發(fā)病率、提升人口生活質(zhì)量做出了積極貢獻(xiàn)。
(2)SEER也存在一些不足之處,主要體現(xiàn)在[2]:
①沒有關(guān)于家族史、既往史、并發(fā)癥及手術(shù)切緣狀況、病理學(xué)資料的記載,沒有局部復(fù)發(fā)情況的記錄。
②在治療方面的記錄不完全.除了有手術(shù)及放療的記錄外,無輔助治療、內(nèi)分泌治療、化療、生物治療等記錄,缺少第一療程的后續(xù)治療相關(guān)記載。
③沒有記載乳酸脫氫酶、淋巴結(jié)轉(zhuǎn)移數(shù)目、全身疾病、血紅蛋白水平等重要的預(yù)后因素。
4.2展望
人類已進(jìn)入大數(shù)據(jù)時代。大數(shù)據(jù)科學(xué)正逐漸成為橫跨信息科學(xué)、社會科學(xué)、網(wǎng)絡(luò)科學(xué)、系統(tǒng)科學(xué)、生物醫(yī)學(xué)、心理學(xué)以及經(jīng)濟(jì)學(xué)等諸多領(lǐng)域的新興交叉學(xué)科方向,并已成為科學(xué)研究熱點(diǎn)[13]。
(1)我國目前處在醫(yī)療流程信息化管理和質(zhì)量控制的初級階段,尚未開展面向醫(yī)學(xué)大數(shù)據(jù)的系統(tǒng)研究。大數(shù)據(jù)時代的到來,既對臨床醫(yī)生、醫(yī)學(xué)研究人員、醫(yī)療監(jiān)管機(jī)構(gòu)等提出了巨大的挑戰(zhàn),也為生物醫(yī)學(xué)研究帶來了前所未有的機(jī)遇。如何有效地利用這些信息,并最大程度地減少倫理道德等相關(guān)問題對個人和公眾造成的困擾,是亟待解決的重要課題。
(2)開展實(shí)時的健康管理,即通過可穿戴設(shè)備對個體體征數(shù)據(jù)(心率、脈率、呼吸頻率、體溫、熱消耗量、血壓、
血糖、血氧、體脂含量等)的實(shí)時、連續(xù)監(jiān)測,提供實(shí)時健康指導(dǎo)與建議,更好地實(shí)施健康管理。
(3)實(shí)施更強(qiáng)大的數(shù)據(jù)挖掘。數(shù)據(jù)挖掘包括關(guān)聯(lián)分析、聚類分析、分類分析、異常分析等,大數(shù)據(jù)挖掘可增加把握度以及具備發(fā)現(xiàn)弱關(guān)聯(lián)的能力。
(4)醫(yī)學(xué)科學(xué)證據(jù)的整合、轉(zhuǎn)化和循證醫(yī)學(xué)證據(jù)的產(chǎn)生。生物醫(yī)學(xué)大數(shù)據(jù)有助于產(chǎn)生循證科學(xué)證據(jù),例如通過數(shù)據(jù)對海量健康數(shù)據(jù)進(jìn)行整合,進(jìn)而獲得更加可靠的證據(jù);或通過收集網(wǎng)絡(luò)實(shí)時數(shù)據(jù),開展“虛擬的臨床試驗(yàn)”生產(chǎn)證據(jù)等。
(5)以大數(shù)據(jù)為導(dǎo)向的人群隊(duì)列研究將成為熱點(diǎn)。超大規(guī)模隊(duì)列研究具有大樣本(數(shù)十萬人群)、前瞻性(數(shù)十年的長期隨訪)、多學(xué)科、多病種、多因素、整合性、共享性等特點(diǎn),長期大量的隨訪可產(chǎn)生大量的人群數(shù)據(jù)。
參考文獻(xiàn)
[1] http://www.moh.gov.cn/guihuaxxs/s10742/201405/886f8 2dafa344c3097f1d16581a1bea2.shtml#
[2] 楊喬,張俊萍. 腫瘤登記數(shù)據(jù)庫的臨床應(yīng)用[J]. 循證醫(yī)學(xué). 2013,13(4):250-251,256.
[3] 楊玲. 國際與國內(nèi)腫瘤登記概況[J].中國腫瘤.2005,14 (12):772-775.
[4] http://seer.cancer.gov/resources/
[5] Kooby DA, Gillespie TW, Liu Y, Byrd-Sellers J, Landry J, Bian J, Lipscomb J. Impact of adjuvant radiotherapy on survival after pancreatic cancer resection: an appraisal of data from the national cancer data base[J]. Ann SurgOncol 2013 Oct;20(11):3634-42.
[6] McDougall JA, Malone KE, Daling JR, Cushing-Haugen KL, Porter PL, Li CI. Long-Term Statin Use and Risk of Ductal and Lobular Breast Cancer among Women 55 to 74 Years of Age[J].Cancer Epidemiol Biomarkers Prev 2013 Sep;22(9):1529-37. PMCID: PMC3770184.
[7] Lall RR, Wong A, Dahdaleh NS, Fessler RG, Smith ZA, Lam S. 104 Risk factors and long-term survival in adult patients with primary malignant spinal cord astrocytomas[J]. Neurosurgery Aug 2013;60Suppl 1:154.
[8] Maysa AH,Iyad S,Amar JG,et a1.Pineal gland -tumers:Experience from the SEER database[J].J Neuro -oncol,2009,94(3):351-358.
[9] 顧偉杰,朱耀等. T1期陰莖鱗狀細(xì)胞癌競爭生存分析[J].中國男科學(xué)雜志,2014,28(1):9-17.
[10] 任重陽. 老年早期乳腺癌輔助曲妥珠單抗的持續(xù)時間和心臟事件[J]. 臨床腫瘤學(xué)雜志,2014,32(9):927-934.
[11] 藏丹丹,崔穎等.中國西部地區(qū)乳腺癌診斷年齡的抽樣分析及中美對比研究[J]. 現(xiàn)代腫瘤醫(yī)學(xué),2010,18(3):571-573.
[12] 葉定偉,李長嶺,前列腺癌發(fā)病趨勢的回顧和展望[J].中國癌癥雜志.2007.17:177-180.
[13] 王波,呂筠,李立明.生物醫(yī)學(xué)大數(shù)據(jù):現(xiàn)狀與展望[J].中華流行病學(xué)雜志,2014,35(6):617-619.
收稿日期:(2015.10.11)
作者簡介:章鳴嬛(1980-),女,安徽,上海杉達(dá)學(xué)院,副教授,博士生,研究方向:計(jì)算機(jī)應(yīng)用,上海,201209
基金項(xiàng)目:2012年上海市民辦高校重大科研項(xiàng)目(2012-SHHGE-01ZD);2015年IBM大學(xué)合作部聯(lián)合研究項(xiàng)目(D-2111-15-001)
文章編號:1007-757X(2015)12-0026-03
中圖分類號:R195
文獻(xiàn)標(biāo)志碼:A