亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CT影像特征的非小細(xì)胞肺癌復(fù)發(fā)相關(guān)性因素研究

        2020-09-07 09:40:02
        中國(guó)癌癥雜志 2020年8期
        關(guān)鍵詞:分類器分類樣本

        復(fù)旦大學(xué)附屬腫瘤醫(yī)院放療科,復(fù)旦大學(xué)上海醫(yī)學(xué)院腫瘤學(xué)系,上海200032

        在過去50年中,肺癌是全球發(fā)病率和死亡率增長(zhǎng)最快的惡性腫瘤,并穩(wěn)居中國(guó)惡性腫瘤之首。其中,非小細(xì)胞肺癌(non-small cell lung cancer,NSCLC)占肺癌患病總?cè)藬?shù)的80%~85%[1-2]。隨著科技的進(jìn)步和醫(yī)療的發(fā)展,NSCLC患者的存活狀況得到了一定程度的改善,但絕大多數(shù)患者初診時(shí)已屬Ⅲ~Ⅳ期,所以其5年生存率只有15%[3]。NSCLC的一個(gè)顯著的生物學(xué)特征是復(fù)發(fā)。約50%的NSCLC患者在術(shù)后5年內(nèi)發(fā)生腫瘤的復(fù)發(fā),其中大部分在2年內(nèi)發(fā)生。由此可知,腫瘤復(fù)發(fā)是影響NSCLC患者預(yù)后的重要因素之一。因此,對(duì)影響腫瘤復(fù)發(fā)的因素進(jìn)行探究在臨床上具有重要的指導(dǎo)意義。

        在現(xiàn)有的研究中,少有文獻(xiàn)表明在統(tǒng)計(jì)學(xué)分析得到相關(guān)性因素后會(huì)補(bǔ)充分類實(shí)驗(yàn)對(duì)結(jié)果進(jìn)行驗(yàn)證。故本文在提取圖像特征基礎(chǔ)上,采用嚴(yán)謹(jǐn)?shù)慕y(tǒng)計(jì)學(xué)分析方法得到NSCLC復(fù)發(fā)的相關(guān)性因素,進(jìn)而訓(xùn)練分類器對(duì)統(tǒng)計(jì)學(xué)分析實(shí)驗(yàn)結(jié)果進(jìn)行驗(yàn)證。

        1 材料和方法

        1.1 實(shí)驗(yàn)材料

        本研究所用數(shù)據(jù)均來自癌癥影像檔案(The Cancer Imaging Archive,TCIA)公共訪問中的NSCLC Radiogenomics數(shù)據(jù)庫(kù)[4]。本實(shí)驗(yàn)使用數(shù)據(jù)庫(kù)中157例NSCLC患者的臨床數(shù)據(jù)、治療前的CT圖像數(shù)據(jù)以及治療后患者的復(fù)發(fā)情況等。其中,男性95例,女性62例;肺腺癌136例,肺鱗癌21例;復(fù)發(fā)患者30例,非復(fù)發(fā)患者127例。圖像數(shù)據(jù)包括157組CT序列圖像,每幅圖像的大小為512像素×512像素。實(shí)驗(yàn)平臺(tái)為64位Window 10操作系統(tǒng),i7-4770-3.4 GHz CPU,16 GB內(nèi)存;使用的專業(yè)軟件是Matlab 2015a、SPSS 22.0以及Weka 3.8。

        1.2 方法

        首先,使用區(qū)域生長(zhǎng)法、數(shù)學(xué)形態(tài)學(xué)方法以及數(shù)據(jù)庫(kù)中提供的圖像數(shù)據(jù)提取患者圖像的感興趣區(qū)(region of interest,ROI)。然后,提取ROI的直方圖統(tǒng)計(jì)特征、形態(tài)學(xué)特征和紋理特征。接著,特征數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)分析得到NSCLC復(fù)發(fā)的顯著性相關(guān)因素。最后,使用合成少數(shù)過采樣技術(shù)(Synthetic Minority Over-sampling Technique,SMOTE)算法對(duì)數(shù)據(jù)進(jìn)行平衡化處理,進(jìn)而訓(xùn)練分類器對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行驗(yàn)證。實(shí)驗(yàn)方法流程圖見圖1。

        圖1 方法流程圖Fig.1 Method flow chart

        1.2.1 特征提取

        根據(jù)圖像特征定義及計(jì)算公式提取圖像特征,其中包括直方圖統(tǒng)計(jì)特征、形態(tài)學(xué)特征和紋理特征。本文提取上述3類特征共計(jì)65種,具體特征如下所示:

        直方圖統(tǒng)計(jì)特征:Mean、Variance、Skewness、Kurtosis、Energy、Entropy。形態(tài)學(xué)特征:面積、離心率、緊湊度、矩形度、徑向均值,徑向方差等。紋理特征:GLCM紋理特征、NGTDM紋理特征、差分統(tǒng)計(jì)紋理特征、小波紋理特征等。

        1.2.2 統(tǒng)計(jì)學(xué)處理

        本文采用SPSS 22.0中的獨(dú)立樣本t檢驗(yàn)和logistic回歸模型對(duì)特征數(shù)據(jù)進(jìn)行分析。在獨(dú)立樣本t檢驗(yàn)中,將所有特征數(shù)據(jù)作為輸入變量進(jìn)行單因素分析,得到每種特征和患者復(fù)發(fā)情況的相關(guān)性。在得到單因素分析結(jié)果后,將與復(fù)發(fā)情況相關(guān)(P<0.05)的特征數(shù)據(jù)作為logistic回歸分析的輸入?yún)f(xié)變量輸入到分析模型中,進(jìn)而得到與患者復(fù)發(fā)顯著相關(guān)(P<0.05)的特征變量。

        1.2.3 建立分類器

        實(shí)驗(yàn)中包括復(fù)發(fā)組患者30例,非復(fù)發(fā)組患者127例。若用此不平衡數(shù)據(jù)來訓(xùn)練分類器,得到的分類器健壯性不高,泛化性不強(qiáng),分類結(jié)果也不準(zhǔn)確。所以需要對(duì)特征數(shù)據(jù)進(jìn)行平衡化處理。經(jīng)過分析后,本文選用SMOTE算法對(duì)數(shù)據(jù)進(jìn)行平衡處理。SMOTE算法是由Chawla等[5]提出的一種利用原始樣本合成少數(shù)類樣本的過采樣方法。具體算法流程如下:

        ①求出少數(shù)類樣本中每個(gè)樣本的K個(gè)最鄰近樣本;

        ② 根據(jù)不同類樣本數(shù)量,確定采樣倍率N;

        ③隨機(jī)從少數(shù)類樣本中選擇N個(gè)樣本作為父代樣本(可重復(fù)選?。?/p>

        ④ 在每個(gè)父代樣本和某一最鄰近樣本中進(jìn)行插值,生成新的子代樣本。

        數(shù)據(jù)平衡化處理后,采用Z-Score標(biāo)準(zhǔn)化方法對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,該方法根據(jù)原始數(shù)據(jù)的標(biāo)準(zhǔn)差和平均值進(jìn)行標(biāo)準(zhǔn)化,經(jīng)過標(biāo)準(zhǔn)化后的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,具體公式如式(1.1)所示(μ為數(shù)據(jù)組的平均值,σ為數(shù)據(jù)組的標(biāo)準(zhǔn)差):

        本實(shí)驗(yàn)使用隨機(jī)森林法、K最鄰近算法、支持向量機(jī)以及決策樹方法訓(xùn)練分類器對(duì)數(shù)據(jù)進(jìn)行分類實(shí)驗(yàn)。除此之外,為了充分利用有限的數(shù)據(jù),本實(shí)驗(yàn)使用留一交叉驗(yàn)證的方式進(jìn)行分類實(shí)驗(yàn)。雖然該方法計(jì)算量較大,但是數(shù)據(jù)利用率高,更適合小樣本數(shù)據(jù)的分類實(shí)驗(yàn)。

        2 結(jié)果

        2.1 獨(dú)立樣本t檢驗(yàn)

        根據(jù)患者在隨訪期間是否發(fā)生復(fù)發(fā)將其分為兩組(復(fù)發(fā)組30例,非復(fù)發(fā)組127例)。將65種特征數(shù)據(jù)和患者復(fù)發(fā)情況分別作為檢驗(yàn)變量和分組變量輸入到獨(dú)立樣本t檢驗(yàn)?zāi)P椭?,?jīng)分析后發(fā)現(xiàn),Variance、Energy、Relative message、和熵以及Coarseness與患者的復(fù)發(fā)情況相關(guān)(P<0.05,表1)。

        表1 獨(dú)立樣本t檢驗(yàn)分析結(jié)果Tab.1 The results of independent sample t-test

        2.2 Logistic回歸分析

        將表2.1中的5種特征數(shù)據(jù)作為輸入?yún)f(xié)變量輸入到logistic回歸分析模型中,同時(shí)將患者復(fù)發(fā)情況數(shù)據(jù)作為分組變量輸入。分析后發(fā)現(xiàn),和熵以及Energy兩個(gè)特征與NSCLC患者復(fù)發(fā)情況顯著相關(guān)(P<0.05,表2)。

        表2 Logistic回歸分析結(jié)果Tab.2 The results of logistic regression analysis

        2.3 分類器檢測(cè)

        將SMOTE中的采樣倍率N分別設(shè)置為0、2、3和4對(duì)數(shù)據(jù)進(jìn)行平衡化操作,以便分析不同采樣倍率對(duì)分類結(jié)果的影響。采用四種不同分類算法和留一交叉驗(yàn)證的方法訓(xùn)練分類器進(jìn)行分類實(shí)驗(yàn),我們將根據(jù)準(zhǔn)確率、靈敏度、特異度和曲線下面積(area under curve,AUC)這4個(gè)指標(biāo)來評(píng)判分類結(jié)果的質(zhì)量,具體結(jié)果見表3~6。

        表3 隨機(jī)森林分類結(jié)果Tab.3 The results of random forest classification

        表4 KNN分類結(jié)果Tab.4 The results of KNN classification

        表5 SVM分類結(jié)果Tab.5 The results of SVM classification

        表6 決策樹分類結(jié)果Tab.6 The results of decision-tree classification

        3 討 論

        目前針對(duì)NSCLC復(fù)發(fā)相關(guān)因素的研究,主要從以下四個(gè)方面開展,即臨床病理學(xué)特征、腫瘤血液標(biāo)志物、特殊基因及圖像特征。Park等[6]通過對(duì)171例NSCLC患者的臨床病理學(xué)特征和復(fù)發(fā)情況進(jìn)行單、多因素分析后發(fā)現(xiàn),T分期、N分期、病理學(xué)分期及淋巴管浸潤(rùn)是患者術(shù)后復(fù)發(fā)的獨(dú)立危險(xiǎn)因素(P<0.05)。McFarlane等[7]結(jié)合t檢驗(yàn)、Kaplan-Meier生存分析及COX回歸模型對(duì)影響NSCLC患者復(fù)發(fā)因素進(jìn)行研究后發(fā)現(xiàn),去泛素化酶-USP 17是患者復(fù)發(fā)的獨(dú)立危險(xiǎn)因素。Perumal等[8]通過log-rank檢驗(yàn)和Kaplan-Meier檢驗(yàn)對(duì)NSCLC患者的基因信息進(jìn)行分析發(fā)現(xiàn),染色體縮聚相關(guān)的基因與患者的不良預(yù)后及復(fù)發(fā)情況顯著相關(guān)。Ko等[9]提取并分析145例患者的18F-FDG PET及CT圖像形態(tài)學(xué)特征后發(fā)現(xiàn),這兩類特征在早期NSCLC患者的復(fù)發(fā)情況預(yù)測(cè)方面可以起到關(guān)鍵作用。同時(shí),部分結(jié)論也在Pyka等[10]的工作中得到驗(yàn)證。

        直方圖統(tǒng)計(jì)特征是根據(jù)ROI區(qū)域的灰度分布直方圖提取的一系列特征,與非小細(xì)胞肺癌的預(yù)后有密切的聯(lián)系[11]。形態(tài)特征是一類較為直觀的特征。在臨床方面,醫(yī)師常根據(jù)腫瘤的分葉征、毛刺征、空洞征等形態(tài)學(xué)征象對(duì)患者的預(yù)后情況進(jìn)行判斷。同時(shí),Ko等[9]的研究也證明了形態(tài)特征與NSCLC患者的復(fù)發(fā)預(yù)后具有較強(qiáng)的相關(guān)性。紋理特征包括物體表面的性質(zhì)和結(jié)構(gòu),也在一定程度上反映物質(zhì)與周圍環(huán)境的關(guān)系[12]。有研究亦表明紋理特征與NSCLC患者的術(shù)后復(fù)發(fā)情況及存活時(shí)間等預(yù)后信息具有較強(qiáng)相關(guān)性[10]。

        本文基于NSCLC患者的CT圖像特征設(shè)置回顧性分析實(shí)驗(yàn)來研究患者復(fù)發(fā)的顯著性相關(guān)因素,并用其訓(xùn)練分類器對(duì)患者的復(fù)發(fā)情況進(jìn)行預(yù)測(cè)來驗(yàn)證實(shí)驗(yàn)結(jié)果的正確性。本研究有如下創(chuàng)新點(diǎn)。首先,本研究提取了可量化的CT圖像特征作為研究對(duì)象,量化的圖像特征可以更加精準(zhǔn)有效地反映圖像特性。將這些量化特征輸入到統(tǒng)計(jì)學(xué)分析模型中,可以分析得到更加準(zhǔn)確的相關(guān)性因素。其次,可量化的圖像特征同樣有利于分類器的訓(xùn)練和預(yù)測(cè)分類。通過獨(dú)立樣本t檢驗(yàn)發(fā)現(xiàn),Variance、Energy、Relative message、和熵及Coarseness與NSCLC患者的復(fù)發(fā)情況有關(guān)。同時(shí),經(jīng)logistic回歸分析后發(fā)現(xiàn),和熵及Energy與患者的復(fù)發(fā)情況顯著相關(guān)。

        其次,本實(shí)驗(yàn)設(shè)置了分類器檢測(cè)實(shí)驗(yàn)對(duì)統(tǒng)計(jì)學(xué)分析結(jié)果的可靠性進(jìn)行驗(yàn)證。從分類器的分類結(jié)果來看,我們可以根據(jù)4個(gè)參考量的值來判斷分類結(jié)果的質(zhì)量,分別是準(zhǔn)確率,靈敏度,特異性和AUC,其中最高的準(zhǔn)確率為82.7%,最大AUC為0.891,說明通過統(tǒng)計(jì)學(xué)分析篩選出的顯著性相關(guān)因素可以較好地對(duì)患者復(fù)發(fā)情況進(jìn)行預(yù)測(cè)。

        除此之外,我們采用了SMOTE的數(shù)據(jù)處理方法解決了數(shù)據(jù)不平衡的問題,訓(xùn)練了更為準(zhǔn)確、穩(wěn)定的分類器。當(dāng)N=0時(shí),分類結(jié)果具有較高準(zhǔn)確率;但分類結(jié)果的特異性和AUC最大僅有0.133和0.581,這表明當(dāng)N=0時(shí),分類器的分類結(jié)果并無實(shí)際意義。另外,表中數(shù)據(jù)顯示,當(dāng)N=2、3或4時(shí),分類器的分類結(jié)果會(huì)更加精準(zhǔn)。其中,隨機(jī)森林算法和K最鄰近算法(K-nearest neighbor,KNN)算法分類結(jié)果顯示,當(dāng)N=4時(shí),分類器具有更好的分類結(jié)果,分類準(zhǔn)確率為81.6%和82.7%;支持向量機(jī)(support vector machine,SVM)算法和決策樹算法分類結(jié)果顯示,當(dāng)N=3時(shí),分類器具有更好的分類結(jié)果,分類準(zhǔn)確率為62.8%和76.5%。將4組分類結(jié)果進(jìn)行對(duì)比可以發(fā)現(xiàn),隨機(jī)森林算法、KNN算法、決策樹算法建立的分類模型較SVM算法分類模型具有更好的分類效果,分類更為精準(zhǔn),結(jié)果更加穩(wěn)定。綜合來看,隨機(jī)森林算法建立的分類模型具有最好的分類效果。

        最后,為了高效地利用有限的數(shù)據(jù),本實(shí)驗(yàn)采用留一交叉驗(yàn)證的方法完成分類實(shí)驗(yàn)。通過該方法,幾乎所有的實(shí)驗(yàn)數(shù)據(jù)都用來訓(xùn)練分類器,同時(shí)在實(shí)驗(yàn)過程中不存在隨機(jī)因素。因此,該方法能訓(xùn)練出更合適的分類器進(jìn)而得到更為準(zhǔn)確的實(shí)驗(yàn)結(jié)果。

        雖然得到了較好的實(shí)驗(yàn)結(jié)果,但本研究依然存在一些不足。首先,本文為回顧性研究,僅使用了157例患者的臨床及影像學(xué)數(shù)據(jù),所以實(shí)驗(yàn)結(jié)果的健壯性及穩(wěn)定性需要更多的回顧性及前瞻性研究來驗(yàn)證。其次,本研究使用的實(shí)驗(yàn)數(shù)據(jù)來自TCIA公共數(shù)據(jù)集,實(shí)驗(yàn)數(shù)據(jù)并沒有包含當(dāng)?shù)蒯t(yī)院的實(shí)驗(yàn)數(shù)據(jù)。在獲取了醫(yī)院的相關(guān)數(shù)據(jù)后,可以在下階段實(shí)驗(yàn)中將患者的血液標(biāo)志物和基因信息等因素和CT圖像特征相結(jié)合進(jìn)行更深層次的研究。除此之外,雖然我們提取了65種圖像特征,囊括了圖像的三類特征,但是特征的總量依然有待提高。最后,本研究只是一個(gè)技術(shù)發(fā)展性研究,其具體臨床價(jià)值以及如何輔助臨床醫(yī)師作出準(zhǔn)確的預(yù)后判斷還需要進(jìn)一步的實(shí)驗(yàn)證明。

        通過統(tǒng)計(jì)學(xué)分析和分類實(shí)驗(yàn)的驗(yàn)證,Energy及和熵兩種圖像特征與NSCLC患者的復(fù)發(fā)情況顯著相關(guān)。

        猜你喜歡
        分類器分類樣本
        分類算一算
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        分類討論求坐標(biāo)
        推動(dòng)醫(yī)改的“直銷樣本”
        數(shù)據(jù)分析中的分類討論
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        教你一招:數(shù)的分類
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        91九色国产在线观看| 西西大胆午夜人体视频| 在线观看免费人成视频| 青青草国产成人99久久| 爆乳午夜福利视频精品| 国产av熟女一区二区三区蜜臀| 久久精品国产亚洲av久按摩| 女人18毛片a级毛片| 亚洲国产精品久久久久婷婷老年| 91久久国产精品视频| 抖射在线免费观看视频网站| 中文字日产幕码三区做法| 丰满人妻熟妇乱又仑精品| 无码任你躁久久久久久久| 人人妻人人澡人人爽人人精品电影 | 国产成人精品中文字幕| 日本最新一区二区三区在线| 久久午夜羞羞影院免费观看| 久久老子午夜精品无码怎么打| 亚洲av影院一区二区三区四区| 一区二区免费国产a在亚洲 | 久久精品国产亚洲av高清热| 欧美真人性做爰一二区| 精品国产福利一区二区三区| 黄色潮片三级三级三级免费| 久久久久亚洲av无码专区首| 久久夜色精品国产欧美乱| 中文字幕一区二区三区在线不卡| 国产大学生自拍三级视频| 亚洲综合自拍偷拍一区| 99精品国产丝袜在线拍国语 | 亚州AV无码乱码精品国产| 亚洲中国美女精品久久久| 女人天堂av人禽交在线观看| 国产精品兄妹在线观看麻豆| 久久久精品人妻一区亚美研究所| 亚洲国产一区二区三区视频在线| 熟女人妻在线中文字幕| 插我一区二区在线观看| 亚洲级αv无码毛片久久精品| 日韩有码中文字幕第一页|