亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于GMM-RBF神經(jīng)網(wǎng)絡(luò)的前列腺癌診斷方法

        2018-03-22 01:02:50崔少澤王杜娟王蘇桐夏江南王延章JINYaochu
        管理科學(xué) 2018年1期
        關(guān)鍵詞:前列腺癌徑向前列腺

        崔少澤,王杜娟,王蘇桐,夏江南,王延章,JIN Yaochu,2

        1 大連理工大學(xué) 管理與經(jīng)濟(jì)學(xué)部,遼寧 大連 116023 2 英國(guó)薩里大學(xué) 計(jì)算機(jī)系,吉爾福德 薩里 GU2 7XH

        引言

        在現(xiàn)代社會(huì)中,前列腺癌已經(jīng)成為致死率極高的疾病。2008年世界衛(wèi)生組織統(tǒng)計(jì)全年前列腺癌病例超過(guò)90萬(wàn)人,其中約有26萬(wàn)的男性患者最終死亡[1]。JEMAL et al.[2]在2011年做的一項(xiàng)全球癌癥統(tǒng)計(jì)研究中表明,前列腺癌的發(fā)病率在男性癌癥中排第2位。在中國(guó)前列腺癌的發(fā)病率也在逐年上升,從2000年的第10位升至2011年的第6位,成為上升速度最快的男性癌癥類型[3]。

        在臨床上,前列腺癌需要經(jīng)過(guò)穿刺活檢才能夠進(jìn)行確診,但由于穿刺活檢會(huì)對(duì)患者的身體造成損傷,且通常情況下進(jìn)行穿刺活檢的患者有近50%左右檢查結(jié)果為陰性,即該病人未患前列腺癌[4]。在實(shí)際醫(yī)療診斷中,為降低上述過(guò)程對(duì)未患癌患者造成的損傷,醫(yī)生會(huì)在穿刺活檢之前,通過(guò)直腸超聲檢查、直腸指診和觀察血液中前列腺特異抗原濃度進(jìn)行初步判斷,確定是否需要為患者安排穿刺活性檢查。這些檢查中前列腺特異抗原濃度是進(jìn)行前列腺癌初步診斷的重要指標(biāo),臨床上認(rèn)為前列腺特異抗原濃度在4ng/ml以下為正常水平,前列腺特異抗原的濃度越高,患者患有前列腺癌的風(fēng)險(xiǎn)越大[5]。然而,由于其他前列腺疾病也可能引起前列腺特異抗原水平的升高,所以不能單純依據(jù)前列腺特異抗原水平對(duì)患者進(jìn)行確診。

        隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)驅(qū)動(dòng)的電子健康服務(wù)管理研究成為新的熱門(mén)領(lǐng)域[6-7]。由于之前電子健康數(shù)據(jù)不完善,樣本有限,所以醫(yī)院臨床上多采用傳統(tǒng)的統(tǒng)計(jì)學(xué)方法進(jìn)行實(shí)驗(yàn)分析,較少使用數(shù)據(jù)挖掘方法。隨著數(shù)據(jù)的增長(zhǎng)、數(shù)據(jù)存儲(chǔ)的規(guī)范化以及數(shù)據(jù)挖掘技術(shù)的發(fā)展,越來(lái)越多的數(shù)據(jù)挖掘方法在醫(yī)療領(lǐng)域中得到廣泛應(yīng)用,如決策樹(shù)[8-9]、支持向量機(jī)[10-11]和人工神經(jīng)網(wǎng)絡(luò)[12-13]等方法均有所使用。針對(duì)前列腺癌早期診斷這一問(wèn)題,本研究提出使用GMM-RBF神經(jīng)網(wǎng)絡(luò)方法對(duì)前列腺癌癥患者進(jìn)行診斷,該方法在使用徑向基函數(shù)(radial basis function,RBF)神經(jīng)網(wǎng)絡(luò)進(jìn)行前列腺癌診斷之前,使用高斯混合模型(Gaussian mixture model,GMM)對(duì)徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的徑向基函數(shù)初始參數(shù)進(jìn)行預(yù)訓(xùn)練,用優(yōu)化后的參數(shù)代替隨機(jī)初始化參數(shù),從而減少模型訓(xùn)練時(shí)陷入局部最優(yōu)的可能性,并使用改進(jìn)的粒子群優(yōu)化(particle swarm optimization,PSO)算法對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。通過(guò)與其他幾種流行算法在實(shí)際數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比,發(fā)現(xiàn)本研究模型在前列腺癌診斷中具有更高的準(zhǔn)確性。

        1 相關(guān)研究評(píng)述

        本研究提出使用高斯混合模型對(duì)徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練的方法進(jìn)行前列腺癌診斷的預(yù)測(cè),下面從前列腺癌診斷方法研究和神經(jīng)網(wǎng)絡(luò)的改進(jìn)研究?jī)蓚€(gè)方面介紹該領(lǐng)域的相關(guān)工作。

        1.1 前列腺癌診斷方法

        前列腺癌是男性泌尿系統(tǒng)常見(jiàn)的惡性腫瘤,近年來(lái)其發(fā)病率呈現(xiàn)逐年上升趨勢(shì)[3]。已有研究表明,直腸指檢、前列腺特異抗原指標(biāo)、經(jīng)直腸超聲、核磁共振成像(MRI)和前列腺穿刺活檢等技術(shù)提高了前列腺癌的早期發(fā)現(xiàn)比例,但仍然有10%~15%的前列腺癌被漏診[14]。雖然前列腺特異抗原可以作為前列腺癌特異性腫瘤標(biāo)志物,但也有局限性[15-17]。有研究表明,血清總前列腺特異抗原(tPSA)和前列腺特異抗原密度(PSAD)對(duì)前列腺癌有較高的診斷價(jià)值[18],但只依據(jù)前列腺特異抗原濃度并不能對(duì)前列腺癌進(jìn)行準(zhǔn)確診斷,需要結(jié)合與診斷結(jié)果有關(guān)的多種特征來(lái)提高診斷的準(zhǔn)確性。

        在前列腺癌的初步診斷階段,運(yùn)用機(jī)器學(xué)習(xí)方法構(gòu)建的診斷模型為醫(yī)療工作者對(duì)患者是否進(jìn)行穿刺活檢操作提供了有效的決策輔助和方法支持。機(jī)器學(xué)習(xí)技術(shù)能夠結(jié)合多種數(shù)據(jù)特征,利用歷史數(shù)據(jù)訓(xùn)練出反映前列腺癌診斷過(guò)程的模型,為提高前列腺癌診斷的準(zhǔn)確性提供幫助。LEE et al.[19]針對(duì)前列腺癌的診斷問(wèn)題,使用邏輯回歸(logistic regression,LR)算法,利用病人的年齡、前列腺特異抗原、直腸指診和超聲檢查這些特征對(duì)前列腺癌診斷結(jié)果進(jìn)行預(yù)測(cè);FINNE et al.[20]使用邏輯回歸方法,對(duì)1 775名年齡在55歲~67歲的男性患者接受前列腺癌診斷的結(jié)果進(jìn)行預(yù)測(cè),實(shí)驗(yàn)結(jié)果表明,相對(duì)于采用單一特征的模型,采用多種特征的分類模型具有更高的準(zhǔn)確性,能夠減少未患病者接受穿刺活檢的概率;BERMEJO et al.[21]研究前列腺癌和良性前列腺增生的診斷問(wèn)題,采用決策樹(shù)和邏輯回歸算法,利用病人的年齡、前列腺特異抗原和直腸指診3個(gè)指標(biāo)構(gòu)建診斷模型,實(shí)現(xiàn)了對(duì)這兩種疾病的有效識(shí)別。

        但是上述方法仍難以描述多個(gè)輸入特征與輸出結(jié)果之間復(fù)雜的非線性關(guān)系,且存在實(shí)際使用中診斷準(zhǔn)確性較低的問(wèn)題,因此需要使用準(zhǔn)確性更高的分類方法進(jìn)行前列腺癌的診斷。

        1.2 神經(jīng)網(wǎng)絡(luò)的改進(jìn)

        在眾多的機(jī)器學(xué)習(xí)分類方法中,人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)能夠結(jié)合多種特征,并對(duì)輸入數(shù)據(jù)與輸出結(jié)果之間復(fù)雜的非線性關(guān)系進(jìn)行準(zhǔn)確描述,該方法在前列腺癌診斷領(lǐng)域受到關(guān)注[22]。SNOW et al.[23]針對(duì)病人的穿刺活檢結(jié)果預(yù)測(cè)問(wèn)題,使用人工神經(jīng)網(wǎng)絡(luò)方法進(jìn)行前列腺癌診斷結(jié)果的預(yù)測(cè),實(shí)驗(yàn)結(jié)果顯示該方法的準(zhǔn)確率達(dá)到87%;BABAIAN et al.[24]使用人工神經(jīng)網(wǎng)絡(luò)方法對(duì)151位接受穿刺活檢病人的檢查數(shù)據(jù)進(jìn)行訓(xùn)練,得到的模型在診斷準(zhǔn)確性上高于僅使用游離前列腺特異抗原濃度進(jìn)行前列腺癌診斷的方法;STEPHAN et al.[25]為預(yù)測(cè)病人被診斷為前列腺癌的風(fēng)險(xiǎn),基于928位病人的前列腺特異抗原、游離前列腺特異抗原、年齡、前列腺體積和直腸指診數(shù)據(jù),使用人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練前列腺癌診斷模型,并利用該模型對(duì)1 188位病人的診斷結(jié)果進(jìn)行預(yù)測(cè),實(shí)驗(yàn)結(jié)果表明人工神經(jīng)網(wǎng)絡(luò)在前列腺癌診斷問(wèn)題上具有有效性。

        傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)使用Sigmoid函數(shù)作為隱含層的激活函數(shù),層與層之間的連接權(quán)重較多,所以存在訓(xùn)練時(shí)間長(zhǎng)、容易陷入局部極小的問(wèn)題。為克服傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)的不足,MOODY et al.[26]在1989年提出徑向基函數(shù)神經(jīng)網(wǎng)絡(luò),徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)使用徑向基函數(shù)作為隱含層激活函數(shù),能以任意精度逼近任意非線性關(guān)系,解決了傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)準(zhǔn)確率不足、容易陷入局部極小的問(wèn)題[27]。目前已有研究嘗試將徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)應(yīng)用于前列腺癌診斷問(wèn)題,MARN et al.[28]針對(duì)前列腺癌的診斷問(wèn)題,使用兩種類型的徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)方法對(duì)病人進(jìn)行分類,結(jié)果表明兩種類型的徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)準(zhǔn)確率均高于目前在醫(yī)療領(lǐng)域流行的多層感知器方法。然而WALLACE et al.[29]認(rèn)為對(duì)徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)模型初始參數(shù)進(jìn)行預(yù)訓(xùn)練可以提高模型的準(zhǔn)確性,提升網(wǎng)絡(luò)訓(xùn)練的收斂速度。

        徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)通常采用反向傳播算法(back propagation,BP)進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練[30]。然而反向傳播訓(xùn)練神經(jīng)網(wǎng)絡(luò)存在收斂速度較慢、可能陷入局部極小的問(wèn)題[31]。肖斌卿等[32]結(jié)合遺傳算法和反向傳播算法對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,取得了優(yōu)于反向傳播神經(jīng)網(wǎng)絡(luò)的擬合精度。由于遺傳算法存在搜索速度較慢的缺點(diǎn)[33],王亮等[34]使用粒子群優(yōu)化算法對(duì)反向傳播網(wǎng)絡(luò)的初始權(quán)重進(jìn)行優(yōu)化,對(duì)比反向傳播網(wǎng)絡(luò),PSO-BP模型取得了更高的預(yù)測(cè)精度。但是多維優(yōu)化背景下,標(biāo)準(zhǔn)粒子群優(yōu)化算法存在早熟、可能陷入局部最優(yōu)的問(wèn)題[33]。為克服這個(gè)缺陷,本研究提出一種帶隨機(jī)初始化策略的改進(jìn)粒子群優(yōu)化算法對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

        本研究針對(duì)提高前列腺癌初步診斷準(zhǔn)確性的問(wèn)題,提出GMM-RBF神經(jīng)網(wǎng)絡(luò)方法,采用高斯混合模型對(duì)輸入數(shù)據(jù)實(shí)例的特征進(jìn)行訓(xùn)練,將訓(xùn)練得到的高斯函數(shù)作為徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)隱含層節(jié)點(diǎn)中的初始基函數(shù),然后使用輸入數(shù)據(jù)實(shí)例訓(xùn)練徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)模型;針對(duì)反向傳播算法在徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過(guò)程中存在計(jì)算復(fù)雜、收斂速度較慢的問(wèn)題,采用改進(jìn)的粒子群優(yōu)化算法對(duì)徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)模型中的參數(shù)進(jìn)行訓(xùn)練,簡(jiǎn)化計(jì)算過(guò)程,提高模型訓(xùn)練效率;最后使用國(guó)家臨床醫(yī)學(xué)科學(xué)數(shù)據(jù)中心提供的前列腺疾病檢查數(shù)據(jù)進(jìn)行實(shí)驗(yàn),檢驗(yàn)提出的方法在前列腺癌實(shí)際診斷中的有效性。

        2 基于GMM-RBF神經(jīng)網(wǎng)絡(luò)的前列腺癌診斷

        為了能夠提高對(duì)前列腺癌患者診斷的準(zhǔn)確性,本研究在徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上提出一種徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的改進(jìn)算法——GMM-RBF神經(jīng)網(wǎng)絡(luò)。針對(duì)徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)模型中存在的隱含層徑向基函數(shù)初始參數(shù)設(shè)置問(wèn)題,本研究提出使用高斯混合模型對(duì)輸入數(shù)據(jù)進(jìn)行訓(xùn)練,從而確定徑向基函數(shù)的初始參數(shù)。徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)權(quán)重的訓(xùn)練也是關(guān)鍵環(huán)節(jié),為減少計(jì)算復(fù)雜度,加快訓(xùn)練的收斂速度,本研究使用改進(jìn)的粒子群優(yōu)化算法進(jìn)行權(quán)重訓(xùn)練,并且對(duì)隱含層徑向基函數(shù)的參數(shù)進(jìn)行編碼尋優(yōu),整體的GMM-RBF神經(jīng)網(wǎng)絡(luò)構(gòu)建流程見(jiàn)圖1。該方法主要由2個(gè)部分構(gòu)成,①定義徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),使用高斯混合模型對(duì)徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,得到初始的徑向基函數(shù);②隨機(jī)初始化GMM-RBF神經(jīng)網(wǎng)絡(luò)連接權(quán)重后,使用改進(jìn)的粒子群優(yōu)化算法進(jìn)行參數(shù)優(yōu)化,達(dá)到終止條件后輸出訓(xùn)練好的GMM-RBF神經(jīng)網(wǎng)絡(luò)模型。下面將對(duì)以上兩個(gè)部分進(jìn)行詳細(xì)介紹。

        2.1 GMM-RBF神經(jīng)網(wǎng)絡(luò)

        2.1.1 徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)

        傳統(tǒng)反向傳播神經(jīng)網(wǎng)絡(luò)中常常出現(xiàn)收斂過(guò)分依賴初值和局部收斂的問(wèn)題,針對(duì)此類問(wèn)題,MOODY et al.[26]在20世紀(jì)80年代末提出徑向基網(wǎng)絡(luò),它是以徑向基函數(shù)作為隱含層神經(jīng)元激活函數(shù)的3層前向型神經(jīng)網(wǎng)絡(luò),具有較快的運(yùn)算速度、較強(qiáng)的非線性映射能力和較好的預(yù)測(cè)能力。徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)具有3層結(jié)構(gòu),包括輸入層、隱含層和輸出層,網(wǎng)絡(luò)模型的拓?fù)浣Y(jié)構(gòu)見(jiàn)圖2。徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)包含D個(gè)輸入層節(jié)點(diǎn)、H個(gè)隱含層節(jié)點(diǎn)和1個(gè)輸出層節(jié)點(diǎn),輸入層節(jié)點(diǎn)xi對(duì)應(yīng)輸入數(shù)據(jù)實(shí)例的D維特征,i=1,2,…,D,在網(wǎng)絡(luò)中起到傳輸信號(hào)的作用,輸入層節(jié)點(diǎn)與隱含層節(jié)點(diǎn)之間可以看作連接權(quán)值uih為1的連接。隱含層節(jié)點(diǎn)φh的輸入數(shù)據(jù)為向量Yh,Yh=(y1h,y2h,…,yDh),h=1,2,…,H,yih通過(guò)(1)式計(jì)算得到,即

        注:實(shí)線箭頭表示模型的構(gòu)建過(guò)程,虛線箭頭表示數(shù)據(jù)樣本在對(duì)應(yīng)步驟中進(jìn)行使用。

        圖1GMM-RBF神經(jīng)網(wǎng)絡(luò)構(gòu)建過(guò)程
        Figure1ConstructionProcessforGMM-RBFNeuralNetwork

        圖2 徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Figure 2 Structure of RBF Neural Network

        yih=uihxi

        (1)

        隱含層的每一個(gè)節(jié)點(diǎn)都使用非線性函數(shù)φ(·)作為激活基函數(shù),對(duì)輸入數(shù)據(jù)進(jìn)行非線性變換。在眾多可選的徑向基函數(shù)中,高斯函數(shù)作為徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的激活函數(shù)常表現(xiàn)出很好的效果[35],高斯函數(shù)的表達(dá)式為

        (2)

        其中,φh為隱含層節(jié)點(diǎn)φh中的激活基函數(shù),φh的輸入向量為Yh,μh和σh為高斯函數(shù)φh中的參數(shù),·為兩個(gè)向量的歐氏距離。徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的輸出層對(duì)隱含層的輸出進(jìn)行加權(quán)匯總,作為輸出層節(jié)點(diǎn)的輸入值,即

        (3)

        其中,z為輸出層節(jié)點(diǎn)Σ匯總結(jié)果,wh為隱含層節(jié)點(diǎn)φh與輸出層節(jié)點(diǎn)間的權(quán)重,w0為偏倚權(quán)重。對(duì)于分類問(wèn)題,由于輸出為離散型數(shù)值,輸出節(jié)點(diǎn)通常采用Sigmoid函數(shù)作為激活函數(shù)將輸出值映射到(0,1)取值區(qū)間內(nèi),使輸出值代表取值為1的概率。因此徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)輸出層節(jié)點(diǎn)的輸出結(jié)果由z轉(zhuǎn)換為Out,即

        (4)

        由于隱含層節(jié)點(diǎn)激活函數(shù)的參數(shù)對(duì)徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)準(zhǔn)確性有很大影響,因此在訓(xùn)練之前得到較好的初始參數(shù)取值十分重要。為解決其初始參數(shù)的問(wèn)題并提高模型的準(zhǔn)確性,本研究采用高斯混合模型算法對(duì)輸入數(shù)據(jù)實(shí)例進(jìn)行預(yù)訓(xùn)練,以得到經(jīng)過(guò)高斯混合模型優(yōu)化的徑向基函數(shù)的初始參數(shù)取值。

        2.1.2 高斯混合模型

        在使用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)模型對(duì)輸入數(shù)據(jù)實(shí)例進(jìn)行分類之前,可以利用高斯混合模型對(duì)神經(jīng)網(wǎng)絡(luò)模型中的參數(shù)進(jìn)行預(yù)訓(xùn)練,即將高斯混合模型的訓(xùn)練結(jié)果作為徑向基函數(shù)的初始參數(shù)。使用經(jīng)過(guò)訓(xùn)練的初始參數(shù)代替隨機(jī)選擇的初始參數(shù),可以減少初始參數(shù)選擇對(duì)最終訓(xùn)練結(jié)果的影響,使得到的徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確性更高[36]。根據(jù)REYNOLDS et al.[37]的研究,高斯混合模型假設(shè)訓(xùn)練樣本在空間中存在簇結(jié)構(gòu),即由幾個(gè)不同類的數(shù)據(jù)組成,每個(gè)類j服從已知的概率分布φj(X(l)|θj),j=1,2,…,K,θ為概率密度函數(shù)的參數(shù)集合。設(shè)樣本空間存在K個(gè)類,X(l)為樣本,l=1,2,…,N,N為數(shù)據(jù)集的總樣本數(shù)。樣本在空間中出現(xiàn)的概率可通過(guò)(5)式進(jìn)行估計(jì),即

        (5)

        (6)

        高斯混合模型的參數(shù)通常采用期望最大化(expectation maximization,EM)算法進(jìn)行訓(xùn)練[38]。使用高斯混合模型時(shí),要找到一組參數(shù)θj,使生成已有數(shù)據(jù)點(diǎn)的概率最大,這一概率可以表示為似然函數(shù),即

        (7)

        通常單個(gè)點(diǎn)概率很小,相乘之后易造成浮點(diǎn)數(shù)下溢,因此取對(duì)數(shù),得

        (8)

        (8)式為高斯混合模型對(duì)數(shù)似然函數(shù)表達(dá)式。為取得(8)式的最大值,本研究使用期望最大化算法尋找式中最佳的模型參數(shù)αj、μj和σj。使用期望最大化算法進(jìn)行高斯混合模型參數(shù)估計(jì)的詳細(xì)步驟如下。

        步驟1 使用K-means算法確定初始K個(gè)類的類中心所在位置,即均值μj。

        步驟6 重復(fù)步驟2~步驟5,達(dá)到高斯混合模型最大迭代次數(shù)Tg停止。

        2.1.3 GMM-RBF神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程

        使用高斯混合模型算法確定徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)初始徑向基函數(shù)的參數(shù)后,本研究采用改進(jìn)的粒子群優(yōu)化算法進(jìn)行模型訓(xùn)練,提升模型訓(xùn)練效率。下面對(duì)GMM-RBF神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程和關(guān)鍵環(huán)節(jié)進(jìn)行詳細(xì)敘述。

        步驟1 定義徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Θ,包括徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的輸入層節(jié)點(diǎn)數(shù)量D、隱含層節(jié)點(diǎn)數(shù)量H和輸出層節(jié)點(diǎn)數(shù)量O,即Θ={D,H,O}。輸入層節(jié)點(diǎn)數(shù)量D與前列腺癌診斷的輸入特征相同;模型輸出的是診斷結(jié)果,采用0和1表示,0為未患前列腺癌,1為患前列腺癌,因此輸出層節(jié)點(diǎn)數(shù)量O=1;隱含層節(jié)點(diǎn)數(shù)量H的取值可通過(guò)多次試驗(yàn)進(jìn)行確定。

        步驟2 高斯混合模型算法訓(xùn)練。使用高斯混合模型算法對(duì)輸入的數(shù)據(jù)樣本進(jìn)行聚類,由于高斯混合模型算法的結(jié)果將作為徑向基函數(shù)的初始參數(shù),聚類中心數(shù)K要與神經(jīng)網(wǎng)絡(luò)隱含層節(jié)點(diǎn)數(shù)H相同,因此設(shè)置K=H。通過(guò)高斯混合模型算法的訓(xùn)練過(guò)程,利用期望最大化算法對(duì)模型中的參數(shù)αj和θj進(jìn)行極大似然估計(jì)[39],訓(xùn)練后的模型可以表示為K個(gè)高斯分布φj,這些高斯分布的均值μj和標(biāo)準(zhǔn)差σj將作為徑向基函數(shù)的初始參數(shù)。

        步驟3 隨機(jī)初始化徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)連接權(quán)重。步驟1中已經(jīng)確定徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),在進(jìn)行徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)訓(xùn)練之前,將徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的輸入層與隱含層之間連接權(quán)重uih置為1,并隨機(jī)初始化隱含層節(jié)點(diǎn)與輸出層節(jié)點(diǎn)之間連接權(quán)重wh。

        (9)

        步驟5 基于改進(jìn)粒子群優(yōu)化算法的模型訓(xùn)練。根據(jù)徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)模型Wt的損失函數(shù)Ft,通過(guò)迭代的方式對(duì)Wt中的參數(shù)進(jìn)行訓(xùn)練。需要訓(xùn)練的參數(shù)包括神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)間權(quán)重wh和隱含層節(jié)點(diǎn)中的徑向基函數(shù)φj(X(l)|θj)。本研究提出改進(jìn)粒子群優(yōu)化算法對(duì)上述參數(shù)進(jìn)行迭代學(xué)習(xí),直至達(dá)到最大的迭代次數(shù)。

        下面對(duì)使用改進(jìn)粒子群優(yōu)化算法訓(xùn)練GMM-RBF神經(jīng)網(wǎng)絡(luò)模型的過(guò)程進(jìn)行詳細(xì)敘述。

        2.2 改進(jìn)粒子群優(yōu)化算法訓(xùn)練GMM-RBF神經(jīng)網(wǎng)絡(luò)

        為解決采用反向傳播算法在GMM-RBF神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過(guò)程中計(jì)算復(fù)雜、收斂較慢的問(wèn)題,本研究提出使用改進(jìn)粒子群優(yōu)化算法對(duì)GMM-RBF神經(jīng)網(wǎng)絡(luò)模型的參數(shù)進(jìn)行訓(xùn)練。粒子群優(yōu)化算法將種群中的每個(gè)粒子的位置作為優(yōu)化問(wèn)題的一個(gè)候選解,每個(gè)粒子都對(duì)應(yīng)一個(gè)由目標(biāo)函數(shù)決定的適應(yīng)度值[40]。在算法迭代過(guò)程中,粒子根據(jù)自身和其他粒子的位置,調(diào)整自身的速度和位置,逐步接近自身的最優(yōu)位置。而算法整體迭代中會(huì)不斷搜索種群中位置最優(yōu)的粒子,直到找到滿足條件的最優(yōu)解,每次迭代中,粒子根據(jù)(10)式和(11)式更新自身的速度和位置,即

        (10)

        (11)

        m=1,2,…,Np

        在使用改進(jìn)粒子群優(yōu)化算法訓(xùn)練GMM-RBF神經(jīng)網(wǎng)絡(luò)模型時(shí),首先將模型中的隱含層節(jié)點(diǎn)與輸出層節(jié)點(diǎn)間連接權(quán)重wh以及徑向基函數(shù)φj中對(duì)應(yīng)的均值μj和標(biāo)準(zhǔn)差σj作為位置編碼包含在粒子群優(yōu)化算法的每一個(gè)粒子中,粒子的位置編碼代表一個(gè)候選的神經(jīng)網(wǎng)絡(luò)模型。粒子群優(yōu)化粒子的位置編碼見(jiàn)圖3。

        粒子群優(yōu)化算法訓(xùn)練GMM-RBF神經(jīng)網(wǎng)絡(luò)的流程見(jiàn)圖4,具體步驟如下。

        步驟1 粒子群優(yōu)化算法參數(shù)初始化。具體參數(shù)包括種群規(guī)模Np、最大迭代次數(shù)T、慣性因子ω以及粒子的位置取值區(qū)間[Smin,Smax]和速度取值區(qū)間[Vmin,Vmax]。

        圖3 粒子群優(yōu)化粒子位置編碼Figure 3 Encoding for PSO Particle Location

        圖4 粒子群優(yōu)化算法訓(xùn)練GMM-RBF神經(jīng)網(wǎng)絡(luò)流程Figure 4 Flow Chart for PSO-basedGMM-RBF Neural Network

        3 前列腺癌診斷預(yù)測(cè)實(shí)驗(yàn)

        3.1 數(shù)據(jù)準(zhǔn)備

        為驗(yàn)證本研究提出的GMM-RBF神經(jīng)網(wǎng)絡(luò)模型在前列腺癌實(shí)際診斷中的有效性,本研究使用國(guó)家臨床醫(yī)學(xué)科學(xué)數(shù)據(jù)中心(http:∥101.201.55.39/index?u=25#/)提供的數(shù)據(jù)進(jìn)行仿真實(shí)驗(yàn)。國(guó)家臨床醫(yī)學(xué)科學(xué)數(shù)據(jù)中心由中國(guó)醫(yī)學(xué)科學(xué)院北京協(xié)和醫(yī)院和中國(guó)人民解放軍總醫(yī)院共同承擔(dān),是國(guó)家科技基礎(chǔ)條件平臺(tái)科學(xué)數(shù)據(jù)共享工程的重大項(xiàng)目。該數(shù)據(jù)中心提供的數(shù)據(jù)真實(shí)、可靠、可用性強(qiáng),已成為中國(guó)醫(yī)療數(shù)據(jù)分析和挖掘研究的主要數(shù)據(jù)獲取來(lái)源。本研究的實(shí)驗(yàn)數(shù)據(jù)是由中國(guó)人民解放軍總醫(yī)院提供的前列腺腫瘤數(shù)據(jù)集,該數(shù)據(jù)集包含2007年至2013年中國(guó)人民解放軍總醫(yī)院的前列腺癌患者與診斷有關(guān)的記錄,其中包括生化檢查、血常規(guī)、前列腺特異抗原、導(dǎo)尿、放療信息、核醫(yī)學(xué)、檢查、尿常規(guī)、膀胱鏡、手術(shù)情況、藥物、診斷等相關(guān)信息的表格,信息全部以Excel格式存儲(chǔ)。

        在分析數(shù)據(jù)和構(gòu)建模型之前,需要對(duì)數(shù)據(jù)的質(zhì)量進(jìn)行控制。在構(gòu)建機(jī)器學(xué)習(xí)模型的過(guò)程中,數(shù)據(jù)預(yù)處理最為耗時(shí),約占整個(gè)數(shù)據(jù)挖掘工作時(shí)間的一半,甚至80%[42],但數(shù)據(jù)處理結(jié)果會(huì)對(duì)準(zhǔn)確性產(chǎn)生很大的影響。

        對(duì)獲得的前列腺癌原始數(shù)據(jù)集進(jìn)行表間連接、去重,并排除不完整的數(shù)據(jù)記錄,最終得到1 482條患者樣本實(shí)例和43個(gè)變量,變量的具體信息見(jiàn)附表1。為了更好地理解并選擇具有意義的變量,本研究對(duì)前列腺癌方面的醫(yī)學(xué)資料進(jìn)行收集和整理,了解每個(gè)變量的具體含義和取值類型等,數(shù)據(jù)集中涉及到的43個(gè)變量大致可以分為6大類,變量分類見(jiàn)表1。

        針對(duì)前列腺癌診斷問(wèn)題,根據(jù)診斷結(jié)果將樣本分為兩組。診斷結(jié)果為前列腺癌的病例,將其標(biāo)記為1;診斷結(jié)果為前列腺炎等其他疾病的病例,將其標(biāo)記為0。數(shù)據(jù)集樣本類別分布情況見(jiàn)表2。

        3.2 前列腺癌診斷變量選擇

        變量選擇是數(shù)據(jù)預(yù)處理工作中非常重要的一部分,從眾多的變量中篩選出對(duì)分類有意義、具有重要影響的變量是非常有必要的。對(duì)于變量的選擇,一方面,可以減少模型的計(jì)算復(fù)雜度,加快模型訓(xùn)練和預(yù)測(cè)的速度;另一方面,剔除無(wú)關(guān)變量之后有可能會(huì)進(jìn)一步提升模型的表現(xiàn)[43]。

        表1 變量分類Table 1 Classification of Variable

        表2 樣本類別分布Table 2 Distribution of Sample Category

        相關(guān)系數(shù)法是在進(jìn)行變量選擇時(shí)采用的一種簡(jiǎn)單有效的方法[43],通過(guò)計(jì)算變量的相關(guān)系數(shù),可以知道各變量之間的相關(guān)關(guān)系。本研究將患者的類別標(biāo)識(shí)作為目標(biāo)變量,通過(guò)計(jì)算Pearson相關(guān)系數(shù)得到各項(xiàng)指標(biāo)與類別之間的相關(guān)程度,并且以數(shù)據(jù)集樣本類別將樣本分為兩組,進(jìn)行兩個(gè)獨(dú)立樣本t檢驗(yàn),得到各項(xiàng)指標(biāo)不同類別之間差異的顯著性程度,計(jì)算結(jié)果見(jiàn)表3。

        由表3可以清晰地了解各個(gè)變量與類別之間的相關(guān)程度,與前列腺癌診斷相關(guān)程度最強(qiáng)的變量為年齡、前列腺體積、內(nèi)腺前后徑、前列腺特異抗原總濃度和游離前列腺特異抗原濃度。但由于數(shù)據(jù)分布原因,相關(guān)系數(shù)法可能會(huì)存在偏差,因此本研究在實(shí)驗(yàn)中使用目前數(shù)據(jù)挖掘中廣泛使用的隨機(jī)森林算法進(jìn)行變量重要性評(píng)價(jià),有研究證明使用隨機(jī)森林法識(shí)別關(guān)鍵變量是可行并且有效的[44]。本研究使用R語(yǔ)言的random forest程序包進(jìn)行前列腺癌的特征選擇,形成隨機(jī)森林特征選擇圖,見(jiàn)圖5。圖5左側(cè)是按照平均準(zhǔn)確度降低量指標(biāo)進(jìn)行變量排序,右側(cè)是按照節(jié)點(diǎn)基尼不純度降低量指標(biāo)進(jìn)行變量排序,排序方式均是重要性從大到小。由于剩余22項(xiàng)變量?jī)身?xiàng)指標(biāo)值接近于0,因此在圖5中不予列示。由圖5可知,兩種排序方式均認(rèn)為內(nèi)腺前后徑、年齡、前列腺體積、游離前列腺特異抗原濃度和前列腺特異抗原總濃度5個(gè)變量最為重要,該結(jié)果與相關(guān)系數(shù)方法篩選出的結(jié)果一致。

        表3 變量相關(guān)系數(shù)及兩個(gè)獨(dú)立樣本t檢驗(yàn)結(jié)果Table 3 Results for Variable Correlation Coefficient and Two Independent Sample t-test

        注:***為p<0.010,**為p<0.050,*為p<0.100,下同。

        圖5 隨機(jī)森林變量選擇Figure 5 Variable Selection Using Random Forests

        為保證使用變量選擇方法篩選出的變量在前列腺癌診斷過(guò)程中的科學(xué)性和合理性,本研究的工作人員到大連市某三甲醫(yī)院的泌尿外科對(duì)前列腺癌的診斷過(guò)程進(jìn)行實(shí)地調(diào)研,經(jīng)過(guò)與醫(yī)院主治醫(yī)師進(jìn)行確認(rèn)驗(yàn)證,并結(jié)合已有研究[45]中對(duì)前列腺癌診斷相關(guān)指標(biāo)的設(shè)置,本研究最終確定從42個(gè)診斷指標(biāo)變量中選取出內(nèi)腺前后徑、年齡、前列腺體積、游離前列腺特異性抗原濃度和前列腺特異抗原總濃度5個(gè)變量作為前列腺癌診斷建模過(guò)程使用的指標(biāo)。

        3.3 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)中首先對(duì)GMM-RBF神經(jīng)網(wǎng)絡(luò)模型與傳統(tǒng)的徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)在前列腺癌診斷上的準(zhǔn)確性進(jìn)行對(duì)比分析。并在此基礎(chǔ)上,對(duì)比采用改進(jìn)粒子群優(yōu)化算法訓(xùn)練的GMM-RBF神經(jīng)網(wǎng)絡(luò)和采用反向傳播算法訓(xùn)練的GMM-RBF神經(jīng)網(wǎng)絡(luò)在模型訓(xùn)練過(guò)程中訓(xùn)練誤差收斂情況,檢驗(yàn)采用改進(jìn)粒子群優(yōu)化算法在模型訓(xùn)練上相對(duì)于反向傳播算法的提升效果。最后,將本研究所提方法與當(dāng)前幾種流行的機(jī)器學(xué)習(xí)方法進(jìn)行比較,驗(yàn)證GMM-RBF神經(jīng)網(wǎng)絡(luò)在前列腺癌診斷問(wèn)題上的有效性。

        3.3.1 實(shí)驗(yàn)參數(shù)設(shè)置

        根據(jù)上文對(duì)GMM-RBF神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過(guò)程和改進(jìn)粒子群優(yōu)化算法的介紹,對(duì)涉及的參數(shù)通過(guò)多次實(shí)驗(yàn)進(jìn)行調(diào)優(yōu),經(jīng)過(guò)調(diào)優(yōu)后的GMM-RBF神經(jīng)網(wǎng)絡(luò)和改進(jìn)粒子群優(yōu)化算法的參數(shù)設(shè)置見(jiàn)表4。為保證前列腺癌預(yù)測(cè)實(shí)驗(yàn)結(jié)果的可靠性和科學(xué)性,本研究最終確定采用數(shù)據(jù)科學(xué)領(lǐng)域流行的10折交叉驗(yàn)證方法將數(shù)據(jù)實(shí)例劃分為獨(dú)立的訓(xùn)練集和測(cè)試集[42]。

        表4 GMM-RBF神經(jīng)網(wǎng)絡(luò)算法參數(shù)Table 4 Algorithm Parametersfor GMM-RBF Neural Network

        3.3.2 實(shí)驗(yàn)結(jié)果評(píng)價(jià)方法

        在分類預(yù)測(cè)性能評(píng)價(jià)時(shí),本研究采用醫(yī)學(xué)領(lǐng)域診斷預(yù)測(cè)中使用的準(zhǔn)確率、特異性、敏感性和AUC(area under roc curve,AUC)值4項(xiàng)評(píng)價(jià)指標(biāo)。

        在分類器表現(xiàn)評(píng)價(jià)時(shí),使用混淆矩陣[46]這一工具?;煜仃囀且环N可視化的工具,它將分類結(jié)果和實(shí)際值放在一個(gè)矩陣中,可以清楚地了解到模型預(yù)測(cè)值與真實(shí)情況之間的差異?;煜仃嚨木唧w表現(xiàn)形式見(jiàn)表5。

        表5 分類結(jié)果混淆矩陣Table 5 Classification Results for Confusion Matrix

        注:TP為混淆矩陣中真正例的數(shù)據(jù)實(shí)例數(shù)量,F(xiàn)P為混淆矩陣中假正例的數(shù)據(jù)實(shí)例數(shù)量,TN為混淆矩陣中真反例的數(shù)據(jù)實(shí)例數(shù)量,F(xiàn)N為混淆矩陣中假反例的數(shù)據(jù)實(shí)例數(shù)量;對(duì)于前列腺癌診斷問(wèn)題,正例是被診斷為前列腺癌的實(shí)例,反例是未患前列腺癌的實(shí)例。

        準(zhǔn)確率表示分類器總體的分類精度,計(jì)算公式為

        (12)

        其中,Accuracy為準(zhǔn)確率。

        特異性表示分類器正確識(shí)別未患前列腺癌病人的能力,計(jì)算公式為

        (13)

        其中,Specificity為特異性。

        敏感性表示分類器正確識(shí)別患前列腺癌病人的能力,計(jì)算公式為

        (14)

        其中,Sensitivity為敏感性。

        受試者工作特征曲線下面積即AUC值[47],是測(cè)量模型在數(shù)據(jù)集上預(yù)測(cè)準(zhǔn)確性的一種有效指標(biāo),與Accuracy相比,AUC值能更好地反映在數(shù)據(jù)類別不均衡分布情況下模型的表現(xiàn),因此被廣泛地應(yīng)用。AUC的計(jì)算公式為

        (15)

        其中,rank為根據(jù)模型預(yù)測(cè)實(shí)例屬于正例概率大小進(jìn)行排序,Npositive為實(shí)際為正例的個(gè)數(shù),Nnegtive為實(shí)際為負(fù)例的個(gè)數(shù)。當(dāng)Npositive個(gè)正例均排在Nnegtive個(gè)負(fù)例之前時(shí),AUC取值為1;當(dāng)Npositive個(gè)正例均排在Nnegtive個(gè)負(fù)例之后時(shí),AUC取值為0。

        3.4 實(shí)驗(yàn)結(jié)果和分析

        除上述對(duì)樣本和變量的處理之外,為消除不同變量取值范圍不同對(duì)實(shí)驗(yàn)結(jié)果的影響,需要對(duì)輸入數(shù)據(jù)進(jìn)行歸一化處理,將不同變量的數(shù)據(jù)統(tǒng)一到相同的取值范圍之內(nèi)[48]。本研究采用z-score標(biāo)準(zhǔn)化方法,這種方法對(duì)原始數(shù)據(jù)的均值μ和標(biāo)準(zhǔn)差σ進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化,經(jīng)過(guò)處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,轉(zhuǎn)換公式為

        (16)

        本研究基于參數(shù)設(shè)置和評(píng)價(jià)指標(biāo)進(jìn)行前列腺癌的診斷實(shí)驗(yàn),實(shí)驗(yàn)對(duì)比采用改進(jìn)粒子群優(yōu)化算法訓(xùn)練的GMM-RBF神經(jīng)網(wǎng)絡(luò)方法與其他方法在模型訓(xùn)練過(guò)程中訓(xùn)練誤差的收斂情況,以驗(yàn)證本研究提出的算法在模型訓(xùn)練過(guò)程中相對(duì)于其他算法的改進(jìn)情況。參與比較的方法包括采用改進(jìn)粒子群優(yōu)化算法訓(xùn)練的GMM-RBF神經(jīng)網(wǎng)絡(luò)(PSO-GMM-RBFNN)、采用反向傳播算法訓(xùn)練的GMM-RBF神經(jīng)網(wǎng)絡(luò)(BP-GMM-RBFNN)、采用反向傳播算法訓(xùn)練的徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(BP-RBFNN)和采用反向傳播算法訓(xùn)練的人工神經(jīng)網(wǎng)絡(luò)(BP-ANN)。針對(duì)一次典型的訓(xùn)練過(guò)程,上述算法的訓(xùn)練誤差變化曲線見(jiàn)圖6。

        由圖6可知,在對(duì)同樣的訓(xùn)練數(shù)據(jù)集進(jìn)行300次迭代訓(xùn)練之后,不同的算法取得不同的訓(xùn)練誤差。本研究從訓(xùn)練誤差和收斂速度兩個(gè)方面比較分析4種算法。

        (1)訓(xùn)練誤差。在4種算法中,采用PSO-GMM-RBFNN算法的訓(xùn)練誤差最低,且與其他算法相比優(yōu)勢(shì)明顯,而采用BP-ANN算法的訓(xùn)練誤差最高。比較BP-ANN算法與BP-RBFNN算法可以看出,徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)比人工神經(jīng)網(wǎng)絡(luò)有著更好的準(zhǔn)確性;比較BP-GMM-RBFNN算法與BP-RBFNN算法,融合高斯混合模型算法后神經(jīng)網(wǎng)絡(luò)的初始訓(xùn)練誤差更低,且訓(xùn)練誤差也更小;比較PSO-GMM-RBFNN算法與BP-GMM-RBFNN算法,粒子群優(yōu)化算法在網(wǎng)絡(luò)訓(xùn)練方面明顯優(yōu)于反向傳播算法。

        (2)收斂速度。比較BP-ANN算法與BP-RBFNN算法,徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)比人工神經(jīng)網(wǎng)絡(luò)具有很快的收斂速度;比較BP-GMM-RBFNN算法與BP-RBFNN算法可以看出,高斯混合模型算法的使用也加快了網(wǎng)絡(luò)訓(xùn)練的速度;比較PSO-GMM-RBFNN算法與BP-GMM-RBFNN算法,證明粒子群優(yōu)化算法比反向傳播算法有著更快的收斂速度。

        本研究進(jìn)一步驗(yàn)證采用粒子群優(yōu)化算法訓(xùn)練的GMM-RBF神經(jīng)網(wǎng)絡(luò)方法在前列腺癌診斷問(wèn)題上的準(zhǔn)確性。實(shí)驗(yàn)中將本研究方法與神經(jīng)網(wǎng)絡(luò)方法及當(dāng)前流行的支持向量機(jī)、邏輯回歸和分類回歸樹(shù)等機(jī)器學(xué)習(xí)方法進(jìn)行比較,使用準(zhǔn)確率、特異性、敏感性和AUC值4個(gè)評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果見(jiàn)表6。

        圖6 不同算法訓(xùn)練誤差變化曲線Figure 6 Variation Curve of Training Error between Different Algorithms

        模型準(zhǔn)確率特異性敏感性AUC支持向量機(jī)0.7100.7610.6130.752邏輯回歸0.7060.8030.5400.803分類回歸樹(shù)0.7710.8310.6980.794BP-ANN0.6530.6120.6100.749BP-RBFNN0.6990.6300.6300.746BP-GMM-RBFNN0.7300.7000.6740.751PSO-GMM-RBFNN0.8150.8660.7260.821

        由表6的實(shí)驗(yàn)結(jié)果可知,在使用10折交叉驗(yàn)證方法的情況下,與其他幾種算法相比,本研究提出的使用高斯混合模型對(duì)徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練并使用改進(jìn)粒子群優(yōu)化算法進(jìn)行權(quán)重調(diào)整的方法效果最好,得到了0.815的準(zhǔn)確率、0.866的特異性、0.726的敏感性和0.821的AUC。實(shí)驗(yàn)結(jié)果表明本研究方法準(zhǔn)確率更高,并且可以更好地識(shí)別出真正患有前列腺癌的病人,能夠?yàn)榍傲邢侔┰\斷提供更可信的結(jié)果,為前列腺穿刺活檢確診過(guò)程提供有效的決策支持。

        然而,只是依照各項(xiàng)模型評(píng)價(jià)指標(biāo)對(duì)模型的表現(xiàn)進(jìn)行評(píng)價(jià)還缺少類似于統(tǒng)計(jì)學(xué)檢驗(yàn)所具有的科學(xué)性和客觀性。基于這一考慮,本研究使用配對(duì)樣本t檢驗(yàn)對(duì)實(shí)驗(yàn)10折結(jié)果進(jìn)行統(tǒng)計(jì)學(xué)上的檢驗(yàn)[49],檢驗(yàn)?zāi)P椭g的差異性情況,檢驗(yàn)結(jié)果見(jiàn)表7。

        由表7的配對(duì)樣本t檢驗(yàn)結(jié)果可知,本研究提出的PSO-GMM-RBF神經(jīng)網(wǎng)絡(luò)方法在10折交叉驗(yàn)證的每一折測(cè)試集中,在準(zhǔn)確性這一指標(biāo)上非常顯著,p值均小于0.050,而在其他3項(xiàng)指標(biāo)上則顯示出了不同程度的優(yōu)勢(shì)。這個(gè)結(jié)果也驗(yàn)證了本研究提出方法的有效性和優(yōu)越性。

        綜合上述實(shí)驗(yàn)分析,針對(duì)前列腺癌診斷問(wèn)題,采用改進(jìn)的粒子群優(yōu)化訓(xùn)練的GMM-RBF神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)方法和人工神經(jīng)網(wǎng)絡(luò)方法相比,在模型訓(xùn)練上進(jìn)行了兩方面的改進(jìn),①在模型初始參數(shù)方面,采用高斯混合模型算法對(duì)初始徑向基函數(shù)進(jìn)行訓(xùn)練,減少模型陷入局部最優(yōu)的可能,提高了模型的準(zhǔn)確性;②在模型的訓(xùn)練過(guò)程中,采用改進(jìn)的粒子群優(yōu)化算法進(jìn)行模型參數(shù)訓(xùn)練,有效減少計(jì)算量,并實(shí)現(xiàn)訓(xùn)練誤差的快速收斂。經(jīng)過(guò)改進(jìn)使訓(xùn)練后的徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)模型在前列腺癌診斷上表現(xiàn)更加穩(wěn)定,能夠?yàn)榍傲邢侔┰\斷提供更加準(zhǔn)確、可靠的結(jié)果,并為醫(yī)生是否要對(duì)前列腺病人進(jìn)行穿刺活檢提供一定的決策支持。

        4 結(jié)論

        前列腺癌初步診斷的準(zhǔn)確性對(duì)病患來(lái)說(shuō)至關(guān)重要,提高診斷的準(zhǔn)確性可以為醫(yī)療工作者對(duì)病患是否進(jìn)行穿刺活檢操作提供有效的輔助決策和方法支持。針對(duì)使用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)進(jìn)行前列腺癌診斷時(shí)模型的診斷準(zhǔn)確性易受初始參數(shù)選擇影響從而導(dǎo)致模型準(zhǔn)確性偏低的問(wèn)題,本研究提出改進(jìn)的GMM-RBF神經(jīng)網(wǎng)絡(luò)前列腺癌診斷方法。

        表7 模型預(yù)測(cè)性能的配對(duì)樣本t檢驗(yàn)結(jié)果Table 7 Results for Paired t-test of Prediction Performance of Each Model

        經(jīng)過(guò)繁瑣的數(shù)據(jù)清洗工作后,本研究使用相關(guān)系數(shù)、兩獨(dú)立樣本t檢驗(yàn)和隨機(jī)森林變量選擇方法對(duì)原有的42維變量進(jìn)行重要性評(píng)價(jià),最終挑選出對(duì)前列腺癌診斷預(yù)測(cè)具有臨床意義的5個(gè)重要變量,即內(nèi)腺前后徑、年齡、前列腺體積、游離前列腺特異抗原濃度和前列腺特異抗原總濃度。在前列腺癌診斷實(shí)驗(yàn)中,通過(guò)對(duì)原有的徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)進(jìn)行逐步改進(jìn)對(duì)比,本研究提出的使用高斯混合模型對(duì)徑向基神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練能夠取得更好的初始解,使用改進(jìn)后的粒子群優(yōu)化算法進(jìn)一步提升了預(yù)測(cè)模型的收斂速度和準(zhǔn)確性。本研究將提出的方法與現(xiàn)階段流行的支持向量機(jī)、邏輯回歸和分類回歸樹(shù)方法進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明本研究提出的方法在前列腺癌診斷預(yù)測(cè)上的優(yōu)越性。

        本研究使用國(guó)家臨床醫(yī)學(xué)科學(xué)數(shù)據(jù)中心提供的前列腺癌數(shù)據(jù)進(jìn)行診斷實(shí)驗(yàn),可以將該方法推廣到實(shí)際前列腺癌穿刺活檢前的初步診斷決策中,為穿刺活檢確診工作提供指導(dǎo),避免未患病者接受對(duì)身體有不良影響的穿刺活檢;同時(shí)彌補(bǔ)了傳統(tǒng)診斷方式準(zhǔn)確率上的不足,使前列腺癌患者能夠盡早確診并得到及時(shí)治療,節(jié)約醫(yī)療資源,降低醫(yī)療成本,提高患者滿意度。

        考慮到在前列腺癌的診斷過(guò)程中仍存在對(duì)診斷結(jié)果有影響的其他特征,本研究在未來(lái)工作中將進(jìn)一步融合和挖掘其他來(lái)源的醫(yī)療診斷數(shù)據(jù),利用更多的特征進(jìn)行前列腺癌診斷工作,利用更豐富的數(shù)據(jù)訓(xùn)練,得到更加準(zhǔn)確而穩(wěn)定的診斷模型,更好地對(duì)醫(yī)療人員的診斷工作提供支持。針對(duì)本研究方法中高斯混合模型聚類數(shù)目需要人為確定調(diào)整的情況,下一步考慮將這一參數(shù)設(shè)計(jì)成為可自適應(yīng)動(dòng)態(tài)調(diào)整的參數(shù),進(jìn)一步提升模型的診斷能力。此外,針對(duì)乳腺癌和肺癌等其他疾病患病情況的診斷需求而對(duì)本研究提出的方法進(jìn)行改進(jìn),也將成為后續(xù)的研究工作,以進(jìn)一步提升本研究提出方法在疾病診斷中的普適性和實(shí)用價(jià)值。

        [1]REGNIER-COUDERT O,MCCALL J,LOTHIAN R,et al.Machine learning for improved pathological staging of prostate cancer:a performance comparison on a range of classifiers.ArtificialIntelligenceinMedicine,2012,55(1):25 - 35.

        [2]JEMAL A,BRAY F,CENTER M M,et al.Global cancer statistics.CA:ACancerJournalforClinicians,2011,61(2):69 - 90.

        [3]CHEN W,ZHENG R,BAADE P D,et al.Cancer statistics in China,2015.CA:ACancerJournalforClinicians,2016,66(2):115 - 132.

        [4]KIM S Y,MOON S K,JUNG D C,et al.Pre-operative prediction of advanced prostatic cancer using clinical decision support systems:accuracy comparison between support vector machine and artificial neural network.KoreanJournalofRadiology,2011,12(5):588 - 594.

        [5]CATALONA W J,SMITH D S,RATLIFF T L,et al.Measurement of prostate-specific antigen in serum as a screening test for prostate cancer.NewEnglandJournalofMedicine,1991,324(17):1156 - 1161.

        [6]郭熙銅,張曉飛,劉笑笑,等.數(shù)據(jù)驅(qū)動(dòng)的電子健康服務(wù)管理研究:挑戰(zhàn)與展望.管理科學(xué),2017,30(1):3 - 14.

        GUO Xitong,ZHANG Xiaofei,LIU Xiaoxiao,et al.eHealth service management research in the big data era:challenges and future directions.JournalofManagementScience,2017,30(1):3 - 14.(in Chinese)

        [7]YANG H L,GUO X T,WU T S,et al.Exploring the effects of patient-generated and system-generated information on patients′ online search,evaluation and decision.ElectronicCommerceResearchandApplications,2015,14(3):192 - 203.

        [8]CHEN K H,WANG K J,WANG K M,et al.Applying particle swarm optimization-based decision tree classifier for cancer classification on gene expression data.AppliedSoftComputing,2014,24:773 - 780.

        [9]AZAR A T,EI-METWALLY S M,et al.Decision tree classifiers for automated medical diagnosis.NeuralComputing&Applications,2013,23:2387 - 2403.

        [10] AZAR A T,EI-SAID S A.Performance analysis of support vector machines classifiers in breast cancer mammography recognition.NeuralComputing&Applications,2014,24(5):1163 - 1177.

        [11] ZIE?BA M,TOMCZAK J M,LUBICZ M,et al.Boosted SVM for extracting rules from imbalanced data in application to prediction of the post-operative life expectancy in the lung cancer patients.AppliedSoftComputing,2014,14(Part A):99 - 108.

        [12] LIN D,VASILAKOS A V,TANG Y,et al.Neural networks for computer-aided diagnosis in medicine:a review.Neurocomputing,2016,216:700 - 708.

        [13] DEVI M A,RAVI S,VAISHNAVI J,et al.Classification of cervical cancer using artificial neural networks.ProcediaComputerScience,2016,89:465 - 472.

        [14] 李慶,謝江凌,楊敏敏.經(jīng)直腸超聲彈性成像診斷前列腺癌的價(jià)值.臨床超聲醫(yī)學(xué)雜志,2014,16(7):497 - 498.

        LI Qing,XIE Jiangling,YANG Minmin.Value of transrectal elastography in diagnosis of prostatic carcinoma.JournalofClinicalUltrasoundinMedicine,2014,16(7):497 - 498.(in Chinese)

        [15] 朱林,黃君,詹潔群,等.血清PSA指標(biāo)與經(jīng)直腸超聲造影對(duì)前列腺癌的診斷.暨南大學(xué)學(xué)報(bào)(自然科學(xué)與醫(yī)學(xué)版),2015,36(6):515 - 519.

        ZHU Lin,HUANG Jun,ZHAN Jiequn,et al.The diagnostic values of serum prostate specific antigen and transrectal contrast-enhanced ultrasonography of prostate cancer.JournalofJinanUniversity(NaturalScience&MedicineEdition),2015,36(6):515 - 519.(in Chinese)

        [16] LEE S E,CHUNG J S,HAN B K,et al.Relationship of prostate-specific antigen and prostate volume in Korean men with biopsy-proven benign prostatic hyperplasia.Urology,2008,71(3):395 - 398.

        [17] LOEB S,CATALONA W J.Prostate-specific antigen in clinical practice.CancerLetters,2007,249(1):30 - 39.

        [18] 王金萍,徐浩.血清TPSA、FPSA/TPSA及PSAD對(duì)前列腺癌的診斷價(jià)值.暨南大學(xué)學(xué)報(bào)(自然科學(xué)與醫(yī)學(xué)版),2007,28(2):172 - 175.

        WANG Jinping,XU Hao.Clinical significance of serum TPSA,FPSA/TPSA and PSAD in diagnosis of prostate carcinoma.JournalofJinanUniversity(NaturalScience&MedicineEdition),2007,28(2):172 - 175.(in Chinese)

        [19] LEE H J,HWANG S I,HAN S M,et al.Image-based clinical decision support for transrectal ultrasound in the diagnosis of prostate cancer: comparison of multiple logistic regression,artificial neural network,and support vector machine.EuropeanRadiology,2010,20(6):1476 - 1484.

        [20] FINNE P,FINNE R,BANGMA C,et al.Algorithms based on prostate-specific antigen(PSA),free PSA,digital rectal examination and prostate volume reduce false-postitive PSA results in prostate cancer screening.InternationalJournalofCancer,2004,111(2):310 - 315.

        [21] BERMEJO P,VIVO A,TRRAGA P J,et al.Development of interpretable predictive models for BPH and prostate cancer.ClinicalMedicineInsights:Oncology,2015,9:15 - 24.

        [22] HU X,CAMMANN H,MEYER H A,et al.Artificial neural networks and prostate cancer tools for diagnosis and management.NatureReviewsUrology,2013,10(3):174 - 182.

        [23] SNOW P B,SMITH D S,CATALONA W J.Artificial neural networks in the diagnosis and prognosis of prostate cancer:a pilot study.TheJournalofUrology,1994,152(5):1923 - 1926.

        [24] BABAIAN R J,FRITSCHE H,AYALA A,et al.Performance of a neural network in detecting prostate cancer in the prostate-specific antigen reflex range of 2.5 to 4.0 ng/mL.Urology,2000,56(6):1000 - 1006.

        [25] STEPHAN C,JUNG K,CAMMANN H,et al.An artificial neural network considerably improves the diagnostic power of percent free prostate-specific antigen in prostate cancer diagnosis:results of a 5-year investigation.InternationalJournalofCancer,2002,99(3):466 - 473.

        [26] MOODY J,DARKEN C J.Fast learning in networks of locally-tuned processing units.NeuralComputation,1989,1(2):281 - 294.

        [27] 黃星,孫明.基于RBF神經(jīng)網(wǎng)絡(luò)的震傷人員快速評(píng)估模型.系統(tǒng)工程,2016,34(8):129 - 135.

        HUANG Xing,SUN Ming.The rapid assessment of wounded personnel based on RBF neural network model under the background earthquake disaster.SystemsEngineering,2016,34(8):129 - 135.(in Chinese)

        [29] WALLACE M,TSAPATSOULIS N,KOLLIAS S.Intelligent initialization of resource allocating RBF networks.NeuralNetworks,2005,18(2):117 - 122.

        [30] 楊淑娥,黃禮.基于BP神經(jīng)網(wǎng)絡(luò)的上市公司財(cái)務(wù)預(yù)警模型.系統(tǒng)工程理論與實(shí)踐,2005,25(1):12 - 18,26.

        YANG Shue,HUANG Li.Financial crisis warning model based on BP neural network.SystemsEngineering-Theory&Practice,2005,25(1):12 - 18,26.(in Chinese)

        [31] 孫佰清,馮英浚,潘啟樹(shù),等.急性心肌梗塞診斷的智能決策支持系統(tǒng).系統(tǒng)工程理論與實(shí)踐,2006,26(10):141 - 144.

        SUN Baiqing,FENG Yingjun,PAN Qishu,et al.Intelligent decision support system for the diagnosis of acute myocardial infarction.SystemsEngineering-Theory&Practice,2006,26(10):141 - 144.(in Chinese)

        [32] 肖斌卿,楊旸,李心丹,等.基于GA-ANN的中國(guó)金融安全預(yù)警系統(tǒng)設(shè)計(jì)及實(shí)證分析.系統(tǒng)工程理論與實(shí)踐,2015,35(8):1928 - 1937.

        XIAO Binqing,YANG Yang,LI Xindan,et al.Design of China′s financial security early warning system based on GA-ANN.SystemsEngineering-Theory&Practice,2015,35(8):1928 - 1937.(in Chinese)

        [33] 郭海湘,諸克軍,李四福,等.煤礦首采面開(kāi)工進(jìn)度計(jì)劃的智能優(yōu)化.系統(tǒng)工程理論與實(shí)踐,2009,29(11):135 - 144.

        GUO Haixiang,ZHU Kejun,LI Sifu,et al.Intelligent optimization for the first coal face project scheduling in coal mining.SystemsEngineering-Theory&Practice,2009,29(11):135 - 144.(in Chinese)

        [34] 王亮,張宏偉,岳琳,等.PSO-BP模型在城市用水量短期預(yù)測(cè)中的應(yīng)用.系統(tǒng)工程理論與實(shí)踐,2007,27(9):165 - 170.

        WANG Liang,ZHANG Hongwei,YUE Lin,et al.Application of PSO-BP model in short-term prediction of urban water consumption.SystemsEngineering-Theory&Practice,2007,27(9):165 - 170.(in Chinese)

        [35] 衛(wèi)敏,余樂(lè)安.具有最優(yōu)學(xué)習(xí)率的RBF神經(jīng)網(wǎng)絡(luò)及其應(yīng)用.管理科學(xué)學(xué)報(bào),2012,15(4):50 - 57.

        WEI Min,YU Lean.A RBF neural network with optimum learning rate and its application.JournalofManagementSciencesinChina,2012,15(4):50 - 57.(in Chinese)

        [36] XIANG Z Y,XIAO Z,WANG D,et al.A Gaussian mixture framework for incremental nonparametric regression with topology learning neural networks.Neurocomputing,2016,194:34 - 44.

        [37] REYNOLDS D A,ROSE R C.Robust text-independent speaker identification using Gaussian mixture speaker models.IEEETransactionsonSpeechandAudioProcessing,1995,3(1):72 - 83.

        [38] KUO R J,HUANG M H,CHENG W C,et al.Application of a two-stage fuzzy neural network to a prostate cancer prognosis system.ArtificialIntelligenceinMedicine,2015,63(2):119 - 133.

        [39] 李壯闊,薛有添.基于粒子群算法的模糊層次分析法改進(jìn)及其應(yīng)用研究.運(yùn)籌與管理,2013,22(4):139 - 143.

        LI Zhuangkuo,XUE Youtian.Improvement of fuzzy analytic hierarchy process based on particle swarm optimization and its application research.OperationsResearchandManagementScience,2013,22(4):139 - 143.(in Chinese)

        [40] 李松,劉力軍,翟曼.改進(jìn)粒子群算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的短時(shí)交通流預(yù)測(cè).系統(tǒng)工程理論與實(shí)踐,2012,32(9):2045 - 2049.

        LI Song,LIU Lijun,ZHAI Man.Prediction for short-term traffic flow based on modified PSO optimized BP neural network.SystemsEngineering-Theory&Practice,2012,32(9):2045 - 2049.(in Chinese)

        [42] 王宇燕,王杜娟,王延章,等.改進(jìn)隨機(jī)森林的集成分類方法預(yù)測(cè)結(jié)直腸癌存活性.管理科學(xué),2017,30(1):95 - 106.

        WANG Yuyan,WANG Dujuan,WANG Yanzhang,et al.Predicting survivability of colorectal cancer by an ensemble classification method improved on random forest.JournalofManagementScience,2017,30(1):95 - 106.(in Chinese)

        [43] TURGEMAN L,MAY J H.A mixed-ensemble model for hospital readmission.ArtificialIntelligenceinMedicine,2016,72:72 - 82.

        [44] HAPFELMEIER A,ULM K.A new variable selection approach using random forests.ComputationalStatistics&DataAnalysis,2013,60:50 - 69.

        [45] 徐勇,張志宏.前列腺癌.北京:科學(xué)技術(shù)文獻(xiàn)出版社,2009:341 - 416.

        XU Yong,ZHANG Zhihong.Prostatecancer.Beijing:Scientific and Technical Documentation Press,2009:341 - 416.(in Chinese)

        [47] GORUNESCU F,BELCIUG S.Boosting backpropagation algorithm by stimulus-sampling:application in computer-aided medical diagnosis.JournalofBiomedicalInformatics,2016,63:74 - 81.

        [48] LI Z,XU W,ZHANG L K,et al.An ontology-based Web mining method for unemployment rate prediction.DecisionSupportSystems,2014,66:114 - 122.

        [49] 林宇,黃迅,淳偉德,等.基于ODR-ADASYN-SVM的極端金融風(fēng)險(xiǎn)預(yù)警研究.管理科學(xué)學(xué)報(bào),2016,19(5):87 - 101.

        LIN Yu,HUANG Xun,CHUN Weide,et al.Early warning for extremely financial risks based on ODR-ADASYN-SVM.JournalofManagementSciencesinChina,2016,19(5):87 - 101.(in Chinese)

        附表1 變量詳細(xì)信息Appendix 1 Variable Details

        猜你喜歡
        前列腺癌徑向前列腺
        韓履褀治療前列腺肥大驗(yàn)案
        淺探徑向連接體的圓周運(yùn)動(dòng)
        RN上一類Kirchhoff型方程徑向?qū)ΨQ正解的存在性
        治療前列腺增生的藥和治療禿發(fā)的藥竟是一種藥
        基于PID+前饋的3MN徑向鍛造機(jī)控制系統(tǒng)的研究
        前列腺癌復(fù)發(fā)和轉(zhuǎn)移的治療
        關(guān)注前列腺癌
        認(rèn)識(shí)前列腺癌
        一類無(wú)窮下級(jí)整函數(shù)的Julia集的徑向分布
        前列腺癌,這些蛛絲馬跡要重視
        无码国产精品第100页| 国产一区二区三区中文在线| 新婚人妻不戴套国产精品| 亚洲图片日本视频免费| 国产乱妇乱子在线视频| 无码超乳爆乳中文字幕| 亚洲天堂一区二区三区视频| 精品国产一区二区三区av天堂| 亚洲精品白浆高清久久久久久 | 人妻暴雨中被强制侵犯在线| 午夜a福利| 国产伦精品一区二区三区在线| 24小时在线免费av| 正在播放强揉爆乳女教师| 国产自偷亚洲精品页65页| 一本一道AⅤ无码中文字幕| 国产成人自拍视频视频| 精品人妻一区二区三区在线观看| 少妇熟女天堂网av| 人妻激情偷乱一区二区三区| 亚洲国产字幕| 国产韩国一区二区三区| 日本真人边吃奶边做爽动态图| 美女视频黄的全免费视频网站| 亚洲精品aⅴ无码精品丝袜足| 精品国精品自拍自在线| 在线观看日本一区二区三区四区 | 热久久这里只有| 人妻一区二区三区免费看| 91久久偷偷做嫩模影院| 极品白嫩的小少妇| 国产精品内射后入合集| 久久av一区二区三区下| 精华国产一区二区三区| 大地资源网高清在线播放| 亚洲av无码专区亚洲av| 日韩精品人妻少妇一区二区| 日本一区二区在线高清| 蜜臀av999无码精品国产专区| 久久久久久久中文字幕| 极品少妇一区二区三区四区|