亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于醫(yī)療文本數(shù)據(jù)聚類的帕金森病早期診斷預(yù)測(cè)

        2020-10-18 12:58:16張曉博李天瑞彭莉蘭
        計(jì)算機(jī)應(yīng)用 2020年10期
        關(guān)鍵詞:帕金森病特征方法

        張曉博,楊 燕*,李天瑞,陸 凡,彭莉蘭

        (1.西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院,成都 611756;2.西南交通大學(xué)人工智能研究院,成都 611756;3.綜合交通大數(shù)據(jù)應(yīng)用技術(shù)國(guó)家工程實(shí)驗(yàn)室(西南交通大學(xué)),成都 611756)

        (*通信作者電子郵箱yyang@swjtu.edu.cn)

        0 引言

        目前,帕金森病已成為除老年癡呆癥以外最常見(jiàn)的神經(jīng)退行性和致殘性疾病,通常發(fā)生在老年人中,臨床表現(xiàn)主要包括靜止性震顫、運(yùn)動(dòng)遲緩、肌強(qiáng)直和姿勢(shì)性步態(tài)障礙[1-5]。帕金森病不僅影響患者的生活質(zhì)量,而且會(huì)給家庭和社會(huì)帶來(lái)沉重的負(fù)擔(dān)。

        在我國(guó),年齡65 歲以上人群帕金森病的患病率約占1.7%[6],年齡超過(guò)80 歲的患病率約占2.65%[7]。我國(guó)患病率與世界發(fā)達(dá)國(guó)家相近,目前全世界有大約1 000 萬(wàn)帕金森病人,而我國(guó)的患者超過(guò)200萬(wàn)人[8]。

        帕金森病最主要的病理改變是中腦黑質(zhì)多巴胺能神經(jīng)元的變性死亡,由此而引起紋狀體黑質(zhì)多巴胺能神經(jīng)元含量顯著性減少而致病。導(dǎo)致這一病理改變的確切病因現(xiàn)階段仍不清楚,遺傳因素、環(huán)境因素、年齡老化、氧化應(yīng)激等均可能參與帕金森病多巴胺能神經(jīng)元的變性死亡過(guò)程[9]。目前尚無(wú)有效的預(yù)防措施阻止疾病的發(fā)生和進(jìn)展。當(dāng)患者出現(xiàn)臨床癥狀時(shí)黑質(zhì)多巴胺能神經(jīng)元死亡至少在50%以上,紋狀體黑質(zhì)多巴胺能神經(jīng)元含量減少在80%以上。因此,早期借助人工智能技術(shù)預(yù)測(cè)并發(fā)現(xiàn)帕金森病臨床患者,有利于采取有效的措施阻止多巴胺能神經(jīng)元的變性死亡,以阻止疾病的發(fā)生與進(jìn)展。本文基于一個(gè)國(guó)際上研究帕金森病進(jìn)展指標(biāo)的臨床研究平臺(tái)即PPMI(Parkinson’s Progression Markers Initiative)公開提供的臨床醫(yī)療檢查文本信息數(shù)據(jù)集[10],結(jié)合主成分分析(Principal Component Analysis,PCA)[11],5 種傳統(tǒng)的經(jīng)典聚類K均值(K-Means)[12]、K中心點(diǎn)(K-Medoids)[13]、高斯混合模型(Gaussian Mixture Model,GMM)[14]、親和力傳播(Affinity Propagation,AP)[15]、譜聚類(Spectral Clustering,SC)[16],以及基于聚類的相似性劃分算法(Cluster-based Similarity Partitioning Algorithm,CSPA)、元聚類算法(Meta-CLustering Algorithm,MCLA)、超圖分割算法(Hypergraph Partitioning Algorithm,HGPA)共3 種聚類集成方法[17],來(lái)分析并預(yù)測(cè)數(shù)據(jù)集中的多巴胺異常帕金森病患者、健康體和無(wú)多巴胺缺失患 者(Scans Without Evidence of Dopamine Deficiency,SWEDD)。該應(yīng)用方法能夠輔助早預(yù)防、早發(fā)現(xiàn)與早治療,具有重要的臨床研究意義與實(shí)際應(yīng)用價(jià)值。

        本文的主要貢獻(xiàn)包括4個(gè)方面:

        1)通過(guò)PPMI平臺(tái)提供的公開醫(yī)療文本信息數(shù)據(jù)集,采用聚類等機(jī)器學(xué)習(xí)技術(shù)預(yù)測(cè)并輔助診斷帕金森病。

        2)主成分分析方法被應(yīng)用到醫(yī)療文本信息數(shù)據(jù)集中來(lái)降維不同維度的維度空間,不僅解決了數(shù)據(jù)維度的復(fù)雜問(wèn)題,同時(shí)也為聚類提供了多層次可比較的多維度數(shù)據(jù)集。

        3)降維后的不同維度數(shù)據(jù)集被5 個(gè)傳統(tǒng)的經(jīng)典聚類模型和3 種不同的聚類集成方法聚類后,得出特征維度值取30 時(shí)GMM聚類效果最佳的結(jié)論。

        4)應(yīng)用不同維度數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明特征維度值小于40 時(shí),高斯混合模型GMM 的聚類效果最佳;而當(dāng)特征維度值大于40 時(shí),譜聚類(SC)表現(xiàn)突出;3 種聚類集成方法中MCLA的聚類性能最好。

        1 相關(guān)工作

        帕金森病的預(yù)測(cè)和輔助診斷不論是基于單模態(tài)的醫(yī)療數(shù)據(jù)還是多模態(tài)的數(shù)據(jù)集,都被不少學(xué)者和研究人員嘗試進(jìn)行研究,應(yīng)用于不同的數(shù)據(jù)集上的帕金森病輔助診斷也都有著重要的臨床研究意義。接下來(lái),本文概述已有的帕金森病分類、預(yù)測(cè)工作以及在不同醫(yī)療數(shù)據(jù)集上的應(yīng)用。

        近年來(lái),核磁共振成像(Magnetic Resonance Imaging,MRI)、功能磁共振成像(Functional MRI,F(xiàn)MRI)、經(jīng)顱超聲檢查(Transcranial Sonography,TCS)、單光子發(fā)射計(jì)算機(jī)斷層成像(Single-Photon Emission Computed Tomography,SPECT)、正電子發(fā)射斷層成像(Position Emission Tomography,PET)和定量磁化圖(Quantitative Susceptibility Mapping,QSM)等單模態(tài)醫(yī)療數(shù)據(jù)被用來(lái)對(duì)帕金森病的輔助診斷進(jìn)行研究,并取得一些成果。文獻(xiàn)[18]開發(fā)了一種新穎的級(jí)聯(lián)多列算法框架,通過(guò)對(duì)單模態(tài)神經(jīng)影像學(xué)數(shù)據(jù)的分析來(lái)進(jìn)行帕金森病輔助診斷。文獻(xiàn)[19]中提出了用于檢測(cè)帕金森病中形態(tài)學(xué)生物標(biāo)記的基于多層次感興趣區(qū)域特征提取的機(jī)器學(xué)習(xí)方法,對(duì)帕金森病的形態(tài)計(jì)量生物標(biāo)志物具有很好的識(shí)別能力。文獻(xiàn)[20]使用支持向量機(jī)技術(shù)和基于單光發(fā)射計(jì)算機(jī)斷層掃描腦圖像的體素特征方法制定了一種用于帕金森病輔助診斷的全自動(dòng)計(jì)算解決方案。文獻(xiàn)[21]設(shè)計(jì)支持向量機(jī)方法結(jié)合胸帶重采樣技術(shù)進(jìn)行非分層的多類分類,并依據(jù)帕金森病患者的氟脫氧葡萄糖正電子發(fā)射斷層掃描數(shù)據(jù),區(qū)分帕金森病和系統(tǒng)萎縮癥。文獻(xiàn)[22]采用機(jī)器學(xué)習(xí)的方法分析FMRI 數(shù)據(jù),根據(jù)認(rèn)知狀態(tài)來(lái)區(qū)分帕金森病患者。

        另外,不少針對(duì)醫(yī)療圖像數(shù)據(jù)特征提取并選擇的技術(shù)也被用來(lái)研究帕金森病的輔助診斷。文獻(xiàn)[23]定量比較了基于TCS數(shù)據(jù)的計(jì)算機(jī)輔助診斷和3種大小的感興趣區(qū)域性能,對(duì)原始數(shù)據(jù)提取特征和降維特征的實(shí)驗(yàn)結(jié)果表明,覆蓋整個(gè)中腦區(qū)域的感興趣區(qū)域?qū)崿F(xiàn)了總體最佳的帕金森病診斷性能。文獻(xiàn)[24]中提出了通過(guò)核磁共振和擴(kuò)散張量成像數(shù)據(jù)進(jìn)行帕金森病診斷的聯(lián)合回歸和分類框架,并設(shè)計(jì)了統(tǒng)一的多任務(wù)特征選擇模型,以探索特征、樣本和臨床醫(yī)學(xué)病理知識(shí)之間的多種關(guān)系。文獻(xiàn)[25]通過(guò)MRI 數(shù)據(jù)輔助診斷帕金森病,實(shí)現(xiàn)了一種聯(lián)合特征樣本選擇方法,用于選擇樣本和特征的最佳子集。文獻(xiàn)[26]研究了一種用于帕金森病輔助診斷的迭代典型相關(guān)分析特征選擇方法,特點(diǎn)是以更全面的方式使用MRI數(shù)據(jù),并將不同類型的特征融合到一個(gè)公共空間中進(jìn)行分析和選擇。文獻(xiàn)[27]使用定量磁化圖從黑質(zhì)中提取放射學(xué)特征,并采用傳統(tǒng)機(jī)器學(xué)習(xí)算法對(duì)帕金森病患者與正常人進(jìn)行分類。

        此外,還有深度學(xué)習(xí)方法也被用來(lái)對(duì)帕金森病的輔助診斷進(jìn)行研究。文獻(xiàn)[28]中提出了一種深度神經(jīng)映射大幅度分布機(jī)器學(xué)習(xí)算法,該算法通過(guò)深度神經(jīng)網(wǎng)絡(luò)技術(shù)在大幅度分布中執(zhí)行核映射而非隱式核函數(shù)進(jìn)行帕金森病輔助診斷,可以克服核選擇的困難,并進(jìn)一步提高分類性能。文獻(xiàn)[29]通過(guò)卷積神經(jīng)網(wǎng)絡(luò)來(lái)自動(dòng)識(shí)別帕金森病患者,該深度學(xué)習(xí)采用的數(shù)據(jù)是通過(guò)由一系列可以提取信息的傳感器組成的智能筆,從個(gè)人實(shí)驗(yàn)測(cè)試期間的手寫動(dòng)態(tài)中提取信號(hào)并學(xué)習(xí)特征。文獻(xiàn)[30]研究了一種用深度學(xué)習(xí)技術(shù)輔助診斷帕金森病嚴(yán)重程度的方法,并在帕金森病人的遠(yuǎn)程監(jiān)控語(yǔ)音數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試。文獻(xiàn)[31]開發(fā)了基于深度學(xué)習(xí)的多巴胺轉(zhuǎn)運(yùn)蛋白成像解釋系統(tǒng),用來(lái)完善帕金森病的影像學(xué)診斷。該系統(tǒng)由帕金森病患者和正常人的影像數(shù)據(jù)訓(xùn)練而成,能夠顯示出高分類精度,也可對(duì)帕金森病不確定的患者進(jìn)行影像學(xué)診斷,并在進(jìn)一步的臨床研究中提供客觀的患者組分類。文獻(xiàn)[32]中提出了一種深層神經(jīng)網(wǎng)絡(luò)分類器,其中包含堆疊的自動(dòng)編碼器和Softmax 分類器,并在兩個(gè)有帕金森病患者語(yǔ)音障礙相關(guān)語(yǔ)音數(shù)據(jù)庫(kù)上進(jìn)行了模擬實(shí)驗(yàn),驗(yàn)證了深度神經(jīng)網(wǎng)絡(luò)分類器識(shí)別帕金森病患者的有效性。

        隨著對(duì)帕金森病發(fā)展的不斷研究和臨床醫(yī)學(xué)數(shù)據(jù)的日益積累,研究者們也開始嘗試使用多模態(tài)的醫(yī)學(xué)數(shù)據(jù)對(duì)帕金森病進(jìn)行智能診斷。文獻(xiàn)[33]中提出了一種深度學(xué)習(xí)方法,考慮到來(lái)自語(yǔ)音、手寫和步態(tài)的多模態(tài)數(shù)據(jù)信息,對(duì)開始或停止運(yùn)動(dòng)的困難進(jìn)行建模,并使用這些轉(zhuǎn)換來(lái)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)對(duì)帕金森病患者和健康受試者進(jìn)行分類。文獻(xiàn)[34]實(shí)現(xiàn)了一種基于多模態(tài)神經(jīng)影像數(shù)據(jù)的新型特征選擇方法,可用于帕金森病檢測(cè)和臨床診斷預(yù)測(cè)。文獻(xiàn)[35]通過(guò)25名帕金森病患者和25 位健康對(duì)照受試者的核磁共振全腦T1加權(quán)、彌散張量成像數(shù)據(jù)和神經(jīng)心理學(xué)評(píng)估數(shù)據(jù)(含語(yǔ)言記憶測(cè)試和視覺(jué)空間記憶測(cè)試),發(fā)現(xiàn)了無(wú)癡呆的帕金森病患者的聲明性記憶障礙可以通過(guò)彌散張量成像分析檢測(cè)到的海馬結(jié)構(gòu)的微結(jié)構(gòu)改變率來(lái)預(yù)測(cè)。文獻(xiàn)[36]研究了一種統(tǒng)計(jì)方法,用于分析多種模態(tài)的神經(jīng)影像數(shù)據(jù),以確定可將帕金森病患者與健康受試者區(qū)分開的特征,該方法基于彈性網(wǎng),執(zhí)行正則化和變量選擇,同時(shí)引入以簡(jiǎn)約性和可再現(xiàn)性為中心的附加條件,通過(guò)交叉驗(yàn)證進(jìn)行評(píng)估顯示出極高的準(zhǔn)確性,成功分離出與帕金森病相關(guān)的大腦區(qū)域。文獻(xiàn)[37]展示了一種基于通用規(guī)范相關(guān)分析的多視圖表示學(xué)習(xí)的方法,用于學(xué)習(xí)從筆跡和步態(tài)等多模態(tài)數(shù)據(jù)中提取特征的表示形式,可以用作基于語(yǔ)音特征的補(bǔ)充,有效解決了帕金森病患者與健康對(duì)照的分類等問(wèn)題。文獻(xiàn)[38]使用具有多種錄音類型的帕金森病相關(guān)語(yǔ)音數(shù)據(jù)集,并采用Softmax、神經(jīng)網(wǎng)絡(luò)、對(duì)數(shù)回歸和決策樹4 種技術(shù)對(duì)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行分類,得出神經(jīng)網(wǎng)絡(luò)方法識(shí)別帕金森病準(zhǔn)確率最高的結(jié)論。文獻(xiàn)[39]設(shè)計(jì)了一種多類型的機(jī)器學(xué)習(xí)模型框架,用于捕捉并補(bǔ)充帕金森病患者的語(yǔ)音樣本類型,并使用均值投票和多數(shù)投票的評(píng)估標(biāo)準(zhǔn)進(jìn)行了評(píng)估,表明了元音樣本具備帕金森病特征的補(bǔ)充信息。文獻(xiàn)[40]研究了如何通過(guò)個(gè)體持續(xù)的發(fā)聲和語(yǔ)音信號(hào)檢測(cè)帕金森氏病,依據(jù)持續(xù)性發(fā)聲和依賴文本的語(yǔ)音方式對(duì)帕金森病進(jìn)行篩查的信號(hào)數(shù)據(jù),使用隨機(jī)森林技術(shù)作為機(jī)器學(xué)習(xí)算法,用于單個(gè)特征集和決策級(jí)融合,最后將基于隨機(jī)森林的鄰近矩陣非線性投影到2D空間中,豐富了醫(yī)療決策支持。

        本文提出的基于醫(yī)療文本信息數(shù)據(jù)的帕金森病早期診斷預(yù)測(cè)研究,對(duì)單模態(tài)的醫(yī)療文本信息數(shù)據(jù)進(jìn)行聚類分析。不僅有效利用了醫(yī)療檢查過(guò)程中產(chǎn)生的各項(xiàng)人體指標(biāo)信息數(shù)據(jù),也在很大程度上挖掘了數(shù)據(jù)的特征信息。該應(yīng)用方法可以根據(jù)醫(yī)療文本數(shù)據(jù)所具有的文字信息來(lái)判斷被檢查人是否患有帕金森病,也可以預(yù)測(cè)患病原因是否與其體內(nèi)黑質(zhì)多巴胺能神經(jīng)元含量多少有關(guān)。

        2 本文方法

        本章主要介紹PCA、相關(guān)聚類算法和聚類集成等技術(shù),并重點(diǎn)闡述了PCA 降維不同維度空間后結(jié)合聚類、聚類集成等方法處理數(shù)據(jù)的具體算法過(guò)程。

        2.1 主成分分析PCA

        針對(duì)醫(yī)學(xué)文本數(shù)據(jù)特征維度數(shù)量多且復(fù)雜的情況,需對(duì)其數(shù)據(jù)維度進(jìn)行降維處理。數(shù)據(jù)降維方法主要有兩種:無(wú)監(jiān)督降維和有監(jiān)督降維。對(duì)于無(wú)監(jiān)督的方法,數(shù)據(jù)的標(biāo)簽不能被標(biāo)記,這意味著只能通過(guò)學(xué)習(xí)樣本之間的相似特征來(lái)對(duì)數(shù)據(jù)樣本進(jìn)行分類或聚類;而對(duì)于有監(jiān)督的方法,類標(biāo)簽學(xué)習(xí)被認(rèn)為可以獲得更穩(wěn)健分類或聚類結(jié)果??紤]到臨床實(shí)際和研究目標(biāo),本文選擇無(wú)監(jiān)督降維處理。無(wú)監(jiān)督降維技術(shù)有很多,如PCA、獨(dú)立成分分析和非負(fù)矩陣分解等。PCA 主要采用數(shù)學(xué)降維的方法,以綜合變量來(lái)代替原來(lái)眾多的變量,使得綜合變量能盡可能地代表原來(lái)變量的信息量,而且彼此之間互不相關(guān)。這種把很多個(gè)變量轉(zhuǎn)化為少數(shù)幾個(gè)互相無(wú)關(guān)的綜合變量的統(tǒng)計(jì)分析方法叫作主成分分析或主分量分析。對(duì)文本數(shù)據(jù)信息特征的降維處理,最佳的選擇是主成分分析即PCA 方法,因?yàn)镻CA 降維能夠在保留數(shù)據(jù)集中大部分特征的同時(shí)降低數(shù)據(jù)的維數(shù)[11]。

        2.2 聚類方法

        1)K-Means 算法是聚類問(wèn)題的基本方法之一。這是一種基于簇元素的重心表示簇的方法。K-Means 算法將用戶輸入系統(tǒng)的數(shù)據(jù)簇分為n個(gè)數(shù)據(jù)簇和K個(gè)用戶再次輸入的數(shù)據(jù)簇[12]。

        2)K-Medoids算法只需計(jì)算一次距離矩陣,就可以在每次迭代中找到新的中心點(diǎn),并使得中心和集群其他部分之間的距離之和最小化[13]。

        3)GMM 主要用來(lái)估計(jì)樣本的概率密度分布,估計(jì)模型是幾個(gè)高斯模型的加權(quán)和,每個(gè)高斯模型代表一個(gè)簇。從樣本數(shù)據(jù)在高斯模型上的投影中分別得到每個(gè)類的概率,并選擇概率最大的類作為決策結(jié)果[14]。GMM被定義如下:

        其中:參數(shù)K是模型個(gè)數(shù);πk是高斯權(quán)重;p(x|k)是高斯模型排序到k的概率密度。

        4)AP方法將數(shù)據(jù)點(diǎn)對(duì)點(diǎn)之間的相似度作為輸入度量,在數(shù)據(jù)點(diǎn)之間交換實(shí)值消息,直到一組高質(zhì)量的示例和相應(yīng)的集群逐漸出現(xiàn)[15]。置信度被定義如下:

        其中:以點(diǎn)i和點(diǎn)k之間的相似度r(i,k)作為聚類中心的輸入,減去點(diǎn)i和其他所有候選聚類中心的最大相似度。

        歸屬度a(i,k)被定義如下:

        其中歸屬度a(i,k)設(shè)置為自吸引度r(k,k)與從其他點(diǎn)接收的候選聚類中心k點(diǎn)的正吸引度之和。

        5)譜聚類(SC)是從圖論中演化出來(lái)的算法,后來(lái)在聚類中得到了廣泛的應(yīng)用。它的主要思想是把所有的數(shù)據(jù)看作空間中的點(diǎn),這些點(diǎn)之間可以用邊連接起來(lái)。距離較遠(yuǎn)的兩個(gè)點(diǎn)之間的邊權(quán)重值較低,而距離較近的兩個(gè)點(diǎn)之間的邊權(quán)重值較高,通過(guò)對(duì)所有數(shù)據(jù)點(diǎn)組成的圖進(jìn)行切圖,讓切圖后不同的子圖間邊權(quán)重和盡可能地低,而子圖內(nèi)的邊權(quán)重和盡可能地高,從而達(dá)到聚類的目的。由于本身使用了降維,因此相較于傳統(tǒng)聚類算法,該方法降低了處理高維數(shù)據(jù)聚類的復(fù)雜度[16]。

        2.3 聚類集成方法

        1)CSPA將每個(gè)數(shù)據(jù)點(diǎn)表示成一個(gè)頂點(diǎn),兩個(gè)點(diǎn)被分在同一個(gè)圖中的次數(shù)占聚類集體中成員個(gè)數(shù)的比例為相應(yīng)兩頂點(diǎn)間邊的權(quán)重,這樣根據(jù)一個(gè)聚類集體生成一個(gè)圖后,再利用圖形劃分算法來(lái)得到最終聚類結(jié)果,其時(shí)間復(fù)雜性是二次的[17]。

        2)MCLA 則是將每個(gè)簇當(dāng)成頂點(diǎn),簇之間擁有的相同數(shù)據(jù)點(diǎn)數(shù)占所有數(shù)據(jù)的比例作為這兩個(gè)頂點(diǎn)間邊的權(quán)重,然后在此基礎(chǔ)上再利用圖形劃分算法將簇劃分成不同的組,最后每個(gè)點(diǎn)根據(jù)它在不同組中出現(xiàn)的次數(shù)來(lái)選擇它所在的組從而構(gòu)成最終的聚類集成結(jié)果,其時(shí)間復(fù)雜性是一次的[17]。

        3)HGPA 把聚類集體中的每個(gè)簇表示成一條超邊,它連接所有在此簇中的數(shù)據(jù)點(diǎn),每條超邊權(quán)重一樣,然后利用超圖劃分算法得到最終聚類結(jié)果,其時(shí)間復(fù)雜性是一次的[17]。

        2.4 聚類評(píng)估指標(biāo)

        1)聚類精確率(ACCuracy,ACC):ACC是聚類結(jié)果的近似值,可以用來(lái)評(píng)價(jià)聚類的準(zhǔn)確性。ACC定義如下:

        其中Nk是正確分類到每個(gè)類的數(shù)據(jù)項(xiàng)數(shù)。ACC越大,聚類性能越好[41]。

        2)標(biāo)準(zhǔn)互信息(Normalized Mutual Information,NMI):互信息(Mutual Information,MI)是用來(lái)衡量?jī)蓚€(gè)數(shù)據(jù)分布的吻合程度,并計(jì)算正確率。MI的定義如下:

        NMI是MI的標(biāo)準(zhǔn)化,用熵作為分母將互信息調(diào)整到[0,1]內(nèi),可用于聚類評(píng)價(jià),定義[41]如下:

        3)F1 值是精確率和召回率的調(diào)和平均值,可以準(zhǔn)確地評(píng)價(jià)聚類算法的性能。F1值的定義如下:

        其中:P、R分別表示聚類算法的精確率和召回率[41]。

        4)調(diào)整蘭德系數(shù)(Adjusted Rand Index,ARI):蘭德指數(shù)(Rand Index,RI)需要給出實(shí)際的類別信息C,假設(shè)K是聚類結(jié)果,a表示C和K中同一類別元素的對(duì)數(shù),b表示C和K中不同類別元素的對(duì)數(shù),RI指數(shù)公式如下:

        ARI的取值范圍是[-1,1],值越大,聚類結(jié)果越符合實(shí)際情況。廣義上講,ARI是衡量?jī)蓚€(gè)數(shù)據(jù)分布的匹配程度[41]。

        2.5 數(shù)據(jù)處理算法過(guò)程

        本文醫(yī)療文本數(shù)據(jù)被處理的整個(gè)算法過(guò)程如下:

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        本文所用的實(shí)驗(yàn)數(shù)據(jù)來(lái)源于PPMI 平臺(tái)提供的公開文本數(shù)據(jù)集,共1 783 條數(shù)據(jù)記錄,135 個(gè)特征。由于49 個(gè)特征存在數(shù)據(jù)缺失,最終選取了86 個(gè)有效特征,其中有代表性的10個(gè)特征說(shuō)明如表1[10]所示。另外,針對(duì)表1 中特征gds 與p-tau之間的關(guān)系,樣本數(shù)據(jù)分布如圖1 所示,同樣,gds 與rem 特征聯(lián)系反映的樣本分布如圖2所示。

        表1 特征變量說(shuō)明Tab.1 Description of feature variables

        圖1 基于腦脊液p-tau值與抑郁癥評(píng)分值的樣本分布Fig.1 Sample distribution based on ptau and gds

        圖2 基于腦脊液p-tau值與睡眠行為障礙評(píng)分值的樣本分布Fig.2 Sample distribution based on ptau and rem

        3.2 實(shí)驗(yàn)設(shè)置

        所有實(shí)驗(yàn)均在一臺(tái)工作站(Intel Core i7-3337U CPU@1.80 GHz,內(nèi)存8 GB)上操作運(yùn)行。首先,本文使用ActivePython-2.7.13.2716 軟件和Python 代碼來(lái)處理原始數(shù)據(jù)集,得到1 783 個(gè)數(shù)據(jù)樣本,并選擇了86 個(gè)有效特征;然后,應(yīng)用PCA 方法將86 個(gè)特征分別降維到80、70、60、50、40、30、20 和10 共計(jì)8 個(gè)不同維度的維度空間;其次,選擇K-Means、K-Medoids、GMM、AP 和SC 共5 種不同聚類方法對(duì)8 個(gè)維度空間數(shù)據(jù)進(jìn)行聚類,并采用CSPA、MCLA 和HGPA 共3 種聚類集成方法對(duì)前面5 種聚類算法進(jìn)行聚類集成,同時(shí)采用ACC、NMI、F1 和ARI共4 個(gè)指標(biāo)在Matlab R2014a 軟件平臺(tái)上評(píng)價(jià)聚類性能;最后,本研究比較了5 個(gè)聚類方法和3 個(gè)聚類集成的實(shí)驗(yàn)結(jié)果。整體實(shí)驗(yàn)設(shè)計(jì)流程如圖3所示。

        圖3 實(shí)驗(yàn)設(shè)計(jì)流程Fig.3 Flowchart of experimental design.

        3.3 實(shí)驗(yàn)結(jié)果

        本節(jié)描述了不同維度的聚類實(shí)驗(yàn)結(jié)果。

        K-Means、K-Medoids、GMM、AP、SC 共5 種不同聚類方法及CSPA、MCLA 和HGPA 共3 種聚類集成在8 個(gè)不同維度即80、70、60、50、40、30、20和10的維度空間上的聚類結(jié)果如表2所示。從表2 可看出,5 個(gè)聚類和3 個(gè)聚類集成方法在不同維度上的ACC、NMI、F1 和ARI最佳性能值已被重點(diǎn)標(biāo)注。不同維度上的評(píng)價(jià)指標(biāo)最高值大小不同,不同維度范圍下對(duì)應(yīng)評(píng)價(jià)性能最好的聚類算法也有所差異。當(dāng)特征維度大于40 時(shí),SC 的ACC和F1 值效果最好;當(dāng)特征維度取70 時(shí),ACC值達(dá)到0.614 1;當(dāng)特征維度選擇小于40 時(shí),GMM 的4 項(xiàng)評(píng)價(jià)指標(biāo)都表現(xiàn)優(yōu)異;而當(dāng)特征維度取30時(shí),GMM 的4項(xiàng)指標(biāo)性能最佳,其中ACC值達(dá)到0.891 2;在3 個(gè)聚類集成方法中,不論維度取多少,MCLA 的兩項(xiàng)指標(biāo)ACC和F1 值均表現(xiàn)最好,當(dāng)特征維度取80時(shí),ACC值達(dá)到0.596 2。

        8 個(gè)維度空間上GMM 與SC 聚類算法識(shí)別樣本數(shù)據(jù)準(zhǔn)確度效果,比較結(jié)果如圖4 所示;3 個(gè)聚類集成方法在每個(gè)維度上的最高值表現(xiàn)如圖5所示。

        圖4 GMM和SC在8個(gè)特征維度上的聚類性能比較Fig.4 Clustering performance comparison between GMM and SC on 8 feature dimensions

        圖5 聚類集成方法在8個(gè)特征維度上的聚類性能比較Fig.5 Clustering performance comparison of clustering ensemble methods on 8 feature dimensions

        從圖4 中分析得知,GMM 在維度取30 時(shí),聚類準(zhǔn)確度在所有維度上的5 個(gè)聚類算法中取值最大,明顯高于SC 在維度為70 時(shí)的準(zhǔn)確度;從圖5 可看出,MCLA 聚類集成方法在3 個(gè)聚類集成中每個(gè)維度上的準(zhǔn)確度值都是最大的。

        4 結(jié)語(yǔ)

        本文進(jìn)行了基于醫(yī)療文本數(shù)據(jù)聚類的帕金森病早期診斷預(yù)測(cè)研究。首先對(duì)PPMI 平臺(tái)提供的公開醫(yī)療文本數(shù)據(jù)集進(jìn)行預(yù)處理后,選擇有效的86 個(gè)數(shù)據(jù)特征;為降低數(shù)據(jù)復(fù)雜度,結(jié)合PCA 方法分別對(duì)原始數(shù)據(jù)進(jìn)行80、70、60、50、40、30、20和10 不同維度的降維;最后引用K-Means、K-Medoids、GMM、AP 和SC 聚類方法對(duì)8 個(gè)維度空間數(shù)據(jù)進(jìn)行聚類,并使用了CSPA、MCLA 和HGPA 聚類集成方法。在ACC、NMI、F1和ARI聚類評(píng)估指標(biāo)上的實(shí)驗(yàn)結(jié)果顯示,得出醫(yī)療文本數(shù)據(jù)特征維度降維到30 時(shí),GMM 聚類效果最佳的結(jié)論,準(zhǔn)確度達(dá)到89.1%,能夠有效識(shí)別多巴胺異常帕金森病患者、健康體和無(wú)多巴胺缺失帕金森病患者。

        表2 不同聚類方法在不同維度的實(shí)驗(yàn)結(jié)果Tab.2 Experimental results of different clustering algorithms on different feature dimensions

        猜你喜歡
        帕金森病特征方法
        手抖一定是帕金森病嗎
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        帕金森病科普十問(wèn)
        活力(2019年22期)2019-03-16 12:47:04
        抓住特征巧觀察
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        帕金森病的治療
        捕魚
        国产av人人夜夜澡人人爽| 久久老熟女一区二区三区| 97超碰精品成人国产| 日本最新免费二区三区| 久久久久亚洲精品天堂| 骚片av蜜桃精品一区| 在线观看免费视频发布白白色| 青青草骚视频在线观看| 在线涩涩免费观看国产精品| 91精品福利观看| 久久熟女乱一区二区三区四区| 极品少妇人妻一区二区三区| 国产乱人对白| 69久久夜色精品国产69| 蜜臀av在线播放一区二区三区| 伊人久久五月丁香综合中文亚洲| 99热成人精品国产免国语的| 日本黄色特级一区二区三区| 国产精品婷婷久久爽一下| 日本理伦片午夜理伦片| av色综合网站| 国产精品中文字幕日韩精品 | 日本一区二区三区清视频| 护士的小嫩嫩好紧好爽| 理论片87福利理论电影| 成年女人窝窝视频| 高清不卡日本v二区在线 | 日本精品一区二区三区在线观看| 国产精品a免费一区久久电影| 国产午夜成人久久无码一区二区| 国产日产久久福利精品一区| 亚洲精品国产成人久久av| 国产精成人品日日拍夜夜免费| 午夜不卡av免费| 久久精品国产亚洲av大全相关| 青青久久精品一本一区人人| 日本va欧美va精品发布| 中文字幕亚洲欧美日韩在线不卡 | 亚洲成人av一区二区| 日韩精品真人荷官无码| 国产福利午夜波多野结衣|