冉恩慈 李坤 趙維祥 王康 王晨星
摘要:瘧疾患兒眼底OCT圖像中出血點(diǎn)的面積及相對(duì)位置,抽取成為一個(gè)48維的特征向量。K-means聚類方法是常用的經(jīng)典無監(jiān)督學(xué)習(xí)方法,計(jì)算各樣本在特征空間內(nèi)的位置,根據(jù)樣本點(diǎn)的相對(duì)位置關(guān)系自動(dòng)聚類,形成不同的分類。通過在此特征向量空間應(yīng)用K-means聚類方法,對(duì)所有樣本進(jìn)行聚類操作。實(shí)驗(yàn)結(jié)果表明,單純分析聚類的效果還不錯(cuò),但與實(shí)際治療效果相比較,則分類準(zhǔn)確率較低。這說明,K-means聚類方法的適應(yīng)能力不強(qiáng),更適合不同類樣本在特征空間內(nèi)的聚類中心差距較大的情況,若不同類樣本在特征空間內(nèi)混疊比較嚴(yán)重,則聚類結(jié)果與真實(shí)的分類結(jié)果可能存在較大偏差。
關(guān)鍵詞:K均值聚類;無監(jiān)督學(xué)習(xí);眼底OCT;瘧疾;空間建模方法
1.引言
瘧疾是一種因瘧原蟲感染引發(fā)的蟲媒傳染病,寒戰(zhàn)、出汗和發(fā)燒等癥狀會(huì)周期性發(fā)作,存在一定的死亡風(fēng)險(xiǎn)。目前,已有治療瘧疾的特效藥,可以獲得較好的治療效果,但在醫(yī)療條件較差、藥品短缺的非洲部分地區(qū),瘧疾依然是兒童早夭的主要原因之一。因此,研究預(yù)測(cè)瘧疾患兒的方法,將有限的醫(yī)療資源用在最需要的人身上是非常有意義的工作。
K均值聚類算法[1]是解決聚類問題的一種無監(jiān)督學(xué)習(xí)方法,對(duì)處理大數(shù)據(jù)集問題具有可伸縮性和高效性的特點(diǎn),當(dāng)簇接近高斯分布時(shí)效果較好。在K均值聚類算法中,首先需要根據(jù)初始聚類中心來確定一個(gè)初始劃分,然后對(duì)初始劃分對(duì)聚類進(jìn)行優(yōu)化。Bu等人[2]主要研究K均值聚類算法在動(dòng)態(tài)問題中的性能表現(xiàn)并取得一定的成果。Liu等人[3]將K均值聚類算法和SVM支持向量機(jī)結(jié)合起來,在其中引入核的概念,并取得了較好的效果。Nguyen等人[4]將啟發(fā)式算法融合到K均值聚類算法中,研究改進(jìn)型的啟發(fā)式K均值聚類算法并取得了一定的成就。Qin等人[5]將K均值聚類算法應(yīng)用到傳感器網(wǎng)絡(luò)上,并取得了較好的效果。陳吉成等人[6]將K均值聚類算法應(yīng)用在社區(qū)檢測(cè)領(lǐng)域,將多關(guān)系網(wǎng)絡(luò)解讀為三階張量,再將應(yīng)用Rescal分解得到的結(jié)果作為進(jìn)化K均值聚類算法的輸入。張鴻雁等人[7]為避免初始聚類中心陷入局部最優(yōu),孤立點(diǎn)影響聚類準(zhǔn)確性,結(jié)合分裂式思想,提出一種基于密度加權(quán)的K均值聚類算法。周玉等人[8]為了提高神經(jīng)網(wǎng)絡(luò)分類器的性能,提出一種基于K均值聚類的分段樣本數(shù)據(jù)選擇方法。
本文的工作是將患兒眼底OCT圖像的規(guī)格化數(shù)據(jù)直接作為K均值聚類方法的輸入,再將聚類結(jié)果與真實(shí)的治療結(jié)果進(jìn)行比對(duì),從而得出分類的準(zhǔn)確率。第2節(jié)先對(duì)問題進(jìn)行描述,并介紹如何處理眼底OCT圖像,以及將處理結(jié)果帶入K均值聚類算法的過程。第3節(jié)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。第4節(jié)給出本文的研究結(jié)論及展望。
2.問題描述
在臨床實(shí)踐中,瘧疾患兒多伴有眼底出血。通過患兒入院時(shí)的眼底OCT圖像,可對(duì)其眼底出血的情況有一個(gè)大致了解。Gabriela Czanner等[9]提出了一種空間建模方法,用以標(biāo)識(shí)患兒眼底出血情況的空間分布和嚴(yán)重程度。在此空間模型下,計(jì)算患兒眼底OCT圖像中的出血點(diǎn)面積占其所在區(qū)塊的比例,進(jìn)而將每一幅圖像規(guī)格化為一個(gè)48維向量,且每個(gè)維度上的取值范圍都是[0,1]。目前已有的132個(gè)患兒數(shù)據(jù)對(duì)應(yīng)的最后治療結(jié)果分為三類:完全康復(fù)、留有后遺癥和死亡。
K均值聚類方法的主要參數(shù)有:聚類數(shù)目N,距離定義和初始聚類中心的產(chǎn)生方法。聚類數(shù)目是一個(gè)正整數(shù),本文中采用三種不同的分類設(shè)置方法:I.按照實(shí)際治療結(jié)果分為3類,N=3;II.分為兩類:生還(包括完全康復(fù)和留有后遺癥)和死亡,N=2;III.分為兩類:完全康復(fù)和未完全康復(fù)(留有后遺癥和死亡),N=2。距離定義:歐氏距離、曼哈頓距離和余弦距離。初始聚類中心產(chǎn)生方法:引入已有的聚類中心、隨機(jī)生產(chǎn)聚類中心。
3.實(shí)驗(yàn)結(jié)果及分析
測(cè)試數(shù)據(jù)集共有132個(gè)病例,其中90個(gè)病例完全康復(fù),24個(gè)病例留有后遺癥,18個(gè)病例死亡;生還病例114個(gè),死亡病例18個(gè);完全康復(fù)病例90個(gè),未完全康復(fù)病例42個(gè)。實(shí)驗(yàn)通過調(diào)用MATLAB的內(nèi)置函數(shù)kmeans( )實(shí)現(xiàn)K均值聚類算法,按照前述3種不同的分類設(shè)置方法分別進(jìn)行聚類,并要求每組參數(shù)設(shè)置重復(fù)10次取最優(yōu)結(jié)果,然后進(jìn)行對(duì)比分析。實(shí)驗(yàn)結(jié)果如下:
I. 在前述第(I)中分類設(shè)置方法下,根據(jù)初始聚類中心是否隨機(jī)產(chǎn)生分兩類情況進(jìn)行測(cè)試。初始聚類中心隨機(jī)產(chǎn)生的前提下,分別測(cè)試樣本集在歐氏距離、曼哈頓距離和余弦距離下的聚類結(jié)果,如圖1所示。
此外,分類準(zhǔn)確率和最佳距離總和如表1所示:
II. 在前述第(II)中分類設(shè)置方法下,根據(jù)初始聚類中心是否隨機(jī)產(chǎn)生分兩類情況進(jìn)行測(cè)試。初始聚類中心隨機(jī)產(chǎn)生的前提下,分別測(cè)試樣本集在歐氏距離、曼哈頓距離和余弦距離下的聚類結(jié)果,如圖2所示。
此外,分類準(zhǔn)確率和最佳距離總和如表2所示:
III. 在前述第(III)中分類設(shè)置方法下,根據(jù)初始聚類中心是否隨機(jī)產(chǎn)生分兩類情況進(jìn)行測(cè)試。初始聚類中心隨機(jī)產(chǎn)生的前提下,分別測(cè)試樣本集在歐氏距離、曼哈頓距離和余弦距離下的聚類結(jié)果,如圖3所示。
此外,分類準(zhǔn)確率和最佳距離總和如表3所示:
針對(duì)以上實(shí)驗(yàn)結(jié)果需要做出幾點(diǎn)說明:
第一、圖1至3中的Silhouette Value是衡量某個(gè)樣本點(diǎn)與它屬聚類相較于其它聚類的相似程度的指標(biāo)。其數(shù)值本身是被規(guī)格化的,取值范圍[-1,1],值越大(趨近1)表明這個(gè)結(jié)點(diǎn)更匹配其屬聚類而不與相鄰的聚類匹配。但是,Silhouette Value是可以根據(jù)任意距離度量,如:歐氏距離、余弦距離等。
第二、K均值聚類算法是將所有樣本進(jìn)行聚類,聚類結(jié)果1、2、3與實(shí)際治療的效果并無確定的對(duì)應(yīng)關(guān)系。本文在計(jì)算表1至3的準(zhǔn)確率時(shí)采用的是按照遍歷所有可能的對(duì)應(yīng)關(guān)系,然后取準(zhǔn)確率最高的一項(xiàng)作為本次聚類結(jié)果的準(zhǔn)確率。
第三、表1至3中的最佳距離總和是在各自距離定義下進(jìn)行計(jì)算,在不同的距離定義之間,最佳距離總和不具備可比性。
第四、所謂隨機(jī)初始聚類中心是指聚類中心坐標(biāo)隨機(jī)產(chǎn)生,按照K均值聚類算法的要求依次迭代,直到取得符合要求的聚類效果為止。給定初始聚類中心是指將已知的各類樣本的聚類中心坐標(biāo)計(jì)算出來,作為初值輸入到K均值聚類算法中,但后面仍需按要求迭代,直到取得符合要求的聚類效果為止。
根據(jù)以上實(shí)驗(yàn)結(jié)果可知,在第(I)種分類設(shè)置方法下,無論是聚類效果(Silhouette Value)還是分類準(zhǔn)確率,都不如第(II)和(III)種分類設(shè)置方法,這個(gè)主要是因?yàn)槿诸惖碾y度遠(yuǎn)大于二分類所致。此外,在歐氏距離、曼哈頓距離和余弦距離這三種不同的距離下,可以看出無論是哪種分類設(shè)置方法,余弦距離的聚類效果最好(Silhouette Value數(shù)值整體最高)。然而,在比較分類準(zhǔn)確率時(shí),無論在哪種分類設(shè)置方法下,余弦距離的表現(xiàn)都不好。這是因?yàn)榫垲惙椒ㄊ且环N無監(jiān)督學(xué)習(xí)的方法,其按照既有的標(biāo)準(zhǔn)(最佳距離總和最?。﹣砼袛嗑垲愋Ч?,而分類是有明確的分類目標(biāo)的,聚類結(jié)果與分類結(jié)果的差異在于兩者之間的標(biāo)準(zhǔn)不同。
4.結(jié)論與展望
綜上所述,K-means聚類算法比較適合不同類樣本在特征空間內(nèi)的聚類中心差距較大的情況,若不同類樣本在特征空間內(nèi)混疊比較嚴(yán)重,則聚類結(jié)果與真實(shí)的分類結(jié)果可能存在較大偏差。對(duì)已有實(shí)際分類結(jié)果的問題而言,如在現(xiàn)有的距離定義下,難以解決樣本混疊的問題,可以考慮開發(fā)一種新的更靈活的距離定義,使距離定義自身具備自適應(yīng)調(diào)整的能力,根據(jù)已有信息進(jìn)行自適應(yīng)調(diào)整,使之可以解決樣本混疊的問題,取得較好的分類效果。
參考文獻(xiàn):
[1]Govender,P,Sivakumar,V,Application of k-means and hierarchical clustering techniques for analysis of air pollution:A review(1980-2019)[J],ATMOSPHERIC POLLUTION RESEARCH,2020,11(1):40-56
[2]Bu,Z,Li,HJ,Zhang,CC,Cao,J,Li,AH,Shi,Y,Graph K-means Based on Leader Identification,Dynamic Game,and Opinion Dynamics[J],IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING,2020,32(7):1348-1361
[3]Liu,XW,Zhu,XZ,Li,MM,Wang,L,Zhu,E,Liu,TL,Kloft,M,Shen,DG,Yin,JP,Gao,W,Multiple Kernel k-Means with Incomplete Kernels[J],IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,2020,42(5):1191-1204
[4]Nguyen,H,Bui,XN,Tran,QH,Mai,NL,AF Hoang Nguyen,Xuan-Nam Bui,Quang-Hieu Tran,Ngoc-Luan Mai,A new soft computing model for estimating and controlling blast-produced ground vibration based on Hierarchical K-means clustering and Cubist algorithms[J],APPLIED SOFT COMPUTING,2019,77:376-386
[5]Qin,JH,F(xiàn)u,WM,Gao,HJ,Zheng,WX,Distributed k-Means Algorithm and Fuzzy c-Means Algorithm for Sensor Networks Based on Multiagent Consensus Theory[J],IEEE TRANSACTIONS ON CYBERNETICS,2017,47(3):772-783;
[6]陳吉成,陳鴻昶,基于張量建模和進(jìn)化K均值聚類的社區(qū)檢測(cè)方法[J],計(jì)算機(jī)應(yīng)用,2021,1-8,@ 1001-9081
[7]張鴻雁,杜文鋒,武麗芬,基于密度加權(quán)的分裂式K均值聚類算法[J],計(jì)算機(jī)仿真,2021,38(04):254-257
[8]周玉,孫紅玉,朱文豪,任欽差,基于K均值聚類的分段樣本數(shù)據(jù)選擇方法[J],計(jì)算機(jī)應(yīng)用研究,2021,38(06):1683-1688
[9]AU MacCormick,IJC,Williams,BM,Zheng,Y,Li,K,Al-Bander,B,Czanner,S,Cheeseman,R,Willoughby,CE,Brown,EN,Spaeth,GL,Czanner,G,Accurate,fast,data efficient and interpretable glaucoma diagnosis with automated spatial analysis of the whole cup to disc profile[J],PLOS ONE,2019,14(1):
通訊作者,講師,博士,國(guó)家大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練項(xiàng)目(S202010439003)指導(dǎo)教師,山東省自然科學(xué)基金聯(lián)合專項(xiàng)(ZR2016FL05)主持人。
(本文工作在國(guó)家大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練項(xiàng)目(S202010439003)和山東省自然科學(xué)基金聯(lián)合專項(xiàng)(ZR2016FL05)的資助下完成。)