亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

K-means聚類方法在瘧疾患兒死亡率預(yù)測(cè)中的性能表現(xiàn)分析

2021-09-10 14:51:19冉恩慈李坤趙維祥王康王晨星

智慧醫(yī)學(xué) 2021年4期

關(guān)鍵詞：瘧疾

冉恩慈李坤趙維祥王康王晨星

摘要：瘧疾患兒眼底OCT圖像中出血點(diǎn)的面積及相對(duì)位置，抽取成為一個(gè)48維的特征向量。K-means聚類方法是常用的經(jīng)典無監(jiān)督學(xué)習(xí)方法，計(jì)算各樣本在特征空間內(nèi)的位置，根據(jù)樣本點(diǎn)的相對(duì)位置關(guān)系自動(dòng)聚類，形成不同的分類。通過在此特征向量空間應(yīng)用K-means聚類方法，對(duì)所有樣本進(jìn)行聚類操作。實(shí)驗(yàn)結(jié)果表明，單純分析聚類的效果還不錯(cuò)，但與實(shí)際治療效果相比較，則分類準(zhǔn)確率較低。這說明，K-means聚類方法的適應(yīng)能力不強(qiáng)，更適合不同類樣本在特征空間內(nèi)的聚類中心差距較大的情況，若不同類樣本在特征空間內(nèi)混疊比較嚴(yán)重，則聚類結(jié)果與真實(shí)的分類結(jié)果可能存在較大偏差。

關(guān)鍵詞：K均值聚類;無監(jiān)督學(xué)習(xí);眼底OCT;瘧疾;空間建模方法

1.引言

瘧疾是一種因瘧原蟲感染引發(fā)的蟲媒傳染病，寒戰(zhàn)、出汗和發(fā)燒等癥狀會(huì)周期性發(fā)作，存在一定的死亡風(fēng)險(xiǎn)。目前，已有治療瘧疾的特效藥，可以獲得較好的治療效果，但在醫(yī)療條件較差、藥品短缺的非洲部分地區(qū)，瘧疾依然是兒童早夭的主要原因之一。因此，研究預(yù)測(cè)瘧疾患兒的方法，將有限的醫(yī)療資源用在最需要的人身上是非常有意義的工作。

K均值聚類算法[1]是解決聚類問題的一種無監(jiān)督學(xué)習(xí)方法，對(duì)處理大數(shù)據(jù)集問題具有可伸縮性和高效性的特點(diǎn)，當(dāng)簇接近高斯分布時(shí)效果較好。在K均值聚類算法中，首先需要根據(jù)初始聚類中心來確定一個(gè)初始劃分，然后對(duì)初始劃分對(duì)聚類進(jìn)行優(yōu)化。Bu等人[2]主要研究K均值聚類算法在動(dòng)態(tài)問題中的性能表現(xiàn)并取得一定的成果。Liu等人[3]將K均值聚類算法和SVM支持向量機(jī)結(jié)合起來，在其中引入核的概念，并取得了較好的效果。Nguyen等人[4]將啟發(fā)式算法融合到K均值聚類算法中，研究改進(jìn)型的啟發(fā)式K均值聚類算法并取得了一定的成就。Qin等人[5]將K均值聚類算法應(yīng)用到傳感器網(wǎng)絡(luò)上，并取得了較好的效果。陳吉成等人[6]將K均值聚類算法應(yīng)用在社區(qū)檢測(cè)領(lǐng)域，將多關(guān)系網(wǎng)絡(luò)解讀為三階張量，再將應(yīng)用Rescal分解得到的結(jié)果作為進(jìn)化K均值聚類算法的輸入。張鴻雁等人[7]為避免初始聚類中心陷入局部最優(yōu)，孤立點(diǎn)影響聚類準(zhǔn)確性，結(jié)合分裂式思想，提出一種基于密度加權(quán)的K均值聚類算法。周玉等人[8]為了提高神經(jīng)網(wǎng)絡(luò)分類器的性能，提出一種基于K均值聚類的分段樣本數(shù)據(jù)選擇方法。

本文的工作是將患兒眼底OCT圖像的規(guī)格化數(shù)據(jù)直接作為K均值聚類方法的輸入，再將聚類結(jié)果與真實(shí)的治療結(jié)果進(jìn)行比對(duì)，從而得出分類的準(zhǔn)確率。第2節(jié)先對(duì)問題進(jìn)行描述，并介紹如何處理眼底OCT圖像，以及將處理結(jié)果帶入K均值聚類算法的過程。第3節(jié)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。第4節(jié)給出本文的研究結(jié)論及展望。

2.問題描述

在臨床實(shí)踐中，瘧疾患兒多伴有眼底出血。通過患兒入院時(shí)的眼底OCT圖像，可對(duì)其眼底出血的情況有一個(gè)大致了解。Gabriela Czanner等[9]提出了一種空間建模方法，用以標(biāo)識(shí)患兒眼底出血情況的空間分布和嚴(yán)重程度。在此空間模型下，計(jì)算患兒眼底OCT圖像中的出血點(diǎn)面積占其所在區(qū)塊的比例，進(jìn)而將每一幅圖像規(guī)格化為一個(gè)48維向量，且每個(gè)維度上的取值范圍都是[0，1]。目前已有的132個(gè)患兒數(shù)據(jù)對(duì)應(yīng)的最后治療結(jié)果分為三類：完全康復(fù)、留有后遺癥和死亡。

K均值聚類方法的主要參數(shù)有：聚類數(shù)目N，距離定義和初始聚類中心的產(chǎn)生方法。聚類數(shù)目是一個(gè)正整數(shù)，本文中采用三種不同的分類設(shè)置方法：I.按照實(shí)際治療結(jié)果分為3類，N=3;II.分為兩類：生還（包括完全康復(fù)和留有后遺癥）和死亡，N=2;III.分為兩類：完全康復(fù)和未完全康復(fù)（留有后遺癥和死亡），N=2。距離定義：歐氏距離、曼哈頓距離和余弦距離。初始聚類中心產(chǎn)生方法：引入已有的聚類中心、隨機(jī)生產(chǎn)聚類中心。

3.實(shí)驗(yàn)結(jié)果及分析

測(cè)試數(shù)據(jù)集共有132個(gè)病例，其中90個(gè)病例完全康復(fù)，24個(gè)病例留有后遺癥，18個(gè)病例死亡;生還病例114個(gè)，死亡病例18個(gè);完全康復(fù)病例90個(gè)，未完全康復(fù)病例42個(gè)。實(shí)驗(yàn)通過調(diào)用MATLAB的內(nèi)置函數(shù)kmeans（）實(shí)現(xiàn)K均值聚類算法，按照前述3種不同的分類設(shè)置方法分別進(jìn)行聚類，并要求每組參數(shù)設(shè)置重復(fù)10次取最優(yōu)結(jié)果，然后進(jìn)行對(duì)比分析。實(shí)驗(yàn)結(jié)果如下：

I. 在前述第（I）中分類設(shè)置方法下，根據(jù)初始聚類中心是否隨機(jī)產(chǎn)生分兩類情況進(jìn)行測(cè)試。初始聚類中心隨機(jī)產(chǎn)生的前提下，分別測(cè)試樣本集在歐氏距離、曼哈頓距離和余弦距離下的聚類結(jié)果，如圖1所示。

此外，分類準(zhǔn)確率和最佳距離總和如表1所示：

II. 在前述第（II）中分類設(shè)置方法下，根據(jù)初始聚類中心是否隨機(jī)產(chǎn)生分兩類情況進(jìn)行測(cè)試。初始聚類中心隨機(jī)產(chǎn)生的前提下，分別測(cè)試樣本集在歐氏距離、曼哈頓距離和余弦距離下的聚類結(jié)果，如圖2所示。

此外，分類準(zhǔn)確率和最佳距離總和如表2所示：

III. 在前述第（III）中分類設(shè)置方法下，根據(jù)初始聚類中心是否隨機(jī)產(chǎn)生分兩類情況進(jìn)行測(cè)試。初始聚類中心隨機(jī)產(chǎn)生的前提下，分別測(cè)試樣本集在歐氏距離、曼哈頓距離和余弦距離下的聚類結(jié)果，如圖3所示。

此外，分類準(zhǔn)確率和最佳距離總和如表3所示：

針對(duì)以上實(shí)驗(yàn)結(jié)果需要做出幾點(diǎn)說明：

第一、圖1至3中的Silhouette Value是衡量某個(gè)樣本點(diǎn)與它屬聚類相較于其它聚類的相似程度的指標(biāo)。其數(shù)值本身是被規(guī)格化的，取值范圍[-1，1]，值越大（趨近1）表明這個(gè)結(jié)點(diǎn)更匹配其屬聚類而不與相鄰的聚類匹配。但是，Silhouette Value是可以根據(jù)任意距離度量，如：歐氏距離、余弦距離等。

第二、K均值聚類算法是將所有樣本進(jìn)行聚類，聚類結(jié)果1、2、3與實(shí)際治療的效果并無確定的對(duì)應(yīng)關(guān)系。本文在計(jì)算表1至3的準(zhǔn)確率時(shí)采用的是按照遍歷所有可能的對(duì)應(yīng)關(guān)系，然后取準(zhǔn)確率最高的一項(xiàng)作為本次聚類結(jié)果的準(zhǔn)確率。

第三、表1至3中的最佳距離總和是在各自距離定義下進(jìn)行計(jì)算，在不同的距離定義之間，最佳距離總和不具備可比性。

第四、所謂隨機(jī)初始聚類中心是指聚類中心坐標(biāo)隨機(jī)產(chǎn)生，按照K均值聚類算法的要求依次迭代，直到取得符合要求的聚類效果為止。給定初始聚類中心是指將已知的各類樣本的聚類中心坐標(biāo)計(jì)算出來，作為初值輸入到K均值聚類算法中，但后面仍需按要求迭代，直到取得符合要求的聚類效果為止。

根據(jù)以上實(shí)驗(yàn)結(jié)果可知，在第（I）種分類設(shè)置方法下，無論是聚類效果（Silhouette Value）還是分類準(zhǔn)確率，都不如第（II）和（III）種分類設(shè)置方法，這個(gè)主要是因?yàn)槿诸惖碾y度遠(yuǎn)大于二分類所致。此外，在歐氏距離、曼哈頓距離和余弦距離這三種不同的距離下，可以看出無論是哪種分類設(shè)置方法，余弦距離的聚類效果最好（Silhouette Value數(shù)值整體最高）。然而，在比較分類準(zhǔn)確率時(shí)，無論在哪種分類設(shè)置方法下，余弦距離的表現(xiàn)都不好。這是因?yàn)榫垲惙椒ㄊ且环N無監(jiān)督學(xué)習(xí)的方法，其按照既有的標(biāo)準(zhǔn)（最佳距離總和最?。﹣砼袛嗑垲愋Ч?，而分類是有明確的分類目標(biāo)的，聚類結(jié)果與分類結(jié)果的差異在于兩者之間的標(biāo)準(zhǔn)不同。

4.結(jié)論與展望

綜上所述，K-means聚類算法比較適合不同類樣本在特征空間內(nèi)的聚類中心差距較大的情況，若不同類樣本在特征空間內(nèi)混疊比較嚴(yán)重，則聚類結(jié)果與真實(shí)的分類結(jié)果可能存在較大偏差。對(duì)已有實(shí)際分類結(jié)果的問題而言，如在現(xiàn)有的距離定義下，難以解決樣本混疊的問題，可以考慮開發(fā)一種新的更靈活的距離定義，使距離定義自身具備自適應(yīng)調(diào)整的能力，根據(jù)已有信息進(jìn)行自適應(yīng)調(diào)整，使之可以解決樣本混疊的問題，取得較好的分類效果。

參考文獻(xiàn)：

[1]Govender，P，Sivakumar，V，Application of k-means and hierarchical clustering techniques for analysis of air pollution：A review（1980-2019）[J]，ATMOSPHERIC POLLUTION RESEARCH，2020，11（1）：40-56

[2]Bu，Z，Li，HJ，Zhang，CC，Cao，J，Li，AH，Shi，Y，Graph K-means Based on Leader Identification，Dynamic Game，and Opinion Dynamics[J]，IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING，2020，32（7）：1348-1361

[3]Liu，XW，Zhu，XZ，Li，MM，Wang，L，Zhu，E，Liu，TL，Kloft，M，Shen，DG，Yin，JP，Gao，W，Multiple Kernel k-Means with Incomplete Kernels[J]，IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE，2020，42（5）：1191-1204

[4]Nguyen，H，Bui，XN，Tran，QH，Mai，NL，AF Hoang Nguyen，Xuan-Nam Bui，Quang-Hieu Tran，Ngoc-Luan Mai，A new soft computing model for estimating and controlling blast-produced ground vibration based on Hierarchical K-means clustering and Cubist algorithms[J]，APPLIED SOFT COMPUTING，2019，77：376-386

[5]Qin，JH，F(xiàn)u，WM，Gao，HJ，Zheng，WX，Distributed k-Means Algorithm and Fuzzy c-Means Algorithm for Sensor Networks Based on Multiagent Consensus Theory[J]，IEEE TRANSACTIONS ON CYBERNETICS，2017，47（3）：772-783;

[6]陳吉成，陳鴻昶，基于張量建模和進(jìn)化K均值聚類的社區(qū)檢測(cè)方法[J]，計(jì)算機(jī)應(yīng)用，2021，1-8，@ 1001-9081

[7]張鴻雁，杜文鋒，武麗芬，基于密度加權(quán)的分裂式K均值聚類算法[J]，計(jì)算機(jī)仿真，2021，38（04）：254-257

[8]周玉，孫紅玉，朱文豪，任欽差，基于K均值聚類的分段樣本數(shù)據(jù)選擇方法[J]，計(jì)算機(jī)應(yīng)用研究，2021，38（06）：1683-1688

[9]AU MacCormick，IJC，Williams，BM，Zheng，Y，Li，K，Al-Bander，B，Czanner，S，Cheeseman，R，Willoughby，CE，Brown，EN，Spaeth，GL，Czanner，G，Accurate，fast，data efficient and interpretable glaucoma diagnosis with automated spatial analysis of the whole cup to disc profile[J]，PLOS ONE，2019，14（1）：

通訊作者，講師，博士，國(guó)家大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練項(xiàng)目（S202010439003）指導(dǎo)教師，山東省自然科學(xué)基金聯(lián)合專項(xiàng)（ZR2016FL05）主持人。

（本文工作在國(guó)家大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練項(xiàng)目（S202010439003）和山東省自然科學(xué)基金聯(lián)合專項(xiàng)（ZR2016FL05）的資助下完成。）