亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于模糊K-means聚類算法的區(qū)域數(shù)據(jù)智能分析方法

        2022-05-24 11:43:54支建勛
        電子設(shè)計(jì)工程 2022年10期
        關(guān)鍵詞:數(shù)據(jù)挖掘分類

        支建勛

        (河北北方學(xué)院附屬第一醫(yī)院,河北 張家口 075000)

        隨著我國社會(huì)經(jīng)濟(jì)的發(fā)展,醫(yī)療保險(xiǎn)制度建設(shè)不斷完善,社會(huì)矛盾得到了有效緩解。但在現(xiàn)階段,醫(yī)保的報(bào)銷流程中眾多不規(guī)范的問題時(shí)有發(fā)生,醫(yī)療保險(xiǎn)監(jiān)管體系亟待完善[1-4]。因此,需要推動(dòng)信息技術(shù)的應(yīng)用,為智能化的規(guī)范管控提供有力的技術(shù)保障[5-12]。

        文中對(duì)醫(yī)療行業(yè)的區(qū)域化群體數(shù)據(jù)挖掘方法進(jìn)行了研究,采用模糊K-means 算法對(duì)醫(yī)療數(shù)據(jù)進(jìn)行處理,然后篩選出異常數(shù)據(jù)。另一方面,針對(duì)醫(yī)保數(shù)據(jù)量級(jí)的不斷增長,造成算法運(yùn)行效率低下的問題,引入Hadoop 平臺(tái)和MapReduce 編程模型,對(duì)算法進(jìn)行并行化處理,從而提升數(shù)據(jù)分析的效率[13-14]。

        1 理論基礎(chǔ)

        1.1 K-means算法原理

        K-means 是機(jī)器學(xué)習(xí)領(lǐng)域常見的一種無監(jiān)督學(xué)習(xí)模型,其將距離作為相似性評(píng)價(jià)指標(biāo)。在K-means算法中,將距離較近的同類數(shù)據(jù)點(diǎn)放入一個(gè)簇內(nèi),且它們之間的距離應(yīng)盡可能地接近;而不同簇中心的距離則應(yīng)盡可能地遠(yuǎn),圖1 所示為K-means 算法的原理示意圖[15-16]。

        圖1 K-means算法原理示意圖

        在K-means 算法中,定義輸入數(shù)據(jù){x1,x2,…,xn}的最終聚類數(shù)目為k,最終的簇中心為{c1,c2,…,ck},采用歐式距離計(jì)算每個(gè)數(shù)據(jù)點(diǎn)與簇中心cj的距離為:

        當(dāng)D(xi,cj)滿足式(2)時(shí),則數(shù)據(jù)xi的分類標(biāo)記為cj。當(dāng)所有數(shù)據(jù)的分類完畢后,計(jì)算新的聚類中心為:

        接著在新聚類中心下計(jì)算誤差平方和準(zhǔn)則函數(shù):

        當(dāng)|J*-J|<ξ時(shí),表示當(dāng)前的準(zhǔn)則函數(shù)收斂,當(dāng)前聚類中心即為各個(gè)數(shù)據(jù)的最終類別;否則,算法將重新搜索新的聚類中心,直至J收斂。

        圖2 給出了K-means 算法的流程圖。相較于其他的聚類算法,K-means 在計(jì)算時(shí)是相對(duì)可伸縮和高效的,所以在計(jì)算大型數(shù)據(jù)集時(shí)具有更優(yōu)的適應(yīng)性。但由于算法在聚類時(shí)需要先進(jìn)行聚類中心的初始化,所以會(huì)導(dǎo)致聚類的不穩(wěn)定;又因?yàn)槊看蔚岸夹枰匦掠?jì)算聚類中心,因此增加了算法的時(shí)間復(fù)雜度。針對(duì)以上問題,文中引入了模糊聚類的概念對(duì)算法進(jìn)行改進(jìn)。

        圖2 K-means算法流程

        1.2 模糊K-means算法

        在K-means算法下,每一個(gè)數(shù)據(jù)點(diǎn)x在分類時(shí),均會(huì)被嚴(yán)格地放入某一個(gè)類別中。但在實(shí)際的分類過程中,這一個(gè)數(shù)據(jù)點(diǎn)x卻難以嚴(yán)格地被劃分到同一個(gè)類別中,其可能是以不同的隸屬度劃分到某一類。此時(shí),對(duì)每一個(gè)分類結(jié)果均可用一個(gè)模糊分類矩陣表示:

        其中,uij∈[0,1]表示某個(gè)數(shù)據(jù)點(diǎn)對(duì)于該類別的隸屬度。定義模糊分類下的誤差平方準(zhǔn)則函數(shù)為:

        在計(jì)算聚類中心時(shí),也需要進(jìn)行模糊化處理:

        在迭代過程中,也需要對(duì)模糊矩陣進(jìn)行修正:

        1.3 模糊K-means的并行化

        通過對(duì)模糊K-means 算法運(yùn)行的流程分析可以看出,算法的運(yùn)行時(shí)間大多消耗在迭代計(jì)算上。而每次迭代需要完成兩步計(jì)算:1)對(duì)每個(gè)數(shù)據(jù)樣本計(jì)算距離;2)確認(rèn)新的計(jì)算中心。這意味著K-means 算法的運(yùn)行耗時(shí)與數(shù)據(jù)規(guī)模的大小呈正相關(guān)。對(duì)于醫(yī)保數(shù)據(jù),由于涉及人數(shù)眾多且數(shù)據(jù)量極大,需要采用并行化的手段提升數(shù)據(jù)挖掘的效率。

        文中通過MapReduce 對(duì)模糊K-means 算法進(jìn)行并行化處理,具體流程如圖3 所示。

        圖3 模糊K-means的并行化流程

        并行化K-means 算法的核心在于對(duì)群體醫(yī)療數(shù)據(jù)的切分,首先將數(shù)據(jù)劃分為不同的數(shù)據(jù)切片;然后將每個(gè)切片發(fā)送至不同的運(yùn)算節(jié)點(diǎn),在不同的計(jì)算節(jié)點(diǎn)進(jìn)行聚類。根據(jù)MapReduce 的編程模型可知,整個(gè)算法包含Map、Combine 和Reduce 3 個(gè)過程。

        1)Map:在該過程中,將數(shù)據(jù)劃分為若干個(gè)數(shù)據(jù)塊,計(jì)算數(shù)據(jù)對(duì)象到所有聚類中心的距離,并選擇距離最小的聚類中心點(diǎn),最終形成<數(shù)據(jù)對(duì)象,聚類中心>的key/value 鍵值對(duì)形式。

        2)Combine:其是對(duì)Map 過程的中間結(jié)果進(jìn)行本地化Reduce 的過程,將屬于同一聚類中心的數(shù)據(jù)對(duì)歸類到一起。然后計(jì)算屬于同一聚類中心的數(shù)據(jù)對(duì)象之和,從而得到同一簇的聚類結(jié)果,最終的輸出結(jié)果為<聚類ID,各維坐標(biāo)的累加和>。

        3)Reduce:其是將Combine 得到的結(jié)果進(jìn)行局部聚類,進(jìn)而得到全局的聚類結(jié)果。在Reduce 的過程中,對(duì)所有簇的局部結(jié)果進(jìn)行匯總,計(jì)算所有簇的新聚類中心。當(dāng)結(jié)果收斂時(shí),算法將該聚類中心作為最終的分類結(jié)果。

        2 方法實(shí)現(xiàn)

        2.1 仿真環(huán)境設(shè)計(jì)

        為了實(shí)現(xiàn)模糊K-means 算法的并行化處理,首先需要搭建Hadoop 計(jì)算集群。在Hadoop 平臺(tái)下,MapReduce 是分布式編程模型,該模型需要分布式文件系統(tǒng)HDFS 的支撐。在HDFS 文件系統(tǒng)下,需要搭建一個(gè)NameNode 和若干個(gè)DataNode 計(jì)算節(jié)點(diǎn)。文中的計(jì)算節(jié)點(diǎn)統(tǒng)一配置為如表1 所示的虛擬機(jī)。

        表1 計(jì)算節(jié)點(diǎn)配置

        每個(gè)節(jié)點(diǎn)的機(jī)器名、IP 地址和用途如表2 所示。

        表2 Hadoop環(huán)境配置

        在每臺(tái)虛擬機(jī)安裝Hadoop 并進(jìn)行格式化后,啟動(dòng)守護(hù)進(jìn)程。將每臺(tái)虛擬機(jī)的Localhost 修改為表2所示的IP 地址,并在conf/.目錄下將Hadoop 的參數(shù)按照表3 進(jìn)行設(shè)置。

        表3 Hadoop參數(shù)配置

        2.2 仿真分析

        文中設(shè)計(jì)的并行化模糊K-means 算法的應(yīng)用場景是醫(yī)療群體數(shù)據(jù)的挖掘與分析,以河北省某地區(qū)2020 年的醫(yī)保數(shù)據(jù)集作為樣本。該數(shù)據(jù)共包含藥品費(fèi)、檢查費(fèi)、手術(shù)費(fèi)、掛號(hào)費(fèi)、床位費(fèi)等73 個(gè)維度的就診數(shù)據(jù),就診人數(shù)共323 213 人。其中,標(biāo)記的醫(yī)保失信行為數(shù)據(jù)約占4.36%,醫(yī)保失信數(shù)據(jù)被標(biāo)記為過度醫(yī)療、用藥不符、虛假支付、偽造票據(jù)、掛名診療、虛假套現(xiàn)等6 類。

        在進(jìn)行數(shù)據(jù)分析仿真時(shí),首先對(duì)文中設(shè)計(jì)的模糊K-means 算法的性能進(jìn)行分析,算法的相關(guān)參數(shù)設(shè)置如表4 所示。

        表4 相關(guān)參數(shù)設(shè)置

        由于原始的數(shù)據(jù)集較大,在使用K-means 算法時(shí)計(jì)算耗時(shí)較長,文中在評(píng)估算法性能時(shí)采用隨機(jī)抽樣的方式,選取了1 000 人的醫(yī)保數(shù)據(jù)進(jìn)行演算。將串行化的模糊K-means 算法和傳統(tǒng)K-means 算法的結(jié)果進(jìn)行了對(duì)比,串行化算法的性能指標(biāo)如表5所示。

        表5 串行化算法的性能指標(biāo)

        文中對(duì)并行化的模糊K-means 算法進(jìn)行分析。表6 給出了隨著DataNode 的增加,算法相關(guān)指標(biāo)的變化情況。

        表6 并行化算法的性能指標(biāo)

        表6 中,算法的運(yùn)行時(shí)間隨著節(jié)點(diǎn)數(shù)量s的變大而不斷減小,這說明對(duì)模糊K-means 的并行化切實(shí)提升了算法的運(yùn)行速度,算法具有較好的擴(kuò)展性。Speedup 是算法的加速比,該指標(biāo)為算法在一臺(tái)計(jì)算機(jī)上的運(yùn)行時(shí)間與在s臺(tái)計(jì)算機(jī)上運(yùn)行時(shí)間的比值,這意味著多計(jì)算節(jié)點(diǎn)的引入可以縮短算法的運(yùn)行時(shí)間;Scaleup 是算法在計(jì)算節(jié)點(diǎn)上執(zhí)行效率的評(píng)價(jià)指標(biāo)。從表中可以看出,隨著計(jì)算節(jié)點(diǎn)數(shù)量的增長,Scaleup不斷降低,說明每個(gè)新增的節(jié)點(diǎn)計(jì)算資源均未浪費(fèi),并行后的算法對(duì)于數(shù)據(jù)集具有較強(qiáng)的適應(yīng)性。

        3 結(jié)束語

        文中對(duì)當(dāng)前醫(yī)療環(huán)境下,提升醫(yī)保流程智能度、規(guī)范度的相關(guān)數(shù)據(jù)算法進(jìn)行了研究。通過引入模糊K-means 算法,提升數(shù)據(jù)挖掘算法的數(shù)據(jù)處理精度;通過借助分布式文件存儲(chǔ)和MapReduce 編程模型,實(shí)現(xiàn)模糊K-means 算法的并行化,提升了數(shù)據(jù)挖掘算法的處理速度。經(jīng)過在實(shí)際醫(yī)療數(shù)據(jù)上的仿真驗(yàn)證可知,文中的研究內(nèi)容對(duì)于醫(yī)療群體數(shù)據(jù)的處理精度和處理效率均有明顯的提高,為醫(yī)療大數(shù)據(jù)分析方法提供了參考。

        猜你喜歡
        數(shù)據(jù)挖掘分類
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        給塑料分分類吧
        日本女优中文字幕亚洲| 国产精品福利影院| 92精品国产自产在线观看48页| 手机在线中文字幕av| 精品人伦一区二区三区蜜桃91| 久久青青草原亚洲av无码麻豆| 丰满少妇人妻无码专区| 91自国产精品中文字幕| 亚洲一区二区三区激情在线观看| 在线播放真实国产乱子伦| 亚洲色大成网站www永久一区| 中文字幕avdvd| 亚洲国产女同在线观看| 欧美xxxxx在线观看| 中国丰满熟妇xxxx| 亚洲是图一区二区视频| 亚洲日本中文字幕乱码| 欧美老熟妇乱xxxxx| 亚洲爱婷婷色婷婷五月| 国产精品成人无码久久久久久| 国产一区二区三区男人吃奶| 99久久亚洲精品日本无码| 内射交换多p国产| 中文字幕日本人妻一区| 亚洲国产综合在线亚洲区亚洲av| 白丝兔女郎m开腿sm调教室| 国产精品白浆视频免费观看| 日韩丝袜人妻中文字幕| 产美女被爽到高潮免费a| 欧美性巨大╳╳╳╳╳高跟鞋| 国产又色又爽又刺激视频| 国产精品二区三区在线观看| 天天做天天爱夜夜爽毛片毛片 | 国产精品福利小视频| 国产伦奸在线播放免费| 全黄性性激高免费视频| 中文字幕av日韩精品一区二区| 久久精品国产亚洲av热九九热| 一区二区三区国产在线视频| 女人被爽到呻吟gif动态图视看 | 国产精品成人免费视频网站京东|