亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

無監(jiān)督學(xué)習(xí)基礎(chǔ)上的抑郁癥分級模型研究*

2022-05-27 07:26:24彭喬立李漢民幺冬愛

醫(yī)學(xué)信息學(xué)雜志 2022年1期

彭喬立李漢民幺冬愛肖輝

(武漢大學(xué)中南醫(yī)院信息中心武漢 430071)

1 引言

抑郁癥是一種嚴重危害公眾健康的慢性非傳染性精神類疾病，其發(fā)病原因復(fù)雜，臨床表現(xiàn)差異較大，治療成本較高，具有難預(yù)防、難診斷、難治愈的特點。抑郁癥患者不僅將面臨健康損失，同時社會性歧視可能導(dǎo)致抑郁癥患者身心健康與個人權(quán)益遭受嚴重傷害[1]。如今隨著生活節(jié)奏加快與壓力增長，抑郁癥發(fā)病率逐年攀升[2]。

2 相關(guān)概念

2.1 抑郁癥分級

據(jù)WHO統(tǒng)計全球每年因為醫(yī)療資源浪費而造成損失達千億美元。醫(yī)療資源浪費往往是由病情評估不合理導(dǎo)致，由于慢性非傳染性疾病治療成本過高，病情分級成為慢病診療中的重要一環(huán)，根據(jù)定量數(shù)據(jù)劃分病情等級為常用方法，可作為重要診療依據(jù)，指導(dǎo)醫(yī)療資源配置以提高診療效率。抑郁癥屬于精神類疾病，由于缺乏器質(zhì)性病變的臨床證據(jù)，無法通過實驗室數(shù)據(jù)或其他檢查數(shù)據(jù)來進行量化病情分級，目前該疾病主要通過抑郁癥自評量表(Self-rating Depression Scale，SDS)進行量化[3]，該表由大量主觀問答組成，使用時可能產(chǎn)生較高主觀偏倚風險。相較于定量化病情分級方法，基于主觀問答的抑郁癥病情分級方法精確性與靈敏度較低。

2.2 無監(jiān)督學(xué)習(xí)

2.2.1 定義無監(jiān)督學(xué)習(xí)是指在缺乏先驗知識的場景下，對難以區(qū)分類別、定義性質(zhì)的數(shù)據(jù)進行標注、分組與特征化等處理。在數(shù)據(jù)挖掘過程中，數(shù)據(jù)集缺乏標注、分組信息的情況時有發(fā)生，可能導(dǎo)致人工智能、深度學(xué)習(xí)等許多智能算法無法實施。因此數(shù)據(jù)標注、分組工作是許多數(shù)據(jù)挖掘算法的前提。對于缺乏先驗知識的數(shù)據(jù)而言，人工標注是最可靠的方法，但需要耗費大量人力與時間成本，甚至經(jīng)常超過訓(xùn)練模型所需要時間[4]。無監(jiān)督學(xué)習(xí)算法可以挖掘數(shù)據(jù)內(nèi)在特征并根據(jù)特征值進行相關(guān)運算，實現(xiàn)數(shù)據(jù)維度轉(zhuǎn)換的功能。

2.2.2 分類根據(jù)應(yīng)用方式不同主要分為聚類(Cluster)、降維(Reduction)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)等技術(shù)。聚類分析可以挖掘并分析數(shù)據(jù)特征，計算聚類中心，根據(jù)特征值不同聚類分析可分為以下幾類：均值聚類(Means)、層次聚類(Hierarchy)、概率聚類(Probability)等[5]；數(shù)據(jù)降維通過分析數(shù)據(jù)維度共同特征，將其合并成更少、更精簡的新維度空間，根據(jù)合并依據(jù)的不同降維分析可以分為：主成分分析(Principal Component Analysis，PCA)，因子分析(Factor Analysis，F(xiàn)A)以及線性判別(Linear Discriminant Analysis，LDA)等；人工神經(jīng)網(wǎng)絡(luò)是當前最熱門的數(shù)據(jù)分類算法，該算法通過構(gòu)建輸入層-隱藏層-激活函數(shù)-輸出層的類生物神經(jīng)系統(tǒng)結(jié)構(gòu)，實現(xiàn)數(shù)據(jù)分類功能[6]。本研究使用聚類分析中的K均值(K-Means)算法，以抑郁癥患者實驗室數(shù)據(jù)為對象，對其進行定量分析以獲取分級模型，再用該分級模型對測試數(shù)據(jù)集進行分組，最后使用統(tǒng)計學(xué)方法進行評價，驗證分級模型有效性，見圖1。

圖1 分組結(jié)果散點(應(yīng)用于部分維度)

3 方法

3.1 數(shù)據(jù)集準備

使用健康信息系統(tǒng)(Health Information System，HIS)查詢符合要求的患者數(shù)據(jù)，以主診斷編碼類目為“F32”“F33”(抑郁癥對應(yīng)主診斷編碼)為選入標準獲取患者索引號，以該索引關(guān)聯(lián)檢驗信息系統(tǒng)(Laboratory Information System，LIS)以獲取具體檢驗項目數(shù)據(jù)，對所得數(shù)據(jù)進行脫敏處理，去除姓名、身份證號、住址等患者隱私信息，以患者主索引作為主鍵與單個樣本數(shù)據(jù)進行關(guān)聯(lián)，對數(shù)據(jù)集中的NA值采用平均化處理方案，包含0值或NA值多于半數(shù)的列視為無效并對其進行剔除。完成數(shù)據(jù)脫敏與完整性處理后，數(shù)據(jù)集最終包含193個樣本行，其中105行樣本作為訓(xùn)練集，另外88行作為測試集。

3.2 使用無監(jiān)督學(xué)習(xí)算法獲取分級模型

3.2.1 概述本研究將探討抑郁癥量化分級方案，采用距離聚類中的K-Means算法，使用該算法訓(xùn)練數(shù)據(jù)，將其分為3組并獲取聚類中心，嘗試使用聚類中心為測試數(shù)據(jù)集進行分組，最后使用統(tǒng)計學(xué)方法驗證分組結(jié)果效能。

3.2.2 去除異常值數(shù)據(jù)集中零散分布的異常值會影響數(shù)據(jù)分布特征并使聚類結(jié)果產(chǎn)生偏倚，因此在計算聚類中心前需要去除異常值。利用百分位數(shù)(Percentile)過濾異常值，只保留第1(Q1)和第3(Q3)分位數(shù)之間的數(shù)據(jù)，此范圍外的數(shù)據(jù)將被視為異常值而不納入計算。

3.2.3 計算聚類中心運用K-Means聚類算法獲取聚類中心，具體算法如下：根據(jù)數(shù)據(jù)分布情況隨機選取3個初始中心點；分別計算每個樣本到初始中心點的歐式距離；計算誤差值，根據(jù)誤差重新計算聚類中心；重復(fù)上兩個步驟，直到達到迭代數(shù)上限或者誤差小到滿足條件時停止，得到分級模型。K-Means算法公式如下：

3.3 統(tǒng)計學(xué)評價

將分級模型應(yīng)用在測試數(shù)據(jù)集上并分為3組，分別計算各組統(tǒng)計數(shù)據(jù)，針對數(shù)據(jù)集分布特性使用不同統(tǒng)計學(xué)算法驗證分組結(jié)果，使用Shapiro方法驗證正態(tài)性，采用Barlett方法驗證方差齊性，對于滿足正態(tài)性與方差齊性的數(shù)據(jù)列，使用ANOVA方法分析組內(nèi)與組外差異，對于組內(nèi)差異使用LSD-T方法進行兩兩比較，對不滿足正態(tài)性或方差齊性的數(shù)據(jù)列使用Kruskal方法兩兩比較，然后通過Wilcoxon-Mann-Whitney方法分析其組內(nèi)差異，見表1。

表1 訓(xùn)練數(shù)據(jù)分組模型

4 結(jié)果

根據(jù)分組結(jié)果散點可以看出3個分組之間分界清晰、形態(tài)穩(wěn)定，聚類中心互相獨立。由訓(xùn)練數(shù)據(jù)分組模型結(jié)果可以發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)所計算得到的分組模型梯度明顯，呈一定遞增關(guān)系，用該模型對測試數(shù)據(jù)進行分組并用統(tǒng)計學(xué)方法校驗分組。結(jié)果顯示大部分檢驗項目的組內(nèi)差異具有統(tǒng)計學(xué)意義(P< 0.05，P= 0.001為值過小故用該值替代)，隨后兩兩比較組間差異，結(jié)果表明有部分檢驗項目3組之間差異都有顯著性(P1、P2、P3分別為兩兩比較的P值)，部分檢驗項目的組間差異不全具有統(tǒng)計學(xué)差異，存在少部分項目的組間差異沒有統(tǒng)計學(xué)意義，見表2。

表2 測試集分組結(jié)果統(tǒng)計校驗

續(xù)表2

5 結(jié)語

本研究使用無監(jiān)督學(xué)習(xí)算法對無先驗知識的抑郁癥患者實驗室數(shù)據(jù)進行分級，通過統(tǒng)計學(xué)算法對分級進行驗證，結(jié)果表明大部分指標的組間差異具有統(tǒng)計學(xué)意義，說明精神類疾病會對實驗室檢驗項目產(chǎn)生一定影響。但本研究尚未解決分組數(shù)量如何確定的問題，未來將會結(jié)合已有研究結(jié)果繼續(xù)探索分組數(shù)量與分組模型質(zhì)量之間的關(guān)系。