廖欣怡 李雨珂
摘要:大量研究表明,抑郁癥與甲狀腺激素在人體內(nèi)的含量水平存在一定的相關(guān)性。通過甲狀腺激素水平與是否患有抑郁癥的關(guān)系建立C4.5決策樹、KNN、二元logistic回歸等三種預(yù)測模型,可實(shí)現(xiàn)對是否患有抑郁癥的簡單預(yù)測。利用混淆矩陣進(jìn)行模型評價(jià),分別得到三種模型的召回率、精確率以及準(zhǔn)確率,加以比較判斷,最終選出預(yù)測效果最為良好的模型,即KNN模型,其準(zhǔn)確率0.72,為抑郁癥預(yù)測及診斷提供參考。
關(guān)鍵詞:抑郁癥預(yù)測;甲狀腺激素;C4.5決策樹;KNN;二元logistic回歸模型
中圖分類號:TP18? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號:1009-3044(2023)01-0016-04
1 研究背景與意義
1.1 抑郁癥研究現(xiàn)狀
抑郁癥是常見的情感障礙,對個(gè)人、家庭乃至整個(gè)社會(huì)都產(chǎn)生重大影響,抑郁癥已經(jīng)成為亟須解決的公共健康問題之一。目前,針對抑郁癥的診斷大多數(shù)是通過醫(yī)生患者之間的溝通交流以及填寫相關(guān)的問卷量(SDS) 綜合評定,確診過程中易受主觀因素的影響,易造成誤診。同時(shí),越來越多的研究表明抑郁癥發(fā)病與內(nèi)環(huán)境激素水平的變化存有關(guān)聯(lián):倪敏[1]等探討抑郁癥患者體內(nèi)甲狀腺激素的變化規(guī)律,結(jié)果反映出抑郁癥患者的甲狀腺功能存在問題并且其抑郁嚴(yán)重程度與激素水平具有相關(guān)性。崔偉[2]等對照分析抑郁癥患者與健康對照者的血清甲狀腺激素水平,表示抑郁癥患者的激素水平與抑郁癥狀嚴(yán)重程度相關(guān)。石楠楠[3]等臨床檢測抑郁癥患者甲狀腺激素,得出病患之間、患者與健康對照者之間的甲狀腺激素水平存在差異的結(jié)論。多項(xiàng)實(shí)驗(yàn)結(jié)果表明抑郁癥與甲狀腺激素有一定的相關(guān)性,并且甲狀腺激素水平在不同抑程度的患者體內(nèi)具有差異,因此,基于甲狀腺激素水平實(shí)現(xiàn)抑郁癥的預(yù)測模型的研究具有一定的作用。
1.2 機(jī)器學(xué)習(xí)的應(yīng)用
機(jī)器學(xué)習(xí)是人工智能的核心,在大數(shù)據(jù)時(shí)代備受關(guān)注。機(jī)器學(xué)習(xí)涉及多領(lǐng)域、交叉學(xué)科,當(dāng)今時(shí)代,機(jī)器學(xué)習(xí)已經(jīng)廣泛應(yīng)用于醫(yī)學(xué)領(lǐng)域,并對抑郁癥的預(yù)測有著很重要的貢獻(xiàn)。
1) 膠囊網(wǎng)絡(luò)模型
膠囊網(wǎng)絡(luò)模型是集卷積神經(jīng)網(wǎng)絡(luò)(CNN) 的優(yōu)點(diǎn)于一身,同時(shí)考慮CNN高層特征與低層特征之間位置模糊的缺點(diǎn)而提出的一種對于圖像處理更加有效的網(wǎng)絡(luò)模型。查猛[4]在其研究中,提出了一種融合文本局部和整體特征的膠囊模型,該模型能夠有效地發(fā)現(xiàn)微博用戶中潛在的抑郁癥患者。
2) 邏輯回歸(LR)
Logistic回歸常用來處理、描述自變量同因變量之間的因果關(guān)系,多用于解決二分類問題,在疾病的預(yù)測應(yīng)用中具有很大的作用。潘瑋[5]等人采用自然情景訪談與實(shí)驗(yàn)室語言收集方式,通過對高維抑郁數(shù)據(jù)建立是否抑郁的二分類的預(yù)測模型,從多角度考察了不同任務(wù)下的語音特征是否抑郁的預(yù)測效果。
3) 卷積神經(jīng)網(wǎng)絡(luò)(CNN)
卷積神經(jīng)網(wǎng)絡(luò)包含卷積計(jì)算且具有深度結(jié)構(gòu)與表征學(xué)習(xí)能力,按其階層結(jié)構(gòu)對輸入信息進(jìn)行平移不變分類。趙盛杰[6]基于便攜式腦電傳感器構(gòu)建了普適化EEG(腦電圖)信號的跟蹤采集和實(shí)時(shí)量化評估框架,利用CNN對普適化EEG構(gòu)建抑郁分類模型,從而實(shí)現(xiàn)抑郁風(fēng)險(xiǎn)預(yù)測。
綜上,對于抑郁癥的預(yù)測模型大多數(shù)是基于患者的文本、語音、腦電這三個(gè)方面,基于患者的激素水平的預(yù)測模型仍舊很少。激素水平是最能直接反映機(jī)體身體狀況的指標(biāo)之一,基于激素水平建立疾病預(yù)測模型可以在一定程度,或者一定可能性上實(shí)現(xiàn)對于疾病的準(zhǔn)確預(yù)測,為疾病的診治提供支持。
以“抑郁癥與甲狀腺激素”為主題,通過研究大量相關(guān)論文,從中收集有效數(shù)據(jù)并進(jìn)行處理,使用SPSS 25軟件對數(shù)據(jù)進(jìn)行降噪處理,用平均值替代異常值,通過計(jì)算spearman相關(guān)系數(shù)的相關(guān)性研究,所得結(jié)果同抑郁癥與甲狀腺激素關(guān)系研究中的數(shù)據(jù)描述關(guān)系一致并且有效,故可利用該數(shù)據(jù)進(jìn)行預(yù)測模型的研究與實(shí)現(xiàn)。
使用Python 3.9.7,實(shí)現(xiàn)模型的搭建與可視化。
項(xiàng)目中屬性與標(biāo)簽如表1。
2 模型介紹
2.1 機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)(Machine Learning) 是大數(shù)據(jù)時(shí)代的一大產(chǎn)物,是將人類從繁雜、龐大的數(shù)據(jù)中解救出來的重要工具。大數(shù)據(jù)環(huán)境下的數(shù)據(jù)具有典型的冗余、繁雜、量大的特點(diǎn),如何從數(shù)據(jù)中提出想要的且有效的數(shù)據(jù)是每個(gè)程序員所追求的。機(jī)器學(xué)習(xí)就是在大量數(shù)據(jù)里面提取有效信息的解決辦法。計(jì)算機(jī)通過對已有的數(shù)據(jù)進(jìn)行分類、訓(xùn)練、學(xué)習(xí)、特征提取,總結(jié)出數(shù)據(jù)的規(guī)律與特點(diǎn),再針對這些數(shù)據(jù)建立模型,不僅可以通過模型將數(shù)據(jù)可視化,還可以在學(xué)習(xí)的基礎(chǔ)上實(shí)現(xiàn)“舉一反三”,對新數(shù)據(jù)進(jìn)行分類、預(yù)測等操作。隨著大數(shù)據(jù)時(shí)代的發(fā)展,人類對于數(shù)據(jù)的處理有更高的追求,機(jī)器學(xué)習(xí)如今已經(jīng)深刻融入了社會(huì)的各個(gè)行業(yè)領(lǐng)域,基于C4.5決策樹算法、KNN算法以及回歸算法建立抑郁癥預(yù)測模型,是機(jī)器學(xué)習(xí)在醫(yī)學(xué)領(lǐng)域的有效應(yīng)用。
K-折交叉驗(yàn)證,即將樣本集數(shù)據(jù)隨機(jī)分成K份,按照1:(K-1) 的比例劃分測試集與訓(xùn)練集并進(jìn)行交叉驗(yàn)證。K-折交叉驗(yàn)證法有利于得到可靠穩(wěn)定的模型,有效提高模型的學(xué)習(xí)能力,合適的K值能夠有效避免過擬合,同時(shí)該方法對于數(shù)據(jù)量小的樣本集友好,提供了有效的解決過擬合現(xiàn)象的方法。
混淆矩陣是對模型的預(yù)測結(jié)果狀況的直觀表示,可通過混淆矩陣對模型的準(zhǔn)確度、精確度、召回度、特異性以及靈敏度等評估?;煜仃囈粤斜硎绢A(yù)測結(jié)果,以行表示真實(shí)類別,從典型的二元混淆矩陣中可以得出四種情況:
測試集中,預(yù)測與真實(shí)一致為真的類別,即TP(true positive) 類;預(yù)測為假而真實(shí)為真的類別,即FN(false negative) 類;預(yù)測為真而真實(shí)為假的類別,即FP(false positive) 類;預(yù)測與真實(shí)一致為假的類別,即TN(true negative) 類,如表2表示。
通過混淆矩陣可評估所建立的預(yù)測模型分類效果,準(zhǔn)確度可以反映正確的預(yù)測在總樣本里的占比,用ACC表示,計(jì)算公式如(1) 所示:
2.2? C4.5決策樹算法
C4.5是一種經(jīng)典的一系列決策樹算法,基于信息增益率實(shí)現(xiàn)的C4.5決策樹算法擁有優(yōu)越的分類效果。在分類問題中,決策樹表示對數(shù)據(jù)進(jìn)行分類的過程。決策樹中有兩種結(jié)點(diǎn),其中內(nèi)部結(jié)點(diǎn)表示對屬性的一個(gè)測試,另外一種是葉節(jié)點(diǎn),每個(gè)葉結(jié)點(diǎn)代表了一個(gè)類別,連接這些結(jié)點(diǎn)的分支即為輸出測試,選擇對應(yīng)類別的過程。相較于其他幾種模型,決策樹的優(yōu)點(diǎn)是不需要設(shè)置任何參數(shù)或者獲取領(lǐng)域知識(shí)才能進(jìn)行進(jìn)行分類,適合于獨(dú)立預(yù)測甲狀腺激素與抑郁癥的關(guān)系。
C4.5在ID3的基礎(chǔ)上被提出,改進(jìn)了處理連續(xù)值、缺失值、劃分屬性值、剪枝等方面,可以通過不斷學(xué)習(xí)來發(fā)現(xiàn)并尋找一個(gè)從屬性到類別的映射關(guān)系,且這個(gè)映射關(guān)系能夠?qū)π鲁霈F(xiàn)的類別和未知實(shí)體進(jìn)行分類。
2.3? K-鄰近算法(KNN)
最鄰近分類算法(KNN) ,是典型的“少數(shù)服從多數(shù)”的數(shù)據(jù)挖掘分類算法。KNN算法對訓(xùn)練集中的數(shù)據(jù)進(jìn)行學(xué)習(xí),并且訓(xùn)練集中的數(shù)據(jù)已劃分好其歸屬類別。將未知樣本歸類于所有已知樣本中同其距離最近的K個(gè)樣本里占比最大的樣本群,由此實(shí)現(xiàn)最鄰近分類。KNN算法具有易實(shí)現(xiàn)、簡單易懂、無須估計(jì)參數(shù)和無須訓(xùn)練的特點(diǎn)。
2.4 基于二元Logistic回歸的抑郁癥預(yù)測模型
logistic回歸分析又稱邏輯回歸分析,多用來研究變量間的數(shù)據(jù)關(guān)系。如果因變量Y為二分的情況,即Y只有是與否兩個(gè)選項(xiàng),此時(shí)的回歸模型即為二元邏輯回歸模型。Python自帶sklearn庫中的 Logistic Regression可以實(shí)現(xiàn)邏輯回歸模型的建立,并作進(jìn)一步優(yōu)化。
3 基于機(jī)器學(xué)習(xí)的抑郁癥預(yù)測研究
3.1 基于C4.5決策樹算法的預(yù)測
給定準(zhǔn)備好的甲狀腺激素水平的數(shù)據(jù)集J,數(shù)據(jù)集中的每一個(gè)元組都屬于一個(gè)互斥的類別(患有抑郁癥、未患有抑郁癥)中的一類,可以分別用一組屬性值來描述。對于甲狀腺激素的連續(xù)屬性值需要進(jìn)行離散化處理,采用二分法處理數(shù)據(jù),具體方法如下:提供樣本集的屬性有212個(gè)不同的取值,按照從小到大的順序?qū)?12個(gè)取值排序。把每個(gè)取值區(qū)間的中位點(diǎn)作為備選劃分點(diǎn),即得到含有211個(gè)元素的劃分點(diǎn)集合Ta:
3.2 基于K-鄰近算法的預(yù)測
3.3 基于二元logistic回歸的預(yù)測
3.4 模型的評估與對照
其中PRE表示患有抑郁癥的預(yù)測與實(shí)際結(jié)果一致的樣本占預(yù)測結(jié)果為患有抑郁癥的樣本的比例,要求其結(jié)果越大越好;REC表示患有抑郁癥的預(yù)測與實(shí)際結(jié)果一致的樣本占實(shí)際患有抑郁癥的樣本的比例,要求其結(jié)果越大越好,因此,通過對比,KNN預(yù)測模型的整體情況更具優(yōu)勢,可以反映出KNN預(yù)測模型具有良好的預(yù)測效果。
4 小結(jié)與展望
本文主要研究了基于甲狀腺激素水平的C4.5決策樹算法、KNN算法以及二元邏輯回歸的抑郁癥預(yù)測模型,通過三種模型的比較,KNN預(yù)測模型可信度最高,如若能夠添加更多的特征樣本進(jìn)入模型,多方面協(xié)同診斷,那么模型對抑郁癥的預(yù)測準(zhǔn)確度將會(huì)大幅提高。
在此項(xiàng)目的進(jìn)行過程中,通過搜索大量的網(wǎng)站、瀏覽大量的論文,筆者發(fā)現(xiàn):即使抑郁癥所帶來的后果是嚴(yán)重的,大多數(shù)人對抑郁癥的認(rèn)識(shí)仍有偏頗,并且網(wǎng)絡(luò)上現(xiàn)存公開的抑郁癥相關(guān)的數(shù)據(jù)集很少,這也給抑郁癥更廣泛的研究帶來了許多不便。在未來,隨著公眾對于心理疾病的重視提高,或許精神障礙性疾病的相關(guān)數(shù)據(jù)集會(huì)更加多,并且更加多元、多類。
抑郁癥不僅僅是一種心理疾病,也是一種生理疾病,患者受著內(nèi)外界的雙重影響。但是,很多時(shí)候患者不自知,或者是自知而不被關(guān)注,抑郁癥患者抑郁程度加重大多來源于無助感,患者的朋友、家人等如果能給患者多一些關(guān)心與幫助,那么便會(huì)減少許多抑郁癥所造成的悲劇。因此,抑郁癥的認(rèn)識(shí)與宣傳仍舊任重而道遠(yuǎn),關(guān)愛抑郁癥患者是社會(huì)中每一個(gè)人應(yīng)當(dāng)主動(dòng)承擔(dān)的責(zé)任。
參考文獻(xiàn):
[1] 倪敏,吳琪.甲狀腺激素與抑郁癥相關(guān)性分析[J].中國現(xiàn)代醫(yī)生,2020,58(10):15-18.
[2] 崔偉,崔利軍,李媛媛,等.抑郁癥患者甲狀腺激素水平的特征、治療前后的變化及療效性分析[J].臨床精神醫(yī)學(xué)雜志,2020,30(3):164-168.
[3] 石楠楠,韓振武,范業(yè)寧.甲狀腺激素水平的檢測對抑郁癥患者血清的意義分析[J].中國醫(yī)藥指南,2021,19(17):108-109.
[4] 査猛.基于膠囊網(wǎng)絡(luò)模型的抑郁癥預(yù)測研究[D].南京:南京郵電大學(xué),2021.
[5] 潘瑋,汪靜瑩,劉天俐,等.基于語音的抑郁癥識(shí)別[J].科學(xué)通報(bào),2018,63(20):2081-2092.
[6] 趙盛杰.基于腦電及卷積神經(jīng)網(wǎng)絡(luò)的抑郁癥實(shí)時(shí)監(jiān)測方法研究[D].蘭州:蘭州大學(xué),2018.
[7] 潘惠.抑郁癥患者血清甲狀腺激素水平臨床研究[J].中國當(dāng)代醫(yī)藥,2011,18(31):95-96.
[8] 盧春城.基于深度學(xué)習(xí)的糖尿病決策算法研究[D].杭州:浙江理工大學(xué),2019.
[9] 會(huì)員中心歷史創(chuàng)作中心發(fā)布機(jī)器學(xué)習(xí)筆記(5) ——C4.5決策樹中的連續(xù)值處理和Python實(shí)現(xiàn)[EB/OL].[2021-08-20].https://blog.csdn.net/leaf_zizi/article/details/83105836.
【通聯(lián)編輯:李雅琪】