米 碩,孫瑞彬,李 欣,明 曉
(山東科技大學(xué),山東 濟(jì)南 250000)
我們對(duì)數(shù)據(jù)進(jìn)行歸一化,然后使用SPSS軟件對(duì)各個(gè)指標(biāo)與睡眠質(zhì)量進(jìn)行了相關(guān)性分析,接著通過(guò)Matlab以睡眠質(zhì)量為因變量使用逐步線性回歸方法剔除了相關(guān)性較小的指標(biāo),保留了Age、Sex和Nervousness三個(gè)指標(biāo),最后使用遺傳算法求解這三個(gè)指標(biāo)與睡眠質(zhì)量的相關(guān)性權(quán)重,得到了這三個(gè)指標(biāo)對(duì)睡眠質(zhì)量的重要性權(quán)值分別為[0.5394 0.0002 0.4604]?;谏鲜鰲l件,我們利用數(shù)據(jù)進(jìn)行建模分析,進(jìn)一步確立了睡眠與病例診斷結(jié)果的關(guān)系。
我們使用Excel并結(jié)合 AnnexⅡTranslation中的數(shù)據(jù)對(duì)附件中的數(shù)據(jù)進(jìn)行了異常值的檢測(cè),發(fā)現(xiàn)Diagnosis中存在部分異常值和空值,比如“?”,“Xia Yong”等,由于異常數(shù)據(jù)量較少,因此,我們剔除了含有異常數(shù)據(jù)的樣本。
我們將數(shù)據(jù)中的性別按“male=0,female=1”轉(zhuǎn)化為數(shù)值型數(shù)據(jù),將Diagnosis中包含多個(gè)值的樣本劃分為Diagnosis各不相同的多個(gè)樣本;將Diagnosis中的值轉(zhuǎn)換為數(shù)值型數(shù)據(jù),根據(jù)各病癥在數(shù)據(jù)集中出現(xiàn)的順序?qū)⒉“Y分別標(biāo)號(hào)為“0,1,2,3……”,最終得到包含6 955個(gè)樣本的數(shù)據(jù)集。
附件中的Age為連續(xù)型數(shù)據(jù),我們根據(jù)國(guó)際最新的年齡分段標(biāo)準(zhǔn)將Age分為了4段,并為其進(jìn)行標(biāo)識(shí),其中,0~44歲為青年人,用“0”標(biāo)識(shí);45~59歲為中年人,用“1”標(biāo)識(shí);60~74歲為年輕老年人,用“2”標(biāo)識(shí);75歲以上為老年人,用“3”標(biāo)識(shí)。
我們建立了基于LSTM的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型中,是從輸入層到隱含層再到輸出層,層與層之間是全連接的,每層之間的節(jié)點(diǎn)是無(wú)連接的。但是這種普通的神經(jīng)網(wǎng)絡(luò)對(duì)很多問(wèn)題卻無(wú)能無(wú)力,而采用循環(huán)神經(jīng)網(wǎng)絡(luò)就能很好地解決這個(gè)問(wèn)題。
該網(wǎng)絡(luò)在t時(shí)刻接收到x之后,隱藏層的值是xt,輸出值是ot,關(guān)鍵在于st的值不僅僅取決于xt,還取決于st-1。利用下面的公式來(lái)表示循環(huán)神經(jīng)網(wǎng)絡(luò)的計(jì)算方法:
式(1)是輸出層的計(jì)算公式,式(2)是隱藏層的計(jì)算公式,即循環(huán)。如果反復(fù)把式(2)代入到式(1)中,將會(huì)得到:
從式(3)中可得,循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出值是受前面歷次輸入值xt,xt-1,xt-2,…,的影響的。以上就是在基于循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,引入了改進(jìn)后的基于LSTM的循環(huán)神經(jīng)網(wǎng)絡(luò)。
分析附件中的數(shù)據(jù),我們發(fā)現(xiàn)在其他指標(biāo)相同時(shí),其所患病癥可能不同,即同一數(shù)據(jù)的標(biāo)簽不唯一,且診斷結(jié)果不僅與睡眠質(zhì)量有關(guān),與人體的其他因素也存在一定關(guān)系,為消除這些誤差,我們使用Top-n錯(cuò)誤率評(píng)價(jià)模型的準(zhǔn)確性。Top-n錯(cuò)誤率即從模型的預(yù)測(cè)結(jié)果中選取概率最大的n個(gè)作為預(yù)測(cè)類(lèi)別,當(dāng)預(yù)測(cè)類(lèi)別中包含真實(shí)類(lèi)別時(shí),判定為預(yù)測(cè)成功,否則為失敗。可以看出,當(dāng)n為1時(shí),即為常用的模型錯(cuò)誤率。本文中,我們主要比較模型的Top-3和Top-5錯(cuò)誤率。
我們將附錄中的9個(gè)指標(biāo)作為神經(jīng)網(wǎng)絡(luò)的輸入,患病的類(lèi)別作為神經(jīng)網(wǎng)絡(luò)的輸出,并設(shè)置神經(jīng)網(wǎng)絡(luò)的參數(shù)見(jiàn)表1.
表1 神經(jīng)網(wǎng)絡(luò)的參數(shù)
從處理后的數(shù)據(jù)中選取6 500組數(shù)據(jù)作為訓(xùn)練集使用神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。分別以Top-3錯(cuò)誤率和Top-5錯(cuò)誤率為標(biāo)準(zhǔn),分別得到訓(xùn)練的誤差變化圖和準(zhǔn)確率變化,見(jiàn)圖1.
以Top-3錯(cuò)誤率為標(biāo)準(zhǔn)訓(xùn)練終止時(shí)的準(zhǔn)確率為0.702 085,使用處理后數(shù)據(jù)中的500組數(shù)據(jù)最為驗(yàn)證集對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行測(cè)試,可得到驗(yàn)證集上準(zhǔn)確率為0.696 276.
圖1 Top-3和Top-5的準(zhǔn)確率變化圖
以Top-5錯(cuò)誤率為標(biāo)準(zhǔn)訓(xùn)練終止時(shí)的準(zhǔn)確率為0.988 21,使用處理后數(shù)據(jù)中的500組數(shù)據(jù)最為驗(yàn)證集對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行測(cè)試,可得到驗(yàn)證集上準(zhǔn)確率為0.973 721.
由于數(shù)據(jù)的指標(biāo)均以Pittsburgh sleep quality index為選取標(biāo)準(zhǔn),因此,我們?cè)谏鲜瞿P偷幕A(chǔ)上,選取不同的取值,通過(guò)模型求得病率與原數(shù)據(jù)中的得病情況進(jìn)行比較,得出睡眠質(zhì)量越高,睡眠時(shí)間越長(zhǎng),得病率越低。
參考文獻(xiàn):
[1]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.