馬 科,符春曉,劉 建,孫海勝
1(中國科學技術大學 管理學院學院,合肥 230026)2(中國人民解放軍 65113 部隊,葫蘆島 125000)3(淮河流域水資源保護局,蚌埠 230000)4(中國科學技術大學 計算機科學與技術學院,合肥 230026)
睡眠質量對診斷與睡眠有關的問題有重要影響,影響著一個人的健康狀況.監(jiān)測夜間的睡眠和醒來的情況可用來客觀評估睡眠質量.在夜間多導睡眠圖(PSG)記錄被視為分析睡眠狀態(tài)和一些睡眠相關問題發(fā)生的“黃金標準”.然而,這非常昂貴,沒有廣泛使用.同時對使用者來說有妨礙又不舒服,因此不適合長期監(jiān)測.一些可穿戴設備的出現滿足了不顯眼的睡眠監(jiān)測需求.它通常是戴在手腕上、手指上,因其低成本和便利性變得越來越普及[1].然而,存在的問題就是收集的信號是相對低精度[2].必須要做的研究工作就是以較少的信號需求提高睡眠和喚醒分類的精確性.
動態(tài)時間規(guī)整是最近提出用于時間序列數據的相似性度量[3],它已被廣泛應用于各個領域如生物信息學和生物特征的時間序列模式識別.許多研究采用動態(tài)時間規(guī)整對睡眠和喚醒狀態(tài)進行分類[4].然而,實驗表明,使用動態(tài)時間規(guī)整的睡眠和喚醒分類的效果,需要改善明顯的“重疊”的問題[5].
概率模型經常被用于描述模式識別問題,貝葉斯分類器是最常用的分類方法之一[6].它是基于事先平滑映射的假設提供更好的概括.雖然貝葉斯方法已經研究了多年,但直到最近,因為計算機的快速發(fā)展,其實際應用開始變得普及[7].實驗表明,貝葉斯方法是有效的,可以提高DTW在睡眠和喚醒狀態(tài)分類的表現.
研究試圖只通過心率(HR)和血氧飽和度(SpO2)信息區(qū)分睡眠和喚醒狀態(tài).首先,動態(tài)時間規(guī)整(DTW)方法用于從原始資料的信號提取的“特征”,資料來源于睡眠和心臟健康研究 (Sleep and Heart Health Study,SHHS).然后,貝葉斯方法處理通過 DTW 特征提取的輸入序列/信號.最后,通過案例驗證基于DTW的貝葉斯方法的可行性和優(yōu)勢.
本部分通過描述基于DTW的分類方法,然后基于DTW方法的重疊問題,使用先驗信息分布假設的貝葉斯方法開始睡眠和喚醒分類.
對于時間序列的分類和聚類,動態(tài)時間規(guī)整優(yōu)于歐氏距離.DTW允許兩個相似但局部非相位的時間序列之間非線性排列.圖1演示了歐氏距離和DTW距離的區(qū)別.
利用貝葉斯回歸和分類方法的睡眠和喚醒分類問題作為時間序列數據.
圖1 歐氏距離和 DTW 距離
典型的候選函數f如下:
貝葉斯回歸方法是求未知參數向量w點估計的一種經典方法,貝葉斯方法通過概率分布研究w的不確定性[8].大多數情況下,我們定義一個概率分布p(w)作為先驗信息,然后通過對數據集{x,y}的觀察和最大似然法對分布進行修改完善.預測推斷可以通過后驗分布得到.特別是對于兩類分類問題,Logistic激活函數可以用來解釋輸出向量y在每個類的概率,并用貝葉斯決策規(guī)則分類[9].
如前一節(jié)所述,基于DTW的特征被用作貝葉斯方法的特征值.雖然在某些情況下,它可能會執(zhí)行效率低下,但與貝葉斯網絡相結合的特征,可以減少“重疊”的問題.因此,貝葉斯網絡分類器用于處理輸入序列/信號,如圖 2 所示.
在這個貝葉斯網絡中,函數的一般形式f如下:
圖2 基于DTW提取特征的貝葉斯網絡框架
從概率角度,假設噪聲值ε是一個方差σ2均值為零高斯過程正態(tài)分布,故:
由于輸入序列/向量x的獨立性的假設,因此,具有完整數據集的似然函數可以寫成:
在研究y之前,我們將處理一些w的先驗信息.我們通過w描述構造一個概率分布p(w).具體來說,我們通過w定義了高斯先驗分布的形式,如下:
其中α作為超參數,是逆高斯分布.
根據貝葉斯定理,w的后驗分布是與先驗分布和似然函數的乘積長正比例,計算如下:
在貝葉斯方法中我們通過整合w的后驗分布進行推斷.我們假設使用后驗分布為w找到一個點估計,用于估計w一個經典的統(tǒng)計技術的最大似然法.由于負對數函數是單調遞減函數,使方程最大化為變量最小化.
因此,給定一個新的值x,我們可以作出預測分布y*:
實際上完全解析計算出是不可能的,需要做一些近似計算.具體逼近法被引入,因此,我們用一個新值x可以得到可計算的預測分布[11]:
然而,超參數限制了w的先驗分布的規(guī)模和形狀,α的值可以指定,通過與每個輸入x相關聯w的分布建模,以盡量減少錯誤分類的概率.這個過程的一個典型的方法被稱為自動相關確定(ARD)[12],并在訓練過程中實現了特征選擇.
一旦網絡的權重進行了培訓,貝葉斯決策規(guī)則可以應用到執(zhí)行模式分類.g表示標準狀態(tài)向量、睡眠向量或喚醒向量,找到g和向量y最小化歐氏距離的向量.我們能斷定如果g=sleep vector則輸入模式x睡眠,否則x喚醒.
本文提出的方法進行驗證的數據來源于睡眠心臟健康研究測試(SHHS),SHHS由國家心肺和血液研究所實施的一套全面的實驗.它測試與呼吸相關睡眠是否與冠心病、中風、死亡率和高血壓的風險增加相關.從2001年1月到2003年6月,多導睡眠圖(PSG)是在3295的參與者獲得,并由項目人員根據睡眠階段的結果提供.
PSG記錄的心率(HR)和血氧飽和度(SpO2)信號10個樣本數據來自SHHS.記錄通常從午夜開始志愿者睡著后到第二天早上他/她醒來.睡眠狀態(tài)的結果最初由項目SHHS提供,已經由專業(yè)的睡眠健康研究教授/醫(yī)生修訂.根據標準,信號以30秒分為不重疊單元,每個單元有一個睡眠或喚醒標簽.與睡眠狀態(tài)相關的PSG的樣本記錄如圖3所示,整個數據集的詳細信息見表1.
圖3 1#樣本 30 分鐘 PSG 記錄睡眠狀態(tài)
表1 所有 10 個樣本的人口統(tǒng)計和臨床統(tǒng)計
數據集在測試貝葉斯方法之前,我們需要對數據集進行一些預處理,以減少噪聲和離群值.在這里,我們使用傳統(tǒng)的閾值濾波和平滑算法粗略地處理數據集[13].根據生物醫(yī)學的知識,醫(yī)學信號往往停留在較低的頻率,然后快速傅立葉變換是用來從原來的頻率切斷高頻.
每個30 s期心率(HR)和血氧飽和度(SpO2)信號的平均值作為特征,并在上文提到,每兩個時期之間的DTW距離也選為特征.這里的DTW距離進行歸一化處理.
由于我們的數據集的大小相對較小,不適合將其分割成單獨的訓練和測試集.該方法使用保持一個子集作為測試集,其余子集用于在一個迭代訓練貝葉斯網絡.在每次迭代中,訓練數據集的特征如表2所示.
表2 每次迭代過程中數據集的特征
最后,DTW為基礎的貝葉斯方法的10個樣本的結果見表3和圖4.每次迭代的詳細結果見表3,所有樣品的平均精度為84.35%,召回率為57.52%.每個樣本的詳細結果如圖4所示,紅圈是每個樣本的喚醒狀態(tài),藍色點是睡眠狀態(tài),黑線是貝葉斯方法來區(qū)分睡眠狀態(tài)或喚醒狀態(tài)的閾值,線上面的點是喚醒狀態(tài),線下面的點是睡眠狀態(tài).
表3 每次迭代的詳細結果
圖4 基于DTW的貝葉斯方法的10個樣本的結果
用平均值和HR和SpO2的DTW距離為特征,后驗分布是用來尋找W的點估計,這相當于最小化方程.有許多回歸方法已被討論,Mackay使用了拉普拉斯近似過程[14].超參數α和σ通過專家系統(tǒng)賦值,α是聯合向量,σ=0.01.根據方程,每個 30 s 單元的可以計算得出,代表著這30 s的喚醒狀態(tài)的概率.因此,睡眠向量被設置為一個奇點0.5.
從所有圖表可以看出,所有樣本的睡眠和喚醒分類效率都有較高的精度和良好的召回價值.
本文提出了用于睡眠和喚醒狀態(tài)分類問題的基于DTW特征的貝葉斯方法.本文提出的方法對訓練數據的特點進行聚類以區(qū)別睡眠和喚醒狀態(tài)的特點.還介紹了利用動態(tài)時間規(guī)整方法提取時間序列特征,概率模型的貝葉斯分類方法處理不確定屬性.
實驗結果表明,DTW提取特征可以表征睡眠和喚醒狀態(tài),進而可以通過本文提出的貝葉斯方法進行分類.所有樣品的平均精度為84.35%,召回率為57.52%,這意味著可以通過較少的夜間采集的生理信號得到良好的結果表現.
這項工作可以在醫(yī)學、人工智能等領域做出貢獻.今后的工作,建議從PSG獲取更多的樣本用于方法的測試和完善,以了解如何使用DTW為基礎的貝葉斯方法更好地描述區(qū)分睡眠和喚醒狀態(tài),進一步明確什么樣的穿戴設備需要開發(fā).文中采用了傳統(tǒng)的閾值濾波和平滑算法粗略地處理數據集,后續(xù)的研究工作將討論采用更高級的運算復雜度更高的濾波及平滑算法,是否能夠更好地減少噪聲和離群值.
1 Fu CX,Zhang PL,Jiang J,et al.A Bayesian approach for sleep and wake classification based on dynamic time warping method.Multimedia Tools and Applications,2017,76(17):17765–17784.[doi:10.1007/s11042-015-3053-z]
2 Grote L,Zou D,Kraiczi H,et al. Finger plethysmography –a method for monitoring finger blood flow during sleep disordered breathing. Respiratory Physiology &Neurobiology,2003,136(2-3):141–152.
3 楊鵬,謝磊,陳虹潔.基于分段動態(tài)時間規(guī)整和后驗特征的中文語音模式發(fā)現.清華大學學報(自然科學版),2013,53(6):903–907.
4 Forestier G,Lalys F,Riffaud L,et al.Classification of surgical processes using dynamic time warping.Journal of Biomedical Informatics,2012,45(2):255–264.[doi:10.1016/j.jbi.2011.11.002]
5 Yu DR,Yu X,Hu QH,et al. Dynamic time warping constraint learning for large margin nearest neighbor classification. Information Sciences,2011,181(13):2787–2796.[doi:10.1016/j.ins.2011.03.001]
6 郝宇晨.貝葉斯網絡分類器近似學習算法.計算機系統(tǒng)應用,2014,23(8):189–193.
7 Bishop CM,Tipping ME.Bayesian regression and classification.Suykens J,Horvath G,Basu S.Advances in Learning Theory:Methods,Models and Applications.Richmond,TX,USA:IOS Press,2003.267–285.
8 宮秀軍.貝葉斯學習理論及其應用研究[博士學位論文].北京:中國科學院計算技術研究所,2002.
9 Wang Y,Hussein II.Bayesian-based decision-making for object search and classification.IEEE Transactions on Control Systems Technology,2011,19(6):1639–1647.[doi:10.1109/TCST.2010.2087760]
10 黃承杰,申飛,吳仲城.基于動態(tài)時間規(guī)劃的在線簽名認證方法.計算機系統(tǒng)應用,2009,18(2):49–52.
11 吳建寧,徐海東,凌雲,等.基于塊稀疏貝葉斯學習的人體運動模式識別.計算機應用,2016,36(4):1039–1044.[doi:10.11772/j.issn.1001-9081.2016.04.1039]
12 Neal RM. Bayesian learning for neural networks. IEEE Transactions on Neural Networks,1997,8(2):456.
13 余楚才,陳懷新,李雷.小波的循環(huán)閾值去噪方法.計算機工程 與應用,2009,45(21):106–108.[doi:10.3778/j.issn.1002-8331.2009.21.031]
14 MacKay DJC.The evidence framework applied to classification networks.Neural Computation,1992,4(5):720 –736.[doi:10.1162/neco.1992.4.5.720]