焦曉宇,周雪忠**,胡鏡清,謝 琪,周洪偉
(1. 北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 交通數(shù)據(jù)分析與挖掘北京市重點(diǎn)實(shí)驗(yàn)室 北京 100044;2. 中國中醫(yī)科學(xué)院中醫(yī)基礎(chǔ)理論研究所 北京 100700;3. 中國中醫(yī)科學(xué)院 北京 100700;4. 中國中醫(yī)科學(xué)院中醫(yī)中醫(yī)藥數(shù)據(jù)中心 北京 100700)
基于可視化圖方法的體征時(shí)間序列數(shù)據(jù)分類分析研究*
焦曉宇1,周雪忠1**,胡鏡清2,謝 琪3,周洪偉4
(1. 北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 交通數(shù)據(jù)分析與挖掘北京市重點(diǎn)實(shí)驗(yàn)室 北京 100044;2. 中國中醫(yī)科學(xué)院中醫(yī)基礎(chǔ)理論研究所 北京 100700;3. 中國中醫(yī)科學(xué)院 北京 100700;4. 中國中醫(yī)科學(xué)院中醫(yī)中醫(yī)藥數(shù)據(jù)中心 北京 100700)
目的:本研究采用復(fù)雜網(wǎng)絡(luò)理論研究體征時(shí)序數(shù)據(jù),使用網(wǎng)絡(luò)特征刻畫體征時(shí)序數(shù)據(jù)的動(dòng)態(tài)特征,分析網(wǎng)絡(luò)特征與人體生理系統(tǒng)健康狀態(tài)的關(guān)系。方法:本文采用可視化圖方法將標(biāo)準(zhǔn)心率時(shí)序數(shù)據(jù)和穿戴設(shè)備采集的老年人心率等體征時(shí)序數(shù)據(jù)網(wǎng)絡(luò)化,提取網(wǎng)絡(luò)特征,采用決策樹分類方法分析網(wǎng)絡(luò)特征與心臟疾病和年齡因素關(guān)系。結(jié)果:決策樹模型對心臟疾病和年齡因素有較好的分類結(jié)果,標(biāo)準(zhǔn)心率時(shí)序數(shù)據(jù)的分形特性使網(wǎng)絡(luò)度分布為冪律分布,網(wǎng)絡(luò)圖密度特征是與心臟疾病和年齡因素相關(guān)的主要因素。結(jié)論:網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)繼承體征時(shí)序數(shù)據(jù)的動(dòng)態(tài)特性并將之體現(xiàn)在網(wǎng)絡(luò)特征上。體征時(shí)序數(shù)據(jù)的動(dòng)態(tài)特性和網(wǎng)絡(luò)特征的對應(yīng)關(guān)系還待進(jìn)一步研究闡明。
時(shí)間序列 復(fù)雜網(wǎng)絡(luò) 網(wǎng)絡(luò)特征 生理體征 老年健康
時(shí)間序列數(shù)據(jù)是按時(shí)間順序記錄的數(shù)據(jù)點(diǎn),是復(fù)雜系統(tǒng)的數(shù)據(jù)反映。時(shí)間序列挖掘?qū)r(shí)間序列數(shù)據(jù)作為研究對象,以挖掘時(shí)間序列數(shù)據(jù)的穩(wěn)定性、變異性等特性[1-3]。時(shí)間序列數(shù)據(jù)挖掘方法通常以特征表示和相似性度量為基礎(chǔ),然后進(jìn)行分類、聚類、興趣模式發(fā)現(xiàn)、異常模式發(fā)現(xiàn)、數(shù)據(jù)可視化等挖掘分析[2,4]。
根據(jù)復(fù)雜系統(tǒng)產(chǎn)生的時(shí)間序列數(shù)據(jù)來評價(jià)系統(tǒng)的狀態(tài),是時(shí)間序列數(shù)據(jù)研究的重要研究內(nèi)容,研究人員已經(jīng)對此經(jīng)過大量的研究,并在金融、醫(yī)學(xué)、氣象等領(lǐng)域取得了很大進(jìn)步。例如,Costa M.等[4]提出多尺度熵的方法,在多個(gè)尺度上計(jì)算時(shí)間序列數(shù)據(jù)的熵值,用多尺度熵值來評價(jià)復(fù)雜系統(tǒng)的復(fù)雜性,并將多尺度熵算法應(yīng)用到人體生理系統(tǒng)評價(jià)中。Lacasa L.等[5]提出將復(fù)雜系統(tǒng)的時(shí)間序列數(shù)據(jù)轉(zhuǎn)化為網(wǎng)絡(luò),通過分析網(wǎng)絡(luò)模體將不同性質(zhì)的復(fù)雜系統(tǒng)進(jìn)行類目劃分[6,7,9],他們發(fā)現(xiàn)健康狀態(tài)不同者的心率時(shí)間序列網(wǎng)絡(luò)具有不同的模體結(jié)構(gòu)。Zhang J.等[8]提出將周期性時(shí)間序列數(shù)據(jù)轉(zhuǎn)化為網(wǎng)絡(luò)的方法,探討網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和復(fù)雜系統(tǒng)動(dòng)態(tài)特性的關(guān)系。
時(shí)間序列數(shù)據(jù)的網(wǎng)絡(luò)化將復(fù)雜網(wǎng)絡(luò)的理論引入到時(shí)間序列數(shù)據(jù)的挖掘分析中,以網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)為基礎(chǔ),探討網(wǎng)絡(luò)特征和復(fù)雜系統(tǒng)之間的關(guān)系。本文利用時(shí)間序列數(shù)據(jù)網(wǎng)絡(luò)化方法(Visibility Graph,VG)將時(shí)間序列數(shù)據(jù)轉(zhuǎn)化為網(wǎng)絡(luò)[5],抽取網(wǎng)絡(luò)特征作為時(shí)間序列數(shù)據(jù)的特征,結(jié)合機(jī)器學(xué)習(xí)的方法,探討了復(fù)雜系統(tǒng)特性評價(jià)的網(wǎng)絡(luò)化方法。文中選取人體心臟系統(tǒng)作為復(fù)雜系統(tǒng),以心率時(shí)間序列數(shù)據(jù)為研究對象,分析了心率數(shù)據(jù)VG網(wǎng)絡(luò)的度分布特性,并采用監(jiān)督分類模型進(jìn)行心率時(shí)序數(shù)據(jù)網(wǎng)絡(luò)和心臟健康狀態(tài)關(guān)系模型的學(xué)習(xí)。
1.1 可視化圖方法
可視化圖方法VG的出發(fā)點(diǎn)是利用復(fù)雜網(wǎng)絡(luò)技術(shù)分析時(shí)間序列數(shù)據(jù),探索時(shí)間序列數(shù)據(jù)結(jié)構(gòu)特性與網(wǎng)絡(luò)特征的關(guān)系。首先是將時(shí)間序列數(shù)據(jù)轉(zhuǎn)換為網(wǎng)絡(luò),轉(zhuǎn)換方式是將每一個(gè)數(shù)據(jù)點(diǎn)作為網(wǎng)絡(luò)的一個(gè)節(jié)點(diǎn),節(jié)點(diǎn)間的邊滿足下列要求:
①相鄰的節(jié)點(diǎn)之間有邊相連;
②兩個(gè)數(shù)據(jù)點(diǎn)A<ta,ya>;B<tb,yb>;對于A、B間的任意數(shù)據(jù)點(diǎn)C<tc,yc>滿足:
則節(jié)點(diǎn)A、B可見,A、B有邊連接[5,9]。
VG算法將時(shí)間序列數(shù)據(jù)轉(zhuǎn)化為網(wǎng)絡(luò),網(wǎng)絡(luò)將繼承時(shí)間序列數(shù)據(jù)的時(shí)間和空間特性,并將這些特性體現(xiàn)在網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)中,因此不同性質(zhì)的時(shí)間序列數(shù)據(jù)對應(yīng)的VG網(wǎng)絡(luò)具有不同的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。對于周期時(shí)間序列數(shù)據(jù),VG網(wǎng)絡(luò)繼承時(shí)間序列數(shù)據(jù)的周期特性成為規(guī)則網(wǎng)絡(luò),整個(gè)網(wǎng)絡(luò)是一個(gè)周期內(nèi)數(shù)據(jù)點(diǎn)形成的網(wǎng)絡(luò)的重復(fù)組合。
隨機(jī)網(wǎng)絡(luò)轉(zhuǎn)化為VG網(wǎng)絡(luò)后,較大的數(shù)據(jù)點(diǎn)具有更高的可見性,成為hub節(jié)點(diǎn),使網(wǎng)絡(luò)的度分布成為指數(shù)函數(shù),網(wǎng)絡(luò)是隨機(jī)網(wǎng)絡(luò),如圖1所示。我們生成了一個(gè)具有10 000個(gè)數(shù)據(jù)點(diǎn)的隨機(jī)時(shí)間序列,圖1(a)為隨機(jī)時(shí)間序列的點(diǎn)線圖,圖1(b)為對應(yīng)VG網(wǎng)絡(luò)的度分布,可見度分布為指數(shù)分布。
圖1 隨機(jī)數(shù)據(jù)及其生成的VG網(wǎng)絡(luò)的度分布
分形時(shí)間序列數(shù)據(jù)具有自相似的特性,其生成的VG網(wǎng)絡(luò)度分布具有冪律分布的特征,網(wǎng)絡(luò)為無標(biāo)度網(wǎng)絡(luò),如圖2所示[9]。我們生成了一個(gè)具有10 000個(gè)數(shù)據(jù)點(diǎn)的Conway序列,Conway序列為:
1.2 網(wǎng)絡(luò)特征
我們采用VG算法將時(shí)間序列數(shù)據(jù)轉(zhuǎn)化為網(wǎng)絡(luò),進(jìn)一步抽取網(wǎng)絡(luò)拓?fù)涮卣髯鳛閺?fù)雜系統(tǒng)的特征。我們選擇度分布、最大度、圖密度、集聚系數(shù)、全局集聚系數(shù)、介數(shù)分布、模塊度和特征路徑長度(Average Path Length,APL)這7個(gè)特征[10,11]。
度分布是指網(wǎng)絡(luò)中節(jié)點(diǎn)度的分布,不同性質(zhì)的網(wǎng)絡(luò)度分布函數(shù)不同,隨機(jī)網(wǎng)絡(luò)、WS小世界網(wǎng)絡(luò)、NW小世界網(wǎng)絡(luò)的度分布近似泊松分布,無標(biāo)度網(wǎng)絡(luò)的度分布為冪律分布。無標(biāo)度網(wǎng)絡(luò)的冪律分布和時(shí)間序列數(shù)據(jù)分形特性間存在某種聯(lián)系[10]。最大度即為網(wǎng)絡(luò)中節(jié)點(diǎn)度的最大值,對于一個(gè)具有n個(gè)節(jié)點(diǎn)網(wǎng)絡(luò),最大度為k的概率hk為:
其中pk為度值為k的概率,Pk為度分布的累積分布在k的值。最大度和時(shí)間序列數(shù)據(jù)的極值和最值有關(guān),是產(chǎn)生hub節(jié)點(diǎn)的重要因素。
圖密度表示網(wǎng)絡(luò)中各節(jié)點(diǎn)之間聯(lián)系的緊密程度,無向圖圖密度D的定義為:
圖2 Conway時(shí)間序列數(shù)據(jù)和其VG網(wǎng)絡(luò)度分布
時(shí)序數(shù)據(jù)VG網(wǎng)絡(luò)的圖密度和時(shí)序數(shù)據(jù)的變動(dòng)率有關(guān)。時(shí)序數(shù)據(jù)的變動(dòng)率越大,時(shí)序數(shù)據(jù)節(jié)點(diǎn)間的可見性越高,時(shí)序數(shù)據(jù)生成的VG網(wǎng)絡(luò)圖密度越大。傳遞特性評價(jià)網(wǎng)絡(luò)中三角形的密度,在社交網(wǎng)絡(luò)中表示一個(gè)人的朋友的朋友也是其朋友,傳遞特性隨著網(wǎng)絡(luò)規(guī)模的增加趨向于非零極限。特征路徑長度為網(wǎng)絡(luò)中任意兩個(gè)節(jié)點(diǎn)之間的距離的平均值,一些節(jié)點(diǎn)數(shù)巨大的網(wǎng)絡(luò)的特征路徑長度卻很小。模塊度的概念最早由Mark Newman提出,用來衡量網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)強(qiáng)度,在iGraph中采用基于貪心思想的模塊度最大化貪心算法FN進(jìn)行模塊度計(jì)算。
1.3 C4.5決策樹
決策樹是一個(gè)用于監(jiān)督學(xué)習(xí)的層次預(yù)測分類模型,表示對象屬性與對象值之間的一種映射關(guān)系。決策樹使用樹狀圖形或決策模型,著眼于從一組無規(guī)則的事例推理出決策樹表示形式的分類規(guī)則。樹中每個(gè)非葉子節(jié)點(diǎn)表示某個(gè)對象屬性,而每個(gè)分叉路徑則代表某個(gè)可能的屬性值,每個(gè)葉節(jié)點(diǎn)則對應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)的路徑所示對象的值。決策樹的訓(xùn)練時(shí)間相對較少,樹形的分類模型比較符合人類的理解方式[12]。
C4.5算法是最常用、最有影響的決策樹算法之一,是改良的ID3算法[13]。C4.5算法基于生成的決策樹中節(jié)點(diǎn)所含的信息熵最小的原理,采用信息增益比作為選擇測試屬性的標(biāo)準(zhǔn),能夠處理離散值屬性和連續(xù)值屬性。
心率數(shù)據(jù)具有較快的頻率且方便采集,是研究人員常用的一種時(shí)間序列數(shù)據(jù)。我們選取了3種類型的心率數(shù)據(jù),分別對應(yīng)健康人(Normal Sinus Rhythm,NSR)、充血性心率衰竭患者(Congestive Heart Failure,CHF)和房顫患者(Atrial Fibrillation,AF)。然后從Physionet上下載了對應(yīng)的數(shù)據(jù)樣本,其中包含NSR樣本54個(gè),CHF患者樣本29個(gè),AF患者樣本70人,其中NSR和CHF患者的采集時(shí)間約為23 h,AF患者采集時(shí)間約為1 min[14]。
由于房顫心率的采集時(shí)間較短,為了平衡樣本的差異,我們將NSR和CHF的心率數(shù)據(jù)進(jìn)行了拆分,將樣本每隔6 h進(jìn)行一次拆分,拆分出來的時(shí)間序列數(shù)據(jù)作為一個(gè)獨(dú)立的樣本,最終得到106個(gè)充血性心率衰竭的心率樣本和176個(gè)健康的心率樣本,樣本心率時(shí)序數(shù)據(jù)如圖3所示。
對于得到的樣本,我們采用VG算法將心率時(shí)序數(shù)據(jù)轉(zhuǎn)換為心率網(wǎng)絡(luò),并用iGraph計(jì)算了網(wǎng)絡(luò)最大度、度分布、圖密度、集聚系數(shù)、全局集聚系數(shù)、介數(shù)分布、模塊度和特征路徑長度這7個(gè)特征[15],其中度分布指數(shù)、圖密度、集聚系數(shù)的分布如圖4所示。
圖3 心率時(shí)序數(shù)據(jù)
圖4 網(wǎng)絡(luò)特征數(shù)據(jù)的分布
其中對于網(wǎng)絡(luò)的度分布,我們進(jìn)行了冪律分布的擬合[16],如圖5所示。圖5(a)為NSR心率VG網(wǎng)絡(luò)度分布,符合參數(shù)α=2.02的冪律分布。圖5(b)為CHF患者的心率VG網(wǎng)絡(luò),符合參數(shù)α=2.26的冪律分布。圖5(c)為AF患者的心率VG網(wǎng)絡(luò),符合參數(shù)α=2.02的冪律分布??梢?,這3個(gè)網(wǎng)絡(luò)的度分布都滿足冪律分布,說明VG網(wǎng)絡(luò)繼承了心率時(shí)序數(shù)據(jù)的分形特性。
我們將心率時(shí)序數(shù)據(jù)的網(wǎng)絡(luò)拓?fù)涮卣髯鳛閿?shù)據(jù)集特征,將心臟健康狀況作為類別,采用C4.5決策樹算法進(jìn)行了學(xué)習(xí)[12,13]。首先我們將3種類型的心率數(shù)據(jù)匯總在一起,形成一個(gè)多類分類數(shù)據(jù)集,進(jìn)行了C4.5算法的訓(xùn)練學(xué)習(xí)。分類結(jié)果如圖表1所示,平均準(zhǔn)確率為0.73,平均召回率為0.739。然后我們將NSR和CHF患者構(gòu)成一個(gè)樣本集,采用C4.5決策樹算法進(jìn)行了學(xué)習(xí),模型的分類結(jié)果如圖表2所示,平均準(zhǔn)確率為0.667,平均召回率為0.670。最后我們對由NSR和AF患者構(gòu)成的數(shù)據(jù)集進(jìn)行了C4.5學(xué)習(xí),分類結(jié)果如圖表3所示,平均準(zhǔn)確率為0.996,平均召回率為0.996。
上述結(jié)果表明,不同健康狀態(tài)的心率時(shí)序數(shù)據(jù)對應(yīng)的VG網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和網(wǎng)絡(luò)特征存在區(qū)別,其中與NSR相比,AF患者心率對應(yīng)的VG網(wǎng)絡(luò)具有較好的區(qū)分性。Costa M等[3,4]的結(jié)果表明AF患者心率數(shù)據(jù)的多尺度熵曲線和白噪聲的多尺度熵曲線是一致的,表明AF患者的心率數(shù)據(jù)具有較高的隨機(jī)性,而NSR和CHF患者的心率數(shù)據(jù)具有較高的確定性。AF患者心率數(shù)據(jù)和NSR、CHF患者心率數(shù)據(jù)的動(dòng)態(tài)特性不同,因此具有較高的區(qū)分性。同時(shí)也說明VG網(wǎng)絡(luò)繼承時(shí)序數(shù)據(jù)的動(dòng)態(tài)特性,并將動(dòng)態(tài)特性體現(xiàn)在網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和網(wǎng)絡(luò)特征上。
在學(xué)習(xí)到的3個(gè)模型中,3種類型心率數(shù)據(jù)學(xué)習(xí)到的決策樹模型如圖6所示,其中0代表NSR人群,1代表AF人群,2代表CHF人群。3個(gè)決策樹模型選擇出來的主要屬性是圖密度、度分布和集聚系數(shù)。由圖6可見,AF患者心率數(shù)據(jù)對應(yīng)VG網(wǎng)絡(luò)的圖密度比其他兩類心率數(shù)據(jù)VG網(wǎng)絡(luò)的圖密度高,說明AF患者的心率比NSR和心衰患者心率的變動(dòng)率高。
圖5 度分布的冪律函數(shù)擬合
物聯(lián)網(wǎng)時(shí)代可穿戴設(shè)備的常規(guī)應(yīng)用將給疾病診斷機(jī)理研究和健康管理帶來新的機(jī)遇。相對于傳統(tǒng)的醫(yī)療設(shè)備,可穿戴醫(yī)療設(shè)備具有更便捷的體征時(shí)序數(shù)據(jù)采集能力,這為解決我國日益加重的人口老齡化現(xiàn)象帶來的老年人健康問題提供了新的解題方式。
表1 NSR、CHF、AF分類結(jié)果
表2 NSR、CHF分類結(jié)果
表3 MSR、AF分類結(jié)果
圖6 心率數(shù)據(jù)決策樹模型
可穿戴設(shè)備不同于專業(yè)的醫(yī)療設(shè)備,其采集的體征時(shí)序數(shù)據(jù)能否作為疾病診斷的標(biāo)準(zhǔn)還有待討論,對此我們進(jìn)行了嘗試性的探索。我們利用穿戴設(shè)備采集65位老年人和10位青年人的心率、動(dòng)脈血氧飽和度、體溫和呼吸頻率數(shù)據(jù),采集時(shí)間為24 h。我們對采集的數(shù)據(jù)進(jìn)行了初步的篩選,最終得到可用樣本34個(gè),其中包含24位老年人和10位青年人,每個(gè)樣本的不間斷采集點(diǎn)數(shù)量在2 000個(gè)以上,心率數(shù)據(jù)如圖7所示。
我們將年齡作為分析對象,考察老年人和青年人兩個(gè)年齡組的體征時(shí)序數(shù)據(jù)VG網(wǎng)絡(luò)的區(qū)別。對于每個(gè)體征時(shí)序數(shù)據(jù),我們采用可視圖方法生成了VG網(wǎng)路,并計(jì)算了VG網(wǎng)絡(luò)的各個(gè)特征值。我們采集了每個(gè)樣本的心率、動(dòng)脈血氧飽和度、體溫和呼吸頻率4個(gè)體征數(shù)據(jù),從34個(gè)可用的樣本,最終得到體征時(shí)序數(shù)據(jù)VG網(wǎng)絡(luò)136個(gè)。將老年人和青年人分成兩組,老年人組包含VG網(wǎng)絡(luò)96個(gè),青年人組包含VG網(wǎng)絡(luò)40個(gè)。采用C4.5分類算法進(jìn)行學(xué)習(xí),分類模型如圖8所示,其中1代表老年人,2代表青年人,分類結(jié)果如表4所示,平均分類準(zhǔn)確率為0.758,平均召回率為0.743。
由上述模型可見,和年齡相關(guān)的主要網(wǎng)絡(luò)特征是圖密度、模塊度、度分布和全局集聚系數(shù)。在圖密度上,老年人心率、呼吸頻率、體溫和動(dòng)脈血氧飽和度體征時(shí)序數(shù)據(jù)VG網(wǎng)絡(luò)的圖密度大于青年人體征時(shí)序數(shù)據(jù)VG網(wǎng)絡(luò)的圖密度,說明老年人體征數(shù)據(jù)的變動(dòng)率較高,老年人對人體體征的調(diào)節(jié)能力較低。在心率、呼吸頻率、體溫和動(dòng)脈血氧飽和度這4個(gè)體征時(shí)序數(shù)據(jù)中,動(dòng)脈血氧飽和度比其他3個(gè)體征更為穩(wěn)定,每位受試者各項(xiàng)體征時(shí)序數(shù)據(jù)VG網(wǎng)絡(luò)的圖密度值如圖9所示,可見動(dòng)脈血氧飽和度VG網(wǎng)絡(luò)的圖密度比其他3個(gè)體征時(shí)序數(shù)據(jù)VG網(wǎng)絡(luò)的圖密度低。
圖7 CIM設(shè)備采集的數(shù)據(jù)(部分)
圖8 年齡因素決策樹模型
人體是一個(gè)動(dòng)態(tài)復(fù)雜系統(tǒng),體征時(shí)序數(shù)據(jù)網(wǎng)絡(luò)化可以整體考察體征時(shí)序數(shù)據(jù)隱含的健康狀態(tài)特征,發(fā)現(xiàn)和確認(rèn)與健康狀態(tài)高度關(guān)聯(lián)的模式和規(guī)律。
本文的研究表明,網(wǎng)絡(luò)圖密度和健康狀態(tài)具有較高的相關(guān)性,圖密度表示網(wǎng)絡(luò)中邊的密集程度,時(shí)序數(shù)據(jù)的變動(dòng)率是影響網(wǎng)絡(luò)圖密度的主要因素,變動(dòng)率越高則時(shí)序數(shù)據(jù)中節(jié)點(diǎn)的可見性越高,圖密度越大。健康的人體系統(tǒng)具有較好的適應(yīng)能力,在生理體征時(shí)序數(shù)據(jù)上的體現(xiàn)為體征數(shù)據(jù)的變化較為緩慢,因此年齡、疾病等因素會(huì)使體征時(shí)序數(shù)據(jù)VG網(wǎng)絡(luò)的圖密度增加。
表4 年齡因素分類結(jié)果
圖9 各樣本心率、呼吸頻率、體溫和動(dòng)脈血氧飽和度時(shí)序數(shù)據(jù)VG網(wǎng)絡(luò)的圖密度
本研究中老年人體征數(shù)據(jù)的采集采用了穿戴設(shè)備,可穿戴設(shè)備作為一種新興的技術(shù),將其應(yīng)用到醫(yī)療行業(yè)既是一個(gè)機(jī)遇也是一個(gè)挑戰(zhàn)??纱┐髟O(shè)備比傳統(tǒng)醫(yī)療設(shè)備便捷,是解決老年人健康問題的有效手段,但當(dāng)前的可穿戴設(shè)備在數(shù)據(jù)采集的可靠性和噪聲處理適用性方面仍存在不足,需要在開放環(huán)境的適應(yīng)性和關(guān)鍵技術(shù)研究方面得以提高,從而促進(jìn)體征數(shù)據(jù)的高質(zhì)量便攜式采集。。
1 Lin W, Orgun M A, Williams G J. An overview of temporal data mining. In: Proceedings of the 1stAustralian Data Mining Workshop, 2002: 83-90.
2 賈澎濤,何華燦,劉麗,等.時(shí)間序列數(shù)據(jù)挖掘綜述.計(jì)算機(jī)應(yīng)用研究, 2007, 24(11): 15-18, 29.
3 Costa M, Goldberger A L, Peng C K. Multiscale entropy analysis of biological signals. Phys Rev E Stat Nonlin Soft Matter Phys, 2005, 71(2): 021906.
4 Costa M, Goldberger A L, Peng C K. Multiscale entropy analysis of complex physiologic time series. Phys Rev Lett, 2002, 89(6): 068102.
5 Lacasa L, Luque B, Ballesteros F, et al. From time series to complex networks: the visibility graph. Proc Natl Acad Sci U S A, 2008, 105(13): 4972-4975.
6 Milo R, Itzkovitz S, Kashtan N, et al. Super families of evolved and designed networks. Science, 2004, 303(5663): 1538-1542.
7 Nunez A, Lacasa L, Valero E, et al. Detecting series periodicity with horizontal visibility graphs. Int J Bifurcat Chaos, 2012. 22(7): 1250160. 8 Zhang J, Small M. Complex network from pseudoperiodic time series: topology versus dynamics. Phys Rev Lett, 2006, 96(23): 238701.
9 Iacovacci J, Lacasa L. Visibility graph motifs. ar Xiv preprint ar Xiv,2015, 1512: 00297
10 Newman M E J. The structure and function of complex networks. SIAM Rev, 2003, 45(2): 167-256.
11 Albert R, Barabási A L. Statistical mechanics of complex networks. Rev Mod Phys, 2002, 74(1): 47.
12 Quinlan J R. Induction of decision trees. Mach Learn, 1986, 1(1): 81-106.
13 Quinlan J R. Improved use of continuous attributes in C4.5. J Artif Intell Res, 1996: 77-90.
14 Goldberger A L, Amaral L A N, Glass L, et al. PhysioBank, PhysioToolkit, and PhysioNet: components of a new research resource for complex physiologic signals. Circulation, 2000, 101(23): e215-e220.
15 Csardi G, Nepusz T. The igraph software package for complex network research. Inter J Complex Sys, 2005, 1695(5): 1-9.
16 Clauset A, Shalizi C R, Newman M E J. Power-law distributions in empirical data. SIAM Rev, 2009, 51(4): 661-703.
Classification of Biological Signals Time Series by Extracting the Network Features Based on Visibility Graph
Jiao Xiaoyu1, Zhou Xuezhong1, Hu Jingqing2, Xie Qi3, Zhou Hongwei4
(1. College of Computer Science and Information Technology / Beijing Key Laboratory of Traffic Data Analysis and Mining, Beijing Jiaotong University, Beijing 100193, China;
2. Institute of Basic Theory, China Academy of Chinese Medical Sciences, Beijing 100700, China;
3. China Academy of Chinese Medical Sciences, Beijing 100700, China;
4. Traditional Chinese Medicine Data Center, China Academy of Chinese Medical Sciences, Beijing 100700, China)
This study aimed to transform the time series to network features using complex network approaches, and investigate associations between physiological network features and human health state. In this study, networks of standard heart rate time series and physiologic time series of the elderly that collected by wearable devices were built using visibility graph method. Then network features were extracted from these networks, and decision tree model was applied to analyze the main factors of network features contributing to heart disease and age. It was found that the fractal characteristic of heart rate time series brought out powerful law distribution for the degree distribution, and the network density became one of the major factors which were relevant to heart disease and age. In conclusion, it was indicated that topological features of networks underlay the dynamic characteristics of human physiologic time series. However, the correspondence between them still remained to be clarified.
Time series, complex network, network features, biological signals, elderly health
10.11842/wst.2016.04.018
R19
A
(責(zé)任編輯:朱黎婷,責(zé)任譯審:朱黎婷)
2016-04-06
修回日期:2016-04-13
* 科學(xué)技術(shù)部國家科技支撐計(jì)劃項(xiàng)目(2013BAH06F03):服務(wù)老年公寓的健康服務(wù)應(yīng)用系統(tǒng)研發(fā)與應(yīng)用,負(fù)責(zé)人:謝琪;科學(xué)技術(shù)部國家中醫(yī)藥行業(yè)科研專項(xiàng)(201307003):基于中醫(yī)特色的老年社區(qū)的健康監(jiān)測與干預(yù)關(guān)鍵技術(shù)研究,負(fù)責(zé)人:胡鏡清。
** 通訊作者:周雪忠,本刊編委,教授,主要研究方向:復(fù)雜網(wǎng)絡(luò)、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘。