亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CART的高校教師亞健康決策模型構建

        2019-09-03 11:34:10張一川殷慧文
        實驗室研究與探索 2019年8期
        關鍵詞:亞健康決策樹高校教師

        易 俗, 張一川, 殷慧文

        (1.遼寧大學 創(chuàng)新創(chuàng)業(yè)學院,沈陽 110036; 2.東北大學 軟件學院,沈陽 110819)

        0 引 言

        亞健康是介于健康與疾病之間的邊緣狀態(tài)[1]。高校教師在教學、科研繁重任務下,工作沒有時間界限和空間界限[2]。傳統(tǒng)研究方法采用自評量表和調查表[3]的方式對高校教師亞健康狀況及影響因素進行統(tǒng)計和評估。該方法往往只能從宏觀角度出發(fā),階段性的開展調查。因此,從個體亞健康的預測預警角度,缺乏統(tǒng)計評估的時效性與客觀性,且調查評估過程需要投入的代價較高,效率較低。

        大數據因其強大的預測能力,在疾病診療、模型建立、健康管理、基因分析等方面逐漸顯示出巨大優(yōu)勢[4-5]?;跈C器學習的高校教師亞健康檢測方法能夠根據已有大數據分析建立評估模型,并在此基礎上根據影響因素基本數據滿足高校教師個體亞健康狀態(tài)的檢測、評估。相比與傳統(tǒng)方法,亞健康大數據的分析更加高效、客觀,能夠即時反映教師的亞健康狀況,并且能夠進一步支持高校教師亞健康的預測與預警。

        決策樹分類是數據挖掘中的一種分類方法[6]。通過對已有教師數據的學習和分析提取規(guī)則,對識別指標中的屬性進行量化計算。從而,為高校教師亞健康狀態(tài)的檢測提供科學、準確的評估方法體系。目前,國內外大量研究針對分類回歸樹(Classification and Regression Tree,CART)技術在健康、醫(yī)療領域進行了深入研究[7-10]。既涵蓋了健康疾病檢測、風險評估與干預的理論方法體系研究,也包括利用CART對疾病和健康的檢測、預警研究。還有方法通過改進CART算法降低數據的冗余度,提高診斷及預測的精度。但尚未存在研究利用CART的方法針對高校教師亞健康狀態(tài)的檢測給出完整全面的分析和建模。

        本文首先綜合分析高校教師職業(yè)本身的社會壓力與生活行為,充分考慮職業(yè)特性,構建一種多維度的高校教師多維影響因素概念模型。并進一步進行影響因素樣本數據集的特征分析,確定條件特征及決策特征,給出了數據預處理的方法及過程。在此基礎上,利用CART算法給出了高校教師亞健康決策模型的構建、優(yōu)化方法和過程。最后,設計了模型的構建架構,并利用Spark計算框架給出了該方法的并行實現。

        1 樣本數據分析及處理

        1.1 多維影響因素

        高校教師具有腦力勞動特征的職業(yè)特性,其個人健康狀況變化具有內在規(guī)律性,而不同的健康數據之間存在著內在的關聯性。在教學任務、科研成果等方面承受著巨大的精神壓力,在事業(yè)成就、職稱、生活習慣、人際關系等高壓環(huán)境下也存在著各種心理矛盾。為此,在性別、年齡、職稱等流行病學特征的理論依據下,針對高校教師的職業(yè)特點,將導致高校教師出現亞健康狀態(tài)的因素劃分為多維度高校教師健康影響因素[11-12]。多維度高校教師健康影響因素從社會特性、健康特性、環(huán)境特性、職業(yè)特性和行為特性5個維度展開,見圖1。

        1.2 樣本數據集特征分析

        采用決策樹技術解決高校教師亞健康狀態(tài)評估首先需要對樣本數據集展開分析。

        圖1 高校教師健康多維影響概念模型圖

        根據上述分析得到的多維影響因素,歸納樣本數據集中包含的條件屬性特征有48個,各維度參考的特征因素見表1。

        表1 多維亞健康影響因素屬性表

        決策屬性采用健康特性與標準亞健康評估指數相結合的方式,制定亞健康評價準則。利用向量空間模型對亞健康影響因素進行數學抽象。設樣本數據集中條件屬性特征為向量L(l1,l2,…,ln),其中l(wèi)1至ln為影響高校教師健康的n維屬性,主要來自于多維影響因素的社會特性、環(huán)境特性、職業(yè)特性及行為特性。決策屬性特征為向量R(r),其中r是根據上述亞健康評價準則得到的亞健康評價值,即

        r=w1·PHI+w2·CMI,(w1+w2=1)

        其中,PHI值是根據教師個人健康特性屬性中相關指數未在正常范圍內的數量確定的體檢健康值。CMI值根據康奈爾醫(yī)學指數問卷結果,綜合考慮身體因素和心理因素兩方面得到的亞健康狀態(tài)值。w1與w2為健康評價權重系數,通過調整該系數能夠綜合考察不同指標比例對認定是否亞健康及亞健康程度的影響。

        1.3 樣本數據預處理

        亞健康決策樹的構建包括構建與優(yōu)化兩個階段。首先,利用決策樹算法通過訓練數據集構造初始決策樹;然后,利用樹優(yōu)化算法通過測試數據集修正決策樹。因此,樣本數據的預處理除了考慮對數據如何采集,還需要考慮對數據如何進行整合及標注。亞健康評估樣本數據的預處理過程見圖2。

        圖2 數據預處理過程圖

        (1) 數據采集階段通過與校醫(yī)院、人事處、教務處、科研處、心理咨詢中心等多部門協(xié)同合作。針對健康特性、職業(yè)特性、環(huán)境特性等不同屬性的數據來源,通過各種管理系統(tǒng)接口進行數據的收集。利用Flume分布式架構,將大量的數據從數據資源裝載到目標服務器。針對行為特性數據如日常運動、健康等日志的采集,通過Apache的Flume數據采集工具實現。同時,利用ZooKeeper保存配置數據,保證配置數據的一致性和高可用。采集來的多樣化數據經過值域對照、數據抽取、轉換,最后上傳到健康數據庫。

        (2) 數據清洗階段為了降低決策樹構造過程數據質量對模型效果的負面影響,針對采集得到的數據進行數據補缺、去噪初步處理。

        (3) 數據整合階段針對上述分析數據庫中的數據進行數據的進一步處理。重點考慮數據對分析過程的影響,通過變化、集成、標注及過濾過程對數據進行整合處理。圍繞構建決策樹的目標結果進行分析和處理,整合成支持數據分析階段的輸入數據。數據變化及集成過程將來自不同源的數據轉換成統(tǒng)一的數據類型,以及將部分連續(xù)型數據轉化為離散型數據,從而簡化相應的計算量;數據標注過程對條件屬性值即決策屬性值進行閾值范圍的考察和確定;數據過濾過程對需求數據屬性展開分析,對原數據中的數據進行合理范圍內的約束和選擇。最終結果數據集即可劃分為訓練樣本和測試樣本,提供給決策樹建模算法進行樹的構建。

        2 CART算法亞健康決策樹建模

        2.1 CART算法適用分析

        高校教師亞健康的多維度影響因素具有條件屬性繁多的特點。多維影響因素中具有復雜數據類型的指標屬性,如既包括婚姻狀況、職稱、是否吸煙等離散型數據,也包括年論文數、年齡、日均步數等連續(xù)型數據。條件屬性值的區(qū)間劃分情況較為復雜,需要算法提供動態(tài)處理能力。CART算法模型可以運用于多指標海量數據的復雜分類處理特性,使得應用于高校教師亞健康評估決策樹的建模更加適用,具有較大的優(yōu)勢。

        CART算法利用分類樹適用于離散型目標數據的分析,利用回歸樹適用于連續(xù)型目標數據的分析[13]。因此,當亞健康評估目標為亞健康評價值r時,可考慮利用回歸樹構建對高校教師的健康值評估;當亞健康評估目標按照評價值被離散化處理為診斷時,如離散化為疾病、亞健康和健康,可考慮利用分類樹構建高教教師的健康狀態(tài)評估[14]。本文采用分類樹模型根據健康狀態(tài)對決策樹進行模型構建。其中,CART樣本數據抽象為:

        DC={DL,DR}

        (1)

        DL={L1,L2,…,Ln}

        (2)

        DR={R1,R2,…,Rn}

        (3)

        d1=(l11,l12,…,l1n,r1), (d1∈DC)

        (4)

        式中,DC為樣本數據集,其中包括特征屬性集DL及結果屬性集DR。L稱為屬性向量(Attribute Vectors),其屬性來自于多維度亞健康影響因素分析過程中得到的條件屬性特征向量L(l1,l2,…,ln),其中既包括連續(xù)型屬性也包括離散型屬性;R稱為標簽向量 (Label Vectors),其屬性來自于影響因素分析過程得到的決策屬性特征向量r,該特征向量值是根據亞健康評價值r的閾值范圍評定給出的,包括{疾病,亞健康,健康}。dn為樣本數據集中的單條數據。本文研究的樣本集中每個樣本有48個條件屬性和一個決策屬性。

        高校教師亞健康評估CART算法的決策樹構建實現過程首先定義了3種數據結構:存儲樣本屬性名稱及取值的KVNode屬性,存儲具體某個樣本的TeacherSet屬性,樹的節(jié)點屬性TreeNode;并存放于SHDataStructure.h中。樣本通過劃分不同文件分別存儲樣本的屬性及樣本集。設計ReadFile類讀取文件分別存儲在兩個向量中。

        2.2 決策樹構造算法

        利用CART算法構建亞健康決策樹的基本原理是檢查每個健康條件屬性所有可能的劃分值來發(fā)現最好的劃分。首先,需要針對條件屬性從多樣本集的輸入變量中選擇最佳分組變量;其次需要針對分組變量進行純度計算,找到一個純度最高的最佳分割值。因此,對于離散型考慮除空集和全集之外的所有劃分情況;對于連續(xù)型,則針對n個連續(xù)值產生n-1個分裂點,相鄰兩個連續(xù)值的均值(li+li-1)/2即為分裂點的分割值。將每個屬性的所有劃分按照Gini分割指數進行劃分,Gini分割指數主要用于考察節(jié)點內n(n≥2)種樣本的差異。針對整個樣本訓練數據集DT,DL部分一共包含n個條件屬性,那么Gini指數可以定義為:

        (5)

        式中:Pm為決策屬性值m在訓練樣本DT中的相對概率,如果集合DT中共有t條訓練數據,在l1的條件下分成DT1和DT2兩部分,數據條數分別為t1和t2,那么這個Gini分割指數就是:

        (6)

        以遞歸的方式針對每個屬性值嘗試劃分,意圖找到使得Gini分割指數變量最大的一個劃分,該屬性值劃分到的子樹即為決策樹構造階段的最優(yōu)分支。

        高校教師亞健康評估CART算法的決策樹構建過程采用遞歸函數的方式,將全部樣本數據集的80%作為訓練數據集進行決策樹構建。建模具體實現過程首先找到一個劃分值,若不存在,返回-1,然后判斷當一個樹不是葉子節(jié)點時則按照劃分值進行劃分。設計并實現SHTreeCons類,如圖3所示,該類圖展示用于構造決策樹模型的基本方法。其中,SHTreeBuild方法通過調用劃分方法對非葉子節(jié)點進行劃分;TreeDivid方法是節(jié)點劃分方法,劃分左右節(jié)點;AttriCho方法針對輸入的考察節(jié)點進行屬性值的選擇;GiniSeg方法用于計算Gini分割指數對構造樹進行最優(yōu)劃分;TraverTree方法用于構造決策樹的模型。

        圖3 亞健康決策樹構建類圖

        構造決策樹模型的核心算法SHTreeBuild函數的偽代碼描述如下:

        輸入TreeNode

        輸出無

        步驟1遍歷所有節(jié)點,當節(jié)點不為空時,循環(huán)執(zhí)行步驟2~5,否則跳出結束程序;

        步驟2變量nodeCount增1,且將其賦值給當前節(jié)點的nodeCount,樹遍歷排序;

        步驟3調用AttriCho方法進行屬性值劃分確定并將該劃分添加到節(jié)點屬性中;

        步驟4如果該節(jié)點屬性劃分值為-1則無法再次劃分,將其定為葉子節(jié)點,返回步驟1;

        步驟5若節(jié)點屬性劃分值不為-1,則執(zhí)行步驟6~8;

        步驟6將該節(jié)點定為非葉子節(jié)點;

        步驟7調用TreeDivid方法,將父節(jié)點按照劃分屬性進行劃分;

        步驟8通過遞歸方式調用函數SHTreeBuild分別建立左子樹及右子樹,返回步驟1。

        TreeDivid函數針對對輸入的樣本變量進行基于Gini分割指數的最優(yōu)劃分,若劃分成功返回屬性下標,否則返回-1。nodeCount在該函數中能夠支持樹的遍歷,對每一個節(jié)點賦予唯一值,樹模型的構建過程是采用前序遍歷。當建樹結束后,樹的前序輸出結果即為nodeCount從小到大的排序,然后通過TraverTree函數輸出樹的中序序列以確定樹的結構。其中,nodeCount和leavenode同時還將支持后續(xù)的樹模型優(yōu)化剪枝過程。

        2.3 決策樹優(yōu)化剪枝算法

        采用CART算法的后剪枝方法在已構建的決策樹模型基礎上,通過刪除節(jié)點分支來剪去樹節(jié)點。

        CART利用成本復雜度標準是在已有分類樹的加權錯分率基礎上,加上對樹的懲罰因子。其中,懲罰因子包含一個復雜度參數a來表示每個節(jié)點的懲罰代價。成本復雜度的數學表達為:

        Ca(T)=C(T)+a×|Tnum|

        (7)

        式中:C(T)是測試數據被已生成的樹模型T錯誤劃分的部分;Tnum是已生成樹T的葉子節(jié)點個數;a是每個決策點懲罰代價,a=2(n-1),其中n為分類數。若a=0則表示對該樹絕大多數的節(jié)點沒有懲罰,其成本復雜度是未剪枝的樹。通過剪枝算法,從剪枝得到的優(yōu)化樹模型中選取測試數據集上具有最小誤分的樹作為最終優(yōu)化的決策樹模型。

        高校教師亞健康評估CART算法的決策樹優(yōu)化過程將全部樣本數據集剩余的20%作為測試數據集進行決策樹剪枝。設計并實現SHTreePrun類,如圖4所示,該類圖展示用于對決策樹模型進行剪枝的基本函數。其中,SHPrun函數為剪枝函數,利用測試數據集對已生成的樹模型進行剪枝;TraverLevel方法通過層次遍歷對決策點進行序號分配,以便用于剪枝函數處理;ErrTest方法通過考察不同決策點下建樹樣本產生的錯誤樣本個數,其中參數t為決策點的數目;DesTest函數根據具體的某個決策點對測試樣本集進行測試,其中參數k為單個樣本,t為決策點數目。

        圖4 亞健康決策樹剪枝類圖

        對于剪枝算法來說,首先要考慮獲取已生成樹的決策點,才能根據決策點數目進行剪枝。利用二叉樹具有非葉節(jié)點與葉節(jié)點之間差1的特性,可計算得到非葉結點數量。利用層次遍歷對決策點逐層賦值,其中根節(jié)點nodeCount賦值為1,左節(jié)點nodeCount賦值2,葉子節(jié)點nodeCount為0。

        層次遍歷后根據決策點數量,改進決策樹前序遍歷,確定葉子節(jié)點,從而確定模型樹的結構。然后,根據樹的決策點數對訓練樣本和測試樣本的誤差進行統(tǒng)計。不同決策點對應不同子樹,通過前序遍歷可以將葉子節(jié)點中的錯誤樣本統(tǒng)計出來計算該樹模型錯誤樣本的個數。接著,利用測試樣本對樹模型進行遍歷,統(tǒng)計修正后測試樣本錯誤樣本個數。最后,得出最小誤分樹結果集。

        3 模型實現與驗證

        基于上述高校教師亞健康決策樹模型構建思路,在學院實驗室機房進行主機運行環(huán)境的搭建,采用開源的操作系統(tǒng)和相關開源開發(fā)資源進行運行環(huán)境的部署,利用Spark計算框架進行亞健康評估決策樹構建的分布式并行實現。

        樣本數據方面基于多維亞健康影響因素,抽取2016年3月至2017年3月的258例教師基本數據。決策樹CART算法的參數設置為:樹結構最大深度為5,父節(jié)點最小個案數為5,子節(jié)點最小個案數為1,Gini系數的最小變化值為0.000 1,在樹的構建過程中排除缺失值[15]。對48個影響因素進行決策分析,歸納出模型的評估規(guī)則。根據該算法得到的輸出結果數據部分內容展示如圖5所示。其中node表示節(jié)點序號,根據算法可知序號越小越接近根節(jié)點,序號越大越接近葉子節(jié)點;split表示分割點屬性及其劃分閾值;n表示該分割點屬性下一共具有的數據量;loss表示該屬性下未得到目標決策值的數據量;SHval表示該條件屬性特征值下得到的決策屬性值;最后,SHprob為該分割點特征值下各決策值的占比。

        圖5 CART算法決策樹建模結果

        該決策樹模型通過CART算法的構建和剪枝優(yōu)化處理,最終確定了14個屬性作為亞健康評估的條件屬性,見表2。

        表2 決策樹模型亞健康評估條件屬性

        該決策樹模型共產生了32個葉子節(jié)點,其中10個葉子節(jié)點利用J表示評估結果為健康狀態(tài);6個葉子節(jié)點,利用B表示評估結果為疾病狀態(tài);16個葉子節(jié)點,利用Y表示評估結果為亞健康狀態(tài)。該決策樹基于大數據,既能夠歸納出影響亞健康的主要因素,也能夠總結出評估亞健康狀態(tài)的規(guī)則,為未來的智能亞健康檢測評估系統(tǒng)與智能亞健康監(jiān)視預測系統(tǒng)的應用開發(fā)提供基礎。

        為了驗證基于CART算法的高校教師亞健康決策模型的有效性和準確率,其中選擇43名教師作為實驗對象,利用高校教師亞健康模型對該實驗對象進行教師健康狀況的評估及預測實驗。評估實驗結果健康人數4人,亞健康人數33人,疾病人數6人。

        根據WHO(世界衛(wèi)生組織)權威發(fā)布,全球人類亞健康狀態(tài)比例為75%。利用本文方法預測得到的高校教師亞健康比例為76.7%,見圖6。這一結果與全球亞健康比例組成非常接近,說明該方法具有一定的準確率。且通過觀察該數據略高于全球普通人群,進一步闡明高校教師工作性質將帶來一定的身心壓力,高校教師群體相對普通人群更加具有亞健康風險。

        圖6 分類樹結果比例

        除此之外,利用文獻3中提出的基于流行病學調查問卷傳統(tǒng)方式針對這43名教師進行亞健康狀態(tài)評估的對比實驗。如圖7所示,經統(tǒng)計利用傳統(tǒng)方法得到的健康狀態(tài)分類結果與本文提出的方法得到的分類結果數據僅在亞健康與疾病狀態(tài)的分類部分差異極小。進一步證明該方法能夠有效指導高校教師亞健康狀態(tài)的預測。與傳統(tǒng)方法相比,具有更加良好的即時性和操作簡易性。

        圖7 決策樹模型與傳統(tǒng)方法比較

        4 結 語

        利用CART算法針對高校教師亞健康狀態(tài)決策模型的建立進行了研究。設計了多維高校教師亞健康影響因素概念模型,以及分析了相應樣本數據的特征,實現了數據預處理的具體過程;利用CART算法給出了多維影響因素樣本數據下進行了決策樹的建模和優(yōu)化方法。并且,設計了亞健康評估的系統(tǒng)架構,利用Spark進行了并行化的算法實現,并通過實驗對模型的有效性進行了驗證,為高校教師亞健康檢測評估、監(jiān)視預測提供了良好的決策模型基礎。

        猜你喜歡
        亞健康決策樹高校教師
        一種針對不均衡數據集的SVM決策樹算法
        甩掉亞健康 我們在行動
        少先隊活動(2018年5期)2018-12-29 12:12:58
        決策樹和隨機森林方法在管理決策中的應用
        電子制作(2018年16期)2018-09-26 03:27:06
        高校教師平等權利的法律保護
        學習月刊(2016年4期)2016-07-11 02:54:18
        基于決策樹的出租車乘客出行目的識別
        論高校教師的基本職業(yè)道德修養(yǎng)
        人間(2015年19期)2016-01-04 12:46:58
        基于肺癌CT的決策樹模型在肺癌診斷中的應用
        豬群亞健康
        《內經》治未病與亞健康的干預
        兒童亞健康防治
        欧美日一本| 亚洲精品午夜无码专区| 欧美不卡视频一区发布| 免费国产一级片内射老| 风间由美中文字幕在线| 80s国产成年女人毛片| 精品国模一区二区三区| 亚洲a级片在线观看| 亚洲人妻av综合久久| 天天综合天天爱天天做| 日本一卡2卡3卡四卡精品网站| 欧美a级在线现免费观看| 玩弄丝袜美腿超短裙校花| 女同精品一区二区久久| 国产精成人品日日拍夜夜免费| 日韩精品久久久一区| 毛片色片av色在线观看| 色欲色香天天天综合网www| 男女车车的车车网站w98免费| 一本无码人妻在中文字幕| 一区二区在线观看日本免费| 日韩经典午夜福利发布| 欧美激情a∨在线视频播放| 中文字幕天天躁日日躁狠狠| 日本av不卡一区二区三区| 国产成人精品999视频| 国产精品亚洲一区二区无码 | 日本女优在线一区二区三区| 国产精品成人观看视频| 亚洲欧美性另类春色| 隔壁的日本人妻bd高清中字| 国产精品久久久久9999无码| 亚洲在AV极品无码天堂手机版| 精品日本韩国一区二区三区| 加勒比东京热中文字幕| 中文字幕精品一区二区2021年| 国产日本在线视频| 视频国产自拍在线观看| 亚洲小说图区综合在线| 一本色道久久综合亚洲精品小说| 成年女人18毛片观看|