亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向智慧康養(yǎng)的數(shù)據(jù)集構(gòu)建方法及其應(yīng)用

        2022-07-21 03:23:26張麟宇涂志瑩杭少石張柏林初佃輝
        計(jì)算機(jī)與生活 2022年7期
        關(guān)鍵詞:行為能力基礎(chǔ)分類

        張麟宇,涂志瑩,杭少石,張柏林,初佃輝

        哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 威海264209

        真實(shí)、有效、完備的數(shù)據(jù)集意味著機(jī)器學(xué)習(xí)模型將有較好的輸入,模型通過學(xué)習(xí)發(fā)現(xiàn)規(guī)律,挖掘并分析當(dāng)中的關(guān)聯(lián)規(guī)則與信息,可以很好地為現(xiàn)實(shí)中社會(huì)生產(chǎn)活動(dòng)提供知識(shí)決策。另外,從提升模型的泛化能力出發(fā),也應(yīng)該相應(yīng)地增大訓(xùn)練數(shù)據(jù)的規(guī)模。

        中國作為世界上最大的發(fā)展中國家,人口老齡化程度已經(jīng)比肩中高收入國家群體,并在未來30 年(到2050年)將迅速攀升,超過高收入國家群體。缺乏相關(guān)的信息化技術(shù)以及成熟的康養(yǎng)公共服務(wù)設(shè)施的輔助,康養(yǎng)數(shù)據(jù)的采集和獲取是比較困難的。真實(shí)、有效的數(shù)據(jù)集的缺失,成為了研究相關(guān)工作的障礙。

        針對這一問題,本團(tuán)隊(duì)從慢病康復(fù)訓(xùn)練指導(dǎo)入手,通過長期的社區(qū)公益服務(wù)采集了某市的社區(qū)康養(yǎng)的標(biāo)準(zhǔn)數(shù)據(jù)。在此基礎(chǔ)上,本文提出了一種基于機(jī)器學(xué)習(xí)的三階段數(shù)據(jù)生成模型,以采集到小樣本數(shù)據(jù)集為基礎(chǔ),實(shí)現(xiàn)了大批量具有區(qū)域養(yǎng)老人群特征的樣本數(shù)據(jù)生成。該模型在第一階段使用基于樹形結(jié)構(gòu)的基礎(chǔ)屬性生成策略,按照自上而下的思想,生成符合原始數(shù)據(jù)集分布的基礎(chǔ)屬性樣本;接著提出了基于樸素貝葉斯的基礎(chǔ)行為能力指標(biāo)生成策略,將基礎(chǔ)行為能力指標(biāo)的生成轉(zhuǎn)化為分類問題進(jìn)行實(shí)現(xiàn);第三階段,又提出了基于多元線性回歸的高階行為能力指標(biāo)生成策略,在前兩個(gè)階段的基礎(chǔ)上,通過選定合適的自變量,擬合9 個(gè)線性回歸方程,完成高階行為能力指標(biāo)數(shù)據(jù)的生成。最后,通過整合三個(gè)階段的結(jié)果,完成了康復(fù)養(yǎng)老數(shù)據(jù)的生成工作。

        另外,本文利用了模型生成的數(shù)據(jù)集,設(shè)計(jì)了基于神經(jīng)網(wǎng)絡(luò)的分類推薦模型,在將生成的數(shù)據(jù)集反饋給康復(fù)專家驗(yàn)證、篩選、標(biāo)注之后,經(jīng)過屬性特征提取,把其輸入到模型當(dāng)中,實(shí)現(xiàn)了康復(fù)訓(xùn)練計(jì)劃推薦的任務(wù)。

        1 相關(guān)工作

        與傳統(tǒng)的機(jī)器學(xué)習(xí)不同,現(xiàn)在基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型通常采用多層的網(wǎng)絡(luò)結(jié)構(gòu),其復(fù)雜程度較高,因此也需要盡可能多的數(shù)據(jù)進(jìn)行訓(xùn)練。而訓(xùn)練模型所必須的海量訓(xùn)練數(shù)據(jù)樣本難以獲取已經(jīng)成為阻礙深度學(xué)習(xí)技術(shù)進(jìn)一步推廣的一個(gè)普遍性難題。目前,學(xué)術(shù)界提出了很多解決小樣本數(shù)據(jù)集上學(xué)習(xí)的方法。一種常見的思路是把小樣本的數(shù)據(jù)應(yīng)用到改進(jìn)后的算法中。文獻(xiàn)[10]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的小樣本圖像識(shí)別方法,結(jié)合了深度學(xué)習(xí)與遷移學(xué)習(xí)技術(shù),先在卷積神經(jīng)網(wǎng)絡(luò)中對相關(guān)領(lǐng)域的大數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,提取預(yù)訓(xùn)練模型的權(quán)重和樣本特征,應(yīng)用到目標(biāo)小數(shù)據(jù)集中對模型進(jìn)行初始化,然后展開訓(xùn)練。但是該方法受到了相關(guān)領(lǐng)域大規(guī)模數(shù)據(jù)集的限制,無法很好地應(yīng)用到缺少大規(guī)模數(shù)據(jù)集的工作當(dāng)中。

        小樣本的模型學(xué)習(xí)問題,在不使用大數(shù)據(jù)集輔助的情況下,文獻(xiàn)[11]提出了一種迭代提升欠采樣模型(under sampling with iteratively boosting,USIB),進(jìn)行疾病預(yù)測。該方法迭代地從多數(shù)類樣本中進(jìn)行欠采樣,構(gòu)建多組弱分類器,通過加權(quán)組合的方式集成一個(gè)強(qiáng)分類器,提高模型的學(xué)習(xí)能力。但是基于該方法更多地關(guān)注錯(cuò)誤分類和分類置信度不高的樣本去改善模型的預(yù)測能力,并沒有真正實(shí)現(xiàn)數(shù)據(jù)生成的任務(wù)。

        集成方法也是解決小樣本學(xué)習(xí)的常用方法,通過融合集成技術(shù)和采樣技術(shù),充分利用了兩者的優(yōu)點(diǎn)。Liu等人提出了EasyEnsemble集成算法,結(jié)合了Bagging和欠采樣技術(shù)。在此基礎(chǔ)上,Liang和Cohn提出了UBagging 算法,該算法將Bagging 應(yīng)用到不平衡數(shù)據(jù)集訓(xùn)練中,不斷增加負(fù)樣本采樣數(shù)量來訓(xùn)練多個(gè)分類器,集成多個(gè)分類器提高整體分類性能。融合集成技術(shù)和采樣技術(shù)的算法通過多次采樣解決了單次采樣中樣本信息缺失問題,但是每次隨機(jī)性地采樣,忽略了分類器之間的關(guān)系,限制了模型的整體性能。

        另一種常用的方法是在已有數(shù)據(jù)集的基礎(chǔ)上,進(jìn)行特定技術(shù)的處理來增加樣本的數(shù)量。文獻(xiàn)[14]提出了一種深度卷積生成對抗網(wǎng)絡(luò)(deep convolutional generative adversarial networks,DCGANs),通過設(shè)計(jì)生成器與判別器,學(xué)習(xí)圖像中物體到場景的層次化表征信息,最終生成新的圖像數(shù)據(jù)集。文獻(xiàn)[15]提出了一種基于Wasserstein GAN 的小樣本數(shù)據(jù)增強(qiáng)方法,使用訓(xùn)練集樣本訓(xùn)練GAN 后生成模擬樣本數(shù)據(jù),擴(kuò)增訓(xùn)練集樣本規(guī)模。雖然GAN 方法的生成不用考慮樣本屬性間的內(nèi)在聯(lián)系,但是GAN 在實(shí)際應(yīng)用當(dāng)中會(huì)存在一些問題:

        (1)無法進(jìn)行穩(wěn)定的訓(xùn)練,導(dǎo)致生成模型生成無意義的輸出,對于離散型數(shù)據(jù)的學(xué)習(xí)效果較差;

        (2)生成的數(shù)據(jù)的可解釋性差,有時(shí)GAN生成的樣本只是對真實(shí)樣本的簡單改動(dòng),導(dǎo)致生成樣本的多樣性較差。

        綜上,已有的數(shù)據(jù)生成方法存在著隨機(jī)性、盲目性,并且有模型參數(shù)選擇和復(fù)雜程度的限制。研究新的數(shù)據(jù)模型,并將其應(yīng)用到相關(guān)工作當(dāng)中具有重要意義。

        2 數(shù)據(jù)生成模型

        本次用于擴(kuò)充的康復(fù)養(yǎng)老數(shù)據(jù)集包含140 條數(shù)據(jù),每個(gè)樣本包含老年人的基礎(chǔ)屬性、行為能力評估指標(biāo)以及行為能力評估階段等信息。

        在樣本數(shù)據(jù)方面,通過對采集到的樣本數(shù)據(jù)進(jìn)行分類,可以得到基礎(chǔ)屬性、行為能力評估指標(biāo)和行為能力評估階段等類別信息,其中每個(gè)分類包含的屬性如下:

        (1)基礎(chǔ)屬性:姓名、年齡、家庭條件、殘疾原因、殘疾類型、殘疾等級。

        (2)基礎(chǔ)行為能力評估指標(biāo):翻身、坐、站、轉(zhuǎn)移。

        (3)高階行為能力評估指標(biāo):步行或驅(qū)動(dòng)輪椅、上下臺(tái)階、進(jìn)食、穿脫衣物、洗漱、入廁、交流、日常家務(wù)、社會(huì)活動(dòng)。

        (4)行為能力評估階段:康復(fù)初期、恢復(fù)期、治愈期。

        在數(shù)據(jù)生成的模型設(shè)計(jì)中,本文分為了三個(gè)階段:第一階段按照基于樹形結(jié)構(gòu)的規(guī)則自上而下生成樣本的基礎(chǔ)屬性;第二階段對于基礎(chǔ)的行為能力指標(biāo)的生成,使用貝葉斯模型來實(shí)現(xiàn);第三階段,使用多元線性回歸生成高階行為能力指標(biāo)。具體的模型設(shè)計(jì)流程圖如圖1所示。

        圖1 數(shù)據(jù)生成模型Fig. 1 Data generation model

        2.1 基于樹形結(jié)構(gòu)的基礎(chǔ)屬性生成策略

        在原始數(shù)據(jù)集當(dāng)中基礎(chǔ)屬性包括了性別、年齡、殘疾類型、殘疾原因、殘疾等級共5個(gè)維度特征,且它們在數(shù)據(jù)集中都呈現(xiàn)出一定的分布規(guī)律。如果要同時(shí)生成各個(gè)維度的值,則會(huì)忽略它們之間的相關(guān)性;如果只是簡單地用隨機(jī)的方法生成各個(gè)維度的值,則生成的數(shù)據(jù)會(huì)不滿足原始數(shù)據(jù)集的分布,失去有效性和真實(shí)性。因此,本節(jié)提出了基于樹形結(jié)構(gòu)的基礎(chǔ)屬性生成策略:考慮先根據(jù)殘疾類型的分布情況,采用改進(jìn)后的輪盤賭算法確定生成樣本的殘疾類型,然后以此為根節(jié)點(diǎn),性別特征為其子節(jié)點(diǎn),利用條件分布,再次使用改進(jìn)后的輪盤賭算法確定性別特征;以此類推,按照樹形結(jié)構(gòu)的思想,不斷利用條件分布,采用改進(jìn)后的輪盤賭算法,自上而下地確定各個(gè)維度的值,最終實(shí)現(xiàn)基礎(chǔ)屬性的生成。

        在確定了生成策略之后,本文對原數(shù)據(jù)進(jìn)行了預(yù)處理,從原數(shù)據(jù)集中篩選出真實(shí)可用的80 條數(shù)據(jù)。對這些數(shù)據(jù)的基礎(chǔ)屬性進(jìn)行統(tǒng)計(jì)分析,樣本的分布呈現(xiàn)出一定的規(guī)律,各個(gè)基礎(chǔ)屬性統(tǒng)計(jì)分布如表1所示。

        表1 基礎(chǔ)屬性統(tǒng)計(jì)分布Table 1 Basic attribute statistical distribution

        常見的輪盤賭算法通常需要先計(jì)算適應(yīng)度比例,即對于數(shù)量為的養(yǎng)老康復(fù)樣本,給每個(gè)個(gè)體x一個(gè)適應(yīng)度值(x),則每個(gè)特征值的選擇概率為:

        然后計(jì)算每個(gè)個(gè)體的累計(jì)概率,即每個(gè)個(gè)體之前所有個(gè)體的選擇概率之和:

        在確定了累計(jì)概率之后,隨機(jī)生成一個(gè)數(shù)組,數(shù)組的長度為,元素值的范圍屬于[0,1],然后有序排列,用于確定個(gè)體是否能夠被選擇。若累計(jì)概率q大于隨機(jī)生成數(shù)組中的[],則x被選擇,將繼續(xù)比較[],若不大于,則不選擇,比較下一個(gè)個(gè)體x+1,以此類推,從而確定生成屬性。

        在樣本的數(shù)據(jù)集中,要生成的基礎(chǔ)屬性中的特征值只有一個(gè),在輪盤賭算法中即每次需要選擇出來的個(gè)體只有一個(gè),為了能夠方便地控制選擇的個(gè)體的數(shù)量,本文改進(jìn)了輪盤賭算法,在函數(shù)參數(shù)中增加了一個(gè)控制生成個(gè)體數(shù)量的參數(shù)。具體的算法如下所示。

        基于條件分布的輪盤賭算法

        輸入:殘疾類型分布數(shù)組,性別條件分布數(shù)組,年齡條件分布數(shù)組,殘疾原因條件分布數(shù)組,殘疾等級條件分布數(shù)組。

        通過對原始數(shù)據(jù)集的處理、分析、統(tǒng)計(jì),按照樹形結(jié)構(gòu)的思想,采用改進(jìn)后的輪盤賭算法,實(shí)現(xiàn)了基礎(chǔ)屬性的生成。

        2.2 基于樸素貝葉斯基礎(chǔ)行為能力指標(biāo)生成策略

        貝葉斯方法是以貝葉斯原理為基礎(chǔ),使用概率統(tǒng)計(jì)的知識(shí)對樣本數(shù)據(jù)集進(jìn)行分類,因此有著較好的統(tǒng)計(jì)和數(shù)學(xué)基礎(chǔ),分類的準(zhǔn)確率較高。該方法通過使用數(shù)據(jù)集中統(tǒng)計(jì)出的先驗(yàn)概率和后驗(yàn)概率,既避免了只使用先驗(yàn)知識(shí)的主觀偏見,也避免了單獨(dú)使用樣本信息的過擬合現(xiàn)象。

        樸素貝葉斯分類,以貝葉斯定理為基礎(chǔ),并且使用條件獨(dú)立性假設(shè)的方法,先通過已給定的訓(xùn)練集,以特征屬性之間獨(dú)立作為前提假設(shè),學(xué)習(xí)從輸入到輸出的聯(lián)合概率分布,再基于學(xué)習(xí)到的模型,輸入求出使得后驗(yàn)概率最大的輸出。

        設(shè)有樣本數(shù)據(jù)集={,,…,s},對應(yīng)樣本數(shù)據(jù)的特征屬性集={,,…,x},且類變量為={,,…,y},即可以分為y個(gè)類別。其中,,…,x相互獨(dú)立且隨機(jī),則的先驗(yàn)概率=(),的后驗(yàn)概率=(|)。由樸素貝葉斯算法可得,后驗(yàn)概率可以由先驗(yàn)概率、證據(jù)()、類條件概率(|)以及在給定樣本類別時(shí)計(jì)算得出公式如下:

        由以上兩公式可以得出后驗(yàn)概率為:

        由于在每次的計(jì)算過程中()的大小是一樣的,在比較后驗(yàn)概率的時(shí)候,只比較上式的分子部分即可。最終可以得到一個(gè)樣本數(shù)據(jù)屬于類別y的樸素貝葉斯計(jì)算公式:

        在樣本的康復(fù)養(yǎng)老數(shù)據(jù)集中,樣本的基礎(chǔ)行為能力評估指標(biāo)包含翻身、坐、站、轉(zhuǎn)移共四項(xiàng),每項(xiàng)指標(biāo)的評估分為0、1、2、3四個(gè)等級,評估得分越高表明該項(xiàng)指標(biāo)的能力越強(qiáng)。因此,對于每項(xiàng)基礎(chǔ)行為能力評估指標(biāo)的生成,可以看作一個(gè)分類問題。通過計(jì)算原數(shù)據(jù)集中樣本的基礎(chǔ)屬性(性別、年齡、殘疾類型、殘疾原因、殘疾等級)之間的相關(guān)性,如表2 所示的基礎(chǔ)屬性的Spearman 相關(guān)性系數(shù)矩陣,可以發(fā)現(xiàn)它們之間有較低的關(guān)聯(lián)程度,即使用樸素貝葉斯算法,考慮每個(gè)特征之間的獨(dú)立性假設(shè)是合理的。

        表2 樣本基礎(chǔ)屬性Spearman相關(guān)性系數(shù)矩陣Table 2 Spearman correlation coefficient matrix of sample basic attributes

        在分析了樣本基礎(chǔ)屬性間的基礎(chǔ)屬性后,通過預(yù)先設(shè)定好的數(shù)值化規(guī)則進(jìn)行基礎(chǔ)屬性約束,設(shè)原始數(shù)據(jù)集的基礎(chǔ)屬性的數(shù)值化矩陣1,原始數(shù)據(jù)集的基礎(chǔ)行為能力評估指標(biāo)的數(shù)值化標(biāo)簽數(shù)組1,階段一中生成的基礎(chǔ)屬性的數(shù)值化矩陣2;將1、2 以及1輸入到樸素貝葉斯模型中,最終得到模型預(yù)測出的基礎(chǔ)行為能力指標(biāo)。

        數(shù)據(jù)生成的第二階段,本文使用樸素貝葉斯算法,通過原數(shù)據(jù)集的訓(xùn)練,分別得到翻身、坐、站、轉(zhuǎn)移四個(gè)基礎(chǔ)行為能力評估指標(biāo)的生成模型,再利用階段一中已生成的基礎(chǔ)屬性,最終得到每個(gè)生成樣本的基礎(chǔ)行為能力評估指標(biāo)。

        2.3 基于多元線性回歸高階行為能力指標(biāo)生成策略

        在回歸分析中,如果有兩個(gè)或兩個(gè)以上的自變量,就稱為多元回歸。在現(xiàn)實(shí)中,一個(gè)現(xiàn)象結(jié)果的出現(xiàn)往往是與多個(gè)因素相聯(lián)系的,由多個(gè)自變量的最優(yōu)組合共同來預(yù)測或估計(jì)因變量,比只用一個(gè)自變量進(jìn)行預(yù)測或估計(jì)更有效,更符合實(shí)際,因此多元線性回歸的應(yīng)用場合常常更為廣泛。多元線性回歸模型如下:

        式中,為常數(shù)項(xiàng),β(=1,2,…,)表示在其他變量保持不變時(shí),X增加或減少一個(gè)單位時(shí)的平均變化量,被稱為偏回歸系數(shù)。同樣,被稱為殘差,表示去除個(gè)自變量對影響后的隨機(jī)誤差。通常,多元線性回歸模型的應(yīng)用需要滿足如下條件:

        (1)與,,…,X之間具有線性關(guān)系;

        (2)各個(gè)樣本的觀察值Y(=1,2,…,)相互獨(dú)立;

        (3)殘差服從均值為0,方差為的正態(tài)分布,等價(jià)于對任意一組自變量,,…,X值,因變量具有相同的方差,并且服從正態(tài)分布。

        使用最小二乘法,根據(jù)樣本數(shù)據(jù)求得模型參數(shù)估計(jì)值:

        通過建立多元線性回歸方程求解:

        最后確定,,…,b的值,得到最終的多元線性回歸方程。

        在康復(fù)養(yǎng)老的數(shù)據(jù)集中,高階行為能力評估指標(biāo)包含步行或驅(qū)動(dòng)輪椅、上下臺(tái)階、進(jìn)食、穿脫衣物、洗漱、入廁、交流、日常家務(wù)、社會(huì)活動(dòng)等九項(xiàng)指標(biāo),每項(xiàng)指標(biāo)分為0、1、2、3四個(gè)等級,得分越高表示該項(xiàng)能力越強(qiáng)。通過統(tǒng)計(jì)原數(shù)據(jù)各項(xiàng)能力指標(biāo)的相關(guān)性,本文發(fā)現(xiàn)基礎(chǔ)行為能力指標(biāo)與高階行為能力指標(biāo)之間有較強(qiáng)的相關(guān)性。當(dāng)指標(biāo)得分被看作連續(xù)性數(shù)值時(shí),兩者具有一定的線性關(guān)系。基于上述分析,在數(shù)據(jù)生成的第三階段,本文采用多元線性回歸算法,通過對原始數(shù)據(jù)集的訓(xùn)練,針對不同的高階行為能力指標(biāo),分別構(gòu)建了對應(yīng)的回歸方程。

        在自變量的選擇過程中,本文采取了逐步回歸法進(jìn)行篩選。該方法將前進(jìn)法和后退法相結(jié)合,首先使用前進(jìn)法挑選變量,然后將已入選的自變量使用后退法進(jìn)行剔除,在整個(gè)過程中,通過觀察實(shí)驗(yàn)中設(shè)定的相關(guān)檢驗(yàn)標(biāo)準(zhǔn),選擇和剔除合適的自變量,最后建立較優(yōu)的回歸方程。

        通過統(tǒng)計(jì)和實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)同時(shí)引入翻身、坐、站、轉(zhuǎn)移四項(xiàng)作為自變量放入方程當(dāng)中,多元線性回歸模型的效果最好。在完成模型的訓(xùn)練之后,將第二階段生成的基礎(chǔ)行為能力評估指標(biāo)數(shù)據(jù)作為輸入,可以完成高階行為能力評估指標(biāo)的生成。然后根據(jù)整個(gè)行為能力評估指標(biāo)可以得到評估階段;最后整合每個(gè)生成樣本的基礎(chǔ)屬性、行為能力評估指標(biāo)以及評估階段可以得到一個(gè)完整的生成數(shù)據(jù)集。

        3 康復(fù)數(shù)據(jù)的應(yīng)用

        在現(xiàn)實(shí)中,在得到了一個(gè)樣本的基礎(chǔ)屬性、行為能力評估指標(biāo)以及行為能力評估階段后,康復(fù)專家就可以根據(jù)這些特征進(jìn)行一些康復(fù)訓(xùn)練計(jì)劃的推薦,用于輔助患者的康復(fù)治療。因此,將模型生成的數(shù)據(jù)集反饋給康復(fù)專家,經(jīng)過專家的評審、篩選和標(biāo)注,最后可以形成一批標(biāo)注后的完整數(shù)據(jù)集。在此基礎(chǔ)上,可以設(shè)計(jì)一個(gè)模型,用于康復(fù)計(jì)劃的推薦。

        在得到了樣本的數(shù)據(jù)信息后,統(tǒng)計(jì)需要推薦的項(xiàng)目包含運(yùn)動(dòng)康復(fù)目標(biāo)、生活自理能力康復(fù)目標(biāo)、生活適應(yīng)能力康復(fù)目標(biāo)、康復(fù)訓(xùn)練項(xiàng)目、康復(fù)療法、康復(fù)訓(xùn)練強(qiáng)度、康復(fù)訓(xùn)練組數(shù)共7項(xiàng)。

        通過對樣本數(shù)據(jù)的整理、統(tǒng)計(jì)后,得到的具體推薦數(shù)據(jù)如表3所示。

        表3 推薦模型樣本數(shù)據(jù)展示Table 3 Sample data presentation of recommended model

        其中,雖然每項(xiàng)計(jì)劃的內(nèi)容為文本數(shù)據(jù),但是內(nèi)容的劃分是分類別的。因此考慮構(gòu)建基于神經(jīng)網(wǎng)絡(luò)的分類模型,用于實(shí)現(xiàn)康復(fù)訓(xùn)練計(jì)劃的推薦。

        具體的推薦任務(wù)劃分為多分類任務(wù)和多標(biāo)簽分類任務(wù)。根據(jù)康復(fù)訓(xùn)練計(jì)劃數(shù)據(jù)的特點(diǎn),其中運(yùn)動(dòng)康復(fù)目標(biāo)、生活自理能力康復(fù)目標(biāo)、生活適應(yīng)能力康復(fù)目標(biāo)、康復(fù)訓(xùn)練強(qiáng)度、康復(fù)訓(xùn)練組數(shù)五項(xiàng)推薦屬于多分類任務(wù),康復(fù)訓(xùn)練項(xiàng)目與康復(fù)療法的推薦屬于多標(biāo)簽分類任務(wù)。

        對于每個(gè)樣本而言,它都包含性別、年齡、殘疾類型、殘疾原因、殘疾等級、行為能力評估指標(biāo)以及行為能力評估階段七項(xiàng)基本信息,在分類推薦模型設(shè)計(jì)之前,需要先確定樣本的特征屬性和模型的輸入。在現(xiàn)實(shí)中,專業(yè)的康復(fù)醫(yī)護(hù)人員根據(jù)殘疾人的各項(xiàng)生理特征以及康復(fù)過程信息進(jìn)行康復(fù)計(jì)劃的制定,在與康復(fù)專家溝通之后,通過分析殘疾人的特征屬性和影響康復(fù)計(jì)劃推薦的主要因素,本文設(shè)計(jì)了一個(gè)基于神經(jīng)網(wǎng)絡(luò)的樣本特征提取模型。具體的特征向量提取模型設(shè)計(jì)如圖2所示。

        圖2 樣本特征提取模型Fig. 2 Sample feature extraction model

        首先,經(jīng)過數(shù)據(jù)的預(yù)處理,將樣本的基本信息中的屬性數(shù)字化,然后將數(shù)字化的特征通過嵌入層的映射變換為16 維或32 維的低維特征。使用={,,…,x}表示樣本基礎(chǔ)信息中的各個(gè)特征項(xiàng),通過激活函數(shù)ReLU的非線性變換得到低維特征,接著通過全連接層將各個(gè)低維特征拼接融合,得到樣本特征,放入到隱藏層當(dāng)中,最終得到400維的高階融合特征向量。

        在網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)中,本文將特征提取模型中得到的向量作為分類網(wǎng)絡(luò)的輸入層,通過隱藏層的加工抽象,選擇合適的損失函數(shù)完成輸出。

        在網(wǎng)絡(luò)的輸出層中,對于不同的分類任務(wù),模型使用了不同的損失函數(shù)。針對多分類任務(wù),模型使用了Softmax 交叉熵?fù)p失函數(shù),針對多標(biāo)簽分類任務(wù),數(shù)據(jù)中類別標(biāo)簽是獨(dú)立且不互斥的,因此可以將其視為多個(gè)二分類任務(wù),使用Sigmoid 交叉熵?fù)p失函數(shù)。

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 基于樸素貝葉斯的基礎(chǔ)行為能力指標(biāo)生成策略實(shí)驗(yàn)

        在現(xiàn)實(shí)中,康復(fù)師對患者進(jìn)行行為能力評估時(shí)存在較多的不確定性和主觀因素,有時(shí)評估指標(biāo)得分在0~4 之間并沒有嚴(yán)格的區(qū)分度。例如當(dāng)一個(gè)樣本中“站”這項(xiàng)行為能力指標(biāo)的真實(shí)值為2,其作為測試數(shù)據(jù)放入模型當(dāng)中,被預(yù)測出的結(jié)果為0 或1 或3時(shí),都應(yīng)該給其一定的正確權(quán)重,而不是直接判錯(cuò)。即在分析階段二的生成模型的準(zhǔn)確率時(shí)不能完全按照分類問題的準(zhǔn)確率的計(jì)算來定義。

        通過與康復(fù)養(yǎng)老方面的專家溝通,本文定義了正確程度評價(jià)矩陣,用來合理地計(jì)算模型的準(zhǔn)確性。

        對于數(shù)據(jù)規(guī)模為的測試數(shù)據(jù)集,T表示第個(gè)測試樣本的第個(gè)評估指標(biāo)的真實(shí)值,P表示第個(gè)測試樣本的第個(gè)評估指標(biāo)的預(yù)測值,則第個(gè)測試樣本第個(gè)評估指標(biāo)被預(yù)測的正確程度D為:

        那么,第個(gè)指標(biāo)預(yù)測模型的準(zhǔn)確率計(jì)算為:

        利用上述公式,得到正確程度評價(jià)矩陣如表4所示。

        表4 正確程度評價(jià)矩陣Table 4 Matrix of correctness degree evaluation

        在設(shè)計(jì)好了正確程度矩陣,改進(jìn)了評價(jià)的標(biāo)準(zhǔn)之后,對模型的準(zhǔn)確率進(jìn)行了實(shí)驗(yàn)驗(yàn)證,設(shè)定實(shí)驗(yàn)迭代次數(shù)為10,分別計(jì)算了未使用正確程度評價(jià)矩陣和改進(jìn)后的評價(jià)標(biāo)準(zhǔn),繪制出了“翻身”基礎(chǔ)行為能力指標(biāo)的生成模型準(zhǔn)確率折線圖,如圖3所示。

        圖3 翻身行為能力指標(biāo)生成實(shí)驗(yàn)結(jié)果Fig. 3 Experimental results of ability index of turning over

        從圖3中可以發(fā)現(xiàn),在使用了定義的正確程度評價(jià)矩陣衡量之后,模型的準(zhǔn)確率可以達(dá)到80%。在改進(jìn)了階段二實(shí)驗(yàn)的評價(jià)算法之后得到了較高的模型準(zhǔn)確率,說明階段二的生成是可解釋的。

        4.2 基于多元線性回歸的高階行為能力指標(biāo)生成策略實(shí)驗(yàn)

        在第三階段生成高階行為能力指標(biāo)時(shí),本文總共構(gòu)建了9個(gè)回歸方程,因變量整體對方程的解釋使用了和值,各個(gè)變量對方程的顯著性影響使用了值,并且統(tǒng)計(jì)列出了各個(gè)方程自變量的系數(shù)。其中、、、分別為自變量翻身、坐、站、轉(zhuǎn)移,各個(gè)方程的和值如表5所示。

        表5 各個(gè)回歸方程R2與F值統(tǒng)計(jì)表Table 5 Each regression equation R2 and F value

        其中,以翻身、坐、站、轉(zhuǎn)移為自變量,步行或驅(qū)動(dòng)輪椅為因變量,擬合出的回歸方程的系數(shù)、標(biāo)準(zhǔn)差、值、值的結(jié)果如表6所示。

        表6 回歸方程1的實(shí)驗(yàn)結(jié)果Table 6 Experimental results of regression equation 1

        從表5中可以發(fā)現(xiàn),和值最高達(dá)到0.612和32.140,說明選取的變量整體可以對方程進(jìn)行解釋。在衡量每個(gè)變量對方程影響的顯著性時(shí)使用了檢驗(yàn),其中當(dāng)值小于0.05 時(shí),表示拒絕原假設(shè),即表明該自變量與因變量有一定的回歸關(guān)系,且對方程有較高的顯著性影響。

        4.3 三階段的生成模型實(shí)驗(yàn)

        在生成階段一中,實(shí)驗(yàn)保證了生成出的數(shù)據(jù)是符合原數(shù)據(jù)集分布的,在生成階段二和階段三中也選取了合適的實(shí)驗(yàn)評價(jià)指標(biāo),保證了其結(jié)果的可靠性。基于以上工作,還需要對整個(gè)生成模型的實(shí)驗(yàn)結(jié)果進(jìn)行分析和評估。因此,本文設(shè)計(jì)了Spearman相關(guān)性系數(shù)矩陣余弦相似度計(jì)算的方法進(jìn)行實(shí)現(xiàn)。

        先計(jì)算出原數(shù)據(jù)集中各個(gè)特征維度之間的Spearman相關(guān)性系數(shù)矩陣1,然后計(jì)算生成數(shù)據(jù)集的各個(gè)特征維度之間的Spearman 相關(guān)性系數(shù)矩陣2,之后將兩者做余弦相似度計(jì)算,得到1 和2之間的相似度用來衡量生成數(shù)據(jù)的質(zhì)量。

        在具體的操作過程中,本文設(shè)定了不同的數(shù)據(jù)集生成的Batch Size,生成數(shù)據(jù)集的大小分別從100到1 000,控制每批次生成數(shù)據(jù)規(guī)模的大小。此外,在每次得到生成的數(shù)據(jù)集之后,計(jì)算數(shù)據(jù)集的Spearman相關(guān)系數(shù)矩陣,然后統(tǒng)計(jì)出了3個(gè)不同的矩陣相似度,用來與文中提出的模型的實(shí)驗(yàn)結(jié)果進(jìn)行對比。其中表示生成階段二、三都使用樸素貝葉斯的方法后矩陣1 和2 的相似度;表示生成階段二使用樸素貝葉斯,階段三使用多元線性回歸并將高階行為能力指標(biāo)得分四舍五入后矩陣1和2 的相似度;則表示生成階段二使用樸素貝葉斯,階段三使用多元線性回歸后矩陣1 和2 的相似度。最后,在得到了每次實(shí)驗(yàn)的結(jié)果之后,統(tǒng)計(jì)并繪制了實(shí)驗(yàn)結(jié)果折線圖如圖4所示。

        圖4 矩陣相似度計(jì)算折線圖Fig. 4 Result of matrix similarity calculation

        從圖4的數(shù)據(jù)可以看出,相似度會(huì)有極值點(diǎn)的出現(xiàn),但隨著生成數(shù)據(jù)集規(guī)模的增大,矩陣相似度趨于穩(wěn)定,且具體表現(xiàn)為、以及分別在0.725、0.800、0.850 這3 個(gè)值上下波動(dòng)。其中的值最大,說明通過本文提出的模型生成出的數(shù)據(jù)很大程度上和原數(shù)據(jù)集在各個(gè)特征維度的相關(guān)性上也保持了一致,從實(shí)驗(yàn)結(jié)果上驗(yàn)證了生成數(shù)據(jù)集的真實(shí)性和可靠性。

        4.4 康復(fù)推薦模型實(shí)驗(yàn)

        在本節(jié)的實(shí)驗(yàn)中,使用了三階段生成模型并經(jīng)過康復(fù)專家標(biāo)注后的數(shù)據(jù)集。在具體的實(shí)驗(yàn)過程中,為了避免隨機(jī)性對實(shí)驗(yàn)結(jié)果造成影響,本文做了5次實(shí)驗(yàn),每次實(shí)驗(yàn)隨機(jī)選取80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,剩下的20%作為測試數(shù)據(jù)集,取5 次實(shí)驗(yàn)的平均值作為最終結(jié)果。多分類任務(wù)1~5 分別為運(yùn)動(dòng)康復(fù)目標(biāo)推薦、生活自理能力康復(fù)目標(biāo)推薦、生活適應(yīng)能力康復(fù)目標(biāo)推薦、康復(fù)訓(xùn)練強(qiáng)度推薦、康復(fù)訓(xùn)練組數(shù)推薦,本文使用準(zhǔn)確率Acc 進(jìn)行評估;對于多標(biāo)簽分類任務(wù),本文使用AUC(area under curve)進(jìn)行評估。得到的實(shí)驗(yàn)結(jié)果如表7、表8所示。

        表7 多分類任務(wù)的實(shí)驗(yàn)結(jié)果Table 7 Experimental results of multi-classification tasks %

        表8 多標(biāo)簽分類任務(wù)的實(shí)驗(yàn)結(jié)果Table 8 Experimental results of multi-label classification tasks %

        從實(shí)驗(yàn)結(jié)果來看,多分類任務(wù)的Acc 可以達(dá)到77%,多標(biāo)簽分類任務(wù)的AUC可以達(dá)到65%,說明分類推薦模型有較好的效果,可以為后續(xù)的研究提供一些參考。

        5 總結(jié)與展望

        本文提出了一種基于機(jī)器學(xué)習(xí)的三階段數(shù)據(jù)生成模型。實(shí)驗(yàn)表明,生成模型的第一個(gè)階段保證了生成后的數(shù)據(jù)集和原數(shù)據(jù)集有相同的屬性分布;在第二階段,通過設(shè)計(jì)正確程度矩陣驗(yàn)證了基礎(chǔ)行為能力指標(biāo)的生成結(jié)果可以達(dá)到80%;生成階段三提出的基于多元線性回歸的高階行為能力指標(biāo)生成策略保證了生成數(shù)據(jù)集繼承了原始數(shù)據(jù)集屬性之間的相關(guān)性。此外,通過注入專家知識(shí),本文有效地篩選和標(biāo)注了生成數(shù)據(jù),在此基礎(chǔ)上,實(shí)現(xiàn)的多分類任務(wù)的Acc 可以達(dá)到77%,多標(biāo)簽分類任務(wù)的AUC 可以達(dá)到65%。

        盡管本文所提出的基于機(jī)器學(xué)習(xí)的三階段生成模型可以生成一個(gè)完備有效的數(shù)據(jù)集,但是目前對生成數(shù)據(jù)集的利用有限。后續(xù)將進(jìn)一步優(yōu)化生成模型,并在相關(guān)的系統(tǒng)平臺(tái)中開放相關(guān)數(shù)據(jù)集和模型接口,以便在此基礎(chǔ)上做更多的研究工作。

        猜你喜歡
        行為能力基礎(chǔ)分類
        “不等式”基礎(chǔ)鞏固
        “整式”基礎(chǔ)鞏固
        分類算一算
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        “防”“治”并舉 筑牢基礎(chǔ)
        教你一招:數(shù)的分類
        基于行為能力培訓(xùn)的組織人才戰(zhàn)略管理研究
        通信部隊(duì)作業(yè)人員電磁輻射暴露對神經(jīng)行為能力的影響
        自然人訴訟行為能力欠缺的審查
        法制博覽(2015年18期)2015-02-06 19:28:30
        国产96在线 | 免费| 欧洲美女黑人粗性暴交| 国产成人综合亚洲精品| 2021年最新久久久视精品爱| 亚洲av日韩精品久久久久久| 在线看亚洲十八禁网站| 熟女免费观看一区二区| 日韩夜夜高潮夜夜爽无码| 美丽的熟妇中文字幕| 国产欧美日韩不卡一区二区三区 | 婷婷久久亚洲中文字幕| 国产精品一区二区av麻豆| 免费无码午夜福利片69| 日韩女人毛片在线播放| 日本高清成人一区二区三区 | 国产女主播在线免费观看| 免费一区二区高清不卡av| 欧美日韩视频在线第一区| 99热精品国产三级在线观看| 日韩中文字幕一区二十| 亚洲精品中文字幕乱码| 超碰色偷偷男人的天堂| 天天干成人网| 欧美成人精品三级在线观看| 91亚洲夫妻视频网站| 精人妻无码一区二区三区| 中文字幕肉感巨大的乳专区| 日日噜噜夜夜爽爽| 久久精品免费无码区| 女同欲望一区二区三区| 精品+无码+在线观看| 一本大道久久香蕉成人网| 久久精品视频按摩| 日本女u久久精品视频| 久久精品国产亚洲av果冻传媒| 天天躁日日躁狠狠躁人妻| 中文字幕亚洲精品码专区| 青青草视频在线播放观看| 欧美性猛交xxxx免费看蜜桃 | 国产伦精品一区二区三区妓女| 欧美精品一区视频|