面向智慧康養(yǎng)的數(shù)據(jù)集構(gòu)建方法及其應(yīng)用

2022-07-21 03:23:26張麟宇涂志瑩杭少石張柏林初佃輝

計(jì)算機(jī)與生活 2022年7期

張麟宇，涂志瑩，杭少石，張柏林，初佃輝

哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，山東威海264209

真實(shí)、有效、完備的數(shù)據(jù)集意味著機(jī)器學(xué)習(xí)模型將有較好的輸入，模型通過學(xué)習(xí)發(fā)現(xiàn)規(guī)律，挖掘并分析當(dāng)中的關(guān)聯(lián)規(guī)則與信息，可以很好地為現(xiàn)實(shí)中社會(huì)生產(chǎn)活動(dòng)提供知識(shí)決策。另外，從提升模型的泛化能力出發(fā)，也應(yīng)該相應(yīng)地增大訓(xùn)練數(shù)據(jù)的規(guī)模。

中國作為世界上最大的發(fā)展中國家，人口老齡化程度已經(jīng)比肩中高收入國家群體，并在未來30 年（到2050年）將迅速攀升，超過高收入國家群體。缺乏相關(guān)的信息化技術(shù)以及成熟的康養(yǎng)公共服務(wù)設(shè)施的輔助，康養(yǎng)數(shù)據(jù)的采集和獲取是比較困難的。真實(shí)、有效的數(shù)據(jù)集的缺失，成為了研究相關(guān)工作的障礙。

針對這一問題，本團(tuán)隊(duì)從慢病康復(fù)訓(xùn)練指導(dǎo)入手，通過長期的社區(qū)公益服務(wù)采集了某市的社區(qū)康養(yǎng)的標(biāo)準(zhǔn)數(shù)據(jù)。在此基礎(chǔ)上，本文提出了一種基于機(jī)器學(xué)習(xí)的三階段數(shù)據(jù)生成模型，以采集到小樣本數(shù)據(jù)集為基礎(chǔ)，實(shí)現(xiàn)了大批量具有區(qū)域養(yǎng)老人群特征的樣本數(shù)據(jù)生成。該模型在第一階段使用基于樹形結(jié)構(gòu)的基礎(chǔ)屬性生成策略，按照自上而下的思想，生成符合原始數(shù)據(jù)集分布的基礎(chǔ)屬性樣本；接著提出了基于樸素貝葉斯的基礎(chǔ)行為能力指標(biāo)生成策略，將基礎(chǔ)行為能力指標(biāo)的生成轉(zhuǎn)化為分類問題進(jìn)行實(shí)現(xiàn)；第三階段，又提出了基于多元線性回歸的高階行為能力指標(biāo)生成策略，在前兩個(gè)階段的基礎(chǔ)上，通過選定合適的自變量，擬合9 個(gè)線性回歸方程，完成高階行為能力指標(biāo)數(shù)據(jù)的生成。最后，通過整合三個(gè)階段的結(jié)果，完成了康復(fù)養(yǎng)老數(shù)據(jù)的生成工作。

另外，本文利用了模型生成的數(shù)據(jù)集，設(shè)計(jì)了基于神經(jīng)網(wǎng)絡(luò)的分類推薦模型，在將生成的數(shù)據(jù)集反饋給康復(fù)專家驗(yàn)證、篩選、標(biāo)注之后，經(jīng)過屬性特征提取，把其輸入到模型當(dāng)中，實(shí)現(xiàn)了康復(fù)訓(xùn)練計(jì)劃推薦的任務(wù)。

1 相關(guān)工作

與傳統(tǒng)的機(jī)器學(xué)習(xí)不同，現(xiàn)在基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型通常采用多層的網(wǎng)絡(luò)結(jié)構(gòu)，其復(fù)雜程度較高，因此也需要盡可能多的數(shù)據(jù)進(jìn)行訓(xùn)練。而訓(xùn)練模型所必須的海量訓(xùn)練數(shù)據(jù)樣本難以獲取已經(jīng)成為阻礙深度學(xué)習(xí)技術(shù)進(jìn)一步推廣的一個(gè)普遍性難題。目前，學(xué)術(shù)界提出了很多解決小樣本數(shù)據(jù)集上學(xué)習(xí)的方法。一種常見的思路是把小樣本的數(shù)據(jù)應(yīng)用到改進(jìn)后的算法中。文獻(xiàn)[10]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的小樣本圖像識(shí)別方法，結(jié)合了深度學(xué)習(xí)與遷移學(xué)習(xí)技術(shù)，先在卷積神經(jīng)網(wǎng)絡(luò)中對相關(guān)領(lǐng)域的大數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練，提取預(yù)訓(xùn)練模型的權(quán)重和樣本特征，應(yīng)用到目標(biāo)小數(shù)據(jù)集中對模型進(jìn)行初始化，然后展開訓(xùn)練。但是該方法受到了相關(guān)領(lǐng)域大規(guī)模數(shù)據(jù)集的限制，無法很好地應(yīng)用到缺少大規(guī)模數(shù)據(jù)集的工作當(dāng)中。

小樣本的模型學(xué)習(xí)問題，在不使用大數(shù)據(jù)集輔助的情況下，文獻(xiàn)[11]提出了一種迭代提升欠采樣模型（under sampling with iteratively boosting，USIB），進(jìn)行疾病預(yù)測。該方法迭代地從多數(shù)類樣本中進(jìn)行欠采樣，構(gòu)建多組弱分類器，通過加權(quán)組合的方式集成一個(gè)強(qiáng)分類器，提高模型的學(xué)習(xí)能力。但是基于該方法更多地關(guān)注錯(cuò)誤分類和分類置信度不高的樣本去改善模型的預(yù)測能力，并沒有真正實(shí)現(xiàn)數(shù)據(jù)生成的任務(wù)。

集成方法也是解決小樣本學(xué)習(xí)的常用方法，通過融合集成技術(shù)和采樣技術(shù)，充分利用了兩者的優(yōu)點(diǎn)。Liu等人提出了EasyEnsemble集成算法，結(jié)合了Bagging和欠采樣技術(shù)。在此基礎(chǔ)上，Liang和Cohn提出了UBagging 算法，該算法將Bagging 應(yīng)用到不平衡數(shù)據(jù)集訓(xùn)練中，不斷增加負(fù)樣本采樣數(shù)量來訓(xùn)練多個(gè)分類器，集成多個(gè)分類器提高整體分類性能。融合集成技術(shù)和采樣技術(shù)的算法通過多次采樣解決了單次采樣中樣本信息缺失問題，但是每次隨機(jī)性地采樣，忽略了分類器之間的關(guān)系，限制了模型的整體性能。

另一種常用的方法是在已有數(shù)據(jù)集的基礎(chǔ)上，進(jìn)行特定技術(shù)的處理來增加樣本的數(shù)量。文獻(xiàn)[14]提出了一種深度卷積生成對抗網(wǎng)絡(luò)（deep convolutional generative adversarial networks，DCGANs），通過設(shè)計(jì)生成器與判別器，學(xué)習(xí)圖像中物體到場景的層次化表征信息，最終生成新的圖像數(shù)據(jù)集。文獻(xiàn)[15]提出了一種基于Wasserstein GAN 的小樣本數(shù)據(jù)增強(qiáng)方法，使用訓(xùn)練集樣本訓(xùn)練GAN 后生成模擬樣本數(shù)據(jù)，擴(kuò)增訓(xùn)練集樣本規(guī)模。雖然GAN 方法的生成不用考慮樣本屬性間的內(nèi)在聯(lián)系，但是GAN 在實(shí)際應(yīng)用當(dāng)中會(huì)存在一些問題：

（1）無法進(jìn)行穩(wěn)定的訓(xùn)練，導(dǎo)致生成模型生成無意義的輸出，對于離散型數(shù)據(jù)的學(xué)習(xí)效果較差；

（2）生成的數(shù)據(jù)的可解釋性差，有時(shí)GAN生成的樣本只是對真實(shí)樣本的簡單改動(dòng)，導(dǎo)致生成樣本的多樣性較差。

綜上，已有的數(shù)據(jù)生成方法存在著隨機(jī)性、盲目性，并且有模型參數(shù)選擇和復(fù)雜程度的限制。研究新的數(shù)據(jù)模型，并將其應(yīng)用到相關(guān)工作當(dāng)中具有重要意義。

2 數(shù)據(jù)生成模型

本次用于擴(kuò)充的康復(fù)養(yǎng)老數(shù)據(jù)集包含140 條數(shù)據(jù)，每個(gè)樣本包含老年人的基礎(chǔ)屬性、行為能力評估指標(biāo)以及行為能力評估階段等信息。

在樣本數(shù)據(jù)方面，通過對采集到的樣本數(shù)據(jù)進(jìn)行分類，可以得到基礎(chǔ)屬性、行為能力評估指標(biāo)和行為能力評估階段等類別信息，其中每個(gè)分類包含的屬性如下：

（1）基礎(chǔ)屬性：姓名、年齡、家庭條件、殘疾原因、殘疾類型、殘疾等級。

（2）基礎(chǔ)行為能力評估指標(biāo)：翻身、坐、站、轉(zhuǎn)移。

（3）高階行為能力評估指標(biāo)：步行或驅(qū)動(dòng)輪椅、上下臺(tái)階、進(jìn)食、穿脫衣物、洗漱、入廁、交流、日常家務(wù)、社會(huì)活動(dòng)。

（4）行為能力評估階段：康復(fù)初期、恢復(fù)期、治愈期。

在數(shù)據(jù)生成的模型設(shè)計(jì)中，本文分為了三個(gè)階段：第一階段按照基于樹形結(jié)構(gòu)的規(guī)則自上而下生成樣本的基礎(chǔ)屬性；第二階段對于基礎(chǔ)的行為能力指標(biāo)的生成，使用貝葉斯模型來實(shí)現(xiàn)；第三階段，使用多元線性回歸生成高階行為能力指標(biāo)。具體的模型設(shè)計(jì)流程圖如圖1所示。

圖1 數(shù)據(jù)生成模型Fig. 1 Data generation model

2.1 基于樹形結(jié)構(gòu)的基礎(chǔ)屬性生成策略

在原始數(shù)據(jù)集當(dāng)中基礎(chǔ)屬性包括了性別、年齡、殘疾類型、殘疾原因、殘疾等級共5個(gè)維度特征，且它們在數(shù)據(jù)集中都呈現(xiàn)出一定的分布規(guī)律。如果要同時(shí)生成各個(gè)維度的值，則會(huì)忽略它們之間的相關(guān)性；如果只是簡單地用隨機(jī)的方法生成各個(gè)維度的值，則生成的數(shù)據(jù)會(huì)不滿足原始數(shù)據(jù)集的分布，失去有效性和真實(shí)性。因此，本節(jié)提出了基于樹形結(jié)構(gòu)的基礎(chǔ)屬性生成策略：考慮先根據(jù)殘疾類型的分布情況，采用改進(jìn)后的輪盤賭算法確定生成樣本的殘疾類型，然后以此為根節(jié)點(diǎn)，性別特征為其子節(jié)點(diǎn)，利用條件分布，再次使用改進(jìn)后的輪盤賭算法確定性別特征；以此類推，按照樹形結(jié)構(gòu)的思想，不斷利用條件分布，采用改進(jìn)后的輪盤賭算法，自上而下地確定各個(gè)維度的值，最終實(shí)現(xiàn)基礎(chǔ)屬性的生成。

在確定了生成策略之后，本文對原數(shù)據(jù)進(jìn)行了預(yù)處理，從原數(shù)據(jù)集中篩選出真實(shí)可用的80 條數(shù)據(jù)。對這些數(shù)據(jù)的基礎(chǔ)屬性進(jìn)行統(tǒng)計(jì)分析，樣本的分布呈現(xiàn)出一定的規(guī)律，各個(gè)基礎(chǔ)屬性統(tǒng)計(jì)分布如表1所示。

表1 基礎(chǔ)屬性統(tǒng)計(jì)分布Table 1 Basic attribute statistical distribution

常見的輪盤賭算法通常需要先計(jì)算適應(yīng)度比例，即對于數(shù)量為的養(yǎng)老康復(fù)樣本，給每個(gè)個(gè)體x一個(gè)適應(yīng)度值(x)，則每個(gè)特征值的選擇概率為：

然后計(jì)算每個(gè)個(gè)體的累計(jì)概率，即每個(gè)個(gè)體之前所有個(gè)體的選擇概率之和：

在確定了累計(jì)概率之后，隨機(jī)生成一個(gè)數(shù)組，數(shù)組的長度為，元素值的范圍屬于[0,1]，然后有序排列，用于確定個(gè)體是否能夠被選擇。若累計(jì)概率q大于隨機(jī)生成數(shù)組中的[]，則x被選擇，將繼續(xù)比較[]，若不大于，則不選擇，比較下一個(gè)個(gè)體x+1，以此類推，從而確定生成屬性。

在樣本的數(shù)據(jù)集中，要生成的基礎(chǔ)屬性中的特征值只有一個(gè)，在輪盤賭算法中即每次需要選擇出來的個(gè)體只有一個(gè)，為了能夠方便地控制選擇的個(gè)體的數(shù)量，本文改進(jìn)了輪盤賭算法，在函數(shù)參數(shù)中增加了一個(gè)控制生成個(gè)體數(shù)量的參數(shù)。具體的算法如下所示。

基于條件分布的輪盤賭算法

輸入：殘疾類型分布數(shù)組，性別條件分布數(shù)組，年齡條件分布數(shù)組，殘疾原因條件分布數(shù)組，殘疾等級條件分布數(shù)組。

通過對原始數(shù)據(jù)集的處理、分析、統(tǒng)計(jì)，按照樹形結(jié)構(gòu)的思想，采用改進(jìn)后的輪盤賭算法，實(shí)現(xiàn)了基礎(chǔ)屬性的生成。

2.2 基于樸素貝葉斯基礎(chǔ)行為能力指標(biāo)生成策略

貝葉斯方法是以貝葉斯原理為基礎(chǔ)，使用概率統(tǒng)計(jì)的知識(shí)對樣本數(shù)據(jù)集進(jìn)行分類，因此有著較好的統(tǒng)計(jì)和數(shù)學(xué)基礎(chǔ)，分類的準(zhǔn)確率較高。該方法通過使用數(shù)據(jù)集中統(tǒng)計(jì)出的先驗(yàn)概率和后驗(yàn)概率，既避免了只使用先驗(yàn)知識(shí)的主觀偏見，也避免了單獨(dú)使用樣本信息的過擬合現(xiàn)象。

樸素貝葉斯分類，以貝葉斯定理為基礎(chǔ)，并且使用條件獨(dú)立性假設(shè)的方法，先通過已給定的訓(xùn)練集，以特征屬性之間獨(dú)立作為前提假設(shè)，學(xué)習(xí)從輸入到輸出的聯(lián)合概率分布，再基于學(xué)習(xí)到的模型，輸入求出使得后驗(yàn)概率最大的輸出。

設(shè)有樣本數(shù)據(jù)集={,,…,s}，對應(yīng)樣本數(shù)據(jù)的特征屬性集={,,…,x}，且類變量為={,,…,y}，即可以分為y個(gè)類別。其中,,…,x相互獨(dú)立且隨機(jī)，則的先驗(yàn)概率=()，的后驗(yàn)概率=(|)。由樸素貝葉斯算法可得，后驗(yàn)概率可以由先驗(yàn)概率、證據(jù)()、類條件概率(|)以及在給定樣本類別時(shí)計(jì)算得出公式如下：

由以上兩公式可以得出后驗(yàn)概率為：

由于在每次的計(jì)算過程中()的大小是一樣的，在比較后驗(yàn)概率的時(shí)候，只比較上式的分子部分即可。最終可以得到一個(gè)樣本數(shù)據(jù)屬于類別y的樸素貝葉斯計(jì)算公式：

在樣本的康復(fù)養(yǎng)老數(shù)據(jù)集中，樣本的基礎(chǔ)行為能力評估指標(biāo)包含翻身、坐、站、轉(zhuǎn)移共四項(xiàng)，每項(xiàng)指標(biāo)的評估分為0、1、2、3四個(gè)等級，評估得分越高表明該項(xiàng)指標(biāo)的能力越強(qiáng)。因此，對于每項(xiàng)基礎(chǔ)行為能力評估指標(biāo)的生成，可以看作一個(gè)分類問題。通過計(jì)算原數(shù)據(jù)集中樣本的基礎(chǔ)屬性（性別、年齡、殘疾類型、殘疾原因、殘疾等級）之間的相關(guān)性，如表2 所示的基礎(chǔ)屬性的Spearman 相關(guān)性系數(shù)矩陣，可以發(fā)現(xiàn)它們之間有較低的關(guān)聯(lián)程度，即使用樸素貝葉斯算法，考慮每個(gè)特征之間的獨(dú)立性假設(shè)是合理的。

表2 樣本基礎(chǔ)屬性Spearman相關(guān)性系數(shù)矩陣Table 2 Spearman correlation coefficient matrix of sample basic attributes

在分析了樣本基礎(chǔ)屬性間的基礎(chǔ)屬性后，通過預(yù)先設(shè)定好的數(shù)值化規(guī)則進(jìn)行基礎(chǔ)屬性約束，設(shè)原始數(shù)據(jù)集的基礎(chǔ)屬性的數(shù)值化矩陣1,原始數(shù)據(jù)集的基礎(chǔ)行為能力評估指標(biāo)的數(shù)值化標(biāo)簽數(shù)組1，階段一中生成的基礎(chǔ)屬性的數(shù)值化矩陣2；將1、2 以及1輸入到樸素貝葉斯模型中，最終得到模型預(yù)測出的基礎(chǔ)行為能力指標(biāo)。

數(shù)據(jù)生成的第二階段，本文使用樸素貝葉斯算法，通過原數(shù)據(jù)集的訓(xùn)練，分別得到翻身、坐、站、轉(zhuǎn)移四個(gè)基礎(chǔ)行為能力評估指標(biāo)的生成模型，再利用階段一中已生成的基礎(chǔ)屬性，最終得到每個(gè)生成樣本的基礎(chǔ)行為能力評估指標(biāo)。

2.3 基于多元線性回歸高階行為能力指標(biāo)生成策略

在回歸分析中，如果有兩個(gè)或兩個(gè)以上的自變量，就稱為多元回歸。在現(xiàn)實(shí)中，一個(gè)現(xiàn)象結(jié)果的出現(xiàn)往往是與多個(gè)因素相聯(lián)系的，由多個(gè)自變量的最優(yōu)組合共同來預(yù)測或估計(jì)因變量，比只用一個(gè)自變量進(jìn)行預(yù)測或估計(jì)更有效，更符合實(shí)際，因此多元線性回歸的應(yīng)用場合常常更為廣泛。多元線性回歸模型如下：

式中，為常數(shù)項(xiàng)，β(=1,2,…,)表示在其他變量保持不變時(shí)，X增加或減少一個(gè)單位時(shí)的平均變化量，被稱為偏回歸系數(shù)。同樣，被稱為殘差，表示去除個(gè)自變量對影響后的隨機(jī)誤差。通常，多元線性回歸模型的應(yīng)用需要滿足如下條件：

（1）與,,…,X之間具有線性關(guān)系；

（2）各個(gè)樣本的觀察值Y(=1,2,…,)相互獨(dú)立；

（3）殘差服從均值為0，方差為的正態(tài)分布，等價(jià)于對任意一組自變量,,…,X值，因變量具有相同的方差，并且服從正態(tài)分布。

使用最小二乘法，根據(jù)樣本數(shù)據(jù)求得模型參數(shù)估計(jì)值：

通過建立多元線性回歸方程求解：

最后確定,,…,b的值，得到最終的多元線性回歸方程。

在康復(fù)養(yǎng)老的數(shù)據(jù)集中，高階行為能力評估指標(biāo)包含步行或驅(qū)動(dòng)輪椅、上下臺(tái)階、進(jìn)食、穿脫衣物、洗漱、入廁、交流、日常家務(wù)、社會(huì)活動(dòng)等九項(xiàng)指標(biāo)，每項(xiàng)指標(biāo)分為0、1、2、3四個(gè)等級，得分越高表示該項(xiàng)能力越強(qiáng)。通過統(tǒng)計(jì)原數(shù)據(jù)各項(xiàng)能力指標(biāo)的相關(guān)性，本文發(fā)現(xiàn)基礎(chǔ)行為能力指標(biāo)與高階行為能力指標(biāo)之間有較強(qiáng)的相關(guān)性。當(dāng)指標(biāo)得分被看作連續(xù)性數(shù)值時(shí)，兩者具有一定的線性關(guān)系。基于上述分析，在數(shù)據(jù)生成的第三階段，本文采用多元線性回歸算法，通過對原始數(shù)據(jù)集的訓(xùn)練，針對不同的高階行為能力指標(biāo)，分別構(gòu)建了對應(yīng)的回歸方程。

在自變量的選擇過程中，本文采取了逐步回歸法進(jìn)行篩選。該方法將前進(jìn)法和后退法相結(jié)合，首先使用前進(jìn)法挑選變量，然后將已入選的自變量使用后退法進(jìn)行剔除，在整個(gè)過程中，通過觀察實(shí)驗(yàn)中設(shè)定的相關(guān)檢驗(yàn)標(biāo)準(zhǔn)，選擇和剔除合適的自變量，最后建立較優(yōu)的回歸方程。

通過統(tǒng)計(jì)和實(shí)驗(yàn)發(fā)現(xiàn)，當(dāng)同時(shí)引入翻身、坐、站、轉(zhuǎn)移四項(xiàng)作為自變量放入方程當(dāng)中，多元線性回歸模型的效果最好。在完成模型的訓(xùn)練之后，將第二階段生成的基礎(chǔ)行為能力評估指標(biāo)數(shù)據(jù)作為輸入，可以完成高階行為能力評估指標(biāo)的生成。然后根據(jù)整個(gè)行為能力評估指標(biāo)可以得到評估階段；最后整合每個(gè)生成樣本的基礎(chǔ)屬性、行為能力評估指標(biāo)以及評估階段可以得到一個(gè)完整的生成數(shù)據(jù)集。

3 康復(fù)數(shù)據(jù)的應(yīng)用

在現(xiàn)實(shí)中，在得到了一個(gè)樣本的基礎(chǔ)屬性、行為能力評估指標(biāo)以及行為能力評估階段后，康復(fù)專家就可以根據(jù)這些特征進(jìn)行一些康復(fù)訓(xùn)練計(jì)劃的推薦，用于輔助患者的康復(fù)治療。因此，將模型生成的數(shù)據(jù)集反饋給康復(fù)專家，經(jīng)過專家的評審、篩選和標(biāo)注，最后可以形成一批標(biāo)注后的完整數(shù)據(jù)集。在此基礎(chǔ)上，可以設(shè)計(jì)一個(gè)模型，用于康復(fù)計(jì)劃的推薦。

在得到了樣本的數(shù)據(jù)信息后，統(tǒng)計(jì)需要推薦的項(xiàng)目包含運(yùn)動(dòng)康復(fù)目標(biāo)、生活自理能力康復(fù)目標(biāo)、生活適應(yīng)能力康復(fù)目標(biāo)、康復(fù)訓(xùn)練項(xiàng)目、康復(fù)療法、康復(fù)訓(xùn)練強(qiáng)度、康復(fù)訓(xùn)練組數(shù)共7項(xiàng)。

通過對樣本數(shù)據(jù)的整理、統(tǒng)計(jì)后，得到的具體推薦數(shù)據(jù)如表3所示。

表3 推薦模型樣本數(shù)據(jù)展示Table 3 Sample data presentation of recommended model

其中，雖然每項(xiàng)計(jì)劃的內(nèi)容為文本數(shù)據(jù)，但是內(nèi)容的劃分是分類別的。因此考慮構(gòu)建基于神經(jīng)網(wǎng)絡(luò)的分類模型，用于實(shí)現(xiàn)康復(fù)訓(xùn)練計(jì)劃的推薦。

具體的推薦任務(wù)劃分為多分類任務(wù)和多標(biāo)簽分類任務(wù)。根據(jù)康復(fù)訓(xùn)練計(jì)劃數(shù)據(jù)的特點(diǎn)，其中運(yùn)動(dòng)康復(fù)目標(biāo)、生活自理能力康復(fù)目標(biāo)、生活適應(yīng)能力康復(fù)目標(biāo)、康復(fù)訓(xùn)練強(qiáng)度、康復(fù)訓(xùn)練組數(shù)五項(xiàng)推薦屬于多分類任務(wù)，康復(fù)訓(xùn)練項(xiàng)目與康復(fù)療法的推薦屬于多標(biāo)簽分類任務(wù)。

對于每個(gè)樣本而言，它都包含性別、年齡、殘疾類型、殘疾原因、殘疾等級、行為能力評估指標(biāo)以及行為能力評估階段七項(xiàng)基本信息，在分類推薦模型設(shè)計(jì)之前，需要先確定樣本的特征屬性和模型的輸入。在現(xiàn)實(shí)中，專業(yè)的康復(fù)醫(yī)護(hù)人員根據(jù)殘疾人的各項(xiàng)生理特征以及康復(fù)過程信息進(jìn)行康復(fù)計(jì)劃的制定，在與康復(fù)專家溝通之后，通過分析殘疾人的特征屬性和影響康復(fù)計(jì)劃推薦的主要因素，本文設(shè)計(jì)了一個(gè)基于神經(jīng)網(wǎng)絡(luò)的樣本特征提取模型。具體的特征向量提取模型設(shè)計(jì)如圖2所示。

圖2 樣本特征提取模型Fig. 2 Sample feature extraction model

首先，經(jīng)過數(shù)據(jù)的預(yù)處理，將樣本的基本信息中的屬性數(shù)字化，然后將數(shù)字化的特征通過嵌入層的映射變換為16 維或32 維的低維特征。使用={,,…,x}表示樣本基礎(chǔ)信息中的各個(gè)特征項(xiàng)，通過激活函數(shù)ReLU的非線性變換得到低維特征，接著通過全連接層將各個(gè)低維特征拼接融合，得到樣本特征，放入到隱藏層當(dāng)中，最終得到400維的高階融合特征向量。

在網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)中，本文將特征提取模型中得到的向量作為分類網(wǎng)絡(luò)的輸入層，通過隱藏層的加工抽象，選擇合適的損失函數(shù)完成輸出。

在網(wǎng)絡(luò)的輸出層中，對于不同的分類任務(wù)，模型使用了不同的損失函數(shù)。針對多分類任務(wù)，模型使用了Softmax 交叉熵?fù)p失函數(shù)，針對多標(biāo)簽分類任務(wù)，數(shù)據(jù)中類別標(biāo)簽是獨(dú)立且不互斥的，因此可以將其視為多個(gè)二分類任務(wù)，使用Sigmoid 交叉熵?fù)p失函數(shù)。

4 實(shí)驗(yàn)結(jié)果與分析

4.1 基于樸素貝葉斯的基礎(chǔ)行為能力指標(biāo)生成策略實(shí)驗(yàn)

在現(xiàn)實(shí)中，康復(fù)師對患者進(jìn)行行為能力評估時(shí)存在較多的不確定性和主觀因素，有時(shí)評估指標(biāo)得分在0～4 之間并沒有嚴(yán)格的區(qū)分度。例如當(dāng)一個(gè)樣本中“站”這項(xiàng)行為能力指標(biāo)的真實(shí)值為2，其作為測試數(shù)據(jù)放入模型當(dāng)中，被預(yù)測出的結(jié)果為0 或1 或3時(shí)，都應(yīng)該給其一定的正確權(quán)重，而不是直接判錯(cuò)。即在分析階段二的生成模型的準(zhǔn)確率時(shí)不能完全按照分類問題的準(zhǔn)確率的計(jì)算來定義。

通過與康復(fù)養(yǎng)老方面的專家溝通，本文定義了正確程度評價(jià)矩陣，用來合理地計(jì)算模型的準(zhǔn)確性。

對于數(shù)據(jù)規(guī)模為的測試數(shù)據(jù)集，T表示第個(gè)測試樣本的第個(gè)評估指標(biāo)的真實(shí)值，P表示第個(gè)測試樣本的第個(gè)評估指標(biāo)的預(yù)測值，則第個(gè)測試樣本第個(gè)評估指標(biāo)被預(yù)測的正確程度D為：

那么，第個(gè)指標(biāo)預(yù)測模型的準(zhǔn)確率計(jì)算為：

利用上述公式，得到正確程度評價(jià)矩陣如表4所示。

表4 正確程度評價(jià)矩陣Table 4 Matrix of correctness degree evaluation

在設(shè)計(jì)好了正確程度矩陣，改進(jìn)了評價(jià)的標(biāo)準(zhǔn)之后，對模型的準(zhǔn)確率進(jìn)行了實(shí)驗(yàn)驗(yàn)證，設(shè)定實(shí)驗(yàn)迭代次數(shù)為10，分別計(jì)算了未使用正確程度評價(jià)矩陣和改進(jìn)后的評價(jià)標(biāo)準(zhǔn)，繪制出了“翻身”基礎(chǔ)行為能力指標(biāo)的生成模型準(zhǔn)確率折線圖，如圖3所示。

圖3 翻身行為能力指標(biāo)生成實(shí)驗(yàn)結(jié)果Fig. 3 Experimental results of ability index of turning over

從圖3中可以發(fā)現(xiàn)，在使用了定義的正確程度評價(jià)矩陣衡量之后，模型的準(zhǔn)確率可以達(dá)到80%。在改進(jìn)了階段二實(shí)驗(yàn)的評價(jià)算法之后得到了較高的模型準(zhǔn)確率，說明階段二的生成是可解釋的。

4.2 基于多元線性回歸的高階行為能力指標(biāo)生成策略實(shí)驗(yàn)

在第三階段生成高階行為能力指標(biāo)時(shí)，本文總共構(gòu)建了9個(gè)回歸方程，因變量整體對方程的解釋使用了和值，各個(gè)變量對方程的顯著性影響使用了值，并且統(tǒng)計(jì)列出了各個(gè)方程自變量的系數(shù)。其中、、、分別為自變量翻身、坐、站、轉(zhuǎn)移，各個(gè)方程的和值如表5所示。

表5 各個(gè)回歸方程R2與F值統(tǒng)計(jì)表Table 5 Each regression equation R2 and F value

其中，以翻身、坐、站、轉(zhuǎn)移為自變量，步行或驅(qū)動(dòng)輪椅為因變量，擬合出的回歸方程的系數(shù)、標(biāo)準(zhǔn)差、值、值的結(jié)果如表6所示。

表6 回歸方程1的實(shí)驗(yàn)結(jié)果Table 6 Experimental results of regression equation 1

從表5中可以發(fā)現(xiàn)，和值最高達(dá)到0.612和32.140，說明選取的變量整體可以對方程進(jìn)行解釋。在衡量每個(gè)變量對方程影響的顯著性時(shí)使用了檢驗(yàn)，其中當(dāng)值小于0.05 時(shí)，表示拒絕原假設(shè)，即表明該自變量與因變量有一定的回歸關(guān)系，且對方程有較高的顯著性影響。

4.3 三階段的生成模型實(shí)驗(yàn)

在生成階段一中，實(shí)驗(yàn)保證了生成出的數(shù)據(jù)是符合原數(shù)據(jù)集分布的，在生成階段二和階段三中也選取了合適的實(shí)驗(yàn)評價(jià)指標(biāo)，保證了其結(jié)果的可靠性。基于以上工作，還需要對整個(gè)生成模型的實(shí)驗(yàn)結(jié)果進(jìn)行分析和評估。因此，本文設(shè)計(jì)了Spearman相關(guān)性系數(shù)矩陣余弦相似度計(jì)算的方法進(jìn)行實(shí)現(xiàn)。

先計(jì)算出原數(shù)據(jù)集中各個(gè)特征維度之間的Spearman相關(guān)性系數(shù)矩陣1，然后計(jì)算生成數(shù)據(jù)集的各個(gè)特征維度之間的Spearman 相關(guān)性系數(shù)矩陣2，之后將兩者做余弦相似度計(jì)算，得到1 和2之間的相似度用來衡量生成數(shù)據(jù)的質(zhì)量。

在具體的操作過程中，本文設(shè)定了不同的數(shù)據(jù)集生成的Batch Size，生成數(shù)據(jù)集的大小分別從100到1 000，控制每批次生成數(shù)據(jù)規(guī)模的大小。此外，在每次得到生成的數(shù)據(jù)集之后，計(jì)算數(shù)據(jù)集的Spearman相關(guān)系數(shù)矩陣，然后統(tǒng)計(jì)出了3個(gè)不同的矩陣相似度，用來與文中提出的模型的實(shí)驗(yàn)結(jié)果進(jìn)行對比。其中表示生成階段二、三都使用樸素貝葉斯的方法后矩陣1 和2 的相似度；表示生成階段二使用樸素貝葉斯，階段三使用多元線性回歸并將高階行為能力指標(biāo)得分四舍五入后矩陣1和2 的相似度；則表示生成階段二使用樸素貝葉斯，階段三使用多元線性回歸后矩陣1 和2 的相似度。最后，在得到了每次實(shí)驗(yàn)的結(jié)果之后，統(tǒng)計(jì)并繪制了實(shí)驗(yàn)結(jié)果折線圖如圖4所示。

圖4 矩陣相似度計(jì)算折線圖Fig. 4 Result of matrix similarity calculation

從圖4的數(shù)據(jù)可以看出，相似度會(huì)有極值點(diǎn)的出現(xiàn)，但隨著生成數(shù)據(jù)集規(guī)模的增大，矩陣相似度趨于穩(wěn)定，且具體表現(xiàn)為、以及分別在0.725、0.800、0.850 這3 個(gè)值上下波動(dòng)。其中的值最大，說明通過本文提出的模型生成出的數(shù)據(jù)很大程度上和原數(shù)據(jù)集在各個(gè)特征維度的相關(guān)性上也保持了一致，從實(shí)驗(yàn)結(jié)果上驗(yàn)證了生成數(shù)據(jù)集的真實(shí)性和可靠性。

4.4 康復(fù)推薦模型實(shí)驗(yàn)

在本節(jié)的實(shí)驗(yàn)中，使用了三階段生成模型并經(jīng)過康復(fù)專家標(biāo)注后的數(shù)據(jù)集。在具體的實(shí)驗(yàn)過程中，為了避免隨機(jī)性對實(shí)驗(yàn)結(jié)果造成影響，本文做了5次實(shí)驗(yàn)，每次實(shí)驗(yàn)隨機(jī)選取80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集，剩下的20%作為測試數(shù)據(jù)集，取5 次實(shí)驗(yàn)的平均值作為最終結(jié)果。多分類任務(wù)1～5 分別為運(yùn)動(dòng)康復(fù)目標(biāo)推薦、生活自理能力康復(fù)目標(biāo)推薦、生活適應(yīng)能力康復(fù)目標(biāo)推薦、康復(fù)訓(xùn)練強(qiáng)度推薦、康復(fù)訓(xùn)練組數(shù)推薦，本文使用準(zhǔn)確率Acc 進(jìn)行評估；對于多標(biāo)簽分類任務(wù)，本文使用AUC（area under curve）進(jìn)行評估。得到的實(shí)驗(yàn)結(jié)果如表7、表8所示。

表7 多分類任務(wù)的實(shí)驗(yàn)結(jié)果Table 7 Experimental results of multi-classification tasks %

表8 多標(biāo)簽分類任務(wù)的實(shí)驗(yàn)結(jié)果Table 8 Experimental results of multi-label classification tasks %

從實(shí)驗(yàn)結(jié)果來看，多分類任務(wù)的Acc 可以達(dá)到77%，多標(biāo)簽分類任務(wù)的AUC可以達(dá)到65%，說明分類推薦模型有較好的效果，可以為后續(xù)的研究提供一些參考。

5 總結(jié)與展望

本文提出了一種基于機(jī)器學(xué)習(xí)的三階段數(shù)據(jù)生成模型。實(shí)驗(yàn)表明，生成模型的第一個(gè)階段保證了生成后的數(shù)據(jù)集和原數(shù)據(jù)集有相同的屬性分布；在第二階段，通過設(shè)計(jì)正確程度矩陣驗(yàn)證了基礎(chǔ)行為能力指標(biāo)的生成結(jié)果可以達(dá)到80%；生成階段三提出的基于多元線性回歸的高階行為能力指標(biāo)生成策略保證了生成數(shù)據(jù)集繼承了原始數(shù)據(jù)集屬性之間的相關(guān)性。此外，通過注入專家知識(shí)，本文有效地篩選和標(biāo)注了生成數(shù)據(jù)，在此基礎(chǔ)上，實(shí)現(xiàn)的多分類任務(wù)的Acc 可以達(dá)到77%，多標(biāo)簽分類任務(wù)的AUC 可以達(dá)到65%。

盡管本文所提出的基于機(jī)器學(xué)習(xí)的三階段生成模型可以生成一個(gè)完備有效的數(shù)據(jù)集，但是目前對生成數(shù)據(jù)集的利用有限。后續(xù)將進(jìn)一步優(yōu)化生成模型，并在相關(guān)的系統(tǒng)平臺(tái)中開放相關(guān)數(shù)據(jù)集和模型接口，以便在此基礎(chǔ)上做更多的研究工作。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放