秦波
(新疆工程學(xué)院,學(xué)生處,新疆,烏魯木齊 830000)
人類的健康包含身體健康和心理健康兩部分。心理健康表示一種可以適應(yīng)所處環(huán)境,在自身認(rèn)知、情緒行為、精神意識(shí)方面也能保持正常的調(diào)控能力[1-2]。人類身體健康水準(zhǔn)持續(xù)提升、壽命延長(zhǎng)的同時(shí),心理健康問(wèn)題日益嚴(yán)峻,引發(fā)社會(huì)廣泛關(guān)注。全方面收集心理健康數(shù)據(jù)、研判數(shù)據(jù)所呈現(xiàn)出的問(wèn)題是目前心理學(xué)專家們研究的重要課題[3]。而有效保證采集數(shù)據(jù)的效率與安全則成了其中的重要環(huán)節(jié)。
文獻(xiàn)[4]使用雙決策樹(shù)方法實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)采集,生成一棵決策樹(shù),利用其在數(shù)據(jù)源中篩選合適的采集點(diǎn),再利用另外一棵決策樹(shù)評(píng)估采集點(diǎn)的質(zhì)量,在質(zhì)量最佳的采集點(diǎn)完成數(shù)據(jù)采樣。但該模型考慮的變量較少,導(dǎo)致采集結(jié)果精度不高。文獻(xiàn)[5]組建了實(shí)時(shí)采集數(shù)據(jù)模型,利用傳感器采集相關(guān)信號(hào),然后通過(guò)Kalman濾波器消除采集過(guò)程中的環(huán)節(jié)噪聲,再通過(guò)零狀態(tài)補(bǔ)償算法消除采集誤差。該模型操作復(fù)雜,在真實(shí)場(chǎng)景中很難得到高效利用。
為此,本文設(shè)計(jì)了基于長(zhǎng)短期記憶網(wǎng)絡(luò)的心理健康數(shù)據(jù)分布式采集模型。
心理健康數(shù)據(jù)具有一定階段性與長(zhǎng)期性,在采集數(shù)據(jù)過(guò)程中,極易產(chǎn)生冗余數(shù)據(jù),本文使用長(zhǎng)短期記憶網(wǎng)絡(luò)實(shí)現(xiàn)冗余數(shù)據(jù)過(guò)濾,確保心理健康數(shù)據(jù)完整性與時(shí)效性。
長(zhǎng)短期記憶網(wǎng)絡(luò)屬于循環(huán)神經(jīng)網(wǎng)絡(luò)的特殊體現(xiàn),因其獨(dú)有的循環(huán)架構(gòu),對(duì)時(shí)間序列擁有很強(qiáng)的學(xué)習(xí)能力,可以把時(shí)序內(nèi)的冗余數(shù)據(jù)剔除并遺忘,降低冗余數(shù)據(jù)對(duì)心理健康數(shù)據(jù)的不良影響。反向傳播神經(jīng)網(wǎng)絡(luò)是輸入層傳遞到隱含層最后抵達(dá)輸出層,各層級(jí)之間互相聯(lián)系,但節(jié)點(diǎn)之間無(wú)連接,不能得到序列當(dāng)前時(shí)段輸出和上一階段數(shù)據(jù)間的耦合關(guān)聯(lián)。長(zhǎng)短期記憶網(wǎng)絡(luò)利用自身內(nèi)部的遺忘門(mén)、輸入門(mén)、輸出門(mén)及循環(huán)架構(gòu)[6]能對(duì)前面數(shù)據(jù)實(shí)施選擇記憶同時(shí)運(yùn)用于當(dāng)前數(shù)據(jù),也就是隱含層間的節(jié)點(diǎn)能夠互相連接。
圖1是長(zhǎng)短期記憶網(wǎng)絡(luò)時(shí)序架構(gòu)。其中,xt表示目前時(shí)段單元輸入,ct是目前時(shí)段單元記憶情況,能儲(chǔ)存長(zhǎng)期記憶,ht是目前時(shí)段單元輸出。在長(zhǎng)短期記憶網(wǎng)絡(luò)內(nèi),目前輸出值取決于上一時(shí)段狀態(tài)、輸出和目前輸入。
圖1 長(zhǎng)短期記憶網(wǎng)絡(luò)時(shí)序架構(gòu)示意圖
長(zhǎng)短期記憶網(wǎng)絡(luò)詳細(xì)框架如圖2所示。其中,網(wǎng)絡(luò)利用遺忘門(mén)ft、輸入門(mén)it與輸出門(mén)ot操控每個(gè)時(shí)段信息的輸入,所以長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)過(guò)往數(shù)據(jù)擁有優(yōu)秀的選擇性[7],可妥善過(guò)濾冗余數(shù)據(jù)干擾。
圖2 長(zhǎng)短期記憶網(wǎng)絡(luò)單元框架
遺忘門(mén)ft按照各個(gè)時(shí)段的輸入xt與上一時(shí)段的輸出ht-1明確上個(gè)時(shí)段的單元記憶狀態(tài)內(nèi)的某些長(zhǎng)期記憶是否要遺忘。將遺忘門(mén)ft的推導(dǎo)解析式記作:
ft=σ(Wf[ht-1,xt]+bf)
(1)
其中,ht-1表示上個(gè)時(shí)段心理健康數(shù)據(jù)特性,Wf表示遺忘門(mén)權(quán)重矩陣,bf表示遺忘門(mén)偏置,σ表示激活函數(shù),將其進(jìn)一步拓展為
(2)
倘若在t5時(shí)段輸入心理健康數(shù)據(jù),遺忘門(mén)ft5內(nèi)代表t4時(shí)段冗余數(shù)據(jù)特征的維度值約為0,并被消除于長(zhǎng)期記憶狀態(tài)。去除冗余數(shù)據(jù)特征后,引入全新特征。輸入門(mén)it5按照x5與ht4決定何種信息引入長(zhǎng)期記憶狀態(tài)內(nèi),并獲得全新形態(tài)ct5。將輸入門(mén)與新形態(tài)的推算過(guò)程分別描寫(xiě)成:
it=σ(Wi[ht-1,xt]+bi)
(3)
(4)
(5)
輸入門(mén)在t5時(shí)段,剔除了t4時(shí)段對(duì)數(shù)據(jù)序列的影響,把全局振蕩形態(tài)特性保存于ct5內(nèi)。長(zhǎng)短期記憶網(wǎng)絡(luò)獲得全新的記憶狀態(tài)后,還要產(chǎn)生t5時(shí)段的輸出,也就是現(xiàn)階段序列的短期特征ht5。輸出門(mén)ot5按照新?tīng)顟B(tài)、上個(gè)時(shí)段輸出與目前輸入來(lái)得到目前時(shí)段輸出[8],將其計(jì)算過(guò)程定義為
ot=σ(Wo[ht-1,xt]+bo)
ht=ot×tanh(ct)
(6)
心理健康數(shù)據(jù)序列分解重構(gòu)時(shí),需要訓(xùn)練長(zhǎng)短期記憶網(wǎng)絡(luò)。將網(wǎng)絡(luò)分為兩層,對(duì)雙層網(wǎng)絡(luò)內(nèi)各個(gè)門(mén)的參變量進(jìn)行持續(xù)優(yōu)化,保持重構(gòu)數(shù)據(jù)與初始數(shù)據(jù)處于相同狀態(tài),從而使初始數(shù)據(jù)內(nèi)的多數(shù)信息都作用在重構(gòu)過(guò)程中,確保重構(gòu)的精確性。將重構(gòu)序列描述成:
(7)
(8)
依次設(shè)定以下函數(shù)最小值:
(9)
(10)
數(shù)據(jù)分布式采集模型使用C/S形式,其整體結(jié)構(gòu)如圖3所示。
圖3 心理健康數(shù)據(jù)分布式采集模型結(jié)構(gòu)
服務(wù)器端利用測(cè)點(diǎn)的基礎(chǔ)屬性,實(shí)現(xiàn)數(shù)據(jù)源測(cè)點(diǎn)和目標(biāo)測(cè)點(diǎn)的映射,給客戶端提供需要的相關(guān)信息。為了方便管理與查找,測(cè)點(diǎn)屬性一般儲(chǔ)存于實(shí)時(shí)數(shù)據(jù)庫(kù),客戶端只保存副本即可,無(wú)須采取手動(dòng)修訂。若測(cè)點(diǎn)配置發(fā)生改變,服務(wù)器會(huì)第一時(shí)間推送修改信息于客戶端,并得到更新后的本地副本。
客戶端管理包含配置管理與實(shí)時(shí)情況管理。配置管理能實(shí)現(xiàn)快速的客戶端基礎(chǔ)信息融合,實(shí)時(shí)情況管理能測(cè)試現(xiàn)階段客戶端綁定的信息,獲得數(shù)據(jù)鏈路流量具體數(shù)值,評(píng)估客戶端運(yùn)行模式與形態(tài),并監(jiān)測(cè)網(wǎng)絡(luò)通信情況,完成自主管理。在心理健康數(shù)據(jù)采集預(yù)處理過(guò)程中,服務(wù)器端利用標(biāo)識(shí)字符串,梳理測(cè)點(diǎn)和客戶端間的邏輯關(guān)系。
1) 配置預(yù)先處理。配置預(yù)先處理是數(shù)據(jù)分布式采集的基礎(chǔ)。首先對(duì)數(shù)據(jù)進(jìn)行雙重校準(zhǔn),去除心理健康數(shù)據(jù)源內(nèi)不具備的點(diǎn)數(shù)據(jù),防止服務(wù)器端和數(shù)據(jù)源測(cè)點(diǎn)類別不同致使采集數(shù)據(jù)不準(zhǔn)確的問(wèn)題。在預(yù)處理階段,挑選部分屬性值完成映射表重構(gòu),能增強(qiáng)搜索速率,降低數(shù)據(jù)包長(zhǎng)度,讓傳輸質(zhì)量得到質(zhì)的提高。
2) 數(shù)據(jù)變換。從源數(shù)據(jù)庫(kù)讀取當(dāng)前心理健康數(shù)據(jù)后,一般要按照測(cè)點(diǎn)配置進(jìn)行3種數(shù)據(jù)變換。數(shù)值二次變換可以處理元數(shù)據(jù)的單位與基準(zhǔn)值問(wèn)題。一對(duì)多變換能解決單個(gè)源測(cè)點(diǎn)響應(yīng)若干目標(biāo)測(cè)點(diǎn)的狀況,利用變換過(guò)程維護(hù)數(shù)據(jù)采集完備性。
3) 數(shù)據(jù)傳輸?;贑/S架構(gòu)的心理健康數(shù)據(jù)分布式采集模型的重要功能就是數(shù)據(jù)傳輸,為了增強(qiáng)數(shù)據(jù)傳輸時(shí)效,從以下2個(gè)角度完成數(shù)據(jù)傳輸處理。
(1) 網(wǎng)絡(luò)鏈路要使用長(zhǎng)連接方式。由于數(shù)據(jù)源和目標(biāo)服務(wù)器傳輸間距很長(zhǎng),為得到較快的傳輸速率,數(shù)據(jù)傳輸運(yùn)用長(zhǎng)連接方式。輸送數(shù)據(jù)量不多時(shí),使用周期性傳送心跳包模式保持鏈路平穩(wěn),降低因路由器、防火墻等設(shè)施的超時(shí)策略而出現(xiàn)網(wǎng)絡(luò)傳輸斷開(kāi)現(xiàn)象。
采用變長(zhǎng)數(shù)據(jù)包。依照數(shù)據(jù)包頭消息,實(shí)現(xiàn)數(shù)據(jù)整體核查、分包和分析。變長(zhǎng)數(shù)據(jù)包模式如圖4所示。
圖4 數(shù)據(jù)包模式示意圖
(2) 在傳輸板塊引入數(shù)據(jù)緩存制度。憑借數(shù)據(jù)分布式采集特征,在傳輸板塊內(nèi)代入數(shù)據(jù)緩存。短時(shí)間內(nèi)的網(wǎng)絡(luò)故障、數(shù)據(jù)會(huì)被緩存至內(nèi)存,系統(tǒng)處理不包含任何運(yùn)行開(kāi)銷。假如采集模型發(fā)生故障的時(shí)間很長(zhǎng),為維護(hù)后期采集結(jié)果真實(shí)性,會(huì)把數(shù)據(jù)保存在本地文件。圖5為數(shù)據(jù)緩存架構(gòu)示意圖。
為了維護(hù)心理健康數(shù)據(jù)安全性,模型多功能板塊互動(dòng)時(shí),使用線程安全隊(duì)列,降低模型功能板塊間的相關(guān)性,完成高質(zhì)量數(shù)據(jù)分布式采集目標(biāo)。
為了證明本文模型的實(shí)用性,將其與文獻(xiàn)[4]、文獻(xiàn)[5]模型展開(kāi)仿真檢驗(yàn),實(shí)驗(yàn)包含有效性檢測(cè)與能耗檢測(cè)兩部分。
圖5 數(shù)據(jù)緩存結(jié)構(gòu)圖
3種模型的采集誤差絕對(duì)值如圖6所示。
圖6 心理健康數(shù)據(jù)分布式采集誤差絕對(duì)值對(duì)比
分析圖6可知,本文模型的采集誤差絕對(duì)值最小,始終小于0.2。文獻(xiàn)[4]與文獻(xiàn)[5]模型檢測(cè)誤差較高,且采集過(guò)程的穩(wěn)定性略差。這是因?yàn)楸疚哪P屠瞄L(zhǎng)短期記憶網(wǎng)絡(luò)過(guò)濾了心理健康冗余數(shù)據(jù),能獲得具有參考價(jià)值的心理健康數(shù)據(jù),誤差絕對(duì)值也隨之降低。
根據(jù)心理健康數(shù)據(jù)時(shí)間跨度大等性質(zhì)可以看出,數(shù)據(jù)采集過(guò)程中具有不穩(wěn)定因素,將不穩(wěn)定因素?cái)M定為不良系數(shù),取值區(qū)間為0~1。比較3種模型的數(shù)據(jù)采集時(shí)間,結(jié)果如表1所示。
表1 心理健康數(shù)據(jù)分布式采集消耗時(shí)間對(duì)比 單位:ms
分析表1可知,本文模型受到不良系數(shù)的影響較小,有效抵御了因?yàn)閺?fù)雜外部環(huán)境引發(fā)的采集效率低下問(wèn)題,擁有很強(qiáng)的實(shí)用性及魯棒性,為心理健康數(shù)據(jù)的快速采集與分析提供充分保障。
本文針對(duì)心理健康數(shù)據(jù)時(shí)間跨度大、數(shù)據(jù)類型復(fù)雜等問(wèn)題,運(yùn)用長(zhǎng)短期記憶網(wǎng)絡(luò)剔除冗余數(shù)據(jù),并采用C/S架構(gòu)創(chuàng)建數(shù)據(jù)分布式采集模型。該模型未考慮區(qū)域發(fā)展給心理健康數(shù)據(jù)帶來(lái)的差異,下一步將融合不同地區(qū)發(fā)展數(shù)據(jù)來(lái)衡量心理健康數(shù)據(jù)采集可靠性。