李 媛
(桐城師范高等??茖W校 商貿(mào)與電子信息系,安徽 桐城 231400)
網(wǎng)絡(luò)現(xiàn)代化生活為人們提供了極大的便利,但同時也帶來了不小的挑戰(zhàn).由于突如其來的新冠疫情沖擊,對各國人民生活和學習都產(chǎn)生了極大挑戰(zhàn).疫情下,在線授課和學習成為主流應(yīng)對方法,但云端大量數(shù)據(jù)的存儲和計算已不能被傳統(tǒng)存儲方法滿足,數(shù)據(jù)量大、傳輸速度慢和存儲效率低等現(xiàn)狀相繼引發(fā)資源被消耗和存儲空間被占用等問題[1].劉亞瓊[2]曾提出基于快速傅里葉變換的數(shù)據(jù)壓縮方法,但部分信號不存在傅里葉變換,對一些數(shù)據(jù)不夠靈敏,該方法存在局限性.孫建偉[3]提出使用RICE算法完成數(shù)據(jù)壓縮,該方法無法一次完成索引,導(dǎo)致壓縮效率低.屈永斌[4]提出云計算的數(shù)據(jù)壓縮方法,云計算規(guī)模大,擴展性高,但響應(yīng)時間慢.充分借鑒現(xiàn)有研究成果,引入邊緣計算配合云計算工作,可實現(xiàn)“云邊協(xié)同”,提高資源的壓縮存儲效率,減少占用云端存儲空間[5-7].為此本文提出基于邊緣計算的在線學習資源壓縮存儲方法,滿足現(xiàn)階段大量數(shù)據(jù)的壓縮存儲需求.
壓縮感知的目的是重構(gòu)原始信號,主要通過構(gòu)建聯(lián)合稀疏模型、信號稀疏表示、字典學習、選取測量矩陣、聯(lián)合重構(gòu)等步驟完成在線學習資源的壓縮感知[8-9].壓縮感知具體過程見下文.
(1)
將M×N的測量矩陣Φ投影在x上得出公式(2).
y=Φx=Φψθ=Θθ,
(2)
其中,y表示投影系數(shù)組成的N×1列向量,稱為觀測矢量,Θ為觀測矩陣.
在壓縮感知理論中,可以用M個非自適應(yīng)的線性投影值重構(gòu)出x,前提是測量矩陣Φ和正交基矩陣ψ不相關(guān)或者Θ具備路由信息協(xié)議特性.如果測量矩陣選擇隨機矩陣,那么Θ會在很大程度上滿足路由信息協(xié)議條件.
(3)
公式(3)中,1-范數(shù)問題可以利用正交匹配追蹤的線性規(guī)劃方法求解.使用正交匹配追蹤方法重構(gòu)N維K稀疏向量需要的測量值個數(shù)需滿足公式(4).
M≥cK,c≈2ln(N).
(4)
1.1.1 聯(lián)合稀疏模型
構(gòu)建第一聯(lián)合稀疏模型JSM-1對在線學習資源進行壓縮采集.
在JSM-1模型中,信號群中的所有信號均可拆分,表達式見公式(5).
xj=zc+zjj∈{1,2,…,J},
(5)
其中,zc為共同分量,zj為特征分量,zj=ψαj,αj為第j個信號的獨立稀疏系數(shù);xj表示第j個信號,J為信號群中的信號個數(shù);zc=ψθc,θc為所有信號的公共稀疏向量.
1.1.2 信號稀疏表示及字典學習(K-SVD)算法
假設(shè)字典為D,在線學習資源為Y,系數(shù)矩陣為X,那么K-SVD的目標函數(shù)為
(6)
(7)
(ii)字典更新.在字典學習算法下重置每個字典原子,每次只重置一個[10],懲罰項見公式(8).
(8)
(9)
1.1.3 選取測量矩陣
選用貝努利隨機矩陣,當貝努利測量值M的關(guān)系滿足M≥4.72Klog(N/K)時即可重構(gòu)原始信號,其中N為原始信號長度,K為稀疏度.
1.1.4 聯(lián)合重構(gòu)
采用同步正交匹配追蹤算法(SOMP)與K-SVD算法組成CS-SOMP聯(lián)合重構(gòu)算法.為得到滿足目標閾值的信噪比,首先根據(jù)SOMP算法重構(gòu)收集的在線學習資源,再通過K-SVD對稀疏字典持續(xù)重置降低誤差以達到要求.此算法不需要大量的字典原子和測量值,大幅度提高了效率,具體過程如下.
(i)初始化參數(shù).令初始殘差rj=yj,j[1,s],其中s為節(jié)點個數(shù),字典原子個數(shù)τ,索引值ξ為零,索引集Λ0為空集.
(ii)設(shè)數(shù)據(jù)長度n,測量值數(shù)量m,將原始信號矩陣Xn×s和Φm×n、初始字典Ψn×n以及最低重構(gòu)信噪比SNRdef輸入算法.
(iii)計算傳感矩陣Am×n=Ψm×nΦn×n.
(iv)令各行殘差與Am×n各列二范數(shù)相加,將最大值對應(yīng)到Am×n列索引,合并到上次索引集.數(shù)學表達式見公式(10)和公式(11).
(10)
Λτ=[Λτ-1ξj].
(11)
(v)殘差更新見公式(12)和公式(13).
(12)
(13)
(vi)重構(gòu)中間信號及其相對方均根誤差(R)與重構(gòu)信噪比(SNR)計算見式(16).
(14)
(15)
(16)
(vii)當SNR符合要求時,輸出結(jié)果;當SNR比SNRdef小時,重復(fù)步驟(4)直到符合要求.
當有大量數(shù)據(jù)需要分析時可以使用云計算技術(shù),該技術(shù)具有免維護計算硬件、關(guān)聯(lián)軟件和不需要儲存數(shù)據(jù)在本地等優(yōu)點,但缺點是響應(yīng)時間慢,這是由于其他終端與云平臺間的距離比較遠導(dǎo)致.此時引入一種創(chuàng)新方式——邊緣計算[11-12].該算法離其他終端距離更近,可以解決云計算因距離導(dǎo)致的響應(yīng)時間慢問題,同時數(shù)據(jù)和存儲中間需要的寬帶也隨之減少.因此引入邊緣計算配合云計算工作,可以降低網(wǎng)絡(luò)延遲,改善系統(tǒng)性能.
基于如圖1所示的云邊協(xié)同框架,采集在線學習資源,在云端服務(wù)器上傳經(jīng)邊緣計算CS-SOMP聯(lián)合重構(gòu)算法重構(gòu)產(chǎn)生的稀疏字典原子和測量值,然后進行以下操作.
(i)在線學習資源數(shù)據(jù)的壓縮存儲;
(ii)建立完備稀疏字典.邊緣服務(wù)器對云端服務(wù)器發(fā)送的結(jié)果進行資源調(diào)整,采集資源后再傳到云端服務(wù)器[13-14].
圖1 云邊協(xié)同框架
在云邊協(xié)同架構(gòu)下,當采用CS-SOMP聯(lián)合重構(gòu)算法一起壓縮采集s個節(jié)點的數(shù)據(jù)時,每個數(shù)據(jù)使用同一個字典原子,各節(jié)點數(shù)據(jù)長度設(shè)為n,τ為上傳的字典原子個數(shù),則
(17)
其中,Ym×s為各節(jié)點測量值,Dτ×n為字典原子,Xn×s為各節(jié)點原始信號.上傳云端的測量值與字典原子的存儲量隨著矩陣長度m和傳入云端字典原子個數(shù)τ的降低而降低.完備字典Dk×n的建立需要云端整合各邊緣上傳的字典原子,來保證迅速精準地調(diào)用云端數(shù)據(jù),其中k表示總原子數(shù).稀疏表示系數(shù)θn×s描述見公式(18).
θn×s=SOMP(Ym×s,Dk×n,Ψm×n).
(18)
(19)
數(shù)據(jù)的壓縮存儲通過建立云端完備字典來完成,此時只需各邊緣上傳測量值,極大降低了云端的存儲空間.具體構(gòu)建完備字典的過程如下.
(i)di為字典原子,Dk為云端初始稀疏字典Dk×n中第k個原子,它們間的相關(guān)度用ri,k表示,關(guān)系式見公式(20).
(20)
假設(shè)上傳到云端的字典原子di與云端稀疏字典Dk×n的整體相關(guān)性較弱,則產(chǎn)生的各個ri,k均比某一閾值低,此時將該字典原子擴充進云端稀疏字典.
(ii)過完備稀疏字典由上傳的字典原子組合而成,各字典原子間的相關(guān)性通過正則化降低.具體過程見公式(21)和公式(22).
Dk×n={d1,d2,…,dk},
(21)
(22)
(iii)通過歸一化過完備字典更新字典原子,見式(23).
(23)
(iv)在上傳的測量值中通過分布式壓縮感知算法,再與過完備稀疏字典相結(jié)合恢復(fù)原始數(shù)據(jù),由此確認恢復(fù)存儲數(shù)據(jù)的可能性.在每個節(jié)點獲取對應(yīng)稀疏系數(shù)θj,j∈[1,s],通過把每個節(jié)點數(shù)據(jù)的測量值作為存儲數(shù)據(jù)完成數(shù)據(jù)的壓縮存儲[15].
綜上所述,基于邊緣計算的在線學習資源壓縮存儲方法的具體流程如圖2所示.
圖2 基于邊緣計算的資源壓縮存儲方法的具體流程圖
以某在線學習網(wǎng)站的資源為研究對象,驗證本文方法的在線學習資源壓縮存儲性能.
利用本文方法壓縮存儲在線學習資源時,需要通過在云端上傳邊緣計算采集到的數(shù)據(jù)及其相應(yīng)的稀疏字典原子和測量值,再進行恢復(fù)等操作實現(xiàn).在保證其他參數(shù)相同的情況下,對收集到的數(shù)據(jù)采用本文方法訓練學習.字大小典分別是128、256、512、1024,不同大小字典在稀疏度和壓縮比逐漸增大時的信噪比變化結(jié)果見圖3.
圖3 不同大小字典信噪比對比
由圖3可知,不同大小字典的信噪比均隨著稀疏度的增加呈升高趨勢,且隨著字典增大,信噪比增大幅度變小;隨著壓縮比逐漸增大,不同大小字典的信噪比均有不同程度下降,128字典和256字典的信噪比在壓縮比達到20%之后出現(xiàn)大幅下降,但1024大小的字典信噪比始終保持平穩(wěn),且一直高于其他字典的信噪比,說明字典越大,應(yīng)用本文方法進行數(shù)據(jù)壓縮存儲時的數(shù)據(jù)處理性能越好.
另外采用本文方法壓縮存儲在線學習資源過程中,樣本數(shù)量也是影響字典學習的重要因素.在字典固定1024大小的情況下,分別對比25、50、75和100個樣本數(shù)量訓練學習的字典信噪比,對比結(jié)果見圖4.
圖4 不同樣本數(shù)量訓練學習字典性能結(jié)果圖
圖4(a)表明,隨著稀疏度增大,各字典的信噪比均呈上升趨勢,后期增幅變小,逐漸達到穩(wěn)定.但樣本數(shù)量越大,信噪比越高,前期上升速度越快,證明字典學習效果更好;圖4(b)描述訓練樣本數(shù)量越少應(yīng)對壓縮比變化能力越差,僅有25個樣本數(shù)量的字典在壓縮比為30%的時候出現(xiàn)嚴重失真,而100個樣本數(shù)量的字典信噪比隨壓縮比增大仍保持穩(wěn)定.實驗結(jié)果表明,采用本文方法壓縮存儲在線學習資源時,樣本數(shù)量越大,訓練學習字典效果越好,對應(yīng)的壓縮存儲優(yōu)勢越顯著.
為了驗證本文方法的有效性,采用本文方法、文獻[2]方法和文獻[3]方法,對在線學習資源進行壓縮存儲,對比三種方法壓縮后圖片的清晰度,對比結(jié)果如表1所示.
表1 清晰度對比結(jié)果(%)
根據(jù)表1可知,本文方法對在線學習資源進行壓縮存儲后,圖片的清晰度最高可達100%,壓縮后圖片清晰度較高,無信息缺失.
為了進一步驗證本文方法的有效性,對本文方法、文獻[2]方法和文獻[3]方法的在線學習資源壓縮時間進行對比分析,對比結(jié)果如表2所示.
表2 在線學習資源壓縮時間對比(s)
根據(jù)表2可知,本文方法的在線學習資源壓縮時間在2s內(nèi),比文獻[2]方法和文獻[3]方法的在線學習資源壓縮時間短.
本文以分布式壓縮感知算法為邊緣算法,通過對在線學習資源的稀疏采樣識別,利用云邊協(xié)同框架高效壓縮存儲數(shù)據(jù)的同時實現(xiàn)數(shù)據(jù)完整恢復(fù),保證了在線學習資源質(zhì)量.通過實驗,驗證本文方法訓練學習1024大小字典的數(shù)據(jù)處理性能最好,且壓縮存儲性能隨樣本數(shù)量增多而變好,本文驗證四種數(shù)量樣本中,數(shù)量為100的樣本數(shù)據(jù)訓練學習效果最好.