《“十四五”數(shù)字經(jīng)濟發(fā)展規(guī)劃》指出數(shù)據(jù)要素是數(shù)字經(jīng)濟深化發(fā)展的核心動力.數(shù)據(jù)系統(tǒng)負(fù)責(zé)了數(shù)據(jù)采集、清洗、標(biāo)注、脫敏、分享等環(huán)節(jié)的全生命周期管理,已經(jīng)成為數(shù)字經(jīng)濟時代的關(guān)鍵基礎(chǔ)設(shè)施.隨著各行各業(yè)數(shù)字化轉(zhuǎn)型的深入,企業(yè)或組織數(shù)據(jù)采集的規(guī)模越來越大,數(shù)據(jù)系統(tǒng)需要進一步降低存儲和計算成本,實現(xiàn)降本增效.面對開放環(huán)境,數(shù)據(jù)系統(tǒng)需要同時支持大規(guī)模關(guān)鍵業(yè)務(wù)處理和實時分析.數(shù)據(jù)分享能夠打破數(shù)據(jù)孤島,實現(xiàn)價值分享,數(shù)據(jù)系統(tǒng)需要從底層提供原生的隱私計算能力.為了快速發(fā)掘和充分利用數(shù)據(jù)價值,數(shù)據(jù)系統(tǒng)還需要為上層人工智能應(yīng)用提供全面支持.面對上述需求,亟需研究和推出數(shù)據(jù)系統(tǒng)的新技術(shù).
《華東師范大學(xué)學(xué)報(自然科學(xué)版)》2023 年第5 期推出的“數(shù)據(jù)系統(tǒng)”專輯,呈現(xiàn)了國內(nèi)外數(shù)據(jù)管理和分析系統(tǒng)的前沿研究成果,探討如何更好地利用新型硬件提升數(shù)據(jù)系統(tǒng)的存儲和計算能力、如何實現(xiàn)數(shù)據(jù)系統(tǒng)對多模態(tài)數(shù)據(jù)的有效存儲和管理等問題.本刊選登的工作還包括支持實時業(yè)務(wù)處理和實時數(shù)據(jù)分析的新型數(shù)據(jù)系統(tǒng)架構(gòu)、數(shù)據(jù)驅(qū)動的機器學(xué)習(xí)系統(tǒng)的構(gòu)建方法、數(shù)據(jù)分析的行業(yè)應(yīng)用案例等內(nèi)容.專輯采用邀稿和征稿相結(jié)合的方式組織稿件,所有稿件均通過了通信評審,最終確定錄用稿件16 篇,并將其分為數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)學(xué)習(xí)系統(tǒng)以及數(shù)據(jù)分析3個專欄.以下分別對3 個專欄做簡要介紹.
數(shù)據(jù)要素的高質(zhì)量供給離不開高性能、易擴展數(shù)據(jù)基礎(chǔ)設(shè)施的支撐.數(shù)據(jù)庫系統(tǒng)專欄共錄用5 篇論文.《基于持久化內(nèi)存和共享緩存架構(gòu)的高性能數(shù)據(jù)庫》探討了云原生場景下的高性能數(shù)據(jù)庫,設(shè)計并實現(xiàn)了基于持久化內(nèi)存和共享緩存架構(gòu)的數(shù)據(jù)庫系統(tǒng),解決了云原生數(shù)據(jù)庫持久化速度慢,緩存目錄高延遲以及時間戳性能瓶頸問題.《數(shù)據(jù)同步機制自適應(yīng)優(yōu)化的HTAP 數(shù)據(jù)庫原型系統(tǒng)》分析了HTAP 應(yīng)用對數(shù)據(jù)一致性的多樣化需求,構(gòu)建了新鮮度與性能權(quán)衡的代價模型,實現(xiàn)了一個順序一致性同步與線性一致性同步自適應(yīng)切換的HTAP 數(shù)據(jù)庫原型系統(tǒng).《面向存算分離架構(gòu)的混合粒度緩存策略》探討了基于存算分離架構(gòu)的分析型數(shù)據(jù)庫中的緩存機制,通過對象和塊構(gòu)成的混合緩沖區(qū)解決計算層和存儲層數(shù)據(jù)存取粒度不匹配的問題,進一步提升緩存利用率.《存算分離架構(gòu)下Part 元數(shù)據(jù)的單獨管理策略》分析了大型分析型數(shù)據(jù)庫中的Part 元數(shù)據(jù)管理問題,通過分布式鍵值數(shù)據(jù)庫高效管理大規(guī)模Part 元數(shù)據(jù),提升了存算分離架構(gòu)下大規(guī)模數(shù)據(jù)庫的彈性能力.《基于模糊測試生成多樣化的數(shù)據(jù)庫隔離級別測試案例》針對數(shù)據(jù)庫系統(tǒng)的隔離級別測試問題,設(shè)計結(jié)構(gòu)化的測試輸入結(jié)構(gòu),將測試空間拆分成并發(fā)事務(wù)組合和并發(fā)事務(wù)執(zhí)行交互模式兩個子空間進行搜索,能夠生成更加多樣化的案例,提升了隔離級別測試的覆蓋率.
通過機器學(xué)習(xí),企業(yè)可以快速挖掘數(shù)據(jù)的價值,提升自身的智能化水平.數(shù)據(jù)學(xué)習(xí)系統(tǒng)專欄共錄用6 篇論文.《FeaDB:基于內(nèi)存的多版本在線特征存儲》探討了數(shù)據(jù)驅(qū)動的人工智能應(yīng)用的特征管理環(huán)節(jié),聚焦低延遲特征檢索問題,開發(fā)了基于內(nèi)存的多版本在線特征存儲FeaDB,提升了特征集版本檢索效率.《支持隱私保護的端云協(xié)同訓(xùn)練》針對數(shù)據(jù)學(xué)習(xí)中的數(shù)據(jù)安全與隱私保護問題,利用端側(cè)設(shè)備和云側(cè)服務(wù)器的優(yōu)勢,設(shè)計了一個基于FederatedMachineLearning 與MobileNeuralNetwork 的端云協(xié)同訓(xùn)練方法FedMNN,并通過實驗驗證了端云協(xié)同訓(xùn)練的有效性.《基于openGauss 的異構(gòu)算子加速技術(shù)》探索如何使用GPU 加速openGauss 的OLAP 處理過程,實現(xiàn)了基于分塊讀取和按鍵分發(fā)的CPU-GPU 協(xié)同并行方案,兼容向量化引擎的異構(gòu)算子加速技術(shù),原型系統(tǒng)顯著減少了GPUScan算子的I/O 時間,提升了分析型查詢的性能.《基于UI 圖像的Web 前端代碼自動生成》針對現(xiàn)有代碼生成工作對于UI 圖像特征捕捉能力弱,生成代碼的準(zhǔn)確性較低的問題,提出了基于SwinTransformer的Encoder-Decoder 模型image2code,使得從UI 圖像生成Web 前端代碼具有更好的表現(xiàn).《異構(gòu)編碼聯(lián)邦學(xué)習(xí)》針對異構(gòu)聯(lián)邦學(xué)習(xí)中掉隊設(shè)備導(dǎo)致的訓(xùn)練低效問題,提出了異構(gòu)編碼聯(lián)邦學(xué)習(xí)系統(tǒng),提高了系統(tǒng)的訓(xùn)練效率,加快了多掉隊者場景下的異構(gòu)聯(lián)邦學(xué)習(xí)訓(xùn)練速度,并且提供一定級別的數(shù)據(jù)隱私保護.《基于并行深度森林的配用電通信網(wǎng)絡(luò)異常流量檢測》針對配用電通信網(wǎng)絡(luò)異常流量檢測效率低,檢測精度不足的問題,通過針對性的特征提取方法和分類算法考慮配用電網(wǎng)絡(luò)通信特點,顯著提升網(wǎng)絡(luò)異常流量檢測性能.
近年來人工智能和硬件技術(shù)的快速發(fā)展為各行各業(yè)的數(shù)據(jù)價值釋放帶來了新機會.數(shù)據(jù)分析專欄共錄用5 篇論文.《基于Autoformer 的電力負(fù)荷預(yù)測與分析研究》探討了智能電網(wǎng)中的電力負(fù)荷精準(zhǔn)預(yù)測問題,論文基于自相關(guān)機制的預(yù)測模型Autoformer,對負(fù)荷數(shù)據(jù)集進行了領(lǐng)域相關(guān)的特性分析,通過針對性優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練參數(shù)實現(xiàn)了周期靈活的負(fù)荷預(yù)測.《基于空間域和頻率域方法的煙霧檢測》針對工業(yè)應(yīng)用中煙霧檢測既要保證低誤檢率,同時也要盡可能降低漏檢率的問題,論文提出了一種新的煙霧檢測方法,分別在空間域和頻率域進行煙霧檢測,實現(xiàn)了誤檢率和漏檢率的良好平衡.《基于DataFabric 的多模數(shù)據(jù)管理方法》探討了政府和企業(yè)數(shù)字化演進過程中產(chǎn)生的多模數(shù)據(jù)管理面臨的挑戰(zhàn),分析了DataFabric 數(shù)據(jù)管理技術(shù)和方法針對該挑戰(zhàn)的解決方案,論文提出了基于時序指標(biāo)的多模多源數(shù)據(jù)的異常監(jiān)測方法,通過聯(lián)合使用DataFabric 的技術(shù)提升異常檢測性能.《新型電力系統(tǒng)中基于人工免疫和隱馬爾可夫的網(wǎng)絡(luò)安全態(tài)勢評估》首先分析了高級量測系統(tǒng)對網(wǎng)絡(luò)信息基礎(chǔ)設(shè)備的依賴.針對存在的網(wǎng)絡(luò)安全問題,論文提出了基于隱馬爾可夫模型結(jié)合人工免疫算法去評估高級量測系統(tǒng)的網(wǎng)絡(luò)安全態(tài)勢,能夠更加準(zhǔn)確地捕獲和發(fā)現(xiàn)系統(tǒng)中存在的安全缺陷.《基于殘差網(wǎng)絡(luò)和深度可分離卷積增強自注意力機制的竊電識別》在ResNet 殘差網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,將2D 卷積神經(jīng)網(wǎng)絡(luò)與DSCAttention 深度可分離卷積增強的自注意力機制相結(jié)合,用于促進竊電用戶的正確分類,與其他竊電分類模型相比,論文設(shè)計的模型具有更好的性能表現(xiàn).
本專輯的出版正值華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院成立七周年之時,也是學(xué)院前身“數(shù)據(jù)科學(xué)與工程研究院”成立10 周年紀(jì)念之日,謹(jǐn)以此專輯為數(shù)據(jù)科學(xué)與工程學(xué)院賀歲,并對長期關(guān)心與支持?jǐn)?shù)據(jù)科學(xué)與工程學(xué)院發(fā)展的各位同仁表示最衷心的感謝.最后在專輯出版之際,謹(jǐn)在此誠摯感謝提供優(yōu)質(zhì)稿件的各位作者和參與稿件評審的各位專家學(xué)者,特別感謝《華東師范大學(xué)學(xué)報(自然科學(xué)版)》編輯部各位老師的辛勤工作與大力支持.希望本專輯為數(shù)據(jù)系統(tǒng)新技術(shù)的研發(fā)提供一個窗口,助力數(shù)字基礎(chǔ)設(shè)施優(yōu)化升級,推進高質(zhì)量數(shù)據(jù)要素供給和產(chǎn)業(yè)數(shù)字化、智能化轉(zhuǎn)型.