袁琰星+郭獻洲
摘 要: 為了提高教育多媒體數(shù)據(jù)庫的訪問能力和信息檢索能力,需要進行數(shù)據(jù)的分類高效存儲技術設計,提出一種語義指向性C均值數(shù)據(jù)聚類的海量教育多媒體數(shù)據(jù)分類高效存儲技術。首先進行教育媒體數(shù)據(jù)庫的數(shù)據(jù)存儲結構分析,計算數(shù)據(jù)存儲的聚類中心和屬性類別集分類控制閾值;然后采用語義指向性特征提取方法作為數(shù)據(jù)存儲的信息素導引,對提取的語義指向性特征通過C均值聚類進行優(yōu)化分類存儲;最后進行仿真實驗分析。結果表明,采用該方法進行海量教育多媒體數(shù)據(jù)的分類存儲,能提高數(shù)據(jù)庫的吞吐量,數(shù)據(jù)檢索的召回率等指標。
關鍵詞: 海量數(shù)據(jù); 教育多媒體數(shù)據(jù)庫; 分類存儲; 數(shù)據(jù)檢索
中圖分類號: TN911?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2017)08?0042?04
Research on efficient classification and storage technology of mass data
in educational multimedia
YUAN Yanxing1, GUO Xianzhou2
(1. Guangdong Polytechnic of Water Resources and Electric Engineering, Guangzhou 510925, China;
2. Hebei University of Technology, Tianjin 300401, China)
Abstract: In order to improve the addressing and information retrieval abilities of education multimedia database, it is necessary to develop the efficient data classification storage technology. An education multimedia mass data classification storage technology of the semantic directivity mean value C data clustering is proposed. The data storage structure of the educational media database is analyzed. The cluster center of data storage and classification control threshold of attributes category set are calculated. The semantic directivity feature extraction method is adopted as the pheromone guidance of the data storage to conduct optimization classification storage of the extracted semantic directivity characteristics in combination with mean value C clustering. The simulation analysis results show that the method for the classification storage of education multimedia mass data can improve the throughput of the database, and the recall rate of data retrieval.
Keywords: massive data; education multimedia database; classification storage; data retrieval
0 引 言
隨著教育多媒體數(shù)據(jù)存儲技術的發(fā)展,大量的多媒體教育數(shù)據(jù)通過教育信息管理系統(tǒng)的數(shù)據(jù)庫進行分布式存儲和傳輸,教師和學生在進行信息檢索對只需要通過相關的指令進行多媒體教育資源的調(diào)度和查詢,方便教學應用[1]。海量教育多媒體數(shù)據(jù)主要包括了多媒體課件、圖片、教學音視頻等信息,需要對海量教育多媒體數(shù)據(jù)進行分類高效存儲設計,提高教育多媒體數(shù)據(jù)的管理和調(diào)度能力,傳統(tǒng)方法中對數(shù)據(jù)庫海量教育多媒體數(shù)據(jù)的挖掘是建立在多媒體數(shù)據(jù)庫的信息檢索統(tǒng)計特征提取的基礎上[2?3],通過語義和關鍵詞的訪問和檢索進行信息索引和標注,方法可靠簡單,但是效率不高,對教育多媒體數(shù)據(jù)有效存儲的層次性建模性能不好[4]。對此,本文提出一種語義指向性C均值數(shù)據(jù)聚類的海量教育多媒體數(shù)據(jù)分類高效存儲技術,進行數(shù)據(jù)庫存儲的優(yōu)化設計,得出有效性結論。
1 教育多媒體數(shù)據(jù)庫的數(shù)據(jù)存儲結構分析
1.1 教育多媒體數(shù)據(jù)的量化特征編碼
為了實現(xiàn)對海量教育多媒體數(shù)據(jù)的優(yōu)化分類存儲設計,需要進行教育多媒體數(shù)據(jù)庫的數(shù)據(jù)存儲結構分析,采用網(wǎng)格拓撲結構進行數(shù)據(jù)庫的分布式存儲網(wǎng)格設計[5]。海量教育多媒體數(shù)據(jù)的數(shù)據(jù)存儲的分布式結構主要分為水平結構、垂直結構、左對角線結構、右對角線結構等,如圖1所示。
根據(jù)圖1所示的教育多媒體數(shù)據(jù)庫的數(shù)據(jù)存儲結構,設置4個檢索通道進行海量教育多媒體數(shù)據(jù)的訪問設計,圖中,,和分別表示待檢索教育多媒體數(shù)據(jù)的鄰域內(nèi)的碼矢,采用語義自相關函數(shù)分析方法進行教育多媒體數(shù)據(jù)的近鄰點模糊聚類中心計算,構建多媒體數(shù)據(jù)的向量量化特征編碼模型[6],把當作聚類中心的優(yōu)化索引值,初始化多媒體數(shù)據(jù)庫中教育數(shù)據(jù)的梯度信息檢索水平集函數(shù),通過海量教育多媒體數(shù)據(jù)準確挖掘和檢測,實現(xiàn)對數(shù)據(jù)庫的有效訪問。在進行4個檢索通道的語義信息素提取中,提取海量教育多媒體數(shù)據(jù)特征分布梯度圖,得到數(shù)據(jù)庫的分布式調(diào)度輸入向量值分別為,,和,表示為:
(1) 式中,為初始化的聚類中心嵌入維數(shù),數(shù)據(jù)庫存儲分布空間特征分布區(qū)域和,采用海量教育多媒體數(shù)據(jù)的特征序列訓練重構方法進行向量量化編碼,設置初始化碼書{,};設置多媒體數(shù)據(jù)分布的權重響應為;多媒體數(shù)據(jù)的向量量化編碼的初始值為。令為訓練序列,教育多媒體數(shù)據(jù)庫存儲通道的頻率計數(shù)初始值設定為。
對輸入的教育多媒體數(shù)據(jù)進行穩(wěn)態(tài)周期性分解控制,得到訓練向量模式為;計算教育多媒體數(shù)據(jù)的時域向量與全部分類存儲節(jié)點所連權向量的距離為:
(2)
式中,,最后得到教育多媒體數(shù)據(jù)的量化特征編碼輸出為:
(3)
式中,在聚類中心初始值確定的情況下,通過教育多媒體數(shù)據(jù)的量化特征編碼,提高分類存儲的效率。
1.2 數(shù)據(jù)存儲的聚類中心計算
在上述進行了教育多媒體數(shù)據(jù)的量化特征編碼的基礎上,進行教育多媒體數(shù)據(jù)優(yōu)化分類存儲的聚類中心計算,設教育多媒體數(shù)據(jù)庫中的海量數(shù)據(jù)的采樣幅度為,計算輸入教育多媒體數(shù)據(jù)庫中的訓練向量碼書冗余信息為,采用高斯隨機模型表示數(shù)據(jù)中的統(tǒng)計特征,存儲節(jié)點分布的最小距離的節(jié)點為,海量教育多媒體數(shù)據(jù)時間序列為, ,根據(jù)Takens嵌入定理[7],得到數(shù)據(jù)優(yōu)化分類存儲的最小嵌入維數(shù)為;在給定的海量教育多媒體數(shù)據(jù)分布的權重指數(shù)下,的屬性值為。構建教育多媒體數(shù)據(jù)庫的初始級碼元,,計算教育多媒體數(shù)據(jù)的干擾信息參量估計值,,得到教育多媒體數(shù)據(jù)的最佳碼書為:
(4)
式中:是第n條數(shù)據(jù)存儲通道上的區(qū)域分布特征;為第n條數(shù)據(jù)存儲路徑擴展時延,由此得到數(shù)據(jù)存儲的聚類的區(qū)域分布函數(shù)為:
(5)
數(shù)據(jù)集合中含有個樣本,計算輸入存儲節(jié)點的量化編碼統(tǒng)計平均失真為:
(6)
現(xiàn)在把教育多媒體數(shù)據(jù)的語義信息集合分為c類,其中1 (7) 式中,為教育多媒體數(shù)據(jù)的模糊聚類中心的第個語義特征指向性分布矢量。 2 數(shù)據(jù)的分類高效存儲改進實現(xiàn) 2.1 數(shù)據(jù)屬性類別集分類控制閾值計算 本文提出一種語義指向性C均值數(shù)據(jù)聚類的海量教育多媒體數(shù)據(jù)分類高效存儲技術。在此需要進行海量教育多媒體數(shù)據(jù)的屬性類別集分類控制閾值計算,假設海量教育多媒體數(shù)據(jù)檢索區(qū)域中文本信息的特征分布序列為,,對教育多媒體數(shù)據(jù)的量化編碼信息進行區(qū)域分塊設計,采用模板匹配方法進行存儲信息窗口加權控制[8]如下: (8) 在上述進行數(shù)據(jù)庫存儲分布的加權控制中,在橫向和豎向兩個梯度方向?qū)逃嗝襟w數(shù)據(jù)的聚類編碼樣本進行自組織神經(jīng)網(wǎng)絡訓練,得到數(shù)據(jù)屬性類別集分類控制閾值的計算結果為: (9) 式中,q,p分別是教育多媒體數(shù)據(jù)庫中的編碼數(shù)據(jù)的向量量化的梯度特征差異性語義信息素特征,采用自適應聚類編碼加權,通過屬性類別集分類控制閾值進行數(shù)據(jù)分配的有效性判斷。 2.2 語義指向性特征提取 確定海量教育數(shù)據(jù)優(yōu)化分類存儲的特征窗口大小N,進行語義指向性特征提取,得到輸出的加權向量為: (10) 采用一個1×N的窗口來遍歷被檢索教育多媒體數(shù)據(jù)的視頻和圖像等多媒體數(shù)據(jù)信息集合,進行多屬性類別集分類控制閾值判決,得到屬性類別集分類的語義特征聚類中心,即: (11) 式中,表示中分類存儲的訓練樣本長度,用歐氏距離表示。 通過對教育多媒體數(shù)據(jù)中的有用文本進行語義指向性特征提取,各自判決的文本的信息素TLX,TLY,文本信息素的語義特征提取的判決式為: (12) 設海量教育多媒體數(shù)據(jù)集中語義相關信息特征總數(shù)為X,在最小窗口下語義指向性聚焦的沖激響應函數(shù)為,向量量化的梯度差異性分布的最小距離為: (13) 建立Markov模型,提取教育多媒體數(shù)據(jù)庫海量教育多媒體數(shù)據(jù)序列的高階譜特征進行信息融合,設教育多媒體數(shù)據(jù)所屬類別的對象集合為第個存儲節(jié)點處的概念格,數(shù)據(jù)存儲節(jié)點的傳遞路徑有P條,由此得到輸出的語義指向性特征輸出為: (14) (15) 式中:為海量教育多媒體數(shù)據(jù)的信息索引的邊界溢出估計值;為概念格結點的信息融合中心加權系數(shù);為多媒體數(shù)據(jù)非線性時間序列的時頻特征;為自相關函數(shù)。 2.3 基于模糊C均值聚類的數(shù)據(jù)優(yōu)化分類存儲 最后采用模糊C均值聚類對提取的語義特征進行指向性聚類分析,實現(xiàn)數(shù)據(jù)的優(yōu)化分類存儲,設和為數(shù)據(jù)的語義特征判別屬性集合,海量教育多媒體數(shù)據(jù)的模糊C均值聚類空間矩陣為: 3 仿真實驗分析 實驗中采用C++和Matlab 7混合編程實現(xiàn)教育多媒體數(shù)據(jù)庫海量數(shù)據(jù)的優(yōu)化分類存儲設計,對數(shù)據(jù)時間序列進行特征訓練,訓練集頻帶為5~120 kHz,數(shù)據(jù)庫存儲帶寬變化范圍為1~10 dB,對教育多媒體數(shù)據(jù)訪問的初始頻率 Hz,終止頻率Hz,在數(shù)據(jù)存儲空間中的信息干擾強度為,最大分類搜索半徑,數(shù)據(jù)存儲空間的嵌入維數(shù),語義特征提取的指向性聚類中心初始值為,最大迭代次數(shù)為,模糊C均值聚類的屬性類別判別閾值,根據(jù)上述仿真參量設計,采用不同方法進行數(shù)據(jù)分類存儲分析,得到數(shù)據(jù)庫的吞吐量和進行教育多媒體數(shù)據(jù)庫訪問的數(shù)據(jù)召回率對比結果如圖2和圖3所示。 分析上述仿真結果得知,采用本文方法進行海量教育多媒體數(shù)據(jù)的分類存儲,具有較高的數(shù)據(jù)吞吐性能和數(shù)據(jù)召回率,說明數(shù)據(jù)存儲和訪問的效率得到提升,具有優(yōu)越性。 4 結 語 本文研究了海量教育多媒體數(shù)據(jù)的優(yōu)化存儲設計問題,提出一種語義指向性C均值數(shù)據(jù)聚類的海量教育多媒體數(shù)據(jù)分類高效存儲技術。研究結果表明,采用該方法進行海量教育多媒體數(shù)據(jù)的分類存儲,能提高數(shù)據(jù)庫的吞吐量,數(shù)據(jù)檢索的召回率等指標,具有較高的應用價值,性能優(yōu)于傳統(tǒng)方法。 參考文獻 [1] 官亞勤,趙學勝,王鵬飛,等.基于切片原理的海量點云并行簡化算法[J].計算機應用,2016,36(7):1793?1796. [2] 周煜,張萬兵,杜發(fā)榮,等.散亂點云數(shù)據(jù)的曲率精簡算法[J].北京理工大學學報,2010,30(7):785?789. [3] 胡志勝,于敬武,束濤.一種結合了柵格化和特征判斷的點云壓縮方法[J].遼寧工程技術大學學報(自然科學版),2015,34(8):958?962. [4] 章登義,吳文李,歐陽黜霏.基于語義度量的RDF圖近似查詢[J].電子學報,2015,43(7):1320?1328. [5] AMERIJCKX Christophe, VERLEYSEN Michel, THISSEN Philippe. Image compression by self?organized Kohonen maps [J]. IEEE transactions on neural networks, 1998, 9(5): 1287?1292. [6] 高志春,陳冠瑋,胡光波,等.傾斜因子K均值優(yōu)化數(shù)據(jù)聚類及故障診斷研究[J].計算機與數(shù)字工程,2014,42(1):14?18. [7] MASSA J S, WALLACE A M, BULLER G S, et al. Laser depth measurement based ontime?correlated single?photon counting [J]. Optics letters, 1997, 22(8): 543?545. [8] DANESHPANAH M, JAVIDI B, WATSON E A. Three dimensional object recognition with photon counting imagery in the presence of noise [J]. Optics Express, 2010, 18(25):26450?26460.