王 妍,楊 鈞,孫凌峰,李玉諾,宋寶燕
(1.遼寧大學(xué) 信息學(xué)院,沈陽 110036; 2.榮科科技股份有限公司 智慧城市開發(fā)部,沈陽 110027)
基于隨機(jī)矩陣?yán)碚摰母呔S數(shù)據(jù)特征選擇方法
王 妍1,楊 鈞1,孫凌峰1,李玉諾2,宋寶燕1*
(1.遼寧大學(xué) 信息學(xué)院,沈陽 110036; 2.榮科科技股份有限公司 智慧城市開發(fā)部,沈陽 110027)
傳統(tǒng)特征選擇方法多是通過相關(guān)度量來去除冗余特征,并沒有考慮到高維相關(guān)矩陣中會(huì)存在大量的噪聲,嚴(yán)重地影響特征選擇結(jié)果。為解決此問題,提出基于隨機(jī)矩陣?yán)碚?RMT)的特征選擇方法。首先,將相關(guān)矩陣中符合隨機(jī)矩陣預(yù)測的奇異值去除,從而得到去噪后的相關(guān)矩陣和選擇特征的數(shù)量;然后,對(duì)去噪后的相關(guān)矩陣進(jìn)行奇異值分解,通過分解矩陣獲得特征與類的相關(guān)性;最后,根據(jù)特征與類的相關(guān)性和特征之間冗余性完成特征選擇。此外,還提出一種特征選擇優(yōu)化方法,通過依次將每一個(gè)特征設(shè)為隨機(jī)變量,比較其奇異值向量與原始奇異值向量的差異來進(jìn)一步優(yōu)化結(jié)果。分類實(shí)驗(yàn)結(jié)果表明所提方法能夠有效提高分類準(zhǔn)確率,減小訓(xùn)練數(shù)據(jù)規(guī)模。
隨機(jī)矩陣;特征選擇;去噪;奇異值;相關(guān)矩陣
隨著數(shù)據(jù)獲取技術(shù)的發(fā)展,高維數(shù)據(jù)廣泛應(yīng)用在智能電網(wǎng)[1]、圖像處理[2]、無線通信[3]等領(lǐng)域中。對(duì)于包含了大量冗余信息和噪聲的高維數(shù)據(jù),通常先采用特征提取和特征選擇[4]對(duì)其進(jìn)行降維。根據(jù)特征子集評(píng)估策略的不同,傳統(tǒng)的特征選擇可分為三類[5]:Filter模型、Wrapper模型和Embedded模型。Filter模型僅依賴數(shù)據(jù)的內(nèi)在特性來選擇特征,而不依賴任何具體的學(xué)習(xí)算法指導(dǎo)。Wrapper模型則需要一個(gè)預(yù)先設(shè)定的學(xué)習(xí)算法,根據(jù)特征子集在學(xué)習(xí)算法上的表示來確定特征子集。Embedded模型則是在學(xué)習(xí)算法的目標(biāo)分析過程中進(jìn)行變量選擇,將其作為訓(xùn)練過程的一部分。這三種模型都是通過相關(guān)性度量來選擇特征, 但是對(duì)于高維數(shù)據(jù),得到的相關(guān)矩陣中會(huì)存在大量噪聲。
隨機(jī)矩陣?yán)碚?Random Matrix Theory, RMT)[6]通過比較隨機(jī)的多維序列統(tǒng)計(jì)特性,可以體現(xiàn)出實(shí)際數(shù)據(jù)對(duì)隨機(jī)的偏離程度,并揭示實(shí)際數(shù)據(jù)中整體關(guān)聯(lián)的行為特征。韓華等[7]研究了相關(guān)矩陣和隨機(jī)矩陣特征值的統(tǒng)計(jì)性質(zhì)來去除相關(guān)矩陣中的噪聲。Plerou等[8]研究了相關(guān)矩陣的特征向量分布和相關(guān)矩陣的優(yōu)化。徐心怡等[9]利用隨機(jī)矩陣,提出了一種相關(guān)性分析方法,驗(yàn)證了RMT在處理復(fù)雜系統(tǒng)中的海量數(shù)據(jù)時(shí)具有優(yōu)越的性能。對(duì)于奇異值特征選擇,F(xiàn)reedman等[10]研究了奇異值分解在局部相似性的應(yīng)用。Varshavsky等[11]提出了基于奇異值分解的無監(jiān)督特征選擇方法,將奇異值作為識(shí)別特征,能夠通過較大的奇異值快速確定特征。Banerjee等[12]提出一種基于奇異值熵的特征選擇方法,但是可能無法丟棄具有恒定值的均勻無關(guān)的特征。然而以上這幾種基于奇異值分解的特征選擇方法并沒有考慮到噪聲奇異值對(duì)特征選擇的影響。
因此,本文提出一種基于RMT的高維數(shù)據(jù)特征選擇方法(Feature Selection method of high dimensional data based on RMT, RMFS),通過比較原始數(shù)據(jù)的相關(guān)矩陣和隨機(jī)數(shù)據(jù)的相關(guān)矩陣在奇異值上的差異,去除原始相關(guān)矩陣的噪聲,同時(shí)充分利用奇異值分解后的子矩陣來消除特征之間的冗余性,更好地實(shí)現(xiàn)特征選擇。本文又提出一種特征選擇優(yōu)化方法——RMFS-O(Optimization for RMFS),依次將每一個(gè)特征設(shè)為隨機(jī)變量,得到隨機(jī)特征矩陣,通過計(jì)算其與原始特征矩陣在奇異值上的差異,進(jìn)一步優(yōu)化特征選擇結(jié)果。最后UCI數(shù)據(jù)集上的分類實(shí)驗(yàn)在分類準(zhǔn)確率和特征選擇數(shù)量上表明了本文方法的高效性。
一個(gè)以隨機(jī)變量為元素的矩陣稱為隨機(jī)矩陣。當(dāng)隨機(jī)矩陣的行數(shù)和列數(shù)趨于無窮大,且行列比值保持恒定時(shí),隨機(jī)矩陣的經(jīng)驗(yàn)譜分布(Empirical Spectral Distribution,ESD)函數(shù)具有很多優(yōu)良的特性,如半圓律(Semi-Circle Law)、M-P 律(Marchenko- Pastur Law)、單環(huán)定理(Single Ring Theorem)等。雖然理論上當(dāng)矩陣維數(shù)趨近無窮能滿足隨機(jī)矩陣的收斂性,但是在規(guī)模比較適中的矩陣(維數(shù)從幾十到幾百)中,也能觀察到相當(dāng)精確的漸近收斂結(jié)果[13]。這也是RMT能被用于處理實(shí)際高維數(shù)據(jù)的前提。M表示隨機(jī)矩陣,根據(jù)RMT定義,則有:
M=EET/L
(1)
其中:E是一個(gè)N×L的隨機(jī)矩陣,其滿足均值是0、方差為1。M就是Whishart矩陣,該矩陣在數(shù)學(xué)上已經(jīng)有了詳細(xì)的研究。令Q=N/L,當(dāng)Q固定,L→∞,隨機(jī)矩陣M的特征值的概率密度P(λ)為:
(2)
(3)
(4)
其中:λmax和λmin分別是M的最大和最小特征值。RMT指出,通過相關(guān)矩陣C與隨機(jī)矩陣M的性質(zhì),把C分為兩個(gè)部分:一部分是符合隨機(jī)矩陣的部分(隨機(jī)噪聲),一部分是差異部分(真實(shí)信息),從而對(duì)相關(guān)矩陣進(jìn)行改進(jìn),去除相關(guān)矩陣中的噪聲。
在特征選擇中,相關(guān)性度量的方法有很多,如互信息(Mutual Information, MI)、對(duì)稱不確定性(Symmetric Uncertainty, SU)、信息增益(Information Gain, IG),本文采用互信息作為度量標(biāo)準(zhǔn)。設(shè)有原始N×L數(shù)據(jù)矩陣D,其中特征集合F={f1,f2, …,ft},類集合S={s1,s2,…,sk},通過式(5)構(gòu)建互信息矩陣M,當(dāng)k較小時(shí),無法很好地滿足隨機(jī)矩陣的特征,因此需要對(duì)M進(jìn)行增廣,復(fù)制m次, 即M=[M,m(M)],為了保持初始的行列比,這里m=(L-1)2/(N*k)-1。
(5)
為了保證一般性,對(duì)矩陣M按式(6)、(7)進(jìn)行規(guī)范化、中心化再標(biāo)準(zhǔn)化,得到矩陣Md。接著根據(jù)式(8)計(jì)算得到t×t的特征相關(guān)矩陣C。然后對(duì)C按式(9)進(jìn)行奇異值分解。
(6)
(7)
C=MdMdT
(8)
C=UΛV
(9)
Cnew=UΛnewV
(10)
然后再對(duì)Cnew進(jìn)行奇異值分解得到Unew和Vnew,Cnew中的每個(gè)元素Kij表示任意兩個(gè)特征對(duì)初始類的相關(guān)程度,Vnew中的每個(gè)元素Eij是每個(gè)特征對(duì)新類的相關(guān)程度。接下來對(duì)去噪后的相關(guān)矩陣進(jìn)行特征選擇,特征選擇的目標(biāo)是去除與類不相關(guān)的特征和相互冗余的特征。經(jīng)過去噪的結(jié)果可知,共保留了j-1個(gè)奇異值,因此在這里共選擇j-1個(gè)特征,因此可以根據(jù)式(11)計(jì)算每一個(gè)特征的重要度,其中F(i)表示第i個(gè)特征的重要度,得到集合F={f1,f2, …,fi},接著對(duì)F(i)進(jìn)行降序排序,選擇前j-1個(gè)重要度最大的特征,從而完成特征選擇。
(11)
基于RMT的特征選擇方法的步驟描述如算法1所示。
算法1 基于RMT的特征選擇方法。
輸入 數(shù)據(jù)D;
輸出 選擇出的n個(gè)特征。
1)根據(jù)式(5)計(jì)算互信息矩陣M;
2)根據(jù)式(6)、(7)將M進(jìn)行規(guī)范化;
3)生成和M形式一樣的隨機(jī)矩陣E;
4)根據(jù)式(8)計(jì)算M和E特征相關(guān)矩陣;
5)將M進(jìn)行奇異值分解,將符合隨機(jī)矩陣預(yù)測的奇異值置為0,同時(shí)獲取特征選擇的數(shù)量n;
6)根據(jù)式(10)還原相關(guān)矩陣;
7)對(duì)新的相關(guān)矩陣進(jìn)行奇異值分解,獲取分解矩陣V;
8)根據(jù)式(11)計(jì)算特征重要度并降序排序,選擇前n個(gè)特征值。
通過算法1,選出n個(gè)特征,現(xiàn)在可以通過隨機(jī)矩陣進(jìn)行進(jìn)一步優(yōu)化。通過將每一個(gè)特征設(shè)為隨機(jī)變量,計(jì)算隨機(jī)特征矩陣奇異值向量與原始特征矩陣奇異值向量的相關(guān)系數(shù),相關(guān)系數(shù)越大則說明該特征與隨機(jī)變量相關(guān)程度越高,因此保留相關(guān)系數(shù)較小的特征。具體做法為:假設(shè)現(xiàn)在有特征集合F={f1,f2, …,fn},k個(gè)類,首先進(jìn)行原始特征矩陣M的奇異值計(jì)算,先按式(5)計(jì)算得到互信息矩陣D,接著對(duì)D按式(6)~(9)進(jìn)行規(guī)范化、標(biāo)準(zhǔn)化、計(jì)算相關(guān)矩陣、奇異值分解,得到M的n個(gè)奇異值組成的奇異值向量e,用εk表示其中的每一個(gè)元素;然后進(jìn)行隨機(jī)特征矩陣的奇異值向量計(jì)算,依次將每一個(gè)特征設(shè)為隨機(jī)變量,得到n個(gè)隨機(jī)矩陣(M1,M2,…,Mn)。和計(jì)算原始特征矩陣的奇異值向量類似,計(jì)算出每一個(gè)隨機(jī)矩陣Mi(1≤i≤n)的奇異值向量ei,用εik表示其中的每一個(gè)元素。對(duì)于每一個(gè)奇異值向量ei,通過式(12)計(jì)算其與原始特征奇異值向量e的差di,對(duì)di取整,對(duì)di≠0的特征fi進(jìn)行保留,完成特征選擇優(yōu)化。
(12)
特征選擇優(yōu)化方法的步驟描述如算法2所示。
算法2 特征選擇優(yōu)化方法。
輸入 數(shù)據(jù)M;
輸出 選擇出的t個(gè)特征。
1)通過式(5)~(9)計(jì)算出M的奇異值向量e;
2)依次將M中的每一個(gè)特征用隨機(jī)變量代替,得到隨機(jī)特征矩陣Mi;
3)根據(jù)步驟1)計(jì)算Mi的奇異值向量ei;
4)通過式(12)計(jì)算e與ei的差di;
5)對(duì)di取整,將di≠0的特征保留。
為了說明本文提出的特征選擇方法的有效性,通過分類實(shí)驗(yàn)來驗(yàn)證。選取UCI機(jī)器學(xué)習(xí)知識(shí)庫上8個(gè)數(shù)據(jù)集和2個(gè)人臉數(shù)據(jù)集FERET、 Yale進(jìn)行實(shí)驗(yàn)。表1是對(duì)數(shù)據(jù)集的描述,數(shù)據(jù)集中的實(shí)例數(shù)從101到5 744,特征數(shù)從17到1 024,其中前7個(gè)數(shù)據(jù)集相對(duì)屬于高維數(shù)據(jù)集。
表1 實(shí)驗(yàn)中用到的數(shù)據(jù)集Tab. 1 Datasets used in the experiments
實(shí)驗(yàn)在64位Windows 7系統(tǒng)、8 GB內(nèi)存、主頻2.93 GHz的Core i7- 870的PC上運(yùn)行,采用python3.6、scikit-learn工具包。使用經(jīng)典的MDL(Multi-Interval Discretization for classification Learning)[14]方法對(duì)數(shù)據(jù)進(jìn)行離散化,采用1-NN、CART(Classification and Regression Tree)、Naive Bayse三種分類器,選擇FCBF(Fast Correlation-Based Filter solution)[15]、mRMR(max-Relevance and Min-Redundancy)[16]、IG(Information Gain)[17]、CFS(Correlation-based Feature Selection)[18]、sSR(supervised Simple Ranking)[12]這5種選擇方法與本文所提出的特征選擇方法RMFS、RMFS-O進(jìn)行對(duì)比。在給定的數(shù)據(jù)集上進(jìn)行10折交叉驗(yàn)證,各個(gè)算法在1-NN、CART、Naive Bayes三種分類器上的準(zhǔn)確率分別如表2~4所示,其相應(yīng)的選擇特征數(shù)如表5所示。表中,W/T/L表示在10個(gè)數(shù)據(jù)集上,本文所提的兩個(gè)方法的綜合性能高于/持平/弱于該特征選擇方法的個(gè)數(shù)。同時(shí)在每一個(gè)數(shù)據(jù)集上較高的準(zhǔn)確率以粗體表示。
表2 1-NN分類器上的準(zhǔn)確率Tab. 2 Classification accuracy with 1-NN classifier
表3 CART分類器上的準(zhǔn)確率Tab. 3 Classification accuracy with CART classifier
由表2~4可以看出,本文所提的特征選擇方法在三個(gè)分類器上整體勝率是66.67%,在平均準(zhǔn)確率上的勝率是100%。
由圖1可知,在前7個(gè)高維數(shù)據(jù)集上,本文提出的RMFS和RMFS-O在平均準(zhǔn)確率上相比FCBF、mRMR、IG、CFS、sSR分別提高為:12.30%,16.33%;13.77%,17.86%;19.90%,24.22%;19.70%,24.00%;15.49%,11.92%。
由圖2可知,在特征選擇的數(shù)量上,本文提出的方法也明顯優(yōu)于對(duì)比方法,RMFS和RMFS-O相比對(duì)比方法分別提高為:60.99%,70.00%;61.55%,70.44%;60.89%,69.93%;57.12%,67.03%;48.83%,58.41%。因此,本文方法既減少了數(shù)據(jù)規(guī)模,又保證了分類的正確率。
表4 Naive Bayes分類器上的準(zhǔn)確率Tab. 4 Classification accuracy with Naive Bayse classifier
表5 不同方法的選擇特征數(shù)Tab. 5 Selection feature number of different methods
圖1 前七個(gè)數(shù)據(jù)集相對(duì)準(zhǔn)確率Fig. 1 Relative accuracy of the first seven datasets
圖2 相對(duì)減少的數(shù)據(jù)規(guī)模Fig. 2 Relative reduction of data size
然而由圖4可知,在后3個(gè)相對(duì)低維數(shù)據(jù)集上,RMFS和RMFS-O并沒有取得很好的效果,在平均準(zhǔn)確率上相比對(duì)比方法分別降低為:2.76%,2.25%;2.55%,2.04%;1.29%,0.77%;0.27%,-0.25%;0.52%,-0.18%。這是因?yàn)閿?shù)據(jù)維數(shù)較低,不能很好地滿足RMT所要求的大于數(shù)百維。
圖3 前七個(gè)數(shù)據(jù)集特征與類的比對(duì)特征選擇的影響Fig. 3 Influence of ratio of feature to class on feature selection of the first seven datasets
圖4 后三個(gè)數(shù)據(jù)集相對(duì)準(zhǔn)確率Fig. 4 Relative accuracy of the last three datasets
本文提出一種基于RMT的特征選擇方法,考慮到高維相關(guān)矩陣中會(huì)存在大量噪聲,其通過隨機(jī)矩陣來預(yù)測相關(guān)矩陣中噪聲奇異值并進(jìn)行去除,同時(shí)直接得到特征選擇的數(shù)量,通過特征與類的相關(guān)性和特征之間的冗余性完成特征選擇。本文又提出一種特征選擇優(yōu)化方法,通過依次將每一個(gè)特征設(shè)為隨機(jī)變量從而進(jìn)一步進(jìn)行縮小訓(xùn)練矩陣規(guī)模。分類實(shí)驗(yàn)結(jié)果表明,所提方法能夠顯著改善高維相關(guān)矩陣,快速定位特征選擇的數(shù)量,提高分類精度。本文方法需要的數(shù)據(jù)維度較高(一般大于數(shù)百維),在幾十維以下的低維數(shù)據(jù)上表現(xiàn)不佳,這將是接下來的研究方向。
References)
[1] 嚴(yán)英杰,盛戈皞,王輝,等.基于高維隨機(jī)矩陣大數(shù)據(jù)分析模型的輸變電設(shè)備關(guān)鍵性能評(píng)估方法[J].中國電機(jī)工程學(xué)報(bào),2016,36(2):435-445.(YAN Y J, SHENG G H, WANG H, et al. The key state assessment method of power transmission equipment using big data analyzing model based on large dimensional random matrix [J]. Proceedings of the CSEE, 2016, 36(2): 435-445.)
[2] SINGH D A A G, BALAMURUGAN S A A, LEAVLINE E J. A novel feature selection method for image classification [J]. Optoelectronics and Advanced Materials — Rapid Communications, 2015, 9(11/12): 1362-1368.
[3] JIN X, WANG J T, ZENG P. End-to-end delay analysis for mixed-criticality wireless HART networks [J]. IEEE/CAA Journal of Automatica Sinica, 2015, 2(3): 282-289.
[4] BENNASAR M, HICKS Y, SETCHI R. Feature selection using joint mutual information maximisation [J]. Expert Systems with Applications, 2015, 42(22): 8520-8532.
[5] ZHAO Z, MORSTATTER F, SHARMA S, et al. Advancing feature selection research [EB/OL].[2017- 04- 10]. http://eprints.kku.edu.sa/65/1/ZhaoEtAl.pdf.
[6] JOHANSSON K. Shape fluctuations and random matrices [J]. Communications in Mathematical Physics, 2000, 209(2): 437-476.
[7] 韓華,吳翎燕,宋寧寧.基于隨機(jī)矩陣的金融網(wǎng)絡(luò)模型[J].物理學(xué)報(bào),2014,63(13):431-440.(HAN H, WU L Y, SONG N N. Financial networks model based on random matrix [J]. Acta Physica Sinica, 2014, 63(13): 431-440.)
[8] PLEROU V, GOPIKRISHNAN P, ROSENOW B, et al. Random matrix approach to cross correlations in financial data [J]. Physical Review E, Statistical, Nonlinear, and Soft Matter Physics, 2002, 65(6 Pt 2): 066126.
[9] 徐心怡,賀興,艾芊,等.基于隨機(jī)矩陣?yán)碚摰呐潆娋W(wǎng)運(yùn)行狀態(tài)相關(guān)性分析方法[J].電網(wǎng)技術(shù),2016,40(3):781-790.(XU X Y, HE X, AI Q, et al. A correlation analysis method for operation status of distribution network based on random matrix theory [J]. Power System Technology, 2016, 40(3): 781-790.)
[10] FREEDMAN G, FATTAL R. Image and video upscaling from local self-examples [J]. ACM Transactions on Graphics, 2011, 30(2): Article No. 12.
[11] VARSHAVSKY R, GOTTLIEB A, LINIAL M, et al. Novel unsupervised feature filtering of biological data [J]. Bioinformatics, 2006, 22(14): e507-e513.
[12] BANERJEE M, PAL N R. Feature selection with SVD entropy: some modification and extension [J]. Information Sciences, 2014, 264: 118-134.
[13] QIU R C, ANTONIK P. Smart Grid and Big Data: Theory and Practice [M]. Hoboken, NJ: Wiley Publishing, 2015: 48-51.
[14] FAYYAD U M, IRANI K B. Multi-interval discretization of continuous-valued attributes for classification learning [C]// Proceedings of the 1993 13th International Joint Conference on Artificial Intelligence. San Francisco, CA: Morgan Kaufmann, 1993: 1022-1027.
[15] YU L, LIU H. Feature selection for high-dimensional data: a fast correlation-based filter solution [C]// ICML’03: Proceedings of the Twentieth International Conference on Machine Learning. Menlo Park: AAAI, 2003: 856-863.
[16] PENG H C, LONG F H, DING C. Feature selection based on mutual information criteria of max-dependency, max-relevance, and min-redundancy [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(8): 1226-1238.
[17] YANG Y M, PEDERSEN J O. A comparative study on feature selection in text categorization [C]// Proceedings of the 14th International Conference on Machine Learning. San Francisco, CA: Morgan Kaufmann, 1997, 97: 412-420.
[18] HALL M A. Correlation-based feature selection for discrete and numeric class machine learning [C]// Proceedings of the 17th International Conference on Machine Learning. San Francisco, CA: Morgan Kaufmann, 2000: 359-366.
This work is partially supported by the National Natural Science Foundation of China (61472169, 61472072, 61528202, 61501105), the Special Prophase Project on the National Basic Research Program (973) of China (2014CB360509), the Science Research Normal Fund of Liaoning Province Education Department (L2015204).
WANGYan, born in 1978, Ph. D., associate professor. Her research interests include database, cognitive data processing, Internet of things.
YANGJun, born in 1992, M. S. candidate. His research interests include machine learning, data minning.
SUNLingfeng, born in 1993, M. S. candidate. His research interests include big data processing.
LIYunuo, born in 1978, M. S. His research interests include big data processing, smart city.
SONGBaoyan, born in 1965, Ph. D., professor. Her research interests include database theory, big data processing.
Featureselectionmethodofhigh-dimensionaldatabasedonrandommatrixtheory
WANG Yan1, YANG Jun1, SUN Lingfeng1, LI Yunuo2, SONG Baoyan1*
(1.CollegeofInformation,LiaoningUniversity,ShenyangLiaoning110036,China;2.SmartCityDevelopmentDepartment,BringSpringScience&TechnologyLimitedCompany,ShenyangLiaoning110027,China)
The traditional feature selection methods always remove redundant features by using correlation measures, and it is not considered that there is a large amount of noise in a high-dimensional correlation matrix, which seriously affects the feature selection result. In order to solve the problem, a feature selection method based on Random Matrix Theory (RMT) was proposed. Firstly, the singular values of a correlation matrix which met the random matrix prediction were removed, thereby the denoised correlation matrix and the number of selected features were obtained. Then, the singular value decomposition was performed on the denoised correlation matrix, and the correlation between feature and class was obtained by decomposed matrix. Finally, the feature selection was accomplished according to the correlation between feature and class and the redundancy between features. In addition, a feature selection optimization method was proposed, which furtherly optimize the result by comparing the difference between singular value vector and original singular value vector and setting each feature as a random variable in turn. The classification experimental results show that the proposed method can effectively improve the classification accuracy and reduce the training data scale.
random matrix; feature selection; denoising; singular value; correlation matrix
2017- 05- 04;
2017- 06- 26。
國家自然科學(xué)基金資助項(xiàng)目(61472169,61472072,61528202,61501105);國家973計(jì)劃前期研究專項(xiàng)(2014CB360509);遼寧省教育廳科學(xué)研究一般項(xiàng)目(L2015204)。
王妍(1978—),女,遼寧撫順人,副教授,博士,CCF會(huì)員,主要研究方向:數(shù)據(jù)庫、感知數(shù)據(jù)處理、物聯(lián)網(wǎng); 楊鈞(1992—),男,安徽合肥人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘; 孫凌峰(1993—),男,山東濰坊人,碩士研究生,主要研究方向:大數(shù)據(jù)處理;李玉諾(1978—),男,遼寧莊河人,碩士,主要研究方向:大數(shù)據(jù)處理、智慧城市; 宋寶燕(1965—),女,遼寧鐵嶺人,教授,博士,CCF會(huì)員,主要研究方向:數(shù)據(jù)庫理論、大數(shù)據(jù)處理。
1001- 9081(2017)12- 3467- 05
10.11772/j.issn.1001- 9081.2017.12.3467
(*通信作者電子郵箱bysong@lnu.edu.cn)
TP391.1
A