陳 國 良
深圳大學大數(shù)據(jù)系統(tǒng)計算技術國家工程實驗室,廣東深圳 518060
2013年被稱為“大數(shù)據(jù)元年”.經(jīng)過近5年的飛速發(fā)展,大數(shù)據(jù)已經(jīng)成為大眾最為關注的一門新技術,大數(shù)據(jù)的應用預示著信息時代進入了一個新階段.目前,大數(shù)據(jù)應用已經(jīng)滲透到人類社會的各個角落,高效的大數(shù)據(jù)分析和運用,將會對未來中國經(jīng)濟發(fā)展、社會治理、國家管理、人民生活產(chǎn)生積極重大的影響.我以“big data”和“大數(shù)據(jù)”為關鍵詞,對2013年至今發(fā)表在Web of Science(WOS)和中國知網(wǎng)CNKI平臺(計算機軟件及計算機應用領域內(nèi)的期刊論文)上的文獻進行了檢索(超16 000篇文獻),并通過對其中WOS的約100篇高被引和熱點論文以及CNKI中下載量超過10 000次的學術論文進行分析,總結(jié)歸納發(fā)現(xiàn),大數(shù)據(jù)的研究主要經(jīng)歷了以下3個關鍵時期.
◆概念探索期(2013年):在此時期,人們試圖尋找一個合理的、精確的、能夠被學術界和工業(yè)界一致認可的大數(shù)據(jù)定義.遺憾的是,到目前為止尚沒有一個被普遍認可的大數(shù)據(jù)定義出現(xiàn).業(yè)界人員轉(zhuǎn)而從大數(shù)據(jù)的特征來對大數(shù)據(jù)進行定義,比較有代表性的是大數(shù)據(jù)的“4V”、“4V+1O”、“4V+1C”和“4V+1U”等特征.其中,4V是指數(shù)量巨大volume、類型繁多variety、增長速度快velocity、蘊含價值大value;1O是指online,即大數(shù)據(jù)永遠在線;1C是指complexity,即大數(shù)據(jù)的處理和分析難度異常大;1U是指usability,即大數(shù)據(jù)的可用性.
◆數(shù)據(jù)管理期(2014—2015年):在這個時期,隨著互聯(lián)網(wǎng)行業(yè)的快速發(fā)展和智能硬件產(chǎn)品的迅速普及,各行業(yè)的數(shù)據(jù)量呈現(xiàn)激增態(tài)勢(例如,騰訊發(fā)布的《2015年微信用戶數(shù)據(jù)報告》顯示,2015年9月微信的日均登陸用戶達5.7億,日活躍用戶同比增長64%),大數(shù)據(jù)的研究開始轉(zhuǎn)移到對大數(shù)據(jù)本身的存儲和管理上.目前典型的大數(shù)據(jù)存儲技術路線有3種:采用MPP架構的新型數(shù)據(jù)庫集群、基于Hadoop技術擴展和封裝以及大數(shù)據(jù)一體機.前兩種技術都是分布式存儲,第3種是集中式存儲.
◆數(shù)據(jù)分析計算期(2016年—):以AlphaGo和AlphaGo Zero的巨大成功為分界點,開啟了大數(shù)據(jù)分析的新階段.先前的研究更多地關注大數(shù)據(jù)表象的處理,而在這個階段更注重對大數(shù)據(jù)本身蘊含價值的挖掘.“面向大數(shù)據(jù)分析的在線機器學習”、“大數(shù)據(jù)的新型計算技術”、“大數(shù)據(jù)驅(qū)動知識學習”、“大數(shù)據(jù)智能”等重點任務和重大工程的研發(fā)和啟動,標志著在未來一段時期內(nèi),新一代大數(shù)據(jù)分析和計算技術將得到極大重視和發(fā)展.
在此,本專題重點關注大數(shù)據(jù)研究的第3個時期,即大數(shù)據(jù)分析計算期.在此期間,經(jīng)過學術界和產(chǎn)業(yè)界科研工作者堅持不懈的努力鉆研,人們在大數(shù)據(jù)的系統(tǒng)計算、統(tǒng)計分析、有監(jiān)督學習、無監(jiān)督學習以及半監(jiān)督學習等方面取得了大量具有開拓意義的研究成果.本期“大數(shù)據(jù)聚類專題”正是對大數(shù)據(jù)無監(jiān)督學習最新科研成果的一次集中展示,刊登了5篇各具特色的優(yōu)秀論文,希望對國內(nèi)大數(shù)據(jù)聚類的研究有所啟示和幫助.
第1篇是題為《大規(guī)模數(shù)據(jù)集聚類算法的研究進展》的綜述文章.該文以大數(shù)據(jù)的可計算性為切入點,對目前串行和并行環(huán)境下專門用于處理大數(shù)據(jù)的聚類算法進行了綜述和分析,并給出未來關于大數(shù)據(jù)聚類算法設計思路與應用前景的思考和討論,拋磚引玉,期待更多的國內(nèi)優(yōu)秀學者參與其中的研究.
第2篇論文的題目為《基于二部圖的快速聚類算法》.該文提出了一種基于二部圖的快速聚類算法(fast clustering based on bipartite graph, FCBG),通過對二部圖對應的拉普拉斯矩陣施加秩約束,F(xiàn)CBG算法可在優(yōu)化二部圖的邊的權重的同時,保持二部圖的類簇結(jié)構,在不依賴構圖時每條邊初始權重分配的情況下,最終直接給出聚類結(jié)果.實驗結(jié)果表明,F(xiàn)CBG算法可有效學習二部圖的權重,并在較小的時間消耗下獲得高質(zhì)量的聚類結(jié)果.
第3篇論文的題目為《基于分層抽樣的不均衡數(shù)據(jù)集成分類》.該文提出了一種基于分層抽樣的不均衡數(shù)據(jù)集成分類方法(stratified sampling-based ensemble classification method for imbalanced data,簡稱EC-SS).該方法通過自調(diào)節(jié)譜聚類挖掘多數(shù)類樣本結(jié)構信息,之后基于分層抽樣方法構建集成學習數(shù)據(jù)樣本集,確保單個學習器的輸入數(shù)據(jù)均衡且保留原始數(shù)據(jù)的結(jié)構信息,從而提升后續(xù)集成分類性能.實驗結(jié)果表明,所提出的EC-SS方法全部有效地提升了不平衡分類的效果.
第4篇論文的題目為《面向分類型矩陣數(shù)據(jù)的無監(jiān)督孤立點檢測算法》.該文通過給出一種矩陣對象自身的內(nèi)聚度和該矩陣對象與其他矩陣對象之間的耦合度來定義矩陣對象的孤立因子,進而提出了一種面向分類型矩陣數(shù)據(jù)的孤立點檢測算法(outlier detection algorithm for matrix-object data, ODAMD).通過在真實數(shù)據(jù)集上與基于共同近鄰孤立因子算法、局部異常因子算法和基于信息熵算法的對比分析結(jié)果顯示,提出的ODAMD算法能夠更有效地檢測出分類型矩陣數(shù)據(jù)中的孤立點.
第5篇論文的題目為《增量學習的優(yōu)化算法在app使用預測中的應用》.該文提出了一個名為Predictor的app使用預測系統(tǒng),該系統(tǒng)利用基于聚類有效值(cluster effective value, CEV)策略的增量k-近鄰算法為用戶提供app使用預測服務.其中,CEV的計算依賴app特征的上下文關聯(lián)學習.由于CEV采用了多維度特征方法來提高分類的準確度,從而能夠改善app使用的預測精度.實驗結(jié)果表明,帶有CEV策略的IkNN模型比通常默認的IkNN模型擁有更穩(wěn)定的預測準確度,并且在減少建模時間的同時,顯著提高了預測準確度.
最后,我對該專題作者們辛苦的工作和無私的奉獻表示最誠摯的感謝,也希望大數(shù)據(jù)相關領域的讀者能夠更多地交流最新的研究成果,共同促進大數(shù)據(jù)研究的蓬勃發(fā)展!