摘 要:隨著新興技術和所有相關設備的出現,預計未來幾年將會產生大量數據并在可預見的未來繼續(xù)??沙掷m(xù)計算研究計算機工程師和科學家高效且有效地設計計算機和相關子系統的過程至關重要。然而,當前的智能機器學習系統是性能驅動的。隨著大型數據集中的學習任務,網絡中隱藏節(jié)點的數量將因此顯著增加,最終導致計算復雜性的指數級地增長。本文簡要論述了大數據中機器學習的難點,關鍵機制,和未來的大致發(fā)展。
關鍵詞:大數據;機器學習;可持續(xù)發(fā)展;效能
中圖分類號:TP181 文獻標識碼:A 文章編號:1004-7344(2018)33-0027-02
1 背景介紹
時至今日,計算機科學已經對人類科學和發(fā)展有了深遠的影響。隨著新技術和伴隨而來的新型設備,預計將創(chuàng)建與人類整個歷史中創(chuàng)建的數據一樣多的數據[1]。鑒于未來幾年至十幾年將產生,和存儲的數據量前所未有,現階段的大多數的技術行業(yè)面臨的一大挑戰(zhàn)是如何從中受益,從而促進產業(yè)的持續(xù)發(fā)展。在過去十幾年中,作為一種人工智能技術,機器學習已廣泛應用于氣候學,地理信息學,醫(yī)學,金融和經濟等眾多大型復雜數據密集領域[2~4]。然而,當前基于智能機器學習的系統本身并不具有足夠的效率或可擴展性來處理大量數據。比如,多年來,已知大多數非參數和無模型方法需要高計算成本來找到整體最優(yōu)解。對于高維的數據,它們良好的數據擬合能力不僅使他們更容易受到泛化問題的影響,而且導致計算復雜性呈指數級別上升。因此,設計更精確的機器學習系統以滿足市場需求將導致由于增加的計算成本而導致更高的能量浪費的可能性。
如今,更需要設計和開發(fā)有效的機器學習模型,以應對符合類似能源相關計劃的未來需求。這種以能效為導向的數據建模對于許多數據缺乏的領域非常重要,因為它們會影響許多相關行業(yè)。開發(fā)與設計人員應關注最高性能和最低能耗,以擺脫傳統的“性能與能源使用”之間的權衡,并增加可用于節(jié)能建模的選項的數量和多樣性。然而,盡管我們需要為大型和復雜的數據密集型領域提供這種高效且可持續(xù)的數據建模方法,但據現有知識,該領域僅提出了少數這些文獻[5~6]。
本文對現有的一些可持續(xù)和節(jié)能機器學習文獻進行回顧,包括與各種需求和建議有關的理論,實證和實驗研究。此文的目標是為計算機科學和其他領域的工程師,科學家和研究人員引入新的視角,并為未來的研究工作提供路線圖。
2 來自大數據的挑戰(zhàn)
計算機科學領域通常是數據密集型的,其最終結果的質量往往隨著可用數據的數量和質量而提高。然而,當前的智能機器學習系統在達到足夠的效率之前還有漫長的道路要走,在許多情況下,這些數據中有越來越多的部分未被探索或者未充分利用。當現有方法無法捕獲此類數據時,對我們的最終結果常常造成本質的影響。當過去的概念無法跟上變化時,傳統和過去的經驗就不足以成為下一步做什么的指導。有效地理解和使用這些新的原始數據和信息對當今的工程師和研究人員構成了巨大的挑戰(zhàn)。為了更好地適應新環(huán)境下大數據的產生和處理,更加優(yōu)化的算法,更加全面的考慮是必要的。
例如,最近的一些文獻可以說明文獻中科學數據生成的巨大增長。據估計,在地理信息和氣候研究領域,目前有數千個無線傳感器,每天每個傳感器產生大約1GB字節(jié)的數據[7]。這種傳感器在以前從未有過的空間和時間維度上測量和記錄關于自然環(huán)境的信息。這些環(huán)境信息由傳感器通過其傳感設備收集,傳感設備連接到具有數字無線電通信的小型低功率計算機系統。傳感器節(jié)點將其自身組織成網絡以傳送,并且可能將收集的數據處理到基站,在基站中,傳感器節(jié)點可以通過網絡提供給用戶。這些傳感器每年產生的數據,需要實時決定要分析的數據量,傳輸量以進行進一步分析[8]。
再例如在這些傳感器中,針對于大數據的算法是極其重要的。許多傳感器采用復雜算法將原始信號轉換為有意義的數據。當大規(guī)模收集數據時,人們不再手動檢測和診斷傳感器故障。需要自動數據清理方法,可以實時檢測和糾正傳感器故障。預測模型和因果模型都是生態(tài)科學和生態(tài)系統管理所必需的。生態(tài)模型的一個具有挑戰(zhàn)性的方面是需要同時考慮許多不同類型的大數據,這些數據在許多不同的空間和時間尺度上都是如此。
3 數據建模和有效機器學習的關鍵機制
考慮到大量數據涌入,絕對有必要改進傳統計算/分析數據模型的設計和開發(fā)方式??沙掷m(xù)數據建??梢远x為一種數據建模技術,旨在通過以有效和高效的方式發(fā)現模式和相關性來理解其自身領域中的大量數據。可持續(xù)數據建模專注于以最小的計算成本實現最大的學習準確性,以及大量數據的快速有效處理??沙掷m(xù)數據建模似乎是理想的,因為它很容易有效地處理大量數據,并且在許多情況下觀察到相關的成本降低。從更廣泛的角度來看,它需要在電子科學領域進行數據建模革命。事實上,這些新設計的可持續(xù)數據模型將有效地應對上述數據問題,從而為各種電子科學領域帶來益處。[9~12]因此,在本節(jié)中,我們將討論和提供有關可持續(xù)數據建模的幾個關鍵機制。
(1)大數據計算系統的需求根據儲存系統的不同和如何分析數據的時間約束的不同,可以大致分為兩大類[13]。第一類是批量處理大量硬盤數據需要擺脫時間限制。第二類是需要實時內存數據的處理或者在很短的時間進行內存數據處理[14~15]。下一代計算大數據分析系統需要兩者的創(chuàng)新設計可以提供良好匹配的硬件和軟件大數據算法和底層計算和存儲資源。從這兩類來看,近年來的GPU計算和分布式計算很好地迎合了這兩類基本的需求。從而為大數據的建模和計算提供強有力的支持和支撐。
(2)淺層機器學習模型例如矢量機已經大量被用于解決簡單或者強約束的問題。但是這些淺層機器學習模型有限的建模和表征能力并不能保證在復雜模型中的良好表現,比如在處理自然語言的時候。2006年,深度學習模型在人工智能領域出現。其基本特點是利用多層信息處理模型來識別數據中存在的模式問題。深度學習的主要優(yōu)點是提高了芯片處理能力和降低了計算硬件成本。并且由于新的云計算的出現,深度學習必將在大數據的建模和處理問題上為工程師和研究人員帶來更多的便利。
(3)可持續(xù)數據建模的關鍵成功要素之一是保持或改善其性能,同時顯著降低其計算成本。最近的數據建模研究表明,集成的方法已經獲得了很大的普及,因為它們通常比單個模型表現更好[16~17]。集成的方法使用多個模型來獲得比從任何模型獲得的更好的性能[17~18]。但是,它可能導致計算成本的顯著增加。如果模型處理大規(guī)模數據,模型復雜性和計算要求將呈指數地增長。這一項機制在整個大數據和機器學習的發(fā)展中至關重要。①大數據本身復雜性和容量的增長必然導致更大的計算成本和模型復雜度。②計算成本和復雜度的增長反過來刺激新技術和新設備的出現。從而形成良性循環(huán)。
4 結 論
在本文中,我們概述了可持續(xù)數據建模的當前研究狀況。特別是,我們討論了大數據密集型領域的方面,包括:①模型能效,包含機器學習中的計算要求,可能的方法;以及;②數據密集型區(qū)域的結構和設計,包括數據模型和特征之間的關系。隨著電子科學數據的激增,可持續(xù)數據建模已經被證明可以提供前進的方法,因為它易于處理大量數據。我們還可以設想,這種數據建模革命可以很容易地擴展到電子科學的各個領域。這些新設計的可持續(xù)數據模型不僅能夠應對新興的大規(guī)模數據模式,而且還能夠最大限度地提高各種電子科學領域的回報。
參考文獻
[1]Koomey J G. Estimating total power consumption by servers in the US and the world[J]. 2007.
[2]蘇金樹,張博鋒,徐 昕.基于機器學習的文本分類技術研究進展[D]. 2006.
[3]楊善林,倪志偉.機器學習與智能決策支持系統[J].北京:科學版社, 2004.
[4]何 清,李 寧,羅文娟,等.大數據下的機器學習算法綜述[J].模式識別與人工智能,2014,27(4):327~336.
[5]Yoo P D,Ng J W P, Zomaya A Y. An energy-efficient kernel framework for large-scale data modeling and classification[C].Parallel and Distributed Processing Workshops and Phd Forum (IPDPSW),2011 IEEE International Symposium on. IEEE,2011: 404~408.
[6]Cheng H, Tan P N, Jin R. Efficient algorithm for localized support vector machine[J].IEEE Transactions on Knowledge and Data Engineering, 2010,22(4):537~549.
[7]Perera C, Zaslavsky A, Christen P, et al. Sensing as a service model for smart cities supported by internet of things[J].Transactions on Emerging Telecommunications Technologies, 2014, 25(1): 81~93.
[8]譚東寧,譚東漢.小樣本機器學習理論:統計學習理論[J].南京理工大學學報:自然科學版,2001,25(1):108~112.
[9]Marwah M, Shah A, Bash C, et al. Using data mining to help design sustainable products[J].Computer, 2011, 44(8): 103~106.
[10]Sundaravaradan N,Patnaik D,Ramakrishnan N,et al.Discovering Life Cycle Assessment Trees from Impact Factor Databases[C].AAAI, 2011.
[11]Sundaravaradan N,Marwah M,Shah A,et al.Data mining approaches for life cycle assessment[C].Sustainable Systems and Technology (ISSST),2011 IEEE International Symposium on. IEEE,2011: 1~6.
[12]Patnaik D,Marwah M,Sharma R K,et al.Data mining for modeling chiller systems in data centers[C].International Symposium on Intelligent Data Analysis.Springer,Berlin, Heidelberg,2010:125~136.
[13]Baldominos Gómez A,Albacete García E,Saez Achaerandio Y,et al.A scalable machine learning online service for big data real-time analysis[J]. 2014.
[14]Huang H H,Liu H.Big data machine learning and graph analytics:Current state and future challenges[C].Big Data (Big Data),2014 IEEE International Conference on.IEEE,2014:16~17.
[15]Bifet A,Morales G D F.Big data stream learning with Samoa[C].2014 IEEE International Conference on Data Mining Workshop (ICDMW). IEEE,2014:1199~1202.
[16]Yang P,Hwa Yang Y,B Zhou B,et al.A review of ensemble methods in bioinformatics[J].Current Bioinformatics,2010,5(4):296~308.
[17]Opitz D,Maclin R. Popular ensemble methods:An empirical study[J]. Journal of artificial intelligence research,1999,11:169~198.
[18]Polikar R.Ensemble based systems in decision making[J]. IEEE Circuits and systems magazine,2006,6(3):21~45.
收稿日期:2018-10-17