周琪棟 薛冰潔
【摘 要】在大數(shù)據(jù)背景下,利用云計算等智能型平臺對大數(shù)據(jù)進行相應的分析,已經成為一種必然的趨勢,而開放式共享與個性化定制也逐漸成為軟件發(fā)展的一種主流途徑。本文基于大數(shù)據(jù)背景下,首先介紹了數(shù)據(jù)科學分析工具的發(fā)展現(xiàn)狀,接著探討了數(shù)據(jù)分析工具在未來的發(fā)展趨勢,以期為相關人員提供一定的參考。
【關鍵詞】大數(shù)據(jù)背景;數(shù)據(jù)科學;發(fā)展趨勢
大數(shù)據(jù)的出現(xiàn),也衍生出一門全新的科學——“數(shù)據(jù)科學”,其作用則是利用自動化的方式去分析大量的數(shù)據(jù),然后從中得到一些有用的信息。但是從現(xiàn)階段的發(fā)展現(xiàn)狀來看,數(shù)據(jù)分析工具在實際應用的時候,還面臨著一些難題,基于此,相關人員就應該強化對這些數(shù)據(jù)分析工具的研究工作,著重突顯出大數(shù)據(jù)的分析能力。
一、數(shù)據(jù)科學分析工具的現(xiàn)狀
大數(shù)據(jù)正改變著人們的生活方式和思維模式,對于文化和一些學術研究也產生了一定的影響。一方面,大數(shù)據(jù)時代給各個學科領域都帶來了一些機遇,將“知識范式”逐漸的轉變成為“數(shù)據(jù)范式”。但是另一方面,也增加了數(shù)據(jù)獲得與儲存的難度性,各個學科領域中的傳統(tǒng)知識與新興數(shù)據(jù)之間的矛盾也愈加突出,當傳統(tǒng)知識已經無法有效的適應現(xiàn)階段的新型知識時,就會促使傳統(tǒng)理論和方式發(fā)生一些革命性的變化。同時,從現(xiàn)階段的發(fā)展情況來看,大數(shù)據(jù)已經受到了各個領域的高度重視,也成為計算機學和統(tǒng)計學等多個科學領域研究的重點內容,這也表示當前不同領域中數(shù)據(jù)研究開始向著一個高度融合的趨勢發(fā)展。
二、現(xiàn)階段數(shù)據(jù)科學分析工具面臨的挑戰(zhàn)
(一)數(shù)據(jù)的多樣性
大數(shù)據(jù)可以看作是數(shù)據(jù)科學的一部分,無論是在科學領域,還是在教學范疇中,都為這些行業(yè)的發(fā)展提供了巨大的機會,但是在發(fā)展的過程中,也存在著諸多的挑戰(zhàn)。首先就是數(shù)據(jù)格式的多樣化,當我們開始進入大數(shù)據(jù)時代的時候,數(shù)據(jù)量也會有所上升,數(shù)據(jù)的格式也開始向著一個多樣化的方向發(fā)展。如企業(yè)、銀行的數(shù)據(jù)一般是以文本的形式存在的,而YouTube中的數(shù)據(jù)則是以視頻或者是語音的方式出現(xiàn)。這些數(shù)據(jù)形式除了傳統(tǒng)的關系數(shù)據(jù)之外,還包含了一些網頁搜索、電子郵件和社交媒體軟件等,這些實際上就是屬于一種非結構和半結構的數(shù)據(jù)。因此,在面對數(shù)據(jù)量如此龐大的情況下,就要求在應用數(shù)據(jù)分析工具的時候,最好是可以將結構與非結構的數(shù)據(jù)有效的聯(lián)系在一起。
(二)傳統(tǒng)數(shù)據(jù)算法的失效
現(xiàn)階段,數(shù)據(jù)科學還沒有一個比較明確的基礎理論,所以人們對于它的定義也各不相同。而在進行數(shù)據(jù)分析的時候,就需要選擇一個有效的數(shù)據(jù)算法,傳統(tǒng)的數(shù)據(jù)算法是聚類算法,這是一種非常典型的N立方規(guī)模,當N變大的時候,一些方式就會實效。因此,在如此龐大的數(shù)據(jù)背景下,就必須要選擇一些適合時代發(fā)展的數(shù)據(jù)算法,這樣才能更好的應對PB級別的數(shù)據(jù)。此外大數(shù)據(jù)還具備實時性的特點,這種情況下,就需要在準確性與實時性之間選擇一個比較平衡的方式。
三、數(shù)據(jù)科學分析工具的發(fā)展趨勢
(一)一體化和可視化的發(fā)展趨勢
科學大數(shù)據(jù)智能分析中包含了數(shù)據(jù)處理、分析,而現(xiàn)有的大數(shù)據(jù)框架和平臺中,也存在著曲線高、開發(fā)代價大的問題。因此,在傳統(tǒng)化的“編程式”的開發(fā)模式中,還需要為該領域的科學家們提供一些簡單而且方便的“拼裝式”發(fā)展環(huán)境。最好是利用一些高質量以及可重復的模型與算法,這樣在進行大數(shù)據(jù)分析的時候,就可以實現(xiàn)數(shù)據(jù)集中、流程設計等一體化的支撐體系。例如Data Analytics,這是一種輕量級的業(yè)務數(shù)據(jù)可視化分析平臺,可以將各種數(shù)據(jù)源類型和海量的數(shù)據(jù)集合在一起,然后接入Excel等數(shù)據(jù)文件和服務平臺等,這樣便能輕松的整合相關業(yè)務。數(shù)據(jù)分析實際上就是數(shù)據(jù)處理的重點內容,但是如果最后分析的結果是正確的,但是缺乏一個合適的方式來解釋它的結構,這就會讓用戶難以理解。而直觀有效的展示出整體的分析結果,往往更容易讓人接受數(shù)據(jù)分析所傳遞的信息。尤其是在大數(shù)據(jù)背景下,龐大而且繁瑣的數(shù)據(jù)量,能夠幫助人們更為直觀的去發(fā)現(xiàn)數(shù)據(jù)中潛在的信息與知識,而可視化的發(fā)展則是最為有效的方式之一。
(二)云服務的發(fā)展趨勢
云服務的科學大數(shù)據(jù)智能分析軟件,不需要在本地進行數(shù)據(jù)的安裝和維護,一方面,瀏覽器逐漸成為數(shù)據(jù)挖掘與分析的一種工具,另一方面,模型和數(shù)據(jù)源則是以在線API的形式進行共享與復用,這一種形式也可以被稱之為“功能性的服務”。同時,大數(shù)據(jù)時代下,則是要求數(shù)據(jù)科學分析工具可以更好的適應海量數(shù)據(jù)的分析工作,其次,數(shù)據(jù)的價值同數(shù)據(jù)的種類之間也有著一定的聯(lián)系,通常情況下,數(shù)據(jù)種類越多,那么包含的信息量也就越大,挖掘的潛在信息也越多。因此,為了實現(xiàn)全數(shù)據(jù)分析的發(fā)展,就要求數(shù)據(jù)分析工具應該具備一些格式多樣化的分析模式。無論是直接統(tǒng)計分析,還是可視化分析,數(shù)據(jù)科學工具對于數(shù)據(jù)的建設都具有積極的作用,例如Keras數(shù)據(jù)分析工具,這是使用Python編寫的開源神經網絡庫,通過深度神經網絡來進行實驗,就可以直接運行微軟Cognitive,它的優(yōu)勢點在于高位模式匹配。同時,在圖像和自然語言的處理中,也支持一些完善的深度學習分析模式,在實際應用的時候,可以節(jié)省掉大量的時間。而在添加這項新工具時的主要標志則是讓數(shù)據(jù)科學家的工作變得更加的簡單。
(三)開放共享的發(fā)展趨勢
交叉科學在發(fā)展的過程中,包含了多領域的分析模型與算法,匯聚跨領域的共性模型,實際上可以形成一種類型豐富而且性能優(yōu)異的算法庫,這極大的降低了該領域交叉綜合分析模型的開發(fā)難度,提高了整體的開發(fā)效率。同時,各個領域科學團隊也通過共享的模型和算法,讓軟件系統(tǒng)得以繼續(xù)的演練,系統(tǒng)更具備吸引力。例如R語言算法庫,這就是CRAN交叉領域算法的一種典型,而且從現(xiàn)階段的發(fā)展情況來看,這種算法在未來也會有非常廣的應用空間。除此之外,在數(shù)據(jù)時代下,如果僅僅是依靠單一的數(shù)據(jù)分析工具,這是無法滿足現(xiàn)階段的發(fā)展需求的,而采用開放共享的模式,用于提高系統(tǒng)的擴展性已經成為一種必然。在這種情況下,R語言則受到了很多數(shù)據(jù)科學專業(yè)人員的喜愛,它能幫助科研人員更加簡單和專注的進行數(shù)據(jù)科學研究。具有非常復雜的機器學習和統(tǒng)計作用,可以快速的查看平均值、中位數(shù),還能創(chuàng)建圖表,以及創(chuàng)建測試數(shù)據(jù)集,輕松的共享并導出CSV格式。
四、結束語
在傳統(tǒng)的數(shù)據(jù)研究中,主要是強調將一些復雜的數(shù)據(jù)轉變成為簡單的數(shù)據(jù)。而在大數(shù)據(jù)背景下,如果可以更加有效的組織和使用這些數(shù)據(jù),人們才能更好的利用科學技術來推動現(xiàn)代社會的發(fā)展。因此,在數(shù)據(jù)分析工具不斷發(fā)展的過程中,準確、高效的利用數(shù)據(jù)中的潛在價值,實際上就是衡量數(shù)據(jù)分析工具的關鍵所在。當數(shù)據(jù)科學逐漸成為一門獨立性學科的時候,相關的研究人員也應該完善相應的理論技術和學科技術,這樣才能被更多的人所理解與認同。
【參考文獻】
[1]徐禮文. 大數(shù)據(jù)背景下工科院校理學院數(shù)據(jù)科學創(chuàng)新團隊與平臺建設[J].教育教學論壇, 2017(22):95-96.
[2]佚名. 數(shù)據(jù)科學與大數(shù)據(jù)人才專業(yè)課程體系分析[J].計算機工程與科學, 2018, 40(z1).
[3]數(shù)據(jù)科學研究的現(xiàn)狀與趨勢[J].計算機科學, 2018, 45(1):1-13.