山東醫(yī)學(xué)高等專科學(xué)校 陳 軍
大數(shù)據(jù)是信息技術(shù)與專業(yè)技術(shù)、信息技術(shù)產(chǎn)業(yè)與各個領(lǐng)域有機融合的典型領(lǐng)域,在國民經(jīng)濟發(fā)展中具有廣闊的應(yīng)用前景。大數(shù)據(jù)時代到來后我國的數(shù)據(jù)規(guī)模已經(jīng)超過美國而位居世界首位,原因與我國是全球的人口大國、制造業(yè)大國、互聯(lián)網(wǎng)大國、物聯(lián)網(wǎng)大國,每個環(huán)節(jié)無時無刻不再產(chǎn)生著數(shù)據(jù),而如何處理、調(diào)動、應(yīng)用大數(shù)據(jù)則成為一個不可回避的現(xiàn)實問題。信息處理技術(shù)(Information Processing Technology)與計算機的有機結(jié)合使得數(shù)據(jù)的處理更加得心應(yīng)手,但大數(shù)據(jù)時代的沖擊下其所使用信息處理技術(shù)勢必會出現(xiàn)深刻的變革。因此,在此種背景下對計算機信息處理技術(shù)展開深入分析具有重要的研究價值和現(xiàn)實意義。
“大數(shù)據(jù)”為近些年來涌現(xiàn)出來的科技新詞。麥肯錫公司首先提出了全球步入“大數(shù)據(jù)”時代,數(shù)據(jù)已經(jīng)滲透到了各行各業(yè)的方方面面,并且成為最重要的生產(chǎn)要素之一,時至今日已經(jīng)在物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域、軍事、金融、通訊等行業(yè)中得到了廣泛的應(yīng)用并成為推動技術(shù)創(chuàng)新的重要助力。哈佛大學(xué)加里·金曾經(jīng)指出“大數(shù)據(jù)是一場革命,海量的數(shù)據(jù)資源使得各個領(lǐng)域開啟了量化進程?!北M管目前了解“大數(shù)據(jù)”的群體依然不多,但不可否認(rèn)的是“大數(shù)據(jù)”帶來技術(shù)革新卻早已經(jīng)潛移默化的走入了百姓日常生活之中,如網(wǎng)購過程中“大數(shù)據(jù)”可以為消費者提供同類產(chǎn)品的比價、準(zhǔn)確預(yù)測你的喜好等優(yōu)質(zhì)服務(wù);民生領(lǐng)域中“大數(shù)據(jù)”省去了業(yè)務(wù)的眾多環(huán)節(jié),無需備齊各種證件、無需反復(fù)奔波、無需排隊等待,通過下載應(yīng)用程序(Application,App)并在線上辦理即可,以交管12123為例,在該平臺上即可以完成違章查詢、扣分、交罰款等業(yè)務(wù);醫(yī)療領(lǐng)域中網(wǎng)上預(yù)約掛號有效的縮短了患者等待時間,使得就診更為便捷。以上種種便利均得益于大數(shù)據(jù)時代帶來的技術(shù)創(chuàng)新。數(shù)據(jù)每時每刻都在產(chǎn)生,但形成的數(shù)據(jù)卻并不都具有使用價值,各種渠道在拓寬了數(shù)據(jù)來源的同時亦使得信息多樣化特點凸顯,如何從中篩選出有用的數(shù)據(jù)就成為擺在大數(shù)據(jù)時代面前的一道難題。
傳統(tǒng)數(shù)據(jù)信息的采集主要通過爬蟲或者是抽取-清洗轉(zhuǎn)換-加載(Extract-Transform-Load,ETL)完成,其中爬蟲常用的有Requests、BeautifulSoup、scrapy、selenium等,能夠滿足特定需求的人群使用,獲取數(shù)據(jù)后進行數(shù)據(jù)清洗即可以從中篩選出感興趣或者是有用的數(shù)據(jù)信息。ETL則能夠打破業(yè)務(wù)系統(tǒng)間“數(shù)據(jù)孤島”現(xiàn)象,借助數(shù)據(jù)抽取、數(shù)據(jù)清洗、庫內(nèi)轉(zhuǎn)換、規(guī)則檢查、數(shù)據(jù)加載即可以完成數(shù)據(jù)處理的整個流程。雖然以上手段能夠在一定程度上滿足使用者的使用需求,但大數(shù)據(jù)時代到來后以上工具所采集到的數(shù)據(jù)信息關(guān)聯(lián)度較差、離散度較高且很難聚合在一起,由此使得數(shù)據(jù)信息資源并未得到充分的挖掘。由此信息采集技術(shù)在原有流程基礎(chǔ)上做出了革新,即:數(shù)據(jù)采集的同時完成數(shù)據(jù)標(biāo)簽的添加操作,利用標(biāo)簽將彼此具有內(nèi)在關(guān)聯(lián)性的數(shù)據(jù)關(guān)聯(lián)起來,以視頻數(shù)據(jù)采集為例,在采集視頻數(shù)據(jù)本身的同時亦可以加入視頻發(fā)布時間、發(fā)布者、點贊及評論等標(biāo)簽,通過圖數(shù)據(jù)庫技術(shù)即可以完成對收錄視頻數(shù)據(jù)的迅速分析。相較于傳統(tǒng)數(shù)據(jù)收集停留于一級數(shù)據(jù)的不足,大數(shù)據(jù)時代下的信息采集技術(shù)通過設(shè)定標(biāo)簽,根據(jù)使用者需求設(shè)定檢索規(guī)則、檢測策略、檢索關(guān)鍵詞即可以實現(xiàn)對數(shù)據(jù)信息逐步細(xì)化的目的,可以為使用者提供多級數(shù)據(jù),整個數(shù)據(jù)鏈中的每個節(jié)點均可以被其掌握,明確上下游關(guān)系,使其具有較強的可追溯性。由于相同標(biāo)簽下的數(shù)據(jù)存在著顯著的內(nèi)在關(guān)聯(lián)性,使用者通過對部分?jǐn)?shù)據(jù)信息進行深入分析就可以對整體數(shù)據(jù)變化規(guī)律做出推測,從根本上提高了數(shù)據(jù)分析的準(zhǔn)確性。近些年來云計算(Cloud Computing)的興起給數(shù)據(jù)信息采集工作提供了強大的便利,隨著信息技術(shù)的發(fā)展,云計算為分布式計算(Distributed Computation)、效用計算(Utility Computing)、負(fù)載均衡(Load Balance)、并行計算(Parallel Computing)、網(wǎng)絡(luò)存儲(Network Storage)、熱備份冗雜技術(shù)(Hot Standy Router Protocol,HSRP)、虛擬化技術(shù)的有機整合,使其具備了實施監(jiān)測數(shù)據(jù)庫以及動態(tài)信息采集的能力,經(jīng)由云平臺從多個數(shù)據(jù)庫中同時采集數(shù)據(jù)信息。
步入大數(shù)據(jù)時代后雖然業(yè)界對于大數(shù)據(jù)的具體量級并未給出明確的界定,但肯定不會低于太字節(jié)(Terabyte,TB),并且總體上數(shù)據(jù)缺乏統(tǒng)一的規(guī)律,數(shù)據(jù)類型也十分多樣,如圖表、表格、日志等,甚至還有視頻以及音頻。此外,大數(shù)據(jù)并非一成不變,而是每時每刻都在更新,由此使得數(shù)據(jù)規(guī)模不斷擴大。各種數(shù)據(jù)在獲取之后需要在第一時間保存,以防止數(shù)據(jù)的丟失,削弱其蘊藏的使用價值。大數(shù)據(jù)時代本質(zhì)上屬于數(shù)據(jù)爆發(fā)的時代,種類繁雜、規(guī)模龐大的數(shù)據(jù)存儲就成為一個棘手問題。目前國外流行的DEEP WEB技術(shù)成為大數(shù)據(jù)時代下一種備受推崇的信息存儲技術(shù),在統(tǒng)一的存儲環(huán)境中數(shù)據(jù)信息在規(guī)模、分布方式、動態(tài)變化等方面均有著相對應(yīng)的特點,集成處理能力更高。谷歌公司研發(fā)的分布式存儲技術(shù)(Google File System,GFS)成為大數(shù)據(jù)時代下數(shù)據(jù)信息存儲技術(shù)的個中翹楚,該技術(shù)將整個系統(tǒng)分為了三個角色,分別為客戶端、主服務(wù)器、數(shù)據(jù)塊服務(wù)器,客戶端提供應(yīng)用程序的訪問接口,通過應(yīng)用程序客戶即可以直接調(diào)用庫函數(shù)。主服務(wù)器則是整個管理技術(shù)的節(jié)點,負(fù)責(zé)元數(shù)據(jù)的存儲并由每個數(shù)據(jù)塊節(jié)點實施更新元數(shù)據(jù)。數(shù)據(jù)塊服務(wù)器負(fù)責(zé)數(shù)據(jù)的具體存儲工作,將數(shù)據(jù)信息按照固定大小進行分塊,一般情況下默認(rèn)為64兆,每一塊被稱之為一個數(shù)據(jù)塊且具有為宜的64位標(biāo)簽。該信息存儲技術(shù)已經(jīng)在萬國商業(yè)機器公司、百度等知名企業(yè)中得到了廣泛的應(yīng)用,其所具有的優(yōu)勢在于以列存儲為數(shù)據(jù)信息的主要存儲方式,有效的壓縮了龐大的數(shù)據(jù)信息,占據(jù)的空間更小,磁盤空間實際利用率處于較高水平。在今后工作中只需要不斷完善現(xiàn)有的信息存儲方式即可以滿足當(dāng)前乃至今后一段時間的信息存儲需求。
云計算采取的信息存儲技術(shù)與GFS不盡相同,高可用性、高可靠性、經(jīng)濟性好為云計算的主要原則,除了利用分布式存儲來對數(shù)據(jù)信息進行保存外,還充分運用了冗余存儲技術(shù)對已經(jīng)存儲的數(shù)據(jù)進行處理以提高其可靠性,通俗而言就是將一份數(shù)據(jù)存儲多個副本。GFS面向的客戶群為企業(yè)用戶,而云計算則可以滿足幾乎所有的用戶使用需求,在云技術(shù)不斷完善下其所具有的高吞吐率越發(fā)引起社會各界的關(guān)注,核心系統(tǒng)中擁有大量的服務(wù)器,存儲系統(tǒng)為谷歌公司的GFS以及Hadoop團隊研發(fā)的Hadoop分布式文件系統(tǒng),可以滿足海量的、大型的、分布式的數(shù)據(jù)存儲與訪問需求。但當(dāng)前需要考慮的問題在于如何完成內(nèi)部存儲數(shù)據(jù)的快速準(zhǔn)確定位、保障數(shù)據(jù)存儲的安全性、底層設(shè)備數(shù)據(jù)存儲不均等方面。
大數(shù)據(jù)時代下數(shù)據(jù)已經(jīng)被全球公認(rèn)為繼土地、勞動力、資本之后的第四大生產(chǎn)要素。在萬物互聯(lián)的時代,海量的數(shù)據(jù)信息匯聚在一起,以大數(shù)據(jù)為基礎(chǔ)商業(yè)領(lǐng)域形成了精準(zhǔn)營銷以及智能進化的布局,智能商業(yè)時代拉開大幕。經(jīng)過處理之后的數(shù)據(jù)信息往往蘊藏著豐厚的經(jīng)濟收益,但互聯(lián)網(wǎng)是一個開放性平臺,任何人、任何時間都能夠借助互聯(lián)網(wǎng)獲取感興趣的數(shù)據(jù)信息,由此使得數(shù)據(jù)信息存在著較高的風(fēng)險,信息安全問題備受社會各界的矚目。步入大數(shù)據(jù)時代后的信息安全技術(shù)研發(fā)取得了突破性進展,依托現(xiàn)場可編程門陣列(Field-Programmable Gate Array,F(xiàn)PGA)的高速并行技術(shù)、以太網(wǎng)高速數(shù)據(jù)傳輸技術(shù)、多路輸入輸出技術(shù)、密鑰管理技術(shù)研發(fā)的高速密碼運算設(shè)備使得數(shù)據(jù)安全得到了有效提升。該設(shè)備能夠利用SM4算法對重要、關(guān)鍵數(shù)據(jù)進行加密處理,有助于防止數(shù)據(jù)泄露,提高保密性;使用SM3算法對數(shù)據(jù)進行散列處理,獲得數(shù)據(jù)摘要后再進行散列運算后有助于避免數(shù)據(jù)被篡改,數(shù)據(jù)完整性大幅提升;數(shù)據(jù)傳輸期間使用數(shù)字簽名來提升業(yè)務(wù)行為的抗否性,同時使用驗證簽名確認(rèn)身份;用戶訪問權(quán)限控制對于保證使用者身份真實性具有重要意義,加密模組利用管理員以及操作員兩級身份實現(xiàn)對訪問權(quán)限的控制。除此之外繼續(xù)完善現(xiàn)有計算機信息安全管理體系也是提升數(shù)據(jù)安全的重要舉措。
結(jié)語:綜上所述,大數(shù)據(jù)時代給各行各業(yè)均帶來了極大的便利,催生了智能商業(yè)時代,但如何對數(shù)據(jù)信息進行處理就成為一個首要解決的問題。傳統(tǒng)信息處理技術(shù)越發(fā)難以契合大數(shù)據(jù)時代發(fā)展所需,使得數(shù)據(jù)蘊藏的價值并未充分挖掘。本文從信息采集技術(shù)、信息存儲技術(shù)、信息安全技術(shù)三方面對步入大數(shù)據(jù)時代后計算機信息處理技術(shù)發(fā)展趨勢進行總結(jié),希望能夠為提升大數(shù)據(jù)安全提供幫助,