摘要:大數(shù)據(jù)的Map-Reduce、Hadoop和數(shù)據(jù)可視化技術可以最大限度地提升人類視覺感官對多源、海量及動態(tài)數(shù)據(jù)背后信息的理性洞悉。本文從“知識與傳播服務”“商事服務”“智慧政務”3個方面論述大數(shù)據(jù)應用研究的幾個前沿主題。
關鍵詞:大數(shù)據(jù);技術;應用;智慧政務
中圖分類號:P208 文獻標志碼:A 文章編號:1674-8883(2020)17-0247-02
“大數(shù)據(jù)”并非一個新概念?!洞龠M大數(shù)據(jù)發(fā)展行動綱要》(國發(fā)〔2015〕50號)中闡釋:“大數(shù)據(jù)是以容量大、類型多、存取速度快、應用價值高為主要特征的交易數(shù)據(jù)、交互數(shù)據(jù)與傳感數(shù)據(jù)的集合?!眹H學界主要從“3V”“4V”甚至“5V”特性來對大數(shù)據(jù)的概念進行歸納,例如,Gartner公司提出的“3V”特征及其概念,即大數(shù)據(jù)至少應滿足“規(guī)模性(volume)、多樣性(variety)和高速性(velocity)”3個特性,而價值性(value)或真實性(veracity)等尚存諸多爭議。本文就大數(shù)據(jù)的技術和應用方面進行論述。
一、大數(shù)據(jù)關鍵技術
(一)Map-Reduce及Hadoop
自Google(谷歌)在2004年提出Map-Reduce,其在處理TB和PB級數(shù)據(jù)方面已經(jīng)成為使用最廣泛的并行分布式編程模型之一,也是云計算的關鍵處理技術[1]。Map-Reduce主要利用“Map(映射)”進行任務的分解和“Reduce(化簡)”進行結果的匯總,即通過定義良好的接口和運行時支持庫,自動并發(fā)執(zhí)行大規(guī)模的計算任務,隱藏底層實現(xiàn)細節(jié),降低用戶并行編程的難度。例如,將MapReduce應用于數(shù)據(jù)挖掘和模式發(fā)現(xiàn)等領域,或利用分布式內存緩沖(如GemFire)來進行性能優(yōu)化[2]。當然,Map-Reduce的標準規(guī)范、性能升級、大規(guī)模底層基建以及針對不同實驗平臺的實現(xiàn)將逐漸成為可能的研究熱點。
Hadoop是Apache基于Map-Reduce和GFS開發(fā)的一個開源分布式計算框架,高擴展性、高可靠性、高可用性、高時效性及低成本等方面的優(yōu)勢使其成為了大數(shù)據(jù)開源技術的代表[3]。對Hadoop進行平臺性能、高效查詢處理及索引構建使用等方面的改進,并將其應用于不同場景的海量處理已成為新的研究熱點。例如,將Hadoop分布式技術與Linux集群技術結合起來開發(fā)并實現(xiàn)高效易擴展的海量數(shù)據(jù)存儲管理系統(tǒng),如海量海洋科學數(shù)據(jù)存儲平臺[4]。不過,Hadoop也不能很好地解決穩(wěn)定性和能耗等問題。已有學者運用GemFire分布式內存數(shù)據(jù)庫平臺計算交通領域多源動態(tài)海量數(shù)據(jù),研究表明至少可以減少原系統(tǒng)10%左右的計算時間[5]。
(二)數(shù)據(jù)可視化
數(shù)據(jù)可視化技術可追溯至20世紀50年代的計算機圖形學,如今已經(jīng)應用到科學數(shù)據(jù)、社交網(wǎng)絡、旅游地理、趨勢預測等多個領域。在大數(shù)據(jù)時代,傳統(tǒng)的“文本形式”已不能有效解釋并呈現(xiàn)海量數(shù)據(jù)的復雜關聯(lián)性,引入可視化技術是解析數(shù)據(jù)價值中非常關鍵的一環(huán)。大數(shù)據(jù)可視化的實質是借助人機交互式分析方法和交互技術,清晰有效地傳達與溝通信息,以圖形化形式輔助人們更為直觀和高效地洞悉大數(shù)據(jù)背后的信息、知識與智慧[6]。
具體來說,大數(shù)據(jù)可視化應用可以分為4類,即多維疊加式數(shù)據(jù)可視化應用,如社交網(wǎng)絡與網(wǎng)絡地圖的疊加導航;揭示數(shù)據(jù)關聯(lián)趨勢的可視化服務,如百度指數(shù);思維導圖(Mind Map)可視化工具,已成為各類可視化應用的基礎技術之一;數(shù)據(jù)交流社區(qū)的可視化平臺,如紐約時報的數(shù)據(jù)可視化實驗室[7]。這些應用所進行的信息挖掘與知識洞悉多以文本、網(wǎng)絡關聯(lián)(圖)、時空序列及多維數(shù)據(jù)等圖形化形式呈現(xiàn)出來。
二、大數(shù)據(jù)的經(jīng)濟社會應用領域
(一)知識與傳播服務
1.數(shù)據(jù)新聞。社會化媒體、移動終端和大數(shù)據(jù)正在滲透到新聞生產的各個環(huán)節(jié),這些新技術正極大地影響著傳統(tǒng)媒體與新媒體的融合[8]。大數(shù)據(jù)已成為新聞核心資源之一,新聞生產正趨向于數(shù)據(jù)驅動型和趨勢預測型。有學者認為,大數(shù)據(jù)時代的傳播學研究面臨新變革,如輿情研究將從傳統(tǒng)的內容視角、信息采集方法、結構化輿情庫和離散主體方法轉向內容與關系、數(shù)據(jù)可視化、非結構化輿情庫及關聯(lián)聚合主體等新范式[9]。大數(shù)據(jù)提供了挖掘品牌接觸和用戶需求平衡點的關鍵技術和傳播能力,這不僅會造成新聞與傳媒的新震蕩,也會重構傳播品牌市場新格局。
2.數(shù)據(jù)圖書館。在大數(shù)據(jù)時代,對復雜、多源、動態(tài)數(shù)據(jù)的存儲和深度挖掘將成為圖書館從“物理圖書館”向“數(shù)據(jù)圖書館”轉型的關鍵動力[10]。當前,信息服務與知識挖掘是圖書館服務的主要內容,而在知識服務基礎上的創(chuàng)造性服務才是數(shù)據(jù)圖書館服務的核心。這方面的技術主要通過采集用戶Web日志的數(shù)據(jù),挖掘關聯(lián)規(guī)則、內容分類和用戶聚類的行為需求,建立一站式數(shù)據(jù)資源交互服務平臺,使用戶與圖書館都成為資源的接受者、學習者、發(fā)布者和貢獻者,從而能提高個性化服務與差異化服務[11]。由此看,基于大數(shù)據(jù)的數(shù)據(jù)圖書館智慧服務及趨勢預測有很大的研究空間。
(二)商業(yè)信息傳播
1.企業(yè)競爭情報。大數(shù)據(jù)的核心就是預測,這在商業(yè)競爭中表現(xiàn)得尤為明顯。有學者提出從“社會化的價值創(chuàng)造、網(wǎng)絡化的企業(yè)運作、實時化的市場洞察”等研究視角來探討大數(shù)據(jù)背景下的現(xiàn)代商業(yè)決策模式創(chuàng)新,認為產品生產與價值創(chuàng)造將越來越依賴于用戶參與體驗數(shù)據(jù),同時企業(yè)的運營及生態(tài)也將趨向于網(wǎng)絡化與動態(tài)化,而基于精準數(shù)據(jù)的實時需求洞察將成為未來營銷的主要模式[12]。不過,現(xiàn)有企業(yè)數(shù)據(jù)庫大多不能集成、存儲TB級數(shù)據(jù),也在高級別的情報分析方面缺乏技術支持,還會造成情報實時性的高損耗[13]。
2.云會計。企業(yè)財務決策所需的支撐數(shù)據(jù)已從企業(yè)內部財務數(shù)據(jù)擴展到包括稅務部門、會計師事務所、銀行等多主體參與在內的各種半結構化或非結構化數(shù)據(jù)。企業(yè)可以利用云會計平臺和大數(shù)據(jù)分析技術從海量數(shù)據(jù)中挖掘出有用信息,并實施科學預測與精準決策。同時,云會計平臺和大數(shù)據(jù)技術為企業(yè)財務決策中公允價值的確定帶來了新的方法,還有望應用于企業(yè)成本控制系統(tǒng)。不難看出,“云會計”的概念基于對云計算的服務內涵及模式分類的理解,而大數(shù)據(jù)將使云會計研究更具價值。
3.互聯(lián)網(wǎng)金融。隨著大數(shù)據(jù)時代的來臨,這種對傳統(tǒng)金融模式產生重大影響已成為必然趨勢:互聯(lián)網(wǎng)金融格局將呈現(xiàn)橫向綜合化與縱向專業(yè)化交錯的矩陣結構;第三方支付和移動支付逐步替代傳統(tǒng)支付業(yè)務(如銀行匯款、信用卡);網(wǎng)絡信貸市場空間巨大,將逐步替代部分傳統(tǒng)存貸款業(yè)務;眾籌融資將替代部分傳統(tǒng)證券業(yè)務[15]。中國的互聯(lián)網(wǎng)金融研究大多是將大數(shù)據(jù)作為時代背景,考察互聯(lián)網(wǎng)金融模式與傳統(tǒng)金融模式及商業(yè)銀行的區(qū)別和影響關系。
(三)智慧政務
智慧政務研究是對傳統(tǒng)電子政務、電子治理的繼承。學者姚國章在研究“智慧旅游”時曾提出智慧政務在旅游管理中的應用,大體也認為智慧政務是電子政務、移動政務等的深化應用,同時也必須是基于智慧化技術的政府管理和服務模式的創(chuàng)新。有學者認為,智慧政務通過跨邊界的集成與泛在化公共服務的提供,推動著包容性電子治理的實現(xiàn)。黃璜等認為,大數(shù)據(jù)對電子政務的影響莫過于對政府決策的影響。也有基于大數(shù)據(jù)的智慧政府門戶方面的研究,從智慧感知、智慧建站、智慧推送、智慧測評、智慧決策等5個方面提出了建設智慧政府門戶的思路,像站內搜索關鍵詞變化趨勢、網(wǎng)站頁面點擊熱力圖等技術都被用來作為實施精準決策的工具。
三、結語
信息是國家治理的重要依據(jù),大數(shù)據(jù)是國家戰(zhàn)略,要以信息化推進國家治理體系和治理能力現(xiàn)代化。推動大數(shù)據(jù)市場化運用和創(chuàng)新發(fā)展,培育新技術、新業(yè)態(tài)、新模式、新產業(yè)。通過大數(shù)據(jù)推進政府管理和社會治理模式創(chuàng)新,實現(xiàn)政府決策科學化、社會治理精準化、公共服務高效化。同時,集中統(tǒng)籌布局一批綠色數(shù)據(jù)中心,吸引大數(shù)據(jù)企業(yè)落地進駐,推動大數(shù)據(jù)政用、民用、商用,構建良好的大數(shù)據(jù)發(fā)展生態(tài)鏈。實踐證明,發(fā)揮比較優(yōu)勢、搶抓發(fā)展機遇、建立生態(tài)鏈,才能夠贏得發(fā)展主動權。
參考文獻:
[1] 陳全,鄧倩妮.云計算及其關鍵技術[J].計算機應用,2009(09):2562-2567.
[2] 謝桂蘭,羅省賢.基于Hadoop Map-Reduce模型的應用研究[J].微型機與應用,2010(08):4-7.
[3] 王珊,等.架構大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計算機學報,2011(10):1741-1752.
[4] 崔杰,李陶深,蘭紅星.基于Hadoop的海量數(shù)據(jù)存儲平臺設計與開發(fā)[J].計算機研究與發(fā)展,2012(S1):12-18.
[5] 徐翔,等.基于GemFire的海量數(shù)據(jù)計算性能實驗分析[J].計算機應用,2013(01):226-229+ 233.
[6] 任磊,等.大數(shù)據(jù)可視分析綜述[J].軟件學報,2014(09):1909-1936.
[7] 張浩,郭燦.數(shù)據(jù)可視化技術應用趨勢與分類研究[J].軟件導刊,2012(05):169-172.
[8] 彭蘭.社會化媒體、移動終端、大數(shù)據(jù):影響新聞生產的新技術因素[J].新聞界,2012(16):3-8.
[9] 喻國明,等.傳播學研究:大數(shù)據(jù)時代的新范式[J].新聞記者,2013(06):22-27.
[10] 樊偉紅,等.圖書館需要怎樣的“大數(shù)據(jù)”[J].圖書館雜志,2012(11):63-68+77.
[11] 韓翠峰.大數(shù)據(jù)帶給圖書館的影響與挑戰(zhàn)[J].圖書與情報,2012(05):37-40.
[12] 馮芷艷,等.大數(shù)據(jù)背景下商務管理研究若干前沿課題[J].管理科學學報,2013(01):1-9.
[13] 黃曉斌,鐘輝新.大數(shù)據(jù)時代企業(yè)競爭情報研究的創(chuàng)新與發(fā)展[J].圖書與情報,2012(06):9-14.
[14] 彭超然.大數(shù)據(jù)時代下會計信息化的風險因素及防范措施[J].財政研究,2014(04):73-76.
[15] 陶婭娜.互聯(lián)網(wǎng)金融發(fā)展研究[J].金融發(fā)展評論,2013(11):58-73.
作者簡介:王尊(1982—),男,重慶人,本科,助理記者,研究方向:媒體融合發(fā)展。