劉彩云 沈春會
摘 要:針對大數據技術的應用給電子政務信息資源采集帶來的挑戰(zhàn)與機遇,對電子政務信息資源采集在大數據時代出現的諸如采集內容多樣化、采集來源多元化、采集方式智能化等新特點進行介紹。同時,分析電子政務信息資源采集原則,提出實行預測需求、按需采集、注重自媒體信息采集、運用新興技術、嘗試采取眾包模式等措施,以期用大數據的思維推進電子政務信息資源采集的發(fā)展。
關鍵詞:大數據;電子政務;政務信息資源;電子政務信息資源采集
Abstract: Considering the challenges and opportunities that have been brought to the e-government information resources acquisition by the application of the big data, new characteristics of e-government information resources acquisition in the era of big data, such as diversification of content, pluralism of sources, intelligence of collecting pattern, are introduced. Meanwhile, analyzing the principles of e-government information resources acquisition, and putting forward such strategies as forecasting demand and acquisition according to demand, laying emphasis on information acquisition of We Media, applying emerging technologies and trying to take crowdsourcing model, in order to promote the development of e-government information resources acquisition with thought of big data.
Keywords: Big Data; E-government; Government Information Resources; E-government Information Resources Acquisition
1 概述
IT廠商和咨詢公司引導了大數據發(fā)展的潮流,大數據在各個領域的應用及研究昭示著大數據時代已經到來。大數據在給各行各業(yè)的發(fā)展帶來了沖擊與挑戰(zhàn)的同時,也帶來了潛在的發(fā)展新機。
電子政務信息資源(下文簡稱“政務信息資源”),即為數字化的政務信息資源。隨著我國政府信息化和電子政務建設的發(fā)展,政務信息資源不再局限于傳統紙質文件的形式,而是逐漸向著數字化信息形式轉化。電子政務信息資源管理是一項集成政務信息資源采集、組織、處理、檢索、挖掘、分析與服務等過程的管理活動,電子政務信息資源采集作為電子政務信息資源管理的重要環(huán)節(jié)之一,是開展其他管理環(huán)節(jié)的基礎。我國國家重點學科——情報學學科帶頭人蘇新寧在其著作中提出:“政務信息采集是指根據政府部門的特定需求和工作規(guī)劃的需要,利用科學的方法,將蘊涵在不同位置的政治、經濟、社會和文化信息收集、積聚起來的過程?!盵1]本文電子政務信息資源的采集以廣義的電子政務信息資源為采集對象,從大數據的視角出發(fā),探尋大數據時代電子政務信息資源采集的發(fā)展。
2 大數據時代電子政務信息資源采集的特點
大數據給電子政務信息資源帶來了新的特點,加大了政務信息資源采集的難度,但與此同時,大數據技術的應用也將推動政務信息資源采集的發(fā)展。在分析采集特點、采集原則的基礎上研究采集對策,有助于因勢利導,發(fā)揮大數據的助推作用,促進電子政務信息資源采集工作。
電子政務信息資源作為信息資源的重要組成部分,除了具有信息資源的一般特性外,在大數據時代,還具有大數據的一般特征,如大數據量、非結構化、社會化等。隨著與大數據密切相關的云存儲、云計算、物聯網、移動互聯網等技術的應用,給電子政務信息資源采集工作帶來了如下新特點。
2.1 采集內容多樣化。從采集內容看,大數據時代電子政務信息資源采集的內容呈現出多樣化特點,所謂多樣化,主要是指采集內容具有結構化、半結構化和非結構化數據并存的特點。傳統政務信息資源采集以來自關系型數據庫的結構化數據(如研究報告、統計數據、政策法規(guī)、會議資料等)為主。然而,美國高德納咨詢公司(Gartner)指出,在2012年,非結構化數據在所有數據中的比例已經高達85%,并且比結構化數據增長更快。[2]在大數據時代,大量動態(tài)的半結構化數據(如政府人事管理資料)和來自互聯網、社交媒體的非結構化的數據(如與政府門戶網站訪問日志以及與政府活動相關的微博、音頻、視頻文件等)不斷增長,并有著逐漸取代結構化數據主體地位的趨勢。
2.2 采集來源多元化。從采集來源看,大數據時代的電子政務信息資源采集來源不僅呈現多元化的特點,并且采集來源有著與新興技術不斷結合的趨勢。按照政務信息資源采集來源的表現形式劃分,傳統采集來源主要以個人、機構、文獻、新聞媒體、數據庫等信息源為主。在大數據時代,除傳統來源外,出現了一些新的采集來源并有發(fā)展成為主要來源的趨勢,如隨著全球衛(wèi)星定位系統的應用和移動終端技術的發(fā)展,定位數據不斷增長,成為危機類政務信息資源采集來源的一個重要組成部分。再如,隨著社交網絡(如微博、論壇等)逐漸發(fā)展成為公眾表達訴求、參與管理的主要途徑之一,社交網絡數據呈每年迅速增長趨勢,對社交網絡數據的采集分析是政府輿情監(jiān)測的重要途徑,社交網絡逐漸發(fā)展成為政務信息資源采集的主要來源。
2.3 采集方式智能化。與人工采集為主的傳統政務信息資源采集相比,大數據時代的采集方式應實現以智能化采集為主、輔以人工采集。在一般情況下,大部分數據是由消費者產生和使用的,政務信息數據只要控制在一定范圍內,通過人工采集為主、輔以相關信息技術,實現對政府機構及與其相關的信息的收集是可以做到的。但是,有學者作出預測,2013年~2020年,大部分數據將不是由人類產生的,而更可能是由帶有傳感器的智能設備產生并傳輸,即機器與機器對話(Machine to Machine, M2M)。[3]可見,在大數據時代,實現智能化采集是必然趨勢。一方面是因為人工采集無法承受大數據時代與日俱增的巨大信息量;另一方面是因為大數據時代具備諸如智能設備、云存儲、元數據等數據產生、傳輸、存儲、描述的技術條件。
3 大數據時代電子政務信息資源采集的原則
蘇新寧將政務信息的采集原則概括為“六度”原則,即廣度要大、向度要準、精度要高、真度要強、融度要深和速度要快。[3]“六度”原則從多個不同角度提出了政務信息資源采集的要求,這與大數據時代要求打破“信息孤島”、消除“數字鴻溝”、實現信息共享的理念相契合,因此,“六度”原則在大數據時代仍然具有適用性。如廣度原則要求從縱向和橫向兩個方面避免信息采集的遺漏,換言之則是要做到跨時間、跨學科、跨組織、跨部門、跨地域、跨系統、跨平臺、跨數據結構等要求。
國外對政務信息資源采集原則作出了明確規(guī)定,例如,美國《政府文書工作消減法案》將“使聯邦政務信息采集、維護、使用與發(fā)布的費用降到最低”列入政務信息采集的原則之一。加拿大政務信息資產管理(MGIH)政策第3條規(guī)定:“政府應使采集、產生和接收信息的花費最小化”。[4]因此,筆者認為,借鑒國外的研究成果與實踐經驗,在“六度”原則的基礎上,大數據時代的電子政務信息資源采集還應權衡信息采集的投入與產出比,應增加效益性原則,盡量使采集費用低于采集投入,權衡投入與意圖獲取的收益。
4 大數據時代電子政務信息資源采集發(fā)展思路
4.1 預測需求,按需采集。大數據的應用有助于實現預測需求、按需采集。“大數據背景下的政務系統的核心就是‘感知”,[5]電子政務信息資源的采集、存儲、分析、處理、利用等是一個循環(huán)往復的過程,通過對所采集的海量政務信息資源進行分析,實現對公眾政務信息資源需求方向和內容的感知與預測。根據預測制定政務信息資源采集規(guī)劃的同時,可推出專題政務信息資源采集項目,量身定制,實現電子政務個性化服務,提高政府服務水平。
4.2 注重自媒體信息的采集。從采集來源來看,電子政務信息資源采集應注重自媒體信息的采集。在大數據時代,海量的交易數據、交互數據和數據處理構成了大數據主要的三大來源。其中,隨著互聯網與移動終端的不斷融合,來自自媒體的非正式數據逐漸增長成為交互數據的主要組成部分。雖然相對于來自官方渠道(如政府機構、新聞媒體)的數據而言,自媒體信息屬于非正式數據,其內容可能存在魚龍混雜、良莠不齊、可信度較低的情況,但是,自媒體傳播迅速、高效,具有傳統媒介所不具備的優(yōu)勢,如日本公共衛(wèi)生數據挖掘平臺——“發(fā)現病毒”的開發(fā)者奈杰爾科利爾(Nigel Collier)認為,“從自媒體采集的數據與官方發(fā)布的數據相比享有更多的優(yōu)勢,比如地理覆蓋面更廣、語義信息更豐富、成本更低”。 [6]因此,筆者認為,來自自媒體的信息對于政府進行輿情監(jiān)測具有重要意義,尤其是在偏遠山區(qū)、農村等缺乏官方的數據采集渠道但手機擁有率較高的地區(qū),可作為官方數據的有益補充,是構成電子政務信息資源的重要組成部分。
4.3 注重大數據時代新興技術的應用。海量的電子政務信息資源采集要求低成本、智能化的采集技術,在信息采集過程中,應當注重對大數據時代新興技術的應用。例如,將云計算技術應用于數據倉庫,采取列式存儲方式,可解決傳統數據倉庫行式存儲在面臨海量異構數據存儲帶來的時間與空間高成本的困境,為多媒體數據處理提供了有益的思路。同時,云計算還為信息采集提供了分布式采集技術,有學者指出:“因為云計算具有很強的擴展性和容錯能力,可將數據池相同或者相似的數據同構化?!盵7]此外,移動傳感設備、智能電表等技術對電子政務信息資源的采集也具有重要意義。
4.4 可嘗試采取“眾包”模式。電子政務信息資源的采集可嘗試采取“眾包”模式。“眾包”模式是大數據時代出現的一種生產組織模式,通過“眾包”模式,將電子政務信息資源的采集分配出去,采集工作不再全部依靠政府工作人員來完成,而是同時依賴于網絡上收取小額報酬或無報酬的志愿員工來完成。該模式一方面可以降低電子政務信息資源的采集成本,另一方面可以集思廣益,解決電子政務信息資源采集過程中難以解決的技術問題。
5 結語
綜上所述,大數據擁有巨大的發(fā)展?jié)摿?,大數據技術的應用將有力地推動電子政務信息資源的采集。但是,在對大數據助推電子政務信息資源采集的發(fā)展前景給予充分信心的同時,我們也要看到大數據應用存在的局限。如,數字跟蹤平臺的新型數據采集方式只能作為傳統信息采集的補充方式,不能取代傳統信息采集方式。再如,機器可輔助數據分析,但實際上數據分析仍然需要依賴于人的主觀意識及知識結構,基于信息的決策不能達到絕對客觀。此外,采集過程中 “信息過載”、非結構化數據的整合、個人隱私和信息安全等問題也亟待進一步研究和解決。
參考文獻:
[1][3] 蘇新寧著.政務信息資源管理與政府決策[M].北京:科學出版社.2008:34~35.
[2] 郭昕,孟曄編著.大數據的力量[M].北京:機械工業(yè)出版社.2013:13~15.
[4] 劉家真,許潔. 建立基于共享的政務信息采集機制的對策建議[J]. 信息化建設,2007(7):16~18.
[5] 宋偉東,孫尚宇,耿繼原,王崇倡,. 用大數據思維建構信息時代的電子政務[J]. 測繪科學,2014(5):18~22.
[6] 轉引自:郭曉科主編.大數據[M].北京:清華大學出版社.2013:13~14.
[7] 迪莉婭. 基于云計算的電子政務大數據管理研究[J].圖書館理論與實踐,2013(12):49~52.
(作者單位:四川大學公共管理學院 來稿日期:2015-01-14)