周艷晨
摘要:本文對大數(shù)據(jù)的六個性質進行深入解讀并整理匯總了現(xiàn)階段各學科對大數(shù)據(jù)的研究情況。分析了數(shù)據(jù)信息價值在未來對企業(yè)成本和生產資料的影響,通過企業(yè)成本成分的變化將大數(shù)據(jù)時代劃分成大數(shù)據(jù)的初級階段、大數(shù)據(jù)的中級階段和完全大數(shù)據(jù)階段這三個階段。最后對數(shù)據(jù)產業(yè)的未來進行預測。
關鍵詞:大數(shù)據(jù);大數(shù)據(jù)階段;數(shù)據(jù)產業(yè)
中圖分類號:F061.3
文獻識別碼:A
文章編號:1001-828X(2016)036-000312-02
大數(shù)據(jù)時代的到來給人們的生活方式、工作方式和思維方式都帶來了前所未有的變化,這些變化勢必將對現(xiàn)有的經濟結構帶來影響,本文將對大數(shù)據(jù)的性質特征進行分析,從企業(yè)成本函數(shù)開始,分析大數(shù)據(jù)對于微觀經濟的影響,繼而分析大數(shù)據(jù)下的宏觀經濟結構的變化,最后預測部分行業(yè)的未來發(fā)展。
一、大數(shù)據(jù)時代正在來臨
大數(shù)據(jù)時代的浪潮正在朝我們涌來。據(jù)統(tǒng)計2012年中國數(shù)據(jù)存儲量已經達到364EB,約為日本的60%,北美的7%,預計到2020年,全球數(shù)據(jù)儲存量估計為40ZB,各單位間的計算公式為1024GB=lTB,1024TB=1PB,1024PB=lEB,1024EB=lZB。世界各國各組織已經開始采取措施積極應對,基于大數(shù)據(jù)的各類學術研究也正在如火如荼的進行中。
(一)世界對大數(shù)據(jù)的響應
為了迎接大數(shù)據(jù)時代,聯(lián)合國在2009年提出”聯(lián)合國全球脈動“倡議,方便為各國提供實時數(shù)據(jù)分析。2012年3月,美國政府投資2億美元啟動”大數(shù)據(jù)研究和發(fā)展計劃“。2012年7月,日本發(fā)布”新ICT計劃“,以電子政府、點子醫(yī)療、防災等為中心指定新的信息通訊技術戰(zhàn)略。2013年1月美國政府宣布將投資1.89億英鎊用于對地觀測一醫(yī)療衛(wèi)生等大數(shù)據(jù)和節(jié)能技術方面。歐盟將數(shù)據(jù)信息化基礎設施建設作為Horizon2020計劃優(yōu)先發(fā)展領域5--。
在我國,科技部召開兩次香山會議,國家自然科學基金委員會2013年組織了雙清論壇,并且設立了教育部重大項目。2013年中旬,全國統(tǒng)計學會召開第17次統(tǒng)計科學討論會共議大數(shù)據(jù)背景下的統(tǒng)計發(fā)展。從2013年11月份開始,國家統(tǒng)計局與中國聯(lián)通,阿里巴巴、百度、58同城和上海鋼聯(lián)電子商務股份有限公司等11家企業(yè)在北京簽訂了大數(shù)據(jù)戰(zhàn)略合作框架協(xié)議。在2014年第六屆中國人民大學國際統(tǒng)計論壇上,中國統(tǒng)計局局長馬建堂在致辭中指出“以更加開放的姿態(tài)推動大數(shù)據(jù)共享共贏,大數(shù)據(jù)應用要共享開放,統(tǒng)一標準,市場推動?!?/p>
(二)我國對大數(shù)據(jù)的研究現(xiàn)狀
從2011年開始,各學科對大數(shù)據(jù)的研究突然興起。其中,統(tǒng)計學,計算機科學,信息科學,電子商務等學科最為活躍。王珊等學者(2011)分析了大數(shù)據(jù)分析平臺所必須具備的幾個重要特征,對當前主流實現(xiàn)平臺以及其混合構架進行分析與歸納,指出其優(yōu)勢以及不足;覃雄派等(2012)指出傳統(tǒng)及關系數(shù)據(jù)無法勝任大數(shù)據(jù)分析的任務,以MapReduce為代表的非關系數(shù)據(jù)管理技術更能滿足面向大數(shù)據(jù)的深度分析,創(chuàng)新性的提出將關系數(shù)據(jù)處理技術和分布式處理技術相結合的數(shù)據(jù)管理技術;李國杰等(2012)通過對大數(shù)據(jù)研究領域中幾個關鍵問題的科學思考,提出科研第四范式的思維方式的大變革觀點,認為未來科技以及經濟社會發(fā)展應該優(yōu)先支持網絡大數(shù)據(jù)研究;曾鴻等(2013)闡述了大數(shù)據(jù)時代下的統(tǒng)計變革,提出構建新的統(tǒng)計理論和分析數(shù)據(jù)的思維,提出應該積極應對大數(shù)據(jù)的基本觀點,同時指出大數(shù)據(jù)時代與計算機科學也有著緊密的聯(lián)系;朱建平等(2014)從統(tǒng)計學的角度界定了大數(shù)據(jù)的概念,明確統(tǒng)計工作和統(tǒng)計研究轉變的基本思路……
綜觀以上研究,有“三多三少”的特點。研究現(xiàn)實問題的多,研究基礎理論的少;研究特點變化的多,研究階段變化的少;研究經濟統(tǒng)計學的多,研究基礎經濟領域的少?;谶@樣的研究現(xiàn)狀,本文從大數(shù)據(jù)的時代特點出發(fā),分三個階段,分析大數(shù)據(jù)時代下成產函數(shù)的成分變化。
二、大數(shù)據(jù)
近年來對大數(shù)據(jù)的研究紛繁復雜,公認的大數(shù)據(jù)的性質有“六個v”,即總量大(Volume Big),多樣化(variety),快速化(velocity),價值高(value High),數(shù)據(jù)獲取與發(fā)送方式靈活(Vender),真實準確(veraeity)。
(一)大數(shù)據(jù)的性質
1.總量大
數(shù)據(jù)總量大,數(shù)據(jù)計量單位變化,超大規(guī)模單位是GB級別數(shù)據(jù),海量數(shù)據(jù)是TB級別,大數(shù)據(jù)是PB及以上。
大數(shù)據(jù)也被形象的稱為井噴式數(shù)據(jù),這說明,現(xiàn)階段大數(shù)據(jù)不僅僅只是總量大,數(shù)據(jù)的增長速度和增長的加速度也在變大,也就是說每天的數(shù)據(jù)增長量成指數(shù)增長。
2.多樣化
數(shù)據(jù)表現(xiàn)形式多樣,總共分為三類,即傳統(tǒng)的結構化數(shù)據(jù),如同HTML,報表,資源庫,地理位置這種不規(guī)則不完整的半結構化數(shù)據(jù),還有視頻,圖片,圖像這類非結構化數(shù)據(jù)。并且在大數(shù)據(jù)環(huán)境下,半結構化數(shù)據(jù)和非結構化數(shù)據(jù)與日俱增,對傳統(tǒng)的儲存方式提出挑戰(zhàn)。
從維度角度看,在大數(shù)據(jù)時代,我們還需要面臨超高維數(shù)據(jù)的挑戰(zhàn)。
從數(shù)據(jù)類型來看,定距、定比數(shù)據(jù)量所占比重將被更多的定序、定類數(shù)據(jù)代替,與之而來的還有可視化實時銷售圖、銷售地圖等這種新的數(shù)據(jù)類型,共同組成大數(shù)據(jù)時代的多樣性數(shù)據(jù)。
3.快速化
傳統(tǒng)統(tǒng)計部門在處理數(shù)據(jù)時要求做到及時收集和及時發(fā)布,而在大數(shù)據(jù)背景下,政府部門并不是唯一的數(shù)據(jù)來源部門,采集數(shù)據(jù)的方式和數(shù)據(jù)的來源更加多樣,同時互聯(lián)網減少了數(shù)據(jù)傳輸?shù)臅r間,對數(shù)據(jù)的要求變成實時采集、實時發(fā)布,公眾獲取數(shù)據(jù)將更加方便快捷。
4.價值高
大數(shù)據(jù)下數(shù)據(jù)間的“相關關系”逐漸代替“因果關系”,事物間的聯(lián)系逐漸變得清晰,僅通過事物間的“相關關系”企業(yè)就可以對其產品的營銷方案、生產成本進行調整,獲得巨大的利潤,因此數(shù)據(jù)挖掘尤顯重要,數(shù)據(jù)的商業(yè)價值也隨之增大。
5.數(shù)據(jù)獲取與發(fā)送方式靈活
大數(shù)據(jù)下數(shù)據(jù)并非單純指統(tǒng)計部門收集的數(shù)據(jù),還包括人們在互聯(lián)網上發(fā)布的信息,以及全世界的工業(yè)設備、汽車、電表上有無數(shù)的數(shù)碼傳感器中的數(shù)據(jù),還有隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化數(shù)據(jù)等都成為數(shù)據(jù)的來源。隨著互聯(lián)網的發(fā)展,許多數(shù)據(jù)的發(fā)布可以做到程序自動發(fā)布,同時借助網站,手機,短信等各種客戶端,第一時間將數(shù)據(jù)發(fā)布。
6.真實準確
大數(shù)據(jù)下樣本即為總體,對總體的研究從傳統(tǒng)的用樣本估計總體數(shù)量特征,變化為直接計算總體特征,對總體的描述準確性為100%,誤差為0,數(shù)據(jù)更加真實準確。
(二)大數(shù)據(jù)對現(xiàn)實的挑戰(zhàn)
1.數(shù)據(jù)存儲和傳輸
大數(shù)據(jù)下,半結構和非結構化數(shù)據(jù)比例巨大,如何有效快速的儲存這些數(shù)據(jù),降低數(shù)據(jù)在傳輸過程中的損耗,是計算機科學所要面臨的難題。
同時數(shù)據(jù)容量空前增大,加之公眾對于數(shù)據(jù)實時提取以及實時存儲的要求,存儲頻率也隨之增大,大數(shù)據(jù)對于硬件的要求也不斷提高。
2.數(shù)據(jù)塞選和處理
大數(shù)據(jù)雜亂無章,無統(tǒng)一標準。對“有用信息”的選取,對垃圾信息的處理,都需要對數(shù)據(jù)的深度挖掘處理,如何從大數(shù)據(jù)的海洋中提取需要的信息,是對信息科學的挑戰(zhàn)。
3.數(shù)據(jù)的發(fā)布和決策
大數(shù)據(jù)要求數(shù)據(jù)發(fā)布實時同時數(shù)據(jù)準確,這對數(shù)據(jù)發(fā)布的效率提出了更高的要求。
大數(shù)據(jù)通過云計算,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘等方法進行處理分析,使決策依據(jù)更為充分。大數(shù)據(jù)改變傳統(tǒng)的“經驗決策”方式到更加理性的“數(shù)據(jù)決策”,但是,由于大數(shù)據(jù)是對總體的研究,在面對突發(fā)事件和小概率事件時,缺乏數(shù)據(jù)支撐,使得決策不正確,如何解決大數(shù)據(jù)下的小概率事件,是統(tǒng)計學面臨的挑戰(zhàn)。
(三)適用于大數(shù)據(jù)的技術
現(xiàn)有階段適用于大數(shù)據(jù)的技術有大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘電網、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網和可擴展的存儲系統(tǒng)等?,F(xiàn)介紹幾種技術。
針對大數(shù)據(jù)存儲能力和處理速度,先有四種解決方式,分布式處理方式、離線批處理技術、實時流處理技術和交互式分析技術。在此主要介紹分布式架構的代表云計算平臺。按照現(xiàn)在的硬件水平,單臺的計算機無法及時有效處理大數(shù)據(jù),可采用分布式架構,即連接多臺計算機共同處理,這就是云計算平臺。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘,分散數(shù)據(jù),同時處理。云計算平臺還包括分布式數(shù)據(jù)庫、云存儲和虛擬化技術。
關于半結構化數(shù)據(jù)和非結構化的處理問題,Hadoop大數(shù)據(jù)處理品臺已經是目前大數(shù)據(jù)平臺中應用率最高的技術,可以處理文本、社交媒體訂閱以及視頻等半結構化和非結構化數(shù)據(jù)。此外還有EMC Greeplam統(tǒng)一分析平臺,IBM Biglnsights大數(shù)據(jù)分析軟件,Informatica HParse數(shù)據(jù)源處理軟件,Informatica 9.1 for Big DataApplicanee大數(shù)據(jù)機,微軟SQL Server R2 Parallel Date Warehouse并行數(shù)據(jù)倉庫等技術,都在為解決此類問題進行實踐。
對于數(shù)據(jù)的實時采集和發(fā)布問題,谷歌公司推出的MapReduce擴展技術和NoSQL數(shù)據(jù)庫,融合了關系型數(shù)據(jù)庫和分布式數(shù)據(jù)庫的技術優(yōu)勢包含了幾種技術。關注關系型數(shù)據(jù)庫引擎的限制,如索引、流媒體和高訪問量的網站服務等。
還有一些研究用Regression Calibration模型校準方法和OLAP聯(lián)機分析技術對數(shù)據(jù)進行處理,從理論上證明從大數(shù)據(jù)中提取有效信息的效率可以進一步提高。
通過這些研究,我們有信心相信在大數(shù)據(jù)時代下,技術水平完全可以跟上時代的潮流,所有的挑戰(zhàn)都可以完成。
三、大數(shù)據(jù)的三個階段
從互聯(lián)網時代到完全大數(shù)據(jù)時代并不是一蹴而就的,這個過程可以根據(jù)企業(yè)成本的變化分成大數(shù)據(jù)初級階段、大數(shù)據(jù)中級階段和完全大數(shù)據(jù)三個階段。
1.大數(shù)據(jù)初級階段
在大數(shù)據(jù)初級階段,數(shù)據(jù)的獲取相對困難,對于數(shù)據(jù)價值挖掘開始受到重視,以公司集團為代表的數(shù)據(jù)信息行業(yè)正在興起,計算機科學、信息編碼技術以及統(tǒng)計分析領域開始繁榮。在這個階段,小范圍的數(shù)據(jù)統(tǒng)計和數(shù)據(jù)處理業(yè)務占數(shù)據(jù)行業(yè)的大多數(shù),數(shù)據(jù)信息的價值逐漸被人們發(fā)現(xiàn),數(shù)據(jù)開始指導決策,企業(yè)成本中的數(shù)據(jù)信息費用開始出現(xiàn)。
2.大數(shù)據(jù)中級階段
在此階段,數(shù)據(jù)行業(yè)從寡頭壟斷市場進入壟斷競爭市場,數(shù)據(jù)行業(yè)已經相對成熟,一些行業(yè)已經形成完整的數(shù)據(jù)產業(yè)鏈,從原材料的選取、生產、運輸、銷售和售后服務都采用數(shù)據(jù)決策,數(shù)據(jù)將幫助這些企業(yè)實現(xiàn)中長期的最小成本。在這個階段,企業(yè)成本中廣告的費用急劇減小,運費和資本的價格將降低,數(shù)據(jù)信息費用占例增大。
3.完全大數(shù)據(jù)
隨著科學技術的發(fā)展,數(shù)據(jù)行業(yè)將進入完全競爭狀態(tài),獲取數(shù)據(jù)信息將變得十分方便、簡單,數(shù)據(jù)信息的交易價格會因為競爭的激烈而將為最低水平,數(shù)據(jù)行業(yè)完全成熟,各個行業(yè)都采用數(shù)據(jù)決策,整個經濟市場將處于完全信息狀態(tài),所有企業(yè)都可以利用數(shù)據(jù)達到行業(yè)的長期的最小成本。此時,樣本即總體成為現(xiàn)實。在這個階段,企業(yè)成本中對于廣告、運費、資本和數(shù)據(jù)信息的費用將降低至最小。
我們現(xiàn)在正處于大數(shù)據(jù)初級階段。
四、數(shù)據(jù)產業(yè)發(fā)展預測
現(xiàn)如今,電子商務行業(yè)如日中天,伴隨著程序員行業(yè)的興起,關于網絡方面的技術性人才及其緊缺,同時各企業(yè)也發(fā)現(xiàn)數(shù)據(jù)挖掘的重要性,統(tǒng)計及其相關行業(yè)也面臨著人才缺口。這些與大數(shù)據(jù)初級階段特點完全符合,在這個階段,數(shù)據(jù)行業(yè)的增長速度將呈現(xiàn)指數(shù)增長特點。隨著專業(yè)人才的增加,計算機技術的完善,將進入大數(shù)據(jù)中級階段,越來越多的人資和投入將使得數(shù)據(jù)行業(yè)的發(fā)展進入平穩(wěn)增長期,數(shù)據(jù)行業(yè)將面臨市場半飽和狀態(tài),此時的數(shù)據(jù)行業(yè)從原本的J形增長,將變化為s形增長,logistic增長模型將更符合這時的狀況。在完全大數(shù)據(jù)階段,數(shù)據(jù)產業(yè)將變成完全競爭市場,對于數(shù)據(jù)的需求和供給將不會發(fā)生大波動,在此階段數(shù)據(jù)產業(yè)已經使得各產業(yè)的成本達到最優(yōu)。
五、結語
大數(shù)據(jù)給我們帶來一系列問題,比如如何處理數(shù)據(jù)獲取和傳播階段的法律糾紛,如何保障大數(shù)據(jù)時代下的信息安全,統(tǒng)計部門如何制定新的統(tǒng)計分類標準等。大數(shù)據(jù)時代就在發(fā)現(xiàn)問題與解決問題中悄然來臨。
將大數(shù)據(jù)分階段進行研究有助于各行業(yè)各產業(yè)制定符合自身的發(fā)展規(guī)劃,有助于對未來發(fā)展進行更為精準的階段性預測。接下來,我們可以深入分析大數(shù)據(jù)的三個階段對企業(yè)成本函數(shù)和生產函數(shù)的影響;可以分析不同產業(yè)對于數(shù)據(jù)信息價值的需求變化。這些研究對大數(shù)據(jù)時代下的經濟發(fā)展具有基礎理論意義。