◆胡振宇 夏琪琦 王佳楠 郭蓓蓓 安慧
基于大數(shù)據(jù)的信息管理模式研究
◆胡振宇 夏琪琦 王佳楠 郭蓓蓓 安慧
(河南財政金融學(xué)院 河南 450046)
隨著信息技術(shù)的飛速發(fā)展,大數(shù)據(jù)已被廣泛應(yīng)用于各個行業(yè)和各個領(lǐng)域。本文首先分析大數(shù)據(jù)的發(fā)展歷程、定義概念和性質(zhì)特征,接著在此基礎(chǔ)上提出基于大數(shù)據(jù)的信息管理模式,最后介紹其運行流程,供相關(guān)讀者參考。
大數(shù)據(jù);信息管理;模式
全球已從工業(yè)經(jīng)濟時代邁入數(shù)字經(jīng)濟時代,數(shù)據(jù)已成為不可缺少的關(guān)鍵性和基礎(chǔ)性的生產(chǎn)要素,并與勞動、資本、土地、知識、技術(shù)等構(gòu)成新經(jīng)濟范式。在黨的十九屆四中全會中,第一次正式將數(shù)據(jù)明確為能獲取報酬且能產(chǎn)生價值的新型生產(chǎn)要素[1]。重視和利用數(shù)據(jù)的價值,已成為世界各國和社會各界的共識[2]。在20世紀末,大數(shù)據(jù)開始在中國興起,其起初只在IT互聯(lián)網(wǎng)行業(yè)應(yīng)用,此后,大數(shù)據(jù)已逐步向金融貿(mào)易、醫(yī)療衛(wèi)生、生產(chǎn)制造、政府治理等行業(yè)領(lǐng)域拓展運用[3]。
中國政府高度重視大數(shù)據(jù)的培育和發(fā)展,本研究按時間順序匯總羅列中國部分大數(shù)據(jù)政策(表1)。最新的國家政策是在2020年12月,中央網(wǎng)信辦、國家發(fā)展和改革委員會和工業(yè)和信息化部等部門聯(lián)合發(fā)布了《關(guān)于加快構(gòu)建全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系的指導(dǎo)意見》,其提出要加快建立全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系。
表1 中國部分大數(shù)據(jù)政策
發(fā)布時間文件名稱發(fā)文機關(guān) 2016年12月《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016—2020年)》工業(yè)和信息化部 2018年4月《科學(xué)數(shù)據(jù)管理辦法》國務(wù)院辦公廳 2018年8月《推動企業(yè)上云實施指南(2018—2020年)》工業(yè)和信息化部 2020年12月《關(guān)于加快構(gòu)建全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系的指導(dǎo)意見》中央網(wǎng)信辦、國家發(fā)展和改革委員會、工業(yè)和信息化部等
學(xué)術(shù)界和業(yè)界一直在探討大數(shù)據(jù)(Big Data)的定義,但對大數(shù)據(jù)的概念還未形成完全統(tǒng)一的界定。起初對大數(shù)據(jù)的概念是從數(shù)據(jù)量大的角度界定,但隨著大數(shù)據(jù)應(yīng)用場景不斷增多、大數(shù)據(jù)處理技術(shù)不斷發(fā)展,大數(shù)據(jù)的概念已發(fā)展為數(shù)據(jù)量和技術(shù)等在內(nèi)的綜合性概念。工業(yè)和信息化部電信研究院曾在《大數(shù)據(jù)白皮書(2014年)》對大數(shù)據(jù)的概念進行定義,其認為大數(shù)據(jù)是具有體量大、結(jié)構(gòu)異樣、時效強的數(shù)據(jù),且是新資源、新應(yīng)用和新工具的綜合體。在麥肯錫公司報告《大數(shù)據(jù):下一個創(chuàng)新、競爭和生產(chǎn)力的前沿》中提到,大數(shù)據(jù)是數(shù)據(jù)量大小超出傳統(tǒng)信息技術(shù)軟件和數(shù)據(jù)庫管理工具在合理時間內(nèi)的獲取、存儲、分析和管理能力的數(shù)據(jù)集,需特定技術(shù)才能完成其收集和應(yīng)用??傊?,大數(shù)據(jù)是網(wǎng)絡(luò)與存儲、數(shù)據(jù)與算法、決策與管理相交融合的產(chǎn)物。作為互聯(lián)網(wǎng)時代的信息資產(chǎn),大數(shù)據(jù)在被計算機處理后,具有輔助決策、優(yōu)化流程等功能[4]。
大數(shù)據(jù)的特征也是學(xué)術(shù)界和業(yè)界探討的焦點,其是大數(shù)據(jù)的外在表現(xiàn),可為理解大數(shù)據(jù)的概念提供一個形象且直觀的基礎(chǔ)。目前對大數(shù)據(jù)共同特征的界定相對穩(wěn)定,并將大數(shù)據(jù)的特征描述為多個V,如3V、4V、5V等。在2001年,Douglas Laney提出了大數(shù)據(jù)的3V特征,即大容量(Volume)、格式多樣化(Variety)、處理速度快(Velocity)。隨著大數(shù)據(jù)的發(fā)展,不斷有學(xué)者對大數(shù)據(jù)特征提出新的觀點,但都是按照幾個“V”或新增幾個“C”的模式拓展。比如,在Laney所提出3V特征的基礎(chǔ)上新增真實性(Veracity)、有價值(Value)、可視化(Visualization)、虛擬化(Virtual)、易變化(Variability/Volatility)等特征。最終在5V的基礎(chǔ)上增加動態(tài)性(Vitality)、有效性(Validity)、復(fù)雜性(Complexity),形成一個“7V+1C”的特征模式。
本研究提出的基于大數(shù)據(jù)信息管理模式的框架如圖1所示。其可實現(xiàn)全面高效的數(shù)據(jù)收集、存儲、挖掘和分析,并可以利用有價值的信息,并通過信息管理幫助進行有效的決策。
首先提出用于大數(shù)據(jù)存儲、處理和分析的多維混合性的大數(shù)據(jù)架構(gòu),以作為基礎(chǔ)支持信息管理模式的創(chuàng)建。其具體是構(gòu)建計算機體系結(jié)構(gòu),即信息管理模式的總體架構(gòu)。通過查看具體行業(yè)或領(lǐng)域的文獻資料,以確定大數(shù)據(jù)架構(gòu)的核心和非核心組件,這些組件可以反映所創(chuàng)建的信息管理模式的獨特特征[5]。
圖1 基于大數(shù)據(jù)信息管理模式的框架
接著創(chuàng)建數(shù)據(jù)倉庫和云計算平臺,其以標(biāo)準(zhǔn)數(shù)據(jù)格式統(tǒng)一存儲從多來源收集且經(jīng)數(shù)據(jù)清洗和初步處理后的高度異構(gòu)的數(shù)據(jù)。這些海量數(shù)據(jù)通過并行可擴展存儲的方式分別存儲在集成數(shù)據(jù)庫和云倉庫平臺中。可采用關(guān)系數(shù)據(jù)庫技術(shù)來創(chuàng)建數(shù)據(jù)庫,以有效存儲有明顯價值的信息。可采用分布式數(shù)據(jù)庫技術(shù)來創(chuàng)建云倉庫,以有效存儲有潛在價值的信息。
下一步創(chuàng)建大數(shù)據(jù)處理模型來處理在數(shù)據(jù)庫和云倉庫中獲取和存儲的數(shù)據(jù),以將質(zhì)量較差的數(shù)據(jù)處理成完整性、一致性、準(zhǔn)確性和時效性都滿足標(biāo)準(zhǔn)的高質(zhì)量數(shù)據(jù),從而為下一階段大數(shù)據(jù)分析做準(zhǔn)備。未經(jīng)處理的原始數(shù)據(jù)數(shù)量龐雜、形式異樣,故大數(shù)據(jù)處理本質(zhì)是將低質(zhì)量數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量數(shù)據(jù),并需要根據(jù)行業(yè)或領(lǐng)域權(quán)威專家的分析來提前確定數(shù)據(jù)質(zhì)量的評判標(biāo)準(zhǔn)。具體可采用結(jié)構(gòu)化數(shù)據(jù)缺失值替換、非結(jié)構(gòu)化數(shù)據(jù)術(shù)語提取等技術(shù)和Hadoop、MapReduce等工具,來建立模型進行大數(shù)據(jù)處理。
接著建立大數(shù)據(jù)分析平臺,通過分析不同屬性的海量數(shù)據(jù),以從大數(shù)據(jù)中提取隱含的、事先未知但可能有用的信息,挖掘大數(shù)據(jù)中蘊含的價值。存儲在數(shù)據(jù)庫和云倉庫中的數(shù)據(jù)是大數(shù)據(jù)分析的主要數(shù)據(jù)源。
基于大數(shù)據(jù)分析方法來構(gòu)建大數(shù)據(jù)分析平臺的頂層,這些大數(shù)據(jù)分析方法可概括為以下五類,如圖2所示。第一類是描述性分析方法,其通過仔細檢查數(shù)據(jù),并以標(biāo)準(zhǔn)報告和特別報告的形式定義當(dāng)前狀態(tài),并涉及信息的總結(jié)和描述。第二類是探究性分析方法,其是通過檢測數(shù)據(jù)來確定所要解決問題的根本原因。第三類是預(yù)測性分析方法,其和預(yù)測或統(tǒng)計建模相關(guān),基于監(jiān)督、非監(jiān)督和半監(jiān)督的學(xué)習(xí)模型來確定特定事件的未來可能性。第四類是規(guī)定性分析方法,其是評估行動或指令對所要實現(xiàn)的目標(biāo)、要求和約束的影響。第五類是預(yù)防性分析方法,其旨在識別可能存在的風(fēng)險,并及時建議前瞻性的預(yù)防策略[6]。
圖2 大數(shù)據(jù)分析方法
基于大數(shù)據(jù)分析技術(shù)來構(gòu)建大數(shù)據(jù)分析平臺的中層。這些大數(shù)據(jù)分析技術(shù)包括分類分析、聚類分析、異常分析和特定群體分析等數(shù)據(jù)挖掘技術(shù),關(guān)聯(lián)分析、預(yù)測分析、統(tǒng)計分析、智能推薦等深度學(xué)習(xí)技術(shù),以及遺傳算法、人工神經(jīng)網(wǎng)絡(luò)、決策樹等機器學(xué)習(xí)技術(shù)。其也包括文本分析、社交網(wǎng)絡(luò)分析和情感分析等用于文本形式數(shù)據(jù)或社交媒體數(shù)據(jù)的分析技術(shù),和用于分析地理數(shù)據(jù)或Web數(shù)據(jù)的空間分析或點擊流分析技術(shù)等。此外,基于大數(shù)據(jù)分析工具來構(gòu)建大數(shù)據(jù)分析平臺的底層。這些大數(shù)據(jù)分析工具包括Teradata Warehouse Miner、Mahout OLAP和Pentaho等,其可具體執(zhí)行分析預(yù)測等。
圖3 基于大數(shù)據(jù)信息管理模式的運行流程
本研究所提出的基于大數(shù)據(jù)信息管理模式的運行流程具體如圖3所示。最后可通過評估數(shù)據(jù)挖掘和分析所得信息的準(zhǔn)確度和利用率來檢測基于大數(shù)據(jù)信息管理模式的有效性,從而對整體大數(shù)據(jù)架構(gòu)進行完善。
[1]黃其松,邱龍云,馮媛媛.大數(shù)據(jù)驅(qū)動的要素與結(jié)構(gòu):一個理論模型[J].電子政務(wù),2020(04):49-57.
[2]李曉華,王怡帆.數(shù)據(jù)價值鏈與價值創(chuàng)造機制研究[J].經(jīng)濟縱橫,2020(11):54-62+2.
[3]王建冬,童楠楠.數(shù)字經(jīng)濟背景下數(shù)據(jù)與其他生產(chǎn)要素的協(xié)同聯(lián)動機制研究[J].電子政務(wù),2020(03):22-31.
[4]許憲春,王洋.大數(shù)據(jù)在企業(yè)生產(chǎn)經(jīng)營中的應(yīng)用[J].改革,2021(01):18-35.
[5]易成岐,竇悅,陳東,等.全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系:總體框架與戰(zhàn)略價值[J].電子政務(wù),2021(06):2-10.
[6]王璟璇,竇悅,黃倩倩,等.全國一體化大數(shù)據(jù)中心引領(lǐng)下超大規(guī)模數(shù)據(jù)要素市場的體系架構(gòu)與推進路徑[J].電子政務(wù),2021(06):20-28.
[7]李鑫,史天運,馬小寧,等.鐵路機務(wù)大數(shù)據(jù)應(yīng)用系統(tǒng)設(shè)計研究[J].鐵道運輸與經(jīng)濟,2021,43(02):88-95.
河南財政金融學(xué)院青年基金項目:基于IPv6超大地址空間網(wǎng)絡(luò)中轉(zhuǎn)發(fā)設(shè)備流表壓縮機制研究(編號:HNCJQN-2021-024);鄭州市2021年度社會科學(xué)調(diào)研課題:鄭州現(xiàn)代化韌性城市建設(shè)研究