厲蕊 陳素梅 陳豪
[摘 要]大數(shù)據(jù)已經(jīng)是包羅萬象,滲透到社會發(fā)展的很多領(lǐng)域,并且還在不斷擴(kuò)大中。大數(shù)據(jù)研究的難點在于提取數(shù)據(jù),數(shù)據(jù)提取的核心在于網(wǎng)絡(luò)中的相關(guān)關(guān)系,而勢科學(xué)理論中的信息作用機制的“差別與聯(lián)系”也體現(xiàn)了相關(guān)關(guān)系。通過計算與比較各種數(shù)據(jù)維度的信息勢,就能有效認(rèn)識大數(shù)據(jù)中各數(shù)據(jù)維度的相關(guān)關(guān)系,從而提高知識的提取能力。
[關(guān)鍵詞]大數(shù)據(jù);數(shù)據(jù)挖掘;勢科學(xué)
doi:10.3969/j.issn.1673 - 0194.2017.24.088
[中圖分類號]TP311.13 [文獻(xiàn)標(biāo)識碼]A [文章編號]1673-0194(2017)24-0-02
1 大數(shù)據(jù)概述
大數(shù)據(jù)泛指巨量的數(shù)據(jù)集,記錄了眾多信息主體的狀態(tài)、特征、行為、偏好和思想等方面,因可從中挖掘出有價值的信息而受到全世界關(guān)注。國外對大數(shù)據(jù)的權(quán)威定義為:由科學(xué)儀器、傳感器、互聯(lián)網(wǎng)電子商務(wù)、電子郵件、音視頻軟件和網(wǎng)絡(luò)點擊流等眾多數(shù)據(jù)源生成的大規(guī)模、多元化、復(fù)雜、長期的分布式數(shù)據(jù)集。IBM將大數(shù)據(jù)特性歸納為4V:大量化(Volume),多樣化(Variety),快速化(Velocity)和真實性(Veracity)。
大數(shù)據(jù)的主要用途為進(jìn)行分析預(yù)測和輔助決策,在政府管理、公共服務(wù)、金融投資、商業(yè)分析和企業(yè)管理等領(lǐng)域都已經(jīng)有廣泛應(yīng)用。
大數(shù)據(jù)目前應(yīng)用的主要場景有:驅(qū)動企業(yè)營銷創(chuàng)新,效率提升和策略優(yōu)化,改善客戶體驗和實現(xiàn)實時化,個性化產(chǎn)品與服務(wù)創(chuàng)新以及進(jìn)行風(fēng)險監(jiān)控;幫助政府對重點管理領(lǐng)域進(jìn)行實時跟蹤和分析,提高監(jiān)管和服務(wù)效率;對環(huán)境災(zāi)害和傳染性疾病進(jìn)行提前監(jiān)測,做好災(zāi)害預(yù)警防備和疾病防治。
人們平常說的大數(shù)據(jù)實際上只是簡稱,更準(zhǔn)確的叫法應(yīng)為大數(shù)據(jù)挖掘,不挖掘出大數(shù)據(jù)的價值大數(shù)據(jù)也就沒有用處、沒有意義。麥肯錫(McKinsey)指出大數(shù)據(jù)挖掘是繼云計算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術(shù)變革,大數(shù)據(jù)將是提高創(chuàng)新、競爭、生產(chǎn)力的下一個前沿陣地。
現(xiàn)階段,大數(shù)據(jù)研究與應(yīng)用正從起步階段開始進(jìn)入深化發(fā)展階段,但還有很多技術(shù)難題有待解決,支撐的理論和方法也不夠,研究遠(yuǎn)遠(yuǎn)落后于應(yīng)用的需求。大數(shù)據(jù)挖掘需要處理的數(shù)據(jù)不僅龐大而且多源異構(gòu),有結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),在類型上又分為數(shù)字、文字、圖片、文檔、網(wǎng)頁和視頻等不同種類,并以數(shù)據(jù)流的形式快速、動態(tài)地產(chǎn)生,導(dǎo)致大數(shù)據(jù)各數(shù)據(jù)維度之間的差異懸殊,并缺乏條理性,同時也難以清洗冗余數(shù)據(jù),給大數(shù)據(jù)研究帶來了很大困難。如何從海量、碎片化的大數(shù)據(jù)中提取出知識點進(jìn)行有效融合計算,并解決科研問題,是目前亟待解決的問題,也是當(dāng)前的研究熱點和難點。
2 勢科學(xué)概述
勢科學(xué)是李德昌教授自創(chuàng)的科學(xué)理論,是以信息為基本元的科學(xué)理論,信息是研究一切自然和社會現(xiàn)象及原理的基本元素,勢科學(xué)總結(jié)信息的有序是知識,知識的有序是方法,方法的有序是智慧;知識不是簡單的數(shù)據(jù)累計,而是有序的可以指導(dǎo)實踐的信息。勢科學(xué)理論指出只有既有差別又有聯(lián)系的信息,才是有序的信息,才能從中提取出知識,再將知識融會貫通發(fā)現(xiàn)出規(guī)律從而解決復(fù)雜問題。
勢科學(xué)理論根植于我國傳統(tǒng)文化,也與西方自然科學(xué)理論的研究一脈相承,找到自然科學(xué)研究與社會科學(xué)研究的相同之處,在原理上也具有一致性,因此高度概括出核心概念“勢”。勢=差別×聯(lián)系=差別÷距離,勢即梯度、導(dǎo)數(shù)和斜率,勢科學(xué)的基本作用機制是勢增原理“聯(lián)系擴(kuò)大差別,差別促進(jìn)聯(lián)系”,差別最大即相反,聯(lián)系最大即相同,即相反又相同,則為對稱。對稱是自然界最普適、最高級的狀態(tài),歸于對稱性原理的勢科學(xué)為研究人類社會發(fā)展,提供了具有普適性的動力學(xué)原理。勢科學(xué)理論在中國管理實踐、區(qū)域發(fā)展、企業(yè)治理和高等教育上已經(jīng)取得了豐碩研究成果。
3 勢科學(xué)在大數(shù)據(jù)中的應(yīng)用
3.1 勢科學(xué)視角看大數(shù)據(jù)
從勢科學(xué)視角看大數(shù)據(jù)近幾年的高速發(fā)展來源于:差別促進(jìn)聯(lián)系,聯(lián)系擴(kuò)大差別,“勢趨”不變,推動著大數(shù)據(jù)研究加速擴(kuò)張和加速發(fā)展。另外,因為傳統(tǒng)基于小樣本數(shù)據(jù)挖掘出新的價值越來越難,在追逐創(chuàng)新的驅(qū)動下,針對大數(shù)據(jù)的挖掘順勢而來。在勢科學(xué)理論中,有序的消息稱為信息,信息量或信息勢代表著有序信息的數(shù)量,并定義“創(chuàng)新”是系統(tǒng)過程在信息勢作用下超過某個臨界值,發(fā)生非平衡相變和非線性分叉所產(chǎn)生。正是大數(shù)據(jù)挖掘出的價值具有的信息勢夠大,超過了某個臨界值,所以大數(shù)據(jù)挖掘被視為是重要創(chuàng)新并獲得廣泛追捧。因此在大數(shù)據(jù)研究中,首先要找到信息量大的數(shù)據(jù)維度并根據(jù)研究的問題提取出知識,再通過進(jìn)一步分析挖掘出重要的信息,從而獲得更大的信息勢,產(chǎn)生出創(chuàng)新和帶來更大價值。
3.2 大數(shù)據(jù)重點研究相關(guān)關(guān)系
在小樣本數(shù)據(jù)挖掘中,必須有明確的因果關(guān)系作支撐,才能保證從小樣本數(shù)據(jù)中得到的規(guī)律和價值信息是正確的。但在大數(shù)據(jù)挖掘時,因為樣本規(guī)模巨大、涵蓋廣闊,沒有像小樣本數(shù)據(jù)中那樣以偏概全,所以僅需要分析大數(shù)據(jù)之間的相關(guān)關(guān)系,就能得到正確的結(jié)果。大數(shù)據(jù)主要也是研究相關(guān)關(guān)系,畢竟在大數(shù)據(jù)這種復(fù)雜系統(tǒng)中,要解決的問題也很復(fù)雜,更多時候是眾多相關(guān)因素共同作用下產(chǎn)生出的某種結(jié)果,同時因果關(guān)系只不過是相關(guān)關(guān)系中的特例。例如,股市的漲跌來自于宏觀經(jīng)濟(jì)基本面、市場情緒和政策面等多種相關(guān)因素的共同作用,而不是受某幾個特定的因素決定走勢和結(jié)果。正因為股市受太多相關(guān)因素的共同作用,數(shù)據(jù)量大又變化快,股市漲跌才如此難以預(yù)測。
可見,相關(guān)關(guān)系分析對大數(shù)據(jù)研究意義重大。大數(shù)據(jù)挖掘本質(zhì)就是從紛繁復(fù)雜的多維大數(shù)據(jù)中根據(jù)相關(guān)關(guān)系,用數(shù)學(xué)模型、算法對大數(shù)據(jù)進(jìn)行計算,從而發(fā)現(xiàn)和總結(jié)規(guī)律,并投入實踐產(chǎn)生價值。勢科學(xué)研究的核心問題是信息作用機制,只有相互間有相關(guān)關(guān)系即存在信息阻尼,才能產(chǎn)生作用力,也是重點研究相關(guān)關(guān)系。勢科學(xué)最基本的概念是差別和聯(lián)系,具有高度邏輯性和對稱性,可以用來表示大數(shù)據(jù)各維度數(shù)據(jù)間的相關(guān)關(guān)系的不同側(cè)面。同時,勢增原理“差別促進(jìn)聯(lián)系,聯(lián)系擴(kuò)大差別”,也演繹出大數(shù)據(jù)中相關(guān)信息相互作用于結(jié)果的內(nèi)在動力學(xué)原理。因此,勢科學(xué)理論很適合分析大數(shù)據(jù)內(nèi)部的相關(guān)關(guān)系,通過深入準(zhǔn)確分析相關(guān)關(guān)系,為從中提取出知識和解決科研問題帶來了很大幫助。
3.3 信息勢概念對大數(shù)據(jù)研究的作用
在大數(shù)據(jù)研究中,為了能得到理想結(jié)果,往往會將眾多不同來源的數(shù)據(jù)放在一起研究。此時如果只關(guān)注到數(shù)據(jù)的廣度,會造成數(shù)據(jù)維度太多,分散研究注意力,也會給研究帶來多余的問題,所以有必要消除冗余的數(shù)據(jù)廣度,專注于數(shù)據(jù)的深度。如果通過人為拍腦袋覺得去掉哪些維度數(shù)據(jù),或是決定哪些維度數(shù)據(jù)更重要,這類做法對大數(shù)據(jù)研究來說很不嚴(yán)謹(jǐn),也不科學(xué)。大數(shù)據(jù)科學(xué)的本意就是在黑箱中用科學(xué)理論和方法摸索大數(shù)據(jù),挖掘出潛在價值,人為主觀地干涉越少越好。因此,在數(shù)據(jù)選取和主要性判斷上,需要用更科學(xué)的理論和方法處理。
在信息論中,信息被表達(dá)為負(fù)熵,負(fù)熵即意味著有序,有序構(gòu)成梯度,而梯度就是勢,所以信息等于勢,信息勢等價于有效信息量。如果大數(shù)據(jù)中某個數(shù)據(jù)維度在與內(nèi)部其他數(shù)據(jù)維度相關(guān)關(guān)系上,表現(xiàn)出差別較大而聯(lián)系又較緊,說明它的有效信息量更大即信息勢更大。信息勢更大的數(shù)據(jù)維度所包含的知識也就越多,就能為解決大數(shù)據(jù)科研問題提供更多的知識和更好的選擇,所起的作用也就更大。通過用信息勢來衡量大數(shù)據(jù)中數(shù)據(jù)維度相關(guān)關(guān)系大小,能夠幫助科研人員透過現(xiàn)象看到本質(zhì),更有效地從大數(shù)據(jù)中提取出有用的知識,助力挖掘出大數(shù)據(jù)價值。
4 結(jié) 語
勢科學(xué)的信息作用機制完美演繹了大數(shù)據(jù)內(nèi)部相關(guān)關(guān)系的意義,通過勢科學(xué)分析大數(shù)據(jù)中數(shù)據(jù)維度的信息勢,能夠解析大數(shù)據(jù)網(wǎng)絡(luò)中復(fù)雜的關(guān)系結(jié)構(gòu),能使科研人員更好地研究大數(shù)據(jù)相關(guān)關(guān)系,找到大數(shù)據(jù)中蘊含的不同知識,從而能更好地解決科研問題,讓大數(shù)據(jù)產(chǎn)生出更大的價值。數(shù)據(jù)維度信息勢模型是建立在普適性的基礎(chǔ)上,在眾多不同類型的大數(shù)據(jù)研究中都能用來分析大數(shù)據(jù)中的相關(guān)關(guān)系和發(fā)現(xiàn)規(guī)律,并提取出知識。
對大數(shù)據(jù)和勢科學(xué)的交叉研究還需要繼續(xù)深入下去,研究者在以后的研究中可以利用勢科學(xué)相關(guān)理論,進(jìn)行大數(shù)據(jù)知識融合、知識庫建設(shè)和復(fù)雜問題研究,形成“數(shù)據(jù)-信息-知識-智慧-決策”的一整套完整和科學(xué)的理論與方法體系,助力大數(shù)據(jù)挖掘不斷向前發(fā)展,讓大數(shù)據(jù)的價值更好地展現(xiàn)出來并惠及社會。
主要參考文獻(xiàn)
[1]李德昌.勢科學(xué)視域中管理系統(tǒng)的邏輯機制——從整體直覺到邏輯演繹的中國管理學(xué)研究[J].管理學(xué)報,2008(6).
[2]李德昌,張守鳳.基于信息本質(zhì)的不確定性機制的中國管理實踐研究及評價——勢科學(xué)視角[J].管理學(xué)報,2012(8).