王國胤 李帥 楊潔
信息技術的迅猛發(fā)展開啟了人類通往信息時代的大門,人類進入了大數(shù)據(jù)時代,并正在向智能時代邁進。隨著信息技術的發(fā)展以及各個領域的數(shù)字化和信息化推進,每天都在不同的領域產(chǎn)生大量的數(shù)據(jù),如醫(yī)院、工廠、礦山、政府機構、學校、社交網(wǎng)站、電子商務等。據(jù)估計,人類從發(fā)明文字到公元2006年之間共積累了180 EB(1 EB等于 10億GB)的數(shù)據(jù),另據(jù)互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)估計,2011年全球數(shù)據(jù)總量已經(jīng)達到0.7 ZB(1 ZB等于1萬億GB),2015年全球數(shù)據(jù)總量達到 8.6 ZB,目前全球數(shù)據(jù)的增長速度在每年40%左右,預計到 2020年全球的數(shù)據(jù)總量將達到40 ZB。數(shù)據(jù)的爆炸式增長潛藏著重大的科學價值和巨大的經(jīng)濟利益:一方面,對大數(shù)據(jù)的分析處理可以促進人類對自然世界的認識:另一方面,對大數(shù)據(jù)的挖掘利用可以轉(zhuǎn)化為經(jīng)濟價值的來源。例如,智能交通系統(tǒng)中,使用先進的智能技術對地面交通網(wǎng)絡進行實時、準確、高效的綜合運輸管理:醫(yī)療診斷中,建立包括患者過敏史、用藥史、家族病史和基因在內(nèi)的醫(yī)療大數(shù)據(jù)檔案,為醫(yī)生診斷提供詳細的參考,幫助醫(yī)生開具準確的處方:金融領域中,大數(shù)據(jù)的分析和挖掘能夠幫助投資者獲取新的市場機遇和預測。此外,跨行業(yè)、多領域的大數(shù)據(jù)關聯(lián)分析與挖掘產(chǎn)生的價值更加顯著,顯示出了大數(shù)據(jù)強大的生命力。對大數(shù)據(jù)進行充分的挖掘與分析已經(jīng)成為各國政府、金融界和學界關注的焦點:早在2007年,美國國家航空航天局(NASA)就在向美國能源部和美國國家科學基金會的建議中提到,在大規(guī)??珙I域、異構數(shù)據(jù)中有巨大的機會發(fā)現(xiàn)新知識,并能提供有效的新方法幫助判斷和決策。2012年,世界經(jīng)濟論壇將數(shù)據(jù)列為了與貨幣和黃金同等重要的一種新經(jīng)濟資產(chǎn)。2016年,美國政府啟動了聯(lián)邦大數(shù)據(jù)研究和發(fā)展戰(zhàn)略計劃,旨在開發(fā)大數(shù)據(jù)技術,開展大數(shù)據(jù)應用,并培養(yǎng)下一代大數(shù)據(jù)科學家。近年來,我國也逐漸加大對該領域的研究投入。2017年,國務院發(fā)布《新一代人工智能發(fā)展規(guī)劃》,要求以加快人工智能與經(jīng)濟、社會、國防為主線,以提升新一代人工智能科技創(chuàng)新能力為主攻方向,構建開放協(xié)同的人工智能科技創(chuàng)新體系,把握人工智能技術屬性和社會屬性高度融合的特征,堅持人工智能研發(fā)攻關、產(chǎn)品應用和產(chǎn)業(yè)培育“三位一體”推進,全面支撐科技、經(jīng)濟、社會發(fā)展和國家安全,隨后,工信部發(fā)布《促進新一代人工智能產(chǎn)業(yè)發(fā)展三年行動計劃(2018—2020年)》,從推動產(chǎn)業(yè)發(fā)展的角度,結(jié)合“中國制造2025”,以信息技術與制造技術深度融合為主線,推動新一代人工智能技術的產(chǎn)業(yè)化與集成應用,發(fā)展高端智能產(chǎn)品,夯實核心基礎,提升智能制造水平,完善公共支撐體系。
人工智能有3大學派:符號主義、聯(lián)結(jié)主義和行為主義。人工智能誕生之初,符號主義方法以專家知識驅(qū)動,模擬人類邏輯推演,在定理證明、國際象棋等復雜的智能活動中展現(xiàn)了巨大優(yōu)勢,但由于對專家知識的過分依賴,符號主義往往只能解決特定問題,泛化能力弱,在人工智能中的主導地位逐漸被聯(lián)結(jié)主義所取代。特別是進入大數(shù)據(jù)時代,隨著計算能力的飛速提升,以深度學習為代表的聯(lián)結(jié)主義方法廣泛地應用在各領域,被認為是處理大數(shù)據(jù)的最有效方法。聯(lián)結(jié)主義方法認為模擬人的智能要依靠仿生學,特別是要模擬人腦建立腦模型。認知科學對這一領域的發(fā)展起到了至關重要的作用,啟發(fā)了許多有效的機器學習模型。從不同層次逐級認識世界是人類固有的一種認知機制,在認知計算中,被稱為粒計算。粒度最初是物理學的一個概念,指的是實質(zhì)粒子大小的平均度量。在這里,它被用來度量從不同層次結(jié)構空間中分析和處理數(shù)據(jù)的信息量。作為處理的對象,??梢允侨腥我庾蛹ο?、聚類和元素通過可辨識性、相似性和功能性聚集而成的單元。在粒計算中,所有結(jié)構化的或其誘導出的對象都稱為粒。而用來表示和解釋問題或系統(tǒng)的結(jié)構稱為粒結(jié)構,Layerk表示最細粒度層,其中的每一個點表示數(shù)據(jù)。粒計算具有廣闊的應用背景,如特征選擇和時間序列預測等。
隨著數(shù)據(jù)的爆炸式增長,機器學習也面臨著許多挑戰(zhàn)。其中,最大的問題就是如何解決大數(shù)據(jù) 5V(volume, velocity, variety, value,veracity)特性導致的挑戰(zhàn)。例如,在數(shù)據(jù)獲取階段,原始數(shù)據(jù)中就包含大量的異質(zhì)數(shù)據(jù)、非結(jié)構化數(shù)據(jù)以及不確定性數(shù)據(jù)等。尤其是在處理不確定性數(shù)據(jù)方面,傳統(tǒng)的機器學習往往認為不確定性是一個隨機現(xiàn)象,而忽略了人類的模糊認知機制,只能挖掘到確定知識,無法對不確定知識進行概括;在處理大型數(shù)據(jù)方面,傳統(tǒng)機器學習往往只注重對整體數(shù)據(jù)挖掘,而忽略了人類的分層認知機制,只能挖掘到底層特征,不能挖掘到高層特征。此外,當前的機器學習研究,還沒能夠把不確定性這一物理世界與認知過程的基本特征作為基礎問題進行深入研究,無法解決不確定性顯著、數(shù)據(jù)來源和分布廣泛(“獨立同分布”假設不再適用)等問題。
深度學習框架提供了一個解決以上問題的新方向。首先,它通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。這種分層結(jié)構從全局上能夠解釋神經(jīng)網(wǎng)絡相鄰層之間的關系,以提高訓練效果,但不能從局部上解釋每一個參數(shù)的物理意義:而在多層邏輯神經(jīng)網(wǎng)絡中,盡管局部上每一個神經(jīng)元的邏輯關系都可解釋,但全局上不能達到深度學習的規(guī)模?;貧w問題的本原,本文從粒認知計算的角度出發(fā),融合人類智能問題求解的多粒度思維機制、人類大腦“大范圍優(yōu)先”的認知機制和智能控制系統(tǒng)中“智能計算前置”的信息處理機制,介紹一種知識與數(shù)據(jù)雙向驅(qū)動的多粒度認知計算——數(shù)據(jù)驅(qū)動的粒認知計算(data-driven granular cognitive computing, DGCC)。它結(jié)合了人類“大范圍優(yōu)先”的認知機制,即“由粗到細”認知過程,和機器學習系統(tǒng)“由細到粗”的信息處理機制。
本文組織如下:第1節(jié)介紹認知計算和粒計算的基本概念;第2節(jié)詳細介紹數(shù)據(jù)驅(qū)動的粒認知計算模型(DGCC),討論DGCC模型中需要研究的科學問題;第3節(jié)分析幾個多粒度認知計算的應用案例;最后一節(jié)總結(jié)全文。
認知科學是揭示人類智能和行為的學科,重點研究在神經(jīng)系統(tǒng)和腦機制中,信息的表達、處理和轉(zhuǎn)化。認知計算研究與人類思維方式一致的、統(tǒng)一的、普遍的計算方式,因此,認知計算可以被認為是建立在人工智能和信號處理基礎之上的學科。為了處理復雜的現(xiàn)實世界問題,通過對一些特殊的智能現(xiàn)象(如思維現(xiàn)象、生物現(xiàn)象、自然現(xiàn)象和社會現(xiàn)象等)的觀察,研究者開發(fā)出了許多智能計算模型和機器學習模型:模糊邏輯使得計算機能夠像人類那樣理解自然語言和進行邏輯推理:人工神經(jīng)網(wǎng)絡能夠模仿人腦的機制從經(jīng)驗數(shù)據(jù)中學習知識:演化計算模仿自然界的選擇和進化來尋找最優(yōu)解:群體智能算法模仿生物系統(tǒng)通過系統(tǒng)內(nèi)協(xié)同合作的方式尋找最優(yōu)解:人工免疫算法模仿生物免疫機制對多峰值函數(shù)進行多峰值搜索和全局尋優(yōu):粒計算試圖模擬人類在不同層次上對現(xiàn)實世界進行感知的機制。另有一些研究者試圖對人的思維模式和認知機制設計出一套統(tǒng)一的計算模式。相較于傳統(tǒng)系統(tǒng)而言,基于認知科學設計的系統(tǒng)能夠構建知識、學習知識、理解自然語言、邏輯推理、并與人類進行更加自然地交互。
隨著人工智能和認知科學的不斷發(fā)展,研究者們發(fā)現(xiàn)了人類智能的一個公認特點:在對現(xiàn)實世界問題的認知和處理時,人類往往采取從不同層次觀察和分析問題的策略,從不同層面上觀察和分析同一問題。從哲學的觀點上來看,人類在對任何事物進行認知、度量、形成概念和推理時,粒度思想都貫穿其中。圖靈獎、諾貝爾經(jīng)濟學獎獲得者赫伯特·西蒙教授認為,自然世界和人類社會中,復雜任務通常以層次結(jié)構形式存在,即復雜任務由相互關聯(lián)的子任務組成,每個子任務亦具有層次結(jié)構,直到最低層次的基本任務。1997年,Zadeh教授就指出粒計算是模糊信息?;⒋植诩碚摵蛥^(qū)間計算的超集,是粒數(shù)學的子集。粗糙集等理論提供了具體的粒計算模型,將粒與認知計算中的分類、學習緊密聯(lián)系起來,使得粒計算成為一種快速增長的智能計算范例。粒計算通常被認為是在解決復雜問題中,所使用的粒化理論、方法、技術和工具的總稱。Bargiela和Pedrycz將粒計算視為用于分析和設計人工智能系統(tǒng)的一個概念和算法平臺。Jankowski用粗糙近似對語法、語義等信息粒進行建模。全集和鄰域系統(tǒng)的層次結(jié)構能夠誘導出多粒度結(jié)構。模仿人類在不同粒度層次上感受現(xiàn)實世界的能力,張鈴和張鈸提出了商空間理論,該理論能夠為了滿足特定問題的求解需要,對對象進行不同粒度層的抽象與轉(zhuǎn)換。形式概念分析能夠從一組對象中自動推導出本體,概念格的粒結(jié)構是該理論中知識約簡的重要手段。姚一豫在上述研究成果基礎上,將粒計算歸納為相互補充、互為依賴的三角形關系?;诙ㄐ愿拍詈投繑?shù)據(jù)之間的關系,王國胤基于云模型提出了一種雙向認知計算模型(BCC),用于表示和處理不確定概念的映射關系,將樣本視為概念的外延,使用云模型的3個參數(shù)(期望、熵、超熵)來表示概念的內(nèi)涵:徐計和王國胤提出了生成分層樹的一種自適應聚類方。
模擬人類認知過程,使計算機具備智能處理能力,既可以依賴專家知識,使用形式化的邏輯系統(tǒng)進行推導,也可以從數(shù)據(jù)出發(fā),用數(shù)學模型和算法進行計算。但人類的認知與計算機的數(shù)據(jù)計算之間不一定是完全吻合的。因此,需要研究二者的原理與差異,融合優(yōu)勢,開發(fā)符合人腦認知要求(解決實際問題)的智能計算模型。
計算機的信息處理機制與人類的粒認知機制有著巨大的不同。計算機的信息處理是以集合論、離散數(shù)學等一系列數(shù)學理論為基礎的,因此經(jīng)典的智能計算方法都是通過對原始數(shù)據(jù)分析和計算,提取有價值的信息,解決實際問題。計算機在圖像識別過程中,從單個像素出發(fā),提取圖像特征,輸出分類結(jié)果。從粒計算的角度來看,像素(數(shù)據(jù))是最細粒度的,而特征(知識)是粗粒度的。傳統(tǒng)的機器學習、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)模型都是一個“從細粒度到粗粒度(由細到粗)”的數(shù)據(jù)、信息和知識的轉(zhuǎn)變過程,存在語義代溝的缺陷。如:Olshausen使用一種稀疏編碼網(wǎng)絡模擬人腦視覺感受野 V1層對人臉圖片的簡單特征提取。深度神經(jīng)網(wǎng)絡通過使用更復雜的網(wǎng)絡結(jié)構和更多的連接層數(shù)解決更復雜的問題,能夠?qū)W習到更高層的特征。2015年,Google公司推出的FaceNet,通過直接學習圖像到歐式空間中點的映射,進行人臉識別、人臉驗證和人臉聚類,識別率高達 99.63%。雖然深度學習取得的效果很明顯,但是其花費的代價非常高。
中國科學院生物物理研究所陳霖院士等通過實驗研究發(fā)現(xiàn),人類認知具有“大范圍優(yōu)先”的規(guī)律,視覺系統(tǒng)對全局拓撲特性尤為敏感。“大范圍優(yōu)先”的人類認知規(guī)律,是一個“從粗粒度到細粒度(由粗到細)”的變換過程。人類可以通過寥寥數(shù)筆的漫畫來認出一個動物。人類通常將復雜問題分解成不同粒度層次上的子問題,通過“大范圍優(yōu)先”的認知機制,首先在粗粒度層次上對問題求解,實現(xiàn)對復雜問題的整體把握,再根據(jù)問題求解的需要進行逐步的細化,逐步切換到較細粒度上進行更加深入的分析求解,這一過程稱為多粒度漸進式分解求解機制。分解求解機制可以將復雜問題轉(zhuǎn)化為簡單問題,將抽象問題轉(zhuǎn)化為具體問題,不確定性問題轉(zhuǎn)化為確定性問題。復雜問題轉(zhuǎn)化為簡單問題,就是將一個復雜問題表示為多個相對簡單問題的組合。抽象問題轉(zhuǎn)化為具體問題,就是將一個問題在高層粒度空間的抽象表示,轉(zhuǎn)化為在低層粒度空間的具體表示。人類的這種“由粗到細”的漸進式認知機制,是一種決策行動分解機制,即將對一個問題的認知行為分解成不同階段,在每一個階段都能得到一個相應的認知結(jié)果。目前,人類的這種“由粗到細”的漸進式認知機制研究,在許多領域取得了成功。Choi等人設計了一種長文檔快速查詢的方法,用一個快速的、粗粒度的模型找到查詢的相關區(qū)域,再使用遞歸神經(jīng)網(wǎng)絡(RNN)詳細分析,得出精確的結(jié)果。Fang等人提出了一種融合全局特征和重要局部特征的多粒度框架,處理智能交通系統(tǒng)中車輛識別的問題,通過粗粒度特征上的車輛分類,再從細粒度特征上對車輛進行識別,提高了車輛識別的速度和準確度。Pavlakos等人使用一種“由粗到細”的監(jiān)督框架,融合高維數(shù)據(jù)特征,進行迭代運算,實現(xiàn)單張圖片預測三維人體姿態(tài)。張凱兵等人提出了一種“由粗到細”的方法對單幅圖像進行超分辨率重建。呂健勤等人提出了一種基于粗粒度搜索的人臉對齊框架,對包含不同形狀的形狀空間進行粗略的搜索,并使用粗粒度結(jié)果來約束后續(xù)細粒度上的搜索方案,通過漸進式分解和自適應搜索機制,避免了優(yōu)化中陷入局部最優(yōu)的情況。Cao等人提出了一種“由粗到細”的潛在指紋匹配算法,平衡了準確性和魯棒性。鄧偉輝和王國胤等提出了一種二維高斯云的時間序列?;硎痉椒ǎ瑢⒁粋€復雜的時間序列相似性度量任務分解成若干個“求解一維高斯云相似性”的子任務,實現(xiàn)了計算復雜度低、可理解性強的復雜任務多粒度分解求解。隨著人工智能的發(fā)展和社會需求的不斷提升,機器學習、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)已經(jīng)從處理單一的、簡單的、確定的實際問題轉(zhuǎn)變?yōu)樘幚矶嘣摹碗s的、不確定的問題。因此,如何借鑒人類在觀察、分析和求解問題時的“由粗到細”的漸進式分解求解機制,建立滿足時限約束條件的逐步細化的漸進式多粒度計算模型,逐漸成為人工智能面對的關鍵問題。
在某些條件的限制下(如時間、經(jīng)濟等),人類往往不能一開始就認識到實際問題的全貌,轉(zhuǎn)而從問題的某個局部出發(fā)求解,再根據(jù)限制條件的變化繼續(xù)求解,最終求得全局解。這一“由局部到全局”“由細到粗”的漸進式問題求解機制,也是人類的一種自然行為模式。例如,在醫(yī)療診斷中,醫(yī)生碰到急診病人,往往先根據(jù)初步的局部檢查結(jié)果采取應急手段穩(wěn)定病人病情,然后再對病人進行全面檢查,準確判斷病情,進一步對癥下藥。這一求解機制可以保證在限制條件下,得到當前的局部最優(yōu)解,很大程度上降低了決策代價。生物學上的“非條件反射”、自動化領域的“智能計算前置”和機器學習中的“貪心算法”都是這類“由細到粗”的求解機制。除此之外,如果從相互不依賴的局部開始對問題進行求解,又不會影響彼此的結(jié)果,這將使得“并行計算”成為可能,從而更大限度降低決策的時間代價。一些領域的研究工作中已經(jīng)成功借鑒了“由細到粗”的粒度計算思想。Aluru用智能計算前置的思想,提出了一種適用于序列比較的平行算法,將任務分配到每個處理器上進行計算,降低了空間復雜度。Marcu提出了一種數(shù)據(jù)驅(qū)動的、自下而上的文本處理方法,該方法通過修辭關系的局部一致性約束實現(xiàn)文本的全局一致性。Ferragina提出了一種對字符串前綴編碼進行漸進式匹配的預搜索算法,提高了搜索效率。Oh等人提出了一種新的S3D圖像質(zhì)量評估算法,該算法在一個深度卷積神經(jīng)網(wǎng)絡模型中加入一個聚合層,將局部模型訓練出的特征自動聚合到全局上,克服了已有方法的局限性。在處理時態(tài)數(shù)據(jù)的異常檢測問題中,Benkabou等人提出了一種聚類與檢測同時進行的嵌入式方法,對局部聚類實例加權處理后進行異常檢測,再將檢測結(jié)果推廣到全局。徐計和王國胤等人提出了一種基于密度峰值聚類的多粒度聚類模型,為用戶高效地提供當前有效解,并且提供了一種基于局部密度粒度尋優(yōu)的算法,該算法的復雜度與數(shù)據(jù)集的規(guī)模呈線性關系,提高了粒度尋優(yōu)的效率。由此可見,通過這種“由局部到全局”“由細到粗”的漸進式問題求解機制,可以在當前條件的限制下求出問題的可行解,提供決策和指導行為。面對如今快速增長的大數(shù)據(jù)環(huán)境,數(shù)據(jù)信息是不完備的、動態(tài)的,需要在一定時限下做出相應決策,及時提供滿足客戶需要的有效解。因此,如何借鑒這種“由細到粗”“由局部到全局”的漸進式問題求解機制,研究滿足時限約束條件的多粒度漸進式擴張計算模型,也將成為未來大數(shù)據(jù)研究的重要發(fā)展方向。
解決計算機“由細到粗”信息處理機制與人類“由粗到細”認知機制的矛盾,將是研究新型認知啟發(fā)的智能計算模型需要解決的一個關鍵問題。數(shù)據(jù)驅(qū)動的粒認知計算(DGCC)實際上是從數(shù)據(jù)出發(fā),以人類認知事物的分層(多粒度)機制為基礎的計算框架。從認知計算來看,數(shù)據(jù)是知識的外延,知識是數(shù)據(jù)的內(nèi)涵,兩者之間是抽象與具象的關系:從粒計算來看,數(shù)據(jù)是知識在最細粒度上的表現(xiàn),知識是數(shù)據(jù)在粗粒度上的描述,兩者之間是粒度層次切換的關系。
對事物認知和問題求解,人類具有定性和定量雙向推理的能力,特別是對于不確定性信息的處理,人類的邏輯推理比計算機的處理更為靈活和高效。張鈸院士指出,人類在問題求解中具有天生的知識驅(qū)動能力、對不確定性問題的處理優(yōu)勢和對全局整體的感知能力,傳統(tǒng)機器學習具有在數(shù)據(jù)分析處理中的數(shù)據(jù)驅(qū)動能力、高速計算的優(yōu)勢以及對誤差的泛化能力,二者結(jié)合是未來信息處理的發(fā)展趨勢。人機系統(tǒng)理論創(chuàng)建者之一的Fitts教授對人和機器內(nèi)在的優(yōu)缺點進行詳細分析,發(fā)現(xiàn)二者的優(yōu)缺點呈一種互補關系,指出通過融合二者優(yōu)點可以產(chǎn)生性能更優(yōu)良的人機系統(tǒng)。潘云鶴院士認為將數(shù)據(jù)驅(qū)動機器學習方法與人類的常識先驗與隱式直覺有效結(jié)合,可以實現(xiàn)可解釋、更魯棒和更通用的人工智能。鄭南寧院士指出由于人類面臨的許多問題具有不確定性、脆弱性和開放性,任何智能程度的機器都無法完全取代人類,這就需要將人的作用或人的認知模型引入到人工智能系統(tǒng)中,形成混合—增強智能的形態(tài),這種形態(tài)是人工智能或機器智能的可行的、重要的成長模式。早在2000年,Dubois就提出了一種處理數(shù)據(jù)與知識的雙模態(tài)邏輯系統(tǒng),并給出了完備性證明,從而實現(xiàn)了模糊邏輯框架下數(shù)據(jù)驅(qū)動與知識驅(qū)動的融合。Skowron提出了一種基于感知計算的交互式信息系統(tǒng),建立了基于交互式粒計算(interactive granular computing,IRGC)的不完備、不確定信息處理模型。Todorovski提出了一種融合知識驅(qū)動和數(shù)據(jù)驅(qū)動的動態(tài)系統(tǒng)模型框架,將專家知識轉(zhuǎn)化到對候選模型進行選擇。在電力系統(tǒng)檢測中,Zhou將部分專家知識與配電網(wǎng)絡數(shù)據(jù)融合,建立了一種新型的事件檢測方法,將未標記數(shù)據(jù)和部分標記數(shù)據(jù)相結(jié)合,彌補了監(jiān)督學習、半監(jiān)督學習和學習隱藏結(jié)構之間的差距。盡管人類的邏輯推演、抽象化等能力強于計算機,知識驅(qū)動能夠彌補數(shù)據(jù)驅(qū)動中某些缺陷,但囿于人類的思維定勢及心理狀況,人類知識往往伴隨一定程度的主觀性(如模糊),不能全面、客觀地反映數(shù)據(jù)自身所表現(xiàn)出的特征,因此,人機系統(tǒng)還應融合客觀反映數(shù)據(jù)特征的知識。
人機模型中知識與數(shù)據(jù)共同驅(qū)動的認知計算與DGCC中二者的雙向認知計算有本質(zhì)不同。在知識與數(shù)據(jù)共同驅(qū)動的人機模型中,知識來自人類的總結(jié),知識和數(shù)據(jù)呈現(xiàn)一種平行結(jié)構,二者在認知過程中是互補關系。在DGCC中,知識與數(shù)據(jù)是一種層次結(jié)構,從低粒度層次向高粒度層次的變換由數(shù)據(jù)驅(qū)動,而從高粒度層次向低粒度層次的變換由知識驅(qū)動。
建立數(shù)據(jù)驅(qū)動的粒認知計算模型,實現(xiàn)數(shù)據(jù)與知識雙向驅(qū)動和變換,有下述3個方面的科學問題需要研究。
2.1.1 數(shù)據(jù)、信息與知識的多粒度表達在傳統(tǒng)的多粒度認知計算模型中,數(shù)據(jù)、信息和知識是被區(qū)別對待的,數(shù)據(jù)在最底層,信息在中間層,知識在高層。而在數(shù)據(jù)驅(qū)動的粒認知計算中,將數(shù)據(jù)作為知識的一種編碼格式,需要構造一個通用的多粒度結(jié)構對數(shù)據(jù)、信息和知識進行表達,形成一個分層的多粒度空間對三者進行編碼。
2.1.2 多粒度空間中的不確定性變換一般來說,高粒度層上的概念(信息和知識)比低粒度層上的概念(信息和知識)更具有不確定性。在大數(shù)據(jù)環(huán)境下,由于低粒度層是對對象的局部進行描述,在低粒度層數(shù)據(jù)抽象為高粒度層信息的過程中,通常伴隨著不確定性的增長。反之,在從高粒度層向低粒度層變換的問題求解過程中,解的不確定性也可能相應增加。
2.1.3 多粒度信息知識空間的動態(tài)演化機制現(xiàn)實世界的系統(tǒng)往往是動態(tài)的。智能信息系統(tǒng)的數(shù)據(jù)、信息和知識也是動態(tài)的。因此,需要研究多粒度知識空間中的動態(tài)演化機制來處理動態(tài)數(shù)據(jù)、信息和知識。
2.2.1 多粒度聯(lián)合計算模型與問題求解機制數(shù)據(jù)、信息和知識在同一個多粒度空間中進行編碼,可以并行地解決問題。例如,一個公司每天都在不同粒度層上同時作決策。對于不同粒度層上獨立或者相互依賴的決策,需要構造多粒度空間聯(lián)合計算和決策機制。
2.2.2 變粒度有效漸進式計算方法通常,在高粒度層上花費較小的時間代價能夠形成“較粗”的解,而在低粒度層上形成“更精確”的解則要花費較大的時間代價。因此,許多復雜問題可以首先在高粒度層上求出“較粗”的解,再在低粒度層上求出較精確解,這一有效的方法被稱為變粒度漸進式計算。
2.2.3 智能計算前置在一些實際應用中,并不是所有數(shù)據(jù)在開始時就全部可用,此時,需要根據(jù)低粒度層上僅有的部分數(shù)據(jù)做出初步的局部決策,再根據(jù)更多的數(shù)據(jù)輸入,在較高粒度層上形成改善的全局決策。
2.2.4 多粒度分布式機器學習數(shù)據(jù)、信息和知識在同一個多粒度空間中進行編碼,因此,可以進行并行和分布式的學習,而不需要逐層學習。
2.3.1 人類認知機制與機器信息處理機制的融合向上算子和向下算子是數(shù)據(jù)驅(qū)動的粒認知計算中的兩種基本算子,分別模擬了人類“由粗到細”的認知機制和計算機“由細到粗”的信息處理機制,作為雙向認知計算的一種推廣,需要設計一種融合雙向算子功能、便于多粒度空間層次轉(zhuǎn)換的計算模型。
2.3.2 帶遺忘的多粒度聯(lián)想記憶機制計算機的信息儲存機制是機械的,信息在刪除后不能使用。而人腦中存在著遺忘與回憶的機制,可以通過一類雙向認知計算模型實現(xiàn)。在數(shù)據(jù)驅(qū)動的多粒度認知計算中,向上算子能夠通過信息從低粒度層到高粒度層的轉(zhuǎn)換來模擬人類的遺忘過程,向下算子能夠通過信息從高粒度層到低粒度層的轉(zhuǎn)換來模擬人類的聯(lián)想回憶過程。
不確定性是人類認知過程的一個主要特性。云模型是一種重要的不確定性知識表示模型,它使用了3個參數(shù)(期望、熵、超熵)對知識進行描述,融合人類認知過程中隨機與模糊這兩種不確定性,實現(xiàn)知識內(nèi)涵與外延的相互轉(zhuǎn)換。相較于概率模型中的高斯混合模型(GMM),云模型的優(yōu)勢在于使用含混度刻面知識的穩(wěn)定性,使得聚類過程能夠仿照人類的認知,生成不同粒度層上的知識,并通過含混度的約束選擇統(tǒng)一的、被廣泛接受的知識。通過云模型對 ArnetMiner平臺上988645位用戶年齡數(shù)據(jù)形成的多粒度概念??梢钥闯?,在第一層上形成的5個概念相互之間重疊嚴重、含混度高,而在第三層上形成的3個概念重疊少、含混度低,符合人類對年齡概念的認知。
聚類是一種重要的數(shù)據(jù)?;侄危瑢哟尉垲惙椒軌虺浞址从硵?shù)據(jù)的多粒度結(jié)構,不同粒度層上的數(shù)據(jù)聚類能夠模仿人類的認知模式,形成不同粒度層上的概念。密度峰值方法是一種高效的聚類算法,它通過計算數(shù)據(jù)點的局部密度和高密度點間距離的乘積,選擇聚類中心點進行聚類。相較于傳統(tǒng)聚類算法,該算法的聚類過程不需要進行迭代運算,在線性復雜度下能夠?qū)崿F(xiàn)數(shù)據(jù)的快速聚類,可以應用在流媒體圖像識別、動態(tài)網(wǎng)絡識別等許多在線學習的場景。此外,它也能對任意形狀數(shù)據(jù)進行層次聚類。對人工數(shù)據(jù)集5Spiral上的層次聚類結(jié)果,可以看出,選擇不同的“階躍”點,能夠形成不同粒度層上的聚類,并且根據(jù)聚類結(jié)果能夠形成新的數(shù)據(jù)點,該結(jié)果與人工聚類結(jié)果基本一致。這一過程對數(shù)據(jù)的描述本質(zhì)上是“由細到粗”數(shù)據(jù)驅(qū)動的認知過程,而對知識的表達則是“由粗到細”的知識驅(qū)動認知過程。
三支聚類(three-way clustering)是符合人類不確定性認知的一種聚類方法。它將傳統(tǒng)聚類問題中元素與集合的關系拓展為屬于、不屬于以及不確定3種情況,模仿人類在限制條件(時間、經(jīng)濟等)下,用不確定性聚類結(jié)果代替?zhèn)鹘y(tǒng)的確定性聚類結(jié)果的行為,從而提高聚類效率。從DGCC的角度看,三支聚類是一種“由細到粗”的計算方式。隨著網(wǎng)絡信息技術的發(fā)展,各行各業(yè)產(chǎn)生的海量高維復雜數(shù)據(jù)越來越多,屬性維度的上升導致計算量呈現(xiàn)指數(shù)級增長,于洪等人提出了面向高維數(shù)據(jù)的動態(tài)隨機投影三支聚類模型。它利用動態(tài)高斯隨機投影方法,將原始數(shù)據(jù)集投影到多個不同粒度子空間中進行三支聚類,再將各粒度層的聚類結(jié)果進行匯總,得到全局聚類。由于不同粒度空間中,高斯隨機投影的數(shù)據(jù)聚類與全局數(shù)據(jù)聚類的誤差不同,多粒度動態(tài)投影三支聚類有效地平衡不同子空間的聚類結(jié)果與聚類時間。
在工業(yè)流程管控中,企業(yè)的各級管理層時刻都要面對不同的決策問題。面對工業(yè)流程中的大量數(shù)據(jù),各級管理者往往根據(jù)個人經(jīng)驗做出決策,這不僅忽視了流程中的全局信息,也使得決策過分依賴個人經(jīng)驗,缺乏統(tǒng)一標準。通過多粒度知識表達模型構建流程工業(yè)知識的多粒度結(jié)構和動態(tài)演化模型,利用多源、深度信息構建多粒度聯(lián)合決策模型,可以實現(xiàn)不同粒度層次的協(xié)同決策,完成流程工業(yè)知識的自動化。例如,在工業(yè)電解鋁過程控制中,對工業(yè)大數(shù)據(jù)的屬性進行不同粒度層的約簡,通過粒度尋優(yōu)方法找出最優(yōu)粒度層屬性。
水質(zhì)檢測是衡量水資源質(zhì)量的一項重要方法。依據(jù)水質(zhì)檢測數(shù)據(jù)預測水質(zhì)變化趨勢是與人類生活休戚相關的一項工程。目前,水質(zhì)檢測的關鍵數(shù)據(jù)是來自于陸、水、空等多方位檢測平臺,因此,水質(zhì)預測是一個跨領域、多層次的系統(tǒng)工程?;谒|(zhì)檢測大數(shù)據(jù),嚴胡勇等人提出多維云粗糙集混合模型對數(shù)據(jù)進行多粒度建模和預測。該方法能夠降低數(shù)據(jù)規(guī)模,提取定性規(guī)則,定量分析水體富營養(yǎng)化的平均值、均勻性和穩(wěn)定性,相較于其他方法,該模型在對云貴高原湖泊富營養(yǎng)化的預測中獲得了更準確的預測結(jié)果,是水富營養(yǎng)化信息系統(tǒng)的一個很有前景的替代方案,為公用事業(yè)管理部門和操作人員提供了水質(zhì)富營養(yǎng)化的一個定量預測方法。
時間序列預測是一種基于歷史觀測數(shù)據(jù)時序統(tǒng)計的規(guī)律,對事物發(fā)展趨勢做出預測判斷的方法。在股票市場預測、天氣預報和交通流量預測等領域有著廣泛的運用。相較于傳統(tǒng)時間預測模型,模糊時間預測模型能夠更加方便地處理內(nèi)涵模糊以及不完整數(shù)據(jù),適應性更強。結(jié)合多粒度聯(lián)合求解機制的模糊時間序列預測,首先通過自動聚類算法在數(shù)據(jù)的主因子和其他次要因子上形成不同長度的聚類區(qū)間,然后針對每個因子,采用模糊趨勢邏輯關系類(FTLRG)構建模糊趨勢矩陣預測每個粒度層上的模糊趨勢。最后,使用粒子群優(yōu)化(PSO)算法將每個粒度層上的趨勢預測結(jié)果進行整合,得到數(shù)據(jù)的全局趨勢預測。它能夠在不確定性問題中得到高精度的預測結(jié)果。用多粒度模糊時間序列分別對1991年至1999年間的臺灣加權股價指數(shù)(TAIEX)進行預測,其結(jié)果在目前流行的時間序列預測方法中均方根誤差(RMSE)最小,最為合理。
模仿人類的認知機制,構造智能計算模型是人工智能研究的重要方法。本文介紹了一種基于人類認知機制的知識與數(shù)據(jù)雙向驅(qū)動的多粒度計算模型——數(shù)據(jù)驅(qū)動的粒認知計算模型(DGCC),將兩種相互矛盾的認知機制,即“大范圍優(yōu)先”的人類認知機制和數(shù)據(jù)驅(qū)動的“由細到粗”的計算機信息處理機制相結(jié)合。并從 3個方面分析討論了數(shù)據(jù)與知識雙向驅(qū)動、雙向變換的 9個科學問題。從實際應用案例分析中可以看到,對于多粒度空間描述(3.1~3.3)和聯(lián)合求解(3.4~3.6)方面已經(jīng)有一些較為成熟的研究結(jié)果,但對于人機認知機制結(jié)合方面仍有待進一步研究。人類認知除了具有多粒度認知機制外,還具有復雜信息轉(zhuǎn)化、經(jīng)驗學習、概念化、直覺、聯(lián)想記憶等特點,如何使智能系統(tǒng)具備和人類相似的認知行為能力,將是未來人工智能發(fā)展的方向。知識與數(shù)據(jù)雙向驅(qū)動的多粒度認知計算為大數(shù)據(jù)的知識發(fā)現(xiàn)研究提供了一個有效的粒認知計算框架,目前已經(jīng)應用在一些實際生活問題中,如聚類、圖像處理、時間序列預測等。本文所討論的知識與數(shù)據(jù)雙向驅(qū)動的多粒度認知計算模型將有助于研究者提出新的大數(shù)據(jù)智能計算模型與系統(tǒng)。?
(摘自《西北大學學報(自然科學版)》2018年第4期)