吳信東 何進 陸汝鈐 鄭南寧
從大數(shù)據(jù)到大知識:HACE+BigKE
吳信東1,2何進1陸汝鈐3鄭南寧4
大數(shù)據(jù)面向異構(gòu)自治的多源海量數(shù)據(jù),旨在挖掘數(shù)據(jù)間復(fù)雜且演化的關(guān)聯(lián).隨著數(shù)據(jù)采集存儲和互聯(lián)網(wǎng)技術(shù)的發(fā)展,大數(shù)據(jù)分析和應(yīng)用已成為各行各業(yè)的研發(fā)熱點.本文從大數(shù)據(jù)的本質(zhì)特征開始,評述現(xiàn)有的幾種大數(shù)據(jù)模型,包括5V,5R,4P 和HACE定理,同時從知識建模的角度,介紹一種大數(shù)據(jù)知識工程模型BigKE來生成大知識,并對大知識的前景進行展望.
大數(shù)據(jù),知識挖掘,異構(gòu),碎片化知識,在線學(xué)習(xí)
引用格式吳信東,何進,陸汝鈐,鄭南寧.從大數(shù)據(jù)到大知識:HACE+BigKE.自動化學(xué)報,2016,42(7):965-982
隨著互聯(lián)網(wǎng)的不斷發(fā)展,我們可以收集和獲取的數(shù)據(jù)以不可預(yù)計的速度增長.盡管數(shù)據(jù)的收集、存儲和處理技術(shù)還在不斷進步并日趨成熟,但基于如此復(fù)雜的數(shù)據(jù)背景,我們?nèi)匀幻媾R著許多分析和處理數(shù)據(jù)的問題與挑戰(zhàn).因此,大數(shù)據(jù)的分析及其應(yīng)用成為了一大科研熱點.對大數(shù)據(jù)的本質(zhì)特征的概括始于2001年美國高德納公司(Gartner Group)的分析師Laney等提出的3V特征[1].之后IT業(yè)界的科技大廠IBM對其進行了應(yīng)用并加以擴充,獲得了4V或5V:包括了大數(shù)據(jù)巨大的數(shù)據(jù)量(Volume)、快速的分析和處理速度(Velocity)、多樣化的數(shù)據(jù)種類和數(shù)據(jù)來源(Variety)、對商業(yè)領(lǐng)域巨大的價值(Value)和其隱藏知識的真實性(Veracity)[2].大數(shù)據(jù)廣闊的應(yīng)用背景,使其不僅在科研領(lǐng)域,乃至于在商業(yè)、政治、經(jīng)濟、醫(yī)療和文化等多領(lǐng)域內(nèi),都在引發(fā)和領(lǐng)導(dǎo)一場變革.
在網(wǎng)絡(luò)2.0時代,用戶已經(jīng)從被動的信息接受者轉(zhuǎn)變?yōu)橹鲃拥膭?chuàng)造者.一些數(shù)字可以說明這個事實:美國每年的線上零售交易記錄數(shù)量、推特網(wǎng)的發(fā)帖數(shù)量、各大物理實驗室和天文望遠鏡觀測記錄值,就足以產(chǎn)生大約1.2ZB的電子數(shù)據(jù),由此,美國國家科學(xué)基金會(National Science Foundation,NSF)在大數(shù)據(jù)領(lǐng)域的投入也日益增多[3].我們再從數(shù)據(jù)產(chǎn)生速度來看:全球范圍內(nèi),每一秒產(chǎn)生約2.9百萬封電子郵件,同時,Youtube網(wǎng)上可以上傳2.88萬小時的視頻數(shù)據(jù).這些數(shù)據(jù)信息,足夠一個用戶晝夜不息地看上幾年.
這些來自商業(yè)、天文、科學(xué)和工程等多領(lǐng)域的可用數(shù)據(jù)規(guī)模不斷擴大,數(shù)據(jù)從數(shù)兆兆字節(jié)(Terabyte,TB)到數(shù)千兆字節(jié)(Peta-byte,PB)的爆炸式增長,對數(shù)據(jù)和信息的獲取、存儲和處理提出了新的要求.在網(wǎng)絡(luò)2.0和工業(yè)5.0時代的共同作用下,我們應(yīng)當(dāng)注意到,這個龐大的數(shù)據(jù)量有很大一部分是數(shù)據(jù)和信息在向知識的轉(zhuǎn)化過程中生成的,這實際上就是我們主張的大數(shù)據(jù)知識工程的基本思路.文獻[4]中所說的“知識自動化”這一詞源于Fish于2012年出版的Knowledge Automation一書[5],這和我們的大數(shù)據(jù)知識工程的基本思路是一致的.人類直接生產(chǎn)的數(shù)據(jù)形成的網(wǎng)絡(luò)流量不足大部分網(wǎng)站流量的37%,大部分的網(wǎng)絡(luò)數(shù)據(jù)流量是數(shù)據(jù)和信息在向知識轉(zhuǎn)化過程中生成的二次數(shù)據(jù).這種二次數(shù)據(jù)形成的過程可以理解為基于知識的服務(wù)(Knowledge-based services,KBS),這與基于位置的服務(wù)(Location-based services,LBS)、基于信息的服務(wù)(Information-based services)、基于情報的服務(wù)(Intelligence-based services),以及基于任務(wù)的服務(wù)(Task-based services)相類似[4].大數(shù)據(jù)的自動化產(chǎn)生,大數(shù)據(jù)技術(shù)的廣泛應(yīng)用對有用知識的自動產(chǎn)生和獲取提出了進一步的要求:更高水平的大數(shù)據(jù)知識工程,更好的“惡意(Malicious)”過濾機制以及更合理的知識評價體系.
近幾年,人們對“大數(shù)據(jù)”一詞似乎不再是那么陌生.在數(shù)據(jù)挖掘和人工智能等科研領(lǐng)域內(nèi),大數(shù)據(jù)的擴散速度隨著相關(guān)研究的增多而加快.研究者們逐漸認(rèn)識到,具有大數(shù)據(jù)特征的數(shù)據(jù)資源,除去其固有的龐大的信息量,似乎還可以挖掘出無法用我們現(xiàn)有的計算標(biāo)準(zhǔn)得出的隱含的“大知識”,這些有用的知識我們無法快速、高效地處理和分析,因此產(chǎn)生了一系列新的問題和挑戰(zhàn).值得注意的是,大數(shù)據(jù)的價值絕不僅僅是巨大的數(shù)據(jù)量而已,雖然僅憑數(shù)據(jù)集的擴充,確實能提升現(xiàn)有的統(tǒng)計和分析工作的精確度.但是,對于大知識的發(fā)現(xiàn)和表示,僅僅通過提升對龐大數(shù)據(jù)的收集和存儲能力是不足夠的,這些數(shù)據(jù)還包含對數(shù)據(jù)表示等方面的可伸縮性、數(shù)據(jù)分析算法本身的改進需求[6].
海量數(shù)據(jù)的收集和大數(shù)據(jù)知識發(fā)現(xiàn)技術(shù)可以應(yīng)用到多個領(lǐng)域.在科學(xué)研究方面,目前國內(nèi)外的天文學(xué)研究中海量數(shù)據(jù)的收集和應(yīng)用已經(jīng)非常普遍.舉例來說,美國斯隆數(shù)字巡天項目(Sloan digital sky survey,SDSS)中所產(chǎn)生的海量的天文數(shù)據(jù)遠遠超出了預(yù)期,至今其所收集的數(shù)據(jù)已多達140TB之多[7].專業(yè)的科研領(lǐng)域內(nèi),除了天文學(xué)的大量觀測數(shù)據(jù)的應(yīng)用,移動終端等傳感器產(chǎn)生的大數(shù)據(jù)也頗為重要:大數(shù)據(jù)地理信息系統(tǒng)(Geographic information system,GIS)的構(gòu)建、地震的勘探、雷達等非結(jié)構(gòu)化信息的應(yīng)用價值都不容小覷.從政府推進力度來看,美國將大數(shù)據(jù)作為事關(guān)國家戰(zhàn)略和國家核心競爭力的問題,并于2012年3月推出了“大數(shù)據(jù)的研究與發(fā)展倡議”,這也讓人看到了大數(shù)據(jù)應(yīng)用廣闊的前景.除去科研工作,文化領(lǐng)域也受到了大數(shù)據(jù)的影響.微軟紐約研究院的經(jīng)濟學(xué)家David Rothschild利用大數(shù)據(jù)技術(shù),成功預(yù)測了2013年24個奧斯卡獎項中的19個,這一實例成為人們津津樂道的話題.2014年,David Rothschild再次成功預(yù)測第86屆奧斯卡24個獎項中的21個,大數(shù)據(jù)知識的價值由此可見一斑.除了各行業(yè)領(lǐng)域內(nèi)的應(yīng)用,大數(shù)據(jù)精準(zhǔn)的預(yù)測和分析手段、對用戶的行為模式和偏好行為的挖掘、對商業(yè)和金融決策的意義,以及在信息安全方面都能給現(xiàn)有的數(shù)據(jù)和信息處理模式帶來變革.
然而,利用現(xiàn)有的數(shù)據(jù)處理手段,我們無法發(fā)揮出大數(shù)據(jù)真正的價值,大數(shù)據(jù)的本質(zhì)特征為我們在分析和應(yīng)用上帶來了一系列的問題.大數(shù)據(jù)帶來的挑戰(zhàn)問題,已經(jīng)不僅僅是單純意義上的數(shù)據(jù)規(guī)模的巨大,還包含了對大數(shù)據(jù)分析技術(shù)的改進問題,從而滿足越來越多樣化的對個性化服務(wù)和知識導(dǎo)航的需求.接下來我們需要考慮的是如何從海量的數(shù)據(jù)中提取和分析出有價值的知識,這也是對大數(shù)據(jù)進行研究的重要意義之一.
從數(shù)據(jù)量來說,大數(shù)據(jù)龐大的數(shù)據(jù)量已經(jīng)無法通過已有模型和計算平臺簡單處理,面對大數(shù)據(jù)的數(shù)據(jù)規(guī)模,我們無法單純依靠并行計算和硬件方面的提升去突破計算平臺上的瓶頸.例如,網(wǎng)絡(luò)、電視、報紙等眾多數(shù)據(jù)來源產(chǎn)生了不同結(jié)構(gòu)的異構(gòu)數(shù)據(jù),我們的首要挑戰(zhàn)就是從這些看似雜亂無章的數(shù)據(jù)中提取出真正對我們后面的工作和預(yù)測有價值的數(shù)據(jù)信息,選擇合適的過濾機制[8].面對鋪天蓋地的數(shù)據(jù)資源,我們需要的不再是通篇的文字、聲音或者是圖像信息,數(shù)據(jù)的規(guī)模和數(shù)量在不斷增長,但無用數(shù)據(jù)的存在導(dǎo)致數(shù)據(jù)的價值并不會成比例增長.針對這個問題,現(xiàn)有的篩選機制對大數(shù)據(jù)的提取和分析顯得尤為困難和低效.由此,在大數(shù)據(jù)環(huán)境下的數(shù)據(jù)的預(yù)處理和清洗也具有更高的要求.數(shù)據(jù)的清洗過程既要過濾無用的數(shù)據(jù),也要保留對大知識提取有用的信息.對大數(shù)據(jù)的知識處理來說,通過一個穩(wěn)定高效數(shù)據(jù)計算和清洗平臺,經(jīng)過數(shù)據(jù)預(yù)處理過程,得到高質(zhì)量的數(shù)據(jù)集合進行下一步分析是關(guān)鍵的一步.
從大數(shù)據(jù)的產(chǎn)生和獲取來源來說,盡管網(wǎng)絡(luò)規(guī)模的擴張為我們獲取信息帶來了便利,但復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)和獲取信息途徑的多樣化,使得數(shù)據(jù)的異構(gòu)問題日益凸顯.異構(gòu)數(shù)據(jù)在數(shù)據(jù)的存儲和表示上產(chǎn)生了困難,單一的數(shù)據(jù)表示和存儲已經(jīng)無法滿足需求.數(shù)據(jù)的分析工作的價值遠遠高于簡單的定位和識別,數(shù)據(jù)間復(fù)雜的語義聯(lián)系以及不同結(jié)構(gòu)的數(shù)據(jù),需要我們尋找一種標(biāo)準(zhǔn)化的數(shù)據(jù)的表示方式.標(biāo)準(zhǔn)化的數(shù)據(jù)表示形式的定義本身就存在相當(dāng)大的挑戰(zhàn),這也會涉及到在對異構(gòu)數(shù)據(jù)的集成過程中需要對大規(guī)模數(shù)據(jù)集進行數(shù)據(jù)的轉(zhuǎn)換[9].以社交網(wǎng)絡(luò)中的大數(shù)據(jù)分析為例,通過對網(wǎng)絡(luò)結(jié)構(gòu)的刻畫形式的改進,我們集成多個網(wǎng)站上的異構(gòu)自治信息源,可能包括用戶發(fā)送的微博、評論或者是上傳的圖片、音頻等信息,足以描繪出一個合理的網(wǎng)絡(luò)結(jié)構(gòu)描述數(shù)據(jù)間的語義關(guān)聯(lián).
從我們分析大數(shù)據(jù)的最終目的來說,落實到實際應(yīng)用上,我們關(guān)心的是大數(shù)據(jù)能夠提供的服務(wù),這些服務(wù)需要分析數(shù)據(jù)間的結(jié)構(gòu)和關(guān)聯(lián),面對簡單的數(shù)據(jù),數(shù)據(jù)之間不存在動態(tài)的演化,相應(yīng)的知識挖掘和數(shù)據(jù)關(guān)聯(lián)就易于發(fā)現(xiàn)和表示.因此,從以數(shù)據(jù)流形式到來的大數(shù)據(jù)中獲取知識,到近期的大數(shù)據(jù)知識工程模式,都具有實時數(shù)據(jù)處理和更新數(shù)據(jù)的動態(tài)演變內(nèi)容的需求,其所得到的知識相較于單一數(shù)據(jù)也更具價值.舉例來說,包括社區(qū)智能需求和提升個性化服務(wù)[10]等以大數(shù)據(jù)知識為基礎(chǔ)的導(dǎo)航服務(wù),在社會服務(wù)和個性化需求上具有更精準(zhǔn)的導(dǎo)向.
通過大數(shù)據(jù)知識工程,我們旨在獲取大數(shù)據(jù)中的“大知識”:大知識從異構(gòu)、自治的大數(shù)據(jù)開始,挖掘包括數(shù)據(jù)流和特征流的多源海量數(shù)據(jù)以發(fā)現(xiàn)數(shù)據(jù)對象之間復(fù)雜且演化的關(guān)聯(lián),通過大數(shù)據(jù)知識工程,以用戶需求為導(dǎo)向,提供具有個性化和實時使用價值的知識服務(wù).大知識源于大數(shù)據(jù),通過大數(shù)據(jù)知識工程的方法進行提取和處理.數(shù)據(jù)流和特征流有別于傳統(tǒng)的單個靜態(tài)數(shù)據(jù)源,以流的形式快速到來的大數(shù)據(jù)對實時性具有很高的要求,數(shù)據(jù)之間的關(guān)聯(lián)性和特征形成的特征流數(shù)據(jù)提出了新的數(shù)據(jù)挖掘和處理問題.因此,為了獲取大知識,我們需要了解大數(shù)據(jù)的本質(zhì)特征和現(xiàn)有的大數(shù)據(jù)的一些挑戰(zhàn)問題.
針對大數(shù)據(jù)的幾大本質(zhì)特征,研究者們提出了幾種目前被廣泛接受的大數(shù)據(jù)模型,包括5V、5R、4P和HACE定理.這幾個模型分別從不同的角度提出了在進行大數(shù)據(jù)分析和處理的過程中需重點關(guān)注的挑戰(zhàn),其中HACE還對大數(shù)據(jù)挖掘提出了一種可行的多層框架.IBM的5V模型著眼于大數(shù)據(jù)的核心特征,注重以先進技術(shù)提高大數(shù)據(jù)的質(zhì)量以得到有價值的知識,每個V的維度都包含大數(shù)據(jù)工作中某一方面的嚴(yán)峻挑戰(zhàn)[11].5R模型從大數(shù)據(jù)的管理建模的角度,注重大數(shù)據(jù)對于商業(yè)決策和商業(yè)回報的價值,同時它也是本文介紹的大數(shù)據(jù)知識工程模型BigKE的支撐[12].4P醫(yī)學(xué)模型基于現(xiàn)有的4P醫(yī)學(xué)模式,包含預(yù)測性(Predictive)、預(yù)防性(Preventive)、個體化(Personalized)和參與性(Participatory)四個維度[13].4P醫(yī)學(xué)模型在強調(diào)專家知識的重要性的同時,著眼于社會網(wǎng)絡(luò)和個人信息的參與性.然而,專家知識和新加入的社會與個人因素同樣產(chǎn)生了異構(gòu)自治數(shù)據(jù)源和碎片化知識提取的問題,這為大數(shù)據(jù)的數(shù)據(jù)集成以及碎片化知識的融合提出了新的技術(shù)要求[14].大數(shù)據(jù)的HACE定理考慮了大數(shù)據(jù)的本質(zhì)特征,包含了海量、異構(gòu)、分布和分散式控制的自治源、數(shù)據(jù)間復(fù)雜和演化的關(guān)聯(lián)等大數(shù)據(jù)的典型特征[15],但是HACE定理也沒有提出系統(tǒng)地解決碎片化知識的非線性融合問題的方法.
針對以上現(xiàn)有的大數(shù)據(jù)模型及其存在的問題,本文從知識建模的角度介紹大數(shù)據(jù)知識工程模型BigKE.該模型針對海量異構(gòu)數(shù)據(jù)中的碎片化知識的非線性融合問題,提出了從數(shù)據(jù)流和特征流的在線學(xué)習(xí)為開端,利用非線性知識融合手段形成有價值的知識圖譜,并以此為基礎(chǔ)以滿足需求為導(dǎo)向的知識服務(wù)的三層知識工程框架.BigKE模型能夠一定程度上應(yīng)對大數(shù)據(jù)特征帶來的知識工程的挑戰(zhàn),從而在碎片化知識中提取出有價值的大知識,最終滿足大數(shù)據(jù)用戶的個性化需求.
本文安排如下:第1節(jié)介紹大數(shù)據(jù)的本質(zhì)特征和知識工程的研究進展,包括對現(xiàn)有的5V模型、5R模型、4P醫(yī)學(xué)模型和HACE定理進行闡述,這一節(jié)中對HACE定理的大數(shù)據(jù)多層處理框架做較為詳細的介紹.第2節(jié),介紹大數(shù)據(jù)知識工程的概念,并對大數(shù)據(jù)背景下知識工程研究中的挑戰(zhàn)問題做一些闡述.第3節(jié)中,我們從知識建模的角度,詳細介紹一種大數(shù)據(jù)知識工程模型BigKE.第4節(jié)中,我們總結(jié)現(xiàn)有的大數(shù)據(jù)模型以及大數(shù)據(jù)知識工程模型BigKE,討論BigKE模型后大知識的挑戰(zhàn)問題和應(yīng)用前景.最后,我們對從大數(shù)據(jù)到大知識的過程做出總結(jié).
1.1大數(shù)據(jù)的本質(zhì)特征
隨著云計算、互聯(lián)網(wǎng)、各種移動設(shè)備與物聯(lián)網(wǎng)的發(fā)展和普及,大數(shù)據(jù)已經(jīng)成為一個耳熟能詳?shù)母拍?互聯(lián)網(wǎng)的擴張,使得人人都能感受到大數(shù)據(jù)的存在,但各個領(lǐng)域?qū)Α熬烤故裁词谴髷?shù)據(jù)”或者“具備怎樣特征的數(shù)據(jù)可以稱為大數(shù)據(jù)”的問題,都有各自不同的定義和理解.早在20世紀(jì)90年代,被稱為“數(shù)據(jù)倉庫之父”的Bill Inmon就開始關(guān)注大數(shù)據(jù)了,只是當(dāng)時的大數(shù)據(jù)還被稱作海量數(shù)據(jù).維基百科和國際數(shù)據(jù)公司(International Data Corporation,IDC)對大數(shù)據(jù)分別做出了各自的闡述[16-17].簡而言之,大數(shù)據(jù)是無法在合理的時間內(nèi),利用我們現(xiàn)有的數(shù)據(jù)處理手段,對其進行諸如存儲、管理、抓取等分析和處理的數(shù)據(jù)集合.
隨著大數(shù)據(jù)科研項目的深入展開,我們對大數(shù)據(jù)的定義,以及對大數(shù)據(jù)蘊含的知識價值的認(rèn)識,從最初單純意義的“大體量”逐漸有了更深層次的闡述.實際上,大數(shù)據(jù)之“大”包含了數(shù)量與其蘊含的知識的價值兩個方面,大數(shù)據(jù)知識的目標(biāo)和價值體現(xiàn)在對數(shù)據(jù)進行分析和處理之后,加工后的數(shù)據(jù)在商業(yè)、科學(xué)、工程、教育、醫(yī)療和整個社會領(lǐng)域內(nèi)的決策有著重要的導(dǎo)向意義[18].
為了從大數(shù)據(jù)中獲取有價值的知識,我們首先需要了解大數(shù)據(jù)的特征.大數(shù)據(jù)的本質(zhì)特征與大數(shù)據(jù)的來源密切相關(guān).首先值得關(guān)注的是大數(shù)據(jù)的大數(shù)據(jù)量.隨著互聯(lián)網(wǎng)、云計算、物聯(lián)網(wǎng)等技術(shù)的發(fā)展,網(wǎng)絡(luò)空間中數(shù)據(jù)的規(guī)模不斷增加,數(shù)據(jù)的計量從GB、TB、PB增長到EB和ZB的規(guī)模.IDC研究報告顯示,全球大數(shù)據(jù)的數(shù)量規(guī)模在未來50年內(nèi)會增加50倍,管理數(shù)據(jù)倉庫的服務(wù)器的數(shù)量將增加10倍以適應(yīng)于大數(shù)據(jù)數(shù)量規(guī)模的50倍增長[19].在此之前,由于數(shù)據(jù)的來源和數(shù)據(jù)的形式較為單一,數(shù)據(jù)的獲取、存儲和挖掘的方法也相對比較單一,從數(shù)據(jù)中獲取知識的工作的復(fù)雜度也沒有提升.大數(shù)據(jù)的處理和知識發(fā)現(xiàn)與獲取,對算法的實時性具有較高的要求,這也是由于大數(shù)據(jù)的海量特征.實時處理的數(shù)據(jù)計算方法通常和流式計算相結(jié)合,并且采用查詢分類計算以提高響應(yīng)的性能.而傳統(tǒng)的批處理計算和復(fù)雜數(shù)據(jù)挖掘計算則是非實時計算,這就無法與大數(shù)據(jù)的海量特征相適應(yīng),對大數(shù)據(jù)的處理和計算平臺有了新的要求和挑戰(zhàn).
隨著多種新型的數(shù)據(jù)獲取渠道的出現(xiàn),不僅僅是音頻、視頻、廣播、電視等多種媒體的混合,包括復(fù)雜的網(wǎng)絡(luò)在內(nèi)的信息來源,都顯示出大數(shù)據(jù)的一個典型特征:異構(gòu)和多維度.高維大數(shù)據(jù)的分布還產(chǎn)生了稀疏子空間聚類的問題.大數(shù)據(jù)在高維通常分布在多個低維子空間的并上,因此高維的數(shù)據(jù)在適當(dāng)字典下的表示具有稀疏性[20].這需要我們尋找到合適的處理高維數(shù)據(jù)的聚類和分類的方法.舉個例子來說,如果發(fā)生了一個熱門的新聞事件,那么在網(wǎng)絡(luò)、電視、報紙等多個平臺上就會引發(fā)熱議.大眾對于事件的評價標(biāo)準(zhǔn)和意見各不相同,信息和數(shù)據(jù)產(chǎn)生的形式可能是微博、視頻、音頻等.不同的信息源產(chǎn)生的數(shù)據(jù)一般沒有使用統(tǒng)一的數(shù)據(jù)收集、記錄、存儲和表達形式,這使得異構(gòu)的大數(shù)據(jù)在處理的過程中產(chǎn)生了諸多問題與挑戰(zhàn),對數(shù)據(jù)的轉(zhuǎn)換和集成提出了更高的要求.
多樣化的數(shù)據(jù)來源產(chǎn)生了大數(shù)據(jù)的異構(gòu)性問題,當(dāng)大數(shù)據(jù)投入到實際應(yīng)用之中,各個數(shù)據(jù)源在產(chǎn)生和收集數(shù)據(jù)的時候相互獨立,如同互聯(lián)網(wǎng)中的自治系統(tǒng),能夠自主地決定本網(wǎng)絡(luò)中使用何種路由協(xié)議一樣.這樣的數(shù)據(jù)特征顯示出大數(shù)據(jù)的另一個本質(zhì)特征:分布式和分散式控制的自治數(shù)據(jù)源.這些自治的數(shù)據(jù)源沒有集中式控制,能夠自主地決定產(chǎn)生和收集的數(shù)據(jù)存儲和表示的形式.這在一定程度上使得數(shù)據(jù)之間的關(guān)聯(lián)度有所下降,也在一定程度上提升了數(shù)據(jù)和用戶信息的安全性.但這些自治源仍然帶有分布式和分散式控制.隨著云計算和云終端的普及,分布式控制方面的應(yīng)用融入到生活的各個方面,同樣也保障了對于大數(shù)據(jù)驚人的規(guī)模增長同步的數(shù)據(jù)處理和分析能力的提升[21].在工業(yè)運用上,以太網(wǎng)的計算機分散式控制也在電力系統(tǒng)上得到了應(yīng)用[22].分散式控制過程中數(shù)據(jù)的安全提升了、數(shù)據(jù)處理的簡便性增加了,這使得在復(fù)雜的大數(shù)據(jù)環(huán)境和數(shù)據(jù)規(guī)模較大的控制環(huán)境下,能夠很好地適應(yīng)數(shù)據(jù)分析和處理的需要.
同樣,由于大數(shù)據(jù)龐大的數(shù)據(jù)規(guī)模及其數(shù)據(jù)源的異構(gòu)性和自治性,數(shù)據(jù)間的關(guān)聯(lián)顯得更為復(fù)雜,隨著時間的推進,數(shù)據(jù)之間的關(guān)聯(lián)也會發(fā)生演化.網(wǎng)絡(luò)環(huán)境下的大數(shù)據(jù)信息則顯得更加難以發(fā)現(xiàn),數(shù)據(jù)下隱藏的關(guān)鍵信息可能會有所重合,并隨著時間的推進發(fā)生演化.大數(shù)據(jù)之間復(fù)雜和演化的關(guān)聯(lián)的發(fā)現(xiàn)和早期集中式控制的信息系統(tǒng)有著明顯的區(qū)分,數(shù)據(jù)的內(nèi)容無法再簡單地由幾個給定的特征值表示出來,異構(gòu)的數(shù)據(jù)無法統(tǒng)一其表示形式,因而數(shù)據(jù)關(guān)聯(lián)的發(fā)現(xiàn)和處理難度大大提升.大數(shù)據(jù)的這一特征在社交網(wǎng)絡(luò)中得到了充分的表現(xiàn),用戶之間敵對或者友好的關(guān)系,為我們對數(shù)據(jù)的聚合和分類提供了可能性[23].社交網(wǎng)絡(luò)擁有龐大的用戶群,每日產(chǎn)生大量的圖片和文字信息,網(wǎng)絡(luò)上充斥著各種形式不一的文本和音視頻信息.微博、推特、豆瓣等常見的社交平臺上朋友圈之間和粉絲之間的聯(lián)系隱藏了各種有用的信息,包括事件的預(yù)測、真實性等.用戶在搜索引擎中搜索的信息,也如實反映出了社交網(wǎng)絡(luò)中數(shù)據(jù)的流動和演化傾向.
1.2大數(shù)據(jù)特征:5V模型
2001年,Gartner公司的數(shù)據(jù)分析師Laney首次從大數(shù)據(jù)特征的角度明確定義了大數(shù)據(jù),強調(diào)了大數(shù)據(jù)的3V特征,即海量(Volume)、快速(Velocity)與多樣化(Variety)[24].在3V的理論基礎(chǔ)上,IBM公司相繼提出了大數(shù)據(jù)的4V和5V模型,新加入了大數(shù)據(jù)的真實性(Veracity)與價值(Value)維度[2,25].IBM的這種5V模型同樣是著眼于大數(shù)據(jù)的本質(zhì)特征,反映出大數(shù)據(jù)規(guī)模巨大、數(shù)據(jù)的產(chǎn)生速度極快、數(shù)據(jù)的結(jié)構(gòu)和框架不一致、數(shù)據(jù)的安全和隱私問題.因此,我們需要更優(yōu)良的數(shù)據(jù)運算方法和平臺,以面對快速產(chǎn)生的數(shù)據(jù)流數(shù)據(jù)并給予更快的實時響應(yīng).數(shù)據(jù)的有效性和真實性依賴于數(shù)據(jù)的質(zhì)量,高效地對數(shù)據(jù)和數(shù)據(jù)中的知識進行評估對此至關(guān)重要,質(zhì)量較好的數(shù)據(jù)對我們后期提取大知識和做出個性化服務(wù)具有重要意義,高質(zhì)量的數(shù)據(jù)和知識也能夠體現(xiàn)大數(shù)據(jù)的價值所在.有效的數(shù)據(jù)管理和分析使得我們能夠做出更好的商業(yè)決策,甚至在醫(yī)療、隱私保護等多個領(lǐng)域都可以得到應(yīng)用.最經(jīng)典的實例莫過于“谷歌流感趨勢(Google flu trends,GFT)”,Google利用其用戶的搜索數(shù)據(jù),準(zhǔn)確預(yù)測了流感趨勢的產(chǎn)生,其預(yù)測的速度和準(zhǔn)確度都遠遠高于美國疾病控制與預(yù)防中心(Centers for Disease Control and Prevention,CDC)檢測報告的結(jié)果[26].谷歌的某些搜索關(guān)鍵詞可以很好地表示流感疫情的現(xiàn)狀,GFT的工作原理就是利用經(jīng)過匯總的谷歌搜索數(shù)據(jù)來估測流感疫情.
5V模型較之于3V模型更著眼于使用先進的技術(shù)以提高數(shù)據(jù)的質(zhì)量并且能夠更加充分地探索大數(shù)據(jù).“真實性(Veracity)”[27]和“價值性(Value)”[28]結(jié)合了3V特征顯然更加全面.IBM公司對大數(shù)據(jù)特征的概括和應(yīng)用更多的是在商業(yè)決策領(lǐng)域,它更多地關(guān)注依據(jù)大數(shù)據(jù)知識做出的商業(yè)決策,對于提高商業(yè)收益是否有現(xiàn)實的指導(dǎo)意義和價值.但是,即使是如同谷歌的流感預(yù)測這樣典型的大數(shù)據(jù)應(yīng)用實例,也不會對決策產(chǎn)生完全的保障.其主要原因不是由于大數(shù)據(jù)的價值被高估,而是因為人們對大數(shù)據(jù)價值所在產(chǎn)生了誤解:大數(shù)據(jù)價值不在于其“大小”,而是利用創(chuàng)新的數(shù)據(jù)分析方法來處理和分析數(shù)據(jù)[29].同樣地,大數(shù)據(jù)的價值不僅在于“大”也在于“數(shù)據(jù)”的價值.而大數(shù)據(jù)的價值往往伴隨著稀疏性的特點,從3V模型到5V模型的擴充,也反映出不當(dāng)?shù)拇髷?shù)據(jù)挖掘和處理所隱藏的陷阱.接下來我們更多需要考慮的是在數(shù)據(jù)的分析和提取中,利用更好的數(shù)據(jù)分析算法來提升數(shù)據(jù)的真實性和價值.雖然5V模型對大數(shù)據(jù)的特征做了很好的闡釋,但是對于大數(shù)據(jù)本質(zhì)特征所導(dǎo)致的問題和挑戰(zhàn)并沒有做出過多的描述和給出解決思路.
1.3大數(shù)據(jù)管理與商用------5R模型
從大數(shù)據(jù)中獲取知識的過程,如果采用數(shù)據(jù)管理的視角,可以得到5R模型.5R模型由Stidston提出[12],包括對大數(shù)據(jù)相關(guān)的(Relevant)、實時的(Real-time)、真實的(Realistic)、可靠的(Reliable)以及投資回報(Return on investment,ROI)五大特征的闡述.從5R模型的內(nèi)容來看,它和5V模型具有類似的地方.它們都著眼于大數(shù)據(jù)的本質(zhì)特征,相比較而言,5R是基于商業(yè)用途而提出,它對于大數(shù)據(jù)的五大特征的描述是基于數(shù)據(jù)管理在商業(yè)上的應(yīng)用進行闡釋.從數(shù)據(jù)管理的角度來看待大數(shù)據(jù),其關(guān)鍵在于數(shù)據(jù)的組織形式.大數(shù)據(jù)的海量多源異構(gòu)特征已經(jīng)得到了普遍的認(rèn)可,針對這些特征,采取一種怎樣的數(shù)據(jù)組織形式以提升數(shù)據(jù)收集、存儲、處理和應(yīng)用的效率,獲取對商業(yè)發(fā)展與決策具有價值的“知識”,是5R模型中提出的需要解決的問題.數(shù)據(jù)的組織和管理形式經(jīng)歷過人工管理、文件系統(tǒng)和數(shù)據(jù)庫系統(tǒng)的發(fā)展歷程,對傳統(tǒng)數(shù)據(jù)的組織已經(jīng)滿足用戶的使用需求.但是在大數(shù)據(jù)的背景下,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫技術(shù)對以數(shù)據(jù)流形式到來的巨型數(shù)據(jù)已經(jīng)不再適應(yīng).
基于5R模型背景下的大數(shù)據(jù)管理系統(tǒng)的研究也成為一個熱點并取得了一定的進展.舉例來說,Google在網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)量下,其采取的數(shù)據(jù)管理和分析方法—谷歌文件系統(tǒng)(Google file system,GFS)[30]具有較簡單的思想.GFS為客戶端提供相似的操作系統(tǒng)水平上的字節(jié)抽象,它對于非常大的文件的內(nèi)容可以在眾多的計算機之間跨平臺共享,且不需要創(chuàng)建共享集群,這就使得硬件的消耗大大降低[31].
值得關(guān)注的是5R模型中的投資回報(ROI).許多的大數(shù)據(jù)項目最初關(guān)注的重點只是數(shù)據(jù)本身的利用,而沒有認(rèn)識到對數(shù)據(jù)的利用怎么與整個商業(yè)計劃相適應(yīng),忽略了數(shù)據(jù)之下的知識的價值[32].尤其是對于投資回報(ROI)的關(guān)注顯得很匱乏,大數(shù)據(jù)項目中數(shù)據(jù)的來源和知識的獲取應(yīng)當(dāng)提供最低的成本計劃,以對最終獲取的知識進行價值評估.對于一些數(shù)據(jù)層次本身就具有非常高的價值的項目,項目本身就具有大數(shù)據(jù)的特征.如果缺少了投資回報的評估,我們就無法得知數(shù)據(jù)的價值與從某一個大數(shù)據(jù)項目中獲取知識的項目的可行性,無法評估在知識獲取的過程中所花費在人力、軟硬件等方面的投資是否具有意義.
5R模型提出的大數(shù)據(jù)管理的實時性要求(Real-time)也是大數(shù)據(jù)分析的一個方向,它和5V模型中的Velocity相契合.在第1.1節(jié)中提及了大數(shù)據(jù)的本質(zhì)特征含有分布式的特點.在大數(shù)據(jù)的數(shù)據(jù)管理結(jié)構(gòu)中,目前普遍使用到的是分布式的文件系統(tǒng)和分布式數(shù)據(jù)庫,其中,Hadoop distributed file system(HDFS)是比較具有代表性的分布式文件系統(tǒng)[33],其較高的容錯性適于部署在廉價的機器上,和傳統(tǒng)的分布式文件系統(tǒng)有著顯著的區(qū)別,它為用戶提供高吞吐量的數(shù)據(jù)訪問,同時,HDFS也面向流數(shù)據(jù)處理[34],這些都利于我們在大數(shù)據(jù)規(guī)模下進行數(shù)據(jù)分析和處理工作,高速處理海量數(shù)據(jù)成為了可能,大數(shù)據(jù)管理的實時性要求得到了一定程度的滿足.
1.44P醫(yī)學(xué)模型
知識工程概念的提出為專家系統(tǒng)(Expert system,ES)奠定了理論基礎(chǔ).專家系統(tǒng)(ES)作為人工智能(Artificial intelligence,AI)的一個分支,自19世紀(jì)60年代中期被提出以來,已經(jīng)被大量運用到工程、科學(xué)、醫(yī)學(xué)預(yù)測、商業(yè)等方面.專家系統(tǒng)的基本思想是依賴于專業(yè)的知識,對個性化應(yīng)用做出預(yù)測等行為[35].然而,隨著大數(shù)據(jù)時代的到來,僅依賴傳統(tǒng)專家系統(tǒng)的領(lǐng)域知識提取大規(guī)模的異構(gòu)數(shù)據(jù)集中的有價值信息,這種方式的效率已經(jīng)不能滿足用戶的需要.基于大數(shù)據(jù)背景的知識工程,為了提供更加智能的個性化服務(wù),在提取大知識的算法設(shè)計中,需要考慮用戶的社交和個人信息.
以大數(shù)據(jù)背景下的普適醫(yī)療應(yīng)用為例.普適醫(yī)療(Pervasive healthcare)[36]借助普適計算技術(shù),形成覆蓋服務(wù)區(qū)域內(nèi)各個醫(yī)療機構(gòu)、家庭和個人的信息網(wǎng)絡(luò).信息化的推進使得電子病歷等一系列電子數(shù)據(jù)顯現(xiàn)出大數(shù)據(jù)的特征,同一種疾病的發(fā)病原因的多樣化、同一種疾病采取多樣化的治療方法,這些海量的異構(gòu)醫(yī)療數(shù)據(jù)中同樣隱藏著有價值的醫(yī)療知識.針對這一問題,4P醫(yī)學(xué)模型[37]隨之產(chǎn)生了.在醫(yī)學(xué)領(lǐng)域,4P醫(yī)學(xué)模式的內(nèi)容包含了預(yù)測性(Predictive)、預(yù)防性(Preventive)、個體化(Personalized)以及參與性(Participatory)四個維度.這種新型的醫(yī)學(xué)模式更強調(diào)病人個人,以及周圍親屬、朋友的參與和主動性,強化個體生活行為對治療和預(yù)防過程的干預(yù).由4P醫(yī)學(xué)模型引申到大數(shù)據(jù)環(huán)境下,我們發(fā)現(xiàn)對于個性化服務(wù)的設(shè)計和分析來說,用戶個人的行為因素、用戶的參與度對用戶數(shù)據(jù)的影響、數(shù)據(jù)的來源和專家知識的參與,這三者是同樣重要的.可以說,4P醫(yī)學(xué)模型的提出背景離不開大數(shù)據(jù).
我們將4P醫(yī)學(xué)模型與現(xiàn)有的大數(shù)據(jù)應(yīng)用項目對比,可以看出,個體行為的重要性日益凸顯,病人的經(jīng)歷和治療過程也成為知識的重要組成部分.同4P醫(yī)學(xué)模型提出的“個體化”與“參與性”相對應(yīng),現(xiàn)代醫(yī)學(xué)強調(diào)因人制宜,包含了概念更新、理論框架的構(gòu)建以及實踐應(yīng)用等一系列的創(chuàng)新舉措,這為從新的角度切入個體化診療的實現(xiàn)提供了可能[38].在注重用戶個體性的同時,我們也可以發(fā)現(xiàn)不同個體之間的相似性,利用標(biāo)簽和聚類等數(shù)據(jù)處理手段,將特定的用戶和特定的行為表現(xiàn)相對應(yīng),發(fā)現(xiàn)大數(shù)據(jù)下多個用戶的相似的行為模式,發(fā)現(xiàn)不同的個體與某一特定癥狀的相關(guān)性,從而提高普適醫(yī)療信息管理和服務(wù)系統(tǒng)的準(zhǔn)確性.
與現(xiàn)有的醫(yī)療系統(tǒng)相比較,在大數(shù)據(jù)的背景下,4P醫(yī)學(xué)模型對個性化醫(yī)療服務(wù)顯然要更加適用,它所提出的四個角度,同大數(shù)據(jù)的本質(zhì)特征也是相對應(yīng)的.專家系統(tǒng)對領(lǐng)域知識的依賴,使得數(shù)據(jù)的來源過于單一,會產(chǎn)生一系列的問題.4P醫(yī)學(xué)模型中的“預(yù)測性”和“預(yù)防性”兩個維度強調(diào)了先進醫(yī)療手段的重要性[39].然而對于普適醫(yī)療系統(tǒng)的應(yīng)用來說,個性化的服務(wù)更注重專家知識要和病人個體信息一致.4P醫(yī)學(xué)模型將個性化的服務(wù)與預(yù)測相結(jié)合,從而為病人提供基于大數(shù)據(jù)的個性化健康建議,同時,在診斷和治療過程中的數(shù)據(jù)也被同時記錄下來.這種普適的個性化醫(yī)療服務(wù)已經(jīng)漸漸滲透到生活中,使得大數(shù)據(jù)和個人生活的關(guān)聯(lián)顯得不再遙不可及.
基于4P醫(yī)學(xué)模型,具備個性化診療功能的醫(yī)療系統(tǒng)的實現(xiàn),其核心技術(shù)在于融入了個性化的知識圖譜.專家系統(tǒng)相對個性化醫(yī)療系統(tǒng)而言,數(shù)據(jù)和信息相對結(jié)構(gòu)化,雖然信息的處理和分析在一定程度上達到了較高的自動化水平,但個性化知識的自動獲取、分析和傳播將會是更高的挑戰(zhàn).目前,網(wǎng)絡(luò)空間里的許多信息系統(tǒng)正在越來越多地體現(xiàn)出“人”的智能.這一趨勢必然導(dǎo)致對大數(shù)據(jù)知識工程的更高要求.
為了向醫(yī)療服務(wù)提供者和醫(yī)療服務(wù)消費者提供有價值的和個性化的醫(yī)療服務(wù),需要挖掘海量醫(yī)療數(shù)據(jù)中的醫(yī)療知識,這也是普適醫(yī)療信息管理與服務(wù)的關(guān)鍵技術(shù)與挑戰(zhàn)問題.4P醫(yī)學(xué)模型的啟發(fā)性意義在于對病人的個人信息和異構(gòu)的醫(yī)療信息源的處理,以基于社會計算的普適醫(yī)療信息管理與服務(wù)體系(Pervasive medical information management and service systems,PMIMSS)為例,現(xiàn)代的醫(yī)療服務(wù)模式涉及到醫(yī)療信息共享與集成、醫(yī)療知識發(fā)現(xiàn)與服務(wù)、醫(yī)療服務(wù)質(zhì)量評價機制、個性化醫(yī)療服務(wù)推薦機制以及人與醫(yī)療信息系統(tǒng)交互的可信機制[36].這類系統(tǒng)的架構(gòu)以及關(guān)鍵技術(shù)的出發(fā)點和設(shè)計理念,與大數(shù)據(jù)的本質(zhì)特征相匹配,并且與知識工程的個性化服務(wù)推薦的目標(biāo)相一致.
除了PMIMSS,還有其他個性化醫(yī)療服務(wù)的應(yīng)用實例包含4P醫(yī)學(xué)模型的思想.比如,醫(yī)療服務(wù)的移動客戶端漸漸普及,研究人員利用移動客戶端的平臺發(fā)布一系列的健康激勵措施,發(fā)送提醒大眾關(guān)于疾病的預(yù)防等普適醫(yī)療信息[40].如果從用戶的客戶端中抽取有用的信息,這些信息可能涉及運動頻率、體重、社交活動等多方面的信息,獲取用戶個人信息是碎片化的,如何利用數(shù)據(jù)庫中的專家知識對不同的用戶信息進行有效的分析將會是知識集成的關(guān)鍵.大數(shù)據(jù)在普適醫(yī)療的應(yīng)用,從技術(shù)層面來看,其關(guān)鍵技術(shù)依賴于個人、社交信息以及專家知識等多源異構(gòu)的大數(shù)據(jù)知識的融合[41].再比如,患有某種特定疾病的病人會形成社交圈或者社區(qū)媒體,病人們在社交網(wǎng)絡(luò)中交換彼此的治療進展或者患病信息,這些信息作為整個社區(qū)的經(jīng)驗在社交網(wǎng)絡(luò)中被分享.大數(shù)據(jù)在病人和醫(yī)生、病人和病人、醫(yī)生與醫(yī)生之間傳播并產(chǎn)生一定的演化,形成復(fù)雜的數(shù)據(jù)聯(lián)系[42].同時,這些涉及用戶個人信息的數(shù)據(jù),需要結(jié)合已有的專業(yè)知識進行綜合分析,從而給出準(zhǔn)確的預(yù)測和醫(yī)療建議.專家知識可能來自于專家的建議、醫(yī)學(xué)著作和臨床數(shù)據(jù),而用戶個人信息的來源則更加多樣化.對這些大數(shù)據(jù)中所獲得的大知識的提取與融合,需要的大數(shù)據(jù)算法面對的是多源多樣化的數(shù)據(jù).
1.5HACE定理
大數(shù)據(jù)的HACE定理指出,大數(shù)據(jù)始于異構(gòu)(Heterogeneous)、自治(Autonomous)的多源海量數(shù)據(jù),旨在尋求探索復(fù)雜的(Complex)和演化的(Evolving)數(shù)據(jù)關(guān)聯(lián)的方法和途徑.5V模型和5R模型介紹了大數(shù)據(jù)的本質(zhì)特征,4P醫(yī)學(xué)模型是大數(shù)據(jù)與普適醫(yī)療結(jié)合的實例.接下來,我們從大數(shù)據(jù)的本質(zhì)特征介紹HACE定理提出的一種多層的大數(shù)據(jù)處理框架,該多層框架分別從大數(shù)據(jù)的來源、大數(shù)據(jù)的復(fù)雜的數(shù)據(jù)結(jié)構(gòu)以及數(shù)據(jù)之間的關(guān)系這三方面來描述[15].從大數(shù)據(jù)的來源來看,異構(gòu)和自治是大數(shù)據(jù)中多個數(shù)據(jù)源的最本質(zhì)特征,如盲人摸象中的每個盲人、物聯(lián)網(wǎng)中的各個傳感器和萬維網(wǎng)上每位作者和讀者,他們可能用不同的語言(中文、英文等)、不同的媒體形式(文本、圖像等)和不同的表現(xiàn)形式(如英國英文的31/12/15和美國英語的12/31/15)來描述和處理他們各自的信息.大數(shù)據(jù)分析的最本質(zhì)目標(biāo)是探索異構(gòu)、自治的多源海量數(shù)據(jù)中復(fù)雜且隨時間和空間演化的數(shù)據(jù)關(guān)聯(lián).
依據(jù)HACE定理對大數(shù)據(jù)特征的闡述,可以形成一個大數(shù)據(jù)的三層構(gòu)架(見圖1).HACE定理的創(chuàng)新在于,它把大數(shù)據(jù)的處理框架從單層擴展為多層.HACE定理給出的多層處理架構(gòu)關(guān)注對大數(shù)據(jù)的運算、大數(shù)據(jù)之間的語義聯(lián)系和應(yīng)用知識、大數(shù)據(jù)的挖掘算法設(shè)計[42].HACE定理給出的多層大數(shù)據(jù)處理框架本質(zhì)上涵蓋了分析大數(shù)據(jù)的科學(xué)方法,下面我們給出每一層的細節(jié)介紹.
在構(gòu)架的第一層中關(guān)注的是大數(shù)據(jù)計算平臺.對大數(shù)據(jù)的知識挖掘與分析,首先是大數(shù)據(jù)計算的存儲和計算問題.在傳統(tǒng)的處理方法中,為了提升數(shù)據(jù)的運算能力,我們可以從計算機硬件的方面加以改進:利用密集型的計算單元,或者是依賴高性能計算機提高抓取和計算大數(shù)據(jù)的能力.在小規(guī)模和中型規(guī)模的數(shù)據(jù)量下,我們可以僅通過硬件的提升來改進數(shù)據(jù)存儲和計算的能力,并達到數(shù)據(jù)的實時處理.在大數(shù)據(jù)的海量多源異構(gòu)的特點下,傳統(tǒng)的思路行不通了.舉個例子,多個數(shù)據(jù)源中數(shù)據(jù)的采樣和聚集就為我們的挖掘工作生成了一定的困難,憑借少量計算機和傳統(tǒng)的并行運算無法處理.無論是采取流水線作業(yè)達成時間上的并行計算,還是采用多個處理器達成空間上的并行,雖然它們已經(jīng)在諸如稀疏矩陣和迭代算法的運用中得到普及[43],但對于大數(shù)據(jù)來說,數(shù)據(jù)的稀疏性表現(xiàn)在一個較高的維度空間,傳統(tǒng)的并行算法并不是很有效,尤其是對于以流數(shù)據(jù)形式到來的數(shù)據(jù),實時處理是非常困難的.
圖1 大數(shù)據(jù)處理框架的修改版[15]Fig.1 A big data processing framework updated form[15]
在HACE定理的第1層數(shù)據(jù)挖掘平臺中,提出使用帶有高計算性能的集群計算機(Cluster computers).與中小規(guī)模數(shù)據(jù)集上的計算平臺相比,集群計算機上的每個計算節(jié)點都可以并行處理計算任務(wù),使得單個計算機的計算量有所降低,從而減小對每個計算節(jié)點的硬件的依賴性.利用這種結(jié)構(gòu)的最典型的并行計算工具是MapReduce.谷歌的MapReduce模型是為了并行計算而提出的一種編程框架,它將一個大規(guī)模的數(shù)據(jù)集上的計算任務(wù)拆分成多個小任務(wù),使得大規(guī)模數(shù)據(jù)集上的計算變得更加高效[44].傳統(tǒng)的數(shù)據(jù)存儲和處理工作,使用最廣泛的是關(guān)系型數(shù)據(jù)庫結(jié)構(gòu).但是大規(guī)模的數(shù)據(jù)下,許多有用的信息隱藏在非結(jié)構(gòu)化數(shù)據(jù)中,諸如郵件、微博、視頻等.在這方面可以運用的技術(shù)包括NoSQL和谷歌提出的“大表”(BigTable)[45]. BigTable用分布式數(shù)據(jù)庫存儲系統(tǒng)管理大規(guī)模數(shù)據(jù),它將數(shù)據(jù)結(jié)構(gòu)簡化為鍵值之間的一種映射關(guān)系,使得數(shù)據(jù)規(guī)模的大小和計算的延遲時間在BigTable中都得到了滿足.
HACE定理的第2層架構(gòu)是大數(shù)據(jù)的語義和應(yīng)用知識,包含數(shù)據(jù)共享與隱私、領(lǐng)域和應(yīng)用知識的問題.第1層架構(gòu)提出了集群式的大數(shù)據(jù)計算平臺,解決了對流數(shù)據(jù)存儲的計算問題之后,我們需要分析大數(shù)據(jù)中的隱含知識.在對大數(shù)據(jù)下隱含知識的分析過程中需要數(shù)據(jù)的共享.從數(shù)據(jù)的安全性來說,由于大數(shù)據(jù)中包含大量的敏感信息,或者是用戶的一些不合法的數(shù)據(jù)操作,都會影響到數(shù)據(jù)共享的效果,并帶來一些信息隱私的問題.個人信息包含在大數(shù)據(jù)中,也會引發(fā)關(guān)于數(shù)據(jù)可信度的度量和評估問題[46].大數(shù)據(jù)自治的分布式和分散式控制與數(shù)據(jù)的隱私有密切的聯(lián)系,為解決這一問題,目前已經(jīng)產(chǎn)生了一些適用于分布式的文件系統(tǒng).還是以Google的GFS文件系統(tǒng)為例,該文件系統(tǒng)基于一臺主機和若干個備有Linux操作系統(tǒng)的PC機群構(gòu)成了一個集群系統(tǒng).GFS系統(tǒng)對于用戶從主機上得到的Metadata,從相應(yīng)的位置產(chǎn)生通信過程從而獲取文件數(shù)據(jù)[47].分布式文件系統(tǒng)的產(chǎn)生,激勵了諸如Hadoop和Hive這樣的數(shù)據(jù)平臺的產(chǎn)生,數(shù)據(jù)倉庫的數(shù)據(jù)處理在不斷優(yōu)化的程序中得到了更好的處理和分析.
在HACE定理的第2層架構(gòu)中,為了保護個人隱私信息,同時提高所提取知識的可信度,HACE主要提供了兩種解決思路:從數(shù)據(jù)存儲角度,對訪問數(shù)據(jù)的權(quán)限進行限制可以一定程度上提高數(shù)據(jù)的可信度并減少對數(shù)據(jù)的誤操作;從信息共享的渠道來看,對數(shù)據(jù)的一部分特征進行匿名化,使得數(shù)據(jù)中包含敏感信息的部分不被公開或者進行一些模糊處理,同樣也可以起到保護隱私的目的[48].舉例來說,現(xiàn)有的關(guān)于數(shù)據(jù)匿名化的方法中,使用最多的是k匿名方法[49],用戶通過對數(shù)據(jù)表的匿名工作指定一個k值,限定發(fā)布的數(shù)據(jù)存在某些標(biāo)識符與其他k-1個具體個體沒有方法區(qū)分開來,從而保護了個體數(shù)據(jù)的隱私.其次,第2層架構(gòu)需要考慮領(lǐng)域和應(yīng)用知識[50],它們能幫助我們辨別已收集到的大數(shù)據(jù)中哪些模式是用戶希望去發(fā)現(xiàn)和使用的.例如,在醫(yī)療系統(tǒng)中對病人的數(shù)據(jù)信息進行分析時,通過領(lǐng)域和應(yīng)用知識可以識別我們需要的數(shù)據(jù)特征是諸如病人的血型、病史等信息,從而刻畫出有效的矩陣或者其他的數(shù)據(jù)特征表達方式,同時為后期的數(shù)據(jù)挖掘工作清洗掉一部分無用的數(shù)據(jù),得到正確的數(shù)據(jù)語義聯(lián)系.
HACE的第3層從三個方面提出了大數(shù)據(jù)挖掘算法:局部學(xué)習(xí)和多信息源的模型融合、稀疏不確定和不完整的數(shù)據(jù)挖掘、挖掘復(fù)雜的動態(tài)數(shù)據(jù).在網(wǎng)絡(luò)數(shù)據(jù)的分析中,出于保護數(shù)據(jù)隱私的考慮,我們無法將從多個站點獲取的局部數(shù)據(jù)簡單地集成為一個集中式的站點.因此,大數(shù)據(jù)挖掘算法的設(shè)計存在許多挑戰(zhàn):由局部數(shù)據(jù)特征到全局?jǐn)?shù)據(jù)特征的轉(zhuǎn)變,稀疏的、不確定的和不完備的大數(shù)據(jù)需要有更高更快的實時性和準(zhǔn)確性,同時我們可能還要對缺失和不準(zhǔn)確的數(shù)據(jù)進行填充[19].從數(shù)據(jù)建模的角度,現(xiàn)有的文本模型,包括向量空間模型(Vector sapce model,VSP)[51]、潛在語義分析(Latent semantic analysis,LSA)[52]、知識圖譜(Knowledge based graph)[53]等,都各有優(yōu)劣,比如,在知識工程中知識圖譜就能較好地表示實體之間的聯(lián)系.但這些基本模型無法滿足動態(tài)環(huán)境中對整體大數(shù)據(jù)的特征刻畫.
同時,大數(shù)據(jù)之間的復(fù)雜的數(shù)據(jù)關(guān)聯(lián)也隨著動態(tài)數(shù)據(jù)而演化.當(dāng)數(shù)據(jù)流數(shù)據(jù)發(fā)生變化時,我們需要考慮現(xiàn)有的數(shù)據(jù)結(jié)構(gòu)是否適應(yīng)于新的數(shù)據(jù)描述,數(shù)據(jù)特征和數(shù)據(jù)變量在發(fā)生實時的變化.對動態(tài)數(shù)據(jù)的挖掘,對數(shù)據(jù)的變化如果只采取從頭運行挖掘算法的方式,就無法兼顧到實時處理的問題,顯然在動態(tài)數(shù)據(jù)中這不是一個有效的策略.同時,數(shù)據(jù)的動態(tài)改變導(dǎo)致了數(shù)據(jù)間關(guān)系的演化,使得數(shù)據(jù)的規(guī)則和已獲得的知識圖譜無法匹配.
當(dāng)然,大數(shù)據(jù)的興起不僅帶來了挑戰(zhàn),同時也促進了各領(lǐng)域的變革和發(fā)展.例如,研發(fā)針對社交網(wǎng)絡(luò)之間的復(fù)雜聯(lián)系以及演化關(guān)系的管理系統(tǒng)[54[56].
1977年,在第五屆國際人工智能會議(IJCAI 77)上,美國斯坦福大學(xué)計算機科學(xué)家費根堡姆(Feigenbaum)首次提出了知識工程(Knowledge engineering)的概念.知識工程的概念提出之后,人工智能的原理與方法在知識系統(tǒng)領(lǐng)域發(fā)揮了重大的作用.知識工程包括五大活動:對知識的獲取、驗證、表示、推論以及對知識的解釋.在知識的基礎(chǔ)上,知識工程通過這五大活動構(gòu)建專家系統(tǒng)和各種智能系統(tǒng)[57].相對于知識管理技術(shù),知識工程關(guān)注的是知識產(chǎn)生和驗證過程的動態(tài)變化,它的創(chuàng)新性更強、對數(shù)據(jù)的操作更加復(fù)雜,并且涉及多個相關(guān)領(lǐng)域的知識交叉.在知識工程的五大活動中,知識的獲取具有更大的難度.
在大數(shù)據(jù)時代,利用知識工程的思想和方法,對大數(shù)據(jù)進行獲取、驗證、表示、推論和解釋,通過挖掘出的知識來形成解決問題的專家系統(tǒng),是本文所倡導(dǎo)的大知識,也稱為大數(shù)據(jù)知識工程[39].在大數(shù)據(jù)時代的背景下進行知識工程活動具有諸多挑戰(zhàn).這主要是由于大數(shù)據(jù)的本質(zhì)特征導(dǎo)致的,涉及到異構(gòu)、自治的海量多源數(shù)據(jù),隱藏在數(shù)據(jù)下的知識難以管理和發(fā)現(xiàn).下面分析一些大數(shù)據(jù)對知識工程的挑戰(zhàn)問題.
首先,大數(shù)據(jù)知識工程需要對獲取的數(shù)據(jù)進行合理的存儲和表示,清晰的數(shù)據(jù)存儲形式更有利于發(fā)現(xiàn)數(shù)據(jù)的有用特征,剔除一些無用的數(shù)據(jù)屬性.從數(shù)據(jù)本身來看,大數(shù)據(jù)知識工程涉及大量的非結(jié)構(gòu)化數(shù)據(jù),其數(shù)據(jù)結(jié)構(gòu)多以數(shù)據(jù)流的形式到來.數(shù)據(jù)流數(shù)據(jù)是一種由實時、連續(xù)、有序的數(shù)據(jù)組成的序列,它是一種動態(tài)變化的數(shù)據(jù).與傳統(tǒng)的靜態(tài)結(jié)構(gòu)化數(shù)據(jù)相比,數(shù)據(jù)流數(shù)據(jù)具有連續(xù)、快速、難以預(yù)測數(shù)據(jù)趨勢等特點[58].考慮到大數(shù)據(jù)特征,數(shù)據(jù)的存儲要求具有三個變化:1)數(shù)據(jù)量升至PB級;2)數(shù)據(jù)分析需求從常規(guī)分析轉(zhuǎn)向深度分析(Deep analytics);3)硬件平臺從高端轉(zhuǎn)向中低端[59].從數(shù)據(jù)的表示來看,已有的數(shù)據(jù)模型包括聚類分析、決策樹、分類方法、頻繁模式挖掘等.常見的聚類分析方法是通過尋找數(shù)據(jù)點的k個中心點來獲取數(shù)據(jù)間的距離總和的最小值[60].對數(shù)據(jù)流數(shù)據(jù)的易變特點產(chǎn)生的概念漂移問題,已有使用k棵隨機決策樹組成的基分類器的雙層窗口的分類算法[61].對數(shù)據(jù)流的頻繁模式挖掘,往往存在實時性較差且查詢粒度粗的問題.而采用快速啟發(fā)式的方法可以兼顧到對數(shù)據(jù)流數(shù)據(jù)的實時處理和更細的查詢粒度[62].這些模型在提取和刻畫數(shù)據(jù)特征方面各有優(yōu)劣,但它們都針對的是靜態(tài)的數(shù)據(jù),對大數(shù)據(jù)的表示和數(shù)據(jù)建模難以適應(yīng).
同數(shù)據(jù)流相對應(yīng)的是特征流的問題.含有特征流的應(yīng)用中,無法預(yù)知整個特征空間的相關(guān)知識.特征流是在時間上連續(xù)到來的特征序列,隨著特征數(shù)量的不斷增加,訓(xùn)練集的個數(shù)可能是固定的[63]、也可能在變化之中[64].在線特征的選擇具有三大挑戰(zhàn)問題:1)特征的規(guī)模和數(shù)量隨著時間不斷增長;2)巨大的特征空間具有未知和規(guī)模無限大的可能性;3)整個空間的特征過于龐大,為了學(xué)習(xí)整個空間的特征,學(xué)習(xí)算法無法從最初處理整個特征集.這三大挑戰(zhàn)問題,同大數(shù)據(jù)的海量有著密切的關(guān)系.傳統(tǒng)的特征選擇面對有規(guī)律增長的特征數(shù)量,可以不必對特征流加以考慮.但大數(shù)據(jù)為特征的選擇增加了新的難度,從而引發(fā)了新的研究熱點.針對特征流的問題,在現(xiàn)有的特征選擇算法的基礎(chǔ)上,對特征之間的相關(guān)性和特征冗余加以考慮,能夠提高特征選擇的效率,基于特征更為精確和清晰的表示方式[65].
除了大數(shù)據(jù)的存儲和表示方面的挑戰(zhàn),我們需要考慮的是大數(shù)據(jù)中知識的獲取.考慮到大數(shù)據(jù)的多源異構(gòu)的特征,數(shù)據(jù)源通常還含有自治性質(zhì),數(shù)據(jù)的獲取通常是從局部的數(shù)據(jù)源中獲取碎片化的知識[15].對觀測到的數(shù)據(jù),現(xiàn)有的標(biāo)準(zhǔn)在線學(xué)習(xí)算法大都使用線性擬合的方式,多源的數(shù)據(jù)使得獲得的知識往往成碎片化,碎片化知識的融合無法通過線性擬合完成.大數(shù)據(jù)對知識工程的又一挑戰(zhàn)是碎片化知識的刻畫和融合.從碎片化知識的獲取來說,現(xiàn)有的擬合方式無法對碎片化數(shù)據(jù)特征的分布形成合適的擬合,甚至?xí)a(chǎn)生過度擬合的問題[66].其次,現(xiàn)有的在線學(xué)習(xí)方法,尤其是基于Kernel算法的在線學(xué)習(xí),隨著數(shù)據(jù)量的上升,模型的參數(shù)設(shè)置會變得很復(fù)雜.比如,使用表示定理(The representation theorem)[67]可知Kernel函數(shù)的數(shù)量隨著觀測值的上升呈現(xiàn)出線性增長,這樣數(shù)據(jù)分析和處理的復(fù)雜度就會提升.然而,相應(yīng)的一個使用機器學(xué)習(xí)分析大數(shù)據(jù)的好處是,許多的數(shù)據(jù)樣本是可獲得的,相應(yīng)的減小了過度擬合的可能[68].
除此以外,對數(shù)據(jù)的訓(xùn)練時間或者使用批處理來處理觀測值的時候,我們對在線學(xué)習(xí)的響應(yīng)時間是有要求的,如果響應(yīng)時間過長,那么由于數(shù)據(jù)隱藏的信息可能會隨著時間演化,則我們得到的信息也許就會對我們在生產(chǎn)、生活、商業(yè)決策方面的應(yīng)用產(chǎn)生誤導(dǎo).基于處理大規(guī)模高維數(shù)據(jù)的目的,目前已經(jīng)提出了多種有效的算法.大數(shù)據(jù)環(huán)境下的知識發(fā)現(xiàn)所需要的算法,需要避免輸入數(shù)據(jù)時在數(shù)值或者特征上的冗余,否則數(shù)據(jù)的維度會過高.同時在學(xué)習(xí)的過程中不斷更新以降低計算的復(fù)雜度,對于高維的數(shù)據(jù),我們還可以使用在線增量學(xué)習(xí)方法,實現(xiàn)模型和函數(shù)的足夠的精確度和近似過程具有足夠的泛化[69].從碎片化知識的融合來看,碎片化知識的融合是為了從單個數(shù)據(jù)源的局部數(shù)據(jù)中獲取整個大數(shù)據(jù)集合的全局?jǐn)?shù)據(jù)特征.碎片化知識的融合使用現(xiàn)有的線性融合方法會產(chǎn)生一些問題,例如,如果我們采用基于形式化邏輯的知識融合[70],知識融合的過程中會被局部知識的表示形式限制,對于結(jié)構(gòu)化數(shù)據(jù)這樣的融合方式?jīng)]有問題,但在非結(jié)構(gòu)化的數(shù)據(jù)中,提取出的碎片化知識不具有統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)和形式.大數(shù)據(jù)環(huán)境下,為了獲取數(shù)據(jù)中的知識,我們可以采用在線學(xué)習(xí)的方式.在線學(xué)習(xí)面對數(shù)據(jù)流數(shù)據(jù),對流中可能出現(xiàn)的概念漂移問題能有效地解決[71].它不僅僅是把碎片化知識“拼湊”在一起,而是從碎片化知識之間的關(guān)聯(lián)得到新的全局知識,這和對單數(shù)據(jù)源的批處理有所區(qū)別.
在大數(shù)據(jù)的知識工程中,還存在著一些數(shù)據(jù)可用性的挑戰(zhàn).我們這里所探討的大數(shù)據(jù)的可用性,包含數(shù)據(jù)的一致性、完整性、精確性、時效性和實體統(tǒng)一性五個方面[72].舉例來說,提高數(shù)據(jù)的可用性可以增強銀行卡的安全性.如果數(shù)據(jù)庫中存在同一用戶的數(shù)據(jù)主體的不統(tǒng)一,例如說同一張銀行卡的某一段較小的時間間隔內(nèi),發(fā)生了兩筆空間位置距離較遠的消費記錄,則可能存在欺詐消費或者是銀行卡被盜刷的可能.同樣,數(shù)據(jù)隱私的問題也會影響到數(shù)據(jù)的可用性.為了保護個人數(shù)據(jù)的隱私,大規(guī)模數(shù)據(jù)集中可能對部分敏感字段采取匿名的方法,但是這樣也使得數(shù)據(jù)的使用風(fēng)險增加和巨大的信息損失.為了在數(shù)據(jù)的隱私和數(shù)據(jù)的可用性之間尋找平衡,研究人員提出了多種方法,例如軌跡匿名算法[73-74],通過對用戶的軌跡數(shù)據(jù)的匿名化,同時融入對時間、位置、速度和方向等外在的軌跡特征信息,以及對軌跡中鄰近位置的改變,來刻畫出軌跡數(shù)據(jù)之間的相似度.
大數(shù)據(jù)的知識工程旨在形成對個性化服務(wù)有價值和指導(dǎo)作用的專家系統(tǒng).從融合的碎片知識,我們可以用知識圖譜表示大數(shù)據(jù)中隱藏的大知識.知識圖譜的節(jié)點表示碎片化的知識,連接節(jié)點的邊我們可以看作是碎片化之間的關(guān)聯(lián).我們需要應(yīng)對的問題是如何量化這些邊和節(jié)點的關(guān)系,尤其是在動態(tài)變化的大數(shù)據(jù)關(guān)系中,已得到的知識圖譜結(jié)構(gòu)也會產(chǎn)生變化.現(xiàn)有的算法需要從頭推算整個數(shù)據(jù)的結(jié)構(gòu)并更新知識圖譜,這種做法相當(dāng)耗費時間.并且,在海量數(shù)據(jù)中形成的知識圖譜,由于我們無法對每個觀測數(shù)據(jù)都做到保留,經(jīng)過數(shù)據(jù)處理和清洗的大數(shù)據(jù)集形成的知識圖譜,必然存在諸如數(shù)據(jù)值的丟棄、噪聲[75]、不平衡數(shù)據(jù)[76]等問題.因此,大數(shù)據(jù)的知識工程需要對獲取的知識的真實性提出評估機制和演化關(guān)系的更新標(biāo)準(zhǔn).
大數(shù)據(jù)知識工程還應(yīng)考慮知識自動化帶來的問題.互聯(lián)網(wǎng)、大數(shù)據(jù)、云計算等技術(shù)的發(fā)展,雖然帶來了更好的數(shù)據(jù)處理和分析手段,但許多數(shù)據(jù)和信息管理應(yīng)用中仍然存在數(shù)據(jù)過載的問題.大數(shù)據(jù)知識工程最終希望提供以需求為導(dǎo)向的知識服務(wù),但過載數(shù)據(jù)的存在降低了服務(wù)的可用性和精確性.知識的自動化指的不是知識本身自動產(chǎn)生,但可以誘發(fā)知識的傳播、獲取、分析、影響、產(chǎn)生等方面的重要變革[77].知識的自動化是信息自動化的自然延伸和提高,對于具有較大不確定性、冗余性、不一致性的數(shù)據(jù)和社會信息,僅依靠人類的智力很難對海量大數(shù)據(jù)進行更有效分析[78].采用以數(shù)據(jù)作為驅(qū)動的方法,將物理空間產(chǎn)生的數(shù)據(jù)和虛擬空間產(chǎn)生的數(shù)據(jù)結(jié)合起來進行分析,將會更有利于解決數(shù)據(jù)的過載.
基于第2節(jié)中大數(shù)據(jù)對知識工程中的各種挑戰(zhàn)問題,本節(jié)介紹一種由吳信東等在2015年提出的大數(shù)據(jù)知識工程模型BigKE[39](見圖2).該模型用以解決碎片化知識建模與多數(shù)據(jù)源的在線學(xué)習(xí)、碎片知識的非線性融合、需求驅(qū)動下的自動化知識導(dǎo)航問題.BigKE模型采用一種三層次的知識建模方法,最終獲取個性化的知識導(dǎo)航服務(wù).下面分別從該模型的三個層次來進行介紹.
3.1多源異構(gòu)數(shù)據(jù)中的碎片化知識建模
與傳統(tǒng)的知識工程比較,大數(shù)據(jù)知識工程著重于提取碎片化知識,同領(lǐng)域?qū)<抑R相結(jié)合,不同于傳統(tǒng)的知識工程只基于領(lǐng)域?qū)<业膶<抑R.這是因為大數(shù)據(jù)來源于多源的異構(gòu)數(shù)據(jù),數(shù)據(jù)中存在不確定、不完整和異構(gòu)的問題.同領(lǐng)域知識相比較,碎片化知識的精確度有所降低,但由于它對于有個人偏好的專家知識的依賴度降低了,換個角度說,碎片化知識的無偏性和效率也就提高了.碎片化知識隱藏在多源異構(gòu)的自治源下,從這樣的數(shù)據(jù)源中發(fā)現(xiàn)知識是一項富有挑戰(zhàn)和趣味性的工作.以社交媒體為例,2012年10月,美國總統(tǒng)奧巴馬和羅姆尼州長之間的總統(tǒng)辯論在2小時內(nèi)就引發(fā)了超過1000萬條的推特信息[79].如此龐大的信息數(shù)量中,隱藏著復(fù)雜的語義關(guān)系,每個用戶的評論行為和情感傾向相互獨立但又相互影響,這和大規(guī)模數(shù)據(jù)集的自治性相符合.隨著數(shù)據(jù)量的不斷增大,數(shù)據(jù)的來源、數(shù)據(jù)的結(jié)構(gòu)、數(shù)據(jù)之間的關(guān)聯(lián)難以使用現(xiàn)有的知識工程技術(shù)進行整合.如何分析用戶的行為變化和用戶行為之間的相互影響,成為了一個大數(shù)據(jù)知識工程問題.
圖2 大數(shù)據(jù)知識工程模型—BigKE[39]Fig.2 Big data knowledge engineering—BigKE[39]
BigKE模型的第一步采用合適的模型對多數(shù)據(jù)源中的碎片化數(shù)據(jù)進行建模.從多數(shù)據(jù)源中獲取的碎片化知識對評估數(shù)據(jù)的可靠性和數(shù)據(jù)質(zhì)量有重要的作用.為了更好地表示數(shù)據(jù)的特征,BigKE利用在線學(xué)習(xí)方法,同時考慮“數(shù)據(jù)流”和“特征流”,因為大數(shù)據(jù)知識工程首先需要關(guān)注的是數(shù)據(jù)的獲取和存儲[80].在第2節(jié)中我們討論了大數(shù)據(jù)對于知識工程提出了數(shù)據(jù)存儲方面的挑戰(zhàn),在BigKE模型中,目前可以利用的諸如并行數(shù)據(jù)庫和MapReduce技術(shù)的混合架構(gòu)[59].對于快速到來的數(shù)據(jù),其中含有大量的時間和空間信息,這些時空信息可能隱藏數(shù)據(jù)的有用特征,對流數(shù)據(jù)的處理需要選擇動態(tài)的模型來刻畫數(shù)據(jù)的特征.所以同傳統(tǒng)的知識工程相比,動態(tài)大數(shù)據(jù)的知識提取是一個重要方面.對數(shù)據(jù)流數(shù)據(jù)的知識工程已經(jīng)取得一部分進展,例如,針對數(shù)據(jù)流數(shù)據(jù)的算法研究和數(shù)據(jù)模型的改進工作[81],以及數(shù)據(jù)流數(shù)據(jù)的聚類算法研究[82].
對在線獲取的碎片知識,還需要評估數(shù)據(jù)的可靠性.這是因為在處理大規(guī)模數(shù)據(jù)的過程中無法對所有的數(shù)據(jù)進行建模,采用的數(shù)據(jù)抽樣方式對數(shù)據(jù)的可信度產(chǎn)生了影響,同時,傳統(tǒng)的數(shù)據(jù)學(xué)習(xí)方法和建模方式無法處理在大數(shù)據(jù)環(huán)境下的概念漂移問題.數(shù)據(jù)的精確度和可靠性評估可以通過對數(shù)據(jù)的來源來進行排序和評價,在對碎片化數(shù)據(jù)進行篩選和清洗時,選擇具有較高質(zhì)量的數(shù)據(jù).關(guān)注特征流的在線學(xué)習(xí)方法和傳統(tǒng)的在線學(xué)習(xí)方法相比,不再僅僅是關(guān)注所處理的數(shù)據(jù)的處理順序,而是對不斷增長的大數(shù)據(jù)的數(shù)據(jù)量、巨大的數(shù)據(jù)的特征空間等都有所關(guān)注[39],這樣提取出來的碎片化知識具有更高的精確度和可信度.其次,碎片化知識建模時,概念漂移的問題對數(shù)據(jù)的影響也需要注意.概念漂移發(fā)生時,現(xiàn)有的數(shù)據(jù)對象的統(tǒng)計性質(zhì)可能會隨著時間的推進產(chǎn)生變化,那么我們運用的模型如果是固定不變的,所得到的碎片化知識的真實性會產(chǎn)生偏差.我們需要算法和模型具有自適應(yīng)性,以得到我們需要的碎片化知識[83].概念漂移的情況下,可能對數(shù)據(jù)的存儲和記憶需要設(shè)置時間值,用以保障對數(shù)據(jù)特征的存儲和描述是最新的.
除了考慮大數(shù)據(jù)的來源,BigKE還著眼于數(shù)據(jù)挖掘和融合的方法來評估數(shù)據(jù)的質(zhì)量.通過改變傳統(tǒng)的學(xué)習(xí)思路,BigKE在進行大數(shù)據(jù)的碎片化知識建模時,采用協(xié)同學(xué)習(xí)(Co-learning),這樣可以利用具有相似數(shù)據(jù)特征的數(shù)據(jù)之間的聯(lián)系,從相似的數(shù)據(jù)中互相評價和調(diào)用信息,以達到提高數(shù)據(jù)質(zhì)量的目的,同時對于碎片化建模的模型質(zhì)量也會有所提升.碎片化知識建模的重要性是不言而喻的.舉個例子來說,如果一個健身的手機APP想要為用戶提供合適的健身計劃,需要結(jié)合這位用戶在飲食、運動能力、作息時間甚至是疾病歷史等多方面的信息,涉及到的時間軸和空間軸的刻畫是很復(fù)雜的,況且涉及到用戶個人隱私的信息,諸如個人收入,有時候是難以獲得真實完整的數(shù)據(jù).在這樣的情況下,對碎片知識的建模挑戰(zhàn)不僅來源于數(shù)據(jù)模型的挑戰(zhàn),還涉及到數(shù)據(jù)的可靠性和完整性等問題.
3.2從局部知識到全局知識------碎片化知識融合
通過對碎片化知識的建模和語義封裝,我們得到了BigKE第一階段的產(chǎn)物,即用合適的模型表示的碎片化知識.為了進一步得到整個大數(shù)據(jù)集的全局知識,BigKE需要對碎片化知識進行非線性融合.多源異構(gòu)的數(shù)據(jù)環(huán)境下,BigKE采用知識圖譜對碎片化數(shù)據(jù)進行表示.將大數(shù)據(jù)知識工程同傳統(tǒng)知識工程相比較,后者先對收集提取出的知識進行聚合得到全局的知識,進而在全局知識上進行一系列的知識推斷工作,前者與它的區(qū)別在于通過推斷工作,得到現(xiàn)有的局部的碎片化知識中可能沒有表現(xiàn)出的有用信息.BigKE對碎片化知識的融合具有兩個創(chuàng)新點:1)考慮到碎片化知識的融合無法采用簡單的線性處理方式;2)將碎片化知識之間的關(guān)聯(lián)表示,轉(zhuǎn)化成知識圖譜的子圖來處理.
BigKE采用知識圖譜來表示和融合碎片化知識具有許多優(yōu)點.首先,由于碎片化知識之間的動態(tài)的和演化的語義關(guān)聯(lián),傳統(tǒng)的線性融合方法和模型無法反映出局部知識之間的聯(lián)系.碎片化知識之間的關(guān)系是復(fù)雜的,其復(fù)雜性來源于數(shù)據(jù)源的異構(gòu)性,異構(gòu)導(dǎo)致了不同的碎片化知識具有不同的記錄、存儲和表示的形式.而知識圖譜給出了局部知識到全局知識的統(tǒng)一的表示形式,這使得碎片化知識的融合過程更加簡便.其次,知識圖譜的點與點之間的路徑可以看做不同的碎片化知識之間可能的關(guān)聯(lián),這為個性化服務(wù)的實現(xiàn)提供了實現(xiàn)的可能性.舉個例子來說,目前的搜索引擎和購物網(wǎng)站可以通過用戶的搜索和瀏覽記錄,推薦給用戶相關(guān)的新聞網(wǎng)頁或者是相關(guān)的物品.諸如亞馬遜的相關(guān)商品推薦和微博上可能認(rèn)識的用戶的推送信息[84].每個用戶的記錄是局部的,關(guān)于用戶的需求的發(fā)現(xiàn)由此轉(zhuǎn)變?yōu)閷ふ抑R圖譜中用戶的碎片化知識的相鄰節(jié)點,或者是路徑導(dǎo)航.
采用知識圖譜來進行碎片化知識的非線性融合時,我們除了要應(yīng)對復(fù)雜的異構(gòu)數(shù)據(jù),還需要處理好碎片化知識之間固有的語義聯(lián)系.例如,對同一事件的討論,從微博、微信、推特等不同的社交網(wǎng)站上獲得的碎片化知識可能包含的是同一種意見傾向,或者是存在敵對的意見,那么進行知識融合時我們需要在知識圖譜中有所體現(xiàn).通過知識圖譜表示的知識的節(jié)點和所連接的尚在演化的關(guān)系中需要作出相應(yīng)的調(diào)整.因此,我們需要關(guān)注的是,碎片化知識融合時這些聯(lián)系和節(jié)點的表示[85].BigKE模型中對碎片知識的融合,需要對現(xiàn)有的子圖進行一定的篩選,碎片化知識反映出的局部信息是多數(shù)據(jù)源的自治性的一種表現(xiàn),這些局部的信息對獲取全局知識的重要性,也需要通過子圖的可信度來刻畫.
與現(xiàn)有的推薦網(wǎng)站和個性化服務(wù)有所不同,大數(shù)據(jù)知識工程模型BigKE的知識圖譜結(jié)構(gòu)需要動態(tài)更新,這是碎片化知識之間復(fù)雜的動態(tài)聯(lián)系所導(dǎo)致的.BigKE對碎片化知識的融合過程同樣引入了評估機制.BigKE模型的第1層中,需要評估的是所獲得數(shù)據(jù)的質(zhì)量,在知識融合的過程中,評估的是知識圖譜的可靠性.這是由于碎片化知識的復(fù)雜關(guān)系同樣受到漂移的影響,由此帶來了關(guān)系的演化.評估這些碎片化知識之間的關(guān)聯(lián)可以提升所得到的知識圖譜的精確度,對后期知識導(dǎo)航奠定基礎(chǔ),評估的標(biāo)準(zhǔn)可以參考碎片化知識聯(lián)系的關(guān)系強度等來表述.舉例來說,在不同的關(guān)系中,關(guān)系強度可以被描述為顯式的強度或隱式的強度關(guān)系[86].碎片化數(shù)據(jù)之間的關(guān)聯(lián)被表示為知識圖譜的邊,通過對數(shù)據(jù)間關(guān)聯(lián)的強度刻畫,能夠動態(tài)更新知識圖譜的邊,從而刻畫出大數(shù)據(jù)中動態(tài)的數(shù)據(jù)關(guān)聯(lián).
3.3個性化知識導(dǎo)航
大數(shù)據(jù)知識工程的最終目標(biāo)是提供以用戶需求為導(dǎo)向的知識服務(wù).BigKE模型通過對碎片化知識的非線性融合得到了大數(shù)據(jù)的全局知識,為了將從大數(shù)據(jù)中獲取的知識應(yīng)用到知識服務(wù)中,需要考慮用戶的社交信息等個性化的信息,并需要合適的方法對用戶的個性化查詢提供精確的推薦和導(dǎo)航服務(wù).前兩小節(jié)中提到的知識圖譜,其節(jié)點和邊對應(yīng)的是知識的單元和知識之間的語義關(guān)聯(lián),提供知識服務(wù)可以看作尋找某兩點之間的最佳路徑.我們利用用戶需求作為導(dǎo)向,使用知識圖譜中的連接關(guān)系,尋找用戶節(jié)點包含內(nèi)容之間的關(guān)系.
個性化服務(wù)的一個案例是病人之間的同病不同源,因而在4P模型里需要不同的治療方案。在數(shù)據(jù)挖掘技術(shù)快速發(fā)展的時代,我們應(yīng)該站到數(shù)據(jù)科學(xué)發(fā)展的最前沿,積極探索將全新的數(shù)據(jù)分析技術(shù)和個性化服務(wù)相融合的方法.類似地,已經(jīng)成功應(yīng)用到網(wǎng)絡(luò)學(xué)習(xí)等系統(tǒng)中的知識導(dǎo)航服務(wù),是根據(jù)對文本語境和瀏覽記錄等數(shù)據(jù)的分析,尋找到最感興趣的另一個知識節(jié)點[87].以社交網(wǎng)絡(luò)為例,我們可以從客戶端的瀏覽器中獲取細節(jié)信息,就是用戶選擇瀏覽的鏈接列表及其運行的時間[88].其他可獲取的一些信息的類型,還包括用戶從某一鏈接到另一網(wǎng)站的路徑消耗時間.這些信息可以用來形成用戶的個性化查詢,從而我們可以找到最短路徑的鏈接來預(yù)估用戶需求從而做出合適的推薦和導(dǎo)航服務(wù).發(fā)現(xiàn)路徑后,對從知識圖譜中提取出的路徑結(jié)構(gòu)還要加以適當(dāng)?shù)恼砉ぷ?
對用戶的個性化需求和查詢要求,BigKE模型在知識圖譜上直接進行推斷工作,從而進行用戶未來可能行為的預(yù)測.這也是大數(shù)據(jù)知識工程和傳統(tǒng)知識工程的一個區(qū)別.前者注重的是預(yù)測未來,后者注重的是管理和使用已獲取的數(shù)據(jù)和知識.但由于龐大的數(shù)據(jù)量和知識圖譜規(guī)模的巨大化,在數(shù)據(jù)維度過高時會產(chǎn)生問題,使得新知識圖譜的構(gòu)建和導(dǎo)航服務(wù)的質(zhì)量下降,因而,發(fā)現(xiàn)算法采取近似手段是必要的.同時,對所提供知識導(dǎo)航服務(wù)的用戶,其潛在需求往往需要結(jié)合到上下文感知、協(xié)同過濾等技術(shù)[89].開發(fā)和應(yīng)用知識導(dǎo)航算法時,上下文感知技術(shù)向我們提供調(diào)整知識系統(tǒng)運行的可能,尤其是涉及到移動設(shè)備等的知識導(dǎo)航服務(wù),上下文感知技術(shù)能夠大大提高所獲取的知識的可用性,提升知識導(dǎo)航服務(wù)的價值.協(xié)同過濾技術(shù)同樣是為了降低知識導(dǎo)航的模糊性,提升個性化服務(wù)的準(zhǔn)確度,基于用戶的系統(tǒng)通過對推薦和導(dǎo)航服務(wù)預(yù)測工作的評價,可以獲得更優(yōu)良的精度評價指標(biāo).
對用戶的需求和個性化查詢,BigKE基于知識圖譜給出的結(jié)果,還需要用一種直觀、簡便的形式展現(xiàn)給用戶,以提高知識服務(wù)的可用性和可操作性.例如,用戶總是希望手機推薦的熱點新聞是以簡潔的標(biāo)題和某一張新聞圖片結(jié)合的方式呈現(xiàn)的,如果推薦系統(tǒng)只是將推薦的內(nèi)容以長文本的形式推送給用戶,那么就會降低用戶的閱讀興趣,從而使獲取的大知識被用戶忽略.
與5V模型、5R模型、4P醫(yī)學(xué)模型和HACE相比較,BigKE具有它的優(yōu)越性.面向海量多源的動態(tài)數(shù)據(jù),BigKE考慮到大數(shù)據(jù)的異構(gòu)和自治特征,提供基于互聯(lián)網(wǎng)的知識服務(wù).5V模型、5R模型和4P醫(yī)學(xué)模型提煉出的大數(shù)據(jù)特征,在大數(shù)據(jù)知識工程中為大數(shù)據(jù)中的“大”知識的存儲和分析工作提供了導(dǎo)向,但它們沒有強調(diào)大數(shù)據(jù)中數(shù)據(jù)流和特征流的處理方式.對數(shù)據(jù)流數(shù)據(jù)的碎片化知識提取和非線性融合可以依靠BigKE的第1層和第2層得到.4P醫(yī)學(xué)模型強調(diào)用戶個人信息的參與,這需要對基于互聯(lián)網(wǎng)的大數(shù)據(jù)流之間的語義關(guān)系建立合適的模型.BigKE對碎片化知識的語義封裝能夠提供更可靠的個人信息及它們之間的演化關(guān)系的表示,體現(xiàn)出大數(shù)據(jù)動態(tài)的特點.HACE定理給出了處理大數(shù)據(jù)的多層框架,BigKE在它的基礎(chǔ)上對大數(shù)據(jù)挖掘形成的知識圖譜提出了個性化服務(wù)的導(dǎo)航,更有利于和具體的應(yīng)用實例結(jié)合.盡管BigKE同已有的大數(shù)據(jù)模型相比具有自身的優(yōu)勢,但涉及到大知識的發(fā)現(xiàn)和挖掘,仍具有進一步的挑戰(zhàn).
大數(shù)據(jù)知識工程模型BigKE旨在解決大數(shù)據(jù)對知識工程提出的挑戰(zhàn),本節(jié)我們討論BigKE中幾個挑戰(zhàn)問題和可能的應(yīng)用場景.
挑戰(zhàn)1.碎片化知識的非線性融合.首先,在BigKE的第2層,碎片化知識生成于異構(gòu)自治的多源數(shù)據(jù).這些數(shù)據(jù)沒有統(tǒng)一的數(shù)據(jù)表示形式,這些碎片化知識也缺乏統(tǒng)一的邏輯結(jié)構(gòu),所以知識融合起來十分困難.傳統(tǒng)的知識工程處理的信息通常含有一定的邏輯和統(tǒng)一的格式,而BigKE面對多種形式的數(shù)據(jù),諸如微博、短信息、傳感器數(shù)據(jù)、音視頻和郵件等,這項挑戰(zhàn)工作也正在形成一個研究熱點.現(xiàn)有的數(shù)據(jù)融合方法大多采用的是有偏估計,例如,利用多傳感器的有偏估計,可以將數(shù)據(jù)的融合近似的收斂于無偏的估計,從一定程度上提高數(shù)據(jù)融合的精確度[90].將異構(gòu)的碎片化知識進行融合時,為了形成統(tǒng)一的知識圖譜形式,我們無法兼顧到所有的信息,因此必然存在對數(shù)據(jù)和信息的取舍問題,如果單純采用加權(quán)和閾值的形式?jīng)Q定融合過程中對信息的丟棄,則融合后的全局知識的精度會下降.因此,我們需要一個合適的機制來選擇在碎片化知識融合的過程中,對數(shù)據(jù)信息的取舍做出判斷,期望在盡可能保留原有信息以提高知識圖譜的準(zhǔn)確度,同時也能夠以一種簡便的形式表現(xiàn)出用戶需要的知識.
挑戰(zhàn)2.大知識圖譜的動態(tài)更新.大數(shù)據(jù)知識工程與傳統(tǒng)知識工程的一大區(qū)別在于大數(shù)據(jù)知識工程具有預(yù)測未來趨勢的要求.大數(shù)據(jù)不斷地到來,現(xiàn)有的知識圖譜無法一勞永逸地表現(xiàn)出每時每刻的數(shù)據(jù)特征.大數(shù)據(jù)的數(shù)量可能呈現(xiàn)驚人的增長速度,現(xiàn)有數(shù)據(jù)之間的關(guān)聯(lián)隨著時間的推移也會產(chǎn)生變化.碎片化知識的關(guān)聯(lián)隨著原始數(shù)據(jù)關(guān)聯(lián)的變化而變化,表現(xiàn)在知識圖譜中可能是某個節(jié)點的消失和新節(jié)點的產(chǎn)生,以及一些新產(chǎn)生的邊的構(gòu)建.知識圖譜的動態(tài)更新主要涉及到兩大問題:1)如何設(shè)置合理的時間點更新現(xiàn)有知識圖譜,2)如何確定對某一數(shù)據(jù)關(guān)聯(lián)的取舍問題.第1個問題可采用事先設(shè)置好的時間閾值,以當(dāng)前時間點為起始,到達規(guī)定的閾值范圍時,則重新掃描數(shù)據(jù)集構(gòu)建新的知識結(jié)構(gòu).這樣的方式雖然可以提高所得到的知識的質(zhì)量,但是大規(guī)模數(shù)據(jù)集的重新掃描過于耗費時間,不滿足對大數(shù)據(jù)知識工程的時間要求.因此,相比較于采用事先設(shè)置的固定時間閾值,BigKE的后續(xù)工作可以考慮對時間閾值的動態(tài)設(shè)置.設(shè)置掃描時間閾值的動態(tài)指標(biāo)可以參考新的數(shù)據(jù)到來的速度,根據(jù)新數(shù)據(jù)產(chǎn)生的多少來調(diào)整更新算法運行的時間間隔.針對第2個問題,BigKE的挑戰(zhàn)在于要建立一個數(shù)據(jù)關(guān)聯(lián)度的評估評價機制,因為現(xiàn)有的數(shù)據(jù)關(guān)聯(lián),無論是數(shù)據(jù)節(jié)點還是聯(lián)系,都會隨著新數(shù)據(jù)的到來和時間的推移發(fā)生變化.在進行知識圖譜更新時,為了確定一條現(xiàn)有的邊的保留或者丟棄,現(xiàn)有的數(shù)據(jù)關(guān)聯(lián)強度算法很少考慮到大數(shù)據(jù)的動態(tài)性,接下來的工作需要考慮對數(shù)據(jù)關(guān)聯(lián)強度的評價機制中加入動態(tài)的因素.
挑戰(zhàn)3.基于集成和拆解的知識重組.BigKE的核心思想是集成碎片化數(shù)據(jù),產(chǎn)生新的知識面向個性化服務(wù).然而,碎片有大有小,有些大碎片必須首先分割成小的碎片以后才能有效集成.這就是粒度問題.人們一般不認(rèn)為一本完整的書是知識碎片.然而,在浩如煙海的書庫前面,一本書就可以看成是一個知識碎片.一篇文章可能會被看成是知識碎片.然而,如果分開考察它所包含的許多定理,以及這些定理所組成的知識體系,那么文章本身又不是碎片了.因此.是碎片還是知識,是相對而非絕對的.如何分拆,如何重組?如何根據(jù)重組的目標(biāo)來分拆?既是技術(shù)問題,也是科學(xué)問題.
挑戰(zhàn)4.海量碎片化知識的約化表示.海量并不能完全刻畫大數(shù)據(jù),但是大數(shù)據(jù)一定是海量的,而且大數(shù)據(jù)存在著不確定、不完整、含噪音的數(shù)據(jù)質(zhì)量問題。我們不能在要用到大數(shù)據(jù)時每次都臨時到網(wǎng)上去找,所以必須考慮大數(shù)據(jù)和從大數(shù)據(jù)中生成的碎片化知識的海量存儲和管理問題.在許多的相關(guān)技術(shù)中,大數(shù)據(jù)及其碎片化知識的存儲、訪問和利用可以采取約化表示.約化的含義是把同一知識的復(fù)雜表示A轉(zhuǎn)換為簡單表示B,使得B的容量大大小于A,但是B已經(jīng)包含了A的絕大部分有用信息,已經(jīng)可以在絕大部分場合代替A“出場”.一個實例是機器學(xué)習(xí)中的流形學(xué)習(xí),它的主要作用是降維,把高維數(shù)據(jù)降為低維數(shù)據(jù)而不影響,或很少影響其特征性質(zhì).該方法在各種模式識別中有重要應(yīng)用.
挑戰(zhàn)5.BigKE的分布式實現(xiàn).高效的大數(shù)據(jù)知識工程一定要走分布式處理的道路,不僅是為了存儲和管理,更重要的是為了計算效率.我們在前文中提到了一種可能的選擇是采用Map-Reduce方法.該方法的核心在于把大數(shù)據(jù)分拆成許多小塊數(shù)據(jù),分配到許多節(jié)點上,通過分布式方式計算后再集成其結(jié)果.但這個方法也不是萬能的.對解決某些問題來說,例如統(tǒng)計問題,其結(jié)果可能會不理想.除了前文已經(jīng)提到的把大量分散模塊的數(shù)據(jù)合并計算可能會模糊了某些統(tǒng)計閾值以外,還可能出現(xiàn)統(tǒng)計值不正確的問題,徐宗本院士指出,Hadoop類型的大數(shù)據(jù)回歸算法,只有在滿足所謂“一致相合”條件下才能提供合理結(jié)果[91].這樣的挑戰(zhàn)是我們在把大數(shù)據(jù)集成為知識時必須應(yīng)對的.
挑戰(zhàn)6.個性化用戶行為的建模.大數(shù)據(jù)中的大知識為我們提供了個性化的大知識服務(wù),個性化大知識服務(wù)的關(guān)鍵在于對個人和社交信息的建模.由于BigKE提出大數(shù)據(jù)的知識工程需要直接在知識圖譜上進行知識的推斷,那么接下來的工作重點應(yīng)該著眼于過濾和選擇算法的實時性.在知識圖譜上的直接推斷可能會產(chǎn)生幾個相類似的結(jié)果,除了知識圖譜的結(jié)構(gòu)在隨著時間變化,用戶的需求也會產(chǎn)生變化,所以,BigKE模型面對的另一大挑戰(zhàn)問題是對用戶行為的建模.通過聚集個人和社交的信息,知識圖譜可望涵蓋用戶的行為和情感傾向,由此BigKE可以對用戶未來的行為做出推斷,從而動態(tài)地改善現(xiàn)有的知識服務(wù)質(zhì)量.從協(xié)同過濾或上下文感知的過濾和選擇機制開始,加入用戶行為的推斷,這樣給出的結(jié)果帶有實時性,但同時對BigKE的挑戰(zhàn)又進一步提升了,因為多一個考慮的維度,帶有需求驅(qū)動的大數(shù)據(jù)算法的編譯效率可能就會下降很多,訓(xùn)練集和測試集的劃分也會對算法的效率有所影響,因此BigKE的后續(xù)工作還涉及到大數(shù)據(jù)算法效率的提升.
大知識面向國民經(jīng)濟的主戰(zhàn)場,在各個科技領(lǐng)域都會有著廣泛的應(yīng)用.下面我們分析幾個大知識的應(yīng)用場景.
應(yīng)用場景1.動態(tài)網(wǎng)絡(luò)大詞典.本文在第1節(jié)中已經(jīng)對大知識給出定義.大知識所具有的海量、異構(gòu)和多源的特性源于大數(shù)據(jù)的來源.將大知識應(yīng)用到動態(tài)詞典的建立和更新中具有廣闊的前景.動態(tài)詞典是相對于傳統(tǒng)的靜態(tài)數(shù)據(jù)而言,詞典的建立和更新是動態(tài)的,其動態(tài)性體現(xiàn)在隨著社會和網(wǎng)絡(luò)語言知識的變化,在較短的時間間隔內(nèi)動態(tài)詞典能夠更新詞匯的內(nèi)容和語言的規(guī)范.從文本語言中抓取即時的語料庫,實現(xiàn)動態(tài)詞典的動態(tài)特征.事實上,無論是文本數(shù)據(jù)挖掘還是動態(tài)詞典的建立,都需要對語料庫加以動態(tài)的擴充和更新來不斷適應(yīng)伴隨數(shù)據(jù)流和特征流到來的新數(shù)據(jù).除了對語料庫的動態(tài)更新,網(wǎng)絡(luò)動態(tài)詞典所應(yīng)用的大知識還能體現(xiàn)詞匯的關(guān)聯(lián)和兼容.這是由于大知識來源于異構(gòu)的大數(shù)據(jù),從多種媒體抓取的詞語信息,需要經(jīng)過加工和融合形成新的詞語信息對語料庫進行更新.異構(gòu)的多源信息是否能產(chǎn)生新的大知識,取決于對新知識的評估體系,評估內(nèi)容應(yīng)當(dāng)包含新知識與當(dāng)前已有詞匯信息的重合度比較和關(guān)聯(lián)性分析,以降低動態(tài)詞典內(nèi)知識的重合和冗余.大知識應(yīng)用在動態(tài)詞典的建立和更新中,除了有上述的兩個關(guān)鍵問題,考慮動態(tài)詞典的內(nèi)容,還應(yīng)當(dāng)包含有方言的相關(guān)知識.大知識的多源特征決定了它應(yīng)當(dāng)涵蓋盡可能多和廣的信息,應(yīng)用在動態(tài)詞典中,表現(xiàn)為詞匯的覆蓋范圍需要考慮到時間和空間兩個因素.時間維度上表現(xiàn)為詞典的動態(tài)更新,空間維度上表現(xiàn)為詞典的內(nèi)容考慮到地域的不同,則應(yīng)當(dāng)涵蓋盡可能多的方言知識.
應(yīng)用場景2.網(wǎng)絡(luò)新聞的動態(tài)跟蹤和總結(jié).大知識應(yīng)用到多源新聞分析領(lǐng)域,具有新的應(yīng)用前景,可以做新聞的動態(tài)跟蹤和總結(jié).在互聯(lián)網(wǎng)2.0時代,可供獲取的新聞信息增長過快,然而新聞的數(shù)量快速增長的同時,并沒有使得新聞的質(zhì)量同步提升,重復(fù)閱讀的信息耗費了用戶大量的時間.新聞事件中的大知識,應(yīng)當(dāng)伴隨時間軸清晰地梳理和表示出新聞事件的多個主題,包括對頻繁發(fā)生的新聞事件的當(dāng)前關(guān)注焦點和后期演變形式的跟蹤,以便用戶更加全面和具有針對性地獲取新聞中重要的本質(zhì).新聞的動態(tài)跟蹤和總結(jié)基于大量的新聞網(wǎng)頁和文本,利用詞共現(xiàn)圖的構(gòu)建提取出用戶感興趣的新聞中的多個主題,對與新聞事件相關(guān)的多個主題建立各自的摘要集合,從而生成各主題的動態(tài)跟蹤和總結(jié).在整個新聞主題的抓取和動態(tài)跟蹤過程中,產(chǎn)生了大量的知識.在這個應(yīng)用背景下,大知識表現(xiàn)為與用戶感興趣的新聞最具相關(guān)性的新聞主題和摘要總結(jié).動態(tài)的新聞跟蹤在考慮新聞查詢和新聞相關(guān)性的基礎(chǔ)上,考慮新聞文檔中的多個主題,針對同一個新聞事件,建立了更加清晰的主題演化過程的展示和更加全面的新聞內(nèi)容的總結(jié).
應(yīng)用場景3.普適醫(yī)療信息的管理與服務(wù).在醫(yī)療應(yīng)用方面,大知識的應(yīng)用具有廣闊的前景.大知識與普適醫(yī)療的結(jié)合,可以建立和動態(tài)更新醫(yī)療推薦系統(tǒng).通過分析用戶的個人信息,包括地理位置、個人病史和社交偏好等,實時更新用戶附近的醫(yī)院、藥房等醫(yī)療保障系統(tǒng)的信息.在某一時刻,用戶根據(jù)需要查詢當(dāng)前針對某一病癥可獲得的最佳診斷和治療方案.查詢信息表現(xiàn)為現(xiàn)有的病癥表現(xiàn)和疼痛程度等,個性化推薦信息可以包括距離最近和治療效果最佳的藥房和醫(yī)院等信息.這一過程需要大知識作為普適醫(yī)療系統(tǒng)的支撐.醫(yī)療數(shù)據(jù)中在地理、多種類醫(yī)療器械和軟件上的分布,由此導(dǎo)致的異構(gòu)性造成了信息集成的困難.同時,利用收集到的醫(yī)療數(shù)據(jù)挖掘出有價值的醫(yī)療知識成為了能否提供準(zhǔn)確的推薦信息的關(guān)鍵.病人的病史分析和現(xiàn)有醫(yī)療知識圖譜的比對是否精準(zhǔn),也需要通過用戶的評價系統(tǒng)不斷加以改進.
應(yīng)用場景4.萬維網(wǎng)就業(yè)培訓(xùn).與普適醫(yī)療類似,個性化的推薦服務(wù)中大知識還可以滲透到網(wǎng)上創(chuàng)業(yè)培訓(xùn)當(dāng)中.基于萬維網(wǎng)的就業(yè)信息,可以構(gòu)建大型的知識圖譜,其子圖的劃分可以參考就業(yè)的種類選擇、求職人的文化水平以及地域劃分等.就業(yè)技能的數(shù)據(jù)包含多個職業(yè)分類,數(shù)據(jù)的來源也各不相同,含有地域性的差異,由此導(dǎo)致了數(shù)據(jù)的集成和融合問題.比如,在農(nóng)業(yè)發(fā)達地區(qū),對種植指導(dǎo)專家崗位的需求遠遠大于漁業(yè)和工商業(yè)發(fā)達地區(qū).那么網(wǎng)上就業(yè)培訓(xùn)系統(tǒng)需要依據(jù)用戶的地理信息進行數(shù)據(jù)的篩選和過濾,結(jié)合用戶的個人就業(yè)傾向和現(xiàn)有的崗位的地理位置,進行就業(yè)培訓(xùn)內(nèi)容的推薦.事實上,個人通過網(wǎng)上就業(yè)培訓(xùn)系統(tǒng)學(xué)習(xí)就業(yè)技能時,系統(tǒng)根據(jù)用戶所提出的限定條件,反饋出的信息是從已有的大知識圖譜中尋找針對某一問題的映射,為用戶提供市場分析和技能培訓(xùn).
例如,某個本科即將畢業(yè)的計算機專業(yè)的學(xué)生希望策劃一份上海的軟件開發(fā)工作,該學(xué)生已具備的知識可能有高等數(shù)學(xué)和數(shù)據(jù)結(jié)構(gòu)等基礎(chǔ)知識,但某一符合他就業(yè)期望的崗位還需要具備高級編程語言的技能.通過將大知識圖譜中的某一針對性映射同用戶個人的知識圖譜進行比對,可以發(fā)現(xiàn)相似的節(jié)點以及缺失的節(jié)點,從而尋找到用戶就業(yè)需要學(xué)習(xí)的技能,提高知識學(xué)習(xí)導(dǎo)航的準(zhǔn)確性.網(wǎng)上就業(yè)培訓(xùn)的關(guān)鍵在于個人圖譜和大知識圖譜的比對以及大知識圖譜的構(gòu)建,這些關(guān)鍵問題隨著大知識應(yīng)用范圍的擴大會成為進一步的挑戰(zhàn).
應(yīng)用場景5.自動編輯和出版.上面提到的挑戰(zhàn)3,如果能夠很好地解決,則自動知識編輯的前景就可以實現(xiàn).例如:要求計算機根據(jù)庫中的一萬本計算機科學(xué)電子書,自動編輯下列新書:計算機科學(xué)百科全書、計算機軟件教程、大數(shù)據(jù)發(fā)展史要、計算機專業(yè)大學(xué)生用操作系統(tǒng)習(xí)題集等.從長遠來看,只要我們有一個數(shù)量巨大、組織合理、不斷更新的“知識碎片庫”,那么編輯和出版新書以滿足各種社會需求就不再是一個大量耗費人力和財力的事業(yè).
應(yīng)用場景6.智慧城市的動態(tài)認(rèn)知與決策.面向智慧城市及城市重大事件管理的實際需求,大數(shù)據(jù)知識工程可以針對城市大數(shù)據(jù)在自然屬性、地理屬性、時間屬性、社會屬性以及交互行為等方面的異構(gòu)、自治、多介、高維、低質(zhì)等特點,發(fā)現(xiàn)伴隨時空維度推進下蘊含的內(nèi)在關(guān)聯(lián)語義一致性,實現(xiàn)復(fù)雜關(guān)系的動態(tài)認(rèn)知和演化計算,探索多源感知信息的多層次關(guān)聯(lián)、語義提取與融合分析的機制和方法,實現(xiàn)多源異構(gòu)城市數(shù)據(jù)的緊耦合.智慧城市的動態(tài)認(rèn)知可以進行跨時空城市感知數(shù)據(jù)的關(guān)聯(lián)推理和深度挖掘,研究多維(時間、空間、屬性、語義)數(shù)據(jù)分析的城市重大事件管理方法,包括同類、異類城市事件的相關(guān)性分析、以及預(yù)測未來一段時間內(nèi)同地區(qū)發(fā)生類似事件的可能性,對城市群體行為或個別重大事件數(shù)據(jù)進行理解與分析,建立城市行為動力學(xué)理論體系.智慧城市的動態(tài)決策可以通過城市重大事件的交互式臨場分析,實現(xiàn)協(xié)同感知下城市大數(shù)據(jù)的推理模型,研究城市行為事件間相互作用、滲透和擴散的物理模型,以揭示城市行為涌現(xiàn)、傳播和演化機制,對面向公共安全的敏感事件進行語義理解、檢測跟蹤和預(yù)測預(yù)警.智慧城市的動態(tài)認(rèn)知與決策基于數(shù)據(jù)和知識的聯(lián)合驅(qū)動以及多模態(tài)數(shù)據(jù)的關(guān)聯(lián)增強技術(shù),采用多源信息的視覺轉(zhuǎn)換機制和自適應(yīng)交互可視化方法,旨在推進人機智能的深度耦合,實現(xiàn)“數(shù)據(jù)—信息—知識”階進式服務(wù),從而實現(xiàn)大數(shù)據(jù)時代的大知識精細化城市模擬及管理.
從大數(shù)據(jù)中獲取有價值的大知識具有許多問題和挑戰(zhàn),這與大數(shù)據(jù)的本質(zhì)特征密不可分.由大數(shù)據(jù)的HACE定理,我們了解到大數(shù)據(jù)異構(gòu)和自治的本質(zhì)特征,其分布式和分散式控制的特點,以及大數(shù)據(jù)之間復(fù)雜和演化的關(guān)聯(lián).大數(shù)據(jù)的本質(zhì)特征使得知識工程存在諸多挑戰(zhàn),利用傳統(tǒng)的數(shù)據(jù)分析和處理手段無法解決這些問題.現(xiàn)有的幾種大數(shù)據(jù)模型,包括5V,5R,4P和HACE定理,在解決大數(shù)據(jù)知識工程的問題和挑戰(zhàn)中具有各自的優(yōu)劣.本文從知識建模的角度介紹一種大數(shù)據(jù)知識工程模型BigKE,BigKE模型從大數(shù)據(jù)源中提取碎片化知識,進而對這些碎片化知識進行非線性的知識融合,最終根據(jù)用戶的需求作為導(dǎo)向,提供個性化的大知識服務(wù).將BigKE模型和一些現(xiàn)有的大數(shù)據(jù)模型相比較,BigKE通過其三層架構(gòu)給出了現(xiàn)有大數(shù)據(jù)模型提出的一些挑戰(zhàn)問題的解決思路.為了從大數(shù)據(jù)中獲取更高質(zhì)量的大知識,BigKE模型還有許多有價值的后續(xù)工作,主要針對BigKE中無法解決的挑戰(zhàn)給出后續(xù)工作的方向.大知識的進一步挑戰(zhàn)與其廣泛的應(yīng)用前景密切相關(guān),在動態(tài)網(wǎng)絡(luò)大詞典的構(gòu)建、新聞的動態(tài)跟蹤和總結(jié)、普適醫(yī)療、網(wǎng)上就業(yè)培訓(xùn)、自動編輯和出版、以及智慧城市的動態(tài)認(rèn)知和決策等應(yīng)用場景中,大知識還大有可為.
致謝
HACE定理和BigKE模型是文獻[15,39]的合作者們共同研究的成果,本文的討論和展望也得益于同這些作者和其他大數(shù)據(jù)知識工程方向合作者的廣泛交流,這里對國內(nèi)合肥工業(yè)大學(xué)、西安交通大學(xué)、中國科學(xué)院數(shù)學(xué)所、中國科學(xué)技術(shù)大學(xué)、華東師范大學(xué)、廣西師范大學(xué)、百度和國外眾多單位的同行和合作研究者們一并表示感謝.
References
1 Beyer M A,Laney D.The importance of“Big Data”:a definition[Online],available:https://www.gartner.com/doc/ 2057415,F(xiàn)ebruary 17,2016
2 Marr B.Big data:the 5 Vs everyone must know[Online],http://www.linkedin.com/pulse/20140306073407-648 75646-big-data-the-5-vs-everyone-must-know,January 21,2016
3 Mervis J.Agencies rally to tackle big data.Science,2013,336(6077):22-22
4 Wang Fei-Yue.Software-deined systems and knowledge automation:a parallel paradigm shift from Newton to Merton. Acta Automatica Sinica,2015,42(1):1-8(王飛躍.軟件定義的系統(tǒng)與知識自動化:從牛頓到默頓的平行升華.自動化學(xué)報,2015,42(1):1-8)
5 Fish A N.Knowledge Automation:How to Implement Decision Management in Business Processes.USA:Wiley,2012.
6 Fern′andez A,Del R′?o S,L′opez V,Bawakid A,Del Jesus M J,Ben′?tez J M,Herrera F.Big data with cloud computing:an insight on the computing environment,MapReduce,and programming frameworks.Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery,2014,4(5):380-409
7 Kent S M.Sloan digital sky survey.Science with Astronomical Near-Infrared Sky Surveys.France:Springer,1994.27-30
8 Labrinidis A,Jagadish H V.Challenges and opportunities with big data.Proceedings of the VLDB Endowment,2012,5(12):2032-2033
9 Knoll A,Meinkoehn J.Data fusion using large multi-agent networks:an analysis of network structure and performance. In:Proceedings of the 1994 IEEE International Conference on MFI′94,Multisensor Fusion and Integration for Intelligent Systems(MFI).Las Vegas,NV:IEEE,1994.113-120
10 Nature Editorial.Community cleverness required.Nature,2008,455(7209):1-1
11 Che D R,Safran M,Peng Z Y.From big data to big data mining:challenges,issues,and opportunities.In:Proceedings of the 18th International Conference on Database Systems for Advanced Applications.Wuhan,China:Springer,2013.1-15
12 Stidston M.Business leaders need R′s not V′s:the 5 R′s of big data[Online],available:https://www.mapr.com/blog/ business-leaders-need-r%E2%80%99s-not-v%E2%80%99s-5 -r%E2%80%99s-big-data#.U2qmcq1dWIU,December 21,2015
13 Wang Ji,Wang Qi.Chinese constitution research and the practice of 4P medical model.Chinese Journal of Integrated Traditional and Western Medicine,2012,32(5):693-695(王濟,王琦.中醫(yī)體質(zhì)研究與4P醫(yī)學(xué)的實施.中國中西醫(yī)結(jié)合雜志,2012,32(5):693-695)
14 Auffray C,Charron D,Hood L.Predictive,preventive,personalized and participatory medicine:back to the future. Genome Medicine,2010,2(8):57-57
15 Wu X D,Zhu X Q,Wu G Q,Ding W.Data mining with big data.IEEE Transactions on Knowledge and Data Engineering,2014,26(1):97-107
16 Wikipedia.Big data[Online],available:https://en.wikipedia.org/wiki/Big data#Definition,December 12,2015
17 IDC 權(quán)威定義大數(shù)據(jù)概念:滿足 4V 標(biāo)準(zhǔn) [Online],available: http://www.d1net.com/bigdata/news/237143.html,December 12,2015
18 Tien J M.Big data:unleashing information.Journal of Systems Science and Systems Engineering,2013,22(2):127-151
19 Wang Yuan-Zhuo,Jin Xiao-Long,Cheng Xue-Qi.Network big data:present and future.Chinese Journal of Computers,2013,36(6):1125-1138(王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望.計算機學(xué)報,2013,36(6):1125-1138)
20 Wang Wei-Wei,Li Xiao-Ping,F(xiàn)eng Xiang-Chu,Wang Si-Qi. A survey on sparse subspace clustering.Acta Automatica Sinica,2015,41(8):1373-1384(王衛(wèi)衛(wèi),李小平,馮象初,王斯琪.稀疏子空間聚類綜述.自動化學(xué)報,2015,41(8):1373-1384)
21 Armbrust M,F(xiàn)ox A,Griffith R,Joseph A D,Katz R H,Konwinski A,Lee G,Patterson D A,Rabkin A,Stoica I,Zaharia M.Above the Clouds:A Berkeley View of Cloud Computing,Technical Report UCB/EECS-2009-28,EECS Department,University of California,Berkeley,2009
22 Blaabjerg F,Teodorescu R,Liserre M,Timbus A V. Overview of control and grid synchronization for distributed power generation systems.IEEE Transactions on Industrial Electronics,2006,53(5):1398-1409
23 Leskovec J,Huttenlocher D,Kleinberg J.Signed networks in social media.In:Proceedings of the 2010 SIGCHI Conference on Human Factors in Computing Systems.New York:ACM,2010.1361-1370
24 Zikopoulos P,Eaton C.Understanding Big Data:Analytics for Enterprise Class Hadoop and Streaming Data.USA:McGraw-Hill Osborne Media,2011.
25 The four V′s of big data[Online],available:http://www.ibmbigdatahub.com/sites/default/files/infographic file/4-Vsof-big-data.jpg,January 21,2016
26 Lazer D,Kennedy R,King G,Vespignan A.The parable of google flu:traps in big data analysis.Science,2014,343(6176):1203-1205
27 IBM.What is big data?[Online],available:http://www-01.ibm.com/software/data/bigdata/what-is-big-data.html,December 2,2015
28 Barwick H.The“four Vs”of big data.Implementing information infrastructure symposium [Online],available: http://www.computerworld.com.au/article/396198/December 2,2015
29數(shù)據(jù)并非越大越好:谷歌流感趨勢錯在哪兒了?[Online],available:http://www.guokr.com/article/438117/,December 2,2015
30 Ghemawat S,Gobioff H,Leung S T.The Google file system. In:Proceedings of the 19th ACM Symposium on Operating Systems Principles.New York:ACM,2003.29-43
31 Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters.In:Proceedings of the 6th Symposium on Operating Systems Design and Implementation.Berkeley,CA,USA:USENIX Association,2004.137-149
32 Big data solution offering[Online],available:http://mike2. openmethodology.org/wike/BigDataSolutionOffering,November 28,2015
33 White T.Hadoop:The Definitive Guide(2nd Edition). USA:Yahoo Press,2010.1-4
34 Gupta P,Kumar P,Gopal G.Sentiment analysis on Hadoop with Hadoop streaming.International Journal of Computer Applications,2015,121(11):4-8
35 Liao S H.Expert system methodologies and applications—a decade review from 1995 to 2004.Expert Systems with Applications,2005,28(1):93-103
36 Wu Xin-Dong,Ye Ming-Quan,Hu Dong-Hui,Wu Gong-Qing,Hu Xue-Gang,Wang Hao.Pervasive medical information management and services:key techniques and challenges.Chinese Journal of Computers,2012,35(5):827-845(吳信東,葉明全,胡東輝,吳共慶,胡學(xué)鋼,王浩.普適醫(yī)療信息管理與服務(wù)的關(guān)鍵技術(shù)與挑戰(zhàn).計算機學(xué)報,2012,35(5):827-845)
37 Auffray C,Chen Z,Hood L.Systems medicine:the future of medical genomics and healthcare.Genome Medicine,2009,1(1):2-2
38 Luo Xu,Chen Bo,Luo Li-Ya,Zhang Hong-Yan,Wu Hao,Li Jing-Bo.Discussion on reconstructing hospital healthcare management under 4P medical conception.Chinese Hospitals,2014,18(7):61-63(羅旭,陳博,羅莉婭,張宏雁,吳昊,李景波.4P醫(yī)學(xué)理念下醫(yī)院健康管理體系重構(gòu)思考.中國醫(yī)院,2014,18(7):61-63)
39 Wu X D,Chen H H,Wu G Q,Liu J,Zheng Q H,He X F,Zhou A Y,Zhao Z Q,Wei B F,Li Y,Zhang Q P,Zhang S C,Lu R Q,Zheng N N.Knowledge engineering with big data.IEEE Intelligent Systems,2015,30(5):46-55
40 Klasnja P,Pratt W.Healthcare in the pocket:mapping the space of mobile-phone health interventions.Journal of Biomedical Informatics,2012,45(1):184-198
41 Vassis D,Belsis P,Skourlas C,Pantziou G.Providing advanced remote medical treatment services through pervasive environments.Personal and Ubiquitous Computing,2010,14(6):563-573
42合肥工業(yè)大學(xué)吳信東:大數(shù)據(jù)Processing Framework多層架構(gòu)[Online],available:http://www.csdn.net/article/2012-07-27/2825305,December 7,2015
43 Petersen W P,Arbenz P.Introduction to Parallel Computing.Oxford:Oxford University Press,2004.
44 Corbett J C,Dean J,Epstein M,F(xiàn)ikes A,F(xiàn)rost C,F(xiàn)urman J J,Ghemawat S,Gubarev A,Heiser C,Hochschild P,Hsieh W,Kanthak S,Kogan E,Li H Y,Lloyd A,Melnik S,Mwaura D,Nagle D,Quinlan S,Rao R,Rolig L,Saito Y,Szymaniak M,Taylor C,Wang R,Woodford D.Spanner:Google′s globally-distributed database.ACM Transactions on Computer Systems,2012,31(3):Article No.8
45 Chang F,Dean J,Ghemawat S,Hsieh W C,Wallach D A,Burrows M,Chandra T,F(xiàn)ikes A,Gruber R E.BigTable:a distributed storage system for structured data.ACM Transactions on Computer Systems,2008,26(2):Article No.4
46 Peel M,Rowley J.Information sharing practice in multiagency working.ASLIB Proceedings,2010,62(1):11-28
47 Wang M D,Li B,Zhao Y X,Pu G G.Formalizing Google file system.In:Proceedings of the 20th IEEE Pacific Rim International Symposium on Dependable Computing(PRDC). Singapore:IEEE,2014.190-191
48 Cormode G,Srivastava D.Anonymized data:generation,models,usage.In:Proceedings of the 2009 ACM SIGMOD International Conference on Management of Data.Providence,RI:ACM,2009.1015-1018
49 Sweeney L.k-anonymity: a model for protecting privacy.International Journal of Uncertainty,F(xiàn)uzziness and Knowledge-Based Systems,2002,10(5):557-570
50 Kopanas I,Avouris N M,Daskalaki S.The role of domain knowledge in a large scale data mining project.Methods and Applications of Artificial Intelligence.Thessaloniki,Greece:Springer,2002.288-299
51 Salton G M,Wong A,Yang C S.A vector space model for automatic indexing.Communications of the ACM,1975,18(11):613-620
52 Deerwester S C,Dumais S T,F(xiàn)urnas G W,Landauer T K,Harshman R.Indexing by latent semantic analysis.Journal of the American Society for Information Science,1990,41(6):391-407
53 Freedman E G,Shah P.Toward a model of knowledgebased graph comprehension.Diagrammatic Representation and Inference.Callaway Gardens,GA,USA:Springer,2002. 18-30
54 Aral S,Walker D.Identifying influential and susceptible members of social networks.Science,2012,337(6092):337-341
55 Centola D.The spread of behavior in an online social network experiment.Science,2010,329(5996):1194-1197
56 Strassel S,Adams D,Goldberg H,Herr J,Keesing R,Oblinger D,Simpson H,Schrag R,Wright J.The DARPA machine reading program—encouraging linguistic and reasoning research with a series of reading tasks.In:Proceedings of the 7th International Conference on Language Resources and Evaluation.Valletta,Malta:European Language Resources Association,2010.986-993
57 Studer R,Benjamins V R,F(xiàn)ensel D.Knowledge engineering:principles and methods.Data and Knowledge Engineering,1998,25(1-2):161-197
58 Pan Yun-He,Wang Jin-Long,Xu Cong-Fu.State-of-the-art on frequent pattern mining in data streams.Acta Automatica Sinica,2006,32(4):594-602(潘云鶴,王金龍,徐從富.數(shù)據(jù)流頻繁模式挖掘研究進展.自動化學(xué)報,2006,32(4):594-602)
59 Wang Shan,Wang Hui-Ju,Qin Xiong-Pai,Zhou Xuan.Architecting big data:challenges,studies and forecasts.Chinese Journal of Computers,2011,34(10):1741-1752(王珊,王會舉,覃雄派,周火亙.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望.計算機學(xué)報,2011,34(10):1741-1752)
60 Guha S,Mishra N,Motwani R,O′Callaghan L.Clustering data streams.In:Proceedings of the 41st Annual Symposium on Foundations of Computer Science.Redono Beach,USA:IEEE,2000.359-366
61 Zhu Qun,Zhang Yu-Hong,Hu Xue-Gang,Li Pei-Pei.A double-window-based classification algorithm for concept drifting data streams.Acta Automatica Sinica,2011,37(9):1077-1084(朱群,張玉紅,胡學(xué)鋼,李培培.一種基于雙層窗口的概念漂移數(shù)據(jù)流分類算法.自動化學(xué)報,2011,37(9):1077-1084)
62 Zhang Xin,Li Xiao-Guang,Wang Da-Ling,Yu Ge.A highspeed heuristic algorithm for mining frequent patterns in data stream.Journal of Software,2005,16(12):2099-2105(張昕,李曉光,王大玲,于戈.數(shù)據(jù)流中一種快速啟發(fā)式頻繁模式挖掘方法.軟件學(xué)報,2005,16(12):2099-2105)
63 Wu X D,Yu K,Ding W,Wang H,Zhu X Q.Online feature selection with streaming features.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(5):1178-1192
64 Zhang Q,Zhang P,Long G D,Ding W,Zhang C Q,Wu X D. Towards mining trapezoidal data streams.In:Proceedings of the 2015 IEEE International Conference on Data Mining(ICDM′15).Atlantic City,NJ,USA:IEEE,2015.1111 -1116
65 Wu X D,Yu K,Wang H,Ding W.Online streaming feature selection.In:Proceedings of the 27th International Conference on Machine Learning.Haifa,Israel,2010.1159-1166
66 Kivinen J,Smola A J,Williamson R C.Online learning with kernels.IEEE Transactions on Signal Processing,2004,52(8):2165-2176
67 Kimeldorf G,Wahba G.Some results on Tchebycheffian spline functions.Journal of Mathematical Analysis and Applications,1971,33(1):82-95
68 Zhou Z H,Chawla N V,Jin Y C,Williams G J.Big data opportunities and challenges:discussions from data analytics perspectives[Discussion forum].IEEE Computational Intelligence Magazine,2014,9(4):62-74
69 Vijayakumar S,D′Souza A,Schaal S.Incremental online learning in high dimensions.Neural Computation,2005,17(12):2602-2634
70 Hunter A,Summerton R.Fusion rules for context-dependent aggregation of structured news reports.Journal of Applied Non-Classical Logics,2004,14(3):329-366
71ˇZliobait˙e I.Learning under concept drift:an overview.Computer Science— Artificial Intelligence[Online],available:http://arxiv.org/abs/1010.4784,May 31,2015
72 Li Jian-Zhong,Liu Xian-Min.An important aspect of big data:data usability.Journal of Computer Research and Development,2013,50(6):1147-1162(李建中,劉顯敏.大數(shù)據(jù)的一個重要方面:數(shù)據(jù)可用性.計算機研究與發(fā)展,2013,50(6):1147-1162)
73 Samarati P,Sweeney L.Protecting privacy when disclosing information:k-anonymity and its enforcement through generalization and suppression.In:Proceedings of the 1998 IEEE Symposium on Research in Security and Privacy.Palo Alto,CA:IEEE,1998.1-19
74 Wang Chao,Yang Jing,Zhang Jian-Pei.Research on trajectory privacy preserving method based on trajectory characteristics and dynamic proximity.Acta Automatica Sinica,2015,41(2):330-341(王超,楊靜,張健沛.基于軌跡特征及動態(tài)鄰近性的軌跡匿名方法研究.自動化學(xué)報,2015,41(2):330-341)
75 Wu X D,Zhu X Q.Mining with noise knowledge:erroraware data mining.IEEE Transactions on Systems,Man,and Cybernetics— Part A:Systems and Humans,2008,38(4):917-932
76 He H B,Garcia E A.Learning from imbalanced data.IEEE Transactions on Knowledge and Data Engineering,2009,21(9):1263-1284
77王飛躍.邁向知識自動化[Online],available:http://www.cas. cn/xw/zjsd/201401/t201401034009925.shtml,June 1,2016
78 Deng Jian-Ling,Wang Fei-Yue,Chen Yao-Bin,Zhao Xiang-Yang.From industries 4.0 to energy 5.0:concept and framework of intelligent energy systems.Acta Automatica Sinica,2015,41(12):2003-2016(鄧建玲,王飛躍,陳耀斌,趙向陽.從工業(yè)4.0到能源5.0:智能能源系統(tǒng)的概念、內(nèi)涵及體系框架.自動化學(xué)報,2015,41(12):2003
79 -T2w0it1t6e)r Blog.Dispatch from the Denver debate[Online],available:http://blog.twitter.com/2012/100dispatch-reomdenver-debate.html,October 1,2012
80 Chun D X,Jun C J,Zhong C Y,Chao T M,Cong P.Data engineering in information system construction.In:Proceedings of the 2012 IEEE Symposium on Robotics and Applications(ISRA).Kuala Lumpur:IEEE,2012.135-137
81 Aggarwal C C.Data Streams:Models and Algorithms(Advances in Database Systems).US:Springer,2007.
82 Silva J A,F(xiàn)aria E R,Barros R C,Hruschka E R,de Carvalho A C P L F,Gama J.Data stream clustering:a survey. ACM Computing Surveys,2013,46(1):Article No.13
83 Patil P D,Kulkarni P.Adaptive supervised learning model for training set selection under concept drift data streams. In:Proceedings of the 2013 International Conference on Cloud and Ubiquitous Computing and Emerging Technologies.Pune:IEEE,2013.36-41
84 Hakkani-T¨ur D,Heck L,Tur G.Using a knowledge graph and query click logs for unsupervised learning of relation detection.In:Proceedings of the 2013 IEEE International Conference on Acoustics,Speech,and Signal Processing. Vancouver,BC:IEEE,2013.8327-8331
85 Dantas J R V,F(xiàn)arias P P M.Conceptual navigation in knowledge management environments using NavCon.Information Processing and Management,2010,46(4):413-425
86 Xu C J,Li A P,Liu X M.Knowledge fusion and evaluation system with fusion-knowledge measure.In:Proceedings of the 2nd International Symposium on Computational Intelligence and Design.Changsha,China:IEEE,2009.127-131
87 Shahabi C,Zarkesh A M,Adibi J,Shah V.Knowledge discovery from users web-page navigation.In:Proceedings of the 7th International Workshop on Research Issues in Data Engineering.Birmingham:IEEE,1997.20-29
88 Baldauf M,Dustdar S,Rosenberg F.A survey on contextaware systems.International Journal of Ad Hoc and Ubiquitous Computing,2007,2(4):263-277
89 Herlocker J L,Konstan J A,Terveen L G,Riedl J T.Evaluating collaborative filtering recommender systems.ACM Transactions on Information Systems,2004,22(1):5-53
90 Yue Yuan-Long,Zuo Xin,Luo Xiong-Lin.Improving measurement reliability with biased estimation for multi-sensor data fusion.Acta Automatica Sinica,2014,40(9):1843-1852(岳元龍,左信,羅雄麟.提高測量可靠性的多傳感器數(shù)據(jù)融合有偏估計方法.自動化學(xué)報,2014,40(9):1843-1852)
91 Xu C,Zhang Y Q,Li R Z.On the feasibility of distributed kernel regression for big data.Statistics[Online],available:http://arxiv.org/abs/1505.00869,May 31,2016
吳信東長江學(xué)者,“千人”計劃特聘教授,IEEE Fellow,AAAS Fellow.合肥工業(yè)大學(xué)計算機與信息學(xué)院教授.美國佛蒙特大學(xué)計算機與科學(xué)系教授.1993年獲得英國愛丁堡大學(xué)人工智能博士學(xué)位.主要研究方向為數(shù)據(jù)挖掘,知識庫系統(tǒng),萬維網(wǎng)信息探索.本文通信作者.
E-mail:xwu@hfut.edu.cn
(WU Xin-DongProfessor at the College of Computer Science and Information Engineering,Hefei University of Technology;professor in the Department of Computer Science,the University of Vermont.He received his Ph.D.degree from the University of Edinburgh in 1993.His research interest covers data mining,knowledge based systems,and Web information exploration.Corresponding author of this paper.)
何進合肥工業(yè)大學(xué)計算機與信息學(xué)院碩士研究生.2015年獲得安徽財經(jīng)大學(xué)計算機科學(xué)與技術(shù)系學(xué)士學(xué)位.主要研究方向為數(shù)據(jù)挖掘和大數(shù)據(jù)分析.
E-mail:flyingfish93319@126.com
(HE JinMaster student at the College of Computer Science and Information Engineering,Hefei University of Technology.She received her bachelor degree from Anhui Finance and Economics University in 2015.Her research interest covers data mining and big data analytics.)
陸汝鈐中國科學(xué)院院士.1959年獲得德國耶拿大學(xué)數(shù)學(xué)系學(xué)士學(xué)位.主要研究方向為知識工程,基于知識的軟件工程,人工智能.E-mail:rqlu@math.ac.cn
(LU Ru-QianMember of the Chinese Academy of Sciences.He received his bachelor degree from the University of Jena(Germany)in 1959.His research interest covers knowledge engineering,knowledge based software engineering,and artificial intelligence.)
鄭南寧中國工程院院士,IEEE Fellow,西安交通大學(xué)教授.1985年獲得日本慶應(yīng)大學(xué)工學(xué)博士學(xué)位.主要研究方向為模式識別,機器視覺與圖像處理.
E-mail:nnzheng@mail.xjtu.edu.cn
(ZHENG Nan-NingMember of the Chinese Academy of Engineering,IEEE Fellow,and professor at Xi′an Jiaotong University.He received his Ph.D.degree from Keio University(Japan)in 1985.His research interest covers pattern recognition,machine vision,and image processing.)
From Big Data to Big Knowledge:HACE+BigKE
WU Xin-Dong1,2HE Jin1LU Ru-Qian3ZHENG Nan-Ning4
Big data deals with heterogeneous and autonomous multi-sources,and aims at mining complex and evolving relationships among data.With the fast development of data collection,data storage and networking technologies,big data analytics has become a hot topic for research and development in various fields.This paper starts with the essential characteristics of big data,reviews existing popular models for big data,including 5V,5R,4P and the HACE theorem. Also,from the viewpoint of knowledge modeling,this paper introduces BigKE,a big data knowledge engineering model for big knowldedge,and discusses the challenges and opportunities of big knowledge research and development.
Big data,knowledge mining,heterogeneity,fragmented knowledge,online learning
10.16383/j.aas.2016.c160239
Wu Xin-Dong,He Jin,Lu Ru-Qian,Zheng Nan-Ning.From big data to big knowledge:HACE+BigKE. Acta Automatica Sinica,2016,42(7):965-982
2016-03-03錄用日期2016-05-31
Manuscript received March 3,2016;accepted May 31,2016
國家重點基礎(chǔ)研究發(fā)展計劃(973計劃)(2013CB329604),國家自然科學(xué)基金(61229301),教育部長江學(xué)者和創(chuàng)新團隊發(fā)展計劃“多源海量動態(tài)信息處理”(IRT13059)資助
Supported by National Basic Research Program of China(973 Program)(2013CB329604),National Natural Science Foundation of China(61229301),and the Program for Changjiang Scholars and Innovative Research Team in University(PCSIRT)of the Ministry of Education of China(IRT13059)
1.合肥工業(yè)大學(xué)計算機與信息學(xué)院合肥230009中國2.佛蒙特大學(xué)計算機科學(xué)系伯靈頓VT05405美國3.中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院北京 100190中國4.西安交通大學(xué)人工智能與機器人研究所西安710049中國
1.School of Computer Science and Information Engineering,Hefei University of Technology,Hefei 230009,China2.Department of Computer Science,University of Vermont,Burlington VT05405,USA3.Institute of Mathematics,Academy of Mathematics and Systems Science,Chinese Academy of Sciences,Beijing 100190,China4.Institute of the Artificial Intelligence and Robotics,Xi′an Jiaotong University,Xi′an 710049,China