王新穎
(湖北文理學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,湖北 襄陽 441053)
基于本體的網(wǎng)絡(luò)大數(shù)據(jù)信息處理
王新穎
(湖北文理學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,湖北 襄陽 441053)
針對(duì)大數(shù)據(jù)體量巨大、種類多樣、速度極快、價(jià)值稀疏的特點(diǎn),提出了基于本體的網(wǎng)絡(luò)大數(shù)據(jù)信息處理架構(gòu)。該架構(gòu)通過歷史大數(shù)據(jù)對(duì)本體模型不斷豐富,在形成面向大數(shù)據(jù)主題知識(shí)庫的基礎(chǔ)上,對(duì)網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行語義分析,實(shí)現(xiàn)價(jià)值服務(wù)。
大數(shù)據(jù);第四范式;本體
隨著云計(jì)算、物聯(lián)網(wǎng)等技術(shù)的快速發(fā)展,數(shù)據(jù)洪流以不可阻擋之勢(shì)滾滾而來,我們已經(jīng)進(jìn)入大數(shù)據(jù)(Big Data)時(shí)代。數(shù)據(jù)的角色也不再僅僅是計(jì)算機(jī)處理的對(duì)象那么簡(jiǎn)單,它已經(jīng)演變成為一種基礎(chǔ)性資源,具有巨大的應(yīng)用價(jià)值。目前,大數(shù)據(jù)已經(jīng)引起學(xué)術(shù)界、工業(yè)界以及政府機(jī)構(gòu)的高度重視,然而,如何利用好大數(shù)據(jù)這種基礎(chǔ)性資源,是一個(gè)大問題。對(duì)大數(shù)據(jù)而言,以前傳統(tǒng)的計(jì)算、數(shù)據(jù)處理等技術(shù)已經(jīng)不再適用,我們有必要研究新的范式、技術(shù)來解決在大數(shù)據(jù)信息處理中遇到的挑戰(zhàn)。
2.1 數(shù)據(jù)量大
近年來,數(shù)據(jù)的規(guī)模急劇擴(kuò)大,數(shù)據(jù)的計(jì)量單位已經(jīng)從GB發(fā)展到了ZB。根據(jù)國(guó)際數(shù)據(jù)咨詢(IDC)公司預(yù)測(cè),到2020年,全球?qū)碛?5ZB的數(shù)據(jù)量。物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、科學(xué)研究、電子商務(wù)、移動(dòng)設(shè)備、工業(yè)領(lǐng)域等都是網(wǎng)絡(luò)大數(shù)據(jù)的主要來源。在物聯(lián)網(wǎng)中,不計(jì)其數(shù)的傳感器節(jié)點(diǎn)時(shí)時(shí)刻刻采集數(shù)據(jù),匯總到服務(wù)器等待分析處理。在社交網(wǎng)絡(luò)中,上億的用戶不斷發(fā)布自己的數(shù)據(jù)信息。在電子商務(wù)領(lǐng)域,用戶的交易數(shù)據(jù)信息可謂海量,截止2014年3月阿里巴巴數(shù)據(jù)量已超過100PB,這也使得阿里巴巴成為大數(shù)據(jù)資源的擁有者,在大數(shù)據(jù)領(lǐng)域的地位舉足輕重。在工業(yè)領(lǐng)域,以鋼鐵工業(yè)的軋制過程為例,光學(xué)傳感器對(duì)表面質(zhì)量的檢測(cè),每天一道軋線就產(chǎn)生大約1TB檢測(cè)數(shù)據(jù)。隨著工業(yè)4.0時(shí)代的到來,工業(yè)領(lǐng)域大數(shù)據(jù)的規(guī)模將會(huì)急劇增加。
2.2 種類多樣
網(wǎng)絡(luò)大數(shù)據(jù)不僅僅包括結(jié)構(gòu)化數(shù)據(jù),還包括半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。隨著互聯(lián)網(wǎng)的快速發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)快速增長(zhǎng),據(jù)估計(jì),到2020年,非結(jié)構(gòu)化數(shù)據(jù)將占數(shù)據(jù)總量的80%,這也增大了網(wǎng)絡(luò)大數(shù)據(jù)處理的難度。
2.3 速度極快
大數(shù)據(jù)主要以流式數(shù)據(jù)快速增長(zhǎng),速度極快,具有很強(qiáng)的時(shí)效性。比如,F(xiàn)acebook每天分享的內(nèi)容條目超過25億個(gè),每天增加的數(shù)據(jù)量超過500TB。據(jù)阿里大數(shù)據(jù)平臺(tái)顯示,淘寶和天貓兩個(gè)子公司每天新增的數(shù)據(jù)量,就足以讓一個(gè)人連續(xù)不斷看上28年的電影。
2.4 價(jià)值稀疏
數(shù)據(jù)量在快速增長(zhǎng)的同時(shí),隱藏在大數(shù)據(jù)中的有價(jià)值的信息卻并沒有成比例增加。相比傳統(tǒng)的數(shù)據(jù)集,大數(shù)據(jù)語義稀疏[1],有價(jià)值的信息也更加稀疏,而且,有價(jià)值的信息和冗余的垃圾信息混淆在一起,真?zhèn)坞y辨,要從大數(shù)據(jù)中找出有價(jià)值的信息,猶如從一個(gè)稻草堆中找金針一樣困難。如何從價(jià)值稀疏的大數(shù)據(jù)中獲取大的價(jià)值,是目前迫切需要解決的問題,當(dāng)然,面對(duì)數(shù)據(jù)量巨大、種類多樣、速度極快的大數(shù)據(jù),有必要采用新的模式,新的處理技術(shù)。
大數(shù)據(jù)出現(xiàn)以前,在科學(xué)研究的歷史長(zhǎng)河中,存在三種范式:科學(xué)實(shí)驗(yàn)、模型歸納、模擬仿真。上述三種范式在科學(xué)研究中都起到了關(guān)鍵的作用,然而,它們?cè)跀?shù)據(jù)密集型的大數(shù)據(jù)面前卻顯得無能為力。在科學(xué)研究界,迫切需要一種新的范式來指導(dǎo)大數(shù)據(jù)的研究。2007年,已故的圖靈獎(jiǎng)得主吉姆·格雷(Jim Gray)在他最后一次演講中描繪了關(guān)于數(shù)據(jù)密集型科研發(fā)現(xiàn)的“第四范式(Fourth Paradigm)”愿景[2],為科學(xué)研究者研究大數(shù)據(jù)指出了一條新路。紹洛伊(Szalay)和布萊克利(Blakeley)則描述了吉姆·格雷提出的以數(shù)據(jù)為中心發(fā)展的非正式法則,并在法則的指導(dǎo)下,實(shí)現(xiàn)了數(shù)據(jù)庫處理大規(guī)模數(shù)據(jù)集的案例[3],為后人處理大數(shù)據(jù)提供了借鑒。
由于早期的數(shù)據(jù)量比較小,可以方便地移動(dòng),因而傳統(tǒng)的數(shù)據(jù)分析策略往往把數(shù)據(jù)推向方法。然而,對(duì)于大數(shù)據(jù)而言,由于數(shù)據(jù)體量巨大,不可能在容忍的時(shí)間內(nèi)移動(dòng),傳統(tǒng)的策略不再適用。結(jié)合大數(shù)據(jù)體量巨大的特點(diǎn),把算法推向數(shù)據(jù)是一個(gè)可行的方法,基于該思想,本文提出了基于本體的網(wǎng)絡(luò)大數(shù)據(jù)信息處理架構(gòu),如圖1所示。
圖1 網(wǎng)絡(luò)大數(shù)據(jù)信息處理架構(gòu)
4.1 本體模型的構(gòu)建
面向大數(shù)據(jù)領(lǐng)域,領(lǐng)域問題專家根據(jù)自身的專業(yè)知識(shí),基于RGPS需求元建模框架[4](角色(R)—目標(biāo)(G)—過程(P)—服務(wù)(S)),設(shè)計(jì)頂層的本體模型,作為進(jìn)一步擴(kuò)展生成主題知識(shí)庫的基礎(chǔ)。
4.2 主題知識(shí)庫的構(gòu)建
通過歷史大數(shù)據(jù)對(duì)頂層的本體模型進(jìn)行細(xì)化和豐富,形成面向大數(shù)據(jù)主題的知識(shí)庫。采用的方法包括分類、聚類、聚合等。
(1)分類
分類的目的是構(gòu)造一個(gè)分類模型,從而對(duì)大數(shù)據(jù)進(jìn)行類別劃分。決策樹是一個(gè)重要的分類模型,采用樹形結(jié)構(gòu),它的構(gòu)建過程也就是機(jī)器學(xué)習(xí)的過程,最終形成分類器,當(dāng)然,在整個(gè)過程中要防止過擬合的情形。
(2)聚類
聚類的目的是進(jìn)行分簇,使問題得到必要的簡(jiǎn)化。從機(jī)器學(xué)習(xí)的角度來講,聚類就是找出隱含在大數(shù)據(jù)中的隱含模式,整個(gè)過程是一個(gè)無監(jiān)督學(xué)習(xí)的過程。常見的劃分方法包括K—均值方法和K—中心點(diǎn)方法。
(3)聚合
聚合就是在分類、聚類之后,對(duì)本體模型的豐富過程,該過程本質(zhì)上是一個(gè)迭代式的整合過程。本文借鑒文獻(xiàn)[5]的本體構(gòu)造方法,不斷豐富,形成面向大數(shù)據(jù)主題的知識(shí)庫。
4.3 價(jià)值服務(wù)
根據(jù)得到的面向大數(shù)據(jù)主題的知識(shí)庫,我們可以對(duì)網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行語義分析,實(shí)現(xiàn)價(jià)值服務(wù)。首先,我們可以感知現(xiàn)實(shí)的情況,了解現(xiàn)狀。比如,我們可以通過對(duì)網(wǎng)絡(luò)中的歷史大數(shù)據(jù)和在線流式大數(shù)據(jù)進(jìn)行綜合分析,掌握現(xiàn)在的CPI (Consumer Price Index物價(jià)指數(shù)),作為政府實(shí)施貨幣政策的一個(gè)重要參考指標(biāo);也可以實(shí)現(xiàn)網(wǎng)絡(luò)輿情監(jiān)控,掌握群眾思想動(dòng)態(tài),做出正確輿論引導(dǎo)。其次,通過對(duì)流式大數(shù)據(jù)進(jìn)行時(shí)空分析,可以掌握某一數(shù)據(jù)的變化過程,預(yù)測(cè)未來的形勢(shì)走向,或?qū)е乱粋€(gè)事件發(fā)生的概率。比如,醫(yī)務(wù)研究者可以利用Twitter數(shù)據(jù)預(yù)測(cè)某一地區(qū)何時(shí)爆發(fā)某種疾病,從而提前向該地區(qū)發(fā)出預(yù)警,防患于未然。
本文介紹了網(wǎng)絡(luò)大數(shù)據(jù)的特點(diǎn),分析了網(wǎng)絡(luò)大數(shù)據(jù)科學(xué)研究第四范式,提出了基于本體的網(wǎng)絡(luò)大數(shù)據(jù)信息處理架構(gòu)。在今后的工作中,要建立基于網(wǎng)絡(luò)大數(shù)據(jù)信息處理架構(gòu)的原型系統(tǒng),實(shí)現(xiàn)價(jià)值服務(wù),真正做到“感知現(xiàn)在,預(yù)測(cè)未來”。
[1]Barwick H,The“four Vs”of Big Data.Implementing Information Infrastructure Symposium[EB/OL].[2012-10-02].Http://www.computerworld.com.a(chǎn)u/article/396198/iiis_four_vs_big_data.
[2]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-169.
[3]潘教峰,張曉林.第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)[M].北京:科學(xué)出版社,2012.
[4]Wang J,He K Q,Peng R.RGPS:a unified requirements metamodeling frame for networked software[C].Proceedings of the 3rd InternationalWorkshop on Advancesand ApplicationsofProblem Frames (IWAAPF'08)at 3oth International Conference on Software Engineering (ICSE'08).Leipzig,Germany,2008:29-35.
[5]Segev A,Sheng Q Z.Bootstrapping ontologies for web services[J].Services Computing,IEEE Transactions on,2012,5(1):33-44.
Information Processing for Network Big Data Based on Ontology
Wang Xinying
(School of Mathematics and Computer Science,Hubei University ofArts and Science,Xiangyang 441053,Hubei)
act】Aiming at the big amount of big data with species diversity,high speed and value sparse,this paper proposes information architecture for network big data based on ontology.It enriches the ontology model through the history big data to form subjectoriented knowledge base for big data.This information architecture realizes the value of service through semantic analysis.
big data;fourth paradigm;ontology
TP311
A
1008-6609(2015)03-0047-02
王新穎,男,河南平頂山人,碩士,講師,研究方向:Web服務(wù)和云計(jì)算。
湖北省高等學(xué)校青年教師深入企業(yè)行動(dòng)計(jì)劃項(xiàng)目,項(xiàng)目編號(hào):XD2014243。