裴大容
摘要:通過(guò)對(duì)現(xiàn)有大數(shù)據(jù)服務(wù)研究現(xiàn)狀的分析,分析大數(shù)據(jù)服務(wù)研究目前所存在的問(wèn)題,并針對(duì)目前大數(shù)據(jù)服務(wù)對(duì)數(shù)據(jù)特征表達(dá)不足,所導(dǎo)致的數(shù)據(jù)服務(wù)發(fā)現(xiàn)和組合困難的問(wèn)題,提出了基于OWL-S的大數(shù)據(jù)服務(wù)模型,通過(guò)利用OWL-S中的服務(wù)操作、服務(wù)類型和數(shù)據(jù)源等屬性,實(shí)現(xiàn)大數(shù)據(jù)服務(wù)的可視化、分析和檢索等服務(wù)的構(gòu)建和動(dòng)態(tài)組合,使得大數(shù)據(jù)服務(wù)在屬性和操作方面的描述更加完備,具有較強(qiáng)的語(yǔ)義理解和自動(dòng)服務(wù)組合能力。
關(guān)鍵詞:大數(shù)據(jù)服務(wù);Web服務(wù);語(yǔ)義Web技術(shù)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)30-7014-03
大數(shù)據(jù)服務(wù)(Big Data-as-a-Service,BDaaS)是可獨(dú)立部署,具有明確契約和獨(dú)立功能的功能單元[1]。而大數(shù)據(jù)服務(wù)模型大數(shù)據(jù)服務(wù)的理論基礎(chǔ)和實(shí)現(xiàn)規(guī)范,在傳統(tǒng)的數(shù)據(jù)密集型Web服務(wù)中,采用WDSL對(duì)Web服務(wù)進(jìn)行描述。但是這種描述方式只是描述了服務(wù)接口規(guī)范,缺乏對(duì)非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)質(zhì)量、模型、隱私等特征的描述,因此傳統(tǒng)的數(shù)據(jù)服務(wù)描述方法不適用于大數(shù)據(jù)服務(wù)的描述。
1 大數(shù)據(jù)服務(wù)模型研究現(xiàn)狀
目前針對(duì)大數(shù)據(jù)服務(wù)模型的研究,還存在如下的問(wèn)題:
1) 目前的對(duì)大數(shù)據(jù)服務(wù)模型的研究,仍然沿用傳統(tǒng)的Web服務(wù)模型,無(wú)法提供對(duì)非結(jié)構(gòu)化數(shù)據(jù)的支持,不適用于大數(shù)據(jù)服務(wù)中對(duì)多種服務(wù)類型、多種數(shù)據(jù)源的支持[2]。
2) 對(duì)數(shù)據(jù)服務(wù)操作、數(shù)據(jù)源等特征的表達(dá)不足,導(dǎo)致使用傳統(tǒng)的數(shù)據(jù)描述方式阻礙了服務(wù)的組合和發(fā)現(xiàn)。
2 大數(shù)據(jù)服務(wù)模型設(shè)計(jì)思路
針對(duì)目前對(duì)待大數(shù)據(jù)進(jìn)行描述的Web服務(wù)模型所存在的不支持非結(jié)構(gòu)化數(shù)據(jù)和特征表達(dá)不足的問(wèn)題,大數(shù)據(jù)服務(wù)模型的設(shè)計(jì)必須要滿足如下三個(gè)方面的條件:
1) 同時(shí)支持結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)模型、服務(wù)模型。
2) 能夠?qū)?shù)據(jù)各個(gè)方面的特征屬性進(jìn)行形式化的定義,和完善的描述。
3) 支持可視化型數(shù)據(jù)服務(wù)和分析型數(shù)據(jù)服務(wù)的構(gòu)建。
針對(duì)大數(shù)據(jù)服務(wù)模型設(shè)計(jì)所需要滿足的要求,在進(jìn)行大數(shù)據(jù)服務(wù)模型設(shè)計(jì)時(shí),通過(guò)如下的方法來(lái)滿足大數(shù)據(jù)服務(wù)模型的需求。
1) 采用非結(jié)構(gòu)數(shù)據(jù)模型GDM將非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化,然后對(duì)GDM中的屬性進(jìn)行描述,從而將用戶對(duì)數(shù)據(jù)服務(wù)的檢索、可視化請(qǐng)求和分析都轉(zhuǎn)換為對(duì)非結(jié)構(gòu)化數(shù)據(jù)屬性的操作。
2) 韓晶(2013)已經(jīng)對(duì)數(shù)據(jù)服務(wù)應(yīng)該包含的屬性進(jìn)行了全面分析[3],考慮到數(shù)據(jù)服務(wù)應(yīng)該盡可能的體現(xiàn)數(shù)據(jù)特征,為此在文獻(xiàn)三研究的基礎(chǔ)上,增加數(shù)據(jù)隱私和數(shù)據(jù)質(zhì)量部分的屬性。并且設(shè)計(jì)大數(shù)據(jù)服務(wù)模型的相關(guān)操作函數(shù),滿足用戶對(duì)輸出結(jié)果進(jìn)行篩選的需求。
3) 增加可視化型、分析型邏輯描述,從而支持用戶對(duì)大數(shù)據(jù)服務(wù)的這兩大數(shù)據(jù)服務(wù)需求。
3 大數(shù)據(jù)服務(wù)模型的具體設(shè)計(jì)
目前對(duì)數(shù)據(jù)服務(wù)進(jìn)行描述的方法主要包括REST API和WSDL方法等,這些數(shù)據(jù)服務(wù)描述方法都由于缺乏相應(yīng)的語(yǔ)義信息,導(dǎo)致數(shù)據(jù)服務(wù)在自動(dòng)服務(wù)組合方面存在一定的不足。
OWL-S(Ontology Language for Web Service)通過(guò)一組語(yǔ)言標(biāo)記對(duì)Web服務(wù)進(jìn)行描述,是基于語(yǔ)義Web技術(shù)和Web服務(wù)的結(jié)合體,從而使得數(shù)據(jù)服務(wù)能夠更好的被計(jì)算機(jī)所理解,有利于數(shù)據(jù)的分析,從而支持Web服務(wù)的發(fā)現(xiàn)、調(diào)用和組合。除此之外,OWL-S還支持自定義類實(shí)現(xiàn)對(duì)OWL-S的擴(kuò)展。為此,使用OWL-S設(shè)計(jì)大數(shù)據(jù)服務(wù),可以使得大數(shù)據(jù)服務(wù)模型具備語(yǔ)義和數(shù)據(jù)特征雙重優(yōu)勢(shì)。
由于大數(shù)據(jù)服務(wù)的基礎(chǔ)數(shù)據(jù)源復(fù)雜,各數(shù)據(jù)源模式各異。為此,為了實(shí)現(xiàn)數(shù)據(jù)服務(wù)的匹配和組合,即必須要采用一種合適的方式來(lái)對(duì)數(shù)據(jù)服務(wù)進(jìn)行統(tǒng)一表示,語(yǔ)義Web技術(shù)通過(guò)RDF將大數(shù)據(jù)服務(wù)的各個(gè)數(shù)據(jù)源的數(shù)據(jù)模型映射到一個(gè)全局共享語(yǔ)義本體上,從而方便用戶對(duì)數(shù)據(jù)語(yǔ)義的理解,從而實(shí)現(xiàn)基于OWL-S的大數(shù)據(jù)服務(wù)建模。
在建立數(shù)據(jù)源與共享本體之間的映射之后,就可以在此基礎(chǔ)上進(jìn)行基于OWL-S大數(shù)據(jù)服務(wù)的建設(shè)。OWL-S使用OWL語(yǔ)義對(duì)Web服務(wù)本體進(jìn)行定義,并且將其中每個(gè)具體的Web服務(wù)當(dāng)成是Web服務(wù)本體的一個(gè)實(shí)例來(lái)對(duì)數(shù)據(jù)進(jìn)行描述。
每一個(gè)大數(shù)據(jù)服務(wù)模型都需要用一個(gè)Service來(lái)對(duì)模型進(jìn)行描述[4],在基于OWL-S的大數(shù)據(jù)模型中,使用由ServiceGrounding、ServiceModel和ServiceProfile三個(gè)屬性子類構(gòu)成的Service來(lái)對(duì)數(shù)據(jù)模型進(jìn)行描述。其中,ServiceGrounding主要包含服務(wù)端口號(hào)、消息格式和服務(wù)訪問(wèn)協(xié)議等內(nèi)容,描述用戶怎樣獲取大數(shù)據(jù)服務(wù);ServiceModel主要對(duì)大數(shù)據(jù)服務(wù)內(nèi)部流程進(jìn)行描述;ServiceProfile主要包含服務(wù)的QoS信息、服務(wù)所屬分類信息、服務(wù)功能和服務(wù)提供者信息等內(nèi)容。
如圖1所示,基于OWL-S的大數(shù)據(jù)服務(wù)模型通過(guò)對(duì)服務(wù)組合、服務(wù)操作和服務(wù)屬性三個(gè)方面的描述來(lái)體現(xiàn)大數(shù)據(jù)服務(wù)的擴(kuò)展,其中使用OWL-S的ServiceModel實(shí)現(xiàn)大數(shù)據(jù)服務(wù)模型的擴(kuò)展,通過(guò)ServiceProfile來(lái)實(shí)現(xiàn)大數(shù)據(jù)服務(wù)模型中服務(wù)操作和服務(wù)屬性的擴(kuò)展。
1) 數(shù)據(jù)源基本屬性描述
在ServcieProfile中添加Profile的BasicAttrs子類對(duì)數(shù)據(jù)源的數(shù)據(jù)隱私、質(zhì)量等基本屬性進(jìn)行描述,添加DataQuality子類對(duì)數(shù)據(jù)源的清洗程度、精確性等數(shù)據(jù)質(zhì)量相關(guān)內(nèi)容進(jìn)行描述。DataSource屬性的描述如下所示:
2) 服務(wù)類型屬性描述
服務(wù)類型屬性描述ServiceContent是Profile的子類,服務(wù)類型剛屬性主要包括serviceType和serviceItems等數(shù)據(jù)類型屬性,ServiceContent屬性的描述如下:
3) 服務(wù)操作描述
在OWL-S的大數(shù)據(jù)模型中,將數(shù)據(jù)源的操作也作為數(shù)據(jù)源的一個(gè)屬性進(jìn)行描述,例如,在Process子類中的inCondition對(duì)createTime操作進(jìn)行描述如下:
4) 服務(wù)組合描述
數(shù)據(jù)源的服務(wù)組合也通過(guò)屬性來(lái)進(jìn)行描述,例如大數(shù)據(jù)的“順序組合”服務(wù)在基于OWL-S的大數(shù)據(jù)模型中的描述如下:
4 結(jié)束語(yǔ)
本文所研究的基于OWL-S的大數(shù)據(jù)服務(wù)模型增加了服務(wù)操作、服務(wù)質(zhì)量、數(shù)據(jù)源等屬性,從而使得數(shù)據(jù)服務(wù)的屬性和操作描述更加完備;同時(shí),使得大數(shù)據(jù)服務(wù)繼承了語(yǔ)義Web的語(yǔ)義理解能力和自動(dòng)服務(wù)組合能力,從而將服務(wù)組合運(yùn)算融入大數(shù)據(jù)服務(wù)中。
參考文獻(xiàn):
[1] Chen M,Song M,Han J,et al.Survey on data quality[C]//Information and Communication Technologies (WICT), 2012 World Congress on. IEEE, 2012:1009-1013.
[2] 徐寶文,張衛(wèi)豐.數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的應(yīng)用研究[J].計(jì)算機(jī)學(xué)報(bào),2001,24(4).
[3] 韓晶,鄂海紅,宋美娜,等.基于主體行為的非結(jié)構(gòu)化數(shù)據(jù)模型[J].計(jì)算機(jī)工程與設(shè)計(jì),2013(3):904-908.
[4] 石嘉,張?jiān)?,裴云霞,?基于Web對(duì)象流行度的PPM預(yù)測(cè)模型[J].小型微型計(jì)算機(jī)系統(tǒng),2006,7(27):1378-1383.endprint
摘要:通過(guò)對(duì)現(xiàn)有大數(shù)據(jù)服務(wù)研究現(xiàn)狀的分析,分析大數(shù)據(jù)服務(wù)研究目前所存在的問(wèn)題,并針對(duì)目前大數(shù)據(jù)服務(wù)對(duì)數(shù)據(jù)特征表達(dá)不足,所導(dǎo)致的數(shù)據(jù)服務(wù)發(fā)現(xiàn)和組合困難的問(wèn)題,提出了基于OWL-S的大數(shù)據(jù)服務(wù)模型,通過(guò)利用OWL-S中的服務(wù)操作、服務(wù)類型和數(shù)據(jù)源等屬性,實(shí)現(xiàn)大數(shù)據(jù)服務(wù)的可視化、分析和檢索等服務(wù)的構(gòu)建和動(dòng)態(tài)組合,使得大數(shù)據(jù)服務(wù)在屬性和操作方面的描述更加完備,具有較強(qiáng)的語(yǔ)義理解和自動(dòng)服務(wù)組合能力。
關(guān)鍵詞:大數(shù)據(jù)服務(wù);Web服務(wù);語(yǔ)義Web技術(shù)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)30-7014-03
大數(shù)據(jù)服務(wù)(Big Data-as-a-Service,BDaaS)是可獨(dú)立部署,具有明確契約和獨(dú)立功能的功能單元[1]。而大數(shù)據(jù)服務(wù)模型大數(shù)據(jù)服務(wù)的理論基礎(chǔ)和實(shí)現(xiàn)規(guī)范,在傳統(tǒng)的數(shù)據(jù)密集型Web服務(wù)中,采用WDSL對(duì)Web服務(wù)進(jìn)行描述。但是這種描述方式只是描述了服務(wù)接口規(guī)范,缺乏對(duì)非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)質(zhì)量、模型、隱私等特征的描述,因此傳統(tǒng)的數(shù)據(jù)服務(wù)描述方法不適用于大數(shù)據(jù)服務(wù)的描述。
1 大數(shù)據(jù)服務(wù)模型研究現(xiàn)狀
目前針對(duì)大數(shù)據(jù)服務(wù)模型的研究,還存在如下的問(wèn)題:
1) 目前的對(duì)大數(shù)據(jù)服務(wù)模型的研究,仍然沿用傳統(tǒng)的Web服務(wù)模型,無(wú)法提供對(duì)非結(jié)構(gòu)化數(shù)據(jù)的支持,不適用于大數(shù)據(jù)服務(wù)中對(duì)多種服務(wù)類型、多種數(shù)據(jù)源的支持[2]。
2) 對(duì)數(shù)據(jù)服務(wù)操作、數(shù)據(jù)源等特征的表達(dá)不足,導(dǎo)致使用傳統(tǒng)的數(shù)據(jù)描述方式阻礙了服務(wù)的組合和發(fā)現(xiàn)。
2 大數(shù)據(jù)服務(wù)模型設(shè)計(jì)思路
針對(duì)目前對(duì)待大數(shù)據(jù)進(jìn)行描述的Web服務(wù)模型所存在的不支持非結(jié)構(gòu)化數(shù)據(jù)和特征表達(dá)不足的問(wèn)題,大數(shù)據(jù)服務(wù)模型的設(shè)計(jì)必須要滿足如下三個(gè)方面的條件:
1) 同時(shí)支持結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)模型、服務(wù)模型。
2) 能夠?qū)?shù)據(jù)各個(gè)方面的特征屬性進(jìn)行形式化的定義,和完善的描述。
3) 支持可視化型數(shù)據(jù)服務(wù)和分析型數(shù)據(jù)服務(wù)的構(gòu)建。
針對(duì)大數(shù)據(jù)服務(wù)模型設(shè)計(jì)所需要滿足的要求,在進(jìn)行大數(shù)據(jù)服務(wù)模型設(shè)計(jì)時(shí),通過(guò)如下的方法來(lái)滿足大數(shù)據(jù)服務(wù)模型的需求。
1) 采用非結(jié)構(gòu)數(shù)據(jù)模型GDM將非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化,然后對(duì)GDM中的屬性進(jìn)行描述,從而將用戶對(duì)數(shù)據(jù)服務(wù)的檢索、可視化請(qǐng)求和分析都轉(zhuǎn)換為對(duì)非結(jié)構(gòu)化數(shù)據(jù)屬性的操作。
2) 韓晶(2013)已經(jīng)對(duì)數(shù)據(jù)服務(wù)應(yīng)該包含的屬性進(jìn)行了全面分析[3],考慮到數(shù)據(jù)服務(wù)應(yīng)該盡可能的體現(xiàn)數(shù)據(jù)特征,為此在文獻(xiàn)三研究的基礎(chǔ)上,增加數(shù)據(jù)隱私和數(shù)據(jù)質(zhì)量部分的屬性。并且設(shè)計(jì)大數(shù)據(jù)服務(wù)模型的相關(guān)操作函數(shù),滿足用戶對(duì)輸出結(jié)果進(jìn)行篩選的需求。
3) 增加可視化型、分析型邏輯描述,從而支持用戶對(duì)大數(shù)據(jù)服務(wù)的這兩大數(shù)據(jù)服務(wù)需求。
3 大數(shù)據(jù)服務(wù)模型的具體設(shè)計(jì)
目前對(duì)數(shù)據(jù)服務(wù)進(jìn)行描述的方法主要包括REST API和WSDL方法等,這些數(shù)據(jù)服務(wù)描述方法都由于缺乏相應(yīng)的語(yǔ)義信息,導(dǎo)致數(shù)據(jù)服務(wù)在自動(dòng)服務(wù)組合方面存在一定的不足。
OWL-S(Ontology Language for Web Service)通過(guò)一組語(yǔ)言標(biāo)記對(duì)Web服務(wù)進(jìn)行描述,是基于語(yǔ)義Web技術(shù)和Web服務(wù)的結(jié)合體,從而使得數(shù)據(jù)服務(wù)能夠更好的被計(jì)算機(jī)所理解,有利于數(shù)據(jù)的分析,從而支持Web服務(wù)的發(fā)現(xiàn)、調(diào)用和組合。除此之外,OWL-S還支持自定義類實(shí)現(xiàn)對(duì)OWL-S的擴(kuò)展。為此,使用OWL-S設(shè)計(jì)大數(shù)據(jù)服務(wù),可以使得大數(shù)據(jù)服務(wù)模型具備語(yǔ)義和數(shù)據(jù)特征雙重優(yōu)勢(shì)。
由于大數(shù)據(jù)服務(wù)的基礎(chǔ)數(shù)據(jù)源復(fù)雜,各數(shù)據(jù)源模式各異。為此,為了實(shí)現(xiàn)數(shù)據(jù)服務(wù)的匹配和組合,即必須要采用一種合適的方式來(lái)對(duì)數(shù)據(jù)服務(wù)進(jìn)行統(tǒng)一表示,語(yǔ)義Web技術(shù)通過(guò)RDF將大數(shù)據(jù)服務(wù)的各個(gè)數(shù)據(jù)源的數(shù)據(jù)模型映射到一個(gè)全局共享語(yǔ)義本體上,從而方便用戶對(duì)數(shù)據(jù)語(yǔ)義的理解,從而實(shí)現(xiàn)基于OWL-S的大數(shù)據(jù)服務(wù)建模。
在建立數(shù)據(jù)源與共享本體之間的映射之后,就可以在此基礎(chǔ)上進(jìn)行基于OWL-S大數(shù)據(jù)服務(wù)的建設(shè)。OWL-S使用OWL語(yǔ)義對(duì)Web服務(wù)本體進(jìn)行定義,并且將其中每個(gè)具體的Web服務(wù)當(dāng)成是Web服務(wù)本體的一個(gè)實(shí)例來(lái)對(duì)數(shù)據(jù)進(jìn)行描述。
每一個(gè)大數(shù)據(jù)服務(wù)模型都需要用一個(gè)Service來(lái)對(duì)模型進(jìn)行描述[4],在基于OWL-S的大數(shù)據(jù)模型中,使用由ServiceGrounding、ServiceModel和ServiceProfile三個(gè)屬性子類構(gòu)成的Service來(lái)對(duì)數(shù)據(jù)模型進(jìn)行描述。其中,ServiceGrounding主要包含服務(wù)端口號(hào)、消息格式和服務(wù)訪問(wèn)協(xié)議等內(nèi)容,描述用戶怎樣獲取大數(shù)據(jù)服務(wù);ServiceModel主要對(duì)大數(shù)據(jù)服務(wù)內(nèi)部流程進(jìn)行描述;ServiceProfile主要包含服務(wù)的QoS信息、服務(wù)所屬分類信息、服務(wù)功能和服務(wù)提供者信息等內(nèi)容。
如圖1所示,基于OWL-S的大數(shù)據(jù)服務(wù)模型通過(guò)對(duì)服務(wù)組合、服務(wù)操作和服務(wù)屬性三個(gè)方面的描述來(lái)體現(xiàn)大數(shù)據(jù)服務(wù)的擴(kuò)展,其中使用OWL-S的ServiceModel實(shí)現(xiàn)大數(shù)據(jù)服務(wù)模型的擴(kuò)展,通過(guò)ServiceProfile來(lái)實(shí)現(xiàn)大數(shù)據(jù)服務(wù)模型中服務(wù)操作和服務(wù)屬性的擴(kuò)展。
1) 數(shù)據(jù)源基本屬性描述
在ServcieProfile中添加Profile的BasicAttrs子類對(duì)數(shù)據(jù)源的數(shù)據(jù)隱私、質(zhì)量等基本屬性進(jìn)行描述,添加DataQuality子類對(duì)數(shù)據(jù)源的清洗程度、精確性等數(shù)據(jù)質(zhì)量相關(guān)內(nèi)容進(jìn)行描述。DataSource屬性的描述如下所示:
2) 服務(wù)類型屬性描述
服務(wù)類型屬性描述ServiceContent是Profile的子類,服務(wù)類型剛屬性主要包括serviceType和serviceItems等數(shù)據(jù)類型屬性,ServiceContent屬性的描述如下:
3) 服務(wù)操作描述
在OWL-S的大數(shù)據(jù)模型中,將數(shù)據(jù)源的操作也作為數(shù)據(jù)源的一個(gè)屬性進(jìn)行描述,例如,在Process子類中的inCondition對(duì)createTime操作進(jìn)行描述如下:
4) 服務(wù)組合描述
數(shù)據(jù)源的服務(wù)組合也通過(guò)屬性來(lái)進(jìn)行描述,例如大數(shù)據(jù)的“順序組合”服務(wù)在基于OWL-S的大數(shù)據(jù)模型中的描述如下:
4 結(jié)束語(yǔ)
本文所研究的基于OWL-S的大數(shù)據(jù)服務(wù)模型增加了服務(wù)操作、服務(wù)質(zhì)量、數(shù)據(jù)源等屬性,從而使得數(shù)據(jù)服務(wù)的屬性和操作描述更加完備;同時(shí),使得大數(shù)據(jù)服務(wù)繼承了語(yǔ)義Web的語(yǔ)義理解能力和自動(dòng)服務(wù)組合能力,從而將服務(wù)組合運(yùn)算融入大數(shù)據(jù)服務(wù)中。
參考文獻(xiàn):
[1] Chen M,Song M,Han J,et al.Survey on data quality[C]//Information and Communication Technologies (WICT), 2012 World Congress on. IEEE, 2012:1009-1013.
[2] 徐寶文,張衛(wèi)豐.數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的應(yīng)用研究[J].計(jì)算機(jī)學(xué)報(bào),2001,24(4).
[3] 韓晶,鄂海紅,宋美娜,等.基于主體行為的非結(jié)構(gòu)化數(shù)據(jù)模型[J].計(jì)算機(jī)工程與設(shè)計(jì),2013(3):904-908.
[4] 石嘉,張?jiān)?,裴云霞,?基于Web對(duì)象流行度的PPM預(yù)測(cè)模型[J].小型微型計(jì)算機(jī)系統(tǒng),2006,7(27):1378-1383.endprint
摘要:通過(guò)對(duì)現(xiàn)有大數(shù)據(jù)服務(wù)研究現(xiàn)狀的分析,分析大數(shù)據(jù)服務(wù)研究目前所存在的問(wèn)題,并針對(duì)目前大數(shù)據(jù)服務(wù)對(duì)數(shù)據(jù)特征表達(dá)不足,所導(dǎo)致的數(shù)據(jù)服務(wù)發(fā)現(xiàn)和組合困難的問(wèn)題,提出了基于OWL-S的大數(shù)據(jù)服務(wù)模型,通過(guò)利用OWL-S中的服務(wù)操作、服務(wù)類型和數(shù)據(jù)源等屬性,實(shí)現(xiàn)大數(shù)據(jù)服務(wù)的可視化、分析和檢索等服務(wù)的構(gòu)建和動(dòng)態(tài)組合,使得大數(shù)據(jù)服務(wù)在屬性和操作方面的描述更加完備,具有較強(qiáng)的語(yǔ)義理解和自動(dòng)服務(wù)組合能力。
關(guān)鍵詞:大數(shù)據(jù)服務(wù);Web服務(wù);語(yǔ)義Web技術(shù)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)30-7014-03
大數(shù)據(jù)服務(wù)(Big Data-as-a-Service,BDaaS)是可獨(dú)立部署,具有明確契約和獨(dú)立功能的功能單元[1]。而大數(shù)據(jù)服務(wù)模型大數(shù)據(jù)服務(wù)的理論基礎(chǔ)和實(shí)現(xiàn)規(guī)范,在傳統(tǒng)的數(shù)據(jù)密集型Web服務(wù)中,采用WDSL對(duì)Web服務(wù)進(jìn)行描述。但是這種描述方式只是描述了服務(wù)接口規(guī)范,缺乏對(duì)非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)質(zhì)量、模型、隱私等特征的描述,因此傳統(tǒng)的數(shù)據(jù)服務(wù)描述方法不適用于大數(shù)據(jù)服務(wù)的描述。
1 大數(shù)據(jù)服務(wù)模型研究現(xiàn)狀
目前針對(duì)大數(shù)據(jù)服務(wù)模型的研究,還存在如下的問(wèn)題:
1) 目前的對(duì)大數(shù)據(jù)服務(wù)模型的研究,仍然沿用傳統(tǒng)的Web服務(wù)模型,無(wú)法提供對(duì)非結(jié)構(gòu)化數(shù)據(jù)的支持,不適用于大數(shù)據(jù)服務(wù)中對(duì)多種服務(wù)類型、多種數(shù)據(jù)源的支持[2]。
2) 對(duì)數(shù)據(jù)服務(wù)操作、數(shù)據(jù)源等特征的表達(dá)不足,導(dǎo)致使用傳統(tǒng)的數(shù)據(jù)描述方式阻礙了服務(wù)的組合和發(fā)現(xiàn)。
2 大數(shù)據(jù)服務(wù)模型設(shè)計(jì)思路
針對(duì)目前對(duì)待大數(shù)據(jù)進(jìn)行描述的Web服務(wù)模型所存在的不支持非結(jié)構(gòu)化數(shù)據(jù)和特征表達(dá)不足的問(wèn)題,大數(shù)據(jù)服務(wù)模型的設(shè)計(jì)必須要滿足如下三個(gè)方面的條件:
1) 同時(shí)支持結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)模型、服務(wù)模型。
2) 能夠?qū)?shù)據(jù)各個(gè)方面的特征屬性進(jìn)行形式化的定義,和完善的描述。
3) 支持可視化型數(shù)據(jù)服務(wù)和分析型數(shù)據(jù)服務(wù)的構(gòu)建。
針對(duì)大數(shù)據(jù)服務(wù)模型設(shè)計(jì)所需要滿足的要求,在進(jìn)行大數(shù)據(jù)服務(wù)模型設(shè)計(jì)時(shí),通過(guò)如下的方法來(lái)滿足大數(shù)據(jù)服務(wù)模型的需求。
1) 采用非結(jié)構(gòu)數(shù)據(jù)模型GDM將非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化,然后對(duì)GDM中的屬性進(jìn)行描述,從而將用戶對(duì)數(shù)據(jù)服務(wù)的檢索、可視化請(qǐng)求和分析都轉(zhuǎn)換為對(duì)非結(jié)構(gòu)化數(shù)據(jù)屬性的操作。
2) 韓晶(2013)已經(jīng)對(duì)數(shù)據(jù)服務(wù)應(yīng)該包含的屬性進(jìn)行了全面分析[3],考慮到數(shù)據(jù)服務(wù)應(yīng)該盡可能的體現(xiàn)數(shù)據(jù)特征,為此在文獻(xiàn)三研究的基礎(chǔ)上,增加數(shù)據(jù)隱私和數(shù)據(jù)質(zhì)量部分的屬性。并且設(shè)計(jì)大數(shù)據(jù)服務(wù)模型的相關(guān)操作函數(shù),滿足用戶對(duì)輸出結(jié)果進(jìn)行篩選的需求。
3) 增加可視化型、分析型邏輯描述,從而支持用戶對(duì)大數(shù)據(jù)服務(wù)的這兩大數(shù)據(jù)服務(wù)需求。
3 大數(shù)據(jù)服務(wù)模型的具體設(shè)計(jì)
目前對(duì)數(shù)據(jù)服務(wù)進(jìn)行描述的方法主要包括REST API和WSDL方法等,這些數(shù)據(jù)服務(wù)描述方法都由于缺乏相應(yīng)的語(yǔ)義信息,導(dǎo)致數(shù)據(jù)服務(wù)在自動(dòng)服務(wù)組合方面存在一定的不足。
OWL-S(Ontology Language for Web Service)通過(guò)一組語(yǔ)言標(biāo)記對(duì)Web服務(wù)進(jìn)行描述,是基于語(yǔ)義Web技術(shù)和Web服務(wù)的結(jié)合體,從而使得數(shù)據(jù)服務(wù)能夠更好的被計(jì)算機(jī)所理解,有利于數(shù)據(jù)的分析,從而支持Web服務(wù)的發(fā)現(xiàn)、調(diào)用和組合。除此之外,OWL-S還支持自定義類實(shí)現(xiàn)對(duì)OWL-S的擴(kuò)展。為此,使用OWL-S設(shè)計(jì)大數(shù)據(jù)服務(wù),可以使得大數(shù)據(jù)服務(wù)模型具備語(yǔ)義和數(shù)據(jù)特征雙重優(yōu)勢(shì)。
由于大數(shù)據(jù)服務(wù)的基礎(chǔ)數(shù)據(jù)源復(fù)雜,各數(shù)據(jù)源模式各異。為此,為了實(shí)現(xiàn)數(shù)據(jù)服務(wù)的匹配和組合,即必須要采用一種合適的方式來(lái)對(duì)數(shù)據(jù)服務(wù)進(jìn)行統(tǒng)一表示,語(yǔ)義Web技術(shù)通過(guò)RDF將大數(shù)據(jù)服務(wù)的各個(gè)數(shù)據(jù)源的數(shù)據(jù)模型映射到一個(gè)全局共享語(yǔ)義本體上,從而方便用戶對(duì)數(shù)據(jù)語(yǔ)義的理解,從而實(shí)現(xiàn)基于OWL-S的大數(shù)據(jù)服務(wù)建模。
在建立數(shù)據(jù)源與共享本體之間的映射之后,就可以在此基礎(chǔ)上進(jìn)行基于OWL-S大數(shù)據(jù)服務(wù)的建設(shè)。OWL-S使用OWL語(yǔ)義對(duì)Web服務(wù)本體進(jìn)行定義,并且將其中每個(gè)具體的Web服務(wù)當(dāng)成是Web服務(wù)本體的一個(gè)實(shí)例來(lái)對(duì)數(shù)據(jù)進(jìn)行描述。
每一個(gè)大數(shù)據(jù)服務(wù)模型都需要用一個(gè)Service來(lái)對(duì)模型進(jìn)行描述[4],在基于OWL-S的大數(shù)據(jù)模型中,使用由ServiceGrounding、ServiceModel和ServiceProfile三個(gè)屬性子類構(gòu)成的Service來(lái)對(duì)數(shù)據(jù)模型進(jìn)行描述。其中,ServiceGrounding主要包含服務(wù)端口號(hào)、消息格式和服務(wù)訪問(wèn)協(xié)議等內(nèi)容,描述用戶怎樣獲取大數(shù)據(jù)服務(wù);ServiceModel主要對(duì)大數(shù)據(jù)服務(wù)內(nèi)部流程進(jìn)行描述;ServiceProfile主要包含服務(wù)的QoS信息、服務(wù)所屬分類信息、服務(wù)功能和服務(wù)提供者信息等內(nèi)容。
如圖1所示,基于OWL-S的大數(shù)據(jù)服務(wù)模型通過(guò)對(duì)服務(wù)組合、服務(wù)操作和服務(wù)屬性三個(gè)方面的描述來(lái)體現(xiàn)大數(shù)據(jù)服務(wù)的擴(kuò)展,其中使用OWL-S的ServiceModel實(shí)現(xiàn)大數(shù)據(jù)服務(wù)模型的擴(kuò)展,通過(guò)ServiceProfile來(lái)實(shí)現(xiàn)大數(shù)據(jù)服務(wù)模型中服務(wù)操作和服務(wù)屬性的擴(kuò)展。
1) 數(shù)據(jù)源基本屬性描述
在ServcieProfile中添加Profile的BasicAttrs子類對(duì)數(shù)據(jù)源的數(shù)據(jù)隱私、質(zhì)量等基本屬性進(jìn)行描述,添加DataQuality子類對(duì)數(shù)據(jù)源的清洗程度、精確性等數(shù)據(jù)質(zhì)量相關(guān)內(nèi)容進(jìn)行描述。DataSource屬性的描述如下所示:
2) 服務(wù)類型屬性描述
服務(wù)類型屬性描述ServiceContent是Profile的子類,服務(wù)類型剛屬性主要包括serviceType和serviceItems等數(shù)據(jù)類型屬性,ServiceContent屬性的描述如下:
3) 服務(wù)操作描述
在OWL-S的大數(shù)據(jù)模型中,將數(shù)據(jù)源的操作也作為數(shù)據(jù)源的一個(gè)屬性進(jìn)行描述,例如,在Process子類中的inCondition對(duì)createTime操作進(jìn)行描述如下:
4) 服務(wù)組合描述
數(shù)據(jù)源的服務(wù)組合也通過(guò)屬性來(lái)進(jìn)行描述,例如大數(shù)據(jù)的“順序組合”服務(wù)在基于OWL-S的大數(shù)據(jù)模型中的描述如下:
4 結(jié)束語(yǔ)
本文所研究的基于OWL-S的大數(shù)據(jù)服務(wù)模型增加了服務(wù)操作、服務(wù)質(zhì)量、數(shù)據(jù)源等屬性,從而使得數(shù)據(jù)服務(wù)的屬性和操作描述更加完備;同時(shí),使得大數(shù)據(jù)服務(wù)繼承了語(yǔ)義Web的語(yǔ)義理解能力和自動(dòng)服務(wù)組合能力,從而將服務(wù)組合運(yùn)算融入大數(shù)據(jù)服務(wù)中。
參考文獻(xiàn):
[1] Chen M,Song M,Han J,et al.Survey on data quality[C]//Information and Communication Technologies (WICT), 2012 World Congress on. IEEE, 2012:1009-1013.
[2] 徐寶文,張衛(wèi)豐.數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的應(yīng)用研究[J].計(jì)算機(jī)學(xué)報(bào),2001,24(4).
[3] 韓晶,鄂海紅,宋美娜,等.基于主體行為的非結(jié)構(gòu)化數(shù)據(jù)模型[J].計(jì)算機(jī)工程與設(shè)計(jì),2013(3):904-908.
[4] 石嘉,張?jiān)?,裴云霞,?基于Web對(duì)象流行度的PPM預(yù)測(cè)模型[J].小型微型計(jì)算機(jī)系統(tǒng),2006,7(27):1378-1383.endprint