本文主要基于農(nóng)業(yè)經(jīng)濟(jì)數(shù)據(jù)倉(cāng)庫(kù)的建設(shè),提出一個(gè)面向網(wǎng)絡(luò)數(shù)據(jù)獲取、數(shù)據(jù)多格式存儲(chǔ)的方案。農(nóng)業(yè)經(jīng)濟(jì)分析問題的確定對(duì)應(yīng)著分析主題的確定,而分析框架對(duì)應(yīng)著數(shù)據(jù)倉(cāng)庫(kù)的建立,分析的過程對(duì)應(yīng)著多維分析與數(shù)據(jù)挖掘。而處于中間部分的對(duì)信息的獲取與加工,本身包含對(duì)信息結(jié)構(gòu)的處理、語義的賦予、內(nèi)容的清洗這一系列過程。
為了實(shí)現(xiàn)這些目標(biāo),本文將從HTML中獲取的農(nóng)產(chǎn)品價(jià)格信息的以三種方式存儲(chǔ),分別是關(guān)系數(shù)據(jù)庫(kù)、XML統(tǒng)一數(shù)據(jù)存儲(chǔ)格式、以及RDF語義存儲(chǔ)。
通過三種存儲(chǔ)方式的比較,以及結(jié)合分析系統(tǒng)信息獲取處理的過程,可以發(fā)現(xiàn),關(guān)系數(shù)據(jù)庫(kù)是對(duì)于數(shù)據(jù)的結(jié)構(gòu)化存儲(chǔ),XML進(jìn)一步的賦予層次及信息自描述,而RDF對(duì)于信息賦予了語義。
關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)優(yōu)點(diǎn)是效率高,技術(shù)成熟,缺點(diǎn)是與由于與數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)綁定,造成數(shù)據(jù)存儲(chǔ)格式無法統(tǒng)一,無法進(jìn)行數(shù)據(jù)交換,也無法對(duì)信息賦予語義。
XML存儲(chǔ)的優(yōu)點(diǎn)是其已經(jīng)是Web數(shù)據(jù)交換的標(biāo)準(zhǔn),使用范圍廣,并賦予數(shù)據(jù)層次語義,可以與數(shù)據(jù)倉(cāng)庫(kù)中的維度信息很好的結(jié)合。但是由于其語義功能不完整,造成數(shù)據(jù)查詢時(shí)必須了解其完整的結(jié)構(gòu),并且造成語義不統(tǒng)一現(xiàn)象的產(chǎn)生。
RDF存儲(chǔ)的優(yōu)點(diǎn)是其描述了信息的語義關(guān)系,使得可以與數(shù)據(jù)倉(cāng)庫(kù)中的語義相結(jié)合,通過語義查詢直接為數(shù)據(jù)倉(cāng)庫(kù)中的事實(shí)表、維度表提供滿足語義的數(shù)據(jù),而不用考慮具體的存儲(chǔ)結(jié)構(gòu)。但是相對(duì)于XML,RDF對(duì)于人類而言的可讀性較差。
為了進(jìn)一步說明三種層次模式的特點(diǎn),假設(shè)需要實(shí)現(xiàn)下面的分析目標(biāo)分別從關(guān)系數(shù)據(jù)庫(kù)、XML、RDF中獲取數(shù)據(jù)以實(shí)現(xiàn)分析。
(1)關(guān)系數(shù)據(jù)庫(kù)
三種存儲(chǔ)模式中,關(guān)系數(shù)據(jù)庫(kù)是最為基本也是目前使用最多的方式,其優(yōu)點(diǎn)是直接可以與后期的數(shù)據(jù)倉(cāng)庫(kù)(同樣是建立在關(guān)系數(shù)據(jù)庫(kù)基礎(chǔ)上)相連接,甚至于直接寫入數(shù)據(jù)倉(cāng)庫(kù)中,而不經(jīng)過數(shù)據(jù)緩沖。
(2) XML存儲(chǔ)
在XML中為了獲取例中需要的信息,可以利用XQuery對(duì)分析所需的信息進(jìn)行查詢,但是在查詢前必須了解XML的層次結(jié)構(gòu)。
XML存儲(chǔ)的數(shù)據(jù)關(guān)鍵特性之一,是它賦予了數(shù)據(jù)層次性結(jié)構(gòu),例如根據(jù)保存地理數(shù)據(jù)XML所生成的樹狀圖,與我們?cè)跀?shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)中對(duì)于地理維度的層次設(shè)計(jì)表達(dá)相同,實(shí)際上,很多的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)對(duì)于層次的表達(dá)直接建立在XML的基礎(chǔ)上,而利用XML的特性,可以實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)中維度表對(duì)于XML文件的直接利用。
(3)RDF語義存儲(chǔ)
XML所存在的問題是因?yàn)閄ML不具備語義描述能力。為了解決這一點(diǎn),信息可以用RDF進(jìn)行保存。“資源描述框架(Resource Description Framework,縮寫RDF)是萬維網(wǎng)聯(lián)盟(W3C)提出的一組標(biāo)記語言的技術(shù)標(biāo)準(zhǔn),以便更為豐富地描述和表達(dá)網(wǎng)絡(luò)資源的內(nèi)容與結(jié)構(gòu)。RDF標(biāo)準(zhǔn)最初設(shè)計(jì)的目的是描述Web上的資源、內(nèi)容和關(guān)系。但是RDF現(xiàn)在變成了用于描述一般信息、資源和關(guān)系的標(biāo)準(zhǔn)。語義Web和網(wǎng)格技術(shù)都需要定義資源及其之間的關(guān)系,使應(yīng)用程序能夠使用不同的信息,并且可以把數(shù)據(jù)捆綁在一起。”
一旦分析所需信息的對(duì)應(yīng)語義模式確定,通過SPARQL從RDF存儲(chǔ)中查詢所需的數(shù)據(jù)就很簡(jiǎn)單。
PREFIX agri:
由于將分析語句轉(zhuǎn)換為對(duì)應(yīng)的三元組關(guān)系,對(duì)RDF中存儲(chǔ)信息的查詢比較關(guān)系數(shù)據(jù)庫(kù)與XML要直觀的多,更有利于數(shù)據(jù)存儲(chǔ)與分析程序進(jìn)行直接的結(jié)合。
通過各種數(shù)據(jù)存儲(chǔ)方式的優(yōu)缺點(diǎn)分析,可以根據(jù)實(shí)際的情況在中間存儲(chǔ)層中結(jié)合使用。例如,當(dāng)數(shù)據(jù)源的信息語義關(guān)系簡(jiǎn)單,分析系統(tǒng)未來面向的數(shù)據(jù)庫(kù)關(guān)系系統(tǒng)不會(huì)改變時(shí),可以采用關(guān)系數(shù)據(jù)庫(kù)作為中間存儲(chǔ)層的存儲(chǔ)方式。當(dāng)分析系統(tǒng)面向不同廠商的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),或者面向不同的應(yīng)用,那么XML是最好的選擇。當(dāng)希望實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)對(duì)于信息的語義查詢,并且信息語義復(fù)雜,并且分析系統(tǒng)需要一個(gè)統(tǒng)一的語義信息源時(shí),應(yīng)該考慮RDF。