趙 峰
中國(guó)人民銀行棗莊市中心支行
Web 數(shù)據(jù)的有效管理是近年來(lái)Internet 領(lǐng)域內(nèi)專(zhuān)家研究的熱點(diǎn),隨著網(wǎng)絡(luò)使用量的增長(zhǎng)、內(nèi)容復(fù)雜度的增大、數(shù)據(jù)系統(tǒng)自身及應(yīng)用方面的變化,造成數(shù)據(jù)庫(kù)的管理面臨著嚴(yán)峻挑戰(zhàn)。而Web 數(shù)據(jù)管理主要以方便用戶查詢各種信息為目的,在Web 環(huán)境中將各種復(fù)雜數(shù)據(jù)進(jìn)行有條理的整理與集成。本文將根據(jù)所讀文獻(xiàn)對(duì)領(lǐng)域內(nèi)關(guān)于Web數(shù)據(jù)管理的研究現(xiàn)狀及所面臨的問(wèn)題進(jìn)行總結(jié)與探討。
隨著網(wǎng)絡(luò)系統(tǒng)的發(fā)展,電腦硬件的配置也在提升,使用網(wǎng)絡(luò)的用戶也在逐日增多。網(wǎng)絡(luò)數(shù)據(jù)量增長(zhǎng)的速度也在逐漸增大,數(shù)據(jù)的復(fù)雜度也越來(lái)越高,Web 是眾多用戶數(shù)據(jù)共享的關(guān)鍵平臺(tái),在人們生活中扮演的角色也逐日重要。用戶使用互聯(lián)網(wǎng)的主要目的就是從網(wǎng)上得到自己想要的信息,或者是下載一些娛樂(lè)信息,但是由于數(shù)據(jù)量的龐大,用戶在選擇時(shí)根本無(wú)從下手,反而給用戶帶來(lái)困擾。這就需要管理者對(duì)Web 數(shù)據(jù)進(jìn)行梳理、分類(lèi)并組織,以方便用戶使用。
目前網(wǎng)絡(luò)數(shù)據(jù)管理方式正趨向開(kāi)放性發(fā)展,用戶對(duì)數(shù)據(jù)的要求也是各有不同,這都要求Web 數(shù)據(jù)不論是從數(shù)據(jù)獲取方面、還是數(shù)據(jù)管理方式上都要滿足用戶的查詢和使用需求。網(wǎng)絡(luò)數(shù)據(jù)的復(fù)雜性、用戶要求的提高等,都使得數(shù)據(jù)的管理相對(duì)于過(guò)去要更為優(yōu)化,對(duì)管理者提出了更高的專(zhuān)業(yè)要求。
Web 數(shù)據(jù)管理就是要解決用戶查詢數(shù)據(jù)時(shí)的困難,讓用戶需要時(shí)能以最短的時(shí)間在龐大的數(shù)據(jù)庫(kù)中找到自己所需要的信息,而且數(shù)據(jù)庫(kù)中的數(shù)據(jù)不僅要內(nèi)容豐富,而且還要求用戶查詢到的信息具有一定的準(zhǔn)確度。目前用戶在查詢信息時(shí)常用的搜索方式主要有:一,Web 搜索引擎,這種數(shù)據(jù)獲取手段是用戶常用的方式,但是系統(tǒng)在建立時(shí)對(duì)設(shè)計(jì)者的要求較高,因?yàn)檫@種引擎方式具有較高的復(fù)雜度,投入應(yīng)用后管理投入較高;二,Deep Web,用戶在使用這種數(shù)據(jù)獲取方式時(shí)獲取的信息具有很高的質(zhì)量,但是獲取的數(shù)據(jù)有很大的離散性,不利于用戶對(duì)信息的運(yùn)用;三,元搜索,它是建立在前兩種搜索方式之上的,它具備了前兩者的優(yōu)點(diǎn),同時(shí)又對(duì)其缺點(diǎn)進(jìn)行了彌補(bǔ),即不但使用方便,而且獲取數(shù)據(jù)的精確度比較高,可以說(shuō)是目前獲取Web 數(shù)據(jù)的最好方式。
Web 網(wǎng)絡(luò)的形成,最大限度的滿足了用戶對(duì)各種信息的需要,當(dāng)然這都離不開(kāi)高效的數(shù)據(jù)管理方式,這也是業(yè)內(nèi)人士一直研究的主要領(lǐng)域。而現(xiàn)在正在使用的管理方式主要由三種,即HTML,數(shù)據(jù)庫(kù)以及XML。其中HTML會(huì)在數(shù)據(jù)進(jìn)行交換的時(shí)候比較常用,這種文件屬于半結(jié)構(gòu)化數(shù)據(jù),一般來(lái)說(shuō)其結(jié)構(gòu)和信息會(huì)混合一塊兒,不具有明顯模式。XML 也是常用與數(shù)據(jù)交換,但是它更注重信息內(nèi)容,用戶使用時(shí)比較容易,比較適合Web 的信息交換。因?yàn)樗旧韺儆诎虢Y(jié)構(gòu),所以能為這類(lèi)數(shù)據(jù)進(jìn)一步的研究帶來(lái)積極作用。而數(shù)據(jù)庫(kù)也是數(shù)據(jù)管理較為常用的方式,雖然用戶使用起來(lái)比較方便,但是對(duì)于系統(tǒng)管理者來(lái)說(shuō)比較麻煩,管理投入也相對(duì)較大。因此Web 數(shù)據(jù)要根據(jù)用戶的需求,采取有效的管理方式,爭(zhēng)取更加個(gè)性化、開(kāi)放化。在管理方式變化的同時(shí),也使得互聯(lián)網(wǎng)的發(fā)展能夠更進(jìn)一步,從而為人類(lèi)提高更優(yōu)質(zhì)的數(shù)據(jù)服務(wù)。
數(shù)據(jù)管理的前提是要將獲取的數(shù)據(jù)進(jìn)行有效存儲(chǔ),它主要指數(shù)據(jù)管理者將獲取的數(shù)據(jù)在邏輯或者物理形式上存儲(chǔ)在相關(guān)設(shè)備上。當(dāng)前最常用的是將數(shù)據(jù)進(jìn)行邏輯存儲(chǔ),具體有四種形式:一,三元組表存儲(chǔ),這種方式比較直接,原理也比較簡(jiǎn)單,是很多Web 數(shù)據(jù)管理者常用的方式。三元組是指數(shù)據(jù)的主謂賓,當(dāng)獲取數(shù)據(jù)后直接存儲(chǔ)相應(yīng)存儲(chǔ)在列表中,特別實(shí)在關(guān)系數(shù)據(jù)庫(kù)中使用起來(lái)簡(jiǎn)單明了,受到管理者的高度青睞。同時(shí)它有自身的缺點(diǎn),即用戶使用時(shí)由于所需信息存儲(chǔ)在同一數(shù)據(jù)表中,使得數(shù)據(jù)查詢耗費(fèi)時(shí)間長(zhǎng),效率不高。二,垂直數(shù)據(jù)存儲(chǔ),它對(duì)三元組進(jìn)行了優(yōu)化,存儲(chǔ)結(jié)構(gòu)上進(jìn)行了簡(jiǎn)化。三,水平數(shù)據(jù)存儲(chǔ),將垂直數(shù)據(jù)存儲(chǔ)中各個(gè)列進(jìn)行合并到同一數(shù)據(jù)表,讓所有屬性信息在一張表上存儲(chǔ),但是由于數(shù)據(jù)列量比較大,而且空值多,合并時(shí)就會(huì)造成空間資源浪費(fèi)的現(xiàn)象。四,模式生成,相對(duì)于水平存儲(chǔ)節(jié)約了空間存儲(chǔ)資源,將數(shù)據(jù)中屬性相同的列存儲(chǔ)在同一單元中,因此又稱(chēng)為實(shí)例集存儲(chǔ)。
Web 數(shù)據(jù)進(jìn)行集成時(shí)一般分為兩種方式:數(shù)據(jù)倉(cāng)庫(kù)集成與虛擬集成。數(shù)據(jù)倉(cāng)庫(kù)集成是將獲取的數(shù)據(jù)以數(shù)據(jù)庫(kù)的形式供用戶查詢;用戶在使用虛擬方式集成的數(shù)據(jù)時(shí)需要通過(guò)第三方平臺(tái),當(dāng)獲取到所需信息時(shí)根本就不知道信息的數(shù)據(jù)源。由于Web 網(wǎng)絡(luò)數(shù)據(jù)結(jié)構(gòu)經(jīng)常變化、結(jié)構(gòu)相對(duì)復(fù)雜、數(shù)據(jù)量也比較龐大,而虛擬數(shù)據(jù)集成方法針對(duì)這種環(huán)境有很強(qiáng)的適應(yīng)能力,因此也受到數(shù)據(jù)管理者的關(guān)注。
Web 數(shù)據(jù)管理技術(shù)融合了當(dāng)前很多高新科技,如數(shù)據(jù)空間與數(shù)據(jù)搜索等,它將龐大的數(shù)據(jù)量進(jìn)行分類(lèi)整合、組織及存儲(chǔ),為用戶查詢提供方便。但是面對(duì)各類(lèi)數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性,它還存在一些不足之處,需要在以后實(shí)踐過(guò)程中進(jìn)行優(yōu)化。
第一,數(shù)據(jù)質(zhì)量上有待于提高。目前數(shù)據(jù)的獲取源已經(jīng)足夠多,但是其質(zhì)量還需提高,而且有的數(shù)據(jù)還存在錯(cuò)誤的情況,與數(shù)字有關(guān)的信息其準(zhǔn)確度有時(shí)候還存在一定偏差。
第二,數(shù)據(jù)急需統(tǒng)一維護(hù)。數(shù)據(jù)管理系統(tǒng)時(shí)刻要與用戶打交道,還要與數(shù)據(jù)相聯(lián)系,但是數(shù)據(jù)以用戶需求均具有隨時(shí)變化的特點(diǎn),這些都要求系統(tǒng)隨時(shí)跟上變化,但是如果系統(tǒng)不進(jìn)行統(tǒng)一管理,系統(tǒng)就會(huì)混亂化。因此要想系統(tǒng)與數(shù)據(jù)更新保持一致,就必須將系統(tǒng)數(shù)據(jù)進(jìn)行統(tǒng)一管理。
隨著互聯(lián)網(wǎng)的不斷發(fā)展,Web 數(shù)據(jù)規(guī)模也在不斷擴(kuò)大,人們對(duì)網(wǎng)絡(luò)數(shù)據(jù)查詢的要求也在提高,這就要求數(shù)據(jù)管理者根據(jù)實(shí)際情況不斷更新數(shù)據(jù)管理方式。為讓W(xué)eb 數(shù)據(jù)系統(tǒng)能夠更好地服務(wù)于大眾,不僅要擴(kuò)大數(shù)據(jù)獲取源,還要不斷提高獲取數(shù)據(jù)的精度,爭(zhēng)取讓用戶能夠更高效的查詢信息,并且查詢途徑更加多樣化。