亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        無結(jié)構(gòu)化數(shù)據(jù)集成方法在數(shù)字圖書館中的應(yīng)用

        2009-04-29 00:00:00王志麗
        現(xiàn)代情報 2009年3期

        〔摘 要〕針對數(shù)字圖書館中的圖像、視頻、音頻等無結(jié)構(gòu)化數(shù)據(jù)的集成問題,提出了語義對象模型的概念,實現(xiàn)無結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一全局對象表示。在此基礎(chǔ)上,提出了一種以XML數(shù)據(jù)模型為基礎(chǔ)的無結(jié)構(gòu)化數(shù)據(jù)集成方法。

        〔關(guān)鍵詞〕數(shù)據(jù)集成;元數(shù)據(jù);數(shù)字圖書館

        〔中圖分類號〕G250.76 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)03-0087-03

        隨著Internet的發(fā)展和普及,信息資源已經(jīng)實現(xiàn)了全球范圍內(nèi)的共享,信息的存儲和檢索方式也發(fā)生了巨大的變化,傳統(tǒng)圖書館的工作方式已經(jīng)不能滿足人們的要求,數(shù)字圖書館作為一種新的信息資源管理模式正在蓬勃發(fā)展。數(shù)字圖書館是一個通過互聯(lián)網(wǎng)連接在一起的分布式數(shù)據(jù)信息庫,它將全球網(wǎng)絡(luò)上所有信息資源集成起來,形成一個大型的分布式共享信息庫,利用先進的信息技術(shù),將包括印本、電子出版物、多媒體數(shù)據(jù)等各種類型的信息資源集成起來,構(gòu)建一個在網(wǎng)絡(luò)環(huán)境下支持普遍存取、分布式管理和集成信息服務(wù)的信息環(huán)境,為用戶提供簡單、快捷的個性化信息服務(wù)[1]。

        數(shù)字圖書館的實現(xiàn)需要分布式數(shù)據(jù)庫技術(shù)、數(shù)據(jù)挖掘技術(shù)、智能搜索引擎技術(shù)、機器翻譯技術(shù)等多種技術(shù)的支持,然而,這些關(guān)鍵技術(shù)能夠順利實現(xiàn)的基礎(chǔ)是解決數(shù)據(jù)的統(tǒng)一表現(xiàn)方式問題。數(shù)字圖書館的數(shù)據(jù)是由散布在因特網(wǎng)上的大量數(shù)據(jù)組成,包括文本等結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化的網(wǎng)頁數(shù)據(jù),及音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)。只有將這些數(shù)據(jù)集成起來,向用戶提供一個統(tǒng)一的視圖,數(shù)據(jù)挖掘、搜索引擎等工具才能有效地進行工作[2]。目前對結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)集成的研究采用中間件技術(shù)和基于XML的數(shù)據(jù)模型和模式定義語言、查詢語言實現(xiàn),已經(jīng)獲得一定的進展,而對于系統(tǒng)中存在大量的圖形、圖像、音頻、視頻等無結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)沒有統(tǒng)一的模式描述,很難進行數(shù)據(jù)集成[3]。因此對無結(jié)構(gòu)化異構(gòu)數(shù)據(jù)源集成技術(shù)的研究具有重大的現(xiàn)實意義和緊迫性。

        1 無結(jié)構(gòu)化數(shù)據(jù)表示

        1.1 元數(shù)據(jù)表示

        數(shù)字圖書館中數(shù)據(jù)的特征是由元數(shù)據(jù)來表示的,元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)[4],它說明了其它數(shù)據(jù)的特征和屬性信息,如數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)索引,數(shù)據(jù)的域等。根據(jù)元數(shù)據(jù)對數(shù)據(jù)的描述層次不同,元數(shù)據(jù)分為模式級元數(shù)據(jù)(對數(shù)據(jù)的結(jié)構(gòu)、類型、一致性約束等進行定義)與語義級元數(shù)據(jù)(對數(shù)據(jù)的語義概念,如書目信息中的作者、出版日期等進行描述)兩類。

        對于數(shù)字圖書館中的無結(jié)構(gòu)化數(shù)據(jù),可以使用元數(shù)據(jù)描述基于主題概念的相關(guān)信息,如對一個圖片內(nèi)容的介紹,這些元數(shù)據(jù)可認為是語義級元數(shù)據(jù)。元數(shù)據(jù)對圖片、視頻、音頻等無結(jié)構(gòu)化數(shù)據(jù)資源的查詢與獲取非常重要。在某些情況下,可能需要基于無結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容結(jié)構(gòu)進行查詢[5],如根據(jù)圖片的像素點的特征向量進行匹配查詢,這些特征向量是模式級元數(shù)據(jù)。然而一般情況下,用戶需要根據(jù)數(shù)據(jù)的分類等語義級元數(shù)據(jù)描述信息進行查詢,如根據(jù)電影名、電影類型,電影導演、男女主角,電影簡介等查找電影的視頻數(shù)據(jù),因此,語義級元數(shù)據(jù)給無結(jié)構(gòu)化數(shù)據(jù)賦予了更多關(guān)于內(nèi)容的描述信息。

        通過使用元數(shù)據(jù),可以對無結(jié)構(gòu)化數(shù)據(jù)進行查詢等相關(guān)操作,由于無結(jié)構(gòu)化數(shù)據(jù)內(nèi)容的查詢是近似查詢,語義信息對提高查詢無結(jié)構(gòu)化數(shù)據(jù)的精確性是非常重要的,并且語義信息對實現(xiàn)無結(jié)構(gòu)化數(shù)據(jù)的集成也是必需的,因此需要對無結(jié)構(gòu)化數(shù)據(jù)的語義信息進行精確定義。

        1.2 無結(jié)構(gòu)化數(shù)據(jù)的語義對象表示

        結(jié)構(gòu)化數(shù)據(jù)可以存放在關(guān)系型數(shù)據(jù)庫和面向?qū)ο髷?shù)據(jù)庫中,這些數(shù)據(jù)源具有嚴格的數(shù)據(jù)模型和外在的模式定義,模式是指數(shù)據(jù)源中的數(shù)據(jù)類型和邏輯組織形式等信息,比如在關(guān)系型數(shù)據(jù)庫中一個表的定義就是一個模式,它描述了這個表中的屬性名、屬性的排列順序、屬性的域、主鍵和外鍵等信息,結(jié)構(gòu)化數(shù)據(jù)集成中主要考慮如何根據(jù)數(shù)據(jù)源模式建立一個全局的模式,這個全局模式定義了系統(tǒng)中的數(shù)據(jù)內(nèi)容和數(shù)據(jù)的邏輯組織形式,用戶的查詢語句針對全局模式生成,這種集成方式也稱為模式集成。

        無結(jié)構(gòu)化的數(shù)據(jù)源只有一些描述性的語義信息,沒有外在的模式定義,因此很難采用上述方法對數(shù)據(jù)本身進行結(jié)構(gòu)化轉(zhuǎn)換。本文利用面向?qū)ο蟮乃枷耄瑢o結(jié)構(gòu)化數(shù)據(jù)源中的每個數(shù)據(jù)看作一個對象數(shù)據(jù),例如一部電影看作一個電影對象數(shù)據(jù),對象數(shù)據(jù)及其相關(guān)語義元數(shù)據(jù)看作一個整體,即一個語義對象。這樣無結(jié)構(gòu)化數(shù)據(jù)源抽象為語義對象的集合。

        定義1:語義對象SO(Semantic Object)是一個三元組:

        SO∷=<ID,S,O>

        其中,ID是對象的標識;S是SO的語義信息的集合,即語義級元數(shù)據(jù);O是SO的對象數(shù)據(jù)的集合,比如一部電影可能有多個MPEG文件,共同組成了O。S中有O的URI(Uniform Resources Identifier),指明了O的存儲位置。這樣,不同類型的無結(jié)構(gòu)化數(shù)據(jù)都可用統(tǒng)一的語義對象來表示,有助于數(shù)據(jù)集成的進行。

        1.3 基于XML的全局語義對象表示

        數(shù)據(jù)源中數(shù)據(jù)的語義對象稱為局部語義對象,比如一部電影的MPEG文件、它的Marc信息分別看作是語義對象的O與S。由于數(shù)據(jù)源的元數(shù)據(jù)的數(shù)據(jù)模型多種多樣,內(nèi)容大小也相差很大,因此在數(shù)據(jù)源之上,需要建立中間層,中間層提供給用戶的是一種統(tǒng)一的語義對象形式,稱為全局語義對象,用戶的查詢針對全局語義對象進行操作。由于對象的語義信息變化較大,并考慮到數(shù)據(jù)的交換標準一致性,文章采用XML作為語義信息的存儲模型,XML層次結(jié)構(gòu)既能滿足表達語義信息的復雜性,又符合國際通用的交換標準,能夠很好地實現(xiàn)數(shù)字圖書館的互操作。

        對于數(shù)據(jù)源中不同的元數(shù)據(jù)形式,系統(tǒng)應(yīng)實現(xiàn)不同的轉(zhuǎn)換程序,從數(shù)據(jù)源的元數(shù)據(jù)信息抽取有用的數(shù)據(jù)項轉(zhuǎn)換為全局語義對象中的語義信息S,存放在語義信息庫中。

        全局語義信息的部分DTD為:

        <!ELEMENT DCMeta(Identifier,Title+,Publisher+,Contributor+,…)>

        <!ELEMENT Identifier(#PCDATA)>

        <!ATTLIST Identifier Qualifier CDATA #REQUIRED>

        <!ELEMENT Title(#PCDATA)>

        <!ATTLIST Title Qualifier CDATA #REQUIRED>

        <!ELEMENT Publisher(#PCDATA)>

        <!ATTLIST Publisher Qualifier CDATA #REQUIRED>

        <!ELEMENT Contributor(#PCDATA)>

        <!ATTLIST Contributor Qualifier CDATA #required>…

        2 一種數(shù)據(jù)集成方案

        通過將無結(jié)構(gòu)化數(shù)據(jù)表示為語義對象,根據(jù)統(tǒng)一的標準將不同數(shù)據(jù)源中的語義對象轉(zhuǎn)換為全局數(shù)據(jù)對象,系統(tǒng)可以對無結(jié)構(gòu)化數(shù)據(jù)進行統(tǒng)一的存儲和查詢操作,實現(xiàn)了無結(jié)構(gòu)化數(shù)據(jù)的集成。本文提出了一種無結(jié)構(gòu)化數(shù)據(jù)的集成方法,系統(tǒng)的體系結(jié)構(gòu)圖如圖1。

        主要模塊介紹如下:

        2.1 用戶界面

        系統(tǒng)提供給用戶統(tǒng)一的查詢界面,可以通過語義進行模糊查詢,例如,用戶希望查詢題名包含“菜譜”的所有資源,系統(tǒng)將把所有數(shù)據(jù)源中題名包含“菜譜”的對象以列表項的形式返回給用戶,每一項中有該對象的元數(shù)據(jù)信息、對象數(shù)據(jù)的超鏈接。用戶點擊超鏈接后,將顯示對象數(shù)據(jù),比如點擊MPEG文件的超鏈接后,將播放這個MPEG文件。

        2.2 請求處理

        請求處理模塊根據(jù)請求查詢元數(shù)據(jù)庫,主要對庫中基于XML的語義信息進行匹配查詢,根據(jù)符合匹配請求的XML項得到相應(yīng)的對象數(shù)據(jù)的URI,根據(jù)URI分別對內(nèi)容管理器、電子圖書庫、電子報刊庫等數(shù)據(jù)源執(zhí)行查詢,把查詢結(jié)果返回給用戶界面。

        2.3 元數(shù)據(jù)庫

        在元數(shù)據(jù)庫中存儲全局語義對象的URI和基于文本的XML語義信息,以及XML的索引表。

        2.4 元數(shù)據(jù)轉(zhuǎn)換

        該模塊將局部對象的URI和語義信息分別轉(zhuǎn)換為全局的URI和基于XML的語義信息,并存儲在元數(shù)據(jù)庫中。

        2.5 內(nèi)容管理器

        內(nèi)容管理器是無結(jié)構(gòu)化數(shù)據(jù)資源存儲管理系統(tǒng),能夠?qū)o結(jié)構(gòu)化數(shù)據(jù)進行有效的存儲和管理。它以統(tǒng)一的格式存儲各種形式的無結(jié)構(gòu)化數(shù)據(jù),如圖片、流媒體等。內(nèi)容管理器中擁有數(shù)據(jù)對象的目錄信息。通過這些目錄信息,內(nèi)容管理器可以根據(jù)用戶的請求,使用一系列搜索技術(shù)來定位存儲對象。

        2.6 導入系統(tǒng)

        導入系統(tǒng)將電影、音樂、博士論文等數(shù)據(jù)導入到內(nèi)容管理器中,在導入的同時,把內(nèi)容管理器分配給數(shù)據(jù)的惟一標識作為全局對象的URI的一部分傳送給元數(shù)據(jù)轉(zhuǎn)換模塊。

        系統(tǒng)根據(jù)語義對象的概念對無結(jié)構(gòu)化數(shù)據(jù)實現(xiàn)了語義級集成,局部語義對象的元數(shù)據(jù)被轉(zhuǎn)為全局對象的元數(shù)據(jù)存儲在元數(shù)據(jù)庫,查詢就不必再分解成針對局部對象的元數(shù)據(jù)的子查詢,提高了系統(tǒng)的查詢效率。

        3 結(jié) 論

        本文討論了實現(xiàn)數(shù)字圖書館需要首先解決的數(shù)據(jù)集成技術(shù),分析了無結(jié)構(gòu)化數(shù)據(jù)集成系統(tǒng)面臨的問題,提出了語義對象的概念,描述了基于語義對象進行無結(jié)構(gòu)化數(shù)據(jù)集成的思想。由于無結(jié)構(gòu)化數(shù)據(jù)沒有外在的模式定義,不能或很難從對象數(shù)據(jù)中提取出模式,傳統(tǒng)的模式集成方式不適用于無結(jié)構(gòu)化數(shù)據(jù)的集成?;谡Z義對象的集成較好地解決了這個問題。最后提出了一種無結(jié)構(gòu)化數(shù)據(jù)的集成方案,實現(xiàn)了基于全局語義對象的無結(jié)構(gòu)化數(shù)據(jù)的集成。

        參考文獻

        [1]Y.Papakonstantinou,Pavel Velikhov.Enhancing Semistructured Data Mediators with Document Type Definitions.ICDE,Sydney,Australia,1999.

        [2]王志麗,樊玉敬.XML在數(shù)字圖書館中的應(yīng)用研究[J].情報科學,2002,20(12):1305-1307.

        [3]孟小峰.Web數(shù)據(jù)管理研究綜述[J].計算機研究與發(fā)展,2001,38(4):385-395.

        [4]V.Kashyap,A.Sheth.Semantic Heterogeneity in Global Information Systems:the Role of Metadata,Context and Ontologies.Cooperative Information Systems:Current Trends and Directions.M.Papazoglou,G.Schlageter (editors).Academic-Press,Springer-Verlag,1997:139-178.

        [5]Kjersti Aas,Line Eikvil.A survey on:Content-based Access to Image and Video Databases.Report 915,Norwegian Computing Center,March 1997,Available at http:∥www.nr.no/home/kjersti/video.html

        国产AV高清精品久久| 黑人巨大跨种族video| 美女扒开内裤让男生桶| 小sao货水好多真紧h无码视频| 激情久久av一区av二区av三区| 白白色免费视频一区二区| 久久精品国产亚洲av沈先生 | 日韩精品一区二区三区在线观看的| 亚洲男人免费视频网站| 亚洲日韩国产一区二区三区| 国产成人亚洲精品青草天美| 精品久久久久久777米琪桃花| 日韩中文字幕中文有码| 亚洲国产精品久久九色| 日本女优爱爱中文字幕| 成人日韩熟女高清视频一区| 一二三四在线观看免费视频| 亚洲色成人WWW永久在线观看| 亚洲第一页在线免费观看| 亚洲午夜无码毛片av久久| 日日噜噜噜夜夜爽爽狠狠视频| 精品国产福利片在线观看| 日韩精品视频av在线观看| 日韩视频在线观看| 99精品国产兔费观看久久99| 亚洲AV无码AV色| 四季极品偷拍一区二区三区视频| 日本高清在线一区二区三区| 欧美午夜精品一区二区三区电影| 老男人久久青草AV高清| 一区二区三区岛国av毛片| 极品人妻少妇av免费久久| 日本大骚b视频在线| 亚洲中文无码成人影院在线播放| 亚洲av偷拍一区二区三区| 国产91精品高潮白浆喷水| 欧美金发尤物大战黑人| 国产亚洲欧洲AⅤ综合一区| 日本大片一区二区三区| 人妻少妇出轨中文字幕| 久青草国产视频|