亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        ETL在數(shù)字圖書館資源建設(shè)及用戶資源管理中的應(yīng)用

        2012-08-15 00:52:53劉欣欣
        科技傳播 2012年9期
        關(guān)鍵詞:數(shù)據(jù)倉庫數(shù)據(jù)源知識庫

        劉欣欣

        保定職業(yè)技術(shù)學(xué)院,河北保定 071000

        當(dāng)前,數(shù)字圖書館建設(shè)面對龐大的、多類型、多介質(zhì)、多格式、多傳遞渠道的信息資源集合和用戶對電子信息資源的多樣化、個性化需求,數(shù)字圖書館中的信息資源建設(shè)必須朝著整合化的方向發(fā)展。ETL可以應(yīng)用在數(shù)字圖書館中的數(shù)字資源和用戶資源建設(shè)中,對數(shù)字圖書館中不同類型的資源進行整合和集成。

        1 ETL在數(shù)字資源建設(shè)與處理中的應(yīng)用

        1.1 ETL在基于數(shù)據(jù)倉庫的數(shù)字資源物理集成中的應(yīng)用

        實現(xiàn)資源整合和集成的方法有多種,既可以是在數(shù)據(jù)層面上的集成,也可以是在界面上的集成。本文所指的資源整合和集成,主要指的是對異構(gòu)信息資源實現(xiàn)數(shù)據(jù)層面的物理整合。也就是根據(jù)資源元數(shù)據(jù)標(biāo)準(zhǔn)建立統(tǒng)一的數(shù)據(jù)倉庫,然后針對各種資源實現(xiàn)不同的元數(shù)據(jù)增量抽取程序,將元數(shù)據(jù)匯集到數(shù)據(jù)倉庫中。采用建立本地數(shù)據(jù)倉庫的方法進行整合,可以對整合的結(jié)果作更進一步的處理和分析,使更多的工作相對于用戶來說可以脫機進行。異構(gòu)信息資源整合和集成主要包括數(shù)字圖書館內(nèi)部數(shù)據(jù)源的整合、基于協(xié)議的元數(shù)據(jù)整合、淺層Web信息和深層Web信息的整合等。數(shù)據(jù)倉庫是面向主題的,以整合的方式將內(nèi)容組織成層次結(jié)構(gòu),進一步為進行信息挖掘和數(shù)據(jù)挖掘,提供了一個簡潔精煉的操作平臺。數(shù)據(jù)挖掘可以發(fā)現(xiàn)、抽取、過濾和評價信息和數(shù)字對象以及跟蹤和分析用戶的訪問情況,提供深層次的知識服務(wù)。

        1.2 ETI在引文數(shù)據(jù)建設(shè)中的應(yīng)用

        為了實現(xiàn)不同來源中文獻之間的引文鏈接,在ETL過程中需要解決一些關(guān)鍵問題。文獻的引文是由題名、作者、來源期刊、發(fā)表年代等字段組成,自動識別這些字段屬性對于資源的參考鏈接服務(wù)是非常有用的,因為它們可以用來鏈接到實際的引文文獻中。不同的期刊來源中,引文通常以不同的形式表現(xiàn)的。引文鏈接一般是采用基于規(guī)則的方式,因此抽取和識別引文數(shù)據(jù)的規(guī)則學(xué)習(xí)尤為重要。

        1.3 ETL在知識庫構(gòu)建中的應(yīng)用

        對于數(shù)字圖書館中知識庫和知識空間的構(gòu)建,可以通過兩種方式來實現(xiàn):1)以人為中心的知識獲取,即通過有經(jīng)驗的專家手工輸入知識,這種方式很難形成大規(guī)模的知識庫;2)以機器為中心的知識獲取。在用戶的輔助下,利用知識抽取技術(shù)等自動生成和推理出知識,實現(xiàn)對數(shù)據(jù)源的關(guān)聯(lián)和分析。這種方式是當(dāng)前知識庫的主要建設(shè)方式。

        目前,國外已經(jīng)有一些研究機構(gòu)關(guān)注利用知識抽取技術(shù)來構(gòu)建知識庫和提供知識服務(wù)。在知識庫的建設(shè)中,主要是在ETL過程中融入語義和ontology,抽取出具有語義的信息。

        1.4 ETL在數(shù)據(jù)庫內(nèi)容描述信息生成中的應(yīng)用

        通過ETL可以自動獲得數(shù)據(jù)庫的內(nèi)容描述信息,從數(shù)據(jù)庫的文獻中抽取特征詞匯,并建立數(shù)據(jù)庫的內(nèi)容描述模型,用以反映數(shù)據(jù)源中所包含的文獻及其內(nèi)容、形式等特征,內(nèi)容描述模型是資源選擇的元數(shù)據(jù)基礎(chǔ),作為檢索時的智能選庫依據(jù)。ETL中隨機挑選詞匯作為數(shù)據(jù)源的初始的檢索詞,構(gòu)造和發(fā)送提問式以及從數(shù)據(jù)源獲取樣本文獻,并從樣本文獻中抽取出文獻的特征表示,經(jīng)過多次的循環(huán),建立起數(shù)據(jù)庫資源描述模型,形成數(shù)據(jù)庫的內(nèi)容描述信息,利用形成的內(nèi)容描述信息實現(xiàn)數(shù)據(jù)庫的自動選擇??梢栽贓TL過程中運用基于規(guī)則的描述、調(diào)焦查詢探測、基于提問取樣等算法,從分布式、隱藏的web資源中抽取能代表其主題或?qū)W科覆蓋范圍的關(guān)鍵詞,動態(tài)生成數(shù)據(jù)庫內(nèi)容描述信息。

        在數(shù)據(jù)庫內(nèi)容描述信息生成的應(yīng)用中,ETL需要解決的關(guān)鍵問題是形成數(shù)據(jù)源的描述模型,資源描述模型一般由數(shù)據(jù)源中所含特征詞及其出現(xiàn)頻牢、詞匯的文獻頻率、不同詞匯的共現(xiàn)概率等信息組成。多次提交檢索提問到各數(shù)據(jù)源,將返回的文獻作為樣本,通過分析樣本文獻建立數(shù)據(jù)源描述模型,以此來描述整個數(shù)據(jù)源。生成數(shù)據(jù)源描述模型具體包括:檢索提問詞的選擇,抽取的文獻數(shù)量,以及取樣停止的條件設(shè)定等。

        2 在用戶資源管理中的應(yīng)用

        2.1 ETL在統(tǒng)一認證系統(tǒng)中的應(yīng)用

        隨著計算機技術(shù)的發(fā)展,數(shù)字圖書館中采用了越來越多的信息系統(tǒng)。由于種種原因,各個信息系統(tǒng)往往相互獨立,在數(shù)據(jù)和業(yè)務(wù)邏輯上都存在大量的冗余,為用戶和管理員帶來諸多的不便。用戶身份和權(quán)限認證是數(shù)字圖書館中很重要的部分,然而不同的信息系統(tǒng)卻各自擁有獨立的身份和權(quán)限認證模塊,造成了業(yè)務(wù)邏輯的重復(fù)和數(shù)據(jù)的冗余,同時也為用戶身份信息的統(tǒng)一維護帶來一些問題,很難在數(shù)字圖書館的服務(wù)中真正地實現(xiàn)統(tǒng)一認證服務(wù),因此,在數(shù)字圖書館中要實現(xiàn)真正意義的統(tǒng)一認證,前提條件之一就是需要建立統(tǒng)一的用戶信息庫,同時還要保證用戶信息與原來系統(tǒng)中的信息保持同步更新。這些要求可以利用ETL機制來實現(xiàn),通過ETL來達到用戶信息的統(tǒng)一,即生成統(tǒng)一的用戶信息庫。首先,從不同系統(tǒng)中抽取現(xiàn)有的用戶信息,并進行必要的查重處理,一次性地導(dǎo)入認證系統(tǒng)中。然后,進行增量的抽取,同時保證各個系統(tǒng)的相對獨立性,解決數(shù)字圖書館中的統(tǒng)一認證問題。

        2.2 面向用戶行為的ETL

        面向用戶行為的ETL是基于用戶在研究活動過程中的行為進行相關(guān)信息抽取,需要跟蹤和記錄用戶的主要查詢和瀏覽行為,以便提供更適合的服務(wù)。

        3 結(jié)論

        ETL原本是為了構(gòu)建數(shù)據(jù)倉庫而提出的,有其特定的應(yīng)用環(huán)境。而數(shù)字圖書館的環(huán)境是分布式的,最終目的不只是為了建設(shè)數(shù)據(jù)倉庫,更多是需要進行虛擬的集成和整合。兩者雖然最終目的和應(yīng)用場景不同,但ETL的思想和技術(shù)可以用來解決數(shù)字圖書館資源整合和服務(wù)集成的某些問題,在某些應(yīng)用場景中僅僅依賴于ETL自身的技術(shù)是不行的,還必須結(jié)合其他的技術(shù)和方法來實現(xiàn)數(shù)字圖書館中的具體應(yīng)用。

        [1]黃永文,李廣建.數(shù)字圖書館中的ETL應(yīng)用研究綜述[J].現(xiàn)代圖書情報技術(shù),2007(12).

        [2]黃永文,李廣建.ETL技術(shù)及其在數(shù)字圖書館中的應(yīng)用研究[J].圖書館雜志,2006,25(2).

        [3]何濤.使用ETL工具Kettle實現(xiàn)圖書館聯(lián)盟信息系統(tǒng)數(shù)據(jù)集成[J].科學(xué)咨詢,2009(23).

        [4]袁小一,俞毅,趙賽.數(shù)字圖書館環(huán)境下ETL系統(tǒng)的設(shè)計與實現(xiàn)[J].現(xiàn)代圖書情報技術(shù),2007(7).

        猜你喜歡
        數(shù)據(jù)倉庫數(shù)據(jù)源知識庫
        基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設(shè)計中的應(yīng)用
        基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價研究
        分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計
        電子制作(2016年15期)2017-01-15 13:39:15
        探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
        高速公路信息系統(tǒng)維護知識庫的建立和應(yīng)用
        基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
        圖書館研究(2015年5期)2015-12-07 04:05:48
        基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實踐
        基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
        日本在线观看不卡一区二区| 久久久久亚洲AV成人网毛片| 日韩不卡无码三区| 国产三区三区三区看三区| 日本国产成人国产在线播放| 三上悠亚久久精品| 欧美日韩a级a| 国产午夜精品久久精品| 午夜dy888国产精品影院| 人妻影音先锋啪啪av资源| 91热国内精品永久免费观看| 暴露的熟女好爽好爽好爽| 未发育成型小奶头毛片av| 欧美日本国产va高清cabal| 囯产精品无码一区二区三区AV | 免费在线观看亚洲视频| 国产自拍成人免费视频| 最新系列国产专区|亚洲国产| 亚洲日本天堂| 久久九九av久精品日产一区免费| 蜜桃一区二区在线视频| 久久久久久亚洲精品中文字幕| 午夜a福利| 国产精品女同一区二区免| 日本中国内射bbxx| 特级毛片a级毛片在线播放www| 女同成片av免费观看| 亚洲一区二区三区2021| 无遮挡h肉动漫在线观看| 国产精品高清视亚洲乱码有限公司| 国产精品高清一区二区三区人妖 | 久久6国产| 亚洲一区久久久狠婷婷| 伦伦影院午夜理论片| 天堂√中文在线bt| 国产亚洲曝欧美不卡精品| 中文字幕免费人成在线网站 | 国产美女遭强高潮网站| 二区三区亚洲精品国产| 亚洲av网一区二区三区| 国产又滑又嫩又白|