亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘技術(shù)的讀者信息推送系統(tǒng)結(jié)構(gòu)設(shè)計(jì)

        2012-08-15 00:52:53
        科技傳播 2012年22期
        關(guān)鍵詞:館藏數(shù)據(jù)挖掘預(yù)處理

        蔡 寅

        江蘇經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院,江蘇南京 211168

        圖書(shū)館日常的讀者借閱活動(dòng)中,讀者的借閱行為在圖書(shū)館信息管理系統(tǒng)中積累了大量的數(shù)據(jù)。但是,這些事務(wù)性的數(shù)據(jù)并沒(méi)有發(fā)揮其應(yīng)有的價(jià)值。這些數(shù)據(jù)的功能現(xiàn)階段只是停留在簡(jiǎn)單的讀者借閱歷史查詢上,沒(méi)有經(jīng)過(guò)加工、整理及應(yīng)用。除此之外,讀者在使用圖書(shū)檢索系統(tǒng)的過(guò)程中,有著大量的檢索行為,這些檢索行為也產(chǎn)生了大量的數(shù)據(jù)。如何利用這些海量的數(shù)據(jù)為讀者提供更優(yōu)質(zhì)的服務(wù)就成了我們研究的重點(diǎn)之一。

        本文的研究重點(diǎn)是基于圖書(shū)館日常的讀者服務(wù)數(shù)據(jù),通過(guò)使用數(shù)據(jù)挖掘的手段,分析讀者的信息使用情況,最后提出一個(gè)可以為讀者個(gè)性化信息推送提供參考的具體方案,借以有效提高高校圖書(shū)館的讀者服務(wù)質(zhì)量,提高圖書(shū)館的讀者服務(wù)水平。鑒于系統(tǒng)整體比較龐大,因此本文只是討論系統(tǒng)的總體結(jié)構(gòu)設(shè)計(jì),以為將來(lái)系統(tǒng)的詳細(xì)設(shè)計(jì)做好準(zhǔn)備。

        1 系統(tǒng)目標(biāo)

        在圖書(shū)館提供信息服務(wù)的過(guò)程中,涉及的讀者類(lèi)型豐富,涉及的館藏資源龐雜。系統(tǒng)的設(shè)計(jì)目標(biāo)是為圖書(shū)館為讀者提供個(gè)性化的信息推送服務(wù)提供輔助支撐。因此,系統(tǒng)的設(shè)計(jì)主要以“向特定的讀者,推送特定的信息”為最終目標(biāo)。

        信息推送的過(guò)程中,涉及到的信息很多。系統(tǒng)的設(shè)計(jì)過(guò)程中不可能做到面面俱到,因此,本系統(tǒng)的設(shè)計(jì)目標(biāo)主要完成以下特定目標(biāo):

        1)獲取讀者信息,提供讀者服務(wù)。根據(jù)讀者的條碼號(hào),找出讀者的類(lèi)型和使用習(xí)慣。利用數(shù)據(jù)挖掘的技術(shù)手段向讀者提供特定的有效信息。當(dāng)讀者用自己的證件號(hào)登陸書(shū)目查詢系統(tǒng)、數(shù)據(jù)庫(kù)檢索系統(tǒng)時(shí),可以判定讀者身份,根據(jù)讀者身份及讀者信息使用習(xí)慣向讀者推送相關(guān)信息資源,包括圖書(shū)資源、期刊資源、電子數(shù)據(jù)庫(kù)資源等;

        2)分析入藏資源,制定推送計(jì)劃。對(duì)于新入藏的信息資源,根據(jù)信息資源的特點(diǎn),向特定的讀者群提供信息推送服務(wù)。比如,當(dāng)圖書(shū)館新到一批圖書(shū)時(shí),將新書(shū)書(shū)目中的部分圖書(shū)推送給特定的讀者群;

        3)收集檢索歷史,優(yōu)化資源配置。根據(jù)用戶的書(shū)目檢索歷史記錄,用戶的數(shù)字資源檢索記錄等讀者利用圖書(shū)館信息資源的情況,結(jié)合本館的信息資源配置情況,調(diào)整圖書(shū)館的資源配置,如藏書(shū)配置、資源購(gòu)置分配。專業(yè)信息建設(shè)計(jì)劃等,擴(kuò)大圖書(shū)館信息服務(wù)的滿意度。

        根據(jù)前文所述系統(tǒng)目標(biāo),系統(tǒng)的核心是利用相關(guān)館藏?cái)?shù)據(jù)及讀者使用文獻(xiàn)情況數(shù)據(jù)來(lái)服務(wù)讀者信息推送工作。根據(jù)系統(tǒng)的輸入和輸出,將系統(tǒng)劃分成數(shù)據(jù)接口模塊、數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)挖掘模塊、用戶接口模塊共四個(gè)模塊,每一層模塊為上一層模塊提供數(shù)據(jù)支持。

        2 主要功能模塊

        在圖書(shū)館的實(shí)際應(yīng)用中,伴隨著圖書(shū)館的文獻(xiàn)資源建設(shè)和圖書(shū)館的讀者信息服務(wù),會(huì)產(chǎn)生相當(dāng)多的數(shù)據(jù)。但是,這些數(shù)據(jù)種類(lèi)繁多。從數(shù)據(jù)的分布上,數(shù)據(jù)分布在不同服務(wù)器,不同平臺(tái),不同的數(shù)據(jù)庫(kù)中;從數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)看,數(shù)據(jù)類(lèi)型,數(shù)據(jù)庫(kù)中相關(guān)數(shù)據(jù)的分布也不盡相同。因此,系統(tǒng)首先通過(guò)數(shù)據(jù)連接模塊將這些數(shù)據(jù)進(jìn)行整合,然后通過(guò)數(shù)據(jù)預(yù)處理手段,將數(shù)據(jù)規(guī)范化,解決異構(gòu)問(wèn)題,將數(shù)據(jù)統(tǒng)一到信息推送數(shù)據(jù)庫(kù)中。最后,通過(guò)數(shù)據(jù)挖掘的手段,使用關(guān)聯(lián)規(guī)則算法,得到相關(guān)的關(guān)聯(lián)規(guī)則。用戶接口模塊利用這些規(guī)則,完成系統(tǒng)的既定目標(biāo)。各模塊的功能具體如下:

        1)數(shù)據(jù)接口模塊

        作為最底層的模塊,數(shù)據(jù)連接模塊的功能,是對(duì)上層的預(yù)處理模塊屏蔽底層數(shù)據(jù)庫(kù)的連接細(xì)節(jié),使得上層模塊在進(jìn)行數(shù)據(jù)庫(kù)讀寫(xiě)操作時(shí),可以使用統(tǒng)一的接口和語(yǔ)法。目的是將上層模塊從繁瑣的數(shù)據(jù)連接中解脫出來(lái),從而可以把精力放在具體的事務(wù)處理上,簡(jiǎn)化了數(shù)據(jù)預(yù)處理模塊的結(jié)構(gòu),同時(shí)提高了系統(tǒng)的可維護(hù)性和擴(kuò)展性,擴(kuò)充新的數(shù)據(jù)源類(lèi)型時(shí),只要修改數(shù)據(jù)連接模塊就可以了。

        數(shù)據(jù)接口模塊,向下,通過(guò).net框架中的類(lèi),使用OleDbConnection,SQL connection等連接Oracle、SQL Server等數(shù)據(jù)庫(kù),向上,為數(shù)據(jù)預(yù)處理模塊提供統(tǒng)一的接口。

        2)數(shù)據(jù)預(yù)處理模塊

        高質(zhì)量的決策必然依賴于高質(zhì)量的數(shù)據(jù)。數(shù)據(jù)預(yù)處理模塊的功能是,在實(shí)施數(shù)據(jù)挖掘以前,利用數(shù)據(jù)連接層提供的數(shù)據(jù),及時(shí)檢測(cè)數(shù)據(jù)異常,盡早調(diào)整數(shù)據(jù)并規(guī)約待分析數(shù)據(jù)。為下面的數(shù)據(jù)挖掘工作提供干凈、準(zhǔn)確、簡(jiǎn)潔的數(shù)據(jù)。數(shù)據(jù)預(yù)處理模塊通過(guò)對(duì)數(shù)據(jù)的清洗、集成、變換、簡(jiǎn)化操作后,將處理完成的數(shù)據(jù)導(dǎo)入讀者信息推送服務(wù)數(shù)據(jù)庫(kù)中,為數(shù)據(jù)挖掘工作做好準(zhǔn)備。其基本流程如下:

        (1)數(shù)據(jù)預(yù)處理模塊首先利用數(shù)據(jù)連接模塊從相關(guān)的數(shù)據(jù)庫(kù)中抽取讀者信息服務(wù)可以使用的數(shù)據(jù)表。因?yàn)楦鱾€(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)表有很多,但是可以為讀者信息推送服務(wù)的數(shù)據(jù)表的數(shù)量是有限的,因此,數(shù)據(jù)預(yù)處理的第一步,就是將這些數(shù)據(jù)表從各個(gè)數(shù)據(jù)庫(kù)中抽取出來(lái),準(zhǔn)備處理;

        (2)從各個(gè)數(shù)據(jù)庫(kù)中抽取出的工作表是各種結(jié)構(gòu)雜亂的源數(shù)據(jù)。對(duì)于這些結(jié)構(gòu)雜亂的源數(shù)據(jù)首先進(jìn)行清洗,數(shù)據(jù)清洗的目的是除去源數(shù)據(jù)中的噪聲數(shù)據(jù)和無(wú)關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù)和清洗臟數(shù)據(jù),去除空白數(shù)據(jù)域的知識(shí)背景上的噪聲,考慮時(shí)間順序和數(shù)據(jù)變化等。主要包括處理噪聲數(shù)據(jù)、處理空值、糾正不一致數(shù)據(jù)、更正明顯的輸入錯(cuò)誤數(shù)據(jù)等;

        (3)經(jīng)過(guò)清洗的各種數(shù)據(jù)仍然是各個(gè)不同數(shù)據(jù)環(huán)境中的異構(gòu)數(shù)據(jù)。數(shù)據(jù)預(yù)處理的工作接下來(lái)是對(duì)這些數(shù)據(jù)的合并處理,將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中。同時(shí),在數(shù)據(jù)集成的過(guò)程中除去冗余數(shù)據(jù);

        (4)用于數(shù)據(jù)挖掘的各種數(shù)據(jù)在經(jīng)過(guò)數(shù)據(jù)集成之后,需要將數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式。經(jīng)過(guò)系統(tǒng)集成后的數(shù)據(jù)雖然在構(gòu)造上是統(tǒng)一的,但是如果需要為數(shù)據(jù)挖掘提供數(shù)據(jù)支持,很多數(shù)據(jù)是不合適的。比如高度離散化的數(shù)據(jù),必須通過(guò)重新分類(lèi)離散的方式,將離散度降低。為后面的數(shù)據(jù)挖掘做好準(zhǔn)備;

        (5)經(jīng)過(guò)變換的數(shù)據(jù)基本可以滿足數(shù)據(jù)挖掘的需求,但是在使用這些數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘之前,還需要對(duì)這些數(shù)據(jù)進(jìn)行簡(jiǎn)化。數(shù)據(jù)簡(jiǎn)化的過(guò)程是在對(duì)發(fā)現(xiàn)任務(wù)和數(shù)據(jù)本身內(nèi)容理解的基礎(chǔ)上,尋找依賴于發(fā)現(xiàn)目標(biāo)的表達(dá)數(shù)據(jù)的有用特征,以縮減數(shù)據(jù)規(guī)模,從而在盡可能保持原貌的前提下最大限度的精簡(jiǎn)數(shù)據(jù)量。

        3)數(shù)據(jù)挖掘模塊

        數(shù)據(jù)挖掘模塊的功能是利用經(jīng)過(guò)預(yù)處理的數(shù)據(jù),使用關(guān)聯(lián)規(guī)則的Apriori算法,找出數(shù)據(jù)中關(guān)聯(lián)規(guī)則。

        數(shù)據(jù)挖掘使用的數(shù)據(jù)源是經(jīng)過(guò)處理的數(shù)據(jù),即信息推送數(shù)據(jù)庫(kù)。根據(jù)給定的最小支持度和最小置信度給出相關(guān)的關(guān)聯(lián)規(guī)則。為用戶接口模塊中的信息推送提供參考標(biāo)準(zhǔn)。

        數(shù)據(jù)挖掘模塊的過(guò)程主要是:

        (1)掃描信息推送數(shù)據(jù)庫(kù),得到1-候選項(xiàng)目集C1;

        (2)根據(jù)項(xiàng)目集的支持度的闕值,得到1-頻繁項(xiàng)目集L1;

        (3)根據(jù)L1得到2-候選項(xiàng)目集C2;

        (4)根據(jù)2-候選項(xiàng)目集C2和最小支持度得到2-頻繁項(xiàng)目集;

        (5)重復(fù)第三、第四步,直到候選項(xiàng)目集為空集;

        (6)根據(jù)得到的頻繁項(xiàng)目集,得到大于最小置信度的規(guī)則集合;

        (7)對(duì)挖掘的結(jié)果進(jìn)行評(píng)價(jià)和展望。

        4)用戶接口模塊

        用戶接口模塊主要功能是根據(jù)用戶的輸入及用戶需求,參照數(shù)據(jù)挖掘的結(jié)構(gòu)以及相關(guān)的數(shù)據(jù)環(huán)境,為用戶輸出目標(biāo)數(shù)據(jù)。

        根據(jù)系統(tǒng)的設(shè)計(jì)目標(biāo),用戶接口模塊主要包括三個(gè)部分:

        (1)根據(jù)讀者信息,輸出文獻(xiàn)信息推送單

        當(dāng)系統(tǒng)接收到讀者信息時(shí),首先從相關(guān)數(shù)據(jù)庫(kù)中檢測(cè)讀者信息。然后根據(jù)讀者信息,根據(jù)關(guān)聯(lián)規(guī)則,找出滿足系統(tǒng)設(shè)定置信度的關(guān)聯(lián)規(guī)則。最后,根據(jù)關(guān)聯(lián)規(guī)則從相關(guān)文獻(xiàn)數(shù)據(jù)庫(kù)中向讀者推送文獻(xiàn)。

        (2)根據(jù)文獻(xiàn)信息,輸出推送讀者列表

        當(dāng)系統(tǒng)接收到文獻(xiàn)信息時(shí),從文獻(xiàn)信息數(shù)據(jù)庫(kù)中查詢文獻(xiàn)的特征信息,然后根據(jù)系統(tǒng)設(shè)定的置信度和相應(yīng)的關(guān)聯(lián)規(guī)則,查詢滿足關(guān)聯(lián)規(guī)則的讀者信息列表,最終提交欲推送的讀者列表。

        (3)根據(jù)限定時(shí)間的讀者文獻(xiàn)使用情況,輸出館藏建設(shè)意見(jiàn)單

        館藏資源建設(shè)在圖書(shū)館建設(shè)中占有重要的地位。圖書(shū)館為了更好的滿足讀者需求,更好的契合讀者的信息需求就必須及時(shí)的調(diào)整自己的館藏資源建設(shè)。但是,在傳統(tǒng)的館藏資源建設(shè)過(guò)程中,絕大多數(shù)時(shí)候忽略了讀者的重要性[27]。圖書(shū)館人更多的時(shí)候是根據(jù)自身主觀的行為和特征去完善館藏。因此,本模塊的目的就是根據(jù)數(shù)據(jù)挖掘的結(jié)果和館藏文獻(xiàn)信息資源的情況給出館藏的建設(shè)意見(jiàn),為館藏資源建設(shè)的決策提供支持。

        系統(tǒng)首先根據(jù)用戶設(shè)定的時(shí)間段,對(duì)該時(shí)間段的讀者使用圖書(shū)館資源的情況進(jìn)行統(tǒng)計(jì)分析,然后利用數(shù)據(jù)挖掘的結(jié)果,即相關(guān)的關(guān)聯(lián)規(guī)則,得到館藏應(yīng)有的資源配置分布。再跟館藏資源的實(shí)際情況進(jìn)行對(duì)比,得到最終的建設(shè)意見(jiàn)的結(jié)果。

        3 結(jié)論

        本文進(jìn)行了系統(tǒng)結(jié)構(gòu)的設(shè)計(jì)。首先根據(jù)分析了系統(tǒng)的設(shè)計(jì)目標(biāo),然后根據(jù)系統(tǒng)的設(shè)計(jì)目標(biāo)對(duì)系統(tǒng)的總體結(jié)構(gòu)進(jìn)行了設(shè)計(jì)。系統(tǒng)的總體結(jié)構(gòu)劃分成數(shù)據(jù)接口模塊、數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)挖掘模塊和用戶接口模塊4個(gè)模塊。最后,對(duì)系統(tǒng)的各個(gè)模塊的工作原理和工作流程進(jìn)行了設(shè)計(jì),為下一步系統(tǒng)各個(gè)模塊的詳細(xì)設(shè)計(jì)做好了基礎(chǔ)保證工作。

        [1]Fayyad,U.,F(xiàn)rom Data Mining to Knowledge Discovery: An overview,In advances in Knowledge Discovery and Data Mining,p471-493.

        [2]戴穩(wěn)勝,張阿蘭,謝邦昌.數(shù)據(jù)挖掘的方法、流程及應(yīng)用[J].中國(guó)統(tǒng)計(jì),2004(07):53-54.

        [3]周群.論數(shù)字圖書(shū)館數(shù)據(jù)挖掘系統(tǒng)模型研究[J].情報(bào)雜志,2006(11):97-99.

        [4]R.D.Lawrence,G.S.Almasi,V.Kotlyar,M.S.Viveros, Personalization of Supermarket Product Recommendations,Data Mining and Knowledge Discovery,vol.511-32,JAN-APR 2001.

        猜你喜歡
        館藏數(shù)據(jù)挖掘預(yù)處理
        館藏
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        博物館的生存之道:館藏能否變賣(mài)?
        知還印館藏印選——古印篇
        基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        淺談PLC在預(yù)處理生產(chǎn)線自動(dòng)化改造中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        絡(luò)合萃取法預(yù)處理H酸廢水
        基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
        五月天婷婷一区二区三区久久| 99精品国产一区二区三区| 中文字幕无码不卡一区二区三区 | 天堂av一区一区一区| 国产91色综合久久高清| 亚洲av永久无码精品放毛片| 亚洲国产精品尤物yw在线观看| www.尤物视频.com| 中文字幕乱码亚洲在线| 国产成年女人毛片80s网站| 美丽人妻被按摩中出中文字幕| 亚洲无码中文字幕日韩无码| 91国产自拍精品视频| 欧美丰满熟妇性xxxx| 亚洲国产精品久久久久久久| 亚洲国产不卡av一区二区三区| 亚洲中文字幕乱码第一页| 中文字幕乱码亚洲精品一区| 欧美另类在线视频| 丰满人妻无奈张开双腿av| 97精品一区二区三区| 久久人妻内射无码一区三区| 中文字幕人妻中文| 久久久精品国产老熟女| 伊人久久精品无码二区麻豆| 蜜桃精品免费久久久久影院 | 久久发布国产伦子伦精品| 国产亚洲精品不卡在线| 五月开心六月开心婷婷网| 亚洲a∨无码一区二区三区| 91av在线播放| 人妻av不卡一区二区三区| 亚洲av无码一区二区三区天堂| 久久精品一区二区三区av| 无码91 亚洲| 日本a级一级淫片免费观看| 开心五月激情综合婷婷色| 99精品免费视频| 午夜少妇高潮在线观看视频| 中文无码一区二区三区在线观看| 一本大道香蕉视频在线观看|