亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

數(shù)據(jù)挖掘技術(shù)在高教園區(qū)信息資源共建共享中的應(yīng)用

2010-05-03 07:41:00張錫椿

圖書館學(xué)刊 2010年12期

張錫椿

（溫州醫(yī)學(xué)院圖書館，浙江溫州 325037）

上世紀(jì)90年代以來，全國興起了一股興建大學(xué)城或者高教園區(qū)的熱潮，這一方面標(biāo)志著我國高等教育從精英教育向大眾化教育的轉(zhuǎn)變；另一方面也提高了高等教育的辦學(xué)效益，優(yōu)化了教育資源的合理配置。大學(xué)城或者高教園區(qū)通常是由一所或多所大學(xué)為核心，整合其他高校后形成具有整體功能、擴(kuò)散效益的高素質(zhì)人才教育社區(qū)，園區(qū)內(nèi)各高校既獨(dú)立辦學(xué)又合作共享。

隨著網(wǎng)絡(luò)和計(jì)算機(jī)技術(shù)的蓬勃發(fā)展，文獻(xiàn)信息資源的傳播載體和渠道日益多樣化，利用成本和難度也相應(yīng)增加。大學(xué)城和高教園區(qū)的建設(shè)，在地域環(huán)境和管理體制上為文獻(xiàn)信息資源的共建共享提供了有利條件。而高校圖書館集中了高校教學(xué)與科研所需的絕大部分學(xué)術(shù)資源與文獻(xiàn)信息資源，是主要的信息資源集散地。如何有效地利用自動(dòng)化、數(shù)字化、網(wǎng)絡(luò)化的高科技工具和資源，提高文獻(xiàn)信息資源的共享率，是當(dāng)前高教園區(qū)圖書館建設(shè)中面臨的一個(gè)重大問題，是亟待解決并將產(chǎn)生社會(huì)效益的新課題。

1 信息資源共建共享存在的問題

高教園區(qū)圖書館信息資源共建共享是指各高校圖書館利用園區(qū)的地域和環(huán)境優(yōu)勢，本著“優(yōu)勢互補(bǔ)、互通有無”的理念，在資源建設(shè)、管理和利用等方面進(jìn)行合作，從而達(dá)到以較少較合理地投入而能更全面、有效地為園區(qū)內(nèi)所有師生提供信息資源服務(wù)，以保障教學(xué)和科研的信息需求。

目前，大多數(shù)城市的高教園區(qū)還處在建設(shè)與完善階段，園區(qū)內(nèi)各學(xué)校圖書館的信息資源共建共享模式還在探討與實(shí)踐過程中，歸納起來，主要存在以下幾個(gè)亟待解決的問題：1.1 管理體制問題。隨著我國高等教育改革的深入，現(xiàn)階段各高校面臨著各種各樣的壓力與挑戰(zhàn)，比如教育部組織的本科教學(xué)評估等，對各高校的文獻(xiàn)資源都有硬性規(guī)定，如果沒有滿足這些條件，將對各高校產(chǎn)生極大的影響，包括學(xué)校的地位和知名度、教育部或地方政府的經(jīng)費(fèi)投入額度、學(xué)生招生人數(shù)等等，因此在現(xiàn)行條件下讓各高校完全放棄自己長期形成的館藏是不太現(xiàn)實(shí)的。

1.2 觀念意識(shí)問題。長期以來各高校圖書館由于受傳統(tǒng)圖書館“以藏為主”思想的影響，基本采取自給自足的“農(nóng)耕式”文獻(xiàn)資源建設(shè)方式，造成了“只希望共享而不愿意共建”的不合理現(xiàn)象，資源共建意識(shí)淡薄，只重視本單位文獻(xiàn)信息資源的建設(shè)與發(fā)展，而忽視園區(qū)整體上的協(xié)調(diào)與合作。

1.3 組織協(xié)調(diào)問題?？v觀溫州地區(qū)的高教園區(qū)，雖然各高校處于同一個(gè)地域，但各高校行政隸屬不盡相同，又缺乏一個(gè)權(quán)威性的組織機(jī)構(gòu)進(jìn)行總體的宏觀管理和統(tǒng)籌規(guī)劃，使得校際之間缺乏有效的溝通與協(xié)調(diào)，反映在文獻(xiàn)信息資源共建共享上就是“各自為政，重復(fù)建設(shè)”。

1.4 標(biāo)準(zhǔn)規(guī)范問題。當(dāng)前，我國圖書館文獻(xiàn)信息資源的標(biāo)準(zhǔn)化和規(guī)范化進(jìn)程緩慢，缺乏全國統(tǒng)一的分類、著錄、標(biāo)引和檢索標(biāo)準(zhǔn)以及計(jì)算機(jī)系統(tǒng)規(guī)劃，各館根據(jù)自身發(fā)展的需要購置了不同的自動(dòng)化系統(tǒng)，導(dǎo)致各單位、各系統(tǒng)之間的數(shù)據(jù)資源難以共享。同時(shí)，各高校圖書館受到經(jīng)費(fèi)、人員、技術(shù)等各種客觀條件的影響和制約，自動(dòng)化的程度和規(guī)模也相差很大，很難組織起區(qū)域性的系統(tǒng)間網(wǎng)絡(luò)信息服務(wù)。

2 數(shù)據(jù)挖掘的概念

數(shù)據(jù)挖掘（DataMining，DM）是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他各種信息庫中的大量數(shù)據(jù)中發(fā)現(xiàn)有趣知識(shí)的過程，是知識(shí)發(fā)現(xiàn)過程的一個(gè)基本步驟。簡而言之，數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。它融合了信息檢索、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)可視化以及數(shù)據(jù)庫技術(shù)等多個(gè)領(lǐng)域的理論和技術(shù)，是信息技術(shù)產(chǎn)業(yè)最有發(fā)展前途的交叉學(xué)科之一。

數(shù)據(jù)挖掘任務(wù)可分為兩類：描述和預(yù)測。描述性挖掘是指描述要挖掘數(shù)據(jù)的一般性質(zhì)及“可信性”度量。預(yù)測性挖掘是指通過對當(dāng)前數(shù)據(jù)進(jìn)行推斷與分析，以作出預(yù)測及可行性度量。

數(shù)據(jù)挖掘的原始數(shù)據(jù)既可以是結(jié)構(gòu)化的，如對象——關(guān)系數(shù)據(jù)庫和面向特殊應(yīng)用的數(shù)據(jù)庫；也可以是半結(jié)構(gòu)化的，如文本、圖形、圖像及多媒體數(shù)據(jù)庫；還可以是非結(jié)構(gòu)化的，如萬維網(wǎng)或局域網(wǎng)上的新聞、郵件、文件、Web日志等。

數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知、可實(shí)用和多檢索這3個(gè)特征：①“先未知”性是指該信息是事先未曾預(yù)料到的，或者僅有模糊印象的，即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的甚至是違背直覺的信息或知識(shí)。②“可實(shí)用”性是指該信息可以給人們的某種決策提供相對有用的參考與建議，也有可能與原先決策相反。③“多檢索”是指該信息有一定的表達(dá)模式和用戶界面，可供個(gè)人或機(jī)構(gòu)多方面自由檢索。

數(shù)據(jù)挖掘所用的數(shù)據(jù)分析方法可粗分為統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、模式識(shí)別和數(shù)據(jù)倉庫等5種方法。其中應(yīng)用很廣泛的是關(guān)聯(lián)規(guī)則分析法和決策樹分析法以及基于密度的方法。復(fù)雜的數(shù)據(jù)挖掘系統(tǒng)通常采用多種數(shù)據(jù)分析方法，結(jié)合各方法的優(yōu)缺點(diǎn)，以達(dá)到最大限度最準(zhǔn)預(yù)測地發(fā)現(xiàn)知識(shí)。

3 基于數(shù)據(jù)挖掘技術(shù)的高教園區(qū)信息資源共建共享

基于數(shù)據(jù)挖掘技術(shù)的高教園區(qū)信息資源共建共享即以圖書館自動(dòng)化集成系統(tǒng)為基礎(chǔ)，以讀者使用數(shù)據(jù)以及其他網(wǎng)絡(luò)相關(guān)數(shù)據(jù)為研究對象，將這些原始數(shù)據(jù)提取并集成化，然后建立模型進(jìn)行加工和分析，挖掘出潛在的、有用的、可理解的信息和知識(shí)，用來指導(dǎo)圖書館日常工作及決策工作。

信息資源共建共享的基礎(chǔ)和前提是“共建”，只有園區(qū)各高校全心全意地參與信息資源共建，才能更有效地實(shí)現(xiàn)資源“共享”，否則到頭來只會(huì)是一句空話。信息資源的共建，牽涉到園區(qū)各高校的自身利益，沒有哪所大學(xué)能接受“不公平”的共建，也沒有哪所大學(xué)能無私地共建，而數(shù)據(jù)挖掘技術(shù)可以對各高校讀者的使用情況及分類資源的利用率作出預(yù)測和評估，以堅(jiān)強(qiáng)的數(shù)據(jù)基礎(chǔ)為各高校在資源共建上的決策提供支持與參考。

用此方法來處理信息，易于綜合分析讀者的使用情況，對圖書館信息資源共建共享模式的有效建立有指導(dǎo)意義。在實(shí)際應(yīng)用中，圖書館采用數(shù)據(jù)挖掘技術(shù)的目的是搜集、分析高教園區(qū)各高校文獻(xiàn)資源的利用情報(bào)，并把每個(gè)高校的情報(bào)綜合起來，然后采取統(tǒng)計(jì)分析、技術(shù)群組、文本挖掘、組合理論等技術(shù)，對其進(jìn)行綜合分析及評估，并以統(tǒng)計(jì)圖譜、關(guān)聯(lián)圖譜和技術(shù)報(bào)告等形式展現(xiàn)出來。

數(shù)據(jù)挖掘一般需要經(jīng)歷以下6個(gè)階段：原始數(shù)據(jù)提取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)整合、建立分析模型、數(shù)據(jù)挖掘操作、知識(shí)表達(dá)和解釋，如圖1所示。

現(xiàn)階段，高教園區(qū)文獻(xiàn)信息資源共建共享采用的較為合理的做法是：以各高校圖書館本身具有的館藏為基礎(chǔ)，各館對今后新收藏的文獻(xiàn)信息資源實(shí)行統(tǒng)一采購、統(tǒng)一加工和統(tǒng)一配置。各成員館要統(tǒng)籌規(guī)劃，分類收藏相關(guān)文獻(xiàn)，重點(diǎn)收藏本校重點(diǎn)學(xué)科及重點(diǎn)發(fā)展學(xué)科的文獻(xiàn)，在經(jīng)費(fèi)允許的情況下，適當(dāng)收藏本校師生使用率較高的非專業(yè)文獻(xiàn)，以達(dá)到較高的經(jīng)費(fèi)使用性價(jià)比和共享滿足程度。

3.1 原始數(shù)據(jù)提取。以各高校圖書館自動(dòng)化集成系統(tǒng)的數(shù)據(jù)作為主要數(shù)據(jù)源，輔之以數(shù)據(jù)庫使用數(shù)據(jù)及Web頁面、文本等其他類型的數(shù)據(jù)，這是數(shù)據(jù)挖掘技術(shù)的前提。

3.2 數(shù)據(jù)預(yù)處理。原始數(shù)據(jù)由于其本身的復(fù)雜性及無關(guān)聯(lián)性，并不能被直接使用，否則數(shù)據(jù)挖掘得到的分析結(jié)果質(zhì)量將難以得到保障，所以數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘的必要環(huán)節(jié)。數(shù)據(jù)預(yù)處理主要是處理數(shù)據(jù)中的遺漏，避免有噪音數(shù)據(jù)、空缺數(shù)據(jù)和不一致數(shù)據(jù)的侵?jǐn)_，并對臟數(shù)據(jù)進(jìn)行清洗。

3.3 數(shù)據(jù)整合。與傳統(tǒng)的分析方法相比，數(shù)據(jù)挖掘技術(shù)是一種更高級的分析過程。而未經(jīng)預(yù)處理過的數(shù)據(jù)，并不能直接使用，必須通過各種轉(zhuǎn)換方法轉(zhuǎn)換成數(shù)據(jù)挖掘可以使用的有效數(shù)據(jù)形式。數(shù)據(jù)整合就是根據(jù)分析需求，通過算法將原始數(shù)據(jù)預(yù)處理后形成的新數(shù)據(jù)經(jīng)過融合和集成，重新構(gòu)建一個(gè)數(shù)據(jù)全面、準(zhǔn)確而又合乎分析需求的數(shù)據(jù)庫過程。在此基礎(chǔ)上，再對數(shù)據(jù)進(jìn)行分析處理，得到結(jié)果的分析層次及質(zhì)量將大大提高。

3.4 建立分析模型。數(shù)據(jù)經(jīng)過整合后，就是用數(shù)據(jù)挖掘工具讀入數(shù)據(jù)并從中構(gòu)造出一個(gè)有效的分析模型，并在數(shù)據(jù)集中選出部分?jǐn)?shù)據(jù)對模型進(jìn)行測試驗(yàn)證，根據(jù)驗(yàn)證結(jié)果對模型進(jìn)行評估，反復(fù)對模型進(jìn)行修改，直至找到最有利于此種數(shù)據(jù)挖掘的模型。分析模型類型各異，根據(jù)所用數(shù)據(jù)挖掘工具的不同，也會(huì)有很大的差別。

3.5 數(shù)據(jù)挖掘操作。做好上述準(zhǔn)備工作后，將進(jìn)入最重要的一環(huán)：利用選好的數(shù)據(jù)挖掘工具在數(shù)據(jù)中挖掘知識(shí)。這個(gè)過程可以自動(dòng)化，由系統(tǒng)根據(jù)數(shù)據(jù)自行發(fā)現(xiàn)它們之間的某種聯(lián)系；也可以人工化，加入用戶交互過程，根據(jù)分析人員的假設(shè)，搜索數(shù)據(jù)來驗(yàn)證假設(shè)的正確性。

3.5.1 館藏量與學(xué)科分類關(guān)系（如圖2所示）。在保持各高校原有館藏不變的情況下，圖書館新館藏要與本校的學(xué)科設(shè)置相關(guān)聯(lián)。

3.5.2 讀者興趣點(diǎn)分析。學(xué)科館藏是各高校圖書館的立館之本，各館都在各自的范圍內(nèi)盡量多藏，以滿足師生的學(xué)科需求。在此基礎(chǔ)上，各高校讀者的興趣愛好也不盡相同，可根據(jù)挖掘出的信息配置相應(yīng)的館藏。

3.5.3 讀者借閱規(guī)律分析。高校讀者的圖書借閱都有一個(gè)時(shí)間段，如果是學(xué)科圖書，讀者會(huì)集中在某個(gè)時(shí)間來借閱，這就要進(jìn)行分析，才能進(jìn)行最佳調(diào)配。如在一定時(shí)間段可從其他高校“借用”某種或某類館藏，以滿足讀者的臨時(shí)需求。

3.5.4 借閱習(xí)慣關(guān)聯(lián)分析（如表1所示）。目的是找出各高校讀者中隱藏的有趣的閱讀習(xí)慣關(guān)聯(lián)網(wǎng)，用來指導(dǎo)資源共建工作，重點(diǎn)配置讀者感興趣的圖書，以有限的經(jīng)費(fèi)發(fā)揮最大的功用。具體操作方法包括關(guān)聯(lián)矩陣和關(guān)聯(lián)圖。

表1 讀者對某些圖書需求的最優(yōu)模糊矩陣

3.6 知識(shí)表達(dá)和解釋。根據(jù)最終用戶的決策目標(biāo)，將分析結(jié)果以用戶容易理解的方式（圖和表）把挖掘到的最有價(jià)值的知識(shí)呈現(xiàn)出來，并且提交給圖書館決策者和個(gè)人，使之可以洞察讀者的動(dòng)態(tài)，為圖書館日常業(yè)務(wù)工作提供參考。

4 結(jié)束語

數(shù)據(jù)挖掘技術(shù)是一種決策支持過程，它主要基于人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù)，在各個(gè)領(lǐng)域得到了廣泛應(yīng)用，取得了很好的社會(huì)效益。筆者將數(shù)據(jù)挖掘技術(shù)引入高教園區(qū)信息資源共建共享過程當(dāng)中，從各種不同的數(shù)據(jù)來源中，挖掘出有用的知識(shí)，使之幫助圖書館決策者調(diào)整館藏策略，有效地進(jìn)行資源共建，更好地實(shí)現(xiàn)資源共享。但是任何一種方法都不可能解決所有問題，基于數(shù)據(jù)挖掘技術(shù)的高教園區(qū)信息資源共建共享的方法還存在著一定的難題和局限，還有待進(jìn)一步研究。

[1] 魯黎明.高教園區(qū)文獻(xiàn)信息資源共建共享模式研探.圖書館理論與實(shí)踐，2005（2）：91-92.

[2] 金勝勇，于淼.基于共建共享的文獻(xiàn)信息資源建設(shè)理論構(gòu)建.中國圖書館學(xué)報(bào)，2006（4）：72-75.

[3] 黃修齡.大學(xué)城環(huán)境下圖書館信息資源建設(shè)的理念與實(shí)踐模式.圖書情報(bào)知識(shí)，2004（1）：45-46.

[4] 羅玉英.大學(xué)城圖書館實(shí)現(xiàn)資源共建共享的對策.圖書館雜志，2006（10）：50-51.

[5] 危薇，陳如好.試論大學(xué)城高校文獻(xiàn)信息資源共建共享體系的功能與模式.情報(bào)探索，2007（4）：34-36.

[6] 王桂芹，黃道.數(shù)據(jù)挖掘技術(shù)綜述.電腦應(yīng)用技術(shù)，2007（2）：9-14.

[7]JiaweiHan，MichelineKamber.數(shù)據(jù)挖掘:概念與技術(shù).北京：機(jī)械工業(yè)出版社，2007.

[8] 高巨山，仲偉佇.高校數(shù)字圖書館構(gòu)建中的數(shù)據(jù)挖掘應(yīng)用研究.中國教育信息化，2008（3）：81-82.

[9] 潘小楓.數(shù)據(jù)挖掘技術(shù)及其在數(shù)字圖書館建設(shè)中的運(yùn)用.圖書館理論與實(shí)踐，2006（4）：105-106.

[10] 牛根義.國內(nèi)圖書館數(shù)據(jù)挖掘研究.現(xiàn)代情報(bào)，2009（1）：128-133.