亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

淺析數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書館的應用

2012-08-15 00:46:01范春玲

黑龍江史志 2012年21期

范春玲

（黑龍江省圖書館黑龍江哈爾濱 150090）

引言

計算機和互聯(lián)網(wǎng)的飛速發(fā)展和普及，給全世界帶來了巨大的信息化浪潮。信息量迅速、持續(xù)的增長給人們帶來方便的同時也帶來了困惑和煩惱，海量的數(shù)據(jù)已遠遠超過人類的處理和分析理解能力，同時信息真假的辨識、安全性的保證以及格式的統(tǒng)一問題也是人們面臨的一個挑戰(zhàn)。于是，數(shù)據(jù)挖掘技術(shù)應運而生，而數(shù)字圖書館作為信息管理和服務的主要機構(gòu)，同樣也積累了大量的信息而且也要面對使用中的各種問題，數(shù)據(jù)挖掘技術(shù)的應用可以為數(shù)字圖書館的業(yè)務工作和管理工作提供可靠的決策依據(jù)，也必將對圖書館其他方面的工作產(chǎn)生深遠的影響。

一、數(shù)據(jù)挖掘技術(shù)概述

數(shù)據(jù)挖掘是一門不斷快速發(fā)展的綜合性交叉學科，其興起于20世紀80年代末期。數(shù)據(jù)挖掘理論匯聚了數(shù)據(jù)庫、可視化、并行計算等方面的技術(shù)，集統(tǒng)計學、人工智能、模式識別、計算機科學、機器學習等多門學科理論知識為一體。其在多個領(lǐng)域都有所應用。

（一）數(shù)據(jù)挖掘定義

所謂數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。我們知道知識發(fā)現(xiàn)(Knowledge Discovery in Databases，KDD)是一個能從大型的數(shù)據(jù)庫中自動地和智能地抽取一些有用的、可信的、有效的和可以理解的模式的過程。而數(shù)據(jù)挖掘(Data Mining，DM)是KDD的一個處理過程，也是KDD的最重要環(huán)節(jié)。數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報表、聯(lián)機應用分析)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設的前提下去挖掘信息、發(fā)現(xiàn)知識。

（二）數(shù)據(jù)挖掘的任務

數(shù)據(jù)挖掘任務分描述性數(shù)據(jù)挖掘和推斷性數(shù)據(jù)挖掘兩大類。和統(tǒng)計學原理相似，描述性數(shù)據(jù)挖掘的任務是描述數(shù)據(jù)的一般特征，推斷性數(shù)據(jù)挖掘的任務試圖基于提供的數(shù)據(jù)做預測。目前基于數(shù)據(jù)挖掘功能所能發(fā)現(xiàn)的各種知識主要包括特征化描述、判別分析、關(guān)聯(lián)分析、數(shù)據(jù)分類、預測、聚類、孤立點分析、偏差分析等。通常，人們對他們所能發(fā)現(xiàn)的各種模式或者是需要從手頭數(shù)據(jù)來發(fā)現(xiàn)模式?jīng)]有一個清晰的思路，因此，必須要有一個通用的數(shù)據(jù)挖掘系統(tǒng)用來發(fā)現(xiàn)各種知識以及不同抽象層次的知識，這也使得交互性成為數(shù)據(jù)挖掘系統(tǒng)的一個重要特征。

（三）數(shù)據(jù)挖掘的基本步驟

數(shù)據(jù)挖掘的步驟會隨應用的領(lǐng)域不同而有所不同，每一種數(shù)據(jù)挖掘技術(shù)也都有各自的特性和使用步驟，所以針對不同問題和需求所制定的數(shù)據(jù)挖掘過程也會存在各種差異。另外，數(shù)據(jù)的完整程度、專業(yè)人員支持的程度等都會對建立數(shù)據(jù)挖掘過程有所影響。這些因素造成了數(shù)據(jù)挖掘在各不同領(lǐng)域中的運用、規(guī)劃，以及流程的差異性，即使同一產(chǎn)業(yè)，也會因為分析技術(shù)和專業(yè)知識的涉入程度不同而有所不同，因此對于數(shù)據(jù)挖掘過程的系統(tǒng)化、標準化就顯得格外重要。因為這樣，不僅可以較容易地跨領(lǐng)域應用，也可以結(jié)合不同的專業(yè)知識，發(fā)揮數(shù)據(jù)挖掘的真正精神。通常數(shù)據(jù)挖掘完整的步驟如下：1.理解數(shù)據(jù)和數(shù)據(jù)的來源。2.獲取相關(guān)知識與技術(shù)。3.整合與檢查數(shù)據(jù)。4.去除錯誤或不一致的數(shù)據(jù)。5.建立模型和假設。6.實際數(shù)據(jù)挖掘工作。7.測試和驗證挖掘結(jié)果。8.解釋和應用。由此可以看出，數(shù)據(jù)挖掘牽涉了大量的準備工作與規(guī)劃工作，其中包括數(shù)據(jù)的凈化、數(shù)據(jù)格式轉(zhuǎn)換、變量整合，以及數(shù)據(jù)表的鏈接等。

（四）數(shù)據(jù)挖掘的方法

在整個數(shù)據(jù)挖掘過程中，第6步是數(shù)據(jù)挖掘的實施階段，即根據(jù)目標任務的數(shù)據(jù)類型等選取相應的數(shù)據(jù)挖掘算法并進行挖掘。而數(shù)據(jù)挖掘的方法由人工智能和機器學習的方法發(fā)展而來，人們結(jié)合傳統(tǒng)的統(tǒng)計分析法、模糊數(shù)學方法以及科學計算可視化技術(shù)，以數(shù)據(jù)庫為研究對象，最終形成數(shù)據(jù)挖掘的方法。目前業(yè)界比較認可以下6種方法：1.統(tǒng)計分析方法：利用統(tǒng)計學原理對數(shù)據(jù)庫中的數(shù)據(jù)進行分析，能得到各種不同的統(tǒng)計信息和知識，作為數(shù)據(jù)挖掘的一大類方法，包括：常用統(tǒng)計、相關(guān)分析、回歸分析、差異分析、聚類分析、判斷分析。2.歸納學習方法：從采用的技術(shù)角度上可分為兩大類，信息論方法和集合論方法。信息論方法是利用信息論的原理建立決策樹。3.模糊數(shù)學方法：模糊性是客觀存在的，而當系統(tǒng)的復雜性越高，其精度的復雜性就會越高，其精確化能力便越低，這就意味著模糊性越強。利用模糊集合理論進行數(shù)據(jù)挖掘的方法有：模糊模式識別、模糊聚類、模糊分類和模糊關(guān)聯(lián)規(guī)則等。4.仿生物技術(shù)：典型的方法是神經(jīng)網(wǎng)絡方法和遺傳算法。5.公式發(fā)現(xiàn)：在工程和科學數(shù)據(jù)庫中對若干數(shù)據(jù)項進行一定的數(shù)學運算的相應的數(shù)學公式。6.可視化技術(shù)：是一種圖形顯示技術(shù)。例如，把數(shù)據(jù)庫中多維數(shù)據(jù)變成多種圖形。

二、數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書館中的應用

目前數(shù)據(jù)挖掘技術(shù)已經(jīng)形成相對成熟的技術(shù)體系，其在數(shù)據(jù)組織與分析、數(shù)據(jù)挖掘、知識發(fā)現(xiàn)等方面存在巨大潛力。因此數(shù)據(jù)挖掘除了可以為數(shù)字圖書館的建設提供關(guān)鍵技術(shù)外，還可以實現(xiàn)海量數(shù)據(jù)的存儲和利用，提取出表面上龐雜無序而有內(nèi)在聯(lián)系的信息供讀者使用。也可以指導圖書館的業(yè)務工作與管理決策，通過對用戶數(shù)據(jù)的分析，可以得到用戶的需求和興趣信息，從而滿足信息時代讀者的需要。

（一）數(shù)據(jù)挖掘為數(shù)字圖書館的個性化服務打下基礎(chǔ)

收集讀者有關(guān)的信息,建立讀者信息庫。讀者是數(shù)字圖書館的重要資源,一個信息完整的讀者信息庫,能保證在充分挖掘的基礎(chǔ)上,了解讀者的普遍性需求與特殊性需求,從而開展有針對性的個性化服務。通過對讀者訪問日志記錄信息的挖掘,把握讀者興趣,有助于開展網(wǎng)絡信息推送服務以及個人信息的定制服務。數(shù)據(jù)挖掘從全局出發(fā),以豐富、動態(tài)的聯(lián)機查詢和分析來了解讀者的信息需求。通過在線提問、調(diào)查表等方式,系統(tǒng)可以獲取關(guān)于讀者的用戶名、訪問IP地址、職業(yè)、年齡、愛好等原始信息。然后,采取一定的挖掘規(guī)則(如關(guān)聯(lián)規(guī)則、聯(lián)機分析處理等),對這些數(shù)據(jù)進行融合分析,其結(jié)果是為每個讀者建立一個信息需求模型。根據(jù)讀者需求,主動跟蹤本館數(shù)字資源的變化，收集讀者所需信息。同時還可以利用智能推送技術(shù)將讀者所需信息推到用戶的計算機、電子信箱和手機上。

（二）數(shù)據(jù)挖掘使數(shù)字圖書館龐大的數(shù)字信息資源檢索成為可能

隨著科技的進步，現(xiàn)在讀者可以在家通過網(wǎng)絡訪問數(shù)字圖書館的資源，而網(wǎng)絡內(nèi)容挖掘是一個從文本、圖像、音頻、視頻、元數(shù)據(jù)等形式的網(wǎng)絡源信息中采用分類、聚類等形式的挖掘方法,發(fā)現(xiàn)有用信息,并將這些信息按滿足某種檢索方式的形式加以組織的過程。通過對網(wǎng)站內(nèi)容的挖掘,主要是對文本內(nèi)容的挖掘,可以有效地組織網(wǎng)絡資源。有的學者應用數(shù)據(jù)和文本挖掘技術(shù)在網(wǎng)絡上進行問題跟蹤,從而獲得了以前未知的有用知識,為信息內(nèi)容分析提供了極大的可能性。

（三）數(shù)據(jù)挖掘是使讀者獲取全而廣的知識信息的保障

數(shù)據(jù)挖掘技術(shù)可以使讀者在具有極度不確定性的海量數(shù)據(jù)中找出信息分布的規(guī)律,挖掘隱藏的信息并形成模型,從而發(fā)現(xiàn)具有規(guī)律性的知識。比較典型的例子是江蘇南通師范學院對重點學科“古代文學”中的楚辭研究專題知識庫開發(fā),他們采用學科專家與學科館員、系統(tǒng)管理員相結(jié)合組成工作組的開發(fā)模式來收集、挖掘與獲取楚辭研究專題信息資源,由于楚辭研究的信息資源浩如煙海,采用人工的方式查詢根本無法達到收全率和知識庫源信息廣度要求,因此采用自動抓取和人工過濾相結(jié)合的方式,利用非結(jié)構(gòu)化的數(shù)據(jù)挖掘技術(shù)以采集和獲取全而廣的楚辭研究知識信息源。

三、結(jié)語

作為能夠從海量信息中挖掘背后知識的新技術(shù)，由于其在數(shù)據(jù)組織、分析和知識發(fā)現(xiàn)及信息深層挖掘等方面體現(xiàn)出的強大優(yōu)勢，且隨著全國數(shù)字圖書館工程的推進，其在圖書館領(lǐng)域的應用前景極為廣闊。而隨著硬件環(huán)境、挖掘算法的改進、應用的普及和經(jīng)驗的積累，數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書館的應用必將取得長足的發(fā)展與進步。