隨著計算機技術(shù)和信息技術(shù)的發(fā)展,信息產(chǎn)生的渠道越來越多,信息更新的頻率日益加快,在“數(shù)據(jù)過剩”和“信息爆炸”的同時,人們正被信息淹沒,卻饑渴于有用信息的提取。面對浩渺無際的數(shù)據(jù)海洋,人們迫切需要一種能夠從海量的數(shù)據(jù)中提取有價值知識和信息的技術(shù),基于人工智能的數(shù)據(jù)挖掘技術(shù)便應(yīng)運而生,并被廣泛應(yīng)用。
一、數(shù)據(jù)挖掘技術(shù)
1、數(shù)據(jù)挖掘
所謂數(shù)據(jù)挖掘(Data Mining,簡稱DM),是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。數(shù)據(jù)挖掘是數(shù)據(jù)庫知識發(fā)現(xiàn)(KnowledgeDicoveryinDtabases,簡稱KDD)中的重要技術(shù),它通過對查詢內(nèi)容進行模式的總結(jié)和內(nèi)在規(guī)律的搜索,幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進而預(yù)測未來可能發(fā)生的行為,從而為決策行為提供有利的支持,很多人又將其稱為數(shù)據(jù)淘金。
數(shù)據(jù)挖掘是面向數(shù)值數(shù)據(jù)的挖掘,其功能主要有:(1)自動預(yù)測趨勢和行為。數(shù)據(jù)挖掘自動在大型數(shù)據(jù)中尋找預(yù)測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。(2)關(guān)聯(lián)分析。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識,若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。(3)聚類。數(shù)據(jù)庫中的記錄可被劃分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現(xiàn)實的認(rèn)識,是概念描述和偏差分析的先決條件。(4)概念描述。概念描述就是對某對象的內(nèi)涵進行描述,并概括這類對象的有關(guān)特征,分為特征性描述和區(qū)別性描述。(5)偏差檢測。數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,偏差檢測的基本方法是尋找觀測結(jié)果與參照值之間有意義的差別。
2、Web挖掘
Web挖掘是一項綜合技術(shù),涉及Web、數(shù)據(jù)挖掘、計算機語言學(xué)、信息學(xué)等多個領(lǐng)域。Web挖掘就是從Web文檔、Web活動中抽取感興趣的、潛在的有用模式和隱藏信息。它反復(fù)使用多種數(shù)據(jù)挖掘算法,從觀測數(shù)據(jù)中確定模式或合理模型,也是將數(shù)據(jù)挖掘技術(shù)和理論應(yīng)用于對Web資源進行挖掘的一個新興的研究領(lǐng)域。Web挖掘的處理流程為查找資源、信息選擇和預(yù)處理、模式發(fā)現(xiàn)、模式分析。
Web挖掘可以分為三類0:(1)Web內(nèi)容挖掘。Web內(nèi)容挖掘是從文檔內(nèi)容或其描述中抽取知識的過程。Web內(nèi)容挖掘有兩種策略:一種是直接挖掘文件的內(nèi)容,另一種是在其他工具搜索的基礎(chǔ)上進行改進。(2)Web結(jié)構(gòu)挖掘。Web結(jié)構(gòu)挖掘是從Web的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識。由于文檔之間的互連Web能夠提供除文檔內(nèi)容之外的有用信息,利用這些信息,可以對頁面進行排序發(fā)現(xiàn)重要頁面。(3)Web使用記錄的挖掘。Web使用挖掘就是對用戶訪問Web時在服務(wù)器留下的訪問記錄進行挖掘,其主要目標(biāo)是從Web的訪問記錄中抽取感興趣的模式。Web中每個服務(wù)器保留了訪問日志,記錄關(guān)于用戶訪問和交互的信息。分析這些數(shù)據(jù)可以幫助理解用戶的行為從而改進站點的結(jié)構(gòu),或為用戶提供個性化的服務(wù)。
二、數(shù)據(jù)挖掘技術(shù)在檔案編研選題中的應(yīng)用
選題是依據(jù)編纂的材料基礎(chǔ)和用戶的利用需求來確定編纂題目的工作。在數(shù)據(jù)挖掘技術(shù)出現(xiàn)之前,檔案編研部門要了解社會用戶對檔案文獻(xiàn)信息的現(xiàn)實的與潛在的需求,只有通過用戶抽樣調(diào)查或者借閱數(shù)據(jù)的抽樣統(tǒng)計來進行,既費時費力,也分析的不夠全面具體。有了數(shù)據(jù)挖掘技術(shù)以后,可以利用檔案館的信息管理系統(tǒng)中的用戶借閱數(shù)據(jù)進行分析統(tǒng)計,可以利用用戶經(jīng)常訪問的網(wǎng)頁進行分析、挖掘,了解到用戶的興趣愛好、研究方向,預(yù)測用戶需求,從而確定檔案編研的選題。
1、用戶利用檔案的數(shù)據(jù)挖掘
檔案用戶需求調(diào)研是檔案編研選題成功與否的關(guān)鍵因素之一。它是指通過一定的方式與方法,在深入調(diào)查、掌握檔案用戶利用需求情況的基礎(chǔ)上,揭示各類用戶的需求特點與規(guī)律的一項業(yè)務(wù)活動。一般而言,檔案館在日常的檔案利用服務(wù)中所積累的利用統(tǒng)計數(shù)據(jù),可比較準(zhǔn)確地揭示某一時期社會檔案信息需求的動向。
檔案利用統(tǒng)計的具體指標(biāo)主要包括檔案調(diào)卷數(shù)量、檔案利用次數(shù)、復(fù)制檔案數(shù)量、制發(fā)檔案證明數(shù)量等。數(shù)據(jù)挖掘自動在檔案館的信息數(shù)據(jù)庫中尋找用戶利用檔案的所有數(shù)據(jù),對搜集到的數(shù)據(jù)進行聚類,利用聚類結(jié)果對不同的用戶賦以不同的類標(biāo)記,然后利用分類功能,對用戶特征進行建模,挖掘出不同類的用戶的不同特征。檔案編研部門可以針對不同用戶提供個性化服務(wù),按需確定不同類型的編研題目。只有這樣,檔案編研選題才能貼近社會、貼近公眾,編研產(chǎn)品才會被廣大用戶所認(rèn)可和歡迎,檔案編研的效果與價值才能真正的以用戶利用的效益方式體現(xiàn)出來。
2、用戶訪問記錄的Web使用挖掘
由于網(wǎng)絡(luò)速度和計算機軟硬件處理能力的大大提高,使得服務(wù)器可以在檔案用戶訪問網(wǎng)站的同時記錄用戶訪問信息。具體做法是:在檔案館網(wǎng)頁設(shè)計時,對各鏈接對象進行設(shè)置,當(dāng)用戶訪問該鏈接對象時,系統(tǒng)自動將用戶的信息和訪問對象的信息實時傳遞到服務(wù)器端的用戶訪問記錄文件中,然后結(jié)合歷史數(shù)據(jù)和客戶實時訪問的信息進行數(shù)據(jù)挖掘,采用分析網(wǎng)頁關(guān)鍵字、下載記錄、檢索詞、用戶對網(wǎng)頁利用時間和頻度等方式獲取用戶需求信息。
用戶使用記錄挖掘主要是對服務(wù)器日志、Cookie、用戶注冊數(shù)據(jù)、電子郵件查詢響應(yīng)數(shù)據(jù)及Web購買數(shù)據(jù)的挖掘。目前,使用記錄挖掘可分為兩大類:訪問模式的追蹤和個性化使用記錄的追蹤。其中個性化的使用記錄追蹤傾向于分析個別用戶的偏好,其目的是根據(jù)不同用戶的訪問模式,提供相應(yīng)的定制服務(wù)。檔案編研部門通過對用戶訪問記錄的挖掘,在數(shù)字對象和用戶、對象分類和主題之間進行模式匹配,采用不同挖掘技術(shù)如基于業(yè)務(wù)聚類、使用聚類和聯(lián)合規(guī)則來自動提取信息,通過數(shù)據(jù)分析,了解和掌握檔案用戶需求的特點,預(yù)測其未來趨向,結(jié)合社會熱點選定檔案編研題目。
3、建立檔案編研選題的用戶模型
(1)問題定義
問題定義是數(shù)據(jù)挖掘中的第一步,也是最重要的的一步,即對挖掘的目標(biāo)作一個清楚的定義。具體來說,就是通過分析檔案館服務(wù)器的日志數(shù)據(jù)、用戶檢索結(jié)果等,來挖掘出檔案用戶的使用模式和興趣模式,從而使檔案編研部門可以利用這些搜集到的信息有針對性地、有目的性地組織選題,進行編研工作,推出用戶滿意的編研成果。這樣即可以有效地克服出版發(fā)行者的盲目性,改變目前存在的某種程度的供需失調(diào)的狀況,真正根據(jù)用戶的需求來出版檔案文獻(xiàn)編纂成果,從而避免了因為不了解社會的實際需要而造成的過量出版和需求短缺。
(2)建立挖掘數(shù)據(jù)庫
挖掘數(shù)據(jù)庫是一個儲存待挖掘數(shù)據(jù)的數(shù)據(jù)庫。檔案館的服務(wù)器日志數(shù)據(jù)和檔案用戶的注冊信息等,都是挖掘數(shù)據(jù)庫的數(shù)據(jù)源。在數(shù)據(jù)寫人挖掘數(shù)據(jù)庫前,要先對數(shù)據(jù)源的數(shù)據(jù)進行篩選和整合,包括修改錯誤的記錄、刪除不相關(guān)的記錄等;通過處理后的數(shù)據(jù)就成為挖掘的數(shù)據(jù)了。同時,數(shù)據(jù)庫的數(shù)據(jù)需要不斷地進行新增、修改和刪除,以求得到更好的數(shù)據(jù)效果。
(3)分析數(shù)據(jù)
在挖掘數(shù)據(jù)庫建立之后,就要對數(shù)據(jù)庫中的數(shù)據(jù)進行分析處理:首先根據(jù)檔案用戶ID劃分?jǐn)?shù)據(jù),找到每個用戶的訪問記錄集;然后將該用戶的訪問記錄集以一個固定的時間間隔進行分割,找到該用戶的每一次訪問記錄集(我們稱這個每一次訪問記錄集為一個“訪問事務(wù)”);最后,將所有的訪問事務(wù)按時間排序,構(gòu)成進行挖掘的事務(wù)集。每一個訪問事務(wù)相當(dāng)于訪問者對站點的一條訪問路徑。另外,還需把網(wǎng)頁中的文本、圖片及其他文件轉(zhuǎn)換成數(shù)據(jù)挖掘算法的可用形式。
(4)建立模型
建立模型之前需要進行數(shù)據(jù)準(zhǔn)備工作,包括選擇預(yù)測變量、記錄,創(chuàng)建新變量和轉(zhuǎn)換變量。選擇適當(dāng)?shù)淖兞亢陀涗浤艽蟠筇岣吣P偷慕⑿?。在多?shù)情況下,我們還需創(chuàng)建一些新的預(yù)測變量(比如一些比值),以增加預(yù)測模型的準(zhǔn)確性;根據(jù)選擇的算法和工具需對變量進行轉(zhuǎn)換。在數(shù)據(jù)挖掘中采用比較多的算法主要有神經(jīng)網(wǎng)絡(luò)和決策數(shù)算法。
建立模型是個反復(fù)尋求最佳模型的過程。我們把挖掘數(shù)據(jù)庫分成兩部分:一部分用來進行模型訓(xùn)練,另一部分用來測試模型。我們首先利用訓(xùn)練集建立一個用戶模型,然后用測試集對模型進行測試;根據(jù)測試結(jié)果,對訓(xùn)練數(shù)據(jù)進行一些修改或新建預(yù)測變量,再生成新的用戶模型。建立新的用戶模型可以使用與上次一樣的算法,也可以取用其他算法建模。最后,從建立的幾個用戶模型中選擇一個最有效的模型。
(5)評價和解釋
檔案用戶模型建好后,需評價其實用性和有效性,解釋其價值。我們可從原始信息數(shù)據(jù)庫中拿出一定百分比的數(shù)據(jù)作為測試數(shù)據(jù),對建立的模型進行測試。通過對模型給出的結(jié)果和原始數(shù)據(jù)信息進行比較,測量出模型的準(zhǔn)確率。若準(zhǔn)確率高于既定的標(biāo)準(zhǔn),就認(rèn)為這個模型是有效的;若低于既定標(biāo)準(zhǔn),則需找出錯誤原因,并重新進行挖掘。