徐 輦
(常州紡織服裝職業(yè)技術(shù)學(xué)院,江蘇 常州 213164)
隨著計算機和互聯(lián)網(wǎng)的不斷發(fā)展,我國已經(jīng)進(jìn)入了信息時代,海量信息的不斷增長,雖然給民眾帶來了便利,但也引發(fā)了許多問題。如今,民眾面臨的主要問題是大量數(shù)據(jù)已經(jīng)超出其日常分析、掌握或處理范疇,存在諸如難以區(qū)分真假信息、難以確保安全性及統(tǒng)一格式等問題。在這種情況下,數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。數(shù)字圖書館是信息管理及服務(wù)的主要組織,它積累了大量的信息,在使用中也存在很多問題。數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書館中的應(yīng)用可以為相關(guān)管理人員提供必要的決策依據(jù),也對其他關(guān)聯(lián)性工作產(chǎn)生直接影響。
數(shù)據(jù)挖掘技術(shù)主要指應(yīng)用大量的數(shù)據(jù)庫信息,充分掌握并分析各類技術(shù)運用模型,從而構(gòu)造數(shù)據(jù)庫,最后形成運用模型。總的說來,數(shù)據(jù)挖掘技術(shù)任務(wù)主要有:(1)開展相關(guān)預(yù)測。(2)對特定對象開展描述。預(yù)測任務(wù)有益于圖書館單位綜合當(dāng)前的信息進(jìn)行日常匯總。[1]描述任務(wù)則有益于發(fā)現(xiàn)工作中存在的其他問題,并及時改善工作方式,從而提升工作效率及工作質(zhì)量。此外,就數(shù)據(jù)挖掘技術(shù)的工作過程而言,主要有以下過程:第一,數(shù)據(jù)的準(zhǔn)備和存儲。對現(xiàn)有數(shù)據(jù)進(jìn)行綜合整理和存儲,為技術(shù)應(yīng)用做好準(zhǔn)備。第二,數(shù)據(jù)挖掘任務(wù)十分明晰,各個單位均有其各自的挖掘需求,因此要預(yù)先明確針對人群的技術(shù)使用需求。第三,創(chuàng)建數(shù)據(jù)模型,可以更加高效地進(jìn)行數(shù)據(jù)分析,以此獲取更加科學(xué)的工作方式。
現(xiàn)階段,圖書館主要模塊有:館藏模塊、日常存儲模塊及閱讀器模塊。隨著當(dāng)前階段信息技術(shù)的飛速發(fā)展,圖書館的各個模塊也能夠有效集合于同一個系統(tǒng)內(nèi),故而每個模塊每天均會產(chǎn)生較多的信息數(shù)據(jù)[2]。按照日常情況明晰模塊最終結(jié)果,對于圖書館內(nèi)不斷提高工作水平具有特定的優(yōu)勢特征。在日常工作中,數(shù)字圖書館的工作發(fā)展也存在一些問題:圖書館資料管理的運用效率低,大部分書籍及文獻(xiàn)使用價值較低,書目及其他資料庫存數(shù)量不足等。圖書館是知識獲取的地域之一,然而在實際工作中,數(shù)字圖書館在此方面的工作遠(yuǎn)遠(yuǎn)低于預(yù)期目標(biāo),對閱讀人員的吸引度不夠。故而,應(yīng)運用數(shù)據(jù)挖掘技術(shù)進(jìn)一步指導(dǎo)數(shù)字圖書館的工作,提升數(shù)字圖書館的服務(wù)水平。
數(shù)字圖書館運用先進(jìn)的信息化技術(shù)滿足使用人員日益增長的信息需求,同時充分運用數(shù)字圖書館提供的信息實現(xiàn)自動化。數(shù)字圖書館作為信息和情報的中心,在實現(xiàn)自動化發(fā)展的同時,其功能也得到了提高。對此,在這一要求的背景下,重中之重便為抓好綜合建設(shè)工作,原因如下:第一,因為圖書館需要處理的信息量大,且涵蓋面廣較。因此,為有效防止由于數(shù)據(jù)豐富但是信息貧乏等問題,必須提高管理人員的信息處理能力,加強其對于海量信息的處理力度,在海量信息中發(fā)現(xiàn)不適宜的信息并進(jìn)行進(jìn)一步處理,理清問題的內(nèi)在聯(lián)系,以滿足用戶的要求。第二,雖然當(dāng)前階段數(shù)字圖書館管理系統(tǒng)已初步具備簡單統(tǒng)計、檢索等性能,然而要想對相關(guān)數(shù)據(jù)進(jìn)行分析,仍然存在問題。尤其是在分析不同的需求時,需要進(jìn)行更多的重復(fù)動作。例如,在流通子系統(tǒng)中,圖書館在對閱讀人員進(jìn)行詳細(xì)分析的前提下,僅以報表的形式展示一定時期的信息,不能具體劃分哪些信息是使用人員經(jīng)常借閱的。因此,如果想再次有效地運用有效數(shù)據(jù),就應(yīng)該充分利用數(shù)據(jù)挖掘技術(shù)。實踐證明,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于數(shù)字圖書館,不但能夠提升數(shù)字圖書館信息資源的運用率,還能夠進(jìn)一步提升其服務(wù)質(zhì)量,滿足管理及借閱使用的需求[3]。
當(dāng)數(shù)據(jù)挖掘?qū)ο髮崿F(xiàn)文本類型的數(shù)字信息組合時,將數(shù)據(jù)挖掘算法和信息檢索算法相結(jié)合以自動分析和處理大量文本信息的過程稱為文本挖掘。文本挖掘包括:特征提取、文本商、文本分類和聚類、概念操作和探索性數(shù)據(jù)分析。文件數(shù)據(jù)挖掘的大部分是數(shù)字圖書館的文本數(shù)據(jù),因此對自動信息處理有很高的要求包括:文檔表達(dá)和索引、自動文本摘要、自動文檔分類等。面對海量信息,文本挖掘技術(shù)彌補了人力和時間的不足,促進(jìn)了數(shù)字圖書館中各種信息的處理和映射過程,為以后的數(shù)字圖書館服務(wù)提供了保證。
在數(shù)字圖書館特色資源建設(shè)中,數(shù)據(jù)挖掘技術(shù)的應(yīng)用相對有限。一些價值較高的信息普遍存在于網(wǎng)絡(luò)數(shù)據(jù)庫中,普通人無法通過搜索引擎獲得這些信息。他們只有登錄專業(yè)信息網(wǎng)站,通過網(wǎng)站提供的查詢界面,才能在網(wǎng)絡(luò)數(shù)據(jù)庫中找到信息,并根據(jù)專業(yè)知識庫自動進(jìn)行分析,整理搜索結(jié)果,最后導(dǎo)入本地信息數(shù)據(jù)庫。例如,在構(gòu)建具有地方特色的文獻(xiàn)數(shù)據(jù)庫時,只有構(gòu)建與地方文獻(xiàn)相關(guān)的各種屬性的統(tǒng)計字典,有效利用網(wǎng)絡(luò)信息挖掘檔案,才能實現(xiàn)自動挖掘和檢索。無須人工干預(yù),即可搜索指定范圍[4]。數(shù)據(jù)庫中的相關(guān)信息通過重復(fù)數(shù)據(jù)消除、凈化等技術(shù)進(jìn)行挖掘和處理,導(dǎo)入本地相關(guān)數(shù)據(jù)資源數(shù)據(jù)庫。為用戶提供相關(guān)項目的信息檢索服務(wù),有助于建立具有地方特色的圖書館數(shù)據(jù)庫。
收集用戶信息并形成用戶信息數(shù)據(jù)庫。完整的用戶信息可以充分確保挖掘工作,了解用戶的一般需求和特殊需求,從而提供有效性的個性化服務(wù)。故而,用戶才是數(shù)字圖書館的主要資源。通過挖掘用戶的日常訪問日志等數(shù)據(jù)信息能夠掌握用戶的興趣,因此其對于提供網(wǎng)絡(luò)信息推送及個性化信息定制服務(wù)是有益的。從總體上看,數(shù)據(jù)挖掘技術(shù)通過豐富、動態(tài)的在線查詢和分析來了解用戶的實際需求,通過在線提問和調(diào)查等方式,系統(tǒng)可以獲得用戶的用戶名、訪問IP地址、個人喜好、職業(yè)或者其他第一手資料。然后,通過關(guān)聯(lián)規(guī)則和文件規(guī)則(例如,OLAP),全面分析上述數(shù)據(jù)并為用戶建立信息需求模型。根據(jù)實際需求,積極跟進(jìn)圖書館數(shù)字資源的變化,搜集用戶需求的信息,同時通過智能推送方式將所需信息推送到用戶的郵箱、手機或者計算機中。
以往查閱方式中,用戶需要通過對其他書號進(jìn)行分類來獲取圖書信息,但是這種查詢方法效率低下,不能滿足當(dāng)前用戶的需求[5]。為了獲得更加詳細(xì)的內(nèi)容,需要將數(shù)據(jù)挖掘技術(shù)合理地應(yīng)用于圖書館數(shù)據(jù)信息。隨著信息技術(shù)的不斷發(fā)展,用戶閱讀需求的分類和專業(yè)背景可以更好地幫助用戶查詢所需的數(shù)據(jù)。在滿足用戶的特殊閱讀需求時,可以根據(jù)用戶的閱讀歷史和相關(guān)記錄推薦閱讀書籍,為用戶提供更加便捷地服務(wù),同時也應(yīng)滿足其日常查詢需求。
圖書館具有較多的文獻(xiàn),尤其是在一些高等院校圖書館中,信息的收集主要由藏家決定。故而,在某些情況下,不同類型書籍的數(shù)量無法平衡,導(dǎo)致流通書籍和雜志的收集和安排不足,許多書籍的資金配置也不合理。此種技術(shù)在數(shù)字圖書館中的使用可以更加高效地分析出各類文獻(xiàn)的使用價值,而后對其進(jìn)行更加客觀地評價,準(zhǔn)確預(yù)測圖書館的文獻(xiàn)量、購買趨勢及實際需求。為更加便捷地服務(wù)于圖書館的藏書工作,同時,方便使用人員查詢所需的信息,這對于數(shù)字圖書館具有至關(guān)重要的作用和意義[6]。
綜上可知,圖書館是民眾的日常工作及生活關(guān)鍵組成內(nèi)容,作為促民生的一項基建工程,是獲取知識來源的一種重要形式。運用數(shù)據(jù)挖掘技術(shù)不斷發(fā)現(xiàn)數(shù)字圖書館中各項工作的存在問題,并不斷改善方式,對于數(shù)字圖書館的工作長效機制具有深遠(yuǎn)意義。