祝婷婷
摘要:以高校圖書館——長春工程學(xué)院圖書館為例,選擇決策樹C4.5算法構(gòu)造模型,通過數(shù)據(jù)挖掘算法,得出制約圖書館數(shù)字資源使用因素間的一些潛在性聯(lián)系,從而進一步分析高校圖書館用戶的實際使用需求,為圖書館今后發(fā)展、決策提供意見及指導(dǎo)。
關(guān)鍵詞:數(shù)據(jù)挖掘;高校圖書館;決策樹算法
隨著圖書館事業(yè)的不斷發(fā)展,高校圖書館的職能也隨之發(fā)生了變化。如何更有效、合理的對高校圖書館用戶需求進行分析,從而有針對性的為讀者提供相對應(yīng)服務(wù),已經(jīng)成為圖書館今后發(fā)展中所面臨的具體任務(wù)。
目前,雖然各高校圖書館都在為了更好地滿足用戶對信息的需求,積極推廣數(shù)字資源的開發(fā)利用,但由于缺乏對它的科學(xué)認識與管理,造成大量數(shù)字資源閑置、重復(fù),使有限經(jīng)費白白浪費。用戶對圖書館服務(wù)的需求正逐漸由傳統(tǒng)的圖書借閱擴展為信息檢索、文獻下載等數(shù)字資源服務(wù)。應(yīng)用數(shù)據(jù)挖掘技術(shù)可以通過收集到的一些看似無關(guān)聯(lián)的,離散的調(diào)查問卷等數(shù)據(jù),轉(zhuǎn)化為可供使用的參考信息,提供給圖書館決策者,這將使一些制約用戶使用圖書館數(shù)字資源的因素得到有效的處理。根據(jù)此需求選擇數(shù)據(jù)挖掘中的決策樹C45算法建立決策樹,挖掘出制約用戶對數(shù)字資源使用的一些主要因素間潛在的規(guī)則性知識,對高校圖書館用戶需求進行有效分析,使用戶更有效地利用圖書館的數(shù)字資源服務(wù),為圖書館提高服務(wù)層次提供決策指導(dǎo)。
一、決策樹分類算法
決策樹方法是一種通過構(gòu)造決策樹來發(fā)現(xiàn)訓(xùn)練集中分類知識的數(shù)據(jù)挖掘方法,該方法用類似于流程圖的樹結(jié)構(gòu)對數(shù)據(jù)記錄進行分類,根節(jié)點對應(yīng)的數(shù)據(jù)集是訓(xùn)練集,每個內(nèi)部節(jié)點表示在某個屬性上的測試,每個分枝代表一個測試輸出,而每個葉節(jié)點代表類或類的分布[1]。
決策樹算法分為樹的生長算法和剪枝算法兩部分。其中,ID3 和 C45 作為決策樹生長的基本算法(貪心算法),都使用信息論度量為樹中每一個非樹葉節(jié)點選擇測試屬性。C45 對 ID3 算法預(yù)測變量的缺失值處理、剪枝技術(shù)、派生規(guī)則等方面進行了補充和改進,能夠?qū)Q策樹轉(zhuǎn)為等價的規(guī)則,是一種比較流行的算法。[2]本文主要應(yīng)用C45 算法構(gòu)造決策樹。
二、決策樹構(gòu)造實例
為有效說明問題,通過長春工程學(xué)院學(xué)生對圖書館數(shù)字資源使用情況的調(diào)查問卷中選取了少量樣本數(shù)據(jù),這樣構(gòu)造出的決策樹比較簡單直觀。
決策樹的每個內(nèi)部節(jié)點(非葉)表示一個屬性上的測試,每個葉節(jié)點表示一個類別,本實例的類別為自身因素(用戶是經(jīng)常使用數(shù)字資源):是(1)和否(0)兩類。我們采用自頂向下遞歸算法來構(gòu)造決策樹。可將表中的數(shù)據(jù)元組訓(xùn)練集分為2類,即自身因素{是,否},所以有2個不同的類(m=2)。設(shè)類C1對應(yīng)于是,有12個樣本,類C2對應(yīng)于否,有6個樣本,據(jù)(1),可以得出該樣本的期望信息:
I(r1,r2)=I(12,6)=-(12/18)* log2(12/18)-(6/18)* log2(6/18)=0918
然后計算每一個決策屬性的期望信息量(即熵值)。
對屬性“宣傳因素”,當(dāng)宣傳因素=高
I(s11,s21)= -(2/3)* log2(2/3)-(1/3)* log2(1/3)=0918
當(dāng)宣傳因素=良
I(s12,s22)= -(7/8)* log2(7/8)-(1/8)* log2(1/8)=0544
當(dāng)宣傳因素=中
I(s13,s23)= -(3/7)* log2(3/7)-(4/7)* log2(4/7)=0985
由此得出“宣傳因素”的熵值
E(宣傳因素)=3/18*I(s11,s21)+8/18*I(s12,s22)+7/18*I(s13,s23)=0778
因此屬性“宣傳因素”的信息增益為
G(宣傳因素)=I(r1,r2)-E(宣傳因素)=0140
同理,可得出表中其他各屬性的期望信息和信息增益值。
由于屬性“宣傳因素”具有最大信息增益,故而選擇該屬性作為決策樹的根節(jié)點。
對于每一個分枝, 依據(jù)分枝順序,重復(fù)上述步驟,只畫出關(guān)于第一層次單位和最差情況的決策樹,生成的決策樹如圖1所示。
三、結(jié)果分析與應(yīng)用
(一)模型結(jié)果分析
由模型結(jié)果可以看出,最大的障礙是圖書館對如何使用數(shù)字資源的宣傳力度不夠,使用戶不了解其使用方法,甚至可能是不會利用數(shù)字資源來獲取信息,其次是資源本身的更新情況和圖書館的設(shè)備情況制約了其對資源的使用。要提高圖書館數(shù)字資源的利用率,就要提高高校圖書館對數(shù)字資源的宣傳和培訓(xùn),使更多用戶知道,熟悉其使用,其次,則需側(cè)重加強資源本身的優(yōu)化,確保數(shù)據(jù)庫收錄內(nèi)容是否全面、準確、權(quán)威、時效性強,是否符合本館需求與圖書館設(shè)備的更新。
以往的調(diào)查問卷因為缺乏科學(xué)分析工具,無法及時對用戶的需求情況進行合理的統(tǒng)計分析,也就無法發(fā)現(xiàn)龐雜的數(shù)據(jù)中存在的關(guān)系和規(guī)則,圖書館管理者更多的依靠經(jīng)難和習(xí)慣來進行工作。而利用決策樹C45算法,針對長春工程學(xué)院圖書館調(diào)查問卷的數(shù)據(jù),有目的分類構(gòu)造模型后,統(tǒng)計結(jié)果比以往手工統(tǒng)計調(diào)查問卷效率提高了數(shù)倍,結(jié)果分析的準確性也大大增強,并且在直觀可視的決策樹模型結(jié)果分析中,圖書館管理者可以輕易找出影響用戶需求的關(guān)鍵因素以及其中潛在依賴關(guān)系,為今后的服務(wù)決策提供了科學(xué)的依據(jù)。
(二)模型在圖書館服務(wù)工作中的應(yīng)用
采用決策樹C45算法,對長春工程學(xué)院圖書館數(shù)字資源使用情況的調(diào)查問卷進行分類,生成決策樹模型,更直觀地顯示了影響讀者使用數(shù)字資源的相關(guān)因素,結(jié)合模型的分析結(jié)果,為圖書館在今后宣傳推廣、數(shù)字資源建設(shè)、設(shè)備更新等一系列服務(wù)中提供了工作方向。
1、圖書館以往的服務(wù)推廣策略缺乏技術(shù)支持手段,大多數(shù)是憑經(jīng)驗制定的。在進行宣傳的時候沒有任何針對性,這就大大影響了宣傳的推廣效果。通過運用決策樹模型對用戶調(diào)查問卷進行分析后,得出讀者對館藏電子資源的了解程度是影響數(shù)字資源利用率高低的最直接因素。依據(jù)此分析結(jié)果,長春工程學(xué)院圖書館在日常的服務(wù)中加大了對數(shù)字資源的宣傳力度,開展了對剛?cè)胄5男律M行“如何利用圖書館資源”的教育講座;增加學(xué)生讀者利用電子文獻資源培訓(xùn)講座的次數(shù);圖書館工作人員還到各院系為廣大教師傳授網(wǎng)絡(luò)數(shù)據(jù)庫、電子圖書等數(shù)字資源的檢索技巧;推廣文獻檢索課程在各教學(xué)院系課程設(shè)置中的普選率;提高學(xué)生文獻檢索的信息素養(yǎng);重視參考館員的信息導(dǎo)航作用。通過一系列的宣傳活動,大大增強了用戶對圖書館數(shù)字資源的了解,使圖書館的數(shù)字資源利用率得到的顯著的提高。
2、根據(jù)決策樹模型結(jié)果分析出的另一因素——數(shù)字資源建設(shè),長春工程學(xué)院圖書館也做了相應(yīng)的改善工作。在資源建設(shè)中,加快了資源的更新速度,加大了采購數(shù)量,同時有計劃地在資源采購中向重點學(xué)科傾斜。在紙質(zhì)文獻資源和電子資源的采購中,加強了對電氣工程、土木工程、機械工程等我校重點學(xué)科的資源采購,保證了我校重點學(xué)科電子資源的前沿性與時效性,另外還加大了特種資源中科技報告、專利、標準文獻等數(shù)據(jù)庫資源,以及能囊括和迅速揭示學(xué)科發(fā)展新動向的二次文獻數(shù)據(jù)庫的采購,使資源的覆蓋面更全,更廣。通過一系列的改進措施,廣大師生在圖書館的文獻利用率大幅提升,由原來的846%提高到現(xiàn)在的965%。
3、在長春工程學(xué)院新落成的圖書館中,加大了對硬件設(shè)備與有線、無線網(wǎng)絡(luò)的投入,使館內(nèi)硬件設(shè)備更加高效,無線網(wǎng)絡(luò)設(shè)施覆蓋更廣,在寬敞明亮的環(huán)境中,越來越多的師生走進圖書館,使圖書館資源得到了最大程度的利用。僅以長春工程學(xué)院教工讀者的增長量為例,新建成的圖書館與老館的同期教工讀者量增長了74%。這一數(shù)據(jù)也證明了館內(nèi)硬件設(shè)備與網(wǎng)絡(luò)設(shè)施的完善與更新,自動化建設(shè)步伐的加快,可以進一步提高圖書館服務(wù)的整體層次,吸引更多的讀者走進圖書館,利用圖書館。
四、結(jié)論
通過數(shù)據(jù)挖掘中決策樹C45算法構(gòu)建的模型,得出部分影響其圖書館資源使用因素間的一些潛在性聯(lián)系,這種通過決策樹算法中得出的挖掘信息,可以使圖書館決策者更加清晰的了解用戶在利用圖書館信息資源中的各種需求,為圖書館服務(wù)工作提供了科學(xué)的指導(dǎo),使服務(wù)工作的開展更有針對性、目的性、方向性,為后續(xù)服務(wù)的改進提供了充足、可靠的數(shù)據(jù),最大限度地發(fā)揮了圖書館資源的利用率,為圖書館事業(yè)的發(fā)展起到了科學(xué)分析預(yù)測、決策的作用。當(dāng)然,由于本次模型中樣本數(shù)量和項目還不夠多,分析程度和分類知識的獲取還不夠理想,可信度也還相對不夠,只能稱作一個簡單的粗層次的分類分析模型。但在對樣本數(shù)據(jù)的挖掘中,該算法提供了一個進行合理挖掘的模式,得出了一些具有參考價值的分析結(jié)論,可以說為該領(lǐng)域有效應(yīng)用數(shù)據(jù)挖掘技術(shù)進行研究提供了一個方向。(作者單位:長春工程學(xué)院圖書館)
參考文獻:
[1]中國人民大學(xué)統(tǒng)計學(xué)系數(shù)據(jù)挖掘中心.數(shù)據(jù)挖掘中的決策樹技術(shù)及其應(yīng)用.統(tǒng)計與信息論壇,2002(3):4~10
[2]朱紹文等.決策樹采掘技術(shù)及發(fā)展趨勢.計算機工程,2000(10):1~3
[3]馬秀紅,宋建社,董晟飛.數(shù)據(jù)挖掘中決策樹的探討.計算機工程與應(yīng)用,2004,40(1).
[4][德].巴斯蒂安.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘.武森,高學(xué)東,譯.北京:冶金工業(yè)出版社,2003.
[5]王德岳.面向就業(yè)分析的數(shù)據(jù)倉庫及其數(shù)據(jù)挖掘的研究.沈陽:東北大學(xué),2000.