閔國鋒
(沙洲職業(yè)工學(xué)院 圖書館, 江蘇 張家港 215600)
隨著信息技術(shù)的快速發(fā)展,傳統(tǒng)的圖書館交互服務(wù)系統(tǒng)與讀者的個性化交互服務(wù)需求的矛盾日益突出,系統(tǒng)的響應(yīng)速度過慢,信息共享的能力較差,很大程度上影響了讀者的使用體驗[1-3]。為了解決這些問題,本文提出并設(shè)計了一種基于數(shù)據(jù)挖掘技術(shù)的數(shù)字圖書館交互服務(wù)系統(tǒng)。該系統(tǒng)在整體架構(gòu)上對傳統(tǒng)的交互服務(wù)系統(tǒng)進(jìn)行了技術(shù)改進(jìn),基于數(shù)字挖掘技術(shù)通過對個性化交互信息的再處理提升了此類信息的價值,實現(xiàn)了數(shù)字化圖書館信息的廣泛共享。系統(tǒng)圍繞集成TQMA93RE7芯片的控制器搭建硬件平臺,通過模塊化程序的信息存儲過程設(shè)計和決策樹算法的構(gòu)建實現(xiàn)了軟件部分的設(shè)計,在強化了數(shù)據(jù)挖掘功能的同時大大提升了系統(tǒng)的響應(yīng)速度。
該系統(tǒng)的總體結(jié)構(gòu)是在現(xiàn)有的數(shù)字圖書館交互服務(wù)系統(tǒng)結(jié)構(gòu)上進(jìn)行的改進(jìn)設(shè)計,按照可靠性、安全性、經(jīng)濟性、時效性等原則,以個性化交互服務(wù)信息為主體,對其進(jìn)行提取和分析,以實現(xiàn)信息的深入挖掘和廣泛共享。改進(jìn)后的系統(tǒng)總體結(jié)構(gòu)如圖1所示。
圖1 數(shù)字圖書館交互服務(wù)系統(tǒng)總體結(jié)構(gòu)圖
由圖1可知,系統(tǒng)的信息資源主要來自于互聯(lián)網(wǎng)與校內(nèi)網(wǎng)數(shù)據(jù)集,通過搜索器、集成器、分析器與服務(wù)器進(jìn)行互聯(lián)網(wǎng)個性化交互服務(wù)信息的挖掘與存儲,從而擴展了信息的采集渠道,增加了圖書館的信息量。由此可見,圖書館交互服務(wù)系統(tǒng)的建設(shè)需要與互聯(lián)網(wǎng)和校內(nèi)網(wǎng)的建設(shè)緊密結(jié)合,在不同知識領(lǐng)域之間建立信息傳輸渠道,以此滿足不同讀者的信息需求,同時,通過信息反饋能夠由外界獲得更多有價值的信息,因而整體上提高了圖書館向讀者所提供信息的質(zhì)量。
本系統(tǒng)通過在硬件端口增設(shè)控制器的方式來應(yīng)對海量數(shù)據(jù)的處理需求,提高系統(tǒng)的整體響應(yīng)速度。TQMA93RE7是一種超高密度芯片[4],改芯片以Crema-T1架構(gòu)為內(nèi)核,具有極強的數(shù)據(jù)處理能力,符合本系統(tǒng)控制器的技術(shù)要求。
芯片的半導(dǎo)體指令可以在兩種狀態(tài)間切換,即半導(dǎo)體供應(yīng)狀態(tài)和Thumb狀態(tài),前者代碼寬度為32位,后者為16位??刂破魈幱诎雽?dǎo)體供應(yīng)狀態(tài)時,其所生成的指令均為32位代碼,切換至Thumb狀態(tài)后則只能生成16位代碼指令。Crema-T1內(nèi)核自帶Thumb-1指令集,在保證能夠進(jìn)行高速信息處理的同時適當(dāng)降低了指令代碼的密度,使用和維護都非常簡便。QMA93RE7芯片的引入,在硬件層面上提高了系統(tǒng)的信息挖掘能力和響應(yīng)速度。
在本系統(tǒng)的設(shè)計中,信息存儲的程序代碼全部存儲在數(shù)據(jù)庫服務(wù)器內(nèi),因此數(shù)據(jù)信息的讀取指令不需要通過網(wǎng)絡(luò)進(jìn)行傳輸,依靠信息分類來簡化信息挖掘程序,降低網(wǎng)絡(luò)延遲,避免出現(xiàn)程序卡滯,減小網(wǎng)絡(luò)的數(shù)據(jù)載荷量。
基于程序的模塊化可以實現(xiàn)快速存儲過程的設(shè)計,在首次數(shù)據(jù)存儲完成后,其后的同類操作可依照首次程序反復(fù)進(jìn)行。若存儲程序發(fā)生變動,則會在數(shù)據(jù)庫服務(wù)器中另外創(chuàng)建對應(yīng)的指令集。系統(tǒng)的信息存儲流程如圖2所示。
圖2 系統(tǒng)的信息存儲流程
由上圖可見,在進(jìn)行信息存儲時,系統(tǒng)會首先判斷數(shù)據(jù)是否符合挖掘規(guī)則,符合的數(shù)據(jù)系統(tǒng)會自動對其進(jìn)行分類,之后判斷數(shù)據(jù)是否已存在,根據(jù)判定結(jié)果決定是否存儲該數(shù)據(jù)。
在上述設(shè)計流程中,系統(tǒng)會將典型的個性化交互服務(wù)提前封裝成信息存儲過程,即將編制完成的程序指令存放于數(shù)據(jù)庫服務(wù)器中,使信息讀取操作得以快速執(zhí)行,進(jìn)而在軟件層面提高了系統(tǒng)的響應(yīng)速度。
決策樹算法的構(gòu)建過程就是從所有通過了系統(tǒng)驗證的的個性化交互服務(wù)信息中提取出有價值的信息進(jìn)行細(xì)化分類。在系統(tǒng)所構(gòu)建的決策樹中,一個節(jié)點對應(yīng)一個單獨的屬性,單次測試的輸出結(jié)果則用一個分支來表示。假設(shè)節(jié)點R用于存儲一個C類別的信息集,系統(tǒng)會自動選擇出具有最高細(xì)膩增益率的屬性對R進(jìn)行分裂。在這種條件下該個性化交互服務(wù)信息集所對應(yīng)的期望信息,可表示為式(1)。
(1)
式中,Pi為C類信息集中某個信息可細(xì)化為Ci類信息的概率,在系統(tǒng)進(jìn)行信息細(xì)化分類時可以通過|Ci,D|/|D|進(jìn)行估算;Info(C)代表C的熵。
若個性化交互服務(wù)信息的屬性A可用v個不同的值來表示,則C類信息集中具有A屬性的信息所對應(yīng)的期望信息,可表示為式(2)。
(2)
式中,InfoA(C)為C信息集依據(jù)屬性A進(jìn)行分類后所得到的期望信息,系統(tǒng)會自動采用最小值期望信息所對應(yīng)的屬性值對C進(jìn)行分裂。
上述算法的構(gòu)建流程,如圖3所示。
圖3 決策樹算法的構(gòu)建流程
由圖3可知,在構(gòu)建決策樹過程的MAP階段獲取的是數(shù)據(jù)的行內(nèi)容,而Reduce階段獲取的則是基于屬性分裂信息集前的中間結(jié)果。
系統(tǒng)測試環(huán)境包括硬件環(huán)境和軟件環(huán)境兩個部分,硬件部分由計算機CPU、內(nèi)存、硬盤及系統(tǒng)控制器等設(shè)備組成;軟件部分則主要由計算機操作系統(tǒng)和網(wǎng)絡(luò)兩部分組成。該系統(tǒng)為測試的實驗系統(tǒng),選取文獻(xiàn)[5]數(shù)字圖書館交互服務(wù)系統(tǒng)為參照系統(tǒng)。測試步驟如下。
兩個系統(tǒng)同時檢索相同的內(nèi)容,第一關(guān)鍵詞:“區(qū)塊鏈”;第二關(guān)鍵詞:“區(qū)塊鏈網(wǎng)絡(luò)”;第三關(guān)鍵詞:“區(qū)塊鏈建立信任”。三個關(guān)鍵詞依次搜索,來考察信息準(zhǔn)確率的提升情況。測試過程中,本文系統(tǒng)和文獻(xiàn)[5]系統(tǒng)檢索三個關(guān)鍵詞后所列出的圖書信息條目分別為:第一關(guān)鍵詞,125條和131條;第二關(guān)鍵詞,77條和69條;第三關(guān)鍵詞,21條和22條。由此看出,兩個系統(tǒng)檢索得到的信息條目差別不大,經(jīng)過篩選得到信息準(zhǔn)確率對比結(jié)果如圖4所示。
圖4 信息準(zhǔn)確率對比結(jié)果
由圖4可知,隨著檢索關(guān)鍵詞的深入,兩個系統(tǒng)的信息準(zhǔn)確率均有所提升,這是因為數(shù)據(jù)挖掘技術(shù)的應(yīng)用使得系統(tǒng)檢索結(jié)果更加個性化和智能化。對比可知,本文系統(tǒng)檢索后的信息準(zhǔn)確率高于文獻(xiàn)[5]系統(tǒng),尤其是在第三個關(guān)鍵詞檢索時,其信息準(zhǔn)確率遠(yuǎn)高于文獻(xiàn)[5]系統(tǒng),說明本系統(tǒng)應(yīng)用的數(shù)據(jù)挖掘算法較好,能比較明顯提升信息準(zhǔn)確率。
通過本系統(tǒng)和文獻(xiàn)[5]系統(tǒng)分別重復(fù)50次測試程序,記錄系統(tǒng)各界面的測試結(jié)果輸出時間,具體結(jié)果圖5所示。
圖5 系統(tǒng)測試各界面響應(yīng)時間
由圖5可知,本文系統(tǒng)的登錄操作平均響應(yīng)時間為1 s,相較于參照系統(tǒng)的2 s,其響應(yīng)速度提高了一倍;本系統(tǒng)信息收集界面、信息分析界面、信息服務(wù)界面以及系統(tǒng)管理界面的響應(yīng)時間分別為0.6 s、0.8 s、0.8 s和1.1 s,遠(yuǎn)遠(yuǎn)低于參照系統(tǒng)對應(yīng)界面的響應(yīng)時間,通過計算可得,本文系統(tǒng)進(jìn)行個性化交互服務(wù)信息挖掘的平均時間為0.8 s,參照系統(tǒng)的信息挖掘平均時間為3.23 s,即本文系統(tǒng)的響應(yīng)時間較之于文獻(xiàn)[5]數(shù)字圖書館交互服務(wù)系統(tǒng)縮短了2.43 s,由此可見本文系統(tǒng)在響應(yīng)速度方面具有明顯的優(yōu)勢。
為了驗證系統(tǒng)的穩(wěn)定性,筆者通過部署兩個系統(tǒng),考察可支持最大用戶并發(fā)數(shù)、CPU占用率和內(nèi)存使用率,對比測試結(jié)果如表1所示。
表1 系統(tǒng)穩(wěn)定性對比測試
由表1可知,隨著用戶并發(fā)數(shù)的增加,兩個系統(tǒng)的CPU占用率和內(nèi)存使用率逐漸增大,說明系統(tǒng)具有一定的穩(wěn)定性。文獻(xiàn)[5]系統(tǒng)的兩個參數(shù)明顯高于本系統(tǒng),說明該系統(tǒng)性能較優(yōu)。當(dāng)用戶并發(fā)數(shù)增加至3 000時,文獻(xiàn)[5]系統(tǒng)內(nèi)存使用率達(dá)到86%,CPU占用率也達(dá)到75%,而本系統(tǒng)兩個參數(shù)還在70%以下。用戶并發(fā)數(shù)的增加至4 000,文獻(xiàn)[5]系統(tǒng)內(nèi)存使用率達(dá)到100%,出現(xiàn)斷機,而本系統(tǒng)仍可以正常運行。
為了解決傳統(tǒng)數(shù)字圖書館交互服務(wù)系統(tǒng)響應(yīng)較慢、共享程度差的問題,本文設(shè)計了一種基于數(shù)字挖掘技術(shù)的數(shù)字圖書館個性化信息交互服務(wù)系統(tǒng)。介紹了基于傳統(tǒng)系統(tǒng)進(jìn)行改進(jìn)后所設(shè)計的新系統(tǒng)架構(gòu),闡述了以TQMA93RE7超高密度芯片為核心的控制器設(shè)計以及模塊化程序的信息存儲過程設(shè)計,說明了決策樹算法的構(gòu)建依據(jù)和方式。通過與文獻(xiàn)[5]數(shù)字圖書館交互服務(wù)系統(tǒng)的對比測試結(jié)果表明,本系統(tǒng)的數(shù)據(jù)挖掘平均響應(yīng)時間、信息準(zhǔn)確率和穩(wěn)定性均優(yōu)于其他系統(tǒng),能夠極大地提升圖書館用戶的使用體驗。