林 麗
集美大學(xué)圖書館,福建 廈門 361021
高校圖書存在學(xué)科種類復(fù)雜,學(xué)科主題更新快問題。圖書館采訪人員如何從百萬新書中選擇適合本校學(xué)科發(fā)展需要的書籍,是一個迫切解決的問題。當(dāng)前,采訪人員主要根據(jù)書目的MARC數(shù)據(jù)來了解書目信息,而MARC數(shù)據(jù)中的書名和摘要存在字?jǐn)?shù)多、學(xué)科覆蓋面廣、主題詞專業(yè)性強等問題,故單純靠采訪人員一條條判斷選購,是無法滿足高校圖書館的各個學(xué)科讀者的知識需求及高校的學(xué)科建設(shè)需要。
隨著人工智能技術(shù)的發(fā)展,運用自然語言處理[1]、數(shù)據(jù)挖掘技術(shù)構(gòu)建基于高校學(xué)科專業(yè)知識的學(xué)科主題詞庫,其不僅存儲各個學(xué)科領(lǐng)域的專業(yè)主題詞,也能統(tǒng)計各個學(xué)科主題詞的學(xué)科研究熱度、館藏借閱熱度等指標(biāo)數(shù)據(jù)[2]。基于學(xué)科主題庫的采訪模式中,圖書中攜帶的復(fù)雜MARC數(shù)據(jù)會被抽取轉(zhuǎn)化為若干個學(xué)科主題詞及主題詞指標(biāo)數(shù)據(jù),采訪人員不需要學(xué)科專業(yè)知識,即可以通過主題詞及其對應(yīng)的指標(biāo)數(shù)據(jù)直觀了解圖書的學(xué)術(shù)價值、需求價值,也可以通過技術(shù)手段和統(tǒng)計方法實現(xiàn)機(jī)器自動采選,從而大大提高“訪”的效率和效果。
國內(nèi)圖書館界在圖書采訪模式的理論研究成果豐碩。包括:
1.讀者薦購采訪模式。樓宇源[3]提出的讀者驅(qū)動采購模式,結(jié)合深圳大學(xué)圖書館實行PDA項目的實際情況,提出如何更好地在國內(nèi)開展紙本書PDA采購模式的建議。
2.定量決策采購模型。鐘建法[4]提出的基于德爾菲法和層次分析法構(gòu)建圖書采訪決策評價指標(biāo)體系和基本模型,模型運行所形成的圖書評價分值和薦藏、適藏、選藏與不藏四種采選策略,作為新書采選和舊書補藏的重要依據(jù)。
3.智能圖書采選模式。王紅[5]提出采用人工智能技術(shù),基于館藏數(shù)據(jù)、采訪數(shù)據(jù)、借閱數(shù)據(jù)不斷訓(xùn)練和學(xué)習(xí)構(gòu)建智能采選模型,以取得最優(yōu)化的圖書采訪效果。
學(xué)科主題詞庫:指高校按照不同學(xué)院不同專業(yè)構(gòu)建學(xué)科主題詞庫。主題詞庫設(shè)計如表1所示,存儲的數(shù)據(jù)包含:學(xué)科主題詞和學(xué)科主題指標(biāo)。其中,學(xué)科主題指標(biāo)特征包括:
表1 學(xué)科主題詞庫
1.館藏量,包含該主題詞的書目數(shù)量,可通過館藏數(shù)量了解重復(fù)主題詞的書目數(shù)量。
2.學(xué)科占比,包含該主題詞的館藏量占所屬中文圖分類的館藏量的比例,便于館員采購配比。
3.該主題詞近5年的借閱趨勢比。統(tǒng)計該主題詞的借閱次數(shù)年增長率BAGR(式1)。
4.相關(guān)論著發(fā)文量5年內(nèi)的復(fù)合增長率。計算方法采用在銷售系統(tǒng)應(yīng)用的年復(fù)合增長率CAGR(Compound Annual Growth Rate)公式計算(式2)。CAGR值表示某主題詞在某個時間段的增長或變遷的潛力和預(yù)期。
其中,B表示本年的發(fā)文量,A表示往起始年的發(fā)文量,n表示統(tǒng)計的年份。
基于學(xué)科主題庫的圖書采選體系,主要包括數(shù)據(jù)采集層、數(shù)據(jù)處理層、數(shù)據(jù)存儲層、采訪業(yè)務(wù)層、數(shù)據(jù)分析層。圖1所示為基于學(xué)科主題詞庫的圖書采訪系統(tǒng)架構(gòu)。
圖1 圖書采訪系統(tǒng)架構(gòu)
數(shù)據(jù)采集主要通過不同數(shù)據(jù)源收集學(xué)科主題詞。通過教材庫、館藏庫、論文期刊庫三種方式收集書目名字作為學(xué)科主題詞庫的語料庫。
數(shù)據(jù)處理層的主要工作為:
1.借助自然語言處理的NLP技術(shù)實現(xiàn)書目書名的中文分詞、詞頻統(tǒng)計、相似詞合并及候選主題詞的抽取工作。
2.構(gòu)建主題詞審核平臺完成候選主題詞的機(jī)器核對及人工校對工作。
3.統(tǒng)計學(xué)科主題詞的指標(biāo)數(shù)據(jù)。
4.存入學(xué)科主題詞庫。
1.學(xué)科主題詞庫數(shù)據(jù)庫。存儲學(xué)科主題詞及其指標(biāo)數(shù)據(jù)。
2.圖書采訪數(shù)據(jù)庫。要存儲圖書采訪相關(guān)數(shù)據(jù)。
基于學(xué)科主題詞的采訪模式是基于學(xué)科主題詞庫查找新書對應(yīng)的學(xué)科主題詞及學(xué)科主題指標(biāo)。采訪工作人員通過學(xué)科主題指標(biāo)可直觀了解新書的內(nèi)容特點、需求價值、學(xué)術(shù)價值,為采選提供專業(yè)的決策輔助。具體的采訪流程為:
1.對新到的所有書目的書名和書目摘要分別做中文分詞,抽取該書目的學(xué)科主題詞。書名的關(guān)鍵詞作為一級學(xué)科主題,摘要的關(guān)鍵詞作為二級學(xué)科主題。
2.若新書對應(yīng)的學(xué)科主題詞在學(xué)科主題詞庫匹配不到,則該新書標(biāo)記為“待選”,待選的新書可借助人工采選輔助。同時,新書對應(yīng)的學(xué)科主題詞,作為候選主題詞加入學(xué)科主題詞庫,以便專家人工審核是否新興學(xué)科主題。
3.若新書對應(yīng)的學(xué)科主題詞在學(xué)科主題詞庫已存在,則查詢其對應(yīng)的主題詞指標(biāo)數(shù)據(jù)。按照主題詞的各個指標(biāo)數(shù)據(jù),可設(shè)置機(jī)器自動采選。
表2所示書目智能采購表中可以看到,機(jī)器采選根據(jù)學(xué)科主題的指標(biāo),書名為《Python機(jī)器學(xué)習(xí)教程》,滿足采購條件,自動加入訂單。書名為《Access數(shù)據(jù)庫創(chuàng)建、使用與管理從新手到高手》借閱比和相關(guān)論著發(fā)文量均下降,說明該書的學(xué)術(shù)價值、課程學(xué)習(xí)價值都不高,系統(tǒng)自動不采選。書名《C語言程序設(shè)計與應(yīng)用》的學(xué)科主題體現(xiàn)為借閱比為正數(shù),但是論著發(fā)文量下降,一般為課程教材或教輔,系統(tǒng)設(shè)為“待選”,則需要人工采選,采訪人員根據(jù)這類書特點、出版社質(zhì)量等決定是否采選。
表2 書目智能采購表
數(shù)據(jù)分析層,主要是基于學(xué)科主題詞庫、書目采訪庫的大數(shù)據(jù),構(gòu)建學(xué)科主題詞自動抽取模型、圖書智能采訪模型、圖書檢索模型等,高效挖掘館藏資源。
“雙一流”高校學(xué)科建設(shè)背景下,高校圖書館對文獻(xiàn)資源的專業(yè)性要求更強?;趯W(xué)科主題詞庫的高校圖書館的采訪模式,應(yīng)用自然語言處理技術(shù)算法、數(shù)據(jù)分析技術(shù)自動抽取圖書的學(xué)科主題詞及學(xué)科主題指標(biāo)構(gòu)建采訪決策模型,不僅能精準(zhǔn)提取圖書的學(xué)術(shù)價值、需求熱度,而且實時掌握高校的學(xué)科研究前沿和熱點主題,保障高校圖書館的學(xué)科資源建設(shè)。但是,本文設(shè)計的學(xué)科主題詞指標(biāo)數(shù)據(jù)還不夠完善,未來隨著更多圖書館數(shù)據(jù)的融合,主題詞指標(biāo)可將進(jìn)一步優(yōu)化,為智能采選提供更多數(shù)據(jù)支撐。