圖書館編目業(yè)務(wù)外包是指圖書館將編目業(yè)務(wù)以合同的形式委托給書商或?qū)I(yè)機構(gòu)處理的方式[1]。徐州醫(yī)科大學(xué)圖書館(以下簡稱“我館”)2017年開始將編目業(yè)務(wù)全部外包給書商,通過編目外包縮短了新進圖書的上架時間,降低了圖書館的運營成本,提高了圖書館的咨詢和學(xué)科服務(wù)水平[2-3]。但由于外包編目人員知識水平欠缺、流動性大,導(dǎo)致編目質(zhì)量低下,需要我館的編目人員進行審核,加大了數(shù)據(jù)校驗的難度,難以提高工作效率[4-5]。編目數(shù)據(jù)的著錄、分類、標(biāo)引等工作外包的模式也一直存在爭議。如董劍平曾指出圖書著錄、分類、標(biāo)引是關(guān)系到圖書館實現(xiàn)知識組織功能和社會文獻流整序功能的核心工作,外包不利于圖書館的讀者服務(wù)和的可持續(xù)發(fā)展[6]。
鑒于圖書館編目外包模式中存在書商編目人員不夠?qū)I(yè)、不甚了解各個圖書館編目細則和流動性大等問題,難以保證外包的編目質(zhì)量著錄、分類和標(biāo)引由本館編目人員完成的部分外包模式雖然保證了編目質(zhì)量,但效率低,外包效果不夠明顯,使編目外包陷入了兩難的境地。因此,以匯文系統(tǒng)為例,在現(xiàn)有圖書管理系統(tǒng)和編目部分外包的基礎(chǔ)上,結(jié)合機器學(xué)習(xí)技術(shù)實現(xiàn)自動批量智能采訪、批量智能套錄、智能分類和智能生成索書號的功能,提高采訪和編目效率,最后由本館的編目人員進行編目數(shù)據(jù)審核和圖書實物驗收。嚴(yán)把編目質(zhì)量關(guān)的編目外包智能采編新模式,對圖書館編目外包模式和流程進行了創(chuàng)新研究,對圖書館編目外包業(yè)務(wù)的深入開展具有一定的借鑒意義,有利于圖書館的可持續(xù)發(fā)展。
機器學(xué)習(xí)(Machine Learning)技術(shù)是指采用計算機模擬人類的學(xué)習(xí)行為,通過學(xué)習(xí)訓(xùn)練從已知樣本中尋找規(guī)律,并利用規(guī)則對未知數(shù)據(jù)進行預(yù)測,目前已廣泛應(yīng)用于圖書自動分類。機器學(xué)習(xí)技術(shù)能夠根據(jù)中文圖書的題名、關(guān)鍵詞和摘要等內(nèi)容特征自動給出中圖法分類號,常用的方法有樸素貝葉斯法、K近鄰、支持向量機以及人工神經(jīng)網(wǎng)絡(luò)等[7-8]。楊曉花提出使用多父差分進化策略挖掘上一代更多的額外信息,提高樸素貝葉斯的分類精度,以便獲取全局最優(yōu)的解決方案[9];楊敏提出構(gòu)建基于詞頻和TFIDF(Term Frequency-inverse Document Frequency)混合特征的向量矩陣,再利用支持向量機(SVM)算法對圖書進行自動分類效果更好[10];郭利敏提出構(gòu)建基于題名、關(guān)鍵詞的多層次卷積神經(jīng)網(wǎng)絡(luò)模型,使之能夠根據(jù)文獻的題名和關(guān)鍵詞自動給出中圖分類號,以此提高圖書分類的準(zhǔn)確性[11]。
基于機器學(xué)習(xí)的圖書分類器的構(gòu)造主要包括預(yù)處理、特征提取和機器學(xué)習(xí)3個關(guān)鍵環(huán)節(jié)[12-14]。
本文預(yù)處理首先提取MARC數(shù)據(jù)中的題名、主題、摘要和索書號等信息并轉(zhuǎn)化為Excel格式,再采用Python的pandas庫的DataFrame對象進行數(shù)據(jù)清洗,采用jieba分詞對題名、摘要(或主題等)進行分詞處理,得到文本所包含的詞條信息,將非結(jié)構(gòu)化的文本信息轉(zhuǎn)換為結(jié)構(gòu)化的詞條信息。
本文使用詞頻加TFIDF混合特征提取方法,將詞條信息描述為向量空間模型。圖書的書名對揭示圖書內(nèi)容和主題的作用更加重要,所以將書名用于詞頻特征提取能更明顯地區(qū)分圖書的類別。摘要是圖書內(nèi)容的簡介和主旨介紹,能夠提取更多的特征,使機器學(xué)習(xí)的效果更好,分類更準(zhǔn)確。但由于其內(nèi)容較多,重復(fù)的、與書目主題關(guān)聯(lián)性不大的內(nèi)容易產(chǎn)生噪音,把“了”“的”“本書”等無意義的詞剔除后,提取詞頻特征和TFIDF特征進行修正,并為每個特征分配不同權(quán)重。對于候選特征需要將其轉(zhuǎn)換為SVM機器學(xué)習(xí)所需要的特征向量矩陣,其中每行代表一個書目,每列代表測試數(shù)據(jù)中抽取出的一個特征,矩陣中的每個元素代表特征的值。如公式1所示,Bi代表書目i的特征向量, Cij代表書目i中第J個特征的值。
Bi=[Ci1,Ci2,Ci3,......Cij]
(公式1)
式中,Cin= H1×FTin + H2×FAin + H3×TFIDF(n,i)
(公式2)
式中,TFIDF(n,i)= TF(n,i) × IDF(n)
(公式3)
公式2中,H1表示特征詞出現(xiàn)在書名中的權(quán)重,F(xiàn)Tin表示特征詞n在i書名中出現(xiàn)的頻率;H2代表特征詞出現(xiàn)在書目摘要中的權(quán)重,F(xiàn)Ain表示特征詞在i書目摘要中出現(xiàn)的頻率;H3表示特征詞在摘要中的TFIDF值的權(quán)重,TFIDF(n,i)表示特征詞n在i書目摘要中的TFIDF值。H1+H2+H3=1。
公式3中,TFIDF特征用兩個項的乘積表示。TF(n,i)項表示特征n在書目i摘要中出現(xiàn)的頻度,該值越大說明特征n在書目i的相關(guān)性越強和該特征n對書目i越重要;IDF(n)項表示逆文檔頻度,可以表示為IDF(n)-log10(N/DF(n)),其中N表示訓(xùn)練書目總數(shù),DF(n)表示特征 n 在所有訓(xùn)練書目摘要中出現(xiàn)的總次數(shù)。可見在所有書目中,特征n出現(xiàn)的頻度越大,說明該特征n對書目的區(qū)分能力越弱。在書目分類時,特征的TFIDF 值越高,表明該特征的區(qū)分能力越強。經(jīng)過測試發(fā)現(xiàn),H1取值0.7、H2取值0.2、H3取值0.1時能達到最佳的分類效果。支持向量機算法具有泛化能力強、計算復(fù)雜度樣本空間維數(shù)關(guān)聯(lián)小的特點,所以本文使用支持向量機算法進行機器學(xué)習(xí)構(gòu)建中文圖書多級分類器。先構(gòu)建大類分類器(支持22個圖書大類),然后再構(gòu)建每個大類的子分類器。在應(yīng)用中,第一步先用大類分類器進行大類預(yù)測,大類分好后再用其子分類器進行子類預(yù)測,可根據(jù)具體大類的相關(guān)情況進行多級分類器設(shè)計,以達到更好的分類效果。
本文在現(xiàn)有圖書管理系統(tǒng)和圖書物理加工外包的基礎(chǔ)上,提出利用機器學(xué)習(xí)實現(xiàn)圖書自動分類,增加批量采訪、著錄、分類和標(biāo)引的功能進行智能采訪和編目,最后由本館的編目人員進行數(shù)據(jù)審核和實物驗收的圖書編目外包方案。對現(xiàn)有的圖書編目外包進行流程再造,構(gòu)建圖書智能采編新模式,使圖書編目更加自動化和智能化,既能提高工作效率,又能發(fā)揮本館編目人員的專業(yè)優(yōu)勢,保障編目質(zhì)量。智能采編模式流程如圖1所示。
圖1 圖書館智能采編模式總體流程
書商先把ISBN、條碼號(圖書館分配)、題名、責(zé)任者、出版社、版本、叢書項、金額、摘要、主題等書目信息整理成Excel表格,和新進圖書及清單按一定的順序一起提供給圖書館采訪人員,由他們對圖書進行人工初核、預(yù)驗收。確定合格后,采訪人員將Excel表格的數(shù)據(jù)在圖書管理系統(tǒng)中批量進行智能采訪[15]。以匯文系統(tǒng)為例,原匯文系統(tǒng)中需要采訪人員一一掃描ISBN號、條碼號進行關(guān)聯(lián)、核對書目信息是否在預(yù)訂數(shù)據(jù)之中、輸入金額等。智能采訪模塊將批量導(dǎo)入書商提供的書目數(shù)據(jù),并與對應(yīng)的預(yù)訂數(shù)據(jù)進行智能匹配,匹配條件為ISBN、題名、價格、冊數(shù)等(系統(tǒng)可配置)。全匹配成功進入準(zhǔn)入庫單,匹配不成功時數(shù)據(jù)不一致進入待復(fù)核清單,預(yù)訂數(shù)據(jù)中沒有的進入未預(yù)訂清單,書商數(shù)據(jù)中沒有的進入未配清單。待復(fù)核清單需要采訪人員與書商共同確認(rèn),修改書商數(shù)據(jù)后進行人工復(fù)核,進入準(zhǔn)入庫單,有問題的退回書商。未預(yù)訂清單需要圖書館與書商協(xié)商哪些書目可以訂購,采訪員復(fù)核后新增數(shù)據(jù)進入準(zhǔn)入庫單,其他退回書商。未配清單需要書商注明理由,如遺漏、缺貨或是分批供應(yīng)等。所有問題都處理完后,將準(zhǔn)入庫單進行入庫,并在系統(tǒng)中與條碼進行綁定,生成財產(chǎn)號,寫入MARC數(shù)據(jù)[16]。可提前配置好財產(chǎn)號的產(chǎn)生規(guī)則,如是否與條碼號一致、編碼規(guī)則和自增規(guī)則等。入庫后打印入庫單,進行批量送編。整個智能采訪的流程如圖2所示。
圖2 圖書館圖書智能采訪流程
智能編目可以按送編批次批量套錄、智能分類和種次號分配,因此可以極大地提高編目效率。具體流程圖如圖3所示。這部分模塊需要對現(xiàn)有圖書管理系統(tǒng)進行升級改造。套錄以使用較廣泛的中國高等教育文獻保障文獻系統(tǒng)(CALIS)為例。
圖3 圖書館圖書智能編目流程
系統(tǒng)支持根據(jù)ISBN從CALIS批量套錄MARC數(shù)據(jù)。匯文系統(tǒng)只支持單個書目從CALIS套錄MARC數(shù)據(jù),需要增加批量套錄的功能[17]。套錄成功后將關(guān)鍵字段(題名、責(zé)任者、版本、出版社等)與書商提供的數(shù)據(jù)進行智能比對,一致則數(shù)據(jù)等級標(biāo)記為一級,不一致標(biāo)記為二級。若通過CALIS找不到,則根據(jù)書商提供的數(shù)據(jù)進行編目數(shù)據(jù)加工,數(shù)據(jù)等級標(biāo)記為三級,以便編目人員在核對編目數(shù)據(jù)時分類差別化處理,提高編目數(shù)據(jù)質(zhì)量和工作效率。
圖書館要根據(jù)本校的類別、本館的性質(zhì)、任務(wù)和讀者閱讀需求,制定《中圖法》本館使用本,規(guī)定各類圖書的分類詳簡級次,復(fù)分、仿分的使用規(guī)則,參見類目的使用規(guī)則,組配號的使用規(guī)則和并列關(guān)系的使用規(guī)則等[18]。參見類目:如某種疾病的食養(yǎng)、食療入相關(guān)各類,同時可以參見TS972.161。如《糖尿病健康食療圖典》,我校醫(yī)學(xué)院校分為R587.1,其他學(xué)校分為TS972.161。組配分類:如H319.4讀物,以提高閱讀能力為目的的各科簡易讀物、對照讀物、注釋讀物,如愿細分,可用組配編號法。如我館的《亞馬孫恐怖之旅》為H319.4:I,《胃腸病學(xué)》為H319.4:R,我館規(guī)定組配后面的分類不需要再細分,只到大類即可。并列關(guān)系:如《解剖學(xué)與組織胚胎學(xué)》,人體胚胎學(xué)為R321,人體解剖學(xué)為R322。有這種并列類目的時候,可以選擇上位類R32為分類號,也可以根據(jù)本館的規(guī)定,分到下位類。另外,各個大類在分類中,具體分到幾級類目,也可以根據(jù)自身情況進行規(guī)定,然后根據(jù)每個圖書館的具體規(guī)則進行智能分類校正。根據(jù)圖書MARC數(shù)據(jù)的題名(200字段)、摘要(330字段),各個主題字段(600、601、602、604、605、606、607、610等)利用機器學(xué)習(xí)技術(shù)掌握各館的分類細則并對新進書目進行智能分類,不需對每一個細則在系統(tǒng)里進行人工設(shè)置。
我館有100多萬冊圖書和30多萬MARC數(shù)據(jù)。按22個大類下載我館的MARC數(shù)據(jù)中,I類有5萬多條,R類有8萬多條,只下載了30%的數(shù)據(jù),其余的大類全部下載共計199 060條。首先進行MARC數(shù)據(jù)轉(zhuǎn)換,提取題名、摘要、主題、索書號、作者、出版社等相關(guān)圖書信息。經(jīng)分析發(fā)現(xiàn)有多個分類號的圖書在其各個大類下載的數(shù)據(jù)之中均有重復(fù),同一本書在系統(tǒng)內(nèi)有多個MARC數(shù)據(jù)有重復(fù)。然后進行數(shù)據(jù)清洗,利用索書號分配MARC數(shù)據(jù)的大類,這樣有多個分類號的MARC數(shù)據(jù)(6 654條)大的分類號與我館的實際應(yīng)用一致,保證通過學(xué)習(xí)構(gòu)造的分類器符合我館的分類細節(jié)。再根據(jù)題名和摘要去重,保留有效數(shù)據(jù),清洗后書目數(shù)據(jù)為192 574條,最后選取語料集。
為了提高圖書分類器的分類精度,分類MARC數(shù)據(jù)小于2 000條的大類不再參與本文研究,其他大類每類取35%的數(shù)據(jù)(30%的訓(xùn)練語料,5%的測試語料),訓(xùn)練語料不滿2 000條的按2 000選取,測試語料不滿400條的按400選取。按上述規(guī)則從14個大類18萬多書目數(shù)據(jù)中隨機選取57 270條書目數(shù)據(jù)為訓(xùn)語料集,隨機選取9 871條書目數(shù)據(jù)為測試語料集(表1)。
表1 智能分類語料集構(gòu)成明細
分類器設(shè)計為2級分類,先按14個大類進行智能分類,分配完大類后再進行大類的子類智能分類,這樣可以逐步縮小語料范圍,提高分類精度和速度。以題名、摘要和各個主題字段為輸入,分類號為類目標(biāo)簽,進行TFIDF特征提取,利用SVM算法進行監(jiān)督學(xué)習(xí),構(gòu)建各級分類器。由于測試語料包括分類號,智能分類號與此分類號相同或互為上位類就算分類正確。如《軟件工程》測試語料的原分類號為TP311.5,智能分類為TP311.5或TP311都算正確。實驗表明一級大類分類器的測試正確率大概在94%~97%之間,二級分類器的測試正確率大概在88%~92%之間,綜合正確率達到85%以上,符合日常工作的需求(表2)。
圖書分類器為套錄的MARC數(shù)據(jù)分配中圖分類號,一、二級套錄數(shù)據(jù)標(biāo)記為校正中圖分類號,與套錄MARC數(shù)據(jù)中的中圖分類號進行比對,不一致的標(biāo)記供編目人員審核數(shù)據(jù)時進行處理;三級MARC數(shù)據(jù)直接采用此中圖分類號。
索書號是由分類號加書次號組成。書次號即同類圖書的區(qū)分號碼,用來確定相同分類號圖書的排架次序。圖書編目時書次號的形成方式主要有分類種次號、四角著者號和漢語著者號3種,其中分類種次號最常用[19]。分類種次號是用流水號區(qū)分相同分類號的不同圖書,即圖書編目時,當(dāng)?shù)谝淮武浫肽硞€分類號時,對應(yīng)的種次號為1,再錄入時依次遞增。系統(tǒng)支持批量多層次檢索,智能分配種次號(支持多卷書、再版書等情況的復(fù)雜邏輯處理),生成索書號。我館種次號分配規(guī)則如圖4所示。
種次號生成的判斷條件包括ISBN、題名、責(zé)任者、出版社、分類號、分輯題名或分卷題名、叢編、出版發(fā)行附注、責(zé)任者附注和版本附注等,生成規(guī)則包括與原書數(shù)據(jù)合并、再版書處理、多卷書處理和順序生成種次號等。
智能圖書編目系統(tǒng)支持批量用ISBN、題名及從編項進行檢索,根據(jù)規(guī)則智能生成種次號,并支持各館根據(jù)其自己的編目細則進行個性化設(shè)置,該系統(tǒng)符合各館建設(shè)的標(biāo)準(zhǔn)和規(guī)范。最后分類號加種次號生成索書號,由本館的編目人員進行數(shù)據(jù)審核和實物驗收。
表2 基于混合特征的SVM分類器語料測試實驗結(jié)果
圖4 我館種次號生成規(guī)則
系統(tǒng)支持批量智能數(shù)據(jù)審核。編目外包必須對書商提供的數(shù)據(jù)和系統(tǒng)進行批量采訪和對編目生成的數(shù)據(jù)進行審核,才能在提高效率的同時保障編目的質(zhì)量,所以編目人員要對編目數(shù)據(jù)進行分類差別化審核處理。對一級編目數(shù)據(jù)或分類校正一致的編目數(shù)據(jù)實行5%的隨機抽查,對二級編目數(shù)據(jù)或分類校正不一致的一級編目數(shù)據(jù)實行50%的隨機重點審核,對三級編目數(shù)據(jù)實行全面審核(3種類型的抽查比例可根據(jù)本館的具體運營情況進行調(diào)整)。審核人員首先對圖書MARC數(shù)據(jù)的內(nèi)容、詳盡程度和是否符合文獻著錄標(biāo)準(zhǔn)與規(guī)范等進行校對,可與圖書的實物、清單進行核查,然后重點審核分類號和種次號是否按照本館的編目細則進行選取、是否符合規(guī)定標(biāo)準(zhǔn)等,不合格的由審核人員進行手工處理。審核完成后打印審核驗收單和書標(biāo),交給書商進行統(tǒng)一加工,包括蓋館藏章、加印財產(chǎn)號、貼書標(biāo)和貼磁條或RFID標(biāo)簽等[20]。加工完成后交給編目部門,對財產(chǎn)號、條碼、書標(biāo)是否清晰、端正,磁條的磁性等進行實物驗收。系統(tǒng)支持對書商編目業(yè)務(wù)外包質(zhì)量進行評價,為下次圖書采購招標(biāo)提供依據(jù)[21-22]。圖書經(jīng)過編目、實物驗收后,統(tǒng)一送典藏、上架,就可以正常流通了。
本文介紹了我館編目外包以來的運行情況,指出了編目質(zhì)量難以保障的相關(guān)問題,分析了機器學(xué)習(xí)技術(shù)在圖書智能分類的應(yīng)用情況,提出了基于圖書的題名、摘要的詞頻與TFIDF的混合特征構(gòu)建向量空間模型,利用支持向量機算法實現(xiàn)圖書的智能分類,最終構(gòu)建圖書批量采訪、套錄、智能分類、智能生成種次號和本館編目人員統(tǒng)一審核的采編模式。經(jīng)過測試發(fā)現(xiàn)圖書智能分類綜合正確率達到85%以上,符合日常工作的需求,但發(fā)現(xiàn)TFIDF特征在分析交叉學(xué)科圖書分類時效果相對較差。下一步將繼續(xù)研究基于混合特征的多種機器學(xué)習(xí)算法分級組合應(yīng)用,各種算法取長補短,爭取達到最佳的圖書分類效果,真正解決編目外包質(zhì)量問題,提高工作效率。