占 磊(廣東省立中山圖書館)
圖書采分編(采購(gòu)驗(yàn)收、分類編目、典藏管理)業(yè)務(wù)是圖書館的核心基礎(chǔ)業(yè)務(wù)之一,近年來(lái)隨著《中國(guó)機(jī)讀目錄格式》的普及應(yīng)用和聯(lián)機(jī)編目的實(shí)用化[1],許多圖書館選擇將該業(yè)務(wù)中的部分環(huán)節(jié)外包給圖書供應(yīng)商,以縮短圖書加工編目周期,節(jié)省圖書館人力資源,提升圖書的上架效率。但也由于過(guò)分依賴供應(yīng)商而導(dǎo)致圖書館失去了采編業(yè)務(wù)的主動(dòng)權(quán),造成了編目質(zhì)量的普遍下降。因此,圖書館采分編業(yè)務(wù)迫切需要新的技術(shù)或體系來(lái)改變現(xiàn)狀。
有鑒于此,廣東省立中山圖書館在經(jīng)過(guò)前期仔細(xì)調(diào)研及充分論證技術(shù)的可行性后,研發(fā)了圖書采分編智能作業(yè)系統(tǒng)。本文通過(guò)介紹和探討其系統(tǒng)構(gòu)建、實(shí)施流程、技術(shù)實(shí)現(xiàn)的難點(diǎn)和解決辦法,詳細(xì)描述和論證了一種既能提升圖書加工編目和上架效率,又能保證圖書編目質(zhì)量并降低人力成本的智能采分編方案,以期為圖書館采分編工作的智能化發(fā)展提供參考。
圖書采分編智能作業(yè)系統(tǒng)在國(guó)內(nèi)圖書館界并無(wú)先例可循,需要研究開發(fā),其充分將工業(yè)機(jī)器人、圖像識(shí)別、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、物聯(lián)網(wǎng)等新技術(shù)應(yīng)用到圖書驗(yàn)收、加工、編目和分揀流程中,為有大量圖書編目加工需求的圖書館和書商提供了創(chuàng)新解決方案。
傳統(tǒng)的采分編流程,一般分為圖書采購(gòu)、驗(yàn)收、加工、編目、上架等,具體到廣東省立中山圖書館,其流程細(xì)化為:圖書采購(gòu)、拆包核對(duì)清單、上機(jī)驗(yàn)收分配條碼和館藏地、貼碼蓋章封邊、編目校對(duì)、打印粘貼書標(biāo)(索書號(hào))、粘貼和轉(zhuǎn)換RFID標(biāo)簽、分類分揀上架。要將現(xiàn)有流程進(jìn)行自動(dòng)化,首先需要根據(jù)現(xiàn)有技術(shù)條件確定各流程實(shí)現(xiàn)自動(dòng)化的可行性;其次要根據(jù)加工及效率需求對(duì)現(xiàn)有流程進(jìn)行優(yōu)化整合和自動(dòng)化改造,以適應(yīng)智能化采分編的要求?;诖?,在經(jīng)過(guò)大量的前期調(diào)研和技術(shù)論證后,我們?cè)O(shè)計(jì)了整個(gè)智能作業(yè)系統(tǒng)的總體流程(見圖1),計(jì)劃分階段建設(shè)實(shí)施。
如圖1所示,系統(tǒng)根據(jù)不同類型的圖書設(shè)計(jì)了三種不同的工作模式,以應(yīng)對(duì)不同類型的圖書,按照流水線作業(yè)的模式使機(jī)器與人完美分工,形成圖書采分編的全流程閉環(huán),最終達(dá)到節(jié)省人力且保證編目質(zhì)量的目的。圖書自圖書入口進(jìn)入后,系統(tǒng)經(jīng)過(guò)對(duì)圖書信息頁(yè)的掃描識(shí)別,解析出ISBN、定價(jià)等關(guān)鍵信息,與圖書館編目流通系統(tǒng)(簡(jiǎn)稱ALEPH)訂單進(jìn)行收單對(duì)比,之后進(jìn)行貼碼蓋章等物理加工、系統(tǒng)單冊(cè)狀態(tài)與館藏地校驗(yàn)、圖書編目數(shù)據(jù)自動(dòng)套錄、書標(biāo)打印粘貼、圖書按館藏地分揀等流程。在此過(guò)程中,系統(tǒng)根據(jù)不同的判定邏輯,分別將收單對(duì)比不一致和無(wú)法加工的圖書剔除出來(lái),轉(zhuǎn)人工處理并輸出報(bào)表;對(duì)單冊(cè)館藏地校驗(yàn)異常的圖書輸出清單轉(zhuǎn)人工校驗(yàn);對(duì)無(wú)法套錄到數(shù)據(jù)的圖書進(jìn)行編目信息頁(yè)掃描并分流圖書,供館員進(jìn)行無(wú)紙化編目,編目完成后圖書重新回到系統(tǒng)流水線。
圖1 圖書采分編智能作業(yè)系統(tǒng)總體流程
根據(jù)系統(tǒng)設(shè)計(jì)流程的特點(diǎn),其建設(shè)分為三個(gè)模塊進(jìn)行,分別為編目前加工、收單驗(yàn)收和編目、編目后加工及分揀,并按時(shí)間分三期進(jìn)行建設(shè)。目前已建成并運(yùn)行的為編目前加工模塊,其功能為對(duì)尺寸在400mm×300mm×50 mm(長(zhǎng)、寬、厚)、重量在3kg以內(nèi)的圖書進(jìn)行規(guī)范化地貼碼、蓋章、覆膜、粘貼RFID標(biāo)簽等操作,運(yùn)行效率約為500冊(cè)每小時(shí),節(jié)省了大量重復(fù)性人力勞動(dòng)。收單驗(yàn)收和編目模塊需要與我館ALEPH系統(tǒng)進(jìn)行對(duì)接,實(shí)現(xiàn)與采購(gòu)訂單的對(duì)比,并更新系統(tǒng)數(shù)據(jù)實(shí)現(xiàn)圖書驗(yàn)收;運(yùn)用機(jī)器自動(dòng)化翻頁(yè)、掃描、智能圖像識(shí)別技術(shù)實(shí)現(xiàn)編目信息頁(yè)的自動(dòng)掃描識(shí)別,對(duì)已有聯(lián)編數(shù)據(jù)的圖書實(shí)現(xiàn)自動(dòng)套錄,對(duì)無(wú)聯(lián)編數(shù)據(jù)的圖書則形成數(shù)據(jù)包,發(fā)送給編目員進(jìn)行無(wú)紙化編目。編目后加工和分揀模塊,其功能是為已完成編目的圖書進(jìn)行書標(biāo)(索書號(hào))的打印粘貼、館藏地標(biāo)識(shí)打印、圖書按館藏地和分類自動(dòng)分揀并傳送到相應(yīng)流通部門。
系統(tǒng)建設(shè)的目標(biāo)是通過(guò)以上三個(gè)模塊的建設(shè),使圖書采分編達(dá)到全流程流水線作業(yè),讓80%~90%的圖書都能通過(guò)這套智能作業(yè)系統(tǒng)完成圖書到貨至上架的整個(gè)流程,最大程度減少人力投入,提升圖書上架的效率。在后期,我們將逐步探討應(yīng)用人工智能實(shí)現(xiàn)圖書文獻(xiàn)的自動(dòng)編目標(biāo)引,進(jìn)一步提升編目效率。
進(jìn)入作業(yè)系統(tǒng)的圖書并不都是有訂單的新書,也可能是無(wú)訂單的征集圖書或贈(zèng)書,針對(duì)不同情況,系統(tǒng)會(huì)有不同的工作模式(見圖1)。
(1)第一種模式適用于絕大部分訂購(gòu)的新書,該模式下圖書正常進(jìn)行收單驗(yàn)收、貼碼、蓋章、覆保護(hù)膜、貼RFID標(biāo)簽、系統(tǒng)登到、單冊(cè)信息更新、RFID信息寫入、單冊(cè)狀態(tài)校驗(yàn)、數(shù)據(jù)套錄等所有流程,人工介入相對(duì)較少。
(2)第二種模式適用于不需要進(jìn)行系統(tǒng)收單驗(yàn)收的圖書,該模式主要針對(duì)已完成人工驗(yàn)收登到、館藏分配和條碼分配的圖書。如征集圖書、贈(zèng)書等,條碼可以是已全部粘貼的,也可以是只粘貼封底一個(gè)條碼,其工作流程跳過(guò)收單、系統(tǒng)登到、單冊(cè)信息更新和校驗(yàn),直接進(jìn)行條碼掃描識(shí)別,進(jìn)行補(bǔ)貼條碼、蓋章、覆膜、RFID粘貼和寫入,之后進(jìn)入編目數(shù)據(jù)套錄環(huán)節(jié)。
(3)第三種模式主要針對(duì)已完成人工編目和審校的圖書,跳過(guò)前面所有流程,直接進(jìn)入書標(biāo)打印環(huán)節(jié),是否設(shè)置該模式取決于是否在書標(biāo)打印環(huán)節(jié)前設(shè)置第二個(gè)圖書入口。如設(shè)置,則不需要該模式;如不設(shè)置,則圖書需要在最初的圖書入口進(jìn)入,使用模式三跳過(guò)前面所有流程,使圖書直接進(jìn)入書標(biāo)打印環(huán)節(jié)。
采購(gòu)到館的圖書,在拆包后需要進(jìn)行收單驗(yàn)收,核對(duì)其與送貨單、訂購(gòu)單是否一致。收單驗(yàn)收時(shí)圖書信息的對(duì)比涉及圖書實(shí)體本身、圖書到貨電子清單和系統(tǒng)訂單三方面。三方面同時(shí)對(duì)比,若一致則完成收單驗(yàn)收,不一致則按不同情況分別輸出報(bào)表。如,圖書與到貨電子單出現(xiàn)復(fù)本數(shù)或價(jià)格不一致、圖書與ALEPH訂單出現(xiàn)復(fù)本數(shù)或價(jià)格不一致、圖書查不到貨單信息但能查到訂單信息、圖書有到貨單信息但查不到訂單信息、圖書無(wú)到貨單和訂單信息等。每批圖書需要清晰列出以上異常情況并形成驗(yàn)收表單輸出,以供館員核對(duì)結(jié)算,同時(shí)將異常圖書分揀出來(lái)轉(zhuǎn)人工處理。
收單驗(yàn)收對(duì)比一致的圖書,由系統(tǒng)按照?qǐng)D書館提供的條碼段依順序打印條碼,每個(gè)條碼打印兩張,分別粘貼到每本書的指定位置,其中封底條碼粘貼好后,需要覆蓋透明的條碼保護(hù)膜。每本書在指定頁(yè)面及位置蓋館藏章和粘貼RFID芯片標(biāo)簽。遇到尺寸、裝幀異常無(wú)法進(jìn)行加工的圖書,則轉(zhuǎn)人工處理并輸出報(bào)表。在智能化應(yīng)用方面,對(duì)大量不同尺寸、厚薄、重量、紙張類型的圖書進(jìn)行加工時(shí),可利用計(jì)算機(jī)視覺技術(shù)識(shí)別并收集其相關(guān)信息,通過(guò)機(jī)器訓(xùn)練和學(xué)習(xí)來(lái)逐步提升其貼碼、蓋章、翻頁(yè)、覆膜的準(zhǔn)確率。
關(guān)聯(lián)加工完成圖書的條碼和RFID信息,將信息寫入ALEPH對(duì)應(yīng)的訂單和單冊(cè)中,即完成系統(tǒng)登到、單冊(cè)條碼更新和RFID信息關(guān)聯(lián)。登到時(shí)根據(jù)單冊(cè)狀態(tài)為每個(gè)單冊(cè)添加復(fù)本號(hào),同時(shí)將單冊(cè)處理狀態(tài)由“訂購(gòu)中”更新為“編目中”。圖書信息更新時(shí),面對(duì)較為普遍的多訂單情況,需要準(zhǔn)確找到相應(yīng)訂單,還需要依據(jù)單冊(cè)狀態(tài)參數(shù)對(duì)該種圖書所有訂單下的單冊(cè)狀態(tài)進(jìn)行校驗(yàn),自動(dòng)修改并輸出狀態(tài)異常清單,供館員人工校驗(yàn)。
依據(jù)ISBN自動(dòng)匹配套錄編目數(shù)據(jù),系統(tǒng)對(duì)已完成加工和單冊(cè)校驗(yàn)的圖書,首先查詢館藏?cái)?shù)據(jù)是否已編目,再根據(jù)館藏905字段確定是否為加復(fù)本,若是,則做加復(fù)本處理,寫入單冊(cè)索書號(hào)等信息,圖書進(jìn)入下一流程。如查詢館藏?cái)?shù)據(jù)未編目,則優(yōu)先查詢國(guó)圖數(shù)據(jù),如有,則直接套錄并添加館藏905字段,再對(duì)應(yīng)單冊(cè)增加索書號(hào),圖書進(jìn)入下一流程;如沒(méi)有相關(guān)國(guó)圖數(shù)據(jù),則查詢聯(lián)編數(shù)據(jù),有則套錄并添加館藏905字段,增加單冊(cè)索書號(hào),圖書依據(jù)單冊(cè)狀態(tài)分流,外借本圖書和少兒書直接進(jìn)入下一流程,保存本、地方文獻(xiàn)等非外借本分揀出來(lái),傳送至編目員處進(jìn)行數(shù)據(jù)校對(duì)。如查詢館藏?cái)?shù)據(jù)未編目,且無(wú)法套錄到任何編目數(shù)據(jù)的圖書,系統(tǒng)須對(duì)相關(guān)編目信息頁(yè)(封面、封底、題名頁(yè)、版權(quán)頁(yè)、目錄、正文前10—20頁(yè)、結(jié)尾10—20頁(yè)等)拍照掃描,形成數(shù)據(jù)包在線推送給編目員進(jìn)行無(wú)紙化編目,并通過(guò)OCR識(shí)別版權(quán)頁(yè)信息,智能轉(zhuǎn)換為文字信息,匹配到編目系統(tǒng)的相應(yīng)字段中,降低編目員工作難度,同時(shí)還需將圖書暫時(shí)分揀出來(lái)供編目員隨時(shí)查閱。
綜上所述,相比圖書編目完全外包造成的編目質(zhì)量下降,本流程的做法綜合考慮了編目質(zhì)量與編目效率的平衡。
已完成編目的圖書,智能作業(yè)系統(tǒng)根據(jù)其索書號(hào)、復(fù)本號(hào)打印顏色書標(biāo),同時(shí)依據(jù)單冊(cè)館藏地將某些特定的館藏地信息同步打印在書標(biāo)指定位置。將書標(biāo)粘貼到圖書書脊下部,覆上透明保護(hù)膜,能識(shí)別有特定顏色要求的保護(hù)膜(如少兒書)并在保護(hù)膜指定位置噴上特定顏色。最后,系統(tǒng)將圖書館藏地等數(shù)據(jù)信息寫入RFID標(biāo)簽。
已完成驗(yàn)收、編目、加工流程的圖書會(huì)進(jìn)入最后的分類分揀流程,系統(tǒng)依據(jù)圖書的分類和館藏地信息采用工業(yè)上比較成熟的AGV(自動(dòng)導(dǎo)引運(yùn)輸車)分揀和自動(dòng)搬運(yùn)將其運(yùn)送至各個(gè)不同的館藏地。該分揀搬運(yùn)系統(tǒng)除了對(duì)編目加工完的圖書進(jìn)行分揀搬運(yùn),還可對(duì)讀者歸還的圖書進(jìn)行分揀,方便工作人員更加快速高效地將圖書重新上架。
本系統(tǒng)各流程功能的實(shí)現(xiàn)涉及眾多新技術(shù)的應(yīng)用與創(chuàng)新,其中編目前加工模塊就含有20項(xiàng)外觀專利和4項(xiàng)發(fā)明專利。整套系統(tǒng)涉及物聯(lián)網(wǎng)、計(jì)算機(jī)視覺、工業(yè)自動(dòng)化、機(jī)器學(xué)習(xí)、自動(dòng)分揀等多種技術(shù)的綜合應(yīng)用。除自動(dòng)分揀外,其他技術(shù)在國(guó)內(nèi)圖書館領(lǐng)域的應(yīng)用幾乎沒(méi)有經(jīng)驗(yàn)可循,需要全新開發(fā)整合,因此存在較高的實(shí)施難度和風(fēng)險(xiǎn)。
為圖書貼碼、蓋章、覆膜等工作對(duì)人工操作而言非常簡(jiǎn)單,但對(duì)機(jī)器來(lái)說(shuō)難度較大,機(jī)器擅長(zhǎng)的是標(biāo)準(zhǔn)化的重復(fù)動(dòng)作,而圖書的加工恰恰不是標(biāo)準(zhǔn)化的。面對(duì)不同尺寸、厚度、光滑度的圖書紙張,機(jī)器利用負(fù)壓翻頁(yè)需要的吸力是不同的,翻頁(yè)系統(tǒng)智能化要實(shí)時(shí)判定才能做到精準(zhǔn)翻頁(yè)。不同尺寸重量的圖書,其姿態(tài)調(diào)整也需要機(jī)器實(shí)時(shí)匹配調(diào)整,左翻書和右翻書的翻頁(yè)方向不同,系統(tǒng)需通過(guò)圖像識(shí)別來(lái)判定翻頁(yè)方向。每本書粘貼的兩個(gè)條形碼必須相同,需要系統(tǒng)識(shí)別校驗(yàn),條碼和保護(hù)膜要從卷帶上剝離再粘貼到書頁(yè)上,精準(zhǔn)控制力度以確保條碼和保護(hù)膜可以100%剝離,粘貼時(shí)也要通過(guò)圖像識(shí)別、程序算法控制和機(jī)械設(shè)計(jì)來(lái)實(shí)時(shí)調(diào)整其粘貼位置,使其不遮擋文字內(nèi)容。書標(biāo)和保護(hù)膜的粘貼位置在書脊,因此需要機(jī)器自動(dòng)將不同厚度的圖書立起并固定,且在粘貼時(shí)準(zhǔn)確貼合到書脊、封面、封底三個(gè)立體位面,粘牢且不損壞圖書。對(duì)不同開本、紙張的圖書進(jìn)行連續(xù)翻頁(yè)和清晰快速拍照掃描,這對(duì)機(jī)器設(shè)備的要求較高。以上這些,涉及的技術(shù)復(fù)雜度較高,整合開發(fā)有難度,且需要運(yùn)用人工智能技術(shù)對(duì)機(jī)器進(jìn)行大量訓(xùn)練,才能提升其加工的準(zhǔn)確率。
(1)通用性指的是系統(tǒng)能夠適用的圖書范圍。系統(tǒng)的設(shè)計(jì)預(yù)期是覆蓋80%~90%的圖書,而對(duì)于那些尺寸、重量超出設(shè)計(jì)的,或裝幀、紙張異常的圖書,則很難通過(guò)機(jī)器進(jìn)行加工。
(2)穩(wěn)定性指的是系統(tǒng)運(yùn)行的可靠性、耐用性、效率和噪聲控制。對(duì)于大型圖書館來(lái)說(shuō),每年處理的圖書量是很大的,要保證一定的運(yùn)行效率,完成每年的圖書加工任務(wù),不能出現(xiàn)經(jīng)常維護(hù)或維修的情況。由于系統(tǒng)的復(fù)雜性和獨(dú)創(chuàng)性,其建設(shè)的成本是比較高的,建成后需要經(jīng)久耐用才能具有一定的性價(jià)比。圖書館環(huán)境的一個(gè)基本要求是安靜,因此噪聲控制也非常重要,在不能影響讀者的同時(shí),也要為工作人員提供一個(gè)相對(duì)安靜的工作環(huán)境。
(3)差錯(cuò)率指的是系統(tǒng)加工圖書的出錯(cuò)概率。差錯(cuò)率越低,需要人工干預(yù)的工作量就越少,反之將增加人工干預(yù)的次數(shù),嚴(yán)重影響效率,這就要求差錯(cuò)率必須要控制在比較低的水平。
(1)收單驗(yàn)收時(shí),需要系統(tǒng)識(shí)別實(shí)體圖書的ISBN、價(jià)格和同種圖書的復(fù)本數(shù),對(duì)比館員人工導(dǎo)入的到貨電子清單,讀取ALEPH系統(tǒng)的訂單信息。在讀取ALEPH系統(tǒng)的訂單信息時(shí),面對(duì)較為普遍的單條數(shù)據(jù)多訂單的情況,能通過(guò)訂單信息(書商、分館、單冊(cè)數(shù)量等)準(zhǔn)確識(shí)別正確的訂單。面對(duì)多條數(shù)據(jù)多條訂單的情況,也能通過(guò)數(shù)據(jù)中包含的訂單信息(書商、分館、單冊(cè)數(shù)量等)準(zhǔn)確識(shí)別正確的訂單。訂單和單冊(cè)信息的登到更新,主要有條碼信息的更新、單冊(cè)狀態(tài)的更新和RFID芯片信息更新等。
(2)單冊(cè)狀態(tài)校驗(yàn)時(shí),需要依據(jù)館方提供的參數(shù)表。該參數(shù)表需要盡量列舉出所有的異常情況,還需要列舉出所有異常狀況的正確修改方案,包括每種單冊(cè)狀態(tài)需要對(duì)應(yīng)的分館和館藏地、同種單冊(cè)狀態(tài)是否可重復(fù)、復(fù)本號(hào)是否需要分配及按什么規(guī)則分配等,使系統(tǒng)可以對(duì)不符合參數(shù)表的情況對(duì)ALEPH數(shù)據(jù)進(jìn)行自動(dòng)修改,實(shí)在無(wú)法自動(dòng)修改的,再輸出清單供館員人工校驗(yàn)。
(3)編目數(shù)據(jù)套錄時(shí),同一個(gè)ISBN經(jīng)常會(huì)對(duì)應(yīng)多條數(shù)據(jù)(不同版本或多卷書),因此系統(tǒng)套錄數(shù)據(jù)時(shí),需要準(zhǔn)確識(shí)別編目數(shù)據(jù)中的某些關(guān)鍵字段(年份、頁(yè)數(shù)等),判定并套錄到正確的那條數(shù)據(jù)。供套錄的數(shù)據(jù)庫(kù)需及時(shí)更新,若690字段有變化,需要系統(tǒng)形成提示并匯總,由工作人員在規(guī)定時(shí)間內(nèi)生成匯總文件反饋借閱部,方便查找錯(cuò)標(biāo)書籍重新貼標(biāo)。對(duì)版權(quán)頁(yè)的準(zhǔn)確識(shí)別需要依靠OCR(字符識(shí)別)識(shí)別和大量機(jī)器訓(xùn)練,使智能系統(tǒng)能自行識(shí)別掃描版權(quán)頁(yè),并將圖片信息文字化,實(shí)現(xiàn)部分字段的自動(dòng)標(biāo)引,以減少編目員人工輸入。
經(jīng)過(guò)一系列安裝調(diào)試,廣東省立中心圖書館的編目前加工模塊于2021年4月建成落地,并開始正式運(yùn)行。該模塊的具體工作是對(duì)圖書的封底和題名頁(yè)貼碼并校驗(yàn)其一致性、對(duì)封底已貼的條碼覆膜、在題名頁(yè)蓋館藏章、在封底的反面粘貼RFID標(biāo)簽等。初期為了系統(tǒng)穩(wěn)定性,其加工速度控制在200—300冊(cè)每小時(shí),每天開機(jī)4—5小時(shí)即可滿足圖書館的圖書加工需求,大大減少了人工重復(fù)勞動(dòng)。在對(duì)近2萬(wàn)冊(cè)新書的加工中也發(fā)現(xiàn)了一些問(wèn)題,如在處理有封套圖書和精裝圖書時(shí),機(jī)器翻頁(yè)系統(tǒng)存在一定的出錯(cuò)概率、多卷書的加工存在缺陷、條碼剝離時(shí)也存在一定失敗概率等,這些都需要通過(guò)機(jī)器迭代升級(jí)與系統(tǒng)算法優(yōu)化來(lái)逐一改進(jìn),最終使80%~90%的圖書均能通過(guò)智能作業(yè)系統(tǒng)進(jìn)行加工,并盡可能降低出錯(cuò)概率,減少人工介入頻率。
系統(tǒng)通過(guò)自動(dòng)套錄和無(wú)紙化編目的方式初步解決了編目外包造成的數(shù)據(jù)質(zhì)量下降問(wèn)題,同時(shí)也兼顧了編目效率。這樣的智能化編目只是停留在對(duì)已有數(shù)據(jù)的自動(dòng)套錄和對(duì)無(wú)數(shù)據(jù)圖書的編目信息頁(yè)掃描,并嘗試對(duì)版權(quán)頁(yè)進(jìn)行智能識(shí)別與自動(dòng)標(biāo)引,距離真正的全自動(dòng)標(biāo)引依然存在距離。要實(shí)現(xiàn)全字段的自動(dòng)標(biāo)引,需要對(duì)大量已有的中文圖書主題手工標(biāo)引數(shù)據(jù)的訓(xùn)練和學(xué)習(xí),并由此產(chǎn)生序列實(shí)體之間語(yǔ)義關(guān)系和規(guī)則特征的模板,然后利用該模板進(jìn)行機(jī)器預(yù)測(cè)[2]。同時(shí),還需對(duì)大量圖書信息頁(yè)的OCR掃描識(shí)別,并與該模板進(jìn)行對(duì)比套用,最終實(shí)現(xiàn)較高準(zhǔn)確率的自動(dòng)標(biāo)引。
近年來(lái),隨著業(yè)務(wù)外包理念在我國(guó)圖書館界的推行,外包商和圖書供應(yīng)商承擔(dān)了越來(lái)越多的圖書加工編目工作。采分編智能作業(yè)系統(tǒng)的出現(xiàn)不僅為大型圖書館提供了采分編解決方案,同樣也為外包商和圖書供應(yīng)商提供了替代人工的高效途徑。隨著系統(tǒng)逐步建成并不斷迭代升級(jí),越來(lái)越多的專利將隨之出現(xiàn),其穩(wěn)定性、效率、成本控制等將持續(xù)提升,最終將有較大可能定型為成熟的產(chǎn)品向各大型圖書館和書商推廣。同時(shí),系統(tǒng)對(duì)圖書外觀、頁(yè)面內(nèi)容信息的大量采集,可以形成數(shù)量龐大的圖書信息數(shù)據(jù)庫(kù),為圖書館后續(xù)提供基于該數(shù)據(jù)庫(kù)的各種知識(shí)服務(wù)提供了可能。