肖 玥 李念祖 謝 鵬
(首都圖書(shū)館,北京100021)
機(jī)器學(xué)習(xí)作為人工智能的核心技術(shù),已經(jīng)滲透到各個(gè)方面,從蘋(píng)果的Siri、微軟的 Cortana 、再到淘寶的“猜你喜歡”等無(wú)一不是應(yīng)用機(jī)器學(xué)習(xí)的案例。直到2016年谷歌基于機(jī)器學(xué)習(xí)技術(shù)的AlphaGo擊敗世界圍棋冠軍李世石,人們開(kāi)始逐漸關(guān)注機(jī)器學(xué)習(xí)技術(shù)。在大數(shù)據(jù)時(shí)代,機(jī)器學(xué)習(xí)憑借其在處理海量數(shù)據(jù)方面的先天優(yōu)勢(shì)以及良好的性能和效果,可以在智慧圖書(shū)館建設(shè)中發(fā)揮重要的作用。
2020年4月,筆者在中國(guó)知網(wǎng)數(shù)據(jù)庫(kù)中以“機(jī)器學(xué)習(xí)”為關(guān)鍵詞進(jìn)行檢索,經(jīng)閱讀摘要剔除非相關(guān)文獻(xiàn),圖情研究領(lǐng)域與該主題相關(guān)的文獻(xiàn)共計(jì)77篇,其中張坤等介紹了機(jī)器學(xué)習(xí)在圖書(shū)情報(bào)領(lǐng)域個(gè)性化推薦服務(wù)、智能信息檢索和自動(dòng)文本分類(lèi)三個(gè)方面的研究熱點(diǎn)[1],劉瀏等提出了機(jī)器學(xué)習(xí)在圖書(shū)情報(bào)領(lǐng)域中智能問(wèn)答、文本信息處理、信息服務(wù)、學(xué)術(shù)評(píng)價(jià)四個(gè)方面的應(yīng)用前景[2];其余文獻(xiàn)多數(shù)是通過(guò)算法實(shí)驗(yàn)對(duì)機(jī)器學(xué)習(xí)在文獻(xiàn)自動(dòng)分類(lèi)進(jìn)行可行性的驗(yàn)證或是對(duì)個(gè)性化推薦系統(tǒng)進(jìn)行對(duì)比研究[3][4][5]。目前有關(guān)機(jī)器學(xué)習(xí)在智慧圖書(shū)館中應(yīng)用方面的研究較少,且對(duì)機(jī)器學(xué)習(xí)在智慧圖書(shū)館中的應(yīng)用場(chǎng)景的梳理與歸納也不夠全面。因此本文在根據(jù)現(xiàn)有研究的基礎(chǔ)上,從智慧圖書(shū)館資源、服務(wù)、管理三個(gè)方面入手梳理機(jī)器學(xué)習(xí)在智慧圖書(shū)館中的應(yīng)用場(chǎng)景,并提出機(jī)器學(xué)習(xí)技術(shù)落地圖書(shū)館應(yīng)用的發(fā)展建議。
機(jī)器學(xué)習(xí)(Machine Learning),是人工智能技術(shù)的一項(xiàng)核心技術(shù)方法,其實(shí)質(zhì)就是利用算法來(lái)分析和處理數(shù)據(jù),使機(jī)器從中學(xué)習(xí)并做出推斷或預(yù)測(cè),進(jìn)而模擬或?qū)崿F(xiàn)人類(lèi)的行為的過(guò)程。機(jī)器學(xué)習(xí)技術(shù)強(qiáng)調(diào)的是“學(xué)習(xí)”的過(guò)程,通過(guò)對(duì)不斷增加的大量數(shù)據(jù)樣本進(jìn)行分析,逐步建立起預(yù)測(cè)模型并通過(guò)“訓(xùn)練”過(guò)程不斷修正和完善,一般來(lái)說(shuō),樣本數(shù)量越多,“訓(xùn)練”過(guò)程越多,預(yù)測(cè)模型就越趨近于完善,預(yù)測(cè)模型所產(chǎn)出的結(jié)果就越精準(zhǔn)。
按學(xué)習(xí)方式進(jìn)行分類(lèi),機(jī)器學(xué)習(xí)可以分為淺層學(xué)習(xí)方式和深度學(xué)習(xí)方式,二者的區(qū)別在于機(jī)器學(xué)習(xí)中的“特征”是否由人為設(shè)定,以及訓(xùn)練時(shí)所需數(shù)據(jù)量大小。淺層學(xué)習(xí)方式的“特征”是一般由人為構(gòu)造的,即:在訓(xùn)練模型前先由專(zhuān)家通過(guò)分析哪些“特征”是重要的,然后機(jī)器通過(guò)分析訓(xùn)練數(shù)據(jù)中的這些特征的數(shù)據(jù),學(xué)習(xí)“怎樣的特征的組合會(huì)導(dǎo)致怎樣的結(jié)果”,進(jìn)而產(chǎn)生相應(yīng)的模型,在訓(xùn)練過(guò)程中,其使用的訓(xùn)練數(shù)據(jù)量不必很大,過(guò)量的數(shù)據(jù)量反而會(huì)影響淺層學(xué)習(xí)的效率。深度學(xué)習(xí)(deep learning),最早由杰夫·辛頓(Geoffrey Hinton)于2006年提出,是機(jī)器學(xué)習(xí)研究中的一個(gè)備受關(guān)注的新領(lǐng)域,深度學(xué)習(xí)通過(guò)模擬人腦神經(jīng)元間的連接、對(duì)外界刺激的感知和傳導(dǎo)來(lái)獲取對(duì)事物的認(rèn)識(shí)、解釋和判斷[6],深度學(xué)習(xí)進(jìn)行訓(xùn)練前一般不必預(yù)先設(shè)定“特征”,而是使用多層神經(jīng)網(wǎng)絡(luò)進(jìn)行自動(dòng)學(xué)習(xí)獲取“特征”,學(xué)習(xí)從淺層順次開(kāi)始,上一層學(xué)習(xí)得出的數(shù)據(jù)會(huì)作為下一層的輸入數(shù)據(jù),由淺層的初級(jí)特征逐步學(xué)習(xí)到深層的高級(jí)特征,本質(zhì)上是一個(gè)從全局到局部再到細(xì)節(jié)特征,每一層都在分段學(xué)習(xí)的學(xué)習(xí)過(guò)程。由于深度學(xué)習(xí)需要自動(dòng)學(xué)習(xí)獲取“特征”,因此需要大量數(shù)據(jù)進(jìn)行訓(xùn)練,其次由于其模擬神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),在龐大訓(xùn)練集下,深度學(xué)習(xí)的性能要優(yōu)于淺層學(xué)習(xí)。
在古籍?dāng)?shù)字化方面,古籍文字的識(shí)別是核心內(nèi)容。由于古籍文字與現(xiàn)代印刷體文字不同,其屬于手寫(xiě)字體,古籍文字的書(shū)寫(xiě)風(fēng)格、筆畫(huà)、形態(tài)各異,同時(shí)還會(huì)存在因年代久遠(yuǎn)出現(xiàn)的筆畫(huà)模糊、缺失等現(xiàn)象,因此傳統(tǒng)OCR(光學(xué)字符識(shí)別)技術(shù)并不能很好地處理手寫(xiě)文字的識(shí)別,給古籍?dāng)?shù)字化工作帶來(lái)不小的挑戰(zhàn)。以卷積神經(jīng)網(wǎng)絡(luò)等為代表的深度學(xué)習(xí)技術(shù)突破了傳統(tǒng)OCR技術(shù)只能識(shí)別印刷字體的局限,在手寫(xiě)字體識(shí)別方面已有顯著成果。2011年ICDAR脫機(jī)手寫(xiě)體漢字識(shí)別競(jìng)賽中,IDSIA團(tuán)隊(duì)首次將卷積神經(jīng)網(wǎng)絡(luò)算法應(yīng)用于手寫(xiě)漢字識(shí)別,其識(shí)別準(zhǔn)確率達(dá)到92.18%[7];隨后在2013年的ICDAR手寫(xiě)漢字比賽中,來(lái)自富士通公司的團(tuán)隊(duì)使用優(yōu)化后的卷積神經(jīng)網(wǎng)絡(luò)算法并獲得了脫機(jī)手寫(xiě)漢字識(shí)別的第一名,識(shí)別率達(dá)94.77 %,而來(lái)自英國(guó)華威大學(xué)的 Graham 利用深度稀疏卷積神經(jīng)網(wǎng)絡(luò)的方法,獲得了聯(lián)機(jī)手寫(xiě)漢字識(shí)別第一名,識(shí)別率高達(dá)97.39%[8]??梢?jiàn)深度學(xué)習(xí)方法相比于傳統(tǒng)方法,能達(dá)到更高的識(shí)別率,顯示出深度學(xué)習(xí)在該領(lǐng)域的強(qiáng)大潛力。在圖情界,已有學(xué)者開(kāi)始嘗試進(jìn)行基于深度學(xué)習(xí)技術(shù)的古籍漢字識(shí)別研究,以期為古籍漢字元數(shù)據(jù)加工提供一種可行的解決方案。郭利敏等通過(guò)數(shù)據(jù)生成技術(shù)構(gòu)建訓(xùn)練集773個(gè)漢字、約 24 萬(wàn)個(gè)訓(xùn)練樣本,通過(guò) TensorFlow平臺(tái)進(jìn)行20輪迭代訓(xùn)練并測(cè)試,測(cè)試結(jié)果顯示識(shí)別準(zhǔn)確率為61.09%,在增加訓(xùn)練樣本數(shù)量后準(zhǔn)確率提升為66.28%,指出訓(xùn)練樣本字體的多樣性有助于提升CNN網(wǎng)絡(luò)的識(shí)別率[9]。
在古籍整理的符號(hào)標(biāo)注、箋注方面,機(jī)器學(xué)習(xí)技術(shù)也同樣有著巨大的價(jià)值和潛力。古籍大多沒(méi)有標(biāo)注斷句的標(biāo)點(diǎn)符號(hào),需要人工辨清古文含義后再進(jìn)行標(biāo)注,對(duì)標(biāo)注人員的專(zhuān)業(yè)性要求極高且工作量巨大,若利用機(jī)器學(xué)習(xí)技術(shù)對(duì)大量已進(jìn)行古籍標(biāo)注的樣本進(jìn)行訓(xùn)練,構(gòu)建古籍標(biāo)注模型,則可以實(shí)現(xiàn)古籍符號(hào)標(biāo)注工作的自動(dòng)化或是作為人工標(biāo)注的輔助手段,明顯提高工作效率及準(zhǔn)確度。在古籍箋注方面,由于生僻字句需要工作人員在查閱大量文獻(xiàn)的基礎(chǔ)上才能進(jìn)行正確箋注,工作極為繁瑣,利用機(jī)器學(xué)習(xí)在大數(shù)據(jù)處理方面的優(yōu)勢(shì)則同樣可以實(shí)現(xiàn)古籍的自動(dòng)或半自動(dòng)化箋注功能,提高以箋注的效率和準(zhǔn)確率。
基于機(jī)器學(xué)習(xí)方法的文本分類(lèi)則可以輔助識(shí)別古籍的文體風(fēng)格特征,非常適用于解決古籍真?zhèn)伪鎰e、寫(xiě)作年代判定等問(wèn)題,在古籍辨?zhèn)畏矫嬗蟹浅4蟮陌l(fā)展前景。目前已有學(xué)者做過(guò)基于機(jī)器學(xué)習(xí)的古籍辨?zhèn)窝芯浚┙ㄜ娺\(yùn)用SVM支持向量機(jī)技術(shù),以44個(gè)文言虛字頻率為特征向量,對(duì)《紅樓夢(mèng)》120回進(jìn)行了分類(lèi)研究,結(jié)果顯示從第81回開(kāi)始的后40回和前80回在寫(xiě)作風(fēng)格上存在明顯差別,從技術(shù)的角度確認(rèn)了《紅樓夢(mèng)》前80回和后40回為兩人所作[10]。
3.1.2 知識(shí)發(fā)現(xiàn)與預(yù)測(cè)
機(jī)器學(xué)習(xí)通過(guò)聚類(lèi)及層次分析模型,將文獻(xiàn)中的知識(shí)概念實(shí)體間的隱性關(guān)聯(lián)關(guān)系揭示出來(lái),形成知識(shí)概念關(guān)聯(lián)圖譜;通過(guò)分析文獻(xiàn)的引證、合作等關(guān)系,揭示知識(shí)用戶(hù)群體的集群關(guān)系;通過(guò)對(duì)文獻(xiàn)的知識(shí)單元、時(shí)間、空間多維度的學(xué)習(xí)和推理揭示文獻(xiàn)中知識(shí)單元的演化與流動(dòng)軌跡并進(jìn)行趨勢(shì)預(yù)測(cè)。Qinsight是國(guó)外一個(gè)應(yīng)用機(jī)器學(xué)習(xí)技術(shù)的用于生物醫(yī)學(xué)文獻(xiàn)的AI知識(shí)發(fā)現(xiàn)平臺(tái),它使用生物醫(yī)學(xué)優(yōu)化的神經(jīng)網(wǎng)絡(luò)和其他AI方法來(lái)模擬專(zhuān)家的大腦如何發(fā)現(xiàn)最相關(guān)的信息,辨別關(guān)鍵事實(shí)并發(fā)現(xiàn)關(guān)鍵概念,此外還提供先進(jìn)的視覺(jué)分析來(lái)總結(jié)結(jié)果,預(yù)測(cè)趨勢(shì)并發(fā)現(xiàn)文獻(xiàn)中的隱藏聯(lián)系[11]。國(guó)內(nèi)知識(shí)發(fā)現(xiàn)系統(tǒng)可參考Qinsight知識(shí)發(fā)現(xiàn)與機(jī)器學(xué)習(xí)融合的經(jīng)驗(yàn),將深度學(xué)習(xí)引入知識(shí)發(fā)現(xiàn)系統(tǒng),在圖書(shū)館檢索系統(tǒng)中提供知識(shí)概念關(guān)聯(lián)圖譜,提升文獻(xiàn)知識(shí)單元層面的智慧性。
3.2.1 個(gè)性化資源檢索
基于機(jī)器學(xué)習(xí)的個(gè)性化資源檢索,從功能上可以分為個(gè)性化檢索排序以及個(gè)性化關(guān)鍵詞預(yù)測(cè)兩種。前者的功能是實(shí)現(xiàn)檢索結(jié)果的個(gè)性化推薦及個(gè)性化排序;后者的功能是實(shí)現(xiàn)檢索詞的個(gè)性化預(yù)測(cè)。
相關(guān)性分析顯示,周?chē)窠?jīng)病變、心臟自主神經(jīng)功能存在相似性,存在以下特征:①正中神經(jīng)與心臟自主神經(jīng)功能關(guān)系更為密切;②SCV與心臟自主神經(jīng)功能關(guān)系更為密切??赡茉?yàn)椋赫猩窠?jīng)在臂部損傷時(shí)可累及全部分支,手并非承重的肢體,不容易受到大血管病變的影響,其能夠更真實(shí)的反映高血糖所致的神經(jīng)損傷,提示心臟自主神經(jīng)損傷也容易受到高血糖的影響[6]。SCV能夠更好的反映靜止?fàn)顟B(tài)下的神經(jīng)功能,更好的反映高血糖神經(jīng)損傷情況,不容易受到運(yùn)動(dòng)狀態(tài)、方式等因素的影響,不容易受到干擾。
個(gè)性化檢索排序,即:通過(guò)采集用戶(hù)檢索行為數(shù)據(jù)(如:檢索詞、檢索策略等)以及內(nèi)容偏好數(shù)據(jù)(如:瀏覽、下載或收藏文獻(xiàn)內(nèi)容的主題、瀏覽的時(shí)常等)進(jìn)行機(jī)器學(xué)習(xí),對(duì)用戶(hù)行為及偏好特征進(jìn)行建模,進(jìn)而預(yù)測(cè)與用戶(hù)檢索內(nèi)容主題相關(guān)或是用戶(hù)可能感興趣的其他主題文獻(xiàn),并將預(yù)測(cè)結(jié)果按照用戶(hù)興趣偏好程度或是檢索行為偏好程度進(jìn)行排序,呈現(xiàn)在用戶(hù)的檢索界面上。例如:Exlibris公司開(kāi)發(fā)的Primo檢索系統(tǒng)可根據(jù)個(gè)性化方式對(duì)檢索結(jié)果進(jìn)行排序,通過(guò)選擇不同偏好特征并賦予不同權(quán)重的方式對(duì)檢索結(jié)果進(jìn)行優(yōu)化,此外該系統(tǒng)還可以通過(guò)分析用戶(hù)的搜索日志、客戶(hù)反饋等情況,不斷增強(qiáng)和優(yōu)化Primo相關(guān)性排名技術(shù)。
檢索詞個(gè)性化預(yù)測(cè)主要是通過(guò)對(duì)用戶(hù)歷史檢索數(shù)據(jù)以及內(nèi)容偏好數(shù)據(jù)進(jìn)行學(xué)習(xí),從而對(duì)用戶(hù)即將要輸入的檢索詞進(jìn)行預(yù)測(cè),在檢索欄的下拉列表中提供與用戶(hù)檢索主題相關(guān)或者用戶(hù)可能感興趣的規(guī)范化的檢索詞,并且這些規(guī)范表達(dá)的檢索詞隨著用戶(hù)在搜索欄中添加更多檢索詞而不斷進(jìn)行調(diào)整及變化。目前,圖書(shū)館還未出現(xiàn)個(gè)性化預(yù)測(cè)檢索的相關(guān)應(yīng)用,但類(lèi)似的Google、百度等搜索引擎通過(guò)基于熱門(mén)搜索的預(yù)測(cè)搜索算法均可以實(shí)現(xiàn)對(duì)用戶(hù)的檢索查詢(xún)的預(yù)測(cè)。
3.2.2 個(gè)性化推薦
基于機(jī)器學(xué)習(xí)的個(gè)性化推薦服務(wù),是通過(guò)收集用戶(hù)的基本身份數(shù)據(jù)、內(nèi)容偏好數(shù)據(jù)、社交數(shù)據(jù)等進(jìn)行機(jī)器學(xué)習(xí),從多個(gè)維度的數(shù)據(jù)中提取用戶(hù)興趣的關(guān)鍵特征,描繪出完整的用戶(hù)畫(huà)像,進(jìn)而實(shí)現(xiàn)資源、在線(xiàn)教育、通知信息的個(gè)性化定制推送。例如:用戶(hù)是一名23歲,專(zhuān)業(yè)為計(jì)算機(jī)科學(xué)的研究生,近兩月借閱或是檢索的文獻(xiàn)主要集中于機(jī)器學(xué)習(xí)相關(guān)的專(zhuān)著、期刊及學(xué)位論文,并在豆瓣圖書(shū)中關(guān)注收藏了兩本有關(guān)機(jī)器學(xué)習(xí)前沿內(nèi)容的圖書(shū)。在通過(guò)獲取用戶(hù)上述信息進(jìn)行機(jī)器學(xué)習(xí)后,描繪出該用戶(hù)畫(huà)像,發(fā)現(xiàn)該用戶(hù)可能是關(guān)注于機(jī)器學(xué)習(xí)的學(xué)術(shù)研究型用戶(hù),因此個(gè)性化推薦系統(tǒng)會(huì)向該用戶(hù)推薦與機(jī)器學(xué)習(xí)相關(guān)的高被引期刊及碩博學(xué)位論文、權(quán)威作者的專(zhuān)著、相關(guān)國(guó)際學(xué)術(shù)會(huì)議論文以及在線(xiàn)視頻課程等在內(nèi)的資源;此外還會(huì)向用戶(hù)推送近期舉辦的關(guān)于機(jī)器學(xué)習(xí)方面的講座信息通知;個(gè)性化推薦系統(tǒng)會(huì)根據(jù)該用戶(hù)收藏關(guān)注的圖書(shū)與館藏情況進(jìn)行匹配,提示該用戶(hù)其收藏的圖書(shū)在館內(nèi)有可借復(fù)本。
類(lèi)似的個(gè)性化推薦已被阿里巴巴、美團(tuán)點(diǎn)評(píng)等電商企業(yè)廣泛應(yīng)用。目前基于機(jī)器學(xué)習(xí)的個(gè)性化推薦服務(wù)在圖書(shū)館界尚未出現(xiàn)應(yīng)用實(shí)例,但已經(jīng)有學(xué)者開(kāi)始關(guān)注機(jī)器學(xué)習(xí)在個(gè)性化推薦中的應(yīng)用[12][13],研究結(jié)果表明用戶(hù)畫(huà)像在圖書(shū)館個(gè)性化推薦方面具有一定的促進(jìn)作用。
3.2.3 個(gè)性化參考咨詢(xún)
清華大學(xué)圖書(shū)館的“小圖”、上海圖書(shū)館“圖小二”是目前圖書(shū)館界具有代表性的基于機(jī)器學(xué)習(xí)的個(gè)性化咨詢(xún)服務(wù),其實(shí)現(xiàn)方式是采用有監(jiān)督的機(jī)器學(xué)習(xí)方式,但采用這種監(jiān)督機(jī)器學(xué)習(xí)的弊端就是在訓(xùn)練模型前必須要進(jìn)行大量的數(shù)據(jù)清洗和加工工作,如果訓(xùn)練數(shù)據(jù)質(zhì)量不佳會(huì)導(dǎo)致模型出現(xiàn)偏差,常常導(dǎo)致聊天機(jī)器人的回答準(zhǔn)確度不高。若引入深度學(xué)習(xí)技術(shù),能比較好地解決這一問(wèn)題,數(shù)據(jù)加工上不需要過(guò)多處理僅進(jìn)行簡(jiǎn)單的數(shù)據(jù)分類(lèi)即可,降低了數(shù)據(jù)加工的難度。
此外,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等深度學(xué)習(xí)技術(shù),可以實(shí)現(xiàn)更多元化的智慧圖書(shū)館智能咨詢(xún)服務(wù)。卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像處理領(lǐng)域已經(jīng)取得了統(tǒng)治地位,使用CNN構(gòu)建機(jī)器學(xué)習(xí)模型不僅可以較為精確地識(shí)別圖像,而且還能理解圖像所包含的內(nèi)容及其相互關(guān)系,并通過(guò)自然語(yǔ)言表進(jìn)行表達(dá)。Google的研究成果表明,將計(jì)算機(jī)視覺(jué)和語(yǔ)言模型通過(guò)CNN與RNN網(wǎng)絡(luò)疊加進(jìn)行合并訓(xùn)練,所得到的系統(tǒng)可以自動(dòng)生成一定長(zhǎng)度的文字文本,甚至能夠完整講述一張圖片內(nèi)所包含的故事[14]。將CNN應(yīng)用于圖書(shū)館智慧咨詢(xún)服務(wù),則可以實(shí)現(xiàn)基于圖像的參考咨詢(xún),通過(guò)深度學(xué)習(xí)的圖像理解模型和聊天模型為兒童、老人等不便使用文字語(yǔ)言或是不同語(yǔ)種的用戶(hù)提供更多元化、有針對(duì)性的咨詢(xún)途徑以及更精準(zhǔn)的問(wèn)題解答。同時(shí),循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在語(yǔ)音處理方面的表現(xiàn)也十分突出,微軟公司推出的深度網(wǎng)絡(luò)語(yǔ)音識(shí)別系統(tǒng),可以對(duì)比音素更小的建模單元(senones)進(jìn)行建模,該系統(tǒng)大幅度地減少了以往語(yǔ)音識(shí)別系統(tǒng)的相對(duì)誤差,基準(zhǔn)測(cè)試字詞錯(cuò)誤率為18.5%[15]。這類(lèi)語(yǔ)音識(shí)別應(yīng)用類(lèi)似于微軟公司的Cortana語(yǔ)音助手,如果該成果應(yīng)用于圖書(shū)館中,則可以實(shí)現(xiàn)聾啞、視障人群的個(gè)性化咨詢(xún)服務(wù)。
3.3.1 采購(gòu)決策
采訪(fǎng)的決策影響著館藏資源建設(shè)的質(zhì)量,但在實(shí)踐工作中,無(wú)論是由采購(gòu)人員進(jìn)行決策還是由讀者進(jìn)行采購(gòu)決策往往都不能帶來(lái)滿(mǎn)意的效果,因此就需要將二者進(jìn)行結(jié)合,通過(guò)機(jī)器學(xué)習(xí)形成適當(dāng)?shù)牟少?gòu)模型實(shí)現(xiàn)二者的平衡,一方面通過(guò)讀者基本身份數(shù)據(jù)、歷史借閱等數(shù)據(jù)進(jìn)行學(xué)習(xí)得出讀者偏好,另一方面通過(guò)館藏情況、歷史采訪(fǎng)數(shù)據(jù)、采購(gòu)預(yù)算、文獻(xiàn)評(píng)價(jià)等形成采訪(fǎng)偏好,并通過(guò)大量訓(xùn)練進(jìn)行學(xué)習(xí)賦予讀者偏好以及采訪(fǎng)偏好不同權(quán)重形成采購(gòu)模型,為文獻(xiàn)采訪(fǎng)工作提供科學(xué)的決策依據(jù)。目前,基于機(jī)器學(xué)習(xí)的智能文獻(xiàn)采訪(fǎng)尚未在圖書(shū)館中有完整的應(yīng)用,但機(jī)器學(xué)習(xí)技術(shù)在圖書(shū)館的借閱量預(yù)測(cè)方面則可以提供一些有價(jià)值的參考。美國(guó)韋恩州立大學(xué)圖書(shū)館利用機(jī)器學(xué)習(xí)技術(shù)正在開(kāi)發(fā)一個(gè)對(duì)館藏資源的借閱預(yù)見(jiàn)分析軟件,以更好預(yù)測(cè)圖書(shū)館館藏的使用情況,這個(gè)仍在開(kāi)發(fā)中的應(yīng)用程序使用美國(guó)國(guó)會(huì)圖書(shū)館分類(lèi)號(hào)來(lái)預(yù)測(cè)書(shū)籍被借閱的可能性[16]。目前有關(guān)基于機(jī)器學(xué)習(xí)的智能采訪(fǎng)的應(yīng)用案例還未出現(xiàn),但已經(jīng)有部分學(xué)者開(kāi)始關(guān)注機(jī)器學(xué)習(xí)在圖書(shū)館采購(gòu)決策方面的應(yīng)用,主要集中在使用不同機(jī)器學(xué)習(xí)算法構(gòu)建或優(yōu)化采購(gòu)模型方面[17][18][19]。
3.3.2 文獻(xiàn)自動(dòng)分類(lèi)
自動(dòng)文本分類(lèi)應(yīng)用機(jī)器學(xué)習(xí)技術(shù),通過(guò)大量已編目的文獻(xiàn)數(shù)據(jù)進(jìn)行分詞預(yù)處理并提取特征進(jìn)行學(xué)習(xí),推理生成文獻(xiàn)分類(lèi)模型,并通過(guò)不斷的訓(xùn)練進(jìn)行修正最終得到一個(gè)分類(lèi)準(zhǔn)確率較高的模型以進(jìn)行正式文獻(xiàn)分類(lèi)工作。基于機(jī)器學(xué)習(xí)的文獻(xiàn)自動(dòng)分類(lèi)常用的方法有樸素貝葉斯法、KNN、決策樹(shù)法、SVM(支持向量)等,其中SVM是文本分類(lèi)近年來(lái)最重要的進(jìn)展之一。隨著深度學(xué)習(xí)的引入,以BP神經(jīng)網(wǎng)絡(luò)、CNN卷積神經(jīng)網(wǎng)絡(luò)等為代表的深度學(xué)習(xí)方法也開(kāi)始應(yīng)用于文獻(xiàn)自動(dòng)分類(lèi)中。王昊等將機(jī)器學(xué)習(xí)算法中的 BP 神經(jīng)網(wǎng)絡(luò)引入到書(shū)目分類(lèi)中,建立了以機(jī)器學(xué)習(xí)為基礎(chǔ)的書(shū)目層次分類(lèi)系統(tǒng)模型,并以部分類(lèi)目圖書(shū)作為樣本,對(duì)模型的可行性與合理性進(jìn)行了論證和分析[20],其研究基本解決了未進(jìn)行主題標(biāo)注情況下書(shū)目如何進(jìn)行自動(dòng)分類(lèi)的問(wèn)題。郭利敏將卷積神經(jīng)網(wǎng)絡(luò)引入到了文獻(xiàn)自動(dòng)分類(lèi),構(gòu)建了基于題名、關(guān)鍵詞的多層次卷積神經(jīng)網(wǎng)絡(luò)模型,使之能夠根據(jù)文獻(xiàn)的題名和關(guān)鍵詞自動(dòng)給出中圖分類(lèi)號(hào),并對(duì)7000多篇待加工的文獻(xiàn)做中圖法分類(lèi)預(yù)測(cè),一級(jí)分類(lèi)準(zhǔn)確率為75.39%,四級(jí)準(zhǔn)確率為57.61%[21],證明該模型有著較低的錯(cuò)誤率。基于機(jī)器學(xué)習(xí)的文獻(xiàn)自動(dòng)分類(lèi),在節(jié)省人力成本的同時(shí)保證了分類(lèi)的準(zhǔn)確性,使得文獻(xiàn)標(biāo)引工作更加自動(dòng)化、智慧化。目前,基于機(jī)器學(xué)習(xí)的文獻(xiàn)自動(dòng)分類(lèi)還處于探索研究階段,在圖書(shū)館界尚未出現(xiàn)應(yīng)用的實(shí)例。
3.3.3 智能排架
目前,圖書(shū)館普遍使用基于RFID 技術(shù)的智能圖書(shū)定位系統(tǒng)來(lái)進(jìn)行智能排架,但RFID因屏蔽或反射容易產(chǎn)生無(wú)法定位的情況。為了克服RFID的缺點(diǎn),提高定位的準(zhǔn)確率,一些學(xué)者試圖引入機(jī)器學(xué)習(xí)技術(shù)對(duì)單字符的索書(shū)號(hào)進(jìn)行字符識(shí)別,將識(shí)別后的索書(shū)號(hào)與保存的圖書(shū)架位信息進(jìn)行比較從而判斷亂架圖書(shū)的位置。陳旭等人采用多閾值及Seed-Filling 種子填充方法提取索書(shū)號(hào)區(qū)域圖像并進(jìn)行索書(shū)號(hào)分割處理,通過(guò)BP神經(jīng)網(wǎng)絡(luò)對(duì)索書(shū)號(hào)字符進(jìn)行識(shí)別,經(jīng)實(shí)驗(yàn)得出索書(shū)號(hào)符識(shí)別率達(dá)到94%,且BP神經(jīng)網(wǎng)絡(luò)相比于以往的霍夫變換法對(duì)索書(shū)號(hào)的識(shí)別率更高[22]。李俊男在原有RFID 技術(shù)的基礎(chǔ)上,設(shè)計(jì)了一個(gè)基于深度學(xué)習(xí)的圖書(shū)館架序智能識(shí)別系統(tǒng),該系統(tǒng)首先對(duì)書(shū)架RFID標(biāo)簽進(jìn)行掃描并對(duì)存在亂架情況的書(shū)架進(jìn)行拍照,經(jīng)邊緣檢測(cè)、直線(xiàn)分割對(duì)索書(shū)號(hào)區(qū)域圖像進(jìn)行字符識(shí)別和分割,通過(guò)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的字符識(shí)別模型對(duì)索書(shū)號(hào)進(jìn)行識(shí)別,比較所識(shí)別的索書(shū)號(hào)大小,以此來(lái)判斷當(dāng)前圖書(shū)的順序是否正確[23]。當(dāng)前機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)技術(shù)在圖像處理領(lǐng)域被廣泛應(yīng)用,智慧圖書(shū)將深度學(xué)習(xí)技術(shù)引入智能排架中,一方面可以解決小型圖書(shū)館因經(jīng)費(fèi)不足無(wú)法購(gòu)買(mǎi)RFID設(shè)備而無(wú)法實(shí)現(xiàn)智能排架功能的情況,另一方面也可以作為原有RFID智能圖書(shū)定位系統(tǒng)對(duì)索書(shū)號(hào)識(shí)別的輔助技術(shù)以提高定位的準(zhǔn)確率。
機(jī)器學(xué)習(xí)技術(shù)可以滲透到圖書(shū)館資源、服務(wù)、管理等各方面,提升圖書(shū)館服務(wù)及管理的智慧性。但從上述應(yīng)用場(chǎng)景來(lái)看,目前機(jī)器學(xué)習(xí)在圖書(shū)館中的實(shí)踐應(yīng)用非常少,僅僅在個(gè)性化資源檢索、個(gè)性化參考咨詢(xún)方面有少量的實(shí)踐應(yīng)用,在其他應(yīng)用場(chǎng)景方面大多還停留在研究層面,在這種背景下,圖書(shū)館如何引入機(jī)器學(xué)習(xí)技術(shù),如何推進(jìn)機(jī)器學(xué)習(xí)技術(shù)落地智慧圖書(shū)館也是當(dāng)前值得研究的問(wèn)題。
國(guó)務(wù)院發(fā)布的《新一代人工智能發(fā)展規(guī)劃》將人工智能發(fā)展提升到極高的戰(zhàn)略地位,彰顯國(guó)家層面對(duì)于人工智能發(fā)展戰(zhàn)略布局的高度重視。機(jī)器學(xué)習(xí)作為人工智能技術(shù)的重要組成部分,圖書(shū)館應(yīng)給與足夠的重視,加強(qiáng)推進(jìn)機(jī)器學(xué)習(xí)技術(shù)落地的頂層設(shè)計(jì)。由全國(guó)圖書(shū)館標(biāo)準(zhǔn)化技術(shù)委員會(huì)主導(dǎo)制定圖書(shū)館人工智能服務(wù)在資源、技術(shù)、服務(wù)等方面的具體標(biāo)準(zhǔn),對(duì)圖書(shū)館應(yīng)用機(jī)器學(xué)習(xí)等各類(lèi)人工智能技術(shù)的應(yīng)用范圍及條件、數(shù)據(jù)收集及存儲(chǔ)、監(jiān)督機(jī)制等作出明確規(guī)范,確保圖書(shū)館在政策文件指導(dǎo)下應(yīng)用機(jī)器學(xué)習(xí)技術(shù)。
在發(fā)展初期側(cè)重個(gè)性化資源檢索、知識(shí)發(fā)現(xiàn)與預(yù)測(cè)、個(gè)性化參考咨詢(xún)這類(lèi)用戶(hù)需求度較高的服務(wù);發(fā)展中期側(cè)重文獻(xiàn)自動(dòng)分類(lèi)、智能排架、古籍?dāng)?shù)字化等可以提升業(yè)務(wù)工作效率的應(yīng)用場(chǎng)景;發(fā)展后期,隨著機(jī)器技術(shù)實(shí)踐成果的經(jīng)驗(yàn)累積以及與其他人工智能技術(shù)的融合發(fā)展,可以著重在個(gè)性化推薦、智能采訪(fǎng)等高智能化應(yīng)用方面進(jìn)行落地。
在現(xiàn)階段,委托開(kāi)發(fā)、合作開(kāi)發(fā)是當(dāng)前機(jī)器學(xué)習(xí)技術(shù)落地圖書(shū)館的主要實(shí)現(xiàn)途徑。個(gè)性化資源檢索、知識(shí)發(fā)現(xiàn)與預(yù)測(cè)等對(duì)平臺(tái)數(shù)據(jù)(如:數(shù)據(jù)庫(kù)瀏覽及下載記錄等)依賴(lài)性較強(qiáng)的服務(wù)適宜采用委托開(kāi)發(fā)的方式,如:Exlibris Primo檢索系統(tǒng)、Qinsight知識(shí)發(fā)現(xiàn)平臺(tái)等都是由商業(yè)機(jī)構(gòu)進(jìn)行開(kāi)發(fā),圖書(shū)館可直接購(gòu)買(mǎi)該服務(wù)實(shí)現(xiàn)機(jī)器學(xué)習(xí)技術(shù)的應(yīng)用落地;而個(gè)性化推薦等對(duì)圖書(shū)館用戶(hù)數(shù)據(jù)(性別、年齡、借閱記錄等)及平臺(tái)數(shù)據(jù)依懶性均較強(qiáng)的服務(wù)更適宜采用合作開(kāi)發(fā)方式,由圖書(shū)館提供用戶(hù)的基本借閱信息,平臺(tái)商業(yè)機(jī)構(gòu)提供用戶(hù)在平臺(tái)瀏覽數(shù)據(jù)等信息,進(jìn)行合作開(kāi)發(fā)構(gòu)建個(gè)性化推薦服務(wù)。此外,文獻(xiàn)自動(dòng)分類(lèi)、智能采訪(fǎng)、智能排架等對(duì)圖書(shū)館業(yè)務(wù)數(shù)據(jù)依賴(lài)性較強(qiáng)但開(kāi)發(fā)專(zhuān)業(yè)度較高的應(yīng)用,在現(xiàn)階段也適宜與商業(yè)機(jī)構(gòu)進(jìn)行合作開(kāi)發(fā),圖書(shū)館應(yīng)充分參與平臺(tái)功能設(shè)計(jì)、底層架構(gòu)、系統(tǒng)對(duì)接、開(kāi)放接口應(yīng)用等模塊,實(shí)現(xiàn)圖書(shū)館豐富業(yè)務(wù)經(jīng)驗(yàn)與商業(yè)機(jī)構(gòu)先進(jìn)開(kāi)發(fā)技術(shù)的優(yōu)勢(shì)互補(bǔ)。
圖書(shū)館應(yīng)著重關(guān)注數(shù)據(jù)的獲取途徑、數(shù)據(jù)獲取的隱私保護(hù)。在數(shù)據(jù)獲取途徑方面,圖書(shū)館應(yīng)擴(kuò)大數(shù)據(jù)收集的范圍進(jìn)行多維度的數(shù)據(jù)采集,重點(diǎn)采集如:數(shù)據(jù)庫(kù)登錄頻率、登錄時(shí)間及停留時(shí)長(zhǎng)、文獻(xiàn)瀏覽及下載等在內(nèi)的數(shù)據(jù)庫(kù)使用信息,借閱、收藏、預(yù)約圖書(shū)等在內(nèi)的圖書(shū)集成管理系統(tǒng)使用信息,在線(xiàn)申請(qǐng)、預(yù)約培訓(xùn)活動(dòng)等活動(dòng)信息,咨詢(xún)FAQ、課題檢索、科技查新、代檢代查等參考咨詢(xún)平臺(tái)使用信息,以及對(duì)圖書(shū)館的微博、微信公眾號(hào)評(píng)價(jià)的反饋信息等,通過(guò)全方面、多維度的采集用戶(hù)信息,使個(gè)體用戶(hù)在不同數(shù)據(jù)間進(jìn)行互補(bǔ),增強(qiáng)用戶(hù)行為數(shù)據(jù)的可靠性,以提高用戶(hù)畫(huà)像構(gòu)建的準(zhǔn)確程度;此外,在獲取用戶(hù)行為數(shù)據(jù)的同時(shí),圖書(shū)館也有保障用戶(hù)隱私的義務(wù),在獲取用戶(hù)行為數(shù)據(jù)前,需要在資源數(shù)據(jù)庫(kù)、圖書(shū)館集成管理系統(tǒng)、活動(dòng)預(yù)約平臺(tái)、參考咨詢(xún)系統(tǒng)、微信公眾平臺(tái)等應(yīng)用平臺(tái)中對(duì)所采集用戶(hù)信息的范圍、使用目的進(jìn)行明確說(shuō)明及告知,在獲得用戶(hù)的信息使用許可后,方可進(jìn)行采集。