吳鑫宇
(廣西民族大學管理學院,廣西 南寧 530006)
近年來,微信成為人們日常生活溝通與娛樂不可或缺的軟件。據(jù)騰訊網(wǎng)發(fā)布的2021年第一季度財報顯示,截至2021年3月21日,微信以及Wechat的合并月活躍賬戶數(shù)已達到了1241.6萬人,同比去年增長了3.3%[1],并且,越來越多的人開始使用微信公眾號進行閱讀或接受服務。微信公眾平臺所具有的泛在化的服務模式、多媒體信息推送與豐富的平臺功能,成為“互聯(lián)網(wǎng)+”時代圖書館開展服務的重要陣地[2]。使用微信進行圖書館服務解決了圖書館傳統(tǒng)線下交流的滯后性弊端,為用戶提供了可以自由交流的平臺,用戶可以自由地在平臺上進行提問、回答、瀏覽等活動,同時還有效滿足了其即時交流的需求[3]。隨著國內微信公眾號的使用人數(shù)越來越多,國內許多圖書館紛紛開設自己的公眾號為讀者服務,常見的服務功能包括座位預定、館藏查詢、在線閱讀,等等。同時,由于人們生活節(jié)奏的不斷加快,不少讀者為了節(jié)約時間,會選擇通過使用微信公眾號先選擇好自己所需的圖書,并查詢該圖書的在庫情況,再到圖書館借閱或借出圖書,這樣一來讀者可以最大程度地利用自己的碎片時間獲取圖書信息資源,省時省力。
但目前微信公眾號內的館藏互聯(lián)情況卻不甚理想,許多圖書館公眾號內的館藏信息像一個個隔海相望的孤島,其相似推薦功能無法很好地給讀者提供服務,不便于讀者利用。由于在微信公眾號中,語義關聯(lián)越強、信息組織越緊密的超文本越能實現(xiàn)關鍵信息的高效提取,滿足話語受眾需求,從而使圖書館獲得更多的話語權[4]。因此,使用語義關聯(lián)來進行圖書館公眾號的館藏互聯(lián)研究相當有必要。
經(jīng)查詢中國國家圖書館、武漢大學圖書館、廣西壯族自治區(qū)圖書館與廣西民族大學圖書館等圖書館的公眾號后發(fā)現(xiàn),這些圖書館公眾號內館藏書籍的關聯(lián)性并不理想。例如在網(wǎng)頁端的中國國家圖書館網(wǎng)站上搜索某一本書并進入該書籍的詳細信息界面,書籍信息的側方會出現(xiàn)與該書籍關聯(lián)度較高的相似書籍推薦,這便是圖書館網(wǎng)頁的相關推薦功能,其目的是深化館藏的利用而對讀者提供的服務。利用這項服務,讀者可以在線上查閱與這本書相關的其他書籍,就像在線下圖書館查看一個書架上某本書的相鄰有關書籍一樣。但是,在各個圖書館微信公眾號中,它們的相關推薦的功能卻不甚理想,且書籍、文獻之間的關聯(lián)度較弱。例如廣西民族大學圖書館微信公眾號中的相關推薦功能會時常出現(xiàn)關聯(lián)錯誤的情況:在廣西民族大學圖書館微信公眾號內使用檢索詞“閱讀推廣”進行檢索,選中第一篇文獻,出現(xiàn)的相關推薦書目推薦第1本是一本童話故事,剩下3本是古籍,這些書籍跟文獻與閱讀推廣是毫無關聯(lián)的。而中國國家圖書館的微信公眾號甚至沒有相關推薦的功能,點入查詢的某本書的相關內容內只有書籍的在庫情況信息。經(jīng)查詢中國許多著名公共圖書館與高校圖書館的微信公眾號后發(fā)現(xiàn),這些圖書館的一些服務,如書籍在庫查詢、座位預定、閱讀推廣等,往往做得很好,但在相似書籍推薦這方面卻不盡理想。隨著人們生活節(jié)奏的加快,讀者不一定能夠經(jīng)常前往圖書館查詢某一類的書籍,而讀者自己的信息需求可能會因為個人信息素養(yǎng)的不足而無法表達出來,這時候,圖書館在其公眾號提供基于語義關聯(lián)的相關推薦功能是非常有必要的。
圖書館的資源可以通過語義關聯(lián)的技術將館內的館藏根據(jù)語義關聯(lián)度的高低聯(lián)系在一起,以實現(xiàn)館藏的優(yōu)化利用。讀者在線上查詢某本圖書時,可以通過圖書館的語義關聯(lián)技術很快查詢到與之關聯(lián)的其他圖書,使讀者對圖書館的使用更加方便。圖書館所應用的語義關聯(lián)主要體現(xiàn)在名詞上,即名詞性語義關聯(lián),其主要表現(xiàn)于名詞的詞義表達。一般使用義素分析法對表述名詞進行義素分析,并找出能反映其特征的義素,義素可以是原語或概念。形式上,一個名詞可以表述為:名詞→[C]+d+m+[f]+Cp。C是有關該名詞的語義場信息,C由兩部分組成:場名和場類,即C→〈場名〉+〈場類〉。f則是該名詞所表概念的組成,即其外延,由原語式概念組成。C,f主要是為了反映概念間的聯(lián)系性,C表示同一語義場內各概念間的關系,f反映下位概念。d,m是實際性的東西,是在義素分析基礎上對該名詞概念的特征描述,d是定義性特征相對于概念中“屬”的東西,m則是描述特征相對于同一語義場內的名詞。Cp為該名詞的格潛力序列,體詞可以充當許多格角色,將它所起的格角色全部列出,并按習慣用法置入有序表中,稱之為格潛力序列[5]。并且,可以通過語義關聯(lián)度對正文語義進行檢索,語義關聯(lián)度是對每篇文獻或資料抽取幾個“關鍵字”,以便在一定程度上用這個“關鍵字”的集合來近似地表示原文的語義,實現(xiàn)在一定程度上的關聯(lián)。它可作為檢索的條件,或可作為分類的依據(jù)[6]。由于在元數(shù)據(jù)標引語言的文檔樹中,某個節(jié)點與其祖先節(jié)點都能匹配關鍵詞,因此在進行予語義相似度計算時,節(jié)點應能直接匹配關鍵詞[8],使得每一個節(jié)點都能與自己擁有相同關鍵詞的節(jié)點進行關聯(lián),以實現(xiàn)圖書館公眾號內的館藏互聯(lián)。
因此,作者基于語義關聯(lián)對圖書館微信公眾號的相似推薦功能進行研究,從元數(shù)據(jù)標注層、語義解釋層、語義存儲層與實際應用層進行設計,形成研究模型,以優(yōu)化圖書館的館藏利用,提升圖書館的服務。
由于受到軟件功能方面的限制,微信公眾號無法存儲大量的數(shù)據(jù),因此在圖書館公眾號中的許多有關資源利用的功能都需要先訪問圖書館的數(shù)據(jù)庫,數(shù)據(jù)庫返回信息后再向用戶提供服務。所以,圖書館在進行數(shù)據(jù)庫設計時,需要一個統(tǒng)一的標引語言進行標引,以達到各個應用層都能識別而不會出現(xiàn)無法識別或者識別出亂碼的情況。常見的符合自身資源特征的元數(shù)據(jù)標準有都柏林核心集(DC)、機器可讀目錄(MARC)與可擴展標記語言(XML),等等,并在統(tǒng)一的RDF框架(資源描述框架)中描述出來。資源描述框架是20世紀90年代末萬維網(wǎng)聯(lián)盟推出的一項標準框架,其初衷是為了描述網(wǎng)絡上的資源,如某個網(wǎng)站上的網(wǎng)頁的發(fā)布時間、作者、點擊數(shù),等等。在網(wǎng)絡資源的定義泛化后,RDF描述的對象也開始被無限擴大,現(xiàn)在所有網(wǎng)絡上的數(shù)據(jù)都能夠被RDF描述了[8]。由于RDF有很好的描述性,可以描述網(wǎng)絡上幾乎所有的數(shù)據(jù),因此,圖書館利用RDF框架,可以將館內的館藏資源系統(tǒng)、全面地描述出來。所以在進行模型設計時,圖書館應當使用統(tǒng)一的RDF框架進行描述,為關聯(lián)推薦的方案提供實現(xiàn)機制。個別示例如下:
如元數(shù)據(jù)描述的作者類別屬性值為“A”,則可以表述為:
如若某論文作者為馬費成,則元數(shù)據(jù)描述的作者屬性值為“馬費成”,可以表述為:
本文對圖書館語義解釋層面的設計分為2種形式混合的標引方式,其中一種是機器標引,另一種是手工標注。首先,應對圖書館數(shù)據(jù)庫內的書籍與文獻進行機器自動語義提取與采集,在經(jīng)過技術館員設定各個標準后,由計算機自行判斷資源的類型與資源的各個屬性值,之后機器再自適應地鏈接到相應的語義標注機,語義標注機根據(jù)不同的館藏類型選擇合適的語義進行標注,最后在服務器上存儲標注的語義內容。由于機器標注已經(jīng)能夠將大部分館藏準確標注,所以先進行機器標注的原因是機器標注可以最大程度地減輕館員的工作負擔,減少館員的工作壓力。但目前機器標注還具有一定的局限性,對于部分機器無法準確識別并標注的館藏,則需要館員進行手工標注。這要求館員先對比書商給出的書籍標注與機器標引后的結果,再根據(jù)自己的知識與經(jīng)驗,對該部分館藏進行深入標注。同時,館員將標注后的館藏文獻反饋到系統(tǒng)中。同時,這也是一個機器學習的過程,待語料庫內的預料資源足夠豐富,機器學習成熟到一定的階段,機器標注的準確性將達到一個很高的水平。在這種情況下,圖書館員將只需要進行小部分的手工標注甚至不需要進行手工標注。
值得說明的是,一篇文獻的語義元數(shù)據(jù)并不能僅僅通過文獻的名稱信息或者關鍵詞信息進行簡單地標注,還需要對文獻的本身內容進行深入的知識挖掘。例如:查詢羅貫中寫的《三國演義》可以關聯(lián)到陳壽所著的《三國志》,這是因為這兩本古籍名稱都有“三國”二字,程序可以將具有相同書名關鍵字的館藏聯(lián)系到一起,供讀者在進行館藏選讀時做輔助參考。但是,如果用戶搜索孫臏所著的《三十六計》,則難以關聯(lián)到孫武所寫的《孫子兵法》,或是諸葛亮所著的《兵法二十四篇》。從書籍的屬性上來說,這3本書都是兵法書,理應互相關聯(lián)。因此,對語義元數(shù)據(jù)的知識化深度標引是十分必要的。
在知識層面建立語義關聯(lián)需要對圖書館的館藏語料庫進行深度挖掘與統(tǒng)計,找尋在不同資源的語義內容并分析其共現(xiàn)頻次,一些機器難以標引的內容需要館員進行手工標注并對機器進行訓練,以達到最終實現(xiàn)機器完全自動標引的目的。
例如,根據(jù)國家的新文科建設及“十四五”開局的部署規(guī)劃,圖書館應及時轉變自身陳舊的“數(shù)字化轉型”認知觀念,明晰新時期圖書館數(shù)字化轉型的內涵與要求,積極響應國家的號召,以實現(xiàn)新時期的圖書館數(shù)字化轉型[9]。目前,國內已經(jīng)有許多圖書館人注意到了數(shù)字化轉型的重要性并展開研究。在下載率很高的新文獻中,由于篇名與關鍵詞中都未出現(xiàn)“數(shù)字化轉型”的字眼,《新冠疫情下美國大學圖書館館藏圖書的在線訪問——受控數(shù)字借閱》[10]這篇文章卻難以直觀地反映出該文章是關于圖書館數(shù)字化轉型的論文。按照現(xiàn)有的相關書目推薦系統(tǒng),該文獻難以與其他數(shù)字化轉型主題的館藏相互關聯(lián),當用戶在查詢有關“數(shù)字化轉型”文獻時,該文獻容易成為漏網(wǎng)之魚,最終造成用戶的信息需求得不到很好的滿足。通過去除該文獻中的虛詞以及無意義的實詞后,對該文獻進行深度標引以及語義分析可以發(fā)現(xiàn),該文獻詞頻較高的關鍵詞如圖1所示??梢钥闯鰣D書館、數(shù)字化、數(shù)字、轉型都為該文獻的高頻詞,即使文獻的名稱與關鍵字中都未出現(xiàn)“數(shù)字化轉型”等字眼,通過深度標引及語義分析后,該文獻依舊可以被識別出其關鍵信息,并加上“數(shù)字化轉型”的標引。因此,在深度標引后,該文獻便可以與其他數(shù)字化轉型的論文相互關聯(lián)。
圖1 詞頻分析圖
同理,也可以對《三十六計》《孫子兵法》與《兵法二十四篇》進行深度知識標引,將文獻類型標引為標記語言的<古籍><兵法>等,以實現(xiàn)并加強書籍之間的互相關聯(lián)。
語義存儲層指的是將語義解釋層標注后的文獻信息以規(guī)定的格式儲存到圖書館的數(shù)據(jù)庫中,供實際應用層進行訪問。圖書館一般使用通用的XML語言對館藏的元數(shù)據(jù)進行標引,因此本文以XML語言為例對儲存層面的設計進行舉例說明。需要說明的是,一個能夠良好運行的系統(tǒng)需要統(tǒng)一的語言進行編寫,否則運行時系統(tǒng)會出現(xiàn)許多麻煩。因此,語義存儲層必須從頭到尾都使用同一種標引語言來進行編寫,否則在進行統(tǒng)一存儲后會出現(xiàn)館藏信息無法識別的情況,進一步導致用戶的體驗降低,讀者的信息需求得不到滿足等缺陷產(chǎn)生。并且在整個系統(tǒng)完成后,其修改的過程也比較煩瑣,如果是用了好幾種不同的標引語言進行編寫,則需要技術館員花費大量的精力修改不一致的編寫語言,甚至會出現(xiàn)整個語義存儲層都要重新編寫的情況,費時費力。
使用XML語言進行編寫的示例如下:
圖書館公眾號的實際應用層指的是用戶在使用圖書館公眾號時直接使用的界面。與其他界面不同,用戶可以直接看到實際應用層的設計部分,因此,該部分設計的好壞能夠直接影響到讀者的用戶體驗。圖書館公眾號的界面需做到簡潔、有序,且欄目的設置要清晰、明確。在注重內容的同時,還要加大力度做好編輯美化工作[11]。在設計圖書館公眾號的書目詳細資料界面時,應設計得得體、美觀。由于受手機屏幕為長方形的限制,將相關推薦的分欄如主機端一般放在館藏信息的右側將會使館藏信息變得過長,影響界面美觀及閱讀體驗。因此,相關推薦分欄應放在詳細書目信息的下方。資料界面應當設計簡潔,不宜過于復雜,相關的館藏推薦應控制在8個以內,可以以語義關聯(lián)度的高低排列出現(xiàn),也可以根據(jù)圖書館各自的考量自行安排。出于美觀的考慮,相關推薦設計的數(shù)量不宜為單數(shù)。相關推薦處可以使用查詢語句對圖書館的數(shù)據(jù)庫進行訪問,再由數(shù)據(jù)庫發(fā)回信息反饋給讀者,如:
SELECT
各圖書館還可以根據(jù)自己的理解對關聯(lián)信息語義元數(shù)據(jù)進行不同的加權,使得相關推薦的書目更加合理,如
整個模型的設計結構為先將館藏資源通過機器標引或人工標引,再通過深度的知識挖掘與語義關聯(lián)分析進行解釋,最終進入語義存儲層,以上是圖書館數(shù)據(jù)庫層面的部分。接下來存儲層根據(jù)應用層發(fā)出訪問要求返回數(shù)據(jù),最終將信息傳遞給用戶。總體模型設計圖如圖2所示。
圖2 館藏互聯(lián)模型圖
目前國內圖書館的微信公眾號使用人數(shù)越來越多,越來越多的讀者開始使用公眾號接受圖書館的服務。在“互聯(lián)網(wǎng)+”的環(huán)境下,年輕人大部分時間都是用手機和電腦進行閱讀,用手機在微信群里閱讀朋友圈的分享信息鏈接,瀏覽新聞等成了休閑閱讀最常見的方式[12]。因此,圖書館的公眾號建設變得愈發(fā)重要。然而,圖書館公眾號內的館藏信息存在著館藏關聯(lián)性弱的問題,當用戶在搜索某一個類型的文獻時,單個館藏難以或無法關聯(lián)到其他相似的文獻。這種情況的出現(xiàn)不利于館藏的合理利用,也使得圖書館未能向用戶提供細致、便捷的服務。因此,圖書館可以通過對語義的挖掘來將相似館藏連接起來,在讀者搜索文獻時能夠輔助讀者找到自己最想要的文獻。本文基于語義關聯(lián)建立了一個針對微信公眾號的館藏互聯(lián)模型,從元數(shù)據(jù)標注層、語義解釋層、語義存儲層與實際應用層進行設計,圖書館公眾號可以向統(tǒng)一標引語言的圖書館數(shù)據(jù)庫發(fā)送請求信息,待信息返回后將關聯(lián)的館藏信息呈現(xiàn)給讀者,最終實現(xiàn)優(yōu)化館藏資源的利用與更好地為圖書館用戶服務的目的。