摘 要:數(shù)字人文環(huán)境下,《中國圖書館分類法》(以下簡稱《中圖法》)不僅僅是組織文獻分類以及編制分類檢索的工具,在信息組織和信息檢索方面,尤其是在精選信息方面仍發(fā)揮著重要的作用。文章以《中圖法》及《中國分類主題詞表》為基礎,結合《全國報刊索引》數(shù)據(jù)庫收錄文獻,在分析用戶需求基礎上,構建相關知識圖譜,并嘗試以《中圖法》為橋梁,從用戶角度出發(fā),在《中圖法》展示、檢索、研究熱點方面探索數(shù)字人文環(huán)境下《中圖法》的應用。
關鍵詞:《中圖圖書館分類法》;知識圖譜;知識組織;數(shù)字人文
中圖分類號:G254.1文獻標識碼:A
Exploring the Application of the Chinese Library Classification System in the Digital Humanities Environment
Abstract In the digital humanities environment, the Chinese Library Classification System (referred to as "CCL") serves not only as a tool for organizing document classification and retrieval but also plays a significant role in information organization and retrieval, especially in the curation of selected information. This article, based on CCL and the Chinese Thesaurus (CT), along with documents indexed in the National Newspaper Index database, constructs a relevant knowledge graph by analyzing user needs. It attempts to utilize CCL as a bridge and explores its application in the context of the digital humanities environment from a user-centric perspective, focusing on aspects such as display, retrieval, and research trends.
Key words Chinese Library Classification System (CCL); knowledge graph; knowledge organization; Digital Humanity
1 引言
數(shù)字人文環(huán)境下知識組織發(fā)揮重要的作用[1],它充當用戶與數(shù)字人文領域資源之間的橋梁[2],有利于發(fā)掘文本資源中無法看到的模式和聯(lián)系,同時為數(shù)字資源挖掘分析提供了基礎[3]。
早期的知識組織以圖書文獻為對象,突出文獻分類體系及方法的研究[4]。數(shù)字人文時代對知識組織提出了新要求,不但需要展示原有知識、結構等,更需要詮釋和發(fā)現(xiàn)新的知識和意義[5]。文獻分類體系仍是知識組織的重要組成部分,其作用不僅僅局限于文本分類,而是提出了一種新的思路,有利于揭示文獻隱含的內(nèi)容以及文獻之間的關聯(lián)[6]。
本文以《中圖圖書館分類法》(以下簡稱《中國法》)及《中國分類主題詞表》(以下簡稱《中分表》)為基礎,結合《全國報刊索引》數(shù)據(jù)庫收錄數(shù)據(jù)以及長期分類應用實踐,有針對性地探索數(shù)字人文環(huán)境下《中圖法》的應用。
2 《中圖法》簡介
《中圖法》是我國應用最為廣泛的一部文獻分類體系[7],目前使用的是第五版。它以科學分類和知識分類為基礎,結合文獻內(nèi)容特點以及外表特性進行邏輯劃分的嚴密的等級式分類體系,能夠?qū)⒅R的內(nèi)在邏輯客觀反映出來?!吨袌D法》既能反映學科專業(yè)的發(fā)展帶來的變化,又貫徹了連續(xù)性和相對穩(wěn)定性,不僅可以類分現(xiàn)代文獻,也可用以類分近代文獻。曹之先生認為學術發(fā)展的基礎性要求我們把古代學術同現(xiàn)代學術緊緊聯(lián)系在一起,而《中圖法》有利于古為今用,更有利于我們“辨章學術,考鏡源流”[8]。
《中圖法》配套有分類與主題一體化表——《中分表》,用以標識類目和主題詞概念之間的語義關系?!吨蟹直怼吠ㄟ^類目實現(xiàn)主題詞的聚集,同時利用主題詞對類目作進一步的注釋與說明[9]。此外,隱含在《中分表》中的人、時、地等信息,可以為信息抽取提供一定的助力。
3 《中圖法》研究現(xiàn)狀
目前對《中圖法》的研究主要集中在對分類規(guī)則及方法[10-11]、自動分類技術研究[12]、類目修訂[13]、不同分類法之間比較映射[14]等方面,而數(shù)字人文環(huán)境中《中圖法》具體的應用,相關研究相對較少,主要集中在《中圖法》可視化、基于《中圖法》及《中分表》構建相關本體等方面。
卜書慶在《中圖法》最終用戶版總體構思中,以資源分類排架與分類檢索功能在一部分類法中分離的思想,從類目等級樹狀顯示與圖形化顯示結合的角度,提出分面體系可視化展示方案[15]。黃淑勇參考圖書館主題分類法思想和讀者檢索習慣,構建書籍本體模型,并進行部分功能操作實驗[16]。高斌從知識組織的目的、分類理論、分類難點及應用、知識本體應用等方面探討了網(wǎng)絡發(fā)展背景下知識組織的新發(fā)展,并強調(diào)在知識組織的發(fā)展中,分類理論思維訓練處于重要地位[5]。張云中、張叢昱以《中分表》和大眾分類法為研究對象,在分析了二者互補性機理后,基于互補融合的視角提出了利用二者構建本體的方法模型,并以《中分表》散文主題與豆瓣讀書中資源為例,展示并構建散文領域本體[17]。李曉菲,郁奇以彝族典籍為例,在已有彝文古籍分類的基礎上,探討了如何構建少數(shù)民族古籍本體,從而實現(xiàn)古籍知識管理和知識創(chuàng)新[18]。段塞月以《中圖法》為框架基礎,專題性文獻分類體系為類目作為補充,構建了蒙古族文獻分類框架,并以此為基礎構建蒙醫(yī)學領域本體以及可視化實例[19]。周貞云,邱均平針對中圖分類號缺少學科分類和文獻計量的應用研究角度出發(fā),聚焦我國知識圖譜研究,以CNKI文獻作為數(shù)據(jù)樣本,根據(jù)文獻數(shù)據(jù)集、中圖號集合、中圖號矩陣的構建原理,實現(xiàn)了中圖分類號可視化的4種應用[20]。
4 《中圖法》知識圖譜構建
4.1 實體類型及屬性
知識圖譜是實現(xiàn)語義檢索的基礎和橋梁,是通過關系鏈接而形成的網(wǎng)狀知識庫;它一方面能夠通過推理實現(xiàn)概念檢索,另一方面以圖形化的方式向用戶展示經(jīng)過分類整理的結構化知識[21]。《中圖法》以及《中分表》除了可以將文獻等資源成體系的組織起來,發(fā)揮文獻組織載體的作用,其本身也是凝固的、成體系的語義知識網(wǎng)絡,從理念和作用上與知識譜圖不謀而合。本文基于此思路,構建分類體系相關知識圖譜,采用“類目”“主題詞”“文獻”的形式來進行表達,文獻又按載體形態(tài)細分為期刊、報紙、圖書,概念上設置類目、主題詞、期刊、報紙、圖書五種實體。
屬性是實體的重要元素,《中圖法》每個類目由類號、類名、類級、注釋和參照組成[22]18,其類目結構如圖1所示。其中類號為類目的標記符號,決定類目在分類體系中的位置;類級是類目的級別;注釋和參照是對類目的含義及內(nèi)容范圍、分類方法以及和其他類目關系等說明。主題詞主要包括主題詞漢語拼音、款目主題詞、注釋、主題詞英譯名、對應分類號、參照關系詞;期刊、報紙、圖書等文獻實體一般包含作者、題名、出版者、出版時間、出版地等屬性。
4.2 實體關系類型
實體關系指某一時間段內(nèi)實體之間存在的關系[23]?!吨袌D法》類目之間存在縱向關系和橫向關系。其中縱向關系主要是從屬關系,即上位類和下位類關系;橫向關系主要是類目內(nèi)容上互相關聯(lián),分為相關關系和交替關系。此外,為了增強類表靈活性,壓縮類表篇幅,《中圖法》運用了大量的類目仿分[24],不同類目之間又存在仿分關系?!吨蟹直怼酚谩坝茫╕)”“代(D)”“參(C)”“屬(S)”“分(F)”“族(Z)”等參照項描述詞間關系,其中“用(Y)”“代(D)”項表示等同關系,“參(C)”項表示相關關系,“屬(S)”“分(F)”“族(Z)”項表示從屬關系。本文主要用“用”“代”“參”“屬”作為數(shù)據(jù)關系。文獻和類目之間存在從屬關系,關鍵詞和類目之間存在指向關系,不同實體之間通過關系形成的概念圖譜詳見圖2。
5 數(shù)字人文環(huán)境下《中圖法》應用探索
5.1 數(shù)據(jù)資源選取
《全國報刊索引》數(shù)據(jù)庫創(chuàng)建于1955年,其文獻收錄范圍涉及近代報紙、期刊、圖書全文數(shù)據(jù)以及海量現(xiàn)刊索引數(shù)據(jù)[25],針對每種文獻制定相應完善的元數(shù)據(jù)規(guī)范,并進行細顆粒精細化加工。此外,《全國報刊索引》還擁有專門的文獻標引團隊,長期依托《中圖法》進行數(shù)據(jù)標引工作,尤其是現(xiàn)刊篇名庫數(shù)據(jù),標引到篇。這都為本次探索提供了良好的數(shù)據(jù)基礎,減少了數(shù)據(jù)整理、清洗等工作。而用戶瀏覽、檢索等記錄,也有利于分析用戶需求,為本次探索提供一定參考。
5.2 《中圖法》知識圖譜展示
《中圖法》最終立足點是服務用戶,用戶的了解和接受情況在某種程度上決定了《中圖法》的推廣和發(fā)展。為了解用戶對《中圖法》的了解情況,筆者在高校及圖書館共30余家單位中通過問卷形式進行調(diào)研,發(fā)現(xiàn)除圖書情報背景專業(yè)人員(含圖書館工作人員)外,86%的調(diào)研對象雖然在檢索或瀏覽信息過程中使用過《中圖法》,但對《中圖法》仍不了解或不知道使用?!吨袌D法》本身類目體系龐大,存在借號、復分等多種關系,類目的含義不是簡單的由類名和類決定,而是由整個《中圖法》語義空間體系進行限定[22]24,類目間存在相互關聯(lián)和制約,傳統(tǒng)的層級式樹形方式很難將《中圖法》空間體系形象展示出。
知識圖譜是知識工程領域的最佳實踐[26],通過可視化技術等方式將經(jīng)過梳理過、客觀的或者專家的成體系的內(nèi)容以脈絡的形式呈現(xiàn)給用戶,承擔著知識推薦、傳承的作用,在彰顯資源的生動性上發(fā)揮著無可比擬的作用[27]。如圖3所示,將《中圖法》以圖譜的形式展示出來,較為完整地呈現(xiàn)出《中圖法》相關的體系結構以及內(nèi)部關聯(lián),為用戶提供《中圖法》相關知識服務,給用戶以直觀的感受,增加用戶對《中圖法》的了解。
5.3 《中圖法》在檢索方面的應用
數(shù)字人文環(huán)境下,用戶群體和用戶需求、動機與信息行為等逐步發(fā)生變化[28-30]。目前數(shù)據(jù)檢索仍是最基本且最主要的需求,并從簡單的檢索轉向知識的有效獲取[31];需要一定的文獻組織方式,以面對多、散、亂的文獻分布情況,對收集文獻、發(fā)現(xiàn)材料及線索的要求不斷提高。
如圖4所示,將《中圖法》與用戶檢索結果相結合,輔以文獻基本信息并以可視化形式進行展示,充分發(fā)揮其文獻組織的作用,將分散的資源連接成資源網(wǎng)絡,實現(xiàn)原文和相關知識點的鏈接,揭示文獻所蘊含的知識單元,增強文獻知識之間的關聯(lián)關系。分面檢索目前已是常用的檢索功能之一。學科、類別或熱門關鍵詞已成為分面檢索的重要一個分面[32]。如圖5所示,可將《中圖法》《中分表》與分面檢索相結合,更加形象地展現(xiàn)文獻分布情況,在滿足用戶檢索和知識組織需求的同時,還能夠給用戶提供較為清晰的閱讀路線和視覺引導,滿足其對數(shù)據(jù)的探索、瀏覽和視覺享受[33]。
5.4 基于《中圖法》的研究熱點揭示
研究熱點是被用戶廣泛關注的具有重要影響力的研究話題。在數(shù)據(jù)庫方面,這些內(nèi)容某種程度上可以通過用戶檢索、瀏覽、下載等記錄反映出來;《中圖法》可以呈現(xiàn)文獻在研究主體、研究內(nèi)容上的相似度,一定程度上也可以呈現(xiàn)出研究熱點分布[34]。二者可以進行有效的結合,如將用戶檢索、瀏覽、下載記錄,通過N-gram統(tǒng)計,結合《中分表》、關鍵詞等內(nèi)容,獲得研究熱點“宋慶齡”,以知識圖譜形式將宋慶齡文獻所涉及的類目與文獻展示出來(見圖4),同時可以對研究熱點所涉及的主題詞或關鍵詞等按照類別進行共現(xiàn)分析(如圖6所示),方便用戶更準確地了解熱點整體分布,為研究人員及專家學者提供研究趨勢、前沿主題或潛在模式方面的參考。
《全國報刊索引》提供近代文獻原文數(shù)據(jù)以及現(xiàn)刊索引數(shù)據(jù),以現(xiàn)刊索引數(shù)據(jù)為基礎,以《中圖法》為橋梁,結合熱點共現(xiàn)分析、類目體系與核心作者分布以及合作關系、核心期刊研究分布等[35-36],將研究熱點與原始文獻相勾連,打通現(xiàn)刊索引數(shù)據(jù)和近代文獻原文數(shù)據(jù),形成“研究熱點-類目-文獻”知識圖譜,提高現(xiàn)刊索引數(shù)據(jù)利用率的同時,使用戶的視角從單獨的文獻上面轉而聚焦在某一領域,有助于用戶更好地把握學科研究活動的深度和廣度,在為用戶提供參考的同時,也減少了在文獻檢索中所花費的時間。
此外,還可發(fā)揮《中圖法》在文獻計量方面的作用,通過計量發(fā)現(xiàn)新問題,促進對文獻內(nèi)容的新理解[37];將《中圖法》與用戶查詢?yōu)g覽信息進行結合,輔助進行用戶畫像,進而在為用戶提供較為精準的趨勢分析、智能推薦等方面發(fā)揮作用。
6 結語
本文依托知識圖譜相關技術,構建《中圖法》相關知識圖譜,并嘗試以《中圖法》為橋梁,從用戶角度出發(fā),在《中圖法》展示、檢索、研究熱點方面探索數(shù)字人文環(huán)境下《中圖法》的應用。目前涉及實體僅有類目以及資源,后續(xù)會不斷完善作者、機構等實體。此外,數(shù)字人文環(huán)境下如何通過圖譜與用戶更好地進行交互,給用戶帶來更好的體驗并及時接受用戶反饋是研究的重點[38],后續(xù)會在界面友好型、交互性等方面進行研究。
參考文獻:
[1] 陳志新.分類法研究的十五個問題——我國2009至2016年分類法研究綜述[J].情報科學,2018,36(6):149-155.
[2] 司莉,郭財強.基于內(nèi)容分析的數(shù)字人文領域中知識組織價值體現(xiàn)研究綜述[J].圖書情報工作,2022,66(13):127-137.
[3]朱麗雅,張珺,洪亮,等.數(shù)字人文領域的知識圖譜:研究進展與未來趨勢[J].知識管理論壇,2022,7(1):87-100.
[4] 蔣勛,朱曉峰.大數(shù)據(jù)環(huán)境下領域知識組織的發(fā)展與展望[J].科技情報研究,2022,4(2):29-36.
[5] 高斌.網(wǎng)絡發(fā)展背景下的知識組織新思考[J].圖書情報導刊,2020,5(1):26-32.
[6] 賈君枝.面向數(shù)據(jù)網(wǎng)絡的信息組織演變發(fā)展[J].中國圖書館學報,2019,45(5):51-60.
[7] 卜書慶.網(wǎng)絡環(huán)境下《中圖法》發(fā)展及第五版述要[J].中國圖書館學報,2011,37(3):92-99.
[8] 丁登花.近十年古代圖書分類研究述評[J].文教資料,2012(19):87-88.
[9] 孫迪.《中國分類主題詞表》(Web版)學科主題詞相關問題探析[J].圖書館理論與實踐,2019(7):62-66.
[10] 金莉榮,楊靜.醫(yī)藥、衛(wèi)生類文獻分類難點探討及解析[J].內(nèi)蒙古科技與經(jīng)濟,2021(21):150-152.
[11] 劉瑩.《中國圖書館分類法》(第五版)中樂譜文獻分類的優(yōu)化[J].圖書館研究與工作,2023(1):44-49.
[12] 沈立力,姜鵬,王靜.基于BERT模型的中文期刊文獻自動分類實踐研究[J].圖書館雜志,2022,41(5):109-118,135.DOI:10.13663/j.cnki.lj.2022.05.014.
[13] 李軍婷.《中國圖書館分類法》(第5版)“TS19染整工業(yè)”類目存在的問題及修訂建議[J].內(nèi)蒙古科技與經(jīng)濟,2022(11):153,156.
[14] 徐雯,徐宜浩.大眾分類法與傳統(tǒng)文獻分類法的比較研究:以知乎話題和《中國圖書館分類法》為例[J].江蘇科技信息,2020,37(36):1-3.
[15] 卜書慶.《中圖法》最終用戶版體系結構及可視化研究[J].圖書館建設,2015(6):27-31.
[16] 黃淑勇. 基于大眾分類法的書籍本體構建研究[D].鄭州:鄭州大學,2015.
[17] 張云中,張叢昱.利用《《中分表》》與大眾分類法構建本體:基于融合的視角[J].情報科學,2016,34(10):49-55.
[18] 李曉菲,郁奇.基于分類的民族古籍本體構建與知識創(chuàng)新:以彝族典籍為例[J].大連民族學院學報,2008(5):465-469.
[19] 段賽月. 基于書目分類體系的蒙古族文獻本體構建研究[D].鄭州:鄭州大學,2021.
[20] 周貞云,邱均平.中圖分類號的學科應用及其可視化:以我國知識圖譜研究為例[J].現(xiàn)代情報,2022,42(5):3-12,68.
[21] 劉嶠,李楊,段宏,等.知識圖譜構建技術綜述[J].計算機研究與發(fā)展,2016,53(3):582-600.
[22] 國家圖書館《中國圖書館分類法》編輯委員會.《中國圖書館分類法》第五版使用手冊[M].北京:國家圖書館出版社,2012.
[23] 歐陽劍,梁珠芳,任樹懷.大規(guī)模中國歷代存世典籍知識圖譜構建研究[J].圖書情報工作,2021,65(5):126-135.
[24] 周文超.《中國圖書館分類法》(第五版)仿分類目再探討[J].圖書館建設,2020(6):127-133.
[25] 上海圖書館《全國報刊索引》編輯部.全國報刊索引[J].圖書館雜志,2020,39(6):2-6.
[26] 趙一鳴.知識圖譜是一種知識組織系統(tǒng)嗎?[J].圖書情報知識,2017(5):2.
[27] 鄧君.專題導語:數(shù)字人文視角下人文資源知識聚合與知識發(fā)現(xiàn)研究[J].現(xiàn)代情報,2022,42(2):3.
[28] SHAHROM M Z,MOHD S A,AHMAD K A M I,et al. Motivation for Research and Publication:Experience as a Researcher and an Academic[J].Procedia - Social and Behavioral Sciences,2011(18):213-219.
[29]王戰(zhàn)平,何文瑾,譚春輝.基于質(zhì)性分析的虛擬學術社區(qū)中科研人員合作動機演化研究[J].情報科學,2020,38(3):17-22.
[30] 段青玉,王曉光,梁夢麗.文史研究生的數(shù)字人文學術動機、需求與學術原語[J].圖書情報知識,2023,40(1):1-13.
[31] 姜冠蘭,張敏.分類主題一體化詞表的國內(nèi)研究進展述評[J].數(shù)字圖書館論壇,2020(8):15-21.
[32]胡昌平,林鑫.科技文獻檢索中基于主題詞表分面化改造的分面構建[J].情報學報,2015,34(8):875-884.
[33] 侯西龍,王曉光,段青玉.數(shù)字人文視域下文化遺產(chǎn)圖像遠讀可視化調(diào)查與分析[J].圖書情報工作,2022,66(3):54-64.
[34] 朱曉峰,蔣旭牧,張衛(wèi).領域知識組織研究的歷史演化與未來展望[J].情報資料工作,2021,42(5):23-31.
[35] 孫雨生,彭夢媛,劉濤.學科知識圖譜及其構建機理[J].科技管理研究,2022,42(20):157-162.
[36] 王麗美,宋乃慶.近二十年中國數(shù)學教育研究的熱點主題:基于科學知識圖譜的實證分析[J].數(shù)學教育學報,2022,31(5): 65-70,75.
[37] 胡恒,朱滸.數(shù)字人文與清代官僚政治史研究[J].史學月刊,2023,507(1):110-115.
[38] 李文琦.數(shù)字人文中的交互式可視化應用研究綜述[J].圖書情報知識,2022,39(5):42-55.
作者簡介:姜鵬,上海圖書館工程師,研究方向為文本分類、數(shù)字人文。
收稿日期:2023-08-17本文責編:孫曉清