孫紹丹,鄧 君,張子姝,鐘楚依,盛盼盼
(吉林大學(xué)管理學(xué)院,長(zhǎng)春 130022)
近代報(bào)紙作為中國(guó)近代史研究的寶貴資料,具備極高的史料價(jià)值和文獻(xiàn)價(jià)值。目前諸多公立圖書館及其他商業(yè)機(jī)構(gòu)等都在積極推進(jìn)近代報(bào)紙資源的數(shù)字化建設(shè)。其中有代表性的有國(guó)家圖書館建設(shè)的 《中國(guó)歷史文獻(xiàn)總庫(kù)·近代報(bào)紙數(shù)據(jù)庫(kù)》、上海圖書館開發(fā)的《全國(guó)報(bào)刊索引》、中國(guó)臺(tái)灣得泓公司等開發(fā)的 《申報(bào)》和 《大公報(bào)》 等數(shù)據(jù)庫(kù)、中國(guó)社科院等聯(lián)合建設(shè)的抗日戰(zhàn)爭(zhēng)與近代中日關(guān)系文獻(xiàn)數(shù)據(jù)平臺(tái)、愛如生中國(guó)近代報(bào)刊庫(kù)等。這些報(bào)紙數(shù)據(jù)庫(kù)項(xiàng)目開啟了國(guó)內(nèi)近代報(bào)紙數(shù)字化建設(shè)的先河,通過(guò)數(shù)字加工、縮微復(fù)制、知識(shí)庫(kù)構(gòu)建等方式,為近代報(bào)紙的長(zhǎng)期保存和高效利用奠定了基礎(chǔ)。隨著數(shù)字技術(shù)的更新迭代,近代報(bào)紙資源的數(shù)字化開發(fā)有了更多可能性,資源利用更加高效。同時(shí),用戶也不再滿足于單一表層的資源檢索,迫切需要多樣深層關(guān)聯(lián)的資源檢索與發(fā)現(xiàn)。目前,國(guó)內(nèi)近代報(bào)紙資源庫(kù)具有一定的實(shí)踐,但總體來(lái)說(shuō)這些報(bào)紙資源庫(kù)的組織多以傳統(tǒng)樹狀結(jié)構(gòu)為主,通過(guò)正文檢索和圖片檢索獲取報(bào)紙內(nèi)容,資源關(guān)聯(lián)程度低,資源“孤島”現(xiàn)象嚴(yán)重,且檢索形式單一,尚未構(gòu)成完整的知識(shí)體系和架構(gòu),導(dǎo)致用戶在檢索時(shí)無(wú)法快速定位目標(biāo)內(nèi)容,致使報(bào)紙資源利用率相對(duì)低下。本文將知識(shí)元概念融入到近代報(bào)紙資源主題知識(shí)組織研究中,在主題層和資源層之間引入知識(shí)元及其關(guān)聯(lián)關(guān)系,構(gòu)建以主題為核心的近代報(bào)紙資源主題圖,圍繞主題組織內(nèi)容,深層標(biāo)引報(bào)紙?jiān)獢?shù)據(jù)特征,深度揭示報(bào)紙資源知識(shí)結(jié)構(gòu),并挖掘報(bào)紙資源之間的語(yǔ)義關(guān)聯(lián)性,實(shí)現(xiàn)資源鏈?zhǔn)酵卣购椭R(shí)聚合,為報(bào)紙資源的深度組織與開發(fā)提供參考路徑。
近代報(bào)紙資源知識(shí)組織研究現(xiàn)狀可以從實(shí)踐和理論兩個(gè)層面進(jìn)行梳理。在實(shí)踐工作方面,目前,近代報(bào)紙數(shù)字化工作主要以構(gòu)建專題報(bào)紙數(shù)據(jù)庫(kù)為主,如美國(guó)國(guó)會(huì)圖書館建設(shè)的數(shù)字報(bào)紙計(jì)劃(NDNP),旨在創(chuàng)造一個(gè)在線歷史報(bào)紙知識(shí)庫(kù),實(shí)現(xiàn)全文檢索目標(biāo)[1];荷蘭國(guó)家圖書館構(gòu)建了1922—1994 年160 萬(wàn)個(gè)報(bào)紙數(shù)據(jù)的數(shù)字化報(bào)紙檔案庫(kù)[2],包含注釋豐富的歷史報(bào)紙收藏和分面搜索界面;歐洲圖書館聯(lián)盟Europeana 收錄了1 000 多萬(wàn)份報(bào)紙資源,尤其是第一次世界大戰(zhàn)期間出版的報(bào)紙,借助OCR、布局分析、文章分割、命名實(shí)體識(shí)別(NER)和頁(yè)面類識(shí)別等細(xì)化技術(shù),構(gòu)筑成報(bào)紙知識(shí)庫(kù),并對(duì)細(xì)化步驟進(jìn)行質(zhì)量評(píng)測(cè)[3];中國(guó)國(guó)家圖書館于2014 年開啟民國(guó)報(bào)紙縮微化和數(shù)字化工作[4],利用OCR 技術(shù),建設(shè)了近代報(bào)紙數(shù)據(jù)庫(kù),提供檢索下載服務(wù)。以上近代報(bào)紙數(shù)字化項(xiàng)目一定程度上推動(dòng)了報(bào)紙資源的利用和開發(fā),但在知識(shí)組織方面略顯不足,其數(shù)據(jù)庫(kù)檢索方式大多以單一匹配內(nèi)容為主,缺乏對(duì)資源進(jìn)行關(guān)聯(lián)分析、鏈?zhǔn)浇M織,限制了報(bào)紙資源隱性知識(shí)的挖掘。
理論研究方面,目前主要聚焦于報(bào)紙搶救及長(zhǎng)期保存、報(bào)紙數(shù)字化過(guò)程中數(shù)據(jù)質(zhì)檢、數(shù)據(jù)噪音等問(wèn)題以及報(bào)紙資源元數(shù)據(jù)及內(nèi)容挖掘等研究。如KRAHMER 以北德克薩斯大學(xué)和斯坦福大學(xué)的合作項(xiàng)目The Texas Digital Newspaper Program(TDNP)為例,闡述報(bào)紙數(shù)字化保存策略[5];陳桂香則以地方近代報(bào)紙數(shù)字化建設(shè)為例,探討其數(shù)字化技術(shù)和工具、分析數(shù)字化報(bào)紙的必要性和優(yōu)勢(shì),并提出搶救近代報(bào)紙的相關(guān)建議[6];JARLBRINK 等分析了瑞典國(guó)家圖書館在歷史報(bào)紙數(shù)字化過(guò)程中的數(shù)字噪音問(wèn)題[7],如光學(xué)字符識(shí)別(OCR)識(shí)別質(zhì)量參差不齊、載體形態(tài)轉(zhuǎn)換價(jià)值丟失、數(shù)字外包質(zhì)量控制風(fēng)險(xiǎn)等。元數(shù)據(jù)研究方面,F(xiàn)AFALIOS 等以1987—2007 年紐約時(shí)報(bào)為數(shù)據(jù)源,采用檔案描述元數(shù)據(jù)和語(yǔ)義信息構(gòu)建RDF 圖,試圖解決報(bào)紙檔案資源的語(yǔ)義信息檢索問(wèn)題[8];BOGAARD 等通過(guò)日志分析法探討了荷蘭國(guó)家圖書館歷史報(bào)紙?jiān)獢?shù)據(jù)在用戶搜索行為方面的效用,識(shí)別用戶的搜索模式[9]。內(nèi)容挖掘技術(shù)方面,學(xué)者們主要借助自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等方法,首先對(duì)報(bào)紙資源進(jìn)行OCR 識(shí)別[10],改進(jìn)OCR 算法,提高文本識(shí)別準(zhǔn)確率,進(jìn)而從主題角度挖掘報(bào)紙內(nèi)容特征,如報(bào)紙中記錄的洪水內(nèi)容、自動(dòng)識(shí)別報(bào)紙中關(guān)于詩(shī)歌記載[11]、透過(guò)報(bào)紙的新聞報(bào)道觀摩城市動(dòng)態(tài)演變[12]、報(bào)紙報(bào)道中性別偏見量化研究[13]、報(bào)紙中對(duì)野生動(dòng)物保護(hù)觀念歷時(shí)性分析[14]等。
綜上,國(guó)內(nèi)外學(xué)者在近代報(bào)紙資源知識(shí)組織理論和實(shí)踐方面有較多探索,但在如何實(shí)現(xiàn)報(bào)紙資源多維關(guān)聯(lián)檢索方面探討不足。為了充分發(fā)揮報(bào)紙資源的珍貴史料價(jià)值,彌補(bǔ)當(dāng)前研究空白,本文引入知識(shí)元概念,知識(shí)元是知識(shí)的基本組分,是構(gòu)造知識(shí)系統(tǒng)的核心,是知識(shí)在微觀領(lǐng)域的存在形態(tài),通過(guò)將知識(shí)元與主題圖結(jié)合,能夠從多層次和多粒度視角構(gòu)建以主題為核心要素的近代報(bào)紙資源主題圖,以此揭示報(bào)紙資源之間的深層關(guān)聯(lián)性,實(shí)現(xiàn)報(bào)紙資源多維檢索,提高報(bào)紙資源利用率。
主題圖是ISO/IEC13250 國(guó)際標(biāo)準(zhǔn)規(guī)范中用于組織大量非結(jié)構(gòu)化信息的工具,通過(guò)整合信息資源,揭示資源特征,實(shí)現(xiàn)知識(shí)元之間的鏈接,構(gòu)建領(lǐng)域知識(shí)體系,提高知識(shí)的集約化利用效率。目前,主題圖在多個(gè)領(lǐng)域都有所應(yīng)用,主要以知識(shí)組織和管理為主。①在傳統(tǒng)文化領(lǐng)域:以京劇、昆曲為例,借助主題圖可視化直觀展示京劇和昆曲的歷史淵源、傳承脈絡(luò)等屬性[15];探討邯鄲地方文獻(xiàn)、土家學(xué)地域知識(shí)的主題及主題關(guān)聯(lián)[16,17]。②在圖書館信息資源領(lǐng)域:構(gòu)建數(shù)字圖書館信息資源主題圖模型[18]或圖書館特色資源知識(shí)地圖[19],揭示圖書館信息資源之間的關(guān)聯(lián)路徑,助力資源組織,提高資源利用效率。③在電子政務(wù)領(lǐng)域:聚焦于政務(wù)信息主題地圖門戶建設(shè)[20]、隱性政務(wù)信息資源開發(fā)[21]、政務(wù)信息資源組織[22]等研究。此外,主題圖在旅游文化信息[23]、教育信息[24]、消防應(yīng)急信息[25]、健康信息[26]等方面都有所應(yīng)用。
綜上,主題圖技術(shù)較為成熟,應(yīng)用領(lǐng)域廣泛,但對(duì)近代報(bào)紙資源尚未有所應(yīng)用??紤]到近代報(bào)紙資源分布分散、資源類型多樣、且缺少規(guī)范的知識(shí)組織體系等特征。本文嘗試將主題圖引入到近代報(bào)紙資源知識(shí)組織中,以揭示報(bào)紙主題概念之間的關(guān)聯(lián)關(guān)系,聚合報(bào)紙資源相關(guān)內(nèi)容,查詢定位知識(shí)概念所在位置,進(jìn)而整合報(bào)紙知識(shí),實(shí)現(xiàn)報(bào)紙資源的個(gè)性化導(dǎo)航和高效利用。
主題圖作為一種知識(shí)組織方式,與索引思想密切相關(guān),其前身是主題導(dǎo)航地圖(Topic Navigation Maps),包含主題(Topic)、關(guān)聯(lián)(Associations)、資源指引(Occurrence)、范圍(Scope)、標(biāo)記(Identity)、分面(Facet)等組成要素。主題泛指實(shí)體、概念等能引起討論的對(duì)象,主題類型是主題所歸屬的類別,同一主題可以有多個(gè)主題名稱;關(guān)聯(lián)是指主題之間關(guān)系,可以是一對(duì)一、一對(duì)多和多對(duì)多關(guān)系,相同關(guān)聯(lián)關(guān)系可以歸結(jié)為一個(gè)關(guān)聯(lián)類型,每個(gè)主題在關(guān)聯(lián)關(guān)系中扮演的角色被稱為“角色類型”(Role Type);資源指引是指每個(gè)主題具有的屬性特征,用來(lái)描述資源特性,可以是圖片、視頻、主題評(píng)論等;范圍用來(lái)限制主題概念的定義范圍;身份識(shí)別主要用于主題圖合并。在主題圖中,最關(guān)鍵的三要素分別是主題、相關(guān)關(guān)系和資源指引(圖1),每個(gè)圓形節(jié)點(diǎn)表示一個(gè)主題,圓形節(jié)點(diǎn)之間連線表示主題之間相關(guān)關(guān)系,下方橢圓形內(nèi)不同形狀節(jié)點(diǎn)表示主題所具備的資源屬性,整個(gè)圖形表達(dá)了主題之間復(fù)雜的網(wǎng)狀關(guān)系。
圖1 主題圖三要素構(gòu)成[27]Fig.1 Construction of three elements of a topic map
本文使用挪威Ontopia 公司開發(fā)的主題映射工具Ontopia 構(gòu)建主題圖,該工具既可以顯示文本主題映射,如主題、關(guān)聯(lián)和相關(guān)主題以及資源屬性,也可以提供清晰靈活的圖形可視化工具,顯示主題間的關(guān)聯(lián)類型和主題類型。Ontopia 廣泛應(yīng)用于主題圖引擎、主題圖編輯器、主題圖瀏覽工具、主題圖可視化工具、Web 編輯框架、主題圖導(dǎo)航框架和Web 服務(wù)接口等場(chǎng)景。本文在創(chuàng)建近代報(bào)紙資源主題圖時(shí)主要使用了主題圖編輯器Ontopoly 和主題圖可視化工具Vizigator,其中Ontopoly 包括4 個(gè)模塊:Description(說(shuō)明)、Admin(管理)、Ontopoly(本體編輯器)及Instances(實(shí)例編輯器)。
筆者調(diào)研了國(guó)內(nèi)比較知名且應(yīng)用較為廣泛的8 個(gè)近代報(bào)紙資源平臺(tái),梳理其報(bào)紙資源檢索模式(表1)。由表1 可知,各個(gè)平臺(tái)主要以近代報(bào)紙資源形式特征檢索為主,如題名、作者、出版時(shí)間、出版年等基礎(chǔ)信息。在報(bào)紙內(nèi)容特征方面的揭示,《全國(guó)報(bào)刊索引》深入到報(bào)紙正文和圖片信息,南京大學(xué)CCAA 將報(bào)紙廣告內(nèi)容單獨(dú)建庫(kù)。因此,可以看出,尚未有一個(gè)平臺(tái)完整地解構(gòu)了近代報(bào)紙資源內(nèi)容,往往以單一化檢索模式為主,缺乏完整的資源檢索體系,且資源之間缺少關(guān)聯(lián)和耦合。鑒于此,本文將結(jié)合表1 內(nèi)容,從近代報(bào)紙資源形式和內(nèi)容特征兩大方面來(lái)描述報(bào)紙資源。
表1 國(guó)內(nèi)近代報(bào)紙資源平臺(tái)Table 1 The platform of Chinese modern newspaper resources
本小節(jié)將參考3.1 近代報(bào)紙資源平臺(tái)調(diào)研情況,并閱讀平臺(tái)所呈現(xiàn)的近代報(bào)紙內(nèi)容,提煉出22 個(gè)近代報(bào)紙資源形式特征(表2)。在近代報(bào)紙資源內(nèi)容特征方面,將報(bào)紙資源分為政治主題、經(jīng)濟(jì)主題、軍事主題、社會(huì)活動(dòng)主題、詩(shī)詞歌賦主題、自然災(zāi)害主題六大主題類型,并融入“知識(shí)元”概念構(gòu)建近代報(bào)紙資源主題-知識(shí)元-資源指引圖(圖2),即在主題和資源層加入知識(shí)元及其關(guān)聯(lián)關(guān)系(圖3),不同主題類型均涉及五大知識(shí)元相關(guān)內(nèi)容,且知識(shí)元實(shí)體之間存在關(guān)聯(lián),如人物與機(jī)構(gòu)、時(shí)間、空間、職官等。在資源指引層,主要揭示知識(shí)元實(shí)體的屬性特征,如人物知識(shí)元具備姓名、字、性別、出身、突出業(yè)績(jī)、任職方式和個(gè)人圖片等屬性特征,通過(guò)將知識(shí)元引入主題圖構(gòu)建過(guò)程中,旨在揭示不同主題類型下近代報(bào)紙資源內(nèi)容多維語(yǔ)義特征。
圖2 近代報(bào)紙資源主題-知識(shí)元-資源指引圖Fig.2 Topic-knoweldge element-resource occurrence map of modern newspaper resources
圖3 近代報(bào)紙知識(shí)元層關(guān)聯(lián)關(guān)系Fig.3 Relation associaitons of modern newspapers at the level of knowledge elements
表2 近代報(bào)紙資源形式特征Table 2 Characteristics of the forms of modern newspaper resources
本文抽取報(bào)紙資源主題類型,構(gòu)建主題關(guān)系及確定主題資源指引,形成完整系統(tǒng)的近代報(bào)紙資源主題圖。具體構(gòu)建流程如圖4 所示。
圖4 近代報(bào)紙資源主題圖構(gòu)建流程Fig.4 Process of topic map construction of modern newspaper resources
4.3.1 確定主題類型
近代報(bào)紙資源內(nèi)容包羅萬(wàn)象,且具有濃厚的時(shí)代印記和地域特色,其主題類型也呈現(xiàn)多樣化特征。本文參照表2 和圖2 內(nèi)容來(lái)定義近代報(bào)紙資源主題類型,并從近代報(bào)紙資源形式特征和內(nèi)容特征兩大方面描述其內(nèi)容(表3)。其中形式特征包含:報(bào)紙所屬類別、語(yǔ)種、出版周期、國(guó)別、版次、保存格式和欄目,說(shuō)明字段是對(duì)主題類型值做進(jìn)一步地解釋。內(nèi)容特征方面將近代報(bào)紙內(nèi)容主題劃分為政治、經(jīng)濟(jì)、軍事、社會(huì)活動(dòng)、詩(shī)詞歌賦、自然災(zāi)害六大類,并抽取人物、機(jī)構(gòu)、時(shí)間、空間、職官五大知識(shí)元,梳理其關(guān)系及屬性,以揭示近代報(bào)紙內(nèi)容特征。
表3 近代報(bào)紙資源主題類型定義Table 3 Definitions of types of topics of modern newspaper resources
4.3.2 確定關(guān)聯(lián)類別
近代報(bào)紙資源主題類型確定后,需要考慮主題之間的關(guān)聯(lián)關(guān)系,將分散獨(dú)立的主題聚合關(guān)聯(lián),建立近代報(bào)紙資源知識(shí)網(wǎng)絡(luò),實(shí)現(xiàn)近代報(bào)紙知識(shí)互聯(lián)。關(guān)聯(lián)類別同樣從報(bào)紙形式和內(nèi)容特征兩方面來(lái)描述(表4),其中形式特征包括報(bào)紙與歸屬類別、國(guó)別、語(yǔ)種、出版周期、版次、保存格式和欄目關(guān)聯(lián)。內(nèi)容特征中,主要指人物、機(jī)構(gòu)、時(shí)間、空間、職官知識(shí)元實(shí)體之間的關(guān)聯(lián)關(guān)系(表4)。
表4 近代報(bào)紙資源主題之間關(guān)聯(lián)關(guān)系說(shuō)明Table 4 Association between topics of modern newspaper resources
4.3.3 確定資源指引
主題圖通過(guò)資源指引功能鏈接到特定主題的相關(guān)信息,方便用戶查找瀏覽。資源指引主要描述了資源所具有的屬性特性,類型往往以文字描述、圖像、日期、視頻和鏈接等為主。本文從近代報(bào)紙資源形式和內(nèi)容特征兩方面總結(jié)歸納了多種近代報(bào)紙資源指引類型(表5)。
表5 報(bào)紙資源指引描述Table 5 Occurrence type description of newspaper resources
本小節(jié)在3.3 基礎(chǔ)上采用Ontopia 工具中Ontopoly本體編輯器,錄入近代報(bào)紙資源主題類型(Topic Types)、關(guān)聯(lián)關(guān)系(Association Types)、資源指引(Occurence Types),生成主題圖元素構(gòu)造圖(圖5)。利用Instances 實(shí)例編輯器將近代報(bào)紙實(shí)例數(shù)據(jù)依次添加到元素構(gòu)造圖中,生成相應(yīng)的主題圖。
圖5 主題圖編輯器構(gòu)造主題圖元素Fig.5 Elements of a topic map constructed by an editor tool
采用Ontopia 中Vizigator 可視化工具,生成報(bào)紙資源主題連接圖,非線性地呈現(xiàn)網(wǎng)絡(luò)的主題及其關(guān)系,讓用戶自由探索主題空間。Vizigator 提供局部控制參數(shù)供用戶選擇,設(shè)定主題圖中圍繞焦點(diǎn)主題展示的關(guān)聯(lián)維度,即主題之間的層級(jí)關(guān)系深度,如以近代報(bào)紙為核心焦點(diǎn),報(bào)紙到政治主題屬于1 級(jí)關(guān)聯(lián),近代報(bào)紙到政治主題-機(jī)構(gòu)知識(shí)元屬于2 級(jí)關(guān)聯(lián)。在主題圖中,用戶也可以實(shí)現(xiàn)主題詞檢索,搜索結(jié)果會(huì)以核心主題為軸心,輻射直接關(guān)聯(lián)的主題和關(guān)系,從而將圍繞某一主題的所有關(guān)聯(lián)主題聚合,便于用戶精準(zhǔn)定位資源信息。例如,以近代報(bào)紙為核心焦點(diǎn)主題,可視化主題圖(圖6),周圍輻射與近代報(bào)紙1 級(jí)關(guān)聯(lián)的主題、關(guān)系及資源指引,形成一個(gè)網(wǎng)狀結(jié)構(gòu)的近代報(bào)紙資源主題圖,直觀再現(xiàn)了近代報(bào)紙資源形式和內(nèi)容特征之間的關(guān)聯(lián)性,使報(bào)紙資源知識(shí)內(nèi)容得以優(yōu)化組織,實(shí)現(xiàn)資源的鏈?zhǔn)酵卣购屯瑢傩灾R(shí)的聚合。主題標(biāo)簽上方數(shù)值表示未顯示的與該主題1 級(jí)關(guān)聯(lián)的主題數(shù)量,連線表示主題之間的關(guān)系,鼠標(biāo)放置連線處會(huì)顯示關(guān)系類別,且同一主題類型顏色一致,方便用戶區(qū)分識(shí)別。
圖6 以近代報(bào)紙為核心焦點(diǎn)主題的主題圖Fig.6 A topic map with modern newspapers as the core
《盛京時(shí)報(bào)》 是日本人中島真雄于1906 年10 月18日在沈陽(yáng)創(chuàng)辦的中文報(bào)紙,于1944 年??T摽試?guó)內(nèi)時(shí)事和評(píng)論為主,主要匯聚了東北地區(qū)金融、商貿(mào)、交通、教育、文學(xué)等許多方面的信息,是研究東北軍民抗日史、北洋軍閥史以及中國(guó)近代史彌足珍貴的史料。本章節(jié)以 《盛京時(shí)報(bào)》 為例,構(gòu)建主題圖模型,旨在實(shí)現(xiàn)《盛京時(shí)報(bào)》 知識(shí)內(nèi)容的組織和聚合。
5.2.1 《盛京時(shí)報(bào)》 主題圖元素生成
采用Ontopoly 編輯工具生成 《盛京時(shí)報(bào)》 主題圖元素(圖7)。圖7 揭示了 《盛京時(shí)報(bào)》 報(bào)名、目錄信息、關(guān)鍵詞、出版者、出版地、出版日期等基礎(chǔ)性信息,以及六大類主題類型,即政治、經(jīng)濟(jì)、軍事、社會(huì)活動(dòng)、詩(shī)詞歌賦及自然災(zāi)害,此外也列舉了報(bào)紙相關(guān)形式特征主題類型,如報(bào)紙欄目、所屬國(guó)別、出版周期、版次、及語(yǔ)種等。
圖7 《盛京時(shí)報(bào)》 主題圖元素Fig.7 Elements of a topic map of Shengjing Times
5.2.2 《盛京時(shí)報(bào)》 主題圖繪制
采用Vizigator 繪制以 《盛京時(shí)報(bào)》 為起始點(diǎn)的主題圖(圖8),檢索以 《盛京時(shí)報(bào)》 為核心軸點(diǎn)的主題圖,中心黃色高亮部分表示起始節(jié)點(diǎn) 《盛京時(shí)報(bào)》,同一顏色表示同一類別,點(diǎn)擊 《盛京時(shí)報(bào)》 所屬“近代報(bào)紙”主題類型后,近代報(bào)紙相關(guān)主題類型、主題關(guān)系顯示。圖8 展現(xiàn)了報(bào)紙實(shí)例化后 《盛京時(shí)報(bào)》 主題知識(shí)的聚合和延展,清晰直觀地凸顯出主題圖對(duì)于信息組織的優(yōu)勢(shì)。
圖8 《盛京時(shí)報(bào)》 主題圖Fig.8 Topic map of Shengjing Time
如果將圖8 《盛京時(shí)報(bào)》 為核心節(jié)點(diǎn)的其他信息與近代報(bào)紙對(duì)應(yīng)屬性整合,可以得到圖9。同一顏色表示同一類別,如 《盛京時(shí)報(bào)》 報(bào)紙欄目、報(bào)紙所屬類別、報(bào)紙版次、報(bào)紙歸屬國(guó)別、報(bào)紙出版周期、報(bào)紙保存格式、報(bào)紙語(yǔ)種所有屬性信息均以“聚合”方式展現(xiàn),方便查看。與圖8 相比,圖9 對(duì)信息進(jìn)行深層整合處理,同類別主題聚合在一起,雖然圖形看起來(lái)較為復(fù)雜,但在操作界面中用戶可以自由選擇目標(biāo)主題,點(diǎn)擊標(biāo)簽實(shí)現(xiàn)收放功能,獲取目標(biāo)信息。該主題圖揭示了 《盛京時(shí)報(bào)》 形式和內(nèi)容特征,將相似主題內(nèi)容聚合成簇,實(shí)現(xiàn)資源的鏈?zhǔn)酵卣?,滿足用戶瀏覽、查看、檢索需求,推動(dòng) 《盛京時(shí)報(bào)》 的組織利用與共享。圖10 是將《盛京時(shí)報(bào)》 中“政治主題”類型單獨(dú)檢索出,可以看出圍繞五大知識(shí)元及其關(guān)聯(lián)關(guān)系展開,如實(shí)例“開放北滿商埠電文”涉及機(jī)構(gòu)“東三省電報(bào)總局”、人物“孟憲彝”、職官“太守”、時(shí)間“光緒三十二年十一月初三日”,地點(diǎn)是“長(zhǎng)春”。
圖9 《盛京時(shí)報(bào)》 擴(kuò)展主題圖Fig.9 Expanded topics'map of Shengjing Times
圖10 《盛京時(shí)報(bào)》“政治主題”為核心的主題圖Fig.10 A topic map of political topics of Shengjing Times
5.2.3 《盛京時(shí)報(bào)》 主題圖輸出
本文通過(guò)添加 《盛京時(shí)報(bào)》 實(shí)例,將構(gòu)建好的主題地圖以XTM2.0 格式輸出,輸出部分代碼如圖11所示。Ontopia 支持LTM、XTM1.0、XTM2.0、XTM2.1或RDF 格式輸出主題地圖。LTM(Linear Topic Map Notation)是由Ontopia 公司開發(fā)的一種主題地圖語(yǔ)法,也被其他主題地圖程序使用。XTM(XML Topic Maps)語(yǔ)法是主題地圖的ISO 標(biāo)準(zhǔn),RDF 是一種用于表示萬(wàn)維網(wǎng)中有關(guān)資源信息的語(yǔ)言。主題圖以特定格式如XTM、RDF 輸出后,可以在互聯(lián)網(wǎng)上實(shí)現(xiàn)資源共享和互操作,在知識(shí)管理、知識(shí)組織與信息檢索、知識(shí)導(dǎo)航領(lǐng)域進(jìn)行應(yīng)用。主題圖以結(jié)構(gòu)化方式呈現(xiàn)知識(shí)內(nèi)容,為用戶提供一個(gè)標(biāo)準(zhǔn)的技術(shù)方法來(lái)分享知識(shí),使得報(bào)紙資源的獲取、加工和存儲(chǔ)更加便捷高效。此外,主題圖可以揭示知識(shí)本身及知識(shí)資源之間的關(guān)聯(lián)性,為報(bào)紙資源的鏈?zhǔn)酵卣沟於ɑA(chǔ)。
圖11 主題圖XTM2.0 格式(節(jié)選)Fig.11 XTM2.0 format of a topic map(Partially)
中國(guó)近代報(bào)紙記載了豐富的歷史文化內(nèi)容,是中國(guó)歷史的生動(dòng)縮影,其新聞價(jià)值和史料價(jià)值日益凸顯。本文基于主題圖方法,通過(guò)調(diào)研國(guó)內(nèi)近代報(bào)紙資源庫(kù)網(wǎng)站,對(duì)近代報(bào)紙資源主題類型、主題之間關(guān)系及資源指引進(jìn)行設(shè)定,從近代報(bào)紙形式特征和內(nèi)容特征兩方面構(gòu)建主題模型,采用Ontopia 工具建立近代報(bào)紙資源主題圖,并以 《盛京時(shí)報(bào)》 作為實(shí)例,展示具體實(shí)例下主題圖生成、可視化及知識(shí)組織過(guò)程,為近代報(bào)紙資源知識(shí)導(dǎo)航、檢索及知識(shí)庫(kù)構(gòu)建提供參考路徑。
主題圖技術(shù)作為一種知識(shí)組織工具,可以靈活定義主題類型及概念之間關(guān)系,并以可視化方式展示知識(shí)信息,為用戶提供查詢和檢索功能。因此,本文通過(guò)在主題層和資源層之間融入知識(shí)元概念,構(gòu)建近代報(bào)紙資源主題圖以實(shí)現(xiàn)近代報(bào)紙的知識(shí)組織和聚合,是對(duì)近代報(bào)紙資源組織方式的一種嘗試和探索。相較于本體技術(shù),主題圖在主題類型定義上較為自由開放,不受標(biāo)準(zhǔn)約束,更具有伸展性;在主題關(guān)系定義上,相比本體和語(yǔ)義網(wǎng)絡(luò)中抽象語(yǔ)義關(guān)系,主題關(guān)系表達(dá)更為具體實(shí)用,契合于用戶需求;在資源指引方面,可以鏈?zhǔn)酵卣怪黝}信息,設(shè)定主題屬性和資源類型,豐富主題網(wǎng)絡(luò)圖;在知識(shí)可視化方面,主題圖能直觀展示近代報(bào)紙資源知識(shí)結(jié)構(gòu),支持復(fù)雜的主題詞語(yǔ)義檢索,提供標(biāo)簽收放功能,提高用戶的檢索效率,對(duì)近代報(bào)紙資源組織和導(dǎo)航具有重要的實(shí)際應(yīng)用價(jià)值。此外,本文由于篇幅所限,僅以 《盛京時(shí)報(bào)》 作為實(shí)例數(shù)據(jù)進(jìn)行演示,在實(shí)際工作場(chǎng)景中,主題圖遠(yuǎn)不止一個(gè),根據(jù)實(shí)踐需要實(shí)現(xiàn)多個(gè)主題圖合并也是未來(lái)工作的趨勢(shì)和方向。
農(nóng)業(yè)圖書情報(bào)學(xué)刊2022年4期