亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合GPT技術和用戶需求的文學類古籍資源關聯(lián)數(shù)據(jù)發(fā)布研究

        2024-10-08 00:00:00范顏鑠周曉英王克平等
        現(xiàn)代情報 2024年10期

        關鍵詞: 文學類古籍; 數(shù)字人文; 知識組織; 關聯(lián)數(shù)據(jù);Drupal;ChatGPT; 用戶需求

        DOI:10.3969 / j.issn.1008-0821.2024.10.013

        〔中圖分類號〕G255 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2024) 10-0154-14

        文學類古籍作為古籍資源的一個重要門類, 兼具藝術性與文化性, 同時具有“存史” 的功能, 可突出展現(xiàn)某一特定時期的文化重心情況, 其題材、數(shù)量的豐富程度也在一定程度上反映了社會的安定程度與文化繁榮程度。此外, 文學類古籍包容性強、內(nèi)容豐富, 極具地域?qū)傩陨剩?與一般古籍相比,其蘊含的知識更為豐富, 知識群體之間存在的語義關系更為復雜, 挖掘潛力較大。

        在文化與科技融合的數(shù)字化背景下, 數(shù)據(jù)可視化、虛擬現(xiàn)實、GPT(Generative Pre-trained Trans?former)等技術為古籍的數(shù)字化提供了新思路, 促使古籍知識組織向語義化方向發(fā)展, 也為文學類古籍的關聯(lián)組織提供全新的方法借鑒。然而, 現(xiàn)有的古籍數(shù)字化研究多集中于歷史、哲學、地方志、中醫(yī)藥等門類, 或關注書目等外部屬性特征, 文學類古籍數(shù)字化研究特別是應用實踐研究偏少, 相較于其他門類古籍關注度偏低。同時, 由于文學類古籍資源具有多重藝術形式, 涵蓋了題材、體裁等特征要素, 使用現(xiàn)有關聯(lián)數(shù)據(jù)發(fā)布思路時存在屬性揭示不足、領域描述不適配等問題。因此, 本文選取文學類古籍資源作為研究對象, 在現(xiàn)有的“本體模型+關聯(lián)數(shù)據(jù)實現(xiàn)平臺” 發(fā)布思路基礎上, 探究如何將GPT 技術、用戶需求分析與關聯(lián)數(shù)據(jù)技術相結合以提升文學類古籍資源關聯(lián)數(shù)據(jù)發(fā)布的效果。

        1文獻綜述本節(jié)梳理分析

        國內(nèi)外關聯(lián)數(shù)據(jù)在古籍中的應用、發(fā)布方式、實體識別抽取方法與用戶需求分析的研究成果, 為后續(xù)模型的構建提供理論基礎。

        1.1關聯(lián)數(shù)據(jù)在古籍研究中的應用

        關聯(lián)數(shù)據(jù)是語義網(wǎng)的一個簡單應用, 利用RDF、URI 等技術可將Web 中的各類數(shù)據(jù)、信息和知識進行分布、共享和鏈接, 讓人們可以通過HTTP 協(xié)議來揭示和獲取這些數(shù)據(jù), 因其自身具有自描述等優(yōu)良特性, 現(xiàn)已成為語義Web 的一種輕量級解決方案[1] 。2006 年7 月, “萬維網(wǎng)之父” Tim Berners-Lee提出關聯(lián)數(shù)據(jù)的概念并指出了關聯(lián)數(shù)據(jù)的4 項基本準則[2] : ①用URI 來標記任何事物; ②使用HTTPURI 使任何人都可以查找和引用這些事物; ③當某個資源被訪問時, 應以開放標準的形式(如RDF、SPARQL等)提供有用的信息; ④盡可能給出相關的URI, 以便實現(xiàn)資源或者數(shù)據(jù)集的豐富化。

        我國對古籍數(shù)字化的研究正處于不斷“升溫”的階段, 不少學者借助關聯(lián)數(shù)據(jù)技術對其展開研究。在古籍文本研究方面, 有學者總結了古文知識組織及關聯(lián)數(shù)據(jù)技術在古籍知識組織應用的現(xiàn)狀, 提出了基于關聯(lián)數(shù)據(jù)的古文知識組織模式并對核心問題及技術進行探討[3] ; 有學者通過分析關聯(lián)數(shù)據(jù)等信息技術在挖掘數(shù)字化古籍知識中的運用, 提出了數(shù)字化古籍知識管理模型[4] 。在古籍數(shù)據(jù)庫建設方面,數(shù)字媒介的不斷發(fā)展使關聯(lián)數(shù)據(jù)技術在古籍數(shù)據(jù)庫建設、古籍資源的組織與存儲等方面發(fā)揮著重要作用[5],歐盟數(shù)字圖書館(Europeana)借助關聯(lián)數(shù)據(jù)將散落在世界各地的文獻等資源進行整合, 構建了統(tǒng)一的網(wǎng)絡平臺[6] ; 有學者基于關聯(lián)數(shù)據(jù), 在分析現(xiàn)有語義技術應用基礎上提出了語義技術驅(qū)動下的古籍互聯(lián)互通框架[7] 。在古籍外部特征研究方面,有學者借助語義網(wǎng)和關聯(lián)數(shù)據(jù)技術對古籍書目進行知識組織, 構建叢書古籍書目知識組織模型[8] ; 有學者對我國特有的, 以CNMARC 格式編目的古籍書目進行了關聯(lián)數(shù)據(jù)化與關聯(lián)化發(fā)布研究[9] 。也有不少學者對不同門類古籍展開研究, 如借助關聯(lián)數(shù)據(jù)技術研究史書類古籍《漢書·藝文志》中的人物知識關聯(lián)[10] 、構建地方志類古籍《方志物產(chǎn)》知識庫[11] 、設計地方詩詞資源關聯(lián)聚合模式并構建實例化應用平臺[12] 。作為較為成熟的技術, 關聯(lián)數(shù)據(jù)在古籍領域中的應用已涉及多個門類與多個方面,但知識組織及關聯(lián)數(shù)據(jù)技術在文學類古籍數(shù)字化探索中的應用研究十分有限, 僅涉及詩詞文字形式,整體研究程度與關注程度依舊偏低, 因此本文嘗試將關聯(lián)數(shù)據(jù)技術應用于文學類古籍資源領域, 提出文學類古籍資源關聯(lián)發(fā)布模型, 從多維度對文學類古籍資源知識進行全面、具體的呈現(xiàn)。

        1.2關聯(lián)數(shù)據(jù)發(fā)布

        現(xiàn)階段,我國學者主要借助D2RQ、Drupal 發(fā)布關聯(lián)數(shù)據(jù)集, D2RQ 是目前較為常用的RDF 映射平臺, 有學者借助該平臺實現(xiàn)了可移動文物的關聯(lián)數(shù)據(jù)存儲[13] ; 也有學者基于層級結構, 用D2R 模型實現(xiàn)家譜文化資源的語義關聯(lián)及可視化展示[14] 。Drupal 則具有更好的輕量級數(shù)據(jù)發(fā)布能力, 具有良好的可擴展性和靈活性, 其內(nèi)容結構定義對關聯(lián)數(shù)據(jù)的支持適用性也較大[12] 。已有多位學者借助該平臺實現(xiàn)關聯(lián)數(shù)據(jù)集的發(fā)布, 如基于層級結構方式,從數(shù)據(jù)層、模式層以及應用層3 個層級結構對山水志史料資源進行語義化知識關聯(lián)與知識發(fā)布[15] ; 通過構建內(nèi)容節(jié)點類型和屬性、節(jié)點與本體庫的關聯(lián)映射等步驟, 實現(xiàn)民國建筑知識庫關聯(lián)數(shù)據(jù)的組織與發(fā)布[16] ; 基于模塊匹配的方式, 以資源發(fā)布模塊、問題答疑模塊、實驗管理模塊、在線考試模塊搭建師生間的信息交流網(wǎng)絡平臺等[17] 。盡管目前圍繞關聯(lián)數(shù)據(jù)發(fā)布的相關成果顯著, 但由于文學類古籍資源的結構元素、內(nèi)容具有一定特殊性, 仍有必要進一步結合文學類古籍資源的內(nèi)容結構特征, 設計探討關聯(lián)數(shù)據(jù)發(fā)布新思路, 促進關聯(lián)數(shù)據(jù)技術在該領域的應用落地。

        1.3實體識別抽取

        基于自然語言處理技術、深度學習算法的挖掘、識別抽取方案雖可以取得良好的效果, 但操作門檻高、步驟復雜, 設計抽取模型需耗費大量時間與人力成本, 且傳統(tǒng)抽取方式多以“看到一類, 定義一類, 構建一類” 的模式構建知識庫, 手段效率低, 當包含多個中間子任務時, 抽取準確率急劇下降, ChatGPT 等大語言模型的發(fā)布對傳統(tǒng)自然語言核心任務產(chǎn)生了巨大的沖擊和影響, 不僅可以高質(zhì)量完成任務且貼合用戶的實際需求[18] 。GPT 技術在語義理解、知識抽取、知識生成與推薦方面的出色表現(xiàn)使知識組織環(huán)境發(fā)生巨大變化[19] , 在數(shù)字任務研究過程中, 可提供研究過程中所需要的文本生成、跨語言處理、情感分析、語料庫建設等技術支持[20] , 在閱讀理解、情感分析等自然語言處理任務中獲得較優(yōu)的性能[21] 。南京理工大學已有實驗結果表明, ChatGPT 在命名實體識別具有較好的表現(xiàn), 但在關系抽取中的效果需進一步提高[22] 。

        現(xiàn)階段,ChatGPT在知識抽取方面的研究主要集中于實驗分析階段, 大多數(shù)研究以直接向其輸入文本、分析其輸出結果的方式測試其識別抽取準確度, 也有學者通過給定關系的方式抽取關系[22] 。在ChatGPT 生成內(nèi)容分析上, 有學者通過輸入樣例的方式, 讓其模仿樣例的語言風格進行寫作并分析實驗結果[23] ?;谝陨蠈嶒炈季S, 結合其強大的學習能力、操作的便捷性與良好的抽取效果等特性,本文將以輸入樣例、給定關系與識別抽取目標的形式識別抽取本文所需數(shù)據(jù), 可在一定程度上提高知識組織與研究效率。

        1.4用戶需求分析

        目前,用戶需求分析常用方法有Kano模型、AHP層次分析法、AD理論等, 也有不少學者通過內(nèi)容分析、訪談、問卷等方法收集用戶需求, 在知識服務支撐、服務水平提升、服務效果提升方面做了很多嘗試[24],如從用戶對資源的需求出發(fā), 借助層次分析法、TF-IDF算法構建用戶畫像模型,為精準圖書推薦服務提供支撐[25] ; 或借助訪談、內(nèi)容分析等方法, 完善數(shù)據(jù)可視化研究素養(yǎng)體系, 提高高校圖書館服務水平[26] 。也有學者從用戶需求角度優(yōu)化醫(yī)療健康類APP[27] 、針對實際需求對家用火災類逃生作品進行創(chuàng)新設計等[28],進而提高現(xiàn)有產(chǎn)品的機能與服務效果。文學類古籍知識受眾群體較為廣泛, 本文通過訪談法收集不同年齡、身份的用戶知識需求并進行歸納分析, 據(jù)此設計、構建文學類古籍資源關聯(lián)數(shù)據(jù)發(fā)布模型, 提升其可用性與實用性。

        綜上所述, 目前關聯(lián)數(shù)據(jù)技術在古籍領域的應用已有較為豐碩的成果, 但聚焦到文學類古籍資源尚存在一些不足: 一是數(shù)字化實踐研究偏少, 雖對文學作品文本等進行挖掘分析, 但仍缺少對其應用實踐方面的探索。二是已有的關聯(lián)數(shù)據(jù)發(fā)布模式與文學類古籍資源無法做到完全適配, 無法全面呈現(xiàn)其語義知識結構網(wǎng)絡。三是現(xiàn)階段將用戶需求多維度分析結果結合到關聯(lián)數(shù)據(jù)發(fā)布模型中的成果尚不多見。因此, 本文將從文學類古籍資源的特征和數(shù)字化實踐需求出發(fā), 結合關聯(lián)數(shù)據(jù)集發(fā)布的典型流程, 將GPT 技術、用戶需求分析與關聯(lián)數(shù)據(jù)技術相結合, 創(chuàng)新性提出文學類古籍資源關聯(lián)數(shù)據(jù)發(fā)布模型。與傳統(tǒng)關聯(lián)發(fā)布模型相比, 該模型基于大語言模型時代背景改進現(xiàn)有數(shù)據(jù)層, 融合GPT 技術完成數(shù)據(jù)采集工作, 提高知識組織效率, 同時增設針對不同用戶群體分析其需求的應用層, 并通過文學類古籍關聯(lián)組織模型來實現(xiàn)其構建, 完善文學類古籍資源關聯(lián)化發(fā)布思路的同時增強本文提出模型的實用性。在實證方面, 選取《聊齋志異·司文郎》驗證模型的有效性及可用性。

        2文學類古籍資源的結構要素與關聯(lián)發(fā)布需求分析

        本節(jié)首先從時間、地點、人物、文章4 個角度出發(fā)梳理文學類古籍資源的結構要素, 其次歸納數(shù)字化時代背景下用戶對文學類古籍知識的需求, 為后續(xù)文學類古籍資源關聯(lián)數(shù)據(jù)發(fā)布模型的建立奠定基礎。

        2.1文學類古籍資源結構要素分析

        文學類作品通過詩歌、散文、小說等藝術形式來表達作者對生活的觀察和理想[29] , 通過語言塑造形象以反映人類社會生活[30] 。與其他類別作品相比, 除卻多個門類書籍包含的人物、地點、時間基本元素, 篇章題目是該類書籍的核心要素, 故事情節(jié)基本通過文章章節(jié)串聯(lián), 體裁、題材等要素更是該類書籍重要的形式特征與要素。與現(xiàn)代文學作品相比, 文學類古籍不僅包含人物、時間、地點等基本結構要素, 還增加了文言文要素, 其晦澀性在考驗專業(yè)研究人員文學素養(yǎng)的同時, 也給大眾閱讀群體造成了一定的閱讀障礙。本文結合文學類古籍資源的結構與特征, 將結構要素劃分為時間、地點、人物、文章4 個基本組成部分, 將其具有代表性特征的體裁、題材與文言文要素放置文章類目下, 形成文學類古籍資源通用結構要素, 涵蓋了更深層次、更全面的實體和關系, 從而使所構建的文學類古籍資源關聯(lián)數(shù)據(jù)發(fā)布模型具有更高的兼容性與實用性,如圖1所示。

        2.2文學類古籍資源cBkt/79jolSd7yfSSlU+dxG//qrcy72YE3ac2/goBjg=關聯(lián)組織和關聯(lián)發(fā)布需求

        文學類古籍在教育實踐、價值觀指引等社會環(huán)節(jié)中具有固本培元的作用, 有助于在全民心中建立起真正的文化自信, 形成強大的社會凝聚力[31],對其展開數(shù)字化實踐研究具有重要的現(xiàn)實意義。信息技術的不斷發(fā)展使用戶對文學古籍知識化的需求不再停留于單純的知識獲取, 而轉為更為直觀、更富有語義內(nèi)涵的知識展示與查詢, 主要表現(xiàn)為用戶的知識需求多元化、知識獲取便捷化、需求內(nèi)容多樣化、需求連續(xù)化與動態(tài)化。

        為了解用戶真實需求, 本文先后訪談了10名蒲松齡研究院相關專家、90名社會群眾與50 名高校學生, 訪談主要圍繞以下內(nèi)容展開: 職業(yè)、對文學類古籍關注與熱愛程度等背景性問題、文學類古籍查閱與研究過程中遇到的問題、數(shù)字化背景下文學類古籍知識獲取途徑傾向與內(nèi)容需求等, 根據(jù)對150名用戶的訪談結果, 按照用戶需求特征的不同將用戶分為專業(yè)用戶與普通用戶。前者為文學愛好者、研究人員或熱衷于文學研究的學者, 這類群體知識需求比較集中, 對知識的需求更為深入和專業(yè)化; 后者主要為學生、對文學感興趣的社會群眾,此類用戶的知識需求更加廣泛和多樣化?;诖?,本文針對不同用戶需求對關聯(lián)數(shù)據(jù)發(fā)布平臺進行設計, 以便使用戶能更好地在平臺上根據(jù)自身需要獲取所需知識。

        3融合GPT技術和用戶需求的文學類古籍資源關聯(lián)數(shù)據(jù)發(fā)布模型設計

        為促進文學類古籍資源的有效傳播、利用與知識共享, 需對文學類古籍資源中的知識進行全面、充分的揭示, 借助關聯(lián)數(shù)據(jù)技術實現(xiàn)文學類古籍文本知識的鏈接與智能應用, 以可視化形式呈現(xiàn)此類古籍的知識語義網(wǎng)絡, 使關聯(lián)發(fā)布平臺能夠以更清晰、便捷的方式呈現(xiàn)文學類古籍資源的整體概貌。

        本文沿用了以層級結構實現(xiàn)關聯(lián)化發(fā)布的思路,同時結合前文分析的文學類古籍結構要素特征改進現(xiàn)有關聯(lián)發(fā)布框架, 添加文學類古籍資源關聯(lián)組織模型使關聯(lián)數(shù)據(jù)發(fā)布更貼合該領域特征, 設計文學類古籍關聯(lián)數(shù)據(jù)發(fā)布模型以實現(xiàn)知識語義化關聯(lián),該模型主要包含數(shù)據(jù)層、數(shù)據(jù)網(wǎng)絡層、數(shù)據(jù)融合層、應用層及表現(xiàn)層5 個層面, 如圖2 所示。其中, 數(shù)據(jù)層嘗試借助GPT 技術完成數(shù)據(jù)采集工作, 基于前人抽取思維, 在數(shù)據(jù)層以輸入樣例、給定關系與識別抽取目標的形式識別抽取本文所需數(shù)據(jù), 增設分析用戶需求的應用層, 并以用戶需求為導向完成表現(xiàn)層的構建, 提高本模型的實用性。

        1) 數(shù)據(jù)層。數(shù)據(jù)層主要借助GPT類技術解決數(shù)據(jù)離散無序、屬性缺失等問題, 構建本地數(shù)據(jù)集為其他4 個層面提供數(shù)據(jù)支撐。根據(jù)不同數(shù)據(jù)選取相應數(shù)據(jù)源完成數(shù)據(jù)的獲取, 從地方、高校圖書館及檔案館收集紙質(zhì)版古籍, 超星數(shù)字圖書館等數(shù)字圖書館、中國知網(wǎng)等期刊數(shù)據(jù)庫分別作為電子版古籍與期刊的主要數(shù)據(jù)源, 以網(wǎng)絡數(shù)字資源為補充,并對數(shù)據(jù)進行初步分類。在數(shù)據(jù)采集方面, 借助OCR、GPT 技術獲取文本數(shù)據(jù), 根據(jù)ChatGPT 可通過語言模型任務“閱讀” 大量自然語言文本進而習得大量知識[20] 的優(yōu)點, 以分批、多次輸入識別抽取實例的方式訓練ChatGPT, 依托其強大的學習能力使其不斷明確本文所需的抽取任務與抽取目標, 提高ChatGPT 對三元組的敏感程度, 借助ChatGPT實現(xiàn)文本數(shù)據(jù)的識別與抽取。相關論文數(shù)據(jù)則在中國知網(wǎng)等期刊數(shù)據(jù)庫利用“主題” “關鍵詞” 搜索相關研究論文, 以自定義的方式選擇“題目” “摘要” “關鍵詞” 等內(nèi)容導出到Excel, 并以人工篩選的方式收集關聯(lián)數(shù)據(jù)庫的URI 鏈接。將從以上3 個方面采集到的數(shù)據(jù)進行人工校對與初步融合, 剔除掉重復數(shù)據(jù), 結合網(wǎng)絡資源對數(shù)據(jù)進行補充, 最終形成文學類古籍資源數(shù)據(jù)集, 存儲到本地數(shù)據(jù)集中供后續(xù)訪問。

        2)數(shù)據(jù)網(wǎng)絡層。數(shù)據(jù)網(wǎng)絡層的主要任務是將采集到的本地數(shù)據(jù)集轉化為機器可識別的RDF(Re?source Description Framework)格式并構建文學類關聯(lián)組織模型, 以實現(xiàn)對文學類古籍資源知識的語義揭示, 并為數(shù)據(jù)融合層提供指導。目前, 針對不同數(shù)據(jù)有多種RDF 轉換方式, 文學類古籍資源數(shù)據(jù)的主要組成部分為文本數(shù)據(jù), 本體則具有較好的知識表示能力且有統(tǒng)一的描述標準, 因此在此層面可用本體技術對數(shù)據(jù)層中的本地數(shù)據(jù)集進行規(guī)范化描述,同時結合文學類古籍資源內(nèi)容結構特征, 充分考慮現(xiàn)有本體復用的可能性, 通過owl 語言描述文學類古籍資源的對象及屬性, 實現(xiàn)實體的關聯(lián)、消歧、融合, 進而生成本文所需的RDF 數(shù)據(jù), 為每個實體生成具有唯一標識的URI,以實現(xiàn)HTTP 訪問,避免實體ID 屬性沖突的問題。對知識單元進行有效組織形成知識網(wǎng)絡, 完成對文學類古籍資源知識的規(guī)范化組織, 實現(xiàn)文學類古籍資源關聯(lián)組織模型的g8usNwXcwIDoYFoZ38oPgQ==構建。

        3) 數(shù)據(jù)融合層。鑒于Drupal 的兼容性與文學類古籍資源數(shù)據(jù)量大小, 本文選取Drupal 平臺實現(xiàn)文學類古籍資源的關聯(lián)數(shù)據(jù)發(fā)布, 因此數(shù)據(jù)融合層的主要任務是依托Drupal 的模塊化發(fā)布思維, 通過實體命名化、實體關聯(lián)化完成RDF 數(shù)據(jù)到Drupal 站點內(nèi)容的存儲與映射, 將本地數(shù)據(jù)集轉化為機器可理解的關聯(lián)數(shù)據(jù)集, 具體使用模塊如圖3 所示。Drupal 的核心要素為內(nèi)容類型、字段、節(jié)點3 種要素, 將3 種要素與文學類古籍本體模型中的類、屬性、實例一一對齊即可實現(xiàn)RDF 數(shù)據(jù)到Drupal 站點內(nèi)容的存儲與映射[32] 。因此, 首先需要構建數(shù)據(jù)庫與關聯(lián)數(shù)據(jù)間的映射規(guī)則及關系,確保關聯(lián)組織模型在Drupal 平臺中內(nèi)容類型、字段和節(jié)點等元素與本體中的實體、關系、實體與實體、屬性、屬性值之間建立一一對應關系, 提高文學類古籍資源的數(shù)據(jù)質(zhì)量和可用性。同時, 在該層面需以TimBerners-Lee 提出的關聯(lián)數(shù)據(jù)4 項基本原則為理論基礎, 將數(shù)據(jù)網(wǎng)絡層中的知識元提取出來, 篩選出具有相似或相關關系的知識元后進行分類, 存儲在一個知識單元中, 封裝為一個知識元庫, 將站點內(nèi)容轉為語義化數(shù)據(jù), 整合文學類古籍資源的知識元素并使其相互關聯(lián), 為用戶提供更豐富、更準確的信息, 此關聯(lián)化發(fā)布方式也有助于提升文學類古籍資源的數(shù)據(jù)可訪問性和互操作性。

        4) 應用層。為向用戶提供更為清晰的知識語義脈絡, 應用層根據(jù)用戶對文學類古籍資源的知識需求, 提供以用戶需求為導向的知識服務, 進而提高文學類古籍資源知識服務平臺的利用效率, 拓展共享范圍。根據(jù)前文分析, 平臺應為專業(yè)用戶提供更為細致和全面的文學類古籍資源知識服務, 為普通用戶提供便捷和易于理解的文學類古籍資源知識服務, 以直觀的方式呈現(xiàn)文學類古籍資源的內(nèi)容,使普通用戶能夠輕松獲得、理解并享受文學類古籍資源的知識。因此, 平臺在知識檢索方面需提供強大的搜索功能, 用戶可以使用多種關鍵詞進行查詢;在知識獲取方面需從多維度對文學類古籍資源知識進行呈現(xiàn), 輔助以圖片形式促進理解, 并提供分類導航功能; 在知識推理方面需提供個性化的推薦功能, 幫助用戶發(fā)現(xiàn)新的知識; 在知識利用方面需支持用戶的互動和參與, 呈現(xiàn)文學類古籍知識的關聯(lián)關系和語義脈絡, 幫助用戶更好地理解和利用知識。

        5)表現(xiàn)層。表現(xiàn)層在關聯(lián)技術基礎上實現(xiàn)了文學類古籍資源的關聯(lián)發(fā)布, 滿足用戶的人機交互需求, 作為整個模型中極為重要的一環(huán), 表現(xiàn)層從知識檢索、知識獲取、知識推理和知識利用4 個方面實現(xiàn)了用戶對文學類古籍資源知識的檢索、概覽和利用。知識檢索方面, 通過語義關聯(lián), 平臺能夠提供更準確、更相關的搜索結果, 幫助用戶快速找到所需的信息, 用戶可以通過關鍵詞、主題或其他查詢條件搜索相關的文學類古籍資源知識。在知識獲取方面, 表現(xiàn)層根據(jù)文學類古籍資源的內(nèi)容結構設置相應的大類, 以滿足用戶在海量信息中的分類導航需求。通過將文學類古籍資源按照人物、時間、地點、文章基本組成進行分類, 用戶可以便捷地瀏覽并導航到感興趣的領域, 提供更好的信息發(fā)現(xiàn)和瀏覽體驗。在知識推理方面, 表現(xiàn)層根據(jù)用戶在文學類古籍資源知識服務平臺中的歷史記錄, 提供個性化的文章推送功能, 幫助用戶發(fā)現(xiàn)新的知識, 深入了解感興趣的古籍。在知識利用方面, 表現(xiàn)層利用數(shù)據(jù)網(wǎng)絡層和數(shù)據(jù)融合層形成的文學類古籍資源知識語義網(wǎng), 為用戶提供信息查詢服務, 在一定程度對文學類古籍資源的內(nèi)容進行全面、具體的呈現(xiàn)。通過信息查詢、個性化推送、分類導航和概念匹配等功能, 用戶可以更好地利用該平臺獲取文學類古籍資源的知識, 滿足用戶的需求, 促進文學類古籍資源的雙向、高效利用。

        該模型中,數(shù)據(jù)層從不同數(shù)據(jù)源借助OCR、GPT等技術,獲取數(shù)據(jù)為關聯(lián)數(shù)據(jù)的發(fā)布提供支撐, 數(shù)據(jù)網(wǎng)絡層構建關聯(lián)組織模型實現(xiàn)知識的語義化鏈接,數(shù)據(jù)融合層將本地數(shù)據(jù)集轉化為機器可理解的關聯(lián)數(shù)據(jù)集, 應用層以用戶需求為導向設計關聯(lián)數(shù)據(jù)發(fā)布頁面,表現(xiàn)層則呈現(xiàn)最終的文學類古籍資源關聯(lián)數(shù)據(jù)發(fā)布平臺, 前一層面為后一層面的基礎, 依次構建完5 個層面后可將分散在文學類古籍資源中的知識進行收集、抽取與有效組織, 以簡單有效且系統(tǒng)化、關聯(lián)化的方式呈現(xiàn)給用戶。

        4融合GPT 技術和用戶需求的文學類古籍資源關聯(lián)發(fā)布的實現(xiàn)

        《聊齋志異》作為中國文言短篇小說的巔峰之作, 是博采歷代文言小說之精義與史傳文學之菁華的曠世佳作[33],其本體類及屬性涵蓋范圍廣,包含科舉、愛情、復仇、民俗、迷信、鬼神等眾多題材,同時也涉及多個人物及語言, 選取該古籍作為實例構建的本體模型涉及類目眾多, 具有普適性特點,其知識發(fā)布及可視化呈現(xiàn)也可凸顯文學類古籍包含的地域與文化屬性?!读凝S志異》中的科舉類文章具有較高的代表意義, 它們是蒲松齡生活經(jīng)歷的折射, 也是他情感輸出的重要媒介[28] ?!读凝S志異·司文郎》在以科舉為題材的作品中具有典型的意義和價值[34] , 主人公王平子的青年才俊形象是作者原型在故事中的投射, 其科考經(jīng)歷更是“蒲松齡的化身”[35] 。在文學類古籍資源關聯(lián)數(shù)據(jù)發(fā)布過程中, 《聊齋志異·司文郎》不僅涉面廣, 內(nèi)涵也十分豐富[36] , 涵蓋本文所構建本體模型的基本類目,實體屬性較多, 可通過關聯(lián)數(shù)據(jù)的可視化呈現(xiàn)讓用戶對該篇目有大致的了解, 其作為文學類古籍的代表性較好, 因此選取《聊齋志異·司文郎》對本文提出的文學類古籍資源關聯(lián)數(shù)據(jù)發(fā)布模型進行實證研究。

        4.1發(fā)布模型數(shù)據(jù)層構建——文學類古籍資源數(shù)據(jù)的采集和保存

        目前《聊齋志異》文言文版與白話文版的版本較多, 為保證數(shù)據(jù)來源的質(zhì)量, 本文結合蒲松齡研究院相關研究專家的意見, 研究商討后最終確定本文數(shù)據(jù)主要來源于北京華夏出版社2012 年版蒲松齡(清)所寫的《聊齋志異》、上海古籍出版社2012 年版丁如明等翻譯的《聊齋志異全譯》、上海古籍出版社2011 年版(清) 蒲松齡、張友鶴校的《聊齋志異會校會注會評本》等權威書籍。經(jīng)采集后, 在文本識別抽取任務中ChatGPT 輸出69 條數(shù)據(jù), 經(jīng)人工核對后保留53 條數(shù)據(jù), 準確度為768%,ChatGPT 在人物、地點、時間識別抽取任務中表現(xiàn)出色, 幾乎可精準識別輸入文字中的人物、地點、時間實體并進行相關三元組抽取, 但典故的識別與抽取效果不佳, 僅識別抽取到9 條數(shù)據(jù), 與通過深度學習算法進行抽取操作相比耗費時間大大減少,抽取效率大幅提升。與相關文獻數(shù)據(jù)合并、校對后,實例《聊齋志異·司文郎》最終獲得149 條數(shù)據(jù),包括題目數(shù)據(jù)1 條、文言版數(shù)據(jù)1 條、白話版數(shù)據(jù)1 條、體裁數(shù)據(jù)1 條、題材數(shù)據(jù)3 條、地點數(shù)據(jù)9條、人物數(shù)據(jù)19 條、職業(yè)數(shù)據(jù)1 條、任職事件數(shù)據(jù)3 條、書籍數(shù)據(jù)2 條、典故數(shù)據(jù)29 條(文學典故22 條、歷史典故4 條、神話典故3 條)、相關文獻數(shù)據(jù)77 條。將采集到的數(shù)據(jù)信息錄為CSV 格式,與采集到的關聯(lián)數(shù)據(jù)庫URI 同時保存到本地數(shù)據(jù)集, 完成數(shù)據(jù)層的構建, 為后續(xù)關聯(lián)數(shù)據(jù)發(fā)布提供數(shù)據(jù)支撐。

        4.2發(fā)布模型的數(shù)據(jù)網(wǎng)絡層構建——文學類古籍資源關聯(lián)組織模型設計

        數(shù)據(jù)網(wǎng)絡層的核心為文學類古籍關聯(lián)組織模型的設計與構建, 從而使數(shù)據(jù)層中的數(shù)據(jù)轉為機器可識別的RDF 形式。目前本體構建常用方法有骨架法、七步法、TOVE 法等, 本文主要參照七步法構建文學類古籍資源本體模型, 以本體復用與自建詞表相結合的方式設計本體模型框架, 提高其描述能力和精確度, 進而描述文學類古籍資源概念、概念間的關系[37] 。本文復用的本體有都柏林核心元素集(Dublin Core Element Set, DC)[38] 、人物社交網(wǎng)絡本體詞表FOAF[39] 、GeoNames[40] 、上海圖書館開放數(shù)據(jù)平臺等。其中, 上海圖書館開放數(shù)據(jù)平臺中的中國歷史紀年表對我國歷史紀年的相關屬性進行較為詳細的描述與規(guī)范, 平臺中有成熟的古籍本體表, 因此本文主要在此本體表基礎上進行拓展, 參照前人處理方式, 將中國歷史紀年中的朝代與公元紀年中的具體時間節(jié)點視為包含與被包含關系[41] ,如“清” 包含“1687”。根據(jù)文學類古籍資源實體及屬性, 構建LBR(Literature Books Resource)詞表對實體屬性描述進行補充, 結合相關專家意見進行調(diào)整后, 最終確定4 個類與40 個屬性, 數(shù)據(jù)屬性與對象屬性如表1、表2 所示。

        對文學類古籍資源中的實體設定符合自身特點的屬性后, 借助Protégé 軟件進行工程化建模, 形成標識為http:/ / www.w3.org/2002/07/ owl#的LBR關聯(lián)數(shù)據(jù)庫URI, 完成對文學類古籍資源知識的細粒度組織, 也是本文對于文學古籍資源數(shù)字化研究的創(chuàng)新點與特色。同時, 梳理文學類古籍知識間的邏輯結構, 進一步細化各知識單元的內(nèi)在關聯(lián), 最終構建了文學類古籍資源關聯(lián)組織模型, 該模型涵蓋了大部分文學類古籍資源中的實體及屬性要素,基本可以描述文學類古籍資源的共同屬性, 具有一定的通用性與普適性, 如圖5所示。

        4.3發(fā)布模型的數(shù)據(jù)融合層構建——文學類古籍關聯(lián)數(shù)據(jù)的發(fā)布

        為實現(xiàn)文學類古籍知識的可查找、可訪問、可交互與可再用(FAIR 原則)的目標[15] , 本文主要使用CCK 模塊、evoc 模塊與RDFUI 模塊完成數(shù)據(jù)融合層的構建。首先借助CCK 模塊新建“人物” “時間” “地點” “文章” 4 個內(nèi)容類型并設置相應的字段。以時間內(nèi)容類型為例, 添加“field_hasbegin?ning” “field_hasend” 等字段方便后續(xù)完成中國歷史紀年與中國公元紀年的映射。其次, 根據(jù)文學類古籍資源關聯(lián)組織模型中的數(shù)據(jù)屬性與對象屬性,借助Node Reference 模塊設置節(jié)點關聯(lián)字段, 其余字段類型根據(jù)其特點進行一一設置。Drupal 站點中已內(nèi)化了content、dc、foaf 等元數(shù)據(jù)詞匯集, 因此在RDF 數(shù)據(jù)映射過程中只需通過evoc 模塊導入SHL、GeoNames、LBR 等本體URI,根據(jù)文學類古籍資源關聯(lián)組織模型, 通過RDFUI 模塊建立平臺內(nèi)部屬性與外部詞表的映射關系, 將RDF 數(shù)據(jù)全部映射到Druapl 站點并存儲。

        將《聊齋志異·司文郎》本地數(shù)據(jù)集導入平臺后, 形成如圖6 所示文學類古籍資源關聯(lián)化實例圖。從圖6 可以看出, 人物、時間、地點、文章部分實現(xiàn)了一定程度上的互聯(lián)互通, 其內(nèi)部實體也存在相互間的關聯(lián)性, 通過對這4 個部分的數(shù)據(jù)信息整合,基本可以展現(xiàn)出一篇故事中的資源信息, 可對文學類古籍資源知識進行全面、具體的呈現(xiàn)。

        4.4發(fā)布模型的應用層與表現(xiàn)層構建——文學類古籍關聯(lián)數(shù)據(jù)發(fā)布平臺的呈現(xiàn)

        根據(jù)圖6所示的關聯(lián)化實例, 結合應用層對專業(yè)用戶與普通用戶的文學類古籍資源知識需求分析結果, 在關聯(lián)數(shù)據(jù)發(fā)布平臺頁面中添加搜索框、分類目錄等模塊完成表現(xiàn)層的構建, 實現(xiàn)實例化關聯(lián)數(shù)據(jù)發(fā)布平臺的呈現(xiàn)。

        1) 在知識數(shù)據(jù)展示方面,平臺頁面中可直觀瀏覽此篇文章中的題目、版本等屬性信息, 將文言文與白話文數(shù)據(jù)同一頁面展現(xiàn), 輔助以相關文章、相關人物等知識節(jié)點鏈接, 減少普通用戶閱讀障礙,快速概覽此篇文章包含知識。

        2) 在知識關聯(lián)化呈現(xiàn)方面, 用戶可以通過點擊某一頁面節(jié)點跳轉至相關頁面, 瀏覽此節(jié)點信息的相關知識, 如在文章內(nèi)容類型“司文郎” 的可視化展示頁面點擊地點“南京” 可跳轉至地點內(nèi)容類型“南京” 的可視化展示頁面, 在該頁面中展示南京的現(xiàn)名、古名等屬性信息, 同時也可直觀看到與“南京” 相關的人物與文章, 滿足專業(yè)用戶系統(tǒng)化獲取知識需要的同時方便普通用戶利用較短時間了解、獲取某一特定知識節(jié)點的知識網(wǎng)絡。

        3) 在知識檢索方面, 平臺右側設置檢索欄與“人物”“地點”“文章”“時間”4個基本類目模塊, 專業(yè)用戶與普通用戶均可根據(jù)自身需求, 從某一特定屬性信息出發(fā)了解與該屬性信息相關的所有文學類古籍知識信息, 通過點擊任意基本類目模塊訪問該類目下的所有實體目錄, 可迅速掌握某一基本類目概貌, 滿足用戶的知識查詢需求。因網(wǎng)頁在電腦端呈現(xiàn)大小有限, 本文截取部分知識服務平臺內(nèi)容, 可視化展示效果如圖7、圖8 所示。

        通過此實例, 平臺在一定程度上實現(xiàn)了對文學類古籍資源知識的全面、直觀呈現(xiàn), 揭示文學類古籍資源知識內(nèi)涵的同時, 實現(xiàn)了各實體屬性信息之間的關聯(lián)互訪性, 驗證了本文提出的文學類古籍資源關聯(lián)數(shù)據(jù)發(fā)布模型的可行性, 完成了基于關聯(lián)數(shù)據(jù)技術對文學類古籍資源關聯(lián)組織與數(shù)字化實踐研究的實驗性探索, 為文學類古籍資源知識發(fā)現(xiàn)提供了潛在關聯(lián)關系發(fā)現(xiàn)、知識網(wǎng)絡化表達研究的新視角。

        5研究結論

        本文研究結果表明,以文學類古籍關聯(lián)組織模型為基礎, 以GPT 技術、用戶需求分析與關聯(lián)數(shù)據(jù)技術為支撐進行關聯(lián)數(shù)據(jù)發(fā)布的思路, 能夠滿足文學類古籍資源知識服務平臺的構建需求, 能夠在一定程度上支撐和引導文學類古籍資源向語義化、實用化方向進行組織。

        本文主要有3個創(chuàng)新點: 一是選取文學類古籍資源作為研究對象, 運用大語言模型結合其結構要素特征對其數(shù)字化實踐研究做出探索, 通過實例進行驗證, 實現(xiàn)文學類古籍資源的關聯(lián)組織與關聯(lián)發(fā)布。二是改進、完善了現(xiàn)有的關聯(lián)發(fā)布框架, 提出包含數(shù)據(jù)層、數(shù)據(jù)網(wǎng)絡層、數(shù)據(jù)融合層、應用層以及表現(xiàn)層5個層面的文學類古籍資源關聯(lián)數(shù)據(jù)發(fā)布模型, 設計包含4 個基本類目的文學類古籍關聯(lián)組織模型, 增大文學類古籍資源關聯(lián)數(shù)據(jù)發(fā)布模型的適配性。三是提出將GPT 技術、用戶需求分析與關聯(lián)數(shù)據(jù)技術相結合以提高文學類古籍資源關聯(lián)數(shù)據(jù)發(fā)布效果, 使發(fā)布的實例平臺更貼合實際需求,促進應用落地。與已有的關聯(lián)數(shù)據(jù)發(fā)布成果相比,本模型在數(shù)據(jù)整合上更全面, 在跨文本關聯(lián)、多維關聯(lián)上更完整, 實用性更強。此外, 從多維度劃分文學類古籍資源知識對其他古籍知識聚合與數(shù)字化實踐有一定啟發(fā)意義, 能夠促進古籍的數(shù)字化服務模式, 滿足大眾對古籍文化的知識需求。

        本文研究局限性和不足在于: 第一,Drupal平臺數(shù)據(jù)量較大時需借助其他軟件和工具實現(xiàn)自動連接, 且選擇的存儲模塊ARC2適用于小型的數(shù)據(jù)庫,若數(shù)據(jù)量偏大且數(shù)據(jù)類型復雜時, 需選用更為有效的轉換工具。第二, 本文的數(shù)據(jù)量偏小,以個案《聊齋志異·司文郎》進行實證研究, 數(shù)據(jù)采集范圍有待進一步擴大,以實現(xiàn)從個案向全案拓展。后續(xù)研究將對文學類古籍資源內(nèi)部特征進行深入挖掘,引入技術驅(qū)動、人機結合的數(shù)據(jù)處理機制,多維度、細粒度地挖掘文學古籍人文性知識, 探索文學類古籍資源的數(shù)字化應用模式。

        国产精品妇女一二三区| 日本伦理美乳中文字幕| 日本综合视频一区二区| 免费无码不卡视频在线观看| 欧产日产国产精品精品| 老色鬼永久精品网站| 伊人久久综合狼伊人久久| 少妇无套裸按摩呻吟无呜| 精品淑女少妇av久久免费| 免费一级肉体全黄毛片| 美女被插到高潮嗷嗷叫| 日韩精品一区二区在线天天狠天| 久久久久亚洲av无码专区首jn| 亚洲男人天堂2017| 日本一区二区三区在线视频观看| 黑人老外3p爽粗大免费看视频 | 久久午夜夜伦鲁鲁片免费无码| 无码日韩AⅤ一区二区三区| 女同视频网站一区二区| 麻豆文化传媒精品一区观看| 羞羞视频在线观看| 2022国内精品免费福利视频| 日本一区二区三区一级片| 丰满少妇弄高潮了www| av无码久久久久久不卡网站| 无码伊人久久大香线蕉| 亚洲精品中文字幕导航| 玩中年熟妇让你爽视频| 国产午夜亚洲精品不卡福利| 亚洲色图偷拍自拍亚洲色图| 亚洲精品一区久久久久一品av | 中文字幕视频二区三区| 中文有码亚洲制服av片| 看曰本女人大战黑人视频| 五月天婷婷一区二区三区久久 | av网站入口在线免费观看| 91九色中文视频在线观看| 婷婷丁香91| 久久精品无码一区二区乱片子| 特级毛片a级毛片在线播放www| 成人国产乱对白在线观看|