亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于生成式邏輯的古籍文獻(xiàn)自動(dòng)化置標(biāo)語(yǔ)義框架構(gòu)建與應(yīng)用研究

        2024-01-01 00:00:00文玉鋒趙悅言
        圖書與情報(bào) 2024年2期

        摘 " 要:目前,我國(guó)古籍文獻(xiàn)的數(shù)字化以文獻(xiàn)掃描、粗粒度文件管理等淺層知識(shí)服務(wù)為主,生成式人工智能技術(shù)的發(fā)展為古籍文獻(xiàn)數(shù)字化的深度化提供了新的機(jī)遇。文章基于框架語(yǔ)義學(xué)理論構(gòu)建置標(biāo)語(yǔ)義邏輯結(jié)構(gòu)框架,以生成式邏輯向大語(yǔ)言模型提出問題,遞歸提取古籍語(yǔ)料中深層語(yǔ)義內(nèi)容,并將其輸出為符合置標(biāo)語(yǔ)義框架的結(jié)構(gòu)化數(shù)據(jù),使古籍文本在基礎(chǔ)語(yǔ)義層面獲得統(tǒng)一的處理邏輯。古籍自動(dòng)置標(biāo)語(yǔ)義框架能夠?qū)崿F(xiàn)大規(guī)模自動(dòng)化古籍文獻(xiàn)內(nèi)容結(jié)構(gòu)生成式表征,為古籍整理智能化轉(zhuǎn)型提供一種自動(dòng)可行的技術(shù)方案。

        關(guān)鍵詞:古籍文本;生成式表征;自動(dòng)置標(biāo)語(yǔ)義框架;大語(yǔ)言模型

        中圖分類號(hào):G255.1 " 文獻(xiàn)標(biāo)識(shí)碼:A " DOI:10.11968/tsyqb.1003-6938.2024025

        Research on the Construction and Application of Automated Semantic Framework for Ancient Texts Based on Generative Logic

        Abstract Currently, the digitalization of ancient Chinese texts primarily involves basic document scanning and coarse-grained file management. However, the development of generative artificial intelligence technologies offers new opportunities for advancing the depth of digitalization of ancient texts. Based on the theory of frame semantics, this article constructs a semantic logical structure framework for semantic tagging. It poses questions to large language models using generative logic, recursively extracts deep semantic content from ancient text corpora, and outputs it as structured data conforming to the semantic tagging framework. This enables ancient texts to be processed with a unified semantic logic at the basic semantic level. The automatic semantic tagging framework for ancient texts can achieve large-scale, automated generative representation of the content structure of ancient documents, providing an automatically viable technical solution for the intelligent transformation of ancient text organization.

        Key words ancient texts; generative representation; automatic semantic tagging framework; large language models

        古籍為中華文明之瑰寶,亦為賡續(xù)中華文脈之基石,我國(guó)作為一個(gè)擁有悠久歷史的文明古國(guó),古籍文獻(xiàn)類型多樣、卷帙浩繁。新中國(guó)成立伊始,黨和國(guó)家就高度重視古籍工作,成立專門機(jī)構(gòu)負(fù)責(zé)古籍的系統(tǒng)整理和出版規(guī)劃。改革開放以來(lái),中央進(jìn)一步強(qiáng)調(diào)了古籍整理工作的重要性,發(fā)出《關(guān)于整理我國(guó)古籍的指示》[1],并建立了相關(guān)規(guī)劃小組,以推進(jìn)古籍事業(yè)的進(jìn)步。黨的十八大之后,黨中央從民族復(fù)興的戰(zhàn)略視角出發(fā),做出了一系列促進(jìn)傳統(tǒng)文化傳承與古籍保護(hù)的決策部署,古籍工作取得新的顯著成果。2022年,隨著《關(guān)于推進(jìn)新時(shí)代古籍工作的意見》的發(fā)布和全國(guó)古籍工作會(huì)議的召開,古籍保護(hù)和傳承工作得到了全面部署,并明確了具體的要求[2]。隨著信息技術(shù)的飛速發(fā)展,數(shù)字化手段已成為保護(hù)與傳承古籍資源的核心路徑,古籍?dāng)?shù)字化作為新時(shí)代古籍保護(hù)與利用的重要增長(zhǎng)點(diǎn)與著力點(diǎn),應(yīng)充分利用先進(jìn)科技為古籍工作注入新動(dòng)能,進(jìn)一步激發(fā)古籍的生機(jī)與活力[3]。

        雖然古籍文獻(xiàn)數(shù)字化工作已得到了學(xué)界和業(yè)界的廣泛關(guān)注,但整體而言,中國(guó)古籍?dāng)?shù)字化還處于初級(jí)階段。據(jù)統(tǒng)計(jì),我國(guó)現(xiàn)存的20多萬(wàn)種古籍中,只有40%完成了影像數(shù)字化掃描,接近20%完成了文本數(shù)字化[4]。實(shí)現(xiàn)古籍文獻(xiàn)由紙本形式向數(shù)字化的轉(zhuǎn)變,僅是發(fā)掘這些珍貴文化遺產(chǎn)的初步舉措,要深度挖掘古籍文獻(xiàn)中蘊(yùn)藏的文化精髓,亟待對(duì)其內(nèi)容結(jié)構(gòu)進(jìn)行精準(zhǔn)而有效的表征,以此提升古籍文獻(xiàn)數(shù)字化與生成式人工智能技術(shù)的融合度,同時(shí)適應(yīng)數(shù)字化時(shí)代的需求。

        古籍文獻(xiàn)內(nèi)容結(jié)構(gòu)的生成式表征,是指借助先進(jìn)的人工智能與自然語(yǔ)言處理技術(shù),以結(jié)構(gòu)化的模型為參照,深入剖析古籍文獻(xiàn)的內(nèi)容結(jié)構(gòu),進(jìn)而形成具備結(jié)構(gòu)化特征的表示形式。這一表征方式不僅有助于人們深入理解古籍文獻(xiàn)的內(nèi)在組織邏輯,而且能夠生成古籍文本數(shù)據(jù),以供計(jì)算機(jī)高效處理,為文獻(xiàn)數(shù)字化、索引、檢索及深入分析提供堅(jiān)實(shí)的基礎(chǔ),從而推動(dòng)古籍文獻(xiàn)在現(xiàn)代社會(huì)的廣泛傳播與利用。2022年11月,以美國(guó)公開人工智能實(shí)驗(yàn)室(OpenAI)推出的ChatGPT為代表的生成式人工智能模型取得革命性突破,標(biāo)志著人類正式進(jìn)入生成式人工智能(Artificial Intelligence Generated Content,AIGC)時(shí)代,古籍?dāng)?shù)字化建設(shè)的智能轉(zhuǎn)型迎來(lái)了前所未有的新機(jī)遇。此背景下,本研究旨在揭示古籍文獻(xiàn)的內(nèi)容結(jié)構(gòu),并基于生成式人工智能技術(shù),構(gòu)建一套自動(dòng)化古籍內(nèi)容結(jié)構(gòu)生成式表征參照框架——自動(dòng)置標(biāo)語(yǔ)義框架,以期為古籍文獻(xiàn)的發(fā)掘工作提供全新的技術(shù)手段和方法,從而推動(dòng)我國(guó)古籍信息化建設(shè)的智能轉(zhuǎn)型。

        1 " 相關(guān)研究回顧

        1.1 " "古籍文獻(xiàn)的序化整理相關(guān)研究

        中國(guó)古代文獻(xiàn)整理多采用分類方式。西漢劉歆編纂的《七略》是中國(guó)首部官修目錄和目錄學(xué)著作,標(biāo)志著圖書分類法的開端,并引入了學(xué)術(shù)源流的小序方式。此后,包括《崇文總目》《通志·校讎略》《文淵閣書目》《校讎通義》《四部叢刊目錄》在內(nèi)的多部作品繼續(xù)沿用并發(fā)展了這一體系。特別是《永樂大典》和《四庫(kù)全書》,不僅體量龐大、內(nèi)容廣泛,且成為后世研究中國(guó)歷史與文化的重要資料,為古籍研究提供了豐富的歷史資料和珍貴的文化遺產(chǎn)。

        在源遠(yuǎn)流長(zhǎng)的中華優(yōu)秀傳統(tǒng)文化傳承歷程中,以目錄學(xué)為代表的古籍序化整理方法(收集、分類、編目),固然發(fā)揮了不可或缺的作用,也推動(dòng)了古籍文獻(xiàn)資源的傳承、發(fā)掘與利用。隨著古籍文獻(xiàn)數(shù)字化的推進(jìn),古籍的物質(zhì)載體與文本信息得以相對(duì)獨(dú)立,顯著提高了跨時(shí)間的文獻(xiàn)流通和共享效率,開啟了古籍保護(hù)與利用的新篇章[5]。然而,迄今為止,無(wú)論是傳統(tǒng)的目錄學(xué)方法,還是數(shù)字化技術(shù)的應(yīng)用,仍然面臨諸多缺陷:首先,現(xiàn)有古籍?dāng)?shù)字化方法主要依賴于傳統(tǒng)古籍文獻(xiàn)的掃描、整理和知識(shí)庫(kù)構(gòu)建[6],這些方法以粗粒度的文檔/文件管理為主,缺乏對(duì)古籍內(nèi)容的細(xì)粒度數(shù)據(jù)管理。其次,現(xiàn)有古籍?dāng)?shù)據(jù)挖掘方法主要依賴于淺層統(tǒng)計(jì),缺少先進(jìn)技術(shù)的應(yīng)用。第三,現(xiàn)有序化整理方法主要以古籍文獻(xiàn)的檢索查詢?yōu)橹鳎?],用戶檢索得到的結(jié)果是“文檔/文件條目”,而不是主題高度相關(guān)、內(nèi)容邏輯關(guān)聯(lián)的“知識(shí)發(fā)現(xiàn)”。第四,古籍文獻(xiàn)的內(nèi)容往往晦澀難懂,其中蘊(yùn)含著深厚的專業(yè)知識(shí)壁壘,其獨(dú)特的語(yǔ)法規(guī)則、紀(jì)年方式、地理名稱、機(jī)構(gòu)名稱以及人員名稱等要素,與現(xiàn)代社會(huì)存在顯著差異。更為復(fù)雜的是,古籍文獻(xiàn)中還存在“一詞多義”和“多詞一義”的現(xiàn)象,這使得古籍文獻(xiàn)的語(yǔ)義消歧問題變得尤為突出。若不對(duì)這一問題加以妥善解決,后續(xù)的古籍?dāng)?shù)字化應(yīng)用服務(wù)將難以順利開展,這無(wú)疑將嚴(yán)重制約古籍文獻(xiàn)在新時(shí)代的傳承與利用。

        當(dāng)前古籍文獻(xiàn)的序化整理亟待由形式特征的描述轉(zhuǎn)向自動(dòng)化、大規(guī)模的深度內(nèi)容挖掘與表征。生成式人工智能技術(shù)的快速發(fā)展,為上述問題提供了一個(gè)可能的解決方案。

        1.2 " "生成式人工智能技術(shù)的興起和古籍?dāng)?shù)字化的新趨勢(shì)

        2014年,生成式人工智能技術(shù)取得重大進(jìn)展,Goodfellow等人提出了生成對(duì)抗網(wǎng)絡(luò)(Generative adversarial network,GAN)[8],由生成器和判別器組成,通過互相競(jìng)爭(zhēng)不斷優(yōu)化,最終生成逼真的數(shù)據(jù)。此技術(shù)推動(dòng)了包括變分自編碼器和自回歸模型在內(nèi)的生成式模型的發(fā)展。近年來(lái),隨著技術(shù)與算力的提升,生成式人工智能技術(shù)得到顯著突破,催生了如ChatGPT和文心一言等多種模型,得益于其豐富的訓(xùn)練數(shù)據(jù)和先進(jìn)的注意力機(jī)制,這些大語(yǔ)言模型展現(xiàn)出了卓越的語(yǔ)言處理、提煉、整合和生成能力[9]。

        我國(guó)古籍?dāng)?shù)字化的工作已經(jīng)發(fā)展了三十多年[10],古籍?dāng)?shù)字化的核心任務(wù)是將幾千年的古籍文字符號(hào)轉(zhuǎn)換為計(jì)算機(jī)能夠識(shí)別的數(shù)字符號(hào)[11]。近年來(lái),隨著數(shù)字人文研究的日益興盛,眾多學(xué)者紛紛指出,古籍?dāng)?shù)字化工作不應(yīng)僅僅滿足于淺層次的轉(zhuǎn)換與呈現(xiàn),而應(yīng)朝著更深層次的研究與發(fā)展方向邁進(jìn),主張衍生出一種全新的古籍整理范式,即古籍知識(shí)的數(shù)據(jù)化整理,以期更為精準(zhǔn)、全面地挖掘和傳承古籍中蘊(yùn)含的深厚文化內(nèi)涵[12]。學(xué)者們進(jìn)行了深入地思考,在基礎(chǔ)技術(shù)和實(shí)踐計(jì)算兩個(gè)方面都取得了一些進(jìn)展(1)在基礎(chǔ)技術(shù)研究方面,古籍整理呈現(xiàn)出對(duì)古籍文獻(xiàn)內(nèi)容細(xì)化編目的需求,將古籍文獻(xiàn)轉(zhuǎn)化為可分析、可處理、可挖掘的古籍?dāng)?shù)據(jù)。周文杰、文玉鋒等分別基于時(shí)間維度和地域維度對(duì)百年簡(jiǎn)牘研究的主題特征進(jìn)行了分析,為古籍文獻(xiàn)的內(nèi)容挖掘與動(dòng)態(tài)表征提供了依據(jù)[13-14]。劉暢等深入探討了古籍分詞技術(shù),開發(fā)了一款適用于繁體古文的分詞工具,為數(shù)字人文領(lǐng)域的研究貢獻(xiàn)了文本處理方法[15]。趙連振等研究了古籍自動(dòng)標(biāo)點(diǎn)技術(shù),基于深度學(xué)習(xí)構(gòu)建的模型在標(biāo)點(diǎn)預(yù)測(cè)方面的準(zhǔn)確率和召回率達(dá)到了95%[16]。胡昊天等研究古籍殘本分類,在《四庫(kù)全書》的子部分類中構(gòu)建了自動(dòng)分類模型,準(zhǔn)確率高達(dá)95.3%[17]。(2)在實(shí)踐計(jì)算研究方面,通過知識(shí)組織、本體構(gòu)建、數(shù)據(jù)挖掘等手段,旨在實(shí)現(xiàn)古籍內(nèi)容從數(shù)字化到數(shù)據(jù)化的轉(zhuǎn)變。吳茗采用地理信息系統(tǒng)的思路對(duì)古籍信息進(jìn)行挖掘,結(jié)合古籍的空間數(shù)據(jù)和屬性數(shù)據(jù),通過地圖數(shù)據(jù)與文本內(nèi)容的融合,為用戶提供了一種立體的資源檢索和可視化展示方式,改變了文史研究的視角和維度,還通過構(gòu)建古籍時(shí)空分布系統(tǒng),強(qiáng)調(diào)了時(shí)間和空間維度的特征[18]。夏翠娟等深入研究了關(guān)聯(lián)數(shù)據(jù)技術(shù),探討了其實(shí)踐應(yīng)用路徑[19]。上述研究為古籍?dāng)?shù)據(jù)化整理開發(fā)提供了整體實(shí)踐框架,具有重要的學(xué)術(shù)價(jià)值。

        古籍文獻(xiàn)數(shù)量龐大,結(jié)構(gòu)復(fù)雜,內(nèi)容晦澀,開展大規(guī)模細(xì)粒度整理開發(fā)仍是個(gè)巨大挑戰(zhàn)。但生成式人工智能技術(shù)通過海量古籍訓(xùn)練數(shù)據(jù)和強(qiáng)大算力,突破了物理載體的限制,實(shí)現(xiàn)了大規(guī)模古籍文本的語(yǔ)義關(guān)聯(lián)處理,是推動(dòng)粗粒度、淺層次古籍文檔化整理開發(fā)走向細(xì)粒度、深層次古籍文本數(shù)據(jù)化整理開發(fā)的必由之路。面向古籍文本整理需求和存在缺陷,本研究設(shè)計(jì)了一個(gè)基于生成式人工智能的通用自動(dòng)置標(biāo)語(yǔ)義架構(gòu),該架構(gòu)能夠深入揭示原始古籍文本的內(nèi)容結(jié)構(gòu),這對(duì)加速古籍資源的轉(zhuǎn)化和利用、推動(dòng)古籍整理的智能化轉(zhuǎn)型升級(jí)至關(guān)重要。

        2 " 古籍文獻(xiàn)自動(dòng)置標(biāo)語(yǔ)義框架原理解析

        置標(biāo)語(yǔ)義框架原理由理論基礎(chǔ)和構(gòu)建邏輯兩部分所組成,前者決定了其核心理念,以現(xiàn)代認(rèn)知語(yǔ)言學(xué)當(dāng)中的框架語(yǔ)義學(xué)理論為指導(dǎo),后者決定了其基礎(chǔ)結(jié)構(gòu)和規(guī)則。簡(jiǎn)言之,古籍文獻(xiàn)自動(dòng)置標(biāo)語(yǔ)義框架是一種工具性元語(yǔ)言符號(hào)系統(tǒng),采用YAML語(yǔ)言設(shè)計(jì)[20]借助生成式人工智能技術(shù),對(duì)古籍內(nèi)容進(jìn)行結(jié)構(gòu)化表征的參照框架。所謂工具性元語(yǔ)言符號(hào)系統(tǒng)指的是用于描述和定義古籍文獻(xiàn)語(yǔ)義信息的一種語(yǔ)言系統(tǒng),它不直接表示古籍文獻(xiàn)的實(shí)際內(nèi)容,而是提供了一套元數(shù)據(jù)模型和關(guān)聯(lián)規(guī)則,用于指導(dǎo)生成式人工智能如何解釋、處理和生成古籍文獻(xiàn)中的結(jié)構(gòu)語(yǔ)義信息,它是作為古籍生成式結(jié)構(gòu)化表征和生成式人工智能技術(shù)間邏輯中介的工具,致力于在生成式人工智能技術(shù)的支撐下,實(shí)現(xiàn)古籍文本的結(jié)構(gòu)化、語(yǔ)義化。

        2.1 " "框架語(yǔ)義學(xué)理論基礎(chǔ)

        “框架理論”由美國(guó)麻省理工學(xué)院人工智能實(shí)驗(yàn)室的馬文·明斯基于1975年提出。在這一理論中,框架是指存儲(chǔ)在人的大腦中與典型情境相關(guān)的基本知識(shí)結(jié)構(gòu),構(gòu)成了基于以前記憶的“知識(shí)空框”,用來(lái)限定認(rèn)知范疇的大致結(jié)構(gòu),具體內(nèi)容則根據(jù)不同的認(rèn)知情境進(jìn)行填充、修改或更新[21],使得人們能夠快速理解并處理各種信息??蚣芾碚撜J(rèn)為,人們之所以能夠迅速理解文本含義,是因?yàn)榇竽X中已經(jīng)存儲(chǔ)了與同類文檔相關(guān)的認(rèn)知框架,對(duì)于熟悉認(rèn)知框架的人來(lái)說,他們能夠快速將文字符號(hào)與其代表的語(yǔ)義信息聯(lián)系起來(lái),從而快速完成對(duì)文本內(nèi)容的結(jié)構(gòu)化解析。要使計(jì)算機(jī)系統(tǒng)具備類似于人類的高質(zhì)量且合理的閱讀和理解檔案文本的能力,不僅需要將大量的古籍文檔提供給計(jì)算機(jī),還需要將人們閱讀古籍文本所依賴的認(rèn)知框架提供給計(jì)算機(jī),即構(gòu)建古籍領(lǐng)域置標(biāo)語(yǔ)義框架。通過引入語(yǔ)義框架,生成式人工智能可以更好地理解生成內(nèi)容的語(yǔ)義信息,從而更準(zhǔn)確地生成符合語(yǔ)義規(guī)范的內(nèi)容。

        2.2 " "古籍文獻(xiàn)自動(dòng)置標(biāo)語(yǔ)義框架構(gòu)建邏輯

        古籍文獻(xiàn)自動(dòng)置標(biāo)語(yǔ)義框架的構(gòu)建邏輯首先涉及將復(fù)雜的古籍文本通過邏輯降維簡(jiǎn)化為結(jié)構(gòu)化數(shù)據(jù)。其次,為每個(gè)語(yǔ)義元素賦予唯一標(biāo)識(shí)符以消除歧義,并通過邏輯關(guān)聯(lián)整合不同維度的數(shù)據(jù)以形成統(tǒng)一的語(yǔ)義體系。最后,采用邏輯嵌套進(jìn)一步細(xì)化文本結(jié)構(gòu),使得生成的數(shù)據(jù)既精確又具有層次性,從而有效支持古籍的數(shù)字化處理和智能化分析。

        第一,古籍文本邏輯降維。這一過程的主要目的是將古籍文本中包含的各種細(xì)粒度語(yǔ)義要素轉(zhuǎn)換為數(shù)據(jù)形式,這意味著將原始文本數(shù)據(jù)進(jìn)行降維,將其分解為數(shù)量有限且單一維度的數(shù)據(jù)集合。這種處理方式使得原本復(fù)雜的自然語(yǔ)言文本被轉(zhuǎn)換為計(jì)算機(jī)可以有效處理的結(jié)構(gòu)化形式。然而,古籍文本往往十分復(fù)雜,無(wú)法完全轉(zhuǎn)換為數(shù)據(jù)形式,因此需要參考置標(biāo)語(yǔ)義框架,提取出較為重要的關(guān)鍵信息進(jìn)行轉(zhuǎn)換,如在古籍文本“呂不韋者,陽(yáng)翟大賈人也。往來(lái)販賤賣貴,家累千金。秦昭王四十年,太子死”中,若將古籍生成式置標(biāo)語(yǔ)義框架設(shè)計(jì)為lt;人物gt;lt;時(shí)間gt;lt;事件gt;三個(gè)單一維度,則上文提到的古籍文本可以根據(jù)此語(yǔ)義框架通過生成式人工智能技術(shù)進(jìn)行自動(dòng)邏輯降維和信息表征,生成結(jié)果為“人物:{lt;人物gt;呂不韋lt;人物gt;}、時(shí)間:{lt;時(shí)間gt;秦昭王四十年lt;時(shí)間gt;}、事件描述:{lt;事件描述gt;太子死lt;事件描述gt;}”。

        第二,古籍語(yǔ)義要素邏輯指代。這一過程要求語(yǔ)義框架為古籍語(yǔ)義要素賦予唯一標(biāo)識(shí)符,消除歧義,更準(zhǔn)確地標(biāo)注和表征古籍內(nèi)容。如在古籍文獻(xiàn)中存在著人物稱呼、地名重名等情況,如孔子、孔丘、孔仲尼,金陵、江寧等,雖然人類能夠根據(jù)上下文和相關(guān)領(lǐng)域知識(shí)有效地區(qū)分這些語(yǔ)義沖突,但對(duì)于計(jì)算機(jī)而言,僅依據(jù)文本差異進(jìn)行信息分析可能會(huì)出現(xiàn)理解偏差或歧義。因此,語(yǔ)義框架對(duì)每個(gè)語(yǔ)義要素設(shè)置唯一標(biāo)識(shí)符,用于在系統(tǒng)中準(zhǔn)確地標(biāo)識(shí)和區(qū)分該實(shí)體,以確保古籍語(yǔ)義要素在整個(gè)系統(tǒng)中是唯一的,不會(huì)產(chǎn)生混淆或歧義。

        第三,古籍語(yǔ)義化邏輯關(guān)聯(lián)。語(yǔ)義化邏輯關(guān)聯(lián)是指以事件場(chǎng)景或主謂賓邏輯為中心,通過結(jié)構(gòu)化語(yǔ)義框架將分別位于不同維度的古籍?dāng)?shù)據(jù)聯(lián)結(jié)為同一邏輯體系。如原始古籍文本“呂不韋者,陽(yáng)翟大賈人也。往來(lái)販賤賣貴,家累千金”,其語(yǔ)義架構(gòu)由lt;主語(yǔ)gt;lt;謂語(yǔ)gt;lt;賓語(yǔ)gt;語(yǔ)義邏輯要素構(gòu)成。邏輯關(guān)聯(lián)指根據(jù)語(yǔ)義架構(gòu),將經(jīng)過降維處理的多個(gè)單一維度古籍?dāng)?shù)據(jù)整合關(guān)聯(lián)起來(lái),以構(gòu)建出對(duì)特定文本的全面描述,“l(fā)t;主語(yǔ)gt;呂不韋lt;主語(yǔ)gt;,lt;謂語(yǔ)gt;販賤賣貴lt;謂語(yǔ)gt;,lt;賓語(yǔ)gt;家累千金lt;賓語(yǔ)gt;”就是由古籍文本中抽取的多維度數(shù)據(jù)基于事理語(yǔ)義邏輯進(jìn)行關(guān)聯(lián)之后形成的語(yǔ)義數(shù)據(jù)集。通過上述邏輯關(guān)聯(lián)的有效運(yùn)用,能夠?qū)⒃脊偶墨I(xiàn)中散亂無(wú)序的信息進(jìn)行有機(jī)整合,形成關(guān)于特定事件或場(chǎng)景完整且結(jié)構(gòu)化的視圖。

        第四,古籍文本層級(jí)邏輯嵌套。文本層級(jí)化是指對(duì)古籍文本的逐層細(xì)化過程,其中每一層都將原本作為整體存在的文本或模塊劃分為若干更小的模塊[22]。文本層級(jí)邏輯嵌套是指在古籍置標(biāo)語(yǔ)義框架中,信息以嵌套的形式組織,每個(gè)層級(jí)的信息都可以包含更詳細(xì)的子層級(jí)信息。如lt;主語(yǔ)gt;呂不韋lt;主語(yǔ)gt;,lt;謂語(yǔ)gt;販賤賣貴lt;謂語(yǔ)gt;,lt;賓語(yǔ)gt;家累千金lt;賓語(yǔ)gt;。對(duì)于非邏輯嵌套形式的簡(jiǎn)單語(yǔ)義要素,如本例中的動(dòng)作要素“販賤賣貴”,可以直接映射到語(yǔ)義架構(gòu)中相應(yīng)的位置,而對(duì)于被指定為邏輯嵌套內(nèi)聯(lián)形式的主體要素,如“呂不韋”,則需要進(jìn)一步解析其內(nèi)部的細(xì)節(jié)信息。假設(shè)“呂不韋”中嵌套了“人物”語(yǔ)義要素,需要遞歸地分析這些細(xì)節(jié),如籍貫、性別、職務(wù)等。通過文本層級(jí)嵌套形式構(gòu)建的置標(biāo)語(yǔ)義框架可以遞歸調(diào)用生成式人工智能模型,從而實(shí)現(xiàn)對(duì)古籍文獻(xiàn)內(nèi)容結(jié)構(gòu)的深度和層次化信息表征。

        因此,古籍生成式表征基本思路首先應(yīng)該將古籍領(lǐng)域文本邏輯結(jié)構(gòu)知識(shí)予以“外化”,形成可供參考的古籍文獻(xiàn)生成式置標(biāo)語(yǔ)義框架。其次參照置標(biāo)語(yǔ)義框架,依托于生成式人工智能在古籍文本中自動(dòng)嵌入結(jié)構(gòu)或者語(yǔ)義標(biāo)記,將人對(duì)古籍文本結(jié)構(gòu)的理解轉(zhuǎn)換為生成式人工智能可以識(shí)別、共享和處理的形式。最后,利用生成式人工智能技術(shù)和置標(biāo)語(yǔ)義框架,古籍文本能夠自動(dòng)生成符合置標(biāo)語(yǔ)義框架的深層次結(jié)構(gòu)化表征數(shù)據(jù)。

        3 " 古籍文獻(xiàn)自動(dòng)置標(biāo)語(yǔ)義框架設(shè)計(jì)

        生成式邏輯下古籍文獻(xiàn)置標(biāo)語(yǔ)義框架需要對(duì)古籍文本的邏輯結(jié)構(gòu)予以“外化”,并轉(zhuǎn)化為符合生成式人工智能處理邏輯的結(jié)構(gòu)化形式。梁繼紅提出的歷史文本數(shù)字化整理方法是一個(gè)逐步深化的多層次建構(gòu)過程,從“文本的基礎(chǔ)閱讀層”起步,將“元數(shù)據(jù)層構(gòu)建”作為橋梁,逐步實(shí)現(xiàn)“文本內(nèi)部數(shù)據(jù)化加工”,最終演化為“知識(shí)探索層的數(shù)據(jù)分析和可視化”[23]。本研究借鑒上述漸進(jìn)式數(shù)字化整理過程,對(duì)古籍文獻(xiàn)自動(dòng)置標(biāo)語(yǔ)義框架應(yīng)用過程和古籍文獻(xiàn)生成式表征過程進(jìn)行了解析。該過程主要包括古籍文獻(xiàn)數(shù)字化、基于生成式人工智能語(yǔ)義框架以及古籍文本內(nèi)容結(jié)構(gòu)表征。

        (1)古籍文獻(xiàn)數(shù)字化處于上述漸進(jìn)式數(shù)字化整理過程的底層(即第一層次),類似于過去紙張?jiān)?jīng)取代了竹木、紙莎草和羊皮等作為書寫材料的歷史演變一樣,古籍文獻(xiàn)數(shù)字化是指實(shí)體古籍文獻(xiàn)正在經(jīng)歷從紙質(zhì)形態(tài)到數(shù)字形態(tài)的轉(zhuǎn)變,形成古籍文本數(shù)字化掃描文件。

        (2)第二層次作為連接古籍文獻(xiàn)數(shù)字化與古籍文本內(nèi)容表征的關(guān)鍵橋梁,在自動(dòng)置標(biāo)語(yǔ)義框架的設(shè)計(jì)中發(fā)揮著至關(guān)重要的作用。在此過程中,采用YAML語(yǔ)言來(lái)精確描述古籍文本的邏輯結(jié)構(gòu),這主要包括預(yù)定義的元數(shù)據(jù)模型和關(guān)聯(lián)規(guī)則集合,通過這一方式,將古籍文本的邏輯結(jié)構(gòu)進(jìn)行“外化”,從而構(gòu)建出一個(gè)可供計(jì)算機(jī)和人工智能系統(tǒng)參考的古籍置標(biāo)語(yǔ)義框架。這一框架的建立,使得古籍文本內(nèi)容與置標(biāo)語(yǔ)義框架之間能夠進(jìn)行有效映射。在此基礎(chǔ)上為古籍文本的語(yǔ)義結(jié)構(gòu)化表征提供了標(biāo)準(zhǔn)化的標(biāo)簽體系和命名實(shí)體的唯一標(biāo)識(shí)符,為后續(xù)古籍文獻(xiàn)發(fā)掘、整理與研究工作奠定堅(jiān)實(shí)的基礎(chǔ)。

        (3)第三層次主要是對(duì)古籍文本內(nèi)容進(jìn)行大規(guī)模表征,形成結(jié)構(gòu)化數(shù)據(jù)集。古籍文獻(xiàn)數(shù)量龐大,且內(nèi)容晦澀難懂,由國(guó)內(nèi)古籍?dāng)?shù)字化整理的實(shí)踐追溯可知,僅依靠人工很難深入到文本內(nèi)部作細(xì)粒度的揭示。鑒于生成式人工智能在古漢語(yǔ)領(lǐng)域內(nèi)接受了海量古籍文本的訓(xùn)練,表現(xiàn)出對(duì)自然語(yǔ)言的理解能力和上下文推理的能力[24],能夠更好地處理復(fù)雜的古籍文本數(shù)據(jù)。參照第二層次置標(biāo)語(yǔ)義框架,通過生成式人工智能模型和YAML語(yǔ)言設(shè)計(jì)的元數(shù)據(jù)模型和標(biāo)準(zhǔn)化關(guān)聯(lián)規(guī)則對(duì)古籍文本進(jìn)行理解、全面描述和關(guān)聯(lián)標(biāo)注,形成古籍文本結(jié)構(gòu)化數(shù)據(jù)集。

        基于上述原理解析,置標(biāo)語(yǔ)義框架構(gòu)建需要根據(jù)古籍文本的邏輯結(jié)構(gòu)來(lái)定義語(yǔ)義框架中各個(gè)層級(jí)的語(yǔ)義標(biāo)簽,并對(duì)屬性類型和關(guān)聯(lián)規(guī)則進(jìn)行限定。參照前人研究[25],將古籍置標(biāo)語(yǔ)義框架分為實(shí)體維度語(yǔ)義要素和關(guān)系維度語(yǔ)義邏輯兩個(gè)不同維度。實(shí)體維度語(yǔ)義要素代表古籍文本中出現(xiàn)的實(shí)體類,如人物、地點(diǎn)、時(shí)間等,其中每個(gè)實(shí)體要素類都有不同屬性,用于描述實(shí)體的具體信息。關(guān)系維度語(yǔ)義邏輯主要描述實(shí)體語(yǔ)義要素之間的關(guān)系和邏輯連接。如lt;地點(diǎn)gt;發(fā)生lt;事件gt;、lt;人物gt;發(fā)生lt;事件gt;等。通過定義關(guān)系維度的語(yǔ)義標(biāo)簽和關(guān)聯(lián)規(guī)則,可以準(zhǔn)確地捕捉古籍文獻(xiàn)中的語(yǔ)義關(guān)聯(lián)。

        如古籍文本的實(shí)體語(yǔ)義要素NamedEntity中定義Person的Label標(biāo)簽屬性為“人物名稱”。生成式人工智能中Prompt允許用戶以指令的方式指導(dǎo)和抽取數(shù)據(jù)規(guī)則[26],設(shè)置該人物實(shí)體Label的Prompt屬性特征為“請(qǐng)?zhí)崛∩鲜鑫谋局械娜宋锩Q”,設(shè)置該人物實(shí)體Label的Range屬性特征為“str”,表明人物名稱被視為文本字符串。針對(duì)古籍文本的關(guān)系語(yǔ)義邏輯,按照主謂賓三元組語(yǔ)義邏輯定義主體實(shí)體和客體實(shí)體,設(shè)置其語(yǔ)義標(biāo)簽Label屬性為Subject(主體實(shí)體)和Object(客體實(shí)體),設(shè)置Range屬性特征為“NamedEntity”,表明這些主體實(shí)體和客體實(shí)體繼承自上文定義的人名、事件、或其他類似的實(shí)體要素,用于標(biāo)識(shí)關(guān)系邏輯的兩端。上述語(yǔ)義框架對(duì)于實(shí)體維度語(yǔ)義要素和關(guān)系維度語(yǔ)義邏輯的每個(gè)屬性都提供了適用于生成式人工智能的特定提示詞,根據(jù)語(yǔ)義框架中定義的規(guī)則,以生成式邏輯遞歸表征古籍內(nèi)容結(jié)構(gòu)。由此,基于YAML的古籍文本置標(biāo)語(yǔ)義框架的詳細(xì)語(yǔ)義標(biāo)簽和關(guān)聯(lián)規(guī)則設(shè)計(jì)(見表1)。

        基于上述語(yǔ)義框架設(shè)計(jì)過程,構(gòu)建一個(gè)具體例子(見表2),說明如何使用YAML語(yǔ)言設(shè)計(jì)古籍文獻(xiàn)人物實(shí)體要素People及其屬性特征。

        4 " 古籍自動(dòng)化置標(biāo)語(yǔ)義框架生成實(shí)例

        以《史記·呂不韋列傳》(卷85)部分文本為例,使用OpenAI提供的ChatGPT-4 Turbo大語(yǔ)言模型API實(shí)現(xiàn)對(duì)生成式大語(yǔ)言模型的調(diào)用,演示自動(dòng)置標(biāo)語(yǔ)義框架在古籍文本內(nèi)容生成式表征的應(yīng)用過程。

        4.1 " "應(yīng)用過程

        自動(dòng)置標(biāo)語(yǔ)義框架在古籍文本內(nèi)容生成式表征的具體應(yīng)用流程包括以下幾個(gè)步驟:

        (1)文本與古籍置標(biāo)語(yǔ)義框架準(zhǔn)備。原始文本來(lái)自《史記》(點(diǎn)校修訂本)的《呂不韋列傳》(卷85)[27],上述設(shè)計(jì)的置標(biāo)語(yǔ)義框架作為表征古籍文本邏輯結(jié)構(gòu)中實(shí)體語(yǔ)義要素、關(guān)系語(yǔ)義邏輯的參照框架,以YAML數(shù)據(jù)格式存儲(chǔ)。

        (2)遞歸提示詢問。置標(biāo)語(yǔ)義框架的每個(gè)類和屬性中均包含Prompt特征,用于設(shè)置提取語(yǔ)義內(nèi)容的提示詞。根據(jù)置標(biāo)語(yǔ)義框架生成提示文本,遞歸地對(duì)大語(yǔ)言模型執(zhí)行提示詢問。根據(jù)提示詢問生成與置標(biāo)語(yǔ)義框架匹配的結(jié)構(gòu)化輸出。如古籍文本為“呂不韋者,陽(yáng)翟大賈人也。往來(lái)販賤賣貴,家累千金。秦昭王四十年,太子死。其四十二年,以其次子安國(guó)君為太子。安國(guó)君有子二十馀人。安國(guó)君有所甚愛姬,立以為正夫人,號(hào)曰華陽(yáng)夫人。華陽(yáng)夫人無(wú)子?!?,若要提取上述文本中實(shí)體間的關(guān)系CausalRelationship,則生成的提示是:

        從以下古籍文本中提取以分號(hào)分隔的三元組語(yǔ)義邏輯鏈接列表,其中每個(gè)邏輯都是通過關(guān)系類型連接兩個(gè)古籍實(shí)體的三重鏈接:

        實(shí)體間語(yǔ)義邏輯:請(qǐng)準(zhǔn)確提取出以分號(hào)分隔的關(guān)系語(yǔ)義邏輯鏈接列表

        主實(shí)體:請(qǐng)準(zhǔn)確識(shí)別上述古籍文本中的主體,作為三元組的頭部實(shí)體

        關(guān)系:請(qǐng)準(zhǔn)確識(shí)別上述古籍文本中的謂語(yǔ),作為三元組的邏輯關(guān)聯(lián)

        尾實(shí)體:請(qǐng)準(zhǔn)確識(shí)別上述古籍文本中的客體,作為三元組的尾部實(shí)體

        Text:呂不韋者,陽(yáng)翟大賈人也。往來(lái)販賤賣貴,家累千金。秦昭王四十年,太子死。其四十二年,以其次子安國(guó)君為太子。安國(guó)君有子二十馀人。安國(guó)君有所甚愛姬,立以為正夫人,號(hào)曰華陽(yáng)夫人。華陽(yáng)夫人無(wú)子。

        根據(jù)上述提示指導(dǎo)大語(yǔ)言模型生成符合預(yù)期格式的內(nèi)容。如Causal_Relationships:lt;呂不韋-為-陽(yáng)翟大賈人gt;;lt;安國(guó)君-子-子楚gt;;lt;子楚-母-夏姬gt;;lt;秦昭王-派發(fā)-王璠gt;等內(nèi)容,至此,遞歸提示詢問完成。

        (3)解析匹配提取。上述步驟已經(jīng)根據(jù)大語(yǔ)言模型的輸出進(jìn)行了初步的解析和結(jié)構(gòu)化,但在結(jié)果生成步驟中,大語(yǔ)言模型高度創(chuàng)造性和學(xué)習(xí)性會(huì)導(dǎo)致其提供的結(jié)果并不一定嚴(yán)格遵守預(yù)先設(shè)定的格式,因此需要進(jìn)一步處理或映射輸出結(jié)果以確保所有提取的數(shù)據(jù)都符合特定的格式。首先將輸出結(jié)果進(jìn)行初步結(jié)構(gòu)化處理,將數(shù)據(jù)分解為可管理的單元。針對(duì)每個(gè)單元,識(shí)別并提取出主體實(shí)體、謂語(yǔ)關(guān)系和客體實(shí)體數(shù)據(jù)項(xiàng),根據(jù)基于YAML置標(biāo)語(yǔ)言中的定義來(lái)處理和解析每個(gè)數(shù)據(jù)項(xiàng),將這個(gè)處理后的數(shù)據(jù)項(xiàng)賦給主體實(shí)體、謂語(yǔ)關(guān)系和客體實(shí)體。如lt;呂不韋-為-陽(yáng)翟大賈人gt;可以解析為:

        古籍主體實(shí)體:呂不韋

        古籍謂語(yǔ)關(guān)系:為

        古籍客體實(shí)體:陽(yáng)翟大賈人

        然后進(jìn)行關(guān)系遞歸提取。對(duì)于那些包含更復(fù)雜信息的數(shù)據(jù)項(xiàng),采用遞歸調(diào)用SPIERS算法的方法[28],進(jìn)一步細(xì)化和深入解析,如果屬性“主體語(yǔ)義要素”包含了更深層次的細(xì)節(jié),如筆名和化名,會(huì)持續(xù)解析這些信息直到達(dá)到非嵌套的終點(diǎn)。至此,實(shí)體及關(guān)系被深入挖掘并準(zhǔn)確歸檔。

        (4)YAML數(shù)據(jù)存儲(chǔ)。通過大語(yǔ)言模型和YAML語(yǔ)言設(shè)計(jì)的置標(biāo)語(yǔ)義框架對(duì)古籍文本內(nèi)容進(jìn)行表征,所形成的結(jié)構(gòu)化結(jié)果以YAML格式進(jìn)行存儲(chǔ)(具體形式見4.2節(jié)),可以方便地進(jìn)行數(shù)據(jù)讀取、編輯和傳輸,同時(shí)保持?jǐn)?shù)據(jù)的結(jié)構(gòu)性和可讀性,以便后續(xù)進(jìn)行大規(guī)模古籍文本的結(jié)構(gòu)表征,以及本體和知識(shí)圖譜的構(gòu)建和分析工作。

        通過上述流程,利用自動(dòng)置標(biāo)語(yǔ)義框架并結(jié)合生成式方法,成功實(shí)現(xiàn)了古籍文本內(nèi)容表征。

        4.2 " "古籍文本語(yǔ)義置標(biāo)框架結(jié)構(gòu)化表征示例

        遵循YAML的語(yǔ)法規(guī)范,參照上述置標(biāo)語(yǔ)義框架設(shè)計(jì)和應(yīng)用過程后自動(dòng)形成古籍文本語(yǔ)義信息的結(jié)構(gòu)化數(shù)據(jù)描述,將沒有明確結(jié)構(gòu)的古籍自然語(yǔ)言文本表達(dá)為由多個(gè)層次語(yǔ)義標(biāo)簽和文本單元組成的樹形數(shù)據(jù)框架。古籍《史記·呂不韋列傳》(卷85)參照置標(biāo)語(yǔ)義框架進(jìn)行結(jié)構(gòu)化內(nèi)容表征(見表3)。為簡(jiǎn)潔起見,輸入文本和部分結(jié)果被截?cái)?,完整輸入可在《史記·呂不韋列傳》(卷85)獲取。

        上表中,依托于生成式人工智能技術(shù),在置標(biāo)語(yǔ)義框架的指導(dǎo)下,古籍文本《史記·呂不韋列傳》(卷85)進(jìn)行了結(jié)構(gòu)化數(shù)據(jù)描述,分為實(shí)體語(yǔ)義要素和關(guān)系語(yǔ)義邏輯兩類數(shù)據(jù)項(xiàng),對(duì)這兩類數(shù)據(jù)項(xiàng)進(jìn)一步細(xì)化,實(shí)體語(yǔ)義要素由時(shí)間、地點(diǎn)、人物、事件等數(shù)據(jù)項(xiàng)組合而成,關(guān)系語(yǔ)義邏輯由主語(yǔ)、謂語(yǔ)、客體和語(yǔ)義邏輯關(guān)系鏈接數(shù)據(jù)項(xiàng)組合而成。在每個(gè)數(shù)據(jù)項(xiàng)值對(duì)中(subject-label:安國(guó)君),屬性以粗體顯示,后跟冒號(hào),其后是標(biāo)簽值。依托于置標(biāo)語(yǔ)義框架,進(jìn)行了古籍文本語(yǔ)義結(jié)構(gòu)化表征,將具有相同命名實(shí)體且潛在語(yǔ)義關(guān)系的文本相互連接。這種方法使得不同古籍文本之間的邏輯界限變得模糊,為古籍文獻(xiàn)的智能化處理和深度挖掘提供了新的可能性。

        5 " 結(jié)語(yǔ)

        自動(dòng)置標(biāo)語(yǔ)義框架定義并描述了古籍文獻(xiàn)語(yǔ)義信息的元數(shù)據(jù)模型和關(guān)聯(lián)規(guī)則,以現(xiàn)代認(rèn)知語(yǔ)言學(xué)的框架語(yǔ)義學(xué)理論為導(dǎo)向,通過邏輯降維、邏輯指代、邏輯關(guān)聯(lián)及邏輯嵌套等核心理念,使用YAML語(yǔ)言對(duì)古籍文本的邏輯結(jié)構(gòu)進(jìn)行建模。該語(yǔ)義框架作為生成式人工智能技術(shù)的邏輯中介,旨在引導(dǎo)生成式人工智能理解、處理并生成古籍文獻(xiàn)中的實(shí)體語(yǔ)義元素和關(guān)系邏輯信息,實(shí)現(xiàn)古籍文獻(xiàn)內(nèi)容的自動(dòng)表征。

        盡管自動(dòng)置標(biāo)語(yǔ)義框架為古籍文獻(xiàn)從“數(shù)字化”到“數(shù)據(jù)化”的轉(zhuǎn)換提供了精細(xì)且復(fù)雜的邏輯參照體系,并在生成式人工智能技術(shù)支持下實(shí)現(xiàn)了大規(guī)模自動(dòng)化的內(nèi)容結(jié)構(gòu)表征,但在語(yǔ)義框架構(gòu)建和具體應(yīng)用方面仍面臨挑戰(zhàn)。一方面,當(dāng)前語(yǔ)義框架構(gòu)建聚焦于標(biāo)簽而非屬性的深入描述,未來(lái)研究需擴(kuò)展屬性的含義和特征,增加邏輯嵌套層級(jí),進(jìn)而更完整地表達(dá)語(yǔ)義信息。另一方面,本研究語(yǔ)義框架應(yīng)用依賴于通用人工智能模型,可能不足以適應(yīng)特定古籍領(lǐng)域的語(yǔ)言風(fēng)格和知識(shí),未來(lái)研究需確保語(yǔ)義框架能夠靈活適應(yīng)垂直領(lǐng)域大語(yǔ)言模型,以提高生成式表征的準(zhǔn)確性和質(zhì)量。

        在古籍置標(biāo)語(yǔ)義框架的引領(lǐng)下,借助生成式人工智能技術(shù),必將促進(jìn)古籍整理與研究工作向廣度、深度、精度與效度持續(xù)發(fā)展,為新時(shí)期古籍工作的發(fā)展提供技術(shù)力量和支撐。在后續(xù)研究中將基于此框架,結(jié)合大語(yǔ)言模型構(gòu)建古籍領(lǐng)域的本體和知識(shí)圖譜,促進(jìn)知識(shí)的多維重組和可視化表征,充分發(fā)揮置標(biāo)語(yǔ)義框架和生成式人工智能技術(shù)的耦合優(yōu)勢(shì),塑造古籍?dāng)?shù)據(jù)化、智能化處理的新維度,形成智能化與認(rèn)知框架共生的新磁場(chǎng)。

        參考文獻(xiàn):

        [1] "中華人民共和國(guó)國(guó)家民族事務(wù)委員會(huì).中共中央關(guān)于整理我國(guó)古籍的指示[EB/OL].[2024-02-15].https://www.neac.gov.cn/seac/zcfg/201012/1075080.shtml.

        [2] "中共中央辦公廳,國(guó)務(wù)院辦公廳.關(guān)于推進(jìn)新時(shí)代古籍工作的意見[N].新華社,2022-04-12(1).

        [3] "章紅雨.高質(zhì)量做好新時(shí)代古籍工作 為建設(shè)社會(huì)主義文化強(qiáng)國(guó)提供有力支撐[N].中國(guó)新聞出版廣電報(bào),2022-10-13 (3).

        [4] "劉圓圓.人工智能讓古籍“活”起來(lái)[N].人民政協(xié)報(bào),2022-10-14(10).

        [5] "趙生輝,胡瑩,廖月妮.構(gòu)建超文本史料:歷史檔案置標(biāo)語(yǔ)言HAML設(shè)計(jì)與應(yīng)用初探[J].檔案學(xué)通訊,2024(1):45-51.

        [6] "李明.數(shù)字人文驅(qū)動(dòng)下我國(guó)古籍?dāng)?shù)字化研究的演進(jìn)特征及內(nèi)在邏輯分析[J].圖書館理論與實(shí)踐,2023(4):121-127.

        [7] "王紅,楊晴.數(shù)字人文視域下圖書館古籍資源的開發(fā)與利用[J].圖書情報(bào)導(dǎo)刊,2022,7(7):1-6.

        [8] "Chatterjee P.What Excites Yoshua Bengio about the Future of Generative AI[EB/OL].[2023-02-12].https://analyticsindiamag.com/what-excites-yoshua-bengio-about-the-future-of-gener ative-ai/.

        [9] "陸偉,劉家偉,馬永強(qiáng),等.ChatGPT 為代表的大模型對(duì)信息資源管理的影響[J].圖書情報(bào)知識(shí),2023(2):6-9,70.

        [10] "胡艷杰.古籍?dāng)?shù)字化資源的交換及其意義初探[J].圖書館工作與研究,2014(12):45-47.

        [11] "段澤勇,李弘毅.古籍?dāng)?shù)字化的回顧與展望[J].圖書館理論與實(shí)踐,2004(2):37-39.

        [12] "李明杰.數(shù)字環(huán)境下古籍整理范式的傳承與拓新[J].中國(guó)圖書館學(xué)報(bào),2015(9):99-110.

        [13] "文玉鋒,劉蕾.百年簡(jiǎn)牘研究主題流變考:基于地域維度[J].西北師大學(xué)報(bào)(社會(huì)科學(xué)版),2024,61(3):132-144.

        [14] "周文杰.百年簡(jiǎn)牘研究主題流變考:基于時(shí)間維度[J].西北師大學(xué)報(bào)(社會(huì)科學(xué)版),2024,61(3):122-131.

        [15] "劉暢,王東波,胡昊天,等.面向數(shù)字人文的融合外部特征的典籍自動(dòng)分詞研究——以 SikuBERT 預(yù) 訓(xùn) 練 模 型 為 例[J].圖書館論壇,2022,42(6):44-54.

        [16] "趙連振,張逸勤,劉江峰,等.面向數(shù)字人文的先秦兩漢典籍自動(dòng)標(biāo)點(diǎn)研究——以 SIKU-BERT預(yù)訓(xùn)練模型為例[J].圖書館論壇,2022,42(12):120-128,137.

        [17] "胡昊天,張逸勤,鄧三鴻,等.面向數(shù)字人文的《四庫(kù)全書》子部自動(dòng)分類研究——以SikuBERT和SikuRoBERTa預(yù)訓(xùn)練模型為例[J].圖書館論壇,2022,42(12):138-148.

        [18] "吳茗.GIS技術(shù)在古籍?dāng)?shù)字化資源建設(shè)中的應(yīng)用[J].圖書館學(xué)刊,2016,38(4):55-58.

        [19] "夏翠娟,劉煒,趙亮,等.關(guān)聯(lián)數(shù)據(jù)發(fā)布技術(shù)及其實(shí)現(xiàn)——以Drupal為例[J].中國(guó)圖書館學(xué)報(bào),2012,38(1):49-57.

        [20] "Oren Ben-Kiki,Clark Evans,Ingy D?觟t Net.YAML ain’t markup language(YAMLTM)version 1.2.YAML specification[J].2009.

        [21] "張仰森.人工智能教程[M].北京:高等教育出版社,2013:42.

        [22] "趙生輝,胡瑩.檔案文本結(jié)構(gòu)化:概念、原理與路徑[J].浙江檔案,2019(12):23-25.

        [23] "梁繼紅.走向文本的歷史檔案數(shù)字整理:歷史追溯與時(shí)代轉(zhuǎn)型(下)[J].檔案學(xué)通訊,2022(1):60-66.

        [24] "Zhao W X,Zhou K,Li J Y,et al.A survey of large language models[J].arXiv perprint arxiv:2303.18223,2023.

        [25] "趙生輝,胡瑩,宋和平.檔案語(yǔ)義參照框架:邏輯、架構(gòu)與實(shí)證[J].檔案學(xué)通訊,2023(1):53-60.

        [26] "HENDRIK S,ALBERT W,VICTOR S,et al.Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation with Large Language Models[J].IEEE transactions on visualization and computer graphics,2022,29(1):1146-1156.

        [27] "司馬遷.史記(點(diǎn)校本二十四史修訂本)[M].北京: 中華書局,2013.

        [28] "Caufield J H,Hegde H,Emonet V,et al.Structured prompt interrogation and recursive extraction of semantics(SPIRES):A method for populating knowledge bases using zero-shot learning [J].Bionformatics,2024,40(3):btae 104.

        作者簡(jiǎn)介:文玉鋒,男,西北師范大學(xué)管理學(xué)院副教授,研究方向:數(shù)據(jù)分析與數(shù)據(jù)挖掘、情報(bào)分析;趙悅言,女,四川大學(xué)公共管理學(xué)院博士研究生,研究方向:公共部門數(shù)據(jù)分析與數(shù)據(jù)挖掘、政府信息資源管理。

        国产成人av一区二区三区在线| 亚洲国产精品一区二区毛片| 五月四房播播| 天堂一区人妻无码| 色综合久久久久综合999| 日韩av在线免费观看不卡| 亚洲av日韩av卡二| 亚洲人成未满十八禁网站| 人伦片无码中文字幕| 日韩国产自拍成人在线| 一道本久久综合久久鬼色| 亚洲成在人网站av天堂| 国产精品理人伦国色天香一区二区| 日韩人妻有码中文字幕| 亚洲av免费不卡在线观看| 东北女人毛多水多牲交视频| 日本一本久道| 在线观看人成网站深夜免费 | 激情五月婷婷久久综合| 国产一区二区精品人妖系列在线| 久久国产色av免费观看| 国产目拍亚洲精品一区二区| 亚洲每天色在线观看视频| 白白色发布会在线观看免费| 少妇仑乱a毛片| 國产AV天堂| 国产精品二区三区在线观看| 国产日产精品_国产精品毛片| 99精品国产综合久久久久五月天| 天堂最新在线官网av| 国产色第一区不卡高清| 欧美亚洲日本国产综合在线美利坚| 特级毛片a级毛片在线播放www| 午夜天堂精品一区二区| 91九色成人蝌蚪首页| 极品粉嫩小泬无遮挡20p| 亚洲a级片在线观看| 亚洲97成人精品久久久| 国产乱子轮xxx农村| 国产视频导航| 国产精品美女自在线观看|