亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合知識圖譜與大語言模型的科技文獻(xiàn)復(fù)雜知識對象抽取研究

        2025-07-06 00:00:00陳文杰胡正銀石棲盧穎
        現(xiàn)代情報 2025年7期

        摘 要: [目的/ 意義] 科技文獻(xiàn)復(fù)雜知識對象對科技文獻(xiàn)中的深度知識內(nèi)容進(jìn)行細(xì)粒度、 全面的知識表示,可有效支撐數(shù)智驅(qū)動的科學(xué)發(fā)現(xiàn)與知識發(fā)現(xiàn), 是重要的科技創(chuàng)新要素。 [方法/ 過程] 首先, 通過輕量級本體構(gòu)建、 BRAT 知識標(biāo)注和 Neo4j 知識存儲等步驟實現(xiàn)領(lǐng)域知識圖譜構(gòu)建, 其次, 本地化部署大語言模型 ChatGLM2-6B 并通過低秩適應(yīng)(Low-Rank Adaptation, LoRA)技術(shù)微調(diào)模型, 最后基于思維記憶(Memory of Thoughts, MOT)機(jī)制將知識圖譜中的復(fù)雜知識注入提示中, 通過與大語言模型的多輪問答從科技文獻(xiàn)中抽取出復(fù)雜知識對象。[結(jié)果/ 結(jié)論] 以有機(jī)太陽能電池(Organic Solar Cells, OSC)為例驗證方法的有效性, 結(jié)果表明融合知識圖譜與大語言模型的抽取方法優(yōu)于大語言模型單獨支撐的抽取方法, 在準(zhǔn)確率 P、 召回率 R 和 F1 值 3 個指標(biāo)上分別提升14 1%、 10 3%和 12 3%。 知識圖譜能夠增強(qiáng)大語言模型對科技文獻(xiàn)的復(fù)雜知識對象抽取能力, 提升 OSC 領(lǐng)域的科技文獻(xiàn)挖掘效率與準(zhǔn)確性。

        關(guān)鍵詞: 知識圖譜; 大語言模型; 科技文獻(xiàn); 太陽能電池; 知識抽??; 提示構(gòu)建

        DOI:10.3969 / j.issn.1008-0821.2025.07.002

        〔中圖分類號〕 G254 〔文獻(xiàn)標(biāo)識碼〕 A 〔文章編號〕 1008-0821 (2025) 07-0014-12

        科技文獻(xiàn)中蘊(yùn)含大量 “可信、 專業(yè)、 規(guī)范” 的領(lǐng)域知識與科學(xué)數(shù)據(jù)組成的復(fù)雜知識對象, 是重要的科技創(chuàng)新要素[1]。 知識單元是揭示文獻(xiàn)知識內(nèi)容的基本元素, 通常以三元組、 特征向量和屬性—值對等形式描述文獻(xiàn)的研究問題、 實驗原理和研究主題等特征[2]。 而科技文獻(xiàn)復(fù)雜知識對象是由若干知識單元關(guān)聯(lián)、 組織形成的統(tǒng)一知識結(jié)構(gòu), 以面向?qū)ο蟮囊暯菍萍嘉墨I(xiàn)中的深度知識內(nèi)容進(jìn)行細(xì)粒度、全面的知識表示。 例如, 科技文獻(xiàn)中實驗方案通常包括實驗原理、 實驗元素、 實驗步驟、 實驗結(jié)果等不同類型的知識。 其中, 實驗原理可由簡單的知識單元進(jìn)行表示, 實驗元素通常是由實驗材料、 實驗試劑、 科學(xué)儀器等知識單元組成復(fù)合型知識對象,而實驗步驟包含科學(xué)實驗流程等時序性知識對象,實驗結(jié)果則是一種知識與數(shù)據(jù)融合性的知識對象。上述由實驗元素、 實驗步驟、 實驗結(jié)果構(gòu)成的實驗方案就是一種典型的科技文獻(xiàn)復(fù)雜知識對象[3]。 通過對這些復(fù)雜知識對象進(jìn)行抽取與分析, 能夠發(fā)現(xiàn)不同學(xué)科領(lǐng)域內(nèi)潛在的、 深層次的知識關(guān)聯(lián)與傳遞,可有效支撐數(shù)智驅(qū)動的科學(xué)發(fā)現(xiàn)與知識發(fā)現(xiàn)[1]。 傳統(tǒng)的知識對象抽取關(guān)注從文本中提取簡單知識結(jié)構(gòu),如實體、 關(guān)系和簡單事實, 這些信息通常是扁平的,不需要復(fù)雜的結(jié)構(gòu)化處理。 而科技文獻(xiàn)復(fù)雜知識對象抽取旨在識別和抽取科技文獻(xiàn)中的細(xì)粒度、 結(jié)構(gòu)化的知識單元, 并將它們組織成更高層次的知識結(jié)構(gòu), 側(cè)重于揭示深層次的知識關(guān)聯(lián)和傳遞。 然而,以領(lǐng)域?qū)<覟楹诵牡目萍嘉墨I(xiàn)知識抽取模式存在效率低下和主觀性強(qiáng)等缺陷, 難以支撐大規(guī)模科技文獻(xiàn)的挖掘與建模。 因此, 如何從科技文獻(xiàn)中高效抽取復(fù)雜知識對象成為一個困難卻有價值的問題。

        以 ChatGPT[4]為代表的大語言模型是一類使用大量文本數(shù)據(jù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)模型, 憑借其強(qiáng)大的涌現(xiàn)能力和零樣本遷移能力, 在知識抽取任務(wù)中得到廣泛應(yīng)用[5]。 但大語言模型無法覆蓋所有領(lǐng)域的知識, 尤其是更新速度快、 專業(yè)性強(qiáng)的領(lǐng)域知識, 在適配特定研究領(lǐng)域時存在性能損失和推理能力不足的問題。 知識圖譜是一種描述客觀世界中各類實體和關(guān)系的大規(guī)模語義網(wǎng)絡(luò), 通過本體描述實體的層次結(jié)構(gòu)和關(guān)聯(lián)關(guān)系, 以三元組的形式表示具體知識, 可有效對科技文獻(xiàn)復(fù)雜知識對象進(jìn)行精準(zhǔn)的知識表示。 將知識圖譜蘊(yùn)含的形式化知識作為先驗知識注入大語言模型, 可以有效提升大語言模型在專業(yè)領(lǐng)域知識的理解、 抽取方面的能力, 并增強(qiáng)模型推理結(jié)果的可解釋性, 如將知識三元組轉(zhuǎn)換為指令數(shù)據(jù)來微調(diào)預(yù)訓(xùn)練模型以契合下游抽取任務(wù),將領(lǐng)域知識或本體注入提示模版來引導(dǎo)模型對實體和關(guān)系類型的識別, 利用已有三元組輔助新三元組生成等[6]。

        綜上, 本文旨在利用知識圖譜增強(qiáng)大語言模型對科技文獻(xiàn)復(fù)雜知識對象的知識抽取能力。 首先,利用輕量級本體建模方法完成知識圖譜模式層構(gòu)建,通過知識標(biāo)注工具和圖數(shù)據(jù)庫完成知識圖譜實例層構(gòu)建; 然后, 針對調(diào)用 ChatGPT 在線服務(wù)接口存在數(shù)據(jù)與隱私泄露問題, 本地化部署了大語言模型ChatGLM2-6B[7]并利用 LoRA[8] 技術(shù)微調(diào)模型, 使其更適用于專業(yè)領(lǐng)域復(fù)雜知識對象抽取任務(wù); 最后,為了緩解 ChatGLM2-6B 輸出結(jié)果不穩(wěn)定和存在幻覺的問題, 利用思維記憶(Memory of Thoughts, MOT)[9]和知識圖譜實現(xiàn)提示(Prompt)的領(lǐng)域知識注入, 以增強(qiáng)模型抽取結(jié)果的穩(wěn)定性和有效性。

        1 研究現(xiàn)狀

        現(xiàn)有的科技文獻(xiàn)知識抽取方法可以分為傳統(tǒng)抽取方法、 基于知識圖譜的抽取方法和基于大語言模型的抽取方法。 傳統(tǒng)抽取方法采用人工抽取、 規(guī)則構(gòu)建和機(jī)器學(xué)習(xí)等手段, 對文獻(xiàn)內(nèi)容進(jìn)行分類和標(biāo)注。 人工抽取通常利用專業(yè)的標(biāo)注工具, 雖然準(zhǔn)確率較高, 但要求標(biāo)注者具有專業(yè)領(lǐng)域知識并且主觀性較強(qiáng), 無法在短時間內(nèi)完成大批量文獻(xiàn)數(shù)據(jù)的標(biāo)引。 基于規(guī)則的抽取方法利用領(lǐng)域?qū)<抑贫ǖ木€索詞來構(gòu)建抽取規(guī)則或模版, 再通過模式匹配的方式從文本中抽取知識[10]。 葉光輝等[11] 通過 “人工標(biāo)注—構(gòu)建規(guī)則—模式識別—補(bǔ)充規(guī)則” 的流程構(gòu)建知識規(guī)則庫, 從文獻(xiàn)中抽取出不同類型的知識單元并對其分布特征進(jìn)行了分析。 鄭夢悅等[12]先構(gòu)建了知識元本體模型, 然后統(tǒng)計句子的類型、 位置和線索詞建立規(guī)則庫, 最后基于本體模型和規(guī)則庫實現(xiàn)非結(jié)構(gòu)化摘要的知識抽取。 這類方法在保證一定準(zhǔn)確率的情況下提高了知識抽取的效率, 但需要人工參與規(guī)則的制定和維護(hù), 難以移植到其他學(xué)科領(lǐng)域。為了提高知識抽取的效率和可移植性, 部分學(xué)者開始利用機(jī)器學(xué)習(xí)技術(shù)來實現(xiàn)知識對象的自動抽取,涵蓋了支持向量機(jī)、 條件隨機(jī)場和人工神經(jīng)網(wǎng)絡(luò)等模型。 Liu X H 等[13]采用半監(jiān)督方式抽取實體, 先利用 k 鄰近算法進(jìn)行實體分類, 然后通過條件隨機(jī)場模型標(biāo)注實體邊界。 Lample G 等[14] 通過兩種神經(jīng)網(wǎng)絡(luò)架構(gòu)實現(xiàn)知識抽取, 一種結(jié)合雙向 LSTM(Long Short-Term Memory)和條件隨機(jī)場標(biāo)注實體,另一種基于轉(zhuǎn)移分塊模型為句子分段和打標(biāo)簽。 這類方法能夠極大緩解領(lǐng)域依賴性, 但仍存在需要大量標(biāo)注樣本和準(zhǔn)確率不高的問題。

        除了科技文獻(xiàn)固有的文本信息外, 外部的知識圖譜可以為知識對象的抽取提供一些額外的先驗知識, 以幫助抽取模型更好地分析、 理解文獻(xiàn)中蘊(yùn)含的深層語義信息。 Mintz M 等[15]最早通過遠(yuǎn)程監(jiān)督的方式為知識抽取任務(wù)生成高質(zhì)量訓(xùn)練數(shù)據(jù)集, 首先對輸入文本進(jìn)行分詞、 詞性標(biāo)注和依存分析, 然后利用知識圖譜匹配出現(xiàn)的實體并提取其詞法特征和句法特征, 最后結(jié)合三元組信息和實體特征對文本中的句子進(jìn)行自動標(biāo)注以得到遠(yuǎn)程監(jiān)督訓(xùn)練數(shù)據(jù)。Han X 等[16]提出, 知識圖譜與文本之間的相互注意力機(jī)制, 在一個統(tǒng)一的語義空間中為知識圖譜和文本生成表示向量, 從而在知識抽取中能夠更好地區(qū)分噪聲數(shù)據(jù)和篩選有價值的三元組。 為了消除文本中的噪聲影響, Hu L M 等[17] 采用門控機(jī)制, 從實體描述信息和知識圖譜的結(jié)構(gòu)信息中生成標(biāo)簽, 再結(jié)合注意力機(jī)制篩選有效樣例以實現(xiàn)關(guān)系的分類。為解決長尾關(guān)系問題, Zhang N Y 等[18]利用句子編碼器和知識圖譜嵌入模型分別學(xué)習(xí)關(guān)系的隱性和顯性特征, 然后通過知識感知注意力機(jī)制增強(qiáng)長尾關(guān)系的預(yù)測能力。 這類方法存在錯誤傳播和長尾關(guān)系問題, 如何避免將知識圖譜中的錯誤或偏差傳播到知識抽取中并有效抽取低頻關(guān)系仍然是一個難題。

        隨著大語言模型的出現(xiàn)與發(fā)展, 加上 BERT 和ChatGPT 等模型在自然語言任務(wù)上展現(xiàn)出的優(yōu)越性,有學(xué)者開始嘗試?yán)么笳Z言模型進(jìn)行知識對象抽取。 Tang X Y 等[19] 構(gòu)建了一個多任務(wù) BERT-BiL?STM-AM-CRF 模型, 利用 BERT 提取上下文信息中的動態(tài)詞向量, 接著將 BiLSTM 模塊訓(xùn)練后的結(jié)果輸入 CRF 進(jìn)行解碼, 最后利用 CRF 對觀測標(biāo)注序列進(jìn)行分類和提取得到知識抽取結(jié)果。 Wei X 等[20]通過與 ChatGPT 的多輪問答實現(xiàn)零樣本知識抽取,在第一輪問答識別句子中實體、 關(guān)系和事件的類型, 在后續(xù)幾輪問答中利用鏈?zhǔn)匠槿∧0孀R別句子中的細(xì)粒度知識。 Yuan C 等[21] 設(shè)計了零樣本提示、事件排序提示和思考鏈提示三類提示模版, 通過與ChatGPT 的三輪問答實現(xiàn)零樣本時序關(guān)系抽取。 張穎怡等[5] 利用 ChatGPT 通過實體識別、 訓(xùn)練集生成和偽標(biāo)簽生成等流程實現(xiàn)學(xué)術(shù)論文實體識別, 并從性能、 價格和時間 3 個維度進(jìn)行了可行性分析。蘇杭等[22]提出了一個基于提示調(diào)優(yōu)的兩段式知識抽取方法, 第一階段微調(diào)預(yù)訓(xùn)練模型進(jìn)行關(guān)系分類,第二階段復(fù)用微調(diào)后的模型進(jìn)行實體識別。 王震宇等[23]通過計算多模態(tài)樣本間的相似度生成高質(zhì)量輔助知識, 然后將原始輸入與輔助知識輸入到大語言模型中實現(xiàn)關(guān)系抽取。 這類方法在零樣本和少樣本的知識抽取任務(wù)上取得了較優(yōu)性能, 但相關(guān)研究僅用于通用領(lǐng)域, 對于專業(yè)領(lǐng)域科技文獻(xiàn)挖掘的研究與探索較少。

        以上方法只能從文本中抽取出實體、 關(guān)系和事件等細(xì)粒度、 離散化的簡單知識對象, 而復(fù)雜知識對象的抽取需要對領(lǐng)域知識有深入理解, 處理更加復(fù)雜的知識結(jié)構(gòu)和語義關(guān)系, 如時序性、 層次性和多維度關(guān)系。 當(dāng)前, 針對復(fù)雜知識對象抽取的研究較少, 仍處于探索階段。 對此, 本文旨在將知識圖譜中有效的專業(yè)領(lǐng)域知識注入大語言模型中, 通過與大模型的多輪問答實現(xiàn)復(fù)雜知識對象的抽取。

        2 科技文獻(xiàn)復(fù)雜知識對象抽取

        傳統(tǒng)的知識對象抽取關(guān)注從文本中提取實體、關(guān)系等簡單知識結(jié)構(gòu), 這些信息通常是扁平的, 不需要復(fù)雜的結(jié)構(gòu)化處理。 而科技文獻(xiàn)復(fù)雜知識對象抽取旨在識別和抽取科技文獻(xiàn)中的細(xì)粒度、 結(jié)構(gòu)化的知識單元, 并通過語義組織形成更高層次的知識結(jié)構(gòu), 側(cè)重于揭示深層次的知識關(guān)聯(lián)和傳遞。 本節(jié)描述了融合知識圖譜與大語言模型的科技文獻(xiàn)復(fù)雜知識對象抽取方法, 包括領(lǐng)域知識圖譜構(gòu)建、 模型微調(diào)和復(fù)雜知識對象抽取 3 個階段, 如圖 1 所示。其中, 第一階段通過本體構(gòu)建、 BRAT[24] 標(biāo)注和Neo4j[25]存儲完成領(lǐng)域知識圖譜模式層與實例層構(gòu)建; 第二階段基于實例層三元組構(gòu)建指令數(shù)據(jù)集,利用 LoRA 技術(shù)實現(xiàn)大語言模型微調(diào); 第三階段通過 MOT 機(jī)制選擇 Top-k 的問題答案(Question-An?swer, QA)對作為領(lǐng)域知識整合到提示中, 經(jīng)過與模型的多輪問答實現(xiàn)復(fù)雜知識對象抽取。

        2.1 領(lǐng)域知識圖譜構(gòu)建

        知識圖譜包括模式層和實例層兩部分, 前者定義實體、 關(guān)系和屬性的層次結(jié)構(gòu)與語義關(guān)系, 后者以三元組的形式存儲具體的領(lǐng)域知識。 領(lǐng)域知識圖譜的構(gòu)建分為模式層設(shè)計和實例層數(shù)據(jù)填充兩個步驟。 本體是概念體系的明確化和規(guī)范化的描述說明,將其作為模式層能夠更有效地支撐領(lǐng)域知識圖譜融合與復(fù)用, 以形成結(jié)構(gòu)合理、 冗余度低和覆蓋全面的知識結(jié)構(gòu)。 綜合研究國內(nèi)外已有的本體構(gòu)建方法,發(fā)現(xiàn)資源消耗低、 輕量化的本體建模方式更適用于特定學(xué)科領(lǐng)域的本體快速建立[26]。 因此, 本文首先利用兩階段式輕量級本體建模方法[26]實現(xiàn)知識圖譜模式層的設(shè)計, 在準(zhǔn)備階段確定特定學(xué)科領(lǐng)域的范圍與界限, 在構(gòu)建階段通過基本框架搭建、 知識結(jié)構(gòu)完善和知識結(jié)構(gòu)對齊三輪循環(huán)完成各種實體類型、實體之間的語義關(guān)系以及實體屬性的定義。 在本體模型中, 將知識實體分為語句級、 詞匯級和科學(xué)數(shù)據(jù)級 3 種類型, 語句級實體是具有特定語義的核心句, 詞匯級實體是領(lǐng)域術(shù)語或關(guān)鍵詞, 科學(xué)數(shù)據(jù)級實體是特定的評價指標(biāo)、 統(tǒng)計量等。

        在完成模式層設(shè)計后, 通過數(shù)據(jù)預(yù)處理、 知識抽取、 知識審核和知識存儲等步驟實現(xiàn)實例層數(shù)據(jù)填充。 其中, 數(shù)據(jù)預(yù)處理從專利和論文等科技文獻(xiàn)中提取出文本內(nèi)容并分割成不同長度的句子。 知識抽取階段基于本體模型構(gòu)建標(biāo)簽體系結(jié)構(gòu), 利用標(biāo)注工具 BRAT 實現(xiàn)科技文獻(xiàn)中知識實體及其屬性關(guān)系的標(biāo)注。 BRAT 是一個基于 Web 的快速標(biāo)注工具,具有高質(zhì)量可視化頁面、 多功能標(biāo)注支持和自然語言處理(Natural Language Processing, NLP) 模型集成等特性, 廣泛應(yīng)用于知識抽取任務(wù)中。 知識審核階段先由標(biāo)引人員對標(biāo)注結(jié)果進(jìn)行交叉驗證, 對標(biāo)注出的實體進(jìn)行統(tǒng)一、 規(guī)范化的表示, 再由領(lǐng)域?qū)<彝瓿勺罱K審定。 知識存儲階段將標(biāo)注結(jié)果轉(zhuǎn)換為三元組形式導(dǎo)入圖數(shù)據(jù)庫 Neo4j 完成實例層數(shù)據(jù)填充, Neo4j 內(nèi)置的 Cypher 語句和圖數(shù)據(jù)科學(xué)模塊可以方便實現(xiàn)知識的關(guān)聯(lián)查詢與深度挖掘。

        2.2 大語言模型微調(diào)

        以 ChatGPT 為代表的大語言模型在零樣本和少樣本信息抽取任務(wù)上表現(xiàn)優(yōu)異, 但是這些模型僅能通過在線的 API 使用, 存在數(shù)據(jù)泄露和不可重復(fù)等問題[27]。 受限于實驗室硬件條件, 本文選擇能夠在消費級顯卡上部署的 ChatGLM2-6B 作為基礎(chǔ)模型。 相較于其他開源模型, ChatGLM2-6B 具備上下文理解和指令遵循能力, 可以更好地理解長文本和執(zhí)行用戶的微調(diào)指令, 靈活適配于不同的下游任務(wù)場景。 在數(shù)據(jù)規(guī)模較小時, ChatGLM2-6B 內(nèi)置的微調(diào)模塊 P -Tuning v2 容易產(chǎn)生 “災(zāi)難性遺忘” 現(xiàn)象, 并且會占用下游任務(wù)輸入序列的空間,而 LoRA 通過低秩適配器能夠簡單高效地微調(diào)大語言模型。 基于此, 本文本地化部署 ChatGLM2-6B 模型進(jìn)行科技文獻(xiàn)挖掘, 利用知識圖譜實例層的三元組構(gòu)建指令數(shù)據(jù)集, 再通過 LoRA 技術(shù)微調(diào)模型以適配特定學(xué)科領(lǐng)域的知識抽取任務(wù)。

        知識抽取任務(wù)包括實體類型識別和實體抽取兩部分。 對于知識圖譜中的三元組(實體, 屬性, 屬性值), 首先, 利用屬性值所在文本和屬性構(gòu)建 QA對(問題答案對), 用于微調(diào)實體類型識別任務(wù); 隨后, 將屬性值所在文本和屬性構(gòu)建為問題, 屬性值構(gòu)建為答案, 用于微調(diào)實體抽取任務(wù)。 具體的微調(diào)流程如下:

        1) 凍結(jié) ChatGLM2 - 6B 的全部參數(shù)。 大語言模型的參數(shù)量巨大, 直接調(diào)整其參數(shù)效率低下且資源消耗高。

        2) 通過構(gòu)建秩分解矩陣 BA 來模擬 ChatGLM2-6B 參數(shù)的更新量 ΔW, 使得 ΔW=BA。 將微調(diào)指令數(shù)據(jù)集作為模型輸入, 模型訓(xùn)練時僅更新降維矩陣A 和升維矩陣 B, 在極大壓縮所需更新參數(shù)量的同時達(dá)到模型微調(diào)的效果。

        亚洲综合av在线在线播放| 国产精品一区二区三区在线蜜桃 | 中文字幕人妻一区二区二区| 97色伦图片97综合影院| 人妻少妇久久中文字幕一区二区| 无码人妻视频一区二区三区99久久| 亚洲蜜桃视频在线观看| 蜜桃一区二区在线视频| 亚洲日本va中文字幕| 久久综合给日咪咪精品欧一区二区三| 国产精品久久久精品三级18| 成人av在线久色播放| 在线看片免费人成视频久网下载| 91免费播放日韩一区二天天综合福利电影| 亚洲愉拍自拍视频一区| 国产av久久在线观看| 成人毛片一区二区| 亚洲国产精品久久久天堂不卡海量 | 久久亚洲高清观看| 亚洲av免费看一区二区三区| 波多野结衣av一区二区全免费观看 | 麻豆精品传媒一二三区| 91精品国产免费青青碰在线观看 | 日本色噜噜| 亚洲影院在线观看av| 超碰国产精品久久国产精品99| 亚洲丁香五月天缴情综合| 久久国产成人免费网站| 91国内偷拍精品对白| 亚洲av无码专区在线观看下载| 日本高清www午色夜高清视频| 无码任你躁久久久久久| 亚洲精品美女自拍偷拍| 熟女一区二区国产精品| 人妻插b视频一区二区三区| 亚洲一区二区三区在线网站| 亚洲av中文字字幕乱码| 欧美性生交大片免费看app麻豆| 国产极品美女高潮抽搐免费网站| 天天摸天天做天天爽天天舒服| 亚洲国产天堂久久综合网|