基于知識(shí)融合和聚類引導(dǎo)的語(yǔ)言模型用于MOFs合成信息分類

2024-09-21 00:00:00李海軍王卓

現(xiàn)代電子技術(shù) 2024年18期

摘 "要：金屬有機(jī)框架（MOFs）的合成實(shí)驗(yàn)步驟通常集中存儲(chǔ)在科學(xué)文獻(xiàn)某一段落內(nèi)，從文獻(xiàn)中提取實(shí)驗(yàn)步驟對(duì)推動(dòng)新型金屬有機(jī)框架的開發(fā)具有重要意義。現(xiàn)有研究存在兩個(gè)問題：第一，將整篇文獻(xiàn)視為普通文本，按句/段直接切分處理，忽略了上下文中隱藏的高級(jí)知識(shí)；第二，模型未深入挖掘數(shù)據(jù)內(nèi)部的隱藏模式。針對(duì)上述問題，提出一個(gè)基于知識(shí)融合策略的高質(zhì)量知識(shí)補(bǔ)充任務(wù)。利用科學(xué)文獻(xiàn)編輯風(fēng)格和結(jié)構(gòu)化Web數(shù)據(jù)的微妙之處，將上下文關(guān)鍵知識(shí)匯集到段落中，進(jìn)而優(yōu)化其文本表征；然后提出一種基于聚類引導(dǎo)的自適應(yīng)分類算法，采用聚類算法將文本表征劃分為多個(gè)簇，同時(shí)訓(xùn)練不同的分類模型來(lái)適應(yīng)不同的簇，從而有效地減少數(shù)據(jù)重疊的影響，提高模型召回率。實(shí)驗(yàn)結(jié)果表明，所提方法的性能相比主流基線模型有較大提升。

關(guān)鍵詞：金屬有機(jī)框架；科學(xué)文獻(xiàn)；知識(shí)融合；文本表征；聚類引導(dǎo)；自適應(yīng)分類；數(shù)據(jù)重疊

中圖分類號(hào)： TN919.6+5?34； TP391 " " " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼： A " " " " " " " " 文章編號(hào)： 1004?373X（2024）18?0179?08

Language model based on knowledge fusion and cluster guidance for MOFs synthesis information classification

LI Haijun1， 2， 3， WANG Zhuo1， 2

（1. Shenyang Institute of Automation， Chinese Academy of Sciences， Shenyang 110016， China;

2. Institutes for Robotics and Intelligent Manufacturing， Chinese Academy of Sciences， Shenyang 110169， China;

3. University of Chinese Academy of Sciences， Beijing 100049， China）

Abstract： The experimental steps for the synthesis of metal?organic frameworks （MOFs） are usually stored in a certain section of scientific literature. It is of great significance to extract the experimental steps from the literature to promote the development of new MOFs. There are two problems in the existing research： first， the whole literature is regarded as ordinary text， and the sentence/paragraph is directly segmented， ignoring the advanced knowledge hidden in the context; second， the model does not dig deeply into the hidden patterns within the data. On this basis， a high?quality knowledge supplementation tasks based on knowledge fusion strategy is proposed. The subtleties of literature editing styles and interactive web data are used to bring together context?critical knowledge into paragraphs， so as to optimize their textual representation. An adaptive classification algorithm based on clustering guidance is proposed. The clustering algorithm is used to divide text representation into multiple clusters， while training different classification model to adapt to different clusters， effectively reducing the impact of data overlap and improving model recall. The experimental results show that in comparison with the mainstream baseline models， the proposed method has great performance improvement.

Keywords： metal?organic framework; scientific literature; knowledge fusion; text representation; clustering guidance; adaptive classification; data overlap

0 "引 "言

金屬有機(jī)框架（Matal?organic Frameworks， MOFs）是一種周期性網(wǎng)狀結(jié)構(gòu)材料，具有高度模塊性、可控設(shè)計(jì)性及多種物理化學(xué)性質(zhì)[1?3]，被預(yù)測(cè)為21世紀(jì)的決定性材料。MOFs的合成程序有大量可變合成參數(shù)（如溫度、反應(yīng)時(shí)間、溶劑和pH），以往科研人員只能通過基于經(jīng)驗(yàn)和知識(shí)的“試錯(cuò)”模式來(lái)尋找合成條件。這種方式十分低效，無(wú)法滿足國(guó)家戰(zhàn)略和重大工程對(duì)高性能MOFs材料的巨大需求。為了加速新型MOFs材料的研發(fā)進(jìn)程，人們希望使用深度學(xué)習(xí)技術(shù)來(lái)提高預(yù)測(cè)任意MOFs合成條件的準(zhǔn)確性，但這受到缺乏MOFs材料合成實(shí)驗(yàn)步驟的綜合數(shù)據(jù)集的阻礙。由于互聯(lián)網(wǎng)技術(shù)的發(fā)展，大量公開可獲取的包含MOFs實(shí)驗(yàn)合成信息的科學(xué)文獻(xiàn)以Web形式分散存儲(chǔ)于各大期刊出版社，而這些文獻(xiàn)對(duì)MOFs研發(fā)具有重要參考價(jià)值。因此，如何從海量的文獻(xiàn)中識(shí)別并分類出這些復(fù)雜合成信息，對(duì)加速M(fèi)OFs研發(fā)有重要意義。

盡管近年來(lái)預(yù)訓(xùn)練語(yǔ)言模型被廣泛用于各領(lǐng)域的分類任務(wù)中，并表現(xiàn)出優(yōu)良的性能[4?6]，但在處理冗長(zhǎng)的文本尤其是背景更為復(fù)雜的特殊領(lǐng)域文本時(shí)，語(yǔ)言模型無(wú)法完全捕捉文本的關(guān)鍵知識(shí)，導(dǎo)致其很難理解長(zhǎng)文本的復(fù)雜語(yǔ)義[7]。這些長(zhǎng)文本中的語(yǔ)言規(guī)律使得微調(diào)預(yù)訓(xùn)練語(yǔ)言模型所取得的效果不夠理想，特別是召回率指標(biāo)。在遷移學(xué)習(xí)中，高召回率意味著模型學(xué)習(xí)到目標(biāo)域的關(guān)鍵特征，因此提高模型召回率指標(biāo)是整個(gè)遷移學(xué)習(xí)領(lǐng)域的重難點(diǎn)。

對(duì)于一些特殊的長(zhǎng)文本語(yǔ)料如科學(xué)文獻(xiàn)，其上下文中可能存在一些直接影響模型輸出的前驅(qū)知識(shí)。例如，科學(xué)文獻(xiàn)大都有一些特殊的構(gòu)詞規(guī)則，用于構(gòu)建專有詞匯，這些詞匯往往被作者按照個(gè)人風(fēng)格用不同的代詞在文中指代，而語(yǔ)言模型無(wú)法理解這些代詞含義以及文本之間的邏輯關(guān)系。與語(yǔ)言模型相比，讀者很少費(fèi)力去理解科學(xué)文獻(xiàn)的重要內(nèi)容和作者的隱喻，這是因?yàn)樽髡呓?jīng)常利用科學(xué)文獻(xiàn)中各種各樣的文本樣式，如粗體和斜體等來(lái)強(qiáng)調(diào)特定內(nèi)容，這種機(jī)制可以引導(dǎo)讀者準(zhǔn)確捕捉文章的語(yǔ)義。但是現(xiàn)有方法不支持學(xué)習(xí)并理解這種機(jī)制，而是局限于處理解析后的純文本。受此啟發(fā)，并參考大語(yǔ)言模型檢索增強(qiáng)生成技術(shù)[8]和提示工程[9]技術(shù)，針對(duì)以上問題，本文從數(shù)據(jù)層面提出一種高質(zhì)量知識(shí)補(bǔ)充方法。該方法模仿人類閱讀習(xí)慣，從上下文獲取高質(zhì)量知識(shí)來(lái)提高數(shù)據(jù)質(zhì)量，從而有效地增強(qiáng)段落語(yǔ)義的信息表征。如圖1所示，高質(zhì)量知識(shí)補(bǔ)充方法首先檢索文獻(xiàn)的粗體文本（圖1灰色字體），這些粗體文本作為代詞，是作者在文獻(xiàn)中重點(diǎn)強(qiáng)調(diào)的內(nèi)容，直接影響模型對(duì)文本語(yǔ)義的理解；隨后基于最近距離機(jī)制和正則表達(dá)式匹配粗體文本及其相關(guān)內(nèi)容；最后用這些相關(guān)內(nèi)容替換全文的粗體文本（圖1中帶底紋字體），增強(qiáng)模型處理歧義和復(fù)雜邏輯關(guān)系的能力。通過注入上下文中關(guān)鍵信息引導(dǎo)模型能夠正確學(xué)習(xí)文本語(yǔ)義，提高模型對(duì)復(fù)雜合成信息的召回率。

同時(shí)在模型層面上，分類任務(wù)中造成模型性能表現(xiàn)不佳的原因之一是模型無(wú)法準(zhǔn)確判別困惑樣本的類別，即樣本在語(yǔ)義表征空間中發(fā)生了數(shù)據(jù)重疊。針對(duì)該問題，本文提出一種基于聚類引導(dǎo)的自適應(yīng)文本分類框架，通過引入無(wú)監(jiān)督聚類作為代理任務(wù)，挖掘數(shù)據(jù)內(nèi)部的隱藏模式來(lái)指導(dǎo)模型訓(xùn)練，引導(dǎo)模型根據(jù)樣本分類難度自適應(yīng)學(xué)習(xí)分類樣本的有效特征，有效減少了數(shù)據(jù)重疊的影響。本文總體框架如圖2所示，主要由三部分組成。

1）本文利用各期刊出版社提供的文本數(shù)據(jù)挖掘服務(wù)，共收集了與34 143個(gè)MOFs合成相關(guān)的20 766篇HTML/XML格式的文獻(xiàn)作為語(yǔ)料庫(kù)，并基于此，人工標(biāo)注了一個(gè)中等規(guī)模的關(guān)于MOFs合成信息的數(shù)據(jù)集。

2）本文首次提出一種高質(zhì)量知識(shí)補(bǔ)充方法，在模型訓(xùn)練前，將科學(xué)文獻(xiàn)上下文中特定的關(guān)鍵內(nèi)容作為高質(zhì)量知識(shí)與當(dāng)前段落相融合，有效增強(qiáng)了段落語(yǔ)義的信息表征，從而提高模型對(duì)不同類別樣本的分類性能。該方法簡(jiǎn)練而高效，在HTML/XML格式科學(xué)文獻(xiàn)的處理上，具備一定的可移植性和擴(kuò)展性。

3）本文提出一種基于聚類引導(dǎo)的自適應(yīng)文本分類框架，該框架融合聚類和分類算法來(lái)實(shí)現(xiàn)一個(gè)高性能分類系統(tǒng)。具體來(lái)說，在有監(jiān)督微調(diào)之前添加一個(gè)無(wú)監(jiān)督聚類任務(wù)，對(duì)段落級(jí)語(yǔ)義表示進(jìn)行聚類，得到不同的數(shù)據(jù)集合，并為每個(gè)數(shù)據(jù)集合訓(xùn)練基分類器。聚類是為了挖掘數(shù)據(jù)的內(nèi)部隱藏性質(zhì)，給后續(xù)分類模型決策額外提供有益的信息，提高模型對(duì)困惑樣本的區(qū)分能力。

1 "相關(guān)工作

文本分類是文獻(xiàn)文本挖掘中一個(gè)重要的子任務(wù)，是提取文獻(xiàn)知識(shí)的首要步驟。近年來(lái)，預(yù)訓(xùn)練語(yǔ)言模型在多個(gè)自然語(yǔ)言處理任務(wù)中取得了SOTA效果，它們通常使用大量的文本語(yǔ)料庫(kù)學(xué)習(xí)通用表示，例如BERT[10]、Sentence?BERT[11]和DeBERTa[12]等。此外，為滿足專有領(lǐng)域的需求，研究人員收集了大量專有領(lǐng)域的語(yǔ)料并基于某個(gè)預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行二次預(yù)訓(xùn)練，得到如SciBERT[13]、MatsciBERT[14]和ChemBERT[15]等預(yù)訓(xùn)練語(yǔ)言模型，這些語(yǔ)言模型常被用于解決相關(guān)領(lǐng)域的文本分類問題。

文獻(xiàn)[16]詳細(xì)介紹了如何在文本分類任務(wù)中使用預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行精細(xì)微調(diào)的方法，當(dāng)下游目標(biāo)領(lǐng)域有足夠數(shù)量的訓(xùn)練數(shù)據(jù)時(shí)，微調(diào)語(yǔ)言模型的效果會(huì)遠(yuǎn)遠(yuǎn)超過傳統(tǒng)模型。但由于人工標(biāo)注數(shù)據(jù)非常耗時(shí)耗力或者語(yǔ)料庫(kù)的缺乏，在現(xiàn)實(shí)應(yīng)用場(chǎng)景中，微調(diào)預(yù)訓(xùn)練語(yǔ)言模型通常難以獲得期望的性能效果。文獻(xiàn)[17]通過設(shè)計(jì)輔助句子來(lái)構(gòu)造句子對(duì)，將特定的領(lǐng)域知識(shí)整合到BERT模型中，在多個(gè)文本分類數(shù)據(jù)集上取得SOTA效果。該方法表明，當(dāng)沒有足夠的標(biāo)注數(shù)據(jù)訓(xùn)練時(shí)，外部領(lǐng)域知識(shí)是提高微調(diào)語(yǔ)言模型效果的有效方法。文獻(xiàn)[18]利用預(yù)訓(xùn)練語(yǔ)言模型的嵌入技術(shù)壓縮長(zhǎng)文本，旨在削弱長(zhǎng)文本中冗余信息和歧義信息帶來(lái)的不利影響，并在貿(mào)易協(xié)定長(zhǎng)文本數(shù)據(jù)的分類上取得顯著的性能提升。上述研究均是為了使得模型能提取到區(qū)分樣本的有效特征，從而提高目標(biāo)任務(wù)上的性能。

與以前的方法相比，本文工作從兩個(gè)方面做出改進(jìn)：一方面，首次提出一個(gè)高質(zhì)量知識(shí)補(bǔ)充方法來(lái)改善模型性能，且無(wú)需額外訓(xùn)練和人工標(biāo)注，從數(shù)據(jù)層面輔助模型捕捉文獻(xiàn)上下文中的事實(shí)知識(shí)，提高模型處理歧義和復(fù)雜邏輯關(guān)系的能力；另一方面，從任務(wù)層面出發(fā)，設(shè)計(jì)了一個(gè)特殊的代理任務(wù)來(lái)彌合語(yǔ)言模型的預(yù)訓(xùn)練任務(wù)和下游目標(biāo)任務(wù)之間的差距，即通過引入無(wú)監(jiān)督聚類任務(wù)挖掘數(shù)據(jù)內(nèi)部的模式，作為先驗(yàn)信息在微調(diào)之前提供給模型，引導(dǎo)模型關(guān)注可緩解數(shù)據(jù)重疊的有效特征。

2 "數(shù)據(jù)集建立

2.1 "材料科學(xué)文獻(xiàn)語(yǔ)料庫(kù)構(gòu)建

劍橋晶體數(shù)據(jù)中心（Cambridge Crystallographic Data Centre， CCDC）[19]自1965年來(lái)一直致力于晶體數(shù)據(jù)的收集與數(shù)字化工作，其收錄了全世界所有已認(rèn)可的金屬有機(jī)化合物的結(jié)構(gòu)和相關(guān)文獻(xiàn)方面的信息，這些文獻(xiàn)包含對(duì)應(yīng)晶體的實(shí)驗(yàn)合成信息。

為了構(gòu)建關(guān)于MOFs材料合成文獻(xiàn)的語(yǔ)料庫(kù)，本文選擇劍橋結(jié)構(gòu)數(shù)據(jù)庫(kù)MOFs子集（CSD_5.43），其中存儲(chǔ)每個(gè)MOFs對(duì)應(yīng)的特殊標(biāo)識(shí)符，可以通過這些標(biāo)識(shí)符，在數(shù)據(jù)庫(kù)訪問相關(guān)內(nèi)容。根據(jù)得到的特殊標(biāo)識(shí)符使用CSD Python?API從數(shù)據(jù)庫(kù)中檢索到92 978個(gè)MOFs和對(duì)應(yīng)的37 927個(gè)DOI號(hào)。本文在調(diào)研了多個(gè)主流期刊出版社的文本數(shù)據(jù)挖掘服務(wù)，并結(jié)合以往文本挖掘工作，利用出版社提供的API，通過DOI號(hào)批量獲取出版社數(shù)據(jù)庫(kù)中以HTML/XML/PDF格式存儲(chǔ)的文獻(xiàn)手稿。

文獻(xiàn)下載并解析后，需要將冗長(zhǎng)的文本切分為短文本再進(jìn)行后續(xù)處理?，F(xiàn)有的文本處理工具均是利用自然語(yǔ)言中獨(dú)有的句子結(jié)束標(biāo)志來(lái)完成對(duì)文本內(nèi)容的切分工作，因此，在提取PDF格式文獻(xiàn)的內(nèi)部信息時(shí)有提取數(shù)據(jù)不連續(xù)的可能，而HTML/XML作為標(biāo)記語(yǔ)言，通過標(biāo)簽和屬性組合可以清晰地描述文獻(xiàn)各個(gè)章節(jié)和段落單元，這種結(jié)構(gòu)化的存儲(chǔ)方式同樣有利于后續(xù)的解析和處理。最終本文以20 766篇成功下載的HTML/XML格式科學(xué)文獻(xiàn)作為基礎(chǔ)語(yǔ)料庫(kù)，具體信息如表1所示。

2.2 "高質(zhì)量知識(shí)補(bǔ)充方法

為了提高模型的性能表現(xiàn)，對(duì)實(shí)驗(yàn)結(jié)果和數(shù)據(jù)進(jìn)行探索性分析。本文收集的語(yǔ)料文獻(xiàn)中不僅包含MOFs的合成信息，還包括相關(guān)配料的合成信息，兩者間結(jié)構(gòu)的高度相似會(huì)導(dǎo)致模型誤判。此外，段落中數(shù)值和代詞過多，缺乏關(guān)鍵信息，使得模型分類難度大。需要說明的是，由于MOFs和配料的命名方式十分復(fù)雜且不易書寫，文獻(xiàn)作者常利用數(shù)值類代詞指代，并使用粗體文本特別強(qiáng)調(diào)。顯然粗體文本蘊(yùn)含十分重要的信息，能夠幫助模型區(qū)分結(jié)構(gòu)相似的樣本，但現(xiàn)有模型和方法無(wú)法從單個(gè)段落中理解這些復(fù)雜的邏輯關(guān)系及知識(shí)。

相比于純文本語(yǔ)料，HTML/XML格式文本存儲(chǔ)著更豐富的信息，可以從中提取上下文的聯(lián)系補(bǔ)充給訓(xùn)練數(shù)據(jù)。針對(duì)上述問題，本文首次提出一個(gè)高質(zhì)量知識(shí)補(bǔ)充方法，無(wú)需額外訓(xùn)練和人工標(biāo)注，通過檢索文獻(xiàn)上下文中隱藏的信息，作為模型分類的關(guān)鍵特征與段落文本融合。具體來(lái)說，本文首先檢索得到全篇文獻(xiàn)數(shù)值類粗體文本及其鄰近句子；然后基于最近距離機(jī)制獲取粗體文本前后可能的指代內(nèi)容，并使用正則表達(dá)式作為約束來(lái)檢驗(yàn)相關(guān)信息是否為MOFs或者配料的實(shí)體名詞，循環(huán)執(zhí)行上述操作直至獲取所有代詞及相應(yīng)的指代對(duì)象；最后，在全文中將所有的數(shù)值類粗體文本替換為指代對(duì)象。表2所示為語(yǔ)料庫(kù)中執(zhí)行高質(zhì)量補(bǔ)充任務(wù)的文獻(xiàn)數(shù)量，共有17 020篇文獻(xiàn)成功執(zhí)行，證明了該方法的實(shí)用性。

2.3 "數(shù)據(jù)集標(biāo)注

本次數(shù)據(jù)集標(biāo)注工作共有3人參與，采用1人標(biāo)記、另外2人審核的方式，有效減少人為因素造成的錯(cuò)標(biāo)和漏標(biāo)，保證數(shù)據(jù)標(biāo)注的質(zhì)量。首先，本文以分段隨機(jī)采樣的方式從20 766篇MOFs合成的相關(guān)科學(xué)文獻(xiàn)中收集1 000篇文獻(xiàn)，隨后按照段落切分后共獲得21 705個(gè)段落。本文將這些段落中包含實(shí)驗(yàn)信息的段落命名為合成段落，其余段落命名為非合成段落，標(biāo)注時(shí)令非合成段落文本標(biāo)簽為0，合成段落文本標(biāo)簽為1，并以文獻(xiàn)為單位，按照7∶2∶1的比例劃分訓(xùn)練集、測(cè)試集和驗(yàn)證集。構(gòu)建的數(shù)據(jù)集具體信息如表3所示。

3 "方 "法

本文提出一種基于聚類引導(dǎo)的自適應(yīng)分類框架，通過在預(yù)訓(xùn)練語(yǔ)言模型表征層和下游分類層之間添加一個(gè)無(wú)監(jiān)督聚類層來(lái)挖掘數(shù)據(jù)的隱藏模式，使得模型能更加關(guān)注于困惑樣本的區(qū)分，進(jìn)而提高整體模型的性能。模型框架如圖3所示。

3.1 "預(yù)訓(xùn)練語(yǔ)言模型編碼層

預(yù)訓(xùn)練語(yǔ)言模型是一種基于Transformer架構(gòu)的模型，可以對(duì)上下文進(jìn)行雙向編碼，僅需少數(shù)的參數(shù)調(diào)整就可在大多數(shù)的自然語(yǔ)言任務(wù)上獲得最佳實(shí)驗(yàn)性能，是自然語(yǔ)言處理領(lǐng)域重要的研究成果。本文利用多個(gè)預(yù)訓(xùn)練語(yǔ)言模型作為編碼器層，將切分后的段落文本進(jìn)行編碼，獲得連續(xù)的段落向量表示。

3.2 "無(wú)監(jiān)督聚類算法

無(wú)監(jiān)督聚類算法是一種機(jī)器學(xué)習(xí)算法，它通過分析數(shù)據(jù)本身的內(nèi)在性質(zhì)和模式，將樣本劃分為若干類別，使得同類別樣本間的相似度高，不同類別的樣本相似度低。K?means算法是經(jīng)典的聚類方法，通過最小化簇內(nèi)平方和來(lái)劃分?jǐn)?shù)據(jù)。本文采用K?means算法將數(shù)據(jù)劃分為三個(gè)不同的簇，分別代表易分正類樣本、易分負(fù)類樣本和困惑樣本的集合，再基于聚類結(jié)果訓(xùn)練后續(xù)的分類模型。

為更好地解釋本文所提出的基于聚類引導(dǎo)的自適應(yīng)文本分類框架的優(yōu)勢(shì)，首先使用BERT模型將文本編碼為向量，然后利用PCA算法將其降維并可視化。PCA算法作為一種線性降維技術(shù)，能夠反映原始數(shù)據(jù)的空間分布模式。PCA降維后的段向量分布如圖4所示，class 0和class 1分別代表非合成段落與合成段落。值得注意的是，圖中兩個(gè)類別的數(shù)據(jù)有一定重疊，這種數(shù)據(jù)重疊會(huì)在一定程度上造成模型誤判，導(dǎo)致許多樣本被錯(cuò)誤分類，削弱模型的性能。

圖5是無(wú)監(jiān)督聚類后得到的數(shù)據(jù)分布模式。訓(xùn)練數(shù)據(jù)被劃分為3個(gè)集合，結(jié)合圖4可知：cluster 1和cluster 2的樣本邊界十分明顯，代表易分正類或易分負(fù)類樣本集合；而cluster 3中數(shù)據(jù)重疊現(xiàn)象最為顯著，代表困惑樣本集合。在聚類引導(dǎo)后，訓(xùn)練數(shù)據(jù)按照分類難度被細(xì)分為不同的簇，在簇上訓(xùn)練的分類器可以更好地學(xué)習(xí)區(qū)分樣本邊界的有效特征，從而提高整體模型的泛化能力。

3.3 "特征提取層

段向量是預(yù)訓(xùn)練語(yǔ)言模型基于其語(yǔ)料庫(kù)學(xué)習(xí)得到的一種通用表示，需要在此基礎(chǔ)上做出一定的微調(diào)以更好地適用于下游任務(wù)。通過微調(diào)預(yù)訓(xùn)練模型和特征提取層可以突出重要信息，弱化次要信息，更加全面地學(xué)習(xí)段落文本的語(yǔ)義表征。目前，在文本分類任務(wù)中，主流的特征提取網(wǎng)絡(luò)結(jié)構(gòu)包括DPCNN[20]、Text?RCNN[21]和TextCNN[22]等。在多次實(shí)驗(yàn)后，本文發(fā)現(xiàn)使用合理設(shè)計(jì)的LightMLP層作為特征提取層，其表現(xiàn)均優(yōu)于上述特征提取網(wǎng)絡(luò)，故決定將BERT_LightMLP作為本文基線模型。

3.4 "模型分類層

模型分類層采用Softmax層進(jìn)行預(yù)測(cè)分類，其輸入為段落文本的語(yǔ)義特征表示X，輸出為各類別真實(shí)性的概率o，公式如下：

[o=Softmax（W·X+b）] " " " " "（1）

式中：[W∈Rc×h]為變換矩陣；[b∈Rc]為偏置項(xiàng)，c為類別數(shù)目。

具體訓(xùn)練過程如下：首先精細(xì)微調(diào)語(yǔ)言模型，使其能學(xué)習(xí)到訓(xùn)練數(shù)據(jù)中一部分知識(shí)，獲取其對(duì)段落文本的語(yǔ)義向量表示；其次，利用K?means算法將這些語(yǔ)義向量表示劃分為易分正類和易分負(fù)類樣本集合或困惑樣本集合；然后，凍結(jié)之前微調(diào)后語(yǔ)言模型的參數(shù)，為聚類得到樣本集合，分別再訓(xùn)練一個(gè)LightMLP層進(jìn)行特征聚合；最后，新樣本經(jīng)過語(yǔ)言模型編碼，可根據(jù)分類難度自適應(yīng)分配到相應(yīng)樣本集合對(duì)應(yīng)的特征聚合層，再經(jīng)Softmax層后輸出所屬類別。

4 "實(shí) "驗(yàn)

本文實(shí)驗(yàn)環(huán)境配置為：NVIADA GeForce RTX 3060顯卡，編程語(yǔ)言分別是Python 3.9和PyTorch 1.10.1，超參數(shù)調(diào)優(yōu)工具使用Optuna 3.3.0。

4.1 "評(píng)價(jià)指標(biāo)

本文主要通過宏精確率Macro_P、宏召回率Macro_R和宏F1分?jǐn)?shù)Macro?F1值三個(gè)指標(biāo)來(lái)衡量模型性能，具體公式如下：

[Macro_P=系統(tǒng)正確預(yù)測(cè)的非合成段落個(gè)數(shù)2×系統(tǒng)預(yù)測(cè)的非合成段落個(gè)數(shù)+ " " " " " " " " " " "系統(tǒng)正確預(yù)測(cè)的合成段落個(gè)數(shù)2×系統(tǒng)預(yù)測(cè)的合成段落個(gè)數(shù)×100%] （2）

[Macro_R=系統(tǒng)正確預(yù)測(cè)的非合成段落個(gè)數(shù)2×實(shí)際上非合成段落個(gè)數(shù)+ " " " " " " " " " " "系統(tǒng)正確預(yù)測(cè)的合成段落個(gè)數(shù)2×實(shí)際上合成段落個(gè)數(shù)×100%] （3）

[Macro?F1=2×Macro_P×Macro_RMacro_P×Macro_R×100%] "（4）

4.2 "基線模型和超參數(shù)設(shè)置

為了證明本文方法對(duì)于提高微調(diào)預(yù)訓(xùn)練語(yǔ)言模型在分類任務(wù)上性能效果的通用性，實(shí)驗(yàn)選用的預(yù)訓(xùn)練語(yǔ)言模型有BERT、MatsciBERT、SciBERT、ChemBERT、Sentence?BERT和DeBERTa?v3，其中BERT、Sentence?BERT和DeBERTa?v3是利用通用語(yǔ)料庫(kù)訓(xùn)練的語(yǔ)言模型，MatSciBERT、SciBERT和ChemBERT是使用科學(xué)文獻(xiàn)語(yǔ)料進(jìn)行二次預(yù)訓(xùn)練的語(yǔ)言模型。在本文的實(shí)驗(yàn)中，各語(yǔ)言模型將作為數(shù)據(jù)的編碼器，將文本轉(zhuǎn)化為連續(xù)向量表示。同時(shí)本文在將實(shí)驗(yàn)數(shù)據(jù)集中21 705個(gè)文本段落編碼后的token長(zhǎng)度統(tǒng)計(jì)后，確定其中位數(shù)為334，最終將各預(yù)訓(xùn)練語(yǔ)言模型的最大輸入序列長(zhǎng)度的超參數(shù)設(shè)置為350。實(shí)驗(yàn)采用Adam優(yōu)化器，并使用分層學(xué)習(xí)率分別調(diào)節(jié)預(yù)訓(xùn)練語(yǔ)言模型和下游任務(wù)模型，使用Optuna框架對(duì)模型超參數(shù)進(jìn)行自動(dòng)化調(diào)優(yōu)，綜合實(shí)驗(yàn)后得到的最優(yōu)超參數(shù)設(shè)置如表4所示。

4.3 "模型性能分析

本文共設(shè)置三組實(shí)驗(yàn)來(lái)進(jìn)行充分的比較，分別為：不同預(yù)訓(xùn)練語(yǔ)言模型的對(duì)比實(shí)驗(yàn)、高質(zhì)量知識(shí)補(bǔ)充方法的消融實(shí)驗(yàn)、聚類引導(dǎo)機(jī)制的消融實(shí)驗(yàn)。

4.3.1 "不同預(yù)訓(xùn)練語(yǔ)言模型的對(duì)比實(shí)驗(yàn)

本節(jié)主要對(duì)基于不同預(yù)訓(xùn)練語(yǔ)言模型的基線方法進(jìn)行實(shí)驗(yàn)，共設(shè)計(jì)了6個(gè)實(shí)驗(yàn)，為后續(xù)實(shí)驗(yàn)效果對(duì)比提供基準(zhǔn)模型。表5列出了不同預(yù)訓(xùn)練語(yǔ)言模型在MOFs合成信息分類任務(wù)上的性能。

本文從參數(shù)規(guī)模大小以及是否使用領(lǐng)域語(yǔ)料二次預(yù)訓(xùn)練兩個(gè)方面進(jìn)行分析。與BERT相比，參數(shù)量擴(kuò)增1倍的DeBERTa?v3幾乎沒有性能提升，其根本原因在于兩者均無(wú)法從通用領(lǐng)域語(yǔ)料庫(kù)學(xué)習(xí)到專有領(lǐng)域中特殊的知識(shí)和模式。此外，在領(lǐng)域語(yǔ)料庫(kù)上二次預(yù)訓(xùn)練的模型SciBERT和MatsciBERT，相比BERT和Sentence?BERT模型的實(shí)驗(yàn)性能更優(yōu)，表明二次預(yù)訓(xùn)練能夠從專業(yè)領(lǐng)域語(yǔ)料庫(kù)中學(xué)習(xí)到部分領(lǐng)域?qū)I(yè)知識(shí)和領(lǐng)域語(yǔ)言規(guī)律特性。另外，由于深度學(xué)習(xí)模型的性能與數(shù)據(jù)規(guī)模相關(guān)性強(qiáng)，ChemBERT二次預(yù)訓(xùn)練用的領(lǐng)域語(yǔ)料僅選擇了20萬(wàn)篇化學(xué)類科學(xué)文獻(xiàn)，而SciBERT使用了114萬(wàn)文獻(xiàn)進(jìn)行預(yù)訓(xùn)練，MatSciBERT是在SciBERT的基礎(chǔ)上使用15萬(wàn)篇文獻(xiàn)再次訓(xùn)練。故本文推測(cè)數(shù)據(jù)量不足是導(dǎo)致ChemBERT表現(xiàn)欠佳的原因之一。

4.3.2 "高質(zhì)量知識(shí)補(bǔ)充方法的消融實(shí)驗(yàn)

為了驗(yàn)證高質(zhì)量知識(shí)補(bǔ)充方法的有效性，本節(jié)設(shè)置了6組實(shí)驗(yàn)，如表6所示。表6列出了在表5中模型的基礎(chǔ)上增加高質(zhì)量知識(shí)補(bǔ)充方法后，各模型在段落文本分類任務(wù)上的表現(xiàn)。可以看出，通過增加高質(zhì)量知識(shí)補(bǔ)充方法，能夠有效提升各語(yǔ)言模型在下游分類任務(wù)上的性能表現(xiàn)。

結(jié)合表5與表6的結(jié)果可知，同原模型相比，增加高質(zhì)量知識(shí)補(bǔ)充方法后的模型性能表現(xiàn)有明顯提升。模型BERT+HQ_know較于BERT模型的Macro?F1分?jǐn)?shù)和Macro_R別提高了1.4%和1.3%，模型Sentence?BERT+HQ_know較于Sentence?BERT模型的Macro?F1分?jǐn)?shù)和Macro_R分別提高了1.5%和2.3%，模型SciBERT+HQ_know相較于SciBERT模型的Macro?F1分?jǐn)?shù)和Macro_R分別提高了0.9%和1.3%，模型ChemBERT+HQ_know相比ChemBERT模型的Macro?F1分?jǐn)?shù)和Macro_R分別提高了1%和2.3%，模型MatSciBERT+HQ_know相比MatSciBERT模型的Macro?F1分?jǐn)?shù)和Macro_R分別提高了0.7%和0.8%，模型DeBERT?v3+HQ_know相比DeBERTa?v3模型的Macro?F1分?jǐn)?shù)和Macro_R分別提高了0.7%和1.1%，表明本文提出的高質(zhì)量知識(shí)補(bǔ)充方法幫助模型學(xué)習(xí)到了長(zhǎng)文本中關(guān)鍵的知識(shí)。同時(shí)在實(shí)驗(yàn)過程中，本文注意到增加高質(zhì)量知識(shí)補(bǔ)充方法的模型在訓(xùn)練時(shí)達(dá)到收斂所需迭代次數(shù)遠(yuǎn)小于未增加的高質(zhì)量知識(shí)補(bǔ)充方法的模型，表明該方法可以在一定程度上提高模型訓(xùn)練效率。

4.3.3 "聚類引導(dǎo)機(jī)制的消融實(shí)驗(yàn)

為了驗(yàn)證聚類引導(dǎo)機(jī)制的有效性，選取性能表現(xiàn)較好的預(yù)訓(xùn)練語(yǔ)言模型MatSciBERT和SciBERT作為編碼器進(jìn)行實(shí)驗(yàn)。消融實(shí)驗(yàn)結(jié)果如表7所示，其中Cluster表示在預(yù)訓(xùn)練語(yǔ)言模型的基礎(chǔ)上，加入一個(gè)無(wú)監(jiān)督聚類任務(wù)引導(dǎo)模型自適應(yīng)選擇分類方案。與沒有聚類引導(dǎo)機(jī)制的系統(tǒng)對(duì)比，通過新增一個(gè)無(wú)監(jiān)督聚類層可以提高模型性能，如“SciBERT+Cluster”和“MatSciBERT+Cluster”的Macro?F1分?jǐn)?shù)分別增加了0.6%和0.3%，這表明聚類引導(dǎo)機(jī)制可以提高后續(xù)分類模型對(duì)困惑樣本的識(shí)別能力。另外，在增加高質(zhì)量知識(shí)補(bǔ)充方法和聚類引導(dǎo)分類機(jī)制后，“SciBERT+HQ_know+Cluster”和“MatSciBERT+HQ_know+Cluster”系統(tǒng)Macro?F1性能指標(biāo)均較原系統(tǒng)提升了1.9%，整個(gè)分類系統(tǒng)的性能得到了顯著增強(qiáng)。

總的來(lái)說，在現(xiàn)有高質(zhì)量有監(jiān)督數(shù)據(jù)集稀缺以及算力受限的情況下，利用高價(jià)值的外部知識(shí)進(jìn)行有效的表征增強(qiáng)或深入挖掘數(shù)據(jù)內(nèi)部隱藏模式，是提升模型在下游目標(biāo)任務(wù)表現(xiàn)最具性價(jià)比的方法。

5 "結(jié) "語(yǔ)

現(xiàn)有對(duì)文獻(xiàn)文本處理任務(wù)的研究大都集中在增加模型復(fù)雜度和收集更多的領(lǐng)域語(yǔ)料進(jìn)行二次預(yù)訓(xùn)練，并沒有很好地利用到科學(xué)文獻(xiàn)的特性來(lái)獲取其上下文之間的聯(lián)系。針對(duì)該問題，本文首次提出一個(gè)高質(zhì)量知識(shí)補(bǔ)充方法，將文獻(xiàn)上下文中特定的關(guān)鍵內(nèi)容作為高質(zhì)量知識(shí)與當(dāng)前段落相融合，增強(qiáng)段落語(yǔ)義的信息表征，提升了后續(xù)段落文本分類任務(wù)的性能表現(xiàn)。同時(shí)，本文提出一種基于聚類引導(dǎo)的自適應(yīng)文本分類框架，該模型融合聚類和分類算法來(lái)實(shí)現(xiàn)一個(gè)高性能分類系統(tǒng)，進(jìn)一步改善了模型性能。實(shí)驗(yàn)結(jié)果表明，本文方法在沒有過度增大模型參數(shù)量和二次預(yù)訓(xùn)練的場(chǎng)景下，充分挖掘外部知識(shí)和數(shù)據(jù)內(nèi)部隱藏模式，顯著地提高了系統(tǒng)性能和訓(xùn)練效率，具有很好的實(shí)用價(jià)值。

在未來(lái)的工作中，將嘗試把本文方法與大語(yǔ)言模型相結(jié)合，為模型在預(yù)訓(xùn)練或微調(diào)階段創(chuàng)建高質(zhì)量的數(shù)據(jù)，同時(shí)將這種高質(zhì)量知識(shí)補(bǔ)充方法從單模態(tài)數(shù)據(jù)推廣至多模態(tài)數(shù)據(jù)，并探究用算法自動(dòng)引導(dǎo)模型訓(xùn)練時(shí)將更多注意力放在被筆者突出顯示的高質(zhì)量知識(shí)處。

注：本文通訊作者為王卓。

參考文獻(xiàn)

[1] PEERA S G， BALAMURUGAN J， KIM N H， et al. Sustainable synthesis of Co@ NC core shell nanostructures from metal organic frameworks via mechanochemical coordination self?assembly： an efficient electrocatalyst for oxygen reduction reaction [J]. Small， 2018， 14（19）： e1800441.

[2] LIANG Z， QU C， GUO W， et al. Pristine metal?organic frameworks and their composites for energy storage and conversion [J]. Advanced materials， 2017， 30（37）： e1702891.

[3] WU H B， LOU X W D. Metal?organic frameworks and their derived materials for electrochemical energy storage and conversion： promises and challenges [J]. Science advances， 2017， 3（12）： 9252.

[4] LUO R， SUN L， XIA Y， et al. BioGPT： generative pre?trained transformer for biomedical text generation and mining [J]. Briefings in bioinformatics， 2022， 23（6）： bbac409.

[5] CHOUDHARY K， KELLEY M L. ChemNLP： a natural language?processing?based library for materials chemistry text data [J]. The journal of physical chemistry c， 2023， 127（35）： 17545?17555.

[6] TSHITOYAN V， DAGDELEN J， WESTON L， et al. Unsuper?vised word embeddings capture latent knowledge from materials science literature [J]. Nature， 2019， 571（7763）： 95?98.

[7] LIU N F， LIN K， HEWITT J， et al. Lost in the middle： how language models use long contexts [J]. Transactions of the association for computational linguistics， 2024， 12： 157?173.

[8] MA X， GONG Y， HE P， et al. Query rewriting for retrieval?augmented large language models [EB/OL]. [2023?08?17]. http：//www.paperreading.club/page？id=166132.

[9] CUI L， WU Y， LIU J， et al. Template?based named entity recognition using BART [C]// Findings of the Association for Computational Linguistics： ACL?IJCNLP 2021. [S.l.]： ACL， 2021： 1835?1845.

[10] KENTON J D M W C， TOUTANOVA L K. BERT： pre?training of deep bidirectional transformers for language understanding [C]// Proceedings of 2019 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Minneapolis， USA， HLT： 2019： 4171?4186.

[11] REIMERS N， GUREVYCH I. Sentence?BERT： sentence em?beddings using Siamese BERT?networks [C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong， China： ACM， 2019： 3982?3992.

[12] HE P， LIU X， GAO J， et al. DEBERTA： decoding?enhanced BERT with disentangled attention [EB/OL]. [2023?12?07]. https：//www.xueshufan.com/publication/3122890974.

[13] BELTAGY I， LO K， COHAN A. SciBERT： a pretrained language model for scientific text [C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong， China： ACM， 2019： 3615?3620.

[14] GUPTA T， ZAKI M， KRISHNAN N M. MatSciBERT： a materials domain language model for text mining and information extraction [J]. NPJ computational mathematics， 2022， 8： 102.

[15] GUO J， IBANEZ?LOPEZ A S， GAO H， et al. Automated chemical reaction extraction from scientific literature [J]. Journal of chemical information and modeling， 2022， 62（9）： 2035?2045.

[16] SUN C， QIU X， XU Y， et al. How to fine?tune BERT for text classification？ [C]// China National Conference on Chinese Computational Linguistics. Cham： Springer， 2019： 194?206.

[17] YU S， SU J， LUO D. Improving BERT?based text classifi?cation with auxiliary sentence and domain knowledge [J]. IEEE access， 2019， 7： 176600?176612.

[18] ZHAO J H， MENG Z Y， GORDEEV S， et al. Key information retrieval to classify the unstructured data content of preferential trade agreements [J]. Computer science bibliography， 2024（2）： 12520.

[19] MOGHADAM P Z， LI A， WIGGIN S B， et al. Development of a cambridge structural database subset： a collection of metal?organic frameworks for past， present， and future [J]. Chemistry of materials， 2017， 29（7）： 2618?2625.

[20] JOHNSON R， ZHANG T. Deep pyramid convolutional neural networks for text categorization [EB/OL]. [2024?01?11]. https：//aclanthology.org/P17?1052.pdf.

[21] LAI S， XU L， LIU K， et al. Recurrent convolutional neural networks for text classification [C]// Proceedings of the AAAI Conference on Artificial Intelligence. Austin， Texas： AAAI， 2015： 2263?2273.

[22] KIM Y. Convolutional neural networks for sentence classifi?cation [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing （EMNLP）. Doha， Qatar： ACL， 2014： 1181.

現(xiàn)代電子技術(shù)2024年18期

現(xiàn)代電子技術(shù)的其它文章: 基于改進(jìn)灰狼優(yōu)化模糊PI的退火爐流量控制系統(tǒng)研究; 基于融合特征的CNN?Transformer墻體瓷磚粘貼空鼓檢測(cè)算法; 一種基于改進(jìn)差分進(jìn)化的K?Means聚類算法研究; 基于多策略融合斑馬優(yōu)化算法的特征選擇方法; 基于STGCN算法的視頻圖像人體動(dòng)作輪廓?jiǎng)討B(tài)識(shí)別; 基于虛擬現(xiàn)實(shí)的滅火器使用訓(xùn)練系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于知識(shí)融合和聚類引導(dǎo)的語(yǔ)言模型用于MOFs合成信息分類