胡容波 郭 誠(chéng) 王錦浩 方金云
(*中國(guó)科學(xué)院計(jì)算技術(shù)研究所 北京 100190)
(**自然資源部信息中心 北京 100036)
(***中國(guó)科學(xué)院大學(xué) 北京 100190)
近年來(lái),各領(lǐng)域的政策法規(guī)都在不斷增長(zhǎng)和完善,在現(xiàn)代化治理體系中發(fā)揮著越來(lái)越重要的作用。政策法規(guī)大多是用自然語(yǔ)言表示的文本文件,本文將其簡(jiǎn)稱(chēng)為政策文本。對(duì)政策文本進(jìn)行人工處理需要豐富的專(zhuān)業(yè)知識(shí),時(shí)間成本、人力成本高昂并且容易出錯(cuò)[1]。為了實(shí)現(xiàn)對(duì)自然資源政策文本的高效管理與應(yīng)用,本文提出句子級(jí)自然資源政策文本自動(dòng)分類(lèi)方法。
政策文本分類(lèi)是一個(gè)新興的自然語(yǔ)言處理(natural language processing,NLP)任務(wù),具有重要應(yīng)用價(jià)值。比如,對(duì)政策文本句子中的相關(guān)措施進(jìn)行分類(lèi),可以評(píng)估、監(jiān)測(cè)和改善政策[2];對(duì)政策文本句子的閱讀難度進(jìn)行分類(lèi),可以改進(jìn)立法[3];對(duì)政策文本的業(yè)務(wù)領(lǐng)域進(jìn)行分類(lèi),可以實(shí)現(xiàn)更加智能的法規(guī)語(yǔ)義檢索和推薦[4];對(duì)政策文本中的義務(wù)性、禁止性、許可性等條款進(jìn)行分類(lèi),可以輔助合規(guī)性審查[5];對(duì)政策文本包含的政策元素進(jìn)行分類(lèi),可用于法規(guī)知識(shí)建模和信息系統(tǒng)需求工程[6]。
然而,由于自然語(yǔ)言具有抽象性、組合性、歧義性、進(jìn)化性等特點(diǎn)[7],而政策法規(guī)中又有復(fù)雜的概念、規(guī)則、原則等要素,對(duì)政策文本進(jìn)行自動(dòng)處理仍是一件具有挑戰(zhàn)性的工作。多年來(lái),研究者們已經(jīng)開(kāi)發(fā)出了基于規(guī)則[8]、基于傳統(tǒng)機(jī)器學(xué)習(xí)[3-4]以及基于深度學(xué)習(xí)[2,5]的各種政策文本分類(lèi)方法。其中,基于深度學(xué)習(xí)的方法具有端到端學(xué)習(xí)、分類(lèi)精度高等優(yōu)點(diǎn),目前已成為主流方法。然而,深度學(xué)習(xí)要取得較好效果離不開(kāi)大規(guī)模有標(biāo)簽數(shù)據(jù)集的支撐[9]。目前在政策文本分類(lèi)領(lǐng)域,數(shù)據(jù)集等公共資源有限。為此,本文采用半自動(dòng)化方法,結(jié)合NLP和領(lǐng)域知識(shí)構(gòu)建了句子級(jí)自然資源政策文本分類(lèi)數(shù)據(jù)集。
已有的政策文本分類(lèi)方法主要是將通用文本分類(lèi)方法遷移應(yīng)用到政策文本分類(lèi)任務(wù)上,忽略了對(duì)政策文本自身特點(diǎn)的挖掘和利用。以自然資源政策法規(guī)為例,政策文本具有以下特點(diǎn)。(1)大部分政策文本都具有非常明確的業(yè)務(wù)特征。比如“土地開(kāi)發(fā)、保護(hù)、建設(shè)活動(dòng)應(yīng)當(dāng)堅(jiān)持規(guī)劃先行”中,“土地開(kāi)發(fā)”提供了比較明確的業(yè)務(wù)特征信息。(2)部分政策文本并不包含具有明確業(yè)務(wù)指向的信息,包括沒(méi)有業(yè)務(wù)特征信息或特征信息可指向多個(gè)業(yè)務(wù)類(lèi)別。(3)隨著管理職能的整合以及綜合施策逐漸成為常態(tài),在同一份政策文件中,有時(shí)會(huì)包含多個(gè)業(yè)務(wù)類(lèi)別的文本。此外,在政策法規(guī)篇章級(jí)別都有文件標(biāo)題,文件標(biāo)題大致規(guī)定了政策法規(guī)在篇章級(jí)別的主題。
對(duì)于政策文本的特點(diǎn)(1),采用深度學(xué)習(xí)模型就可以取得較好的分類(lèi)效果;對(duì)于特點(diǎn)(2),可以考慮引入文件標(biāo)題信息進(jìn)行輔助分類(lèi);對(duì)于特點(diǎn)(3),引入標(biāo)題信息有利有弊,如果全部增加標(biāo)題信息,當(dāng)政策文本業(yè)務(wù)類(lèi)別與標(biāo)題業(yè)務(wù)類(lèi)別不一致時(shí)反而會(huì)引入噪聲。因此,為了提高模型的整體分類(lèi)性能,需要設(shè)計(jì)靈活的算法以合理利用標(biāo)題信息。
受文獻(xiàn)[10]啟發(fā),本文提出基于深度學(xué)習(xí)的標(biāo)題信息自適應(yīng)增強(qiáng)(title adaptive enhancement,TAE)政策文本分類(lèi)方法。TAE 以常見(jiàn)的深度學(xué)習(xí)網(wǎng)絡(luò)為基石,構(gòu)建孿生網(wǎng)絡(luò)結(jié)構(gòu),在推理階段以自適應(yīng)方式引入標(biāo)題信息以增強(qiáng)政策文本表示,進(jìn)而提高分類(lèi)精度。在自然資源政策文本分類(lèi)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,增加TAE 方法后,5 個(gè)常用深度學(xué)習(xí)分類(lèi)模型的準(zhǔn)確率和宏平均F1值分別獲得了3%和5%以上的提升。
本文的主要貢獻(xiàn)總結(jié)為以下3 點(diǎn)。
(1)提出結(jié)合NLP 和領(lǐng)域知識(shí)的政策文本分類(lèi)數(shù)據(jù)集半自動(dòng)化構(gòu)建方法,并構(gòu)建了句子級(jí)自然資源政策文本分類(lèi)數(shù)據(jù)集。
(2)提出基于深度學(xué)習(xí)的TAE 政策文本分類(lèi)方法,并構(gòu)建了基于該方法的自然資源政策文本分類(lèi)模型。
(3)在自然資源政策文本分類(lèi)數(shù)據(jù)集上進(jìn)行了廣泛實(shí)驗(yàn),各基線(xiàn)模型在增加TAE 方法后,分類(lèi)結(jié)果指標(biāo)均獲得明顯提升。
本節(jié)詳細(xì)闡述與本文工作相關(guān)的歷史工作,包括政策文本數(shù)據(jù)集構(gòu)建、政策文本分類(lèi)方法以及三向決策分類(lèi)方法。
目前政策文本分類(lèi)公開(kāi)數(shù)據(jù)集較少,描述相關(guān)數(shù)據(jù)集構(gòu)建過(guò)程的文獻(xiàn)也不多。
文獻(xiàn)[2]從氣候觀測(cè)組織獲取了165 份html 格式的世界各國(guó)自主貢獻(xiàn)英文文檔,構(gòu)建了各國(guó)氣候政策文本數(shù)據(jù)集(英文)。該文采用半自動(dòng)化方法標(biāo)注數(shù)據(jù),先由領(lǐng)域?qū)<腋鶕?jù)文檔內(nèi)容設(shè)定11 個(gè)主題,再利用文檔中的嵌套標(biāo)題、子標(biāo)題和表結(jié)構(gòu)為句子生成弱標(biāo)簽,最后根據(jù)專(zhuān)家定義的業(yè)務(wù)主題進(jìn)行標(biāo)簽映射。本文也采用半自動(dòng)化方法構(gòu)建數(shù)據(jù)集,但本文所獲取的文檔中并無(wú)可利用的句子級(jí)標(biāo)簽結(jié)構(gòu)。
文獻(xiàn)[11]構(gòu)建了法律數(shù)據(jù)集(希臘語(yǔ))。該文從希臘內(nèi)政部管理的法律數(shù)據(jù)庫(kù)與管理服務(wù)門(mén)戶(hù)獲得數(shù)據(jù),包括47 卷、389 章、2285 專(zhuān)題,共47 563 篇文檔。數(shù)據(jù)集由文檔內(nèi)容及其主題信息、發(fā)布年份、文檔類(lèi)型構(gòu)成,均直接從原始文檔提取,數(shù)據(jù)標(biāo)注相對(duì)容易。
在中文領(lǐng)域,文獻(xiàn)[12]從中國(guó)政府網(wǎng)的政策文件庫(kù)獲得數(shù)據(jù),選取文本數(shù)量較多的前6 個(gè)類(lèi)別的5292 條政策文本進(jìn)行實(shí)驗(yàn),但政策文本為篇章級(jí)。本文構(gòu)建的是句子級(jí)政策文本數(shù)據(jù)集,難以直接從政策文件庫(kù)中提取類(lèi)別標(biāo)簽。
政策文本分類(lèi)技術(shù)可分為基于規(guī)則的方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。
文獻(xiàn)[8]采用模式匹配(基于規(guī)則)的方法對(duì)荷蘭法律法規(guī)進(jìn)行分類(lèi),共建立了88 個(gè)模式,對(duì)592個(gè)荷蘭法律句子進(jìn)行分類(lèi)。基于規(guī)則的分類(lèi)方法需要人工建立匹配模式,模式不足或模式過(guò)寬都容易導(dǎo)致分類(lèi)出錯(cuò),且模型的泛化能力有限。
傳統(tǒng)機(jī)器學(xué)習(xí)方法是一種淺層學(xué)習(xí)方法,在準(zhǔn)確性和穩(wěn)定性方面比基于規(guī)則的方法具有明顯優(yōu)勢(shì)[1]。一些研究者提出將樸素貝葉斯(naive Bayes,NB)、支持向量機(jī)(support vector machine,SVM)、邏輯回歸(logistic regression,LR)等傳統(tǒng)機(jī)器學(xué)習(xí)算法應(yīng)用于金融法規(guī)分類(lèi)[4]、博彩業(yè)法規(guī)分類(lèi)[13]、農(nóng)業(yè)法規(guī)分類(lèi)[14]等。傳統(tǒng)機(jī)器學(xué)習(xí)方法需要進(jìn)行繁瑣的特征工程,且有效性受到特征提取的限制。
與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)等結(jié)構(gòu)的深度學(xué)習(xí)模型可以自動(dòng)進(jìn)行特征提取,且文本分類(lèi)性能較高,被應(yīng)用于政策文本篇章[12]、合同條款句子[15]、建筑法規(guī)句子[5]等分類(lèi)中。近年來(lái),預(yù)訓(xùn)練語(yǔ)言模型(pre-trained language model,PLM)在NLP 上的應(yīng)用取得突破性進(jìn)展,基于轉(zhuǎn)換器的雙向編碼表征(bidirectional encoder representations from transformers,BERT)[16]微調(diào)已成為常見(jiàn)的政策文本分類(lèi)應(yīng)用范式[2,11]。
然而,這些方法只是將通用文本分類(lèi)方法遷移應(yīng)用到政策文本分類(lèi)領(lǐng)域,缺乏對(duì)政策文本自身特征的利用。文獻(xiàn)[17]提出將政策文件的標(biāo)題和內(nèi)容按權(quán)重0.7 和0.3 合并后進(jìn)行分類(lèi),未考慮不同情況下引入標(biāo)題信息的適應(yīng)性。
傳統(tǒng)文本分類(lèi)方法通常只判斷待分類(lèi)文本是否屬于某一類(lèi)別,非黑即白,對(duì)區(qū)分度小(不確定性高)的樣本容易產(chǎn)生誤判。三向決策(three-way decisions)[18]將決策區(qū)域劃分為3 個(gè)不相交的區(qū)域,包括接受決策區(qū)域、延遲決策區(qū)域和拒絕決策區(qū)域。如果有足夠的信息,可直接決策,即接受或拒絕。否則,可以選擇延遲決策,等待更多信息來(lái)執(zhí)行二次分類(lèi)。
文獻(xiàn)[19]提出了一種三向增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)模型3W-CNN,利用NB-SVM 作為增強(qiáng)模型對(duì)置信度較弱的預(yù)測(cè)進(jìn)行延遲決策,提高了情緒分類(lèi)的準(zhǔn)確率。文獻(xiàn)[20]將該方法應(yīng)用于中小企業(yè)管理政策文本分類(lèi)中。該方法分為2 個(gè)階段。第1 階段采用CNN 模型對(duì)政策文本進(jìn)行分類(lèi),對(duì)于容易區(qū)分的樣本直接輸出分類(lèi)結(jié)果。第2 階段采用傳統(tǒng)機(jī)器學(xué)習(xí)方法對(duì)難以區(qū)分的樣本進(jìn)行二次分類(lèi)。由于第2階段的傳統(tǒng)機(jī)器學(xué)習(xí)方法承擔(dān)了增加信息并延遲決策的任務(wù),因此其性能提升受限于特征工程的有效性。
本節(jié)詳細(xì)闡述了句子級(jí)自然資源政策文本分類(lèi)數(shù)據(jù)集的構(gòu)建方法,包括數(shù)據(jù)來(lái)源、數(shù)據(jù)基本處理以及數(shù)據(jù)標(biāo)注等。
數(shù)據(jù)來(lái)源為自然資源部門(mén)戶(hù)網(wǎng)站的政策法規(guī)庫(kù)專(zhuān)欄[21]。該欄目包括與自然資源管理相關(guān)的法律、司法解釋、行政法規(guī)、部門(mén)規(guī)章、部門(mén)規(guī)范性文件及部門(mén)其他文件等。欄目提供基本的篇章級(jí)業(yè)務(wù)分類(lèi),包括綜合管理、土地管理、自然資源確權(quán)登記等8 個(gè)業(yè)務(wù)類(lèi)別。
(1)從政策法規(guī)庫(kù)專(zhuān)欄獲取自然資源政策法規(guī)文件,共1722 份,大部分為html 格式。應(yīng)用lxml 庫(kù)的etree 模塊解析html 文件,獲取文件內(nèi)容、標(biāo)題以及文件篇章級(jí)業(yè)務(wù)類(lèi)別信息。根據(jù)html 標(biāo)簽將文件內(nèi)容自動(dòng)分段。1 份政策法規(guī)為1 個(gè)json 文件,數(shù)據(jù)結(jié)構(gòu)如下所示。
(2)刪除重復(fù)文件。
(3)對(duì)篇章級(jí)誤分類(lèi)文件進(jìn)行人工調(diào)整。
(4)對(duì)段落進(jìn)行分句,刪除小于10 個(gè)字的句子,刪除文件抬頭、文件落款等,按業(yè)務(wù)類(lèi)別將單個(gè)文件合并形成8 個(gè)json 文件,數(shù)據(jù)結(jié)構(gòu)為
{“sentence”: “句子”,“title”: “句子所屬文件標(biāo)題”,“l(fā)abel”: “類(lèi)別標(biāo)簽”}其中,類(lèi)別標(biāo)簽為缺省的篇章級(jí)業(yè)務(wù)類(lèi)別,后續(xù)將根據(jù)實(shí)際內(nèi)容進(jìn)行調(diào)整。8 個(gè)json 文件共有63 358 個(gè)政策文本句子,字?jǐn)?shù)少于128 的句子有59 819 個(gè),占94.41%。句子長(zhǎng)度分布如圖1 所示。
圖1 自然資源政策文本句子長(zhǎng)度統(tǒng)計(jì)
本文采用半自動(dòng)化方法進(jìn)行句子級(jí)政策文本數(shù)據(jù)標(biāo)注,主要流程如圖2 所示。
圖2 自然資源政策文本數(shù)據(jù)標(biāo)注流程
(1)對(duì)7 個(gè)業(yè)務(wù)類(lèi)別(不含綜合管理)的政策文本句子按業(yè)務(wù)類(lèi)別合并,分別作為7 個(gè)業(yè)務(wù)類(lèi)別的語(yǔ)料,使用jieba 庫(kù)進(jìn)行分詞,分別計(jì)算7 個(gè)業(yè)務(wù)類(lèi)別去掉停用詞后的詞頻(term frequency,TF)和逆文檔頻率(inverse document frequency,IDF)。計(jì)算公式為
式中,ti表示詞i,dj表示業(yè)務(wù)類(lèi)別j的語(yǔ)料,tfi表示ti在dj中出現(xiàn)的次數(shù)。tfi越高代表ti對(duì)該業(yè)務(wù)類(lèi)別的重要性越大。
式中,dfi表示7 個(gè)業(yè)務(wù)類(lèi)別的語(yǔ)料中包含ti的語(yǔ)料個(gè)數(shù),最高為7,dfi越高,其包含的分類(lèi)有效信息越低。|D|為7,表示共有7 個(gè)業(yè)務(wù)類(lèi)別語(yǔ)料。idfi越高代表ti對(duì)業(yè)務(wù)類(lèi)別的區(qū)分度越大。
(2)根據(jù)計(jì)算結(jié)果,選擇TF 和IDF 都高的詞,根據(jù)領(lǐng)域知識(shí)進(jìn)行篩選和必要調(diào)整,構(gòu)建7 個(gè)業(yè)務(wù)類(lèi)別的關(guān)鍵詞庫(kù),如表1 所示(限于篇幅,未全部列出)。
表1 自然資源政策文本標(biāo)注關(guān)鍵詞庫(kù)
(3)利用關(guān)鍵詞庫(kù)對(duì)句子級(jí)文本進(jìn)行重新標(biāo)注。標(biāo)注規(guī)則為:如果僅匹配到一個(gè)類(lèi)別,直接標(biāo)注為該類(lèi)別;匹配到多個(gè)類(lèi)別的,標(biāo)注為綜合管理;未匹配到的,按缺省業(yè)務(wù)類(lèi)別(即篇章級(jí)業(yè)務(wù)類(lèi)別)標(biāo)注。
對(duì)標(biāo)注結(jié)果重新按業(yè)務(wù)類(lèi)別合并,形成8 個(gè)業(yè)務(wù)類(lèi)別的標(biāo)注數(shù)據(jù)。統(tǒng)計(jì)信息如圖3 所示。
圖3 自然資源政策文本數(shù)據(jù)集分類(lèi)統(tǒng)計(jì)
TAE 方法主要應(yīng)用于模型推理階段,通過(guò)深度學(xué)習(xí)網(wǎng)絡(luò)獲得政策文本表示后,根據(jù)分類(lèi)概率的不確定性以自適應(yīng)的方式選擇是否引入標(biāo)題信息以增強(qiáng)文本表示,進(jìn)而提升最終分類(lèi)精度。
本研究任務(wù)形式化定義為:對(duì)于輸入的政策文本句子x=(x1,x2,…,xL),預(yù)測(cè)其業(yè)務(wù)類(lèi)別y∈Y。為避免相同標(biāo)題同時(shí)參與訓(xùn)練、驗(yàn)證和測(cè)試,僅在模型推理階段可以使用政策文本所屬標(biāo)題信息t=(t1,t2,…,tM)。其中,L為政策文本句子長(zhǎng)度,M為標(biāo)題文本長(zhǎng)度,Y為類(lèi)別標(biāo)簽集合。
圖4 為T(mén)AE 方法的整體框架。該方法以深度學(xué)習(xí)網(wǎng)絡(luò)(如CNNs、RNNs、Transformers 等)為模型基石,使用深度學(xué)習(xí)網(wǎng)絡(luò)作為編碼器來(lái)獲得政策文本表示(representation)以及標(biāo)題文本表示,使用Softmax 分類(lèi)器進(jìn)行分類(lèi)。
圖4 TAE 政策文本分類(lèi)方法整體框架
訓(xùn)練階段采用深度學(xué)習(xí)網(wǎng)絡(luò)+分類(lèi)器模型進(jìn)行訓(xùn)練。推理階段采用孿生網(wǎng)絡(luò)結(jié)構(gòu),按照三向決策方法對(duì)分類(lèi)不確定性超過(guò)閾值的政策文本進(jìn)行延遲決策,借助標(biāo)題信息增強(qiáng)政策文本表示后進(jìn)行二次分類(lèi)。
給定政策文本x,經(jīng)過(guò)深度學(xué)習(xí)網(wǎng)絡(luò)編碼后,映射為政策文本表示向量hx∈?d,其中d為深度學(xué)習(xí)網(wǎng)絡(luò)輸出的隱向量維度。
將hx送入分類(lèi)器分類(lèi)。分類(lèi)器由一個(gè)全連接層構(gòu)成,用于將d維向量映射到N維,N是業(yè)務(wù)類(lèi)別個(gè)數(shù)。對(duì)映射結(jié)果再進(jìn)行Softmax 計(jì)算得到預(yù)測(cè)概率:
其中,p是一個(gè)概率向量,表示模型對(duì)政策文本x在各個(gè)類(lèi)別上的預(yù)測(cè)概率。W和b分別為全連接層的權(quán)重矩陣和偏置項(xiàng)。
以交叉熵?fù)p失作為模型優(yōu)化的目標(biāo)函數(shù):
對(duì)于文本分類(lèi)來(lái)說(shuō),分類(lèi)器輸出的概率分布在一定程度上也顯示模型對(duì)該樣本分類(lèi)預(yù)測(cè)的確定性。比如概率分布[0.7,0.1,0.1,0.1] 顯然比[0.4,0.3,0.2,0.1]的不確定性低。文獻(xiàn)[10]指出預(yù)測(cè)概率的不確定性越低,預(yù)測(cè)結(jié)果的準(zhǔn)確性越高。模型測(cè)試時(shí),通過(guò)式(4)計(jì)算出預(yù)測(cè)概率后并不立即輸出預(yù)測(cè)類(lèi)別,而是先對(duì)該預(yù)測(cè)概率的不確定性進(jìn)行計(jì)算。基于三向決策分類(lèi)方法,對(duì)于不確定性低的直接輸出預(yù)測(cè)類(lèi)別;對(duì)于不確定性超過(guò)閾值的進(jìn)行延遲決策,即借助標(biāo)題信息增強(qiáng)政策文本特征表示后再次分類(lèi)。
文獻(xiàn)[10]針對(duì)BERT 多層Transformers 編碼器計(jì)算成本高的問(wèn)題,提出了一種自適應(yīng)調(diào)節(jié)算法,通過(guò)計(jì)算樣本在當(dāng)前層預(yù)測(cè)的不確定性來(lái)決定是否將其送入下一層編碼器繼續(xù)處理。該算法基于熵(entropy)計(jì)算樣本預(yù)測(cè)的不確定性,熵越大,隨機(jī)變量的不確定性就越大。為了規(guī)范化處理,該方法將樣本預(yù)測(cè)不確定性定義為預(yù)測(cè)概率的熵與均勻分布熵的比值。本文采用與文獻(xiàn)[10]相同的計(jì)算方法量度樣本預(yù)測(cè)概率的不確定性:
式中,p(i) 為模型預(yù)測(cè)政策文本屬于第i個(gè)類(lèi)別的概率,N是類(lèi)別個(gè)數(shù)。
對(duì)不確定性超過(guò)閾值的樣本引入標(biāo)題信息進(jìn)行后處理。通過(guò)孿生網(wǎng)絡(luò)獲得政策文本所屬文件的標(biāo)題表示向量ht∈?d。ht和hx維度相同,均為d維向量。
將hx和ht進(jìn)行相加融合,得到標(biāo)題信息增強(qiáng)后的政策文本表示hf:
將hf送入分類(lèi)器進(jìn)行二次分類(lèi),獲得新的分類(lèi)概率:
取概率最大值所對(duì)應(yīng)的業(yè)務(wù)類(lèi)別作為新的預(yù)測(cè)類(lèi)別:
算法1 給出了政策文本分類(lèi)TAE 算法偽代碼。
本節(jié)詳細(xì)介紹對(duì)TAE 方法的評(píng)估實(shí)驗(yàn),并給出相關(guān)分析。
數(shù)據(jù)集的不同劃分直接影響模型的最終性能[22]。本文對(duì)第2 節(jié)所形成數(shù)據(jù)集中的每一業(yè)務(wù)類(lèi)別樣本按8∶1∶1 的比例進(jìn)行劃分,組合成訓(xùn)練集、驗(yàn)證集和測(cè)試集。隨機(jī)劃分10 次,形成10 組數(shù)據(jù)集。對(duì)所有模型,在這10 組數(shù)據(jù)集上進(jìn)行10 次評(píng)估。
本文選擇在文本分類(lèi)任務(wù)中廣泛應(yīng)用的深度學(xué)習(xí)模型作為基線(xiàn)模型,并在其基礎(chǔ)上增加TAE 方法進(jìn)行對(duì)比分析。
(1)TextCNN[23]模型基于CNN 及word2vec 對(duì)句子級(jí)文本進(jìn)行分類(lèi),擅長(zhǎng)提取句子中的n元語(yǔ)法作為關(guān)鍵信息,在短文本領(lǐng)域應(yīng)用廣泛,但長(zhǎng)距離建模能力有限,且對(duì)語(yǔ)序不敏感。
(2)TextRNN[24]模使用RNN 對(duì)電影評(píng)論文本進(jìn)行分類(lèi)。RNN 及其變體擅長(zhǎng)捕獲文本序列信息,其遞歸結(jié)構(gòu)非常適合處理變長(zhǎng)文本,是NLP 任務(wù)中最常用的結(jié)構(gòu)之一。
(3)TextRCNN[25]模型使用循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(recurrent convolutional neural networks,RCNN)對(duì)句子級(jí)及文檔級(jí)文本進(jìn)行分類(lèi),可以有效捕捉上下文信息。
(4)DPCNN[26]模型使用深度金字塔卷積神經(jīng)網(wǎng)絡(luò)(deep pyramid convolutional neural networks,DPCNN)進(jìn)行文本分類(lèi),通過(guò)不斷加深網(wǎng)絡(luò),可以抽取長(zhǎng)距離的文本依賴(lài)關(guān)系。
(5)BERT[16]模型是谷歌公司提出的PLM,在大規(guī)模語(yǔ)料上采用掩碼語(yǔ)言模型(masked language model,MLM)、下一句預(yù)測(cè)(next sentence prediction,NSP)對(duì)雙向多層Transformer 進(jìn)行預(yù)訓(xùn)練,能夠生成深度雙向語(yǔ)言表征。預(yù)訓(xùn)練后,只需要添加一個(gè)額外的輸出層進(jìn)行微調(diào),就可以在包括文本分類(lèi)在內(nèi)的各種下游任務(wù)中取得優(yōu)異性能。
對(duì)于單個(gè)類(lèi)別的分類(lèi)性能,采用召回率(recall)、精確率(precision)和F1值作為評(píng)價(jià)指標(biāo)。
式中,Ri、Pi和F1i分別表示第i類(lèi)的召回率、精確率和F1值,TPi、FPi和FNi分別表示模型預(yù)測(cè)的第i類(lèi)真正例、假正例和假負(fù)例個(gè)數(shù)。
對(duì)于模型整體性能,采用準(zhǔn)確率(accuracy)、宏平均F1值和加權(quán)平均F1值進(jìn)行評(píng)價(jià)。
對(duì)于TextCNN、TextRNN、TextRCNN、DPCNN 均使用文獻(xiàn)[27]開(kāi)源的中文詞向量(人民日?qǐng)?bào)Word+Character+Ngram 300d)進(jìn)行初始化。TextCNN的卷積核大小設(shè)置為2、3、4,每個(gè)尺寸的卷積核數(shù)量為256;DPCNN 的卷積核數(shù)量為256;TextRNN 的LSTM 隱藏層大小為128,LSTM 層數(shù)為2;TextRCNN的LSTM 隱藏層大小為256,LSTM 層數(shù)為1。以上模型均選擇Adam 作為優(yōu)化器,learning_rate 為0.001,pad_size 為128,batch_size 為128,epoch 為20。對(duì)于BERT,使用BERT-Base-Chinese 預(yù)訓(xùn)練模型,隱藏層大小為768,dropout 為0.1,batch-size 大小為32,pad_size 為128,選擇AdamW 作為優(yōu)化器,learning_rate 為0.000 05,epoch 為3。主實(shí)驗(yàn)不確定性閾值ε取0.2。
實(shí)驗(yàn)環(huán)境:操作系統(tǒng)為L(zhǎng)inux,CPU 為12 核Intel(R) Xeon(R) Gold 5320 CPU@2.20 GHz,內(nèi)存為32 GB,GPU 為1 塊RTX A4000,顯存為16 GB。
本文報(bào)告了TAE 和其他基線(xiàn)方法在10 組隨機(jī)劃分的自然資源政策文本分類(lèi)數(shù)據(jù)集上的詳細(xì)測(cè)試性能以及TAE 方法相對(duì)基線(xiàn)模型的性能提升(見(jiàn)表2)。表中各模型的準(zhǔn)確率、宏平均F1值、加權(quán)平均F1值為各模型10 次評(píng)估的平均值±標(biāo)準(zhǔn)差,粗體字表示每組內(nèi)的較好結(jié)果??梢缘贸鋈缦陆Y(jié)論。
表2 TAE 方法與基線(xiàn)模型的對(duì)比實(shí)驗(yàn)結(jié)果
(1)在不使用TAE 方法時(shí),基于深度學(xué)習(xí)的模型對(duì)自然資源政策文本分類(lèi)已具有較高性能。5 個(gè)基線(xiàn)模型的準(zhǔn)確率、加權(quán)平均F1值均可達(dá)到90%以上。其中,基于CNN 的模型性能高于僅使用RNN 的分類(lèi)模型。這是因?yàn)樵谡呶谋痉诸?lèi)任務(wù)中,文本序列的重要性不及文本中n元語(yǔ)法關(guān)鍵信息的重要性,而后者正是CNN 所擅長(zhǎng)捕獲的。在5個(gè)基線(xiàn)模型中,基于BERT 的模型取得最好性能,這主要得益于其強(qiáng)大的語(yǔ)言表征能力,通過(guò)模型微調(diào)可以更好地捕獲政策文本中不同類(lèi)別間的細(xì)微差別,即便是模型宏平均F1值也達(dá)到90%以上。
(2)應(yīng)用TAE 方法可以進(jìn)一步提高深度學(xué)習(xí)模型的分類(lèi)性能。TAE 方法在模型的準(zhǔn)確率、宏平均F1值和加權(quán)平均F1值3 個(gè)總體指標(biāo)上均明顯高于相應(yīng)的基線(xiàn)模型。其中,模型宏平均F1值的提升尤為突出,比5 個(gè)基線(xiàn)模型分別提升5.55%、5.85%、5.47%、6.23%和5.28%。值得一提的是,即便是TextCNN、TextRNN、TextRCNN、DPCNN,僅僅增加TAE 方法,在模型準(zhǔn)確率、宏平均F1值和加權(quán)平均F1值上也優(yōu)于BERT 基線(xiàn)模型。
TAE 方法的有效性主要得益于以下幾個(gè)方面:1)對(duì)于缺乏業(yè)務(wù)特征的政策文本句子,深度學(xué)習(xí)網(wǎng)絡(luò)難以提取到有效特征信息,從而導(dǎo)致分類(lèi)器得出的預(yù)測(cè)概率不確定性較高,這種情況下增加標(biāo)題信息可以使分類(lèi)結(jié)果傾向于標(biāo)題文本所屬類(lèi)別,而大部分情況下標(biāo)題文本所屬類(lèi)別都與政策文本一致,因此能提升召回率。2)對(duì)于業(yè)務(wù)特征有多個(gè)指向的政策文本句子,深度學(xué)習(xí)網(wǎng)絡(luò)也難以學(xué)習(xí)到有效的區(qū)分特征,同樣導(dǎo)致預(yù)測(cè)概率不確定性較高,與1)類(lèi)似,大部分情況下增加標(biāo)題信息會(huì)使分類(lèi)召回率受益。3)對(duì)于業(yè)務(wù)特征明顯且指向單一的政策文本句子,深度學(xué)習(xí)網(wǎng)絡(luò)通過(guò)訓(xùn)練一般都能提取到明確的類(lèi)別特征,從而預(yù)測(cè)概率不確定性較低,這種情況下TAE 會(huì)直接輸出預(yù)測(cè)類(lèi)別,避免了加入標(biāo)題信息導(dǎo)致的精確率下降。
當(dāng)然,不同深度學(xué)習(xí)網(wǎng)絡(luò)各有優(yōu)點(diǎn)和局限,對(duì)文本特征的提取能力并不相同,預(yù)測(cè)概率的不確定性各異,因此在增加TAE 方法后,不同深度學(xué)習(xí)網(wǎng)絡(luò)的提升幅度并不相同。另外,宏平均F1值提升更加明顯,說(shuō)明少樣本類(lèi)別在TAE 方法中受益較大,原因是深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)少樣本特征的提取更具挑戰(zhàn)性,從而標(biāo)題信息可以發(fā)揮更大的輔助作用。
為了探索不確定性閾值ε對(duì)模型性能的影響,基于BERT +TAE 模型,以0.1 為間隔,對(duì)0~1 之間的參數(shù)進(jìn)行了實(shí)驗(yàn)。其中當(dāng)ε=0 時(shí),所有測(cè)試的政策文本都會(huì)添加標(biāo)題信息;當(dāng)ε=1 時(shí),所有測(cè)試的政策文本都不會(huì)添加標(biāo)題信息(單句子分類(lèi))。圖5 顯示了不同ε對(duì)模型準(zhǔn)確率的影響。圖6 顯示了模型取不同ε時(shí)分類(lèi)錯(cuò)誤數(shù)的變化。
圖5 BERT+TAE 模型取不同ε 時(shí)的準(zhǔn)確率變化
圖6 BERT+TAE 模型取不同ε 時(shí)的錯(cuò)誤增減變化
實(shí)驗(yàn)結(jié)果表明,ε=0 時(shí),模型分類(lèi)準(zhǔn)確率僅比單句子分類(lèi)時(shí)提升1.2%。這是因?yàn)榕c單句子分類(lèi)相比,全部增加標(biāo)題信息后,雖然有362 個(gè)單句子時(shí)分類(lèi)錯(cuò)誤的樣本被正確分類(lèi),但是同時(shí)有286 個(gè)單句子時(shí)分類(lèi)正確的樣本被錯(cuò)誤分類(lèi),可見(jiàn)增加標(biāo)題信息帶來(lái)的大部分收益(新的正確分類(lèi)數(shù))被損失(新的錯(cuò)誤分類(lèi)數(shù))所抵消,從而導(dǎo)致分類(lèi)性能提升有限。這驗(yàn)證了增加標(biāo)題信息對(duì)政策文本分類(lèi)有利有弊。從圖6 可以看出,隨著ε由0 變大,增加標(biāo)題導(dǎo)致的損失迅速下降,在ε=0.1 之后,降幅趨于平穩(wěn),直到ε=0.9 時(shí)損失為0。而隨著ε由0 增大,增加標(biāo)題帶來(lái)的收益只是平穩(wěn)下降,直到ε=0.9時(shí)仍有1 個(gè)新的正確分類(lèi)樣本。從而,不同ε帶來(lái)了不同的收益和損失差異,最終帶來(lái)了模型性能的不同提升。因此,對(duì)ε進(jìn)行更精細(xì)調(diào)參,還可獲得更高性能。
不同ε直接決定需要增加標(biāo)題進(jìn)行延遲決策樣本個(gè)數(shù)(圖7)。當(dāng)ε=0 時(shí),6330 個(gè)測(cè)試樣本全部需要延遲決策;分類(lèi)收益為362 個(gè),僅占延遲決策樣本數(shù)的5.71%。當(dāng)ε=0.2 時(shí),需要延遲決策樣本數(shù)為799 個(gè),分類(lèi)收益為307 個(gè),占延遲決策樣本數(shù)的38.42%。在BERT 模型中,81.90%的測(cè)試樣本預(yù)測(cè)概率的不確定性介于0~0.1 之間。這也驗(yàn)證了大部分政策文本句子預(yù)測(cè)概率的不確定性較低,無(wú)需延遲決策,而對(duì)少部分不確定性較高的樣本進(jìn)行延遲決策收益占比較高。
圖7 BERT+TAE 模型取不同ε 時(shí)的延遲決策樣本個(gè)數(shù)
TAE 對(duì)不同類(lèi)別樣本的影響并不均衡。表3記錄了分別使用BERT 模型和BERT+TAE 模型(ε=0.2)時(shí),8 個(gè)業(yè)務(wù)類(lèi)別的精確率、召回率和F1值的變化。其中較好結(jié)果使用粗體字突出顯示。
表3 TAE 方法與基線(xiàn)方法在具體類(lèi)別上的分類(lèi)性能對(duì)比
從表3 可以看出,使用TAE 方法后,除測(cè)繪地理信息管理類(lèi)別的精確率降低外,其余類(lèi)別的性能指標(biāo)均獲得提升。在精確率方面,提升幅度較大的是礦產(chǎn)資源管理和地質(zhì)環(huán)境管理,分別達(dá)8.99%和7.36%。測(cè)繪信息管理類(lèi)別精確率下降原因是,真正例TP 個(gè)數(shù)雖然增加了6.23%,但假正例FP 個(gè)數(shù)卻增加了75%。在召回率方面,性能提升較大的是地質(zhì)和海洋管理類(lèi)別,分別達(dá)14.17%和8.29%??傮w來(lái)看,TAE 方法對(duì)地質(zhì)、礦產(chǎn)資源管理、海洋管理等類(lèi)別的效果更為顯著,F1值提升在6%以上。說(shuō)明這些類(lèi)別的政策文本更符合本文對(duì)政策文本特點(diǎn)的基本假設(shè),即大部分政策文本的業(yè)務(wù)特征明顯,部分業(yè)務(wù)特征不明顯的可借助文件標(biāo)題輔助分類(lèi),引入文件標(biāo)題后帶來(lái)的噪聲有限。
從前文可以看出,TAE方法既有收益也有損失,不同的ε設(shè)置即是為了取得收益與損失的最佳平衡。本節(jié)給出了實(shí)驗(yàn)中的幾個(gè)具體案例。
(1)因?yàn)門(mén)AE 方法而正確分類(lèi)的案例。一是政策文本中沒(méi)有明確業(yè)務(wù)特征的樣本。如“建立動(dòng)態(tài)巡查責(zé)任追究制度,對(duì)巡查工作不到位、報(bào)告不及時(shí)、制止不得力的要追究有關(guān)責(zé)任人的責(zé)任?!?BERT 模型將其誤分類(lèi)為綜合管理。在BERT +TAE 中(ε=0.2,下同),加入標(biāo)題《國(guó)土資源部關(guān)于進(jìn)一步完善農(nóng)村宅基地管理制度切實(shí)維護(hù)農(nóng)民權(quán)益的通知》信息后,被正確分類(lèi)為土地管理。二是政策文本中有業(yè)務(wù)特征,但可指向多個(gè)業(yè)務(wù)類(lèi)別的樣本。如“采用招標(biāo)或拍賣(mài)方式的,取得投標(biāo)或競(jìng)買(mǎi)資格者不得少于3 個(gè)?!?BERT 模型將其誤分類(lèi)為礦產(chǎn)資源管理,加入標(biāo)題《國(guó)土資源部關(guān)于印發(fā)<招標(biāo)拍賣(mài)掛牌出讓國(guó)有土地使用權(quán)規(guī)范>(試行)和<協(xié)議出讓國(guó)有土地使用權(quán)規(guī)范>(試行)的通知》信息后,BERT+TAE 將其正確分類(lèi)為土地管理。
(2)因?yàn)門(mén)AE 方法而錯(cuò)誤分類(lèi)的案例。一是標(biāo)題信息的業(yè)務(wù)特征也不明確的樣本。如“土地礦產(chǎn)衛(wèi)片執(zhí)法檢查工作機(jī)構(gòu)通過(guò)內(nèi)業(yè)判別和實(shí)地……在與礦產(chǎn)資源規(guī)劃、探礦權(quán)、采礦權(quán)數(shù)據(jù)綜合對(duì)比分析的基礎(chǔ)上,初步判定礦產(chǎn)資源勘查開(kāi)采疑似違法圖斑。”,BERT 模型將其正確分類(lèi)為礦產(chǎn)資源管理。BERT+TAE 加入標(biāo)題《土地礦產(chǎn)衛(wèi)片執(zhí)法檢查工作規(guī)范(試行)》信息后,反而被誤分類(lèi)為綜合管理。二是標(biāo)題信息的業(yè)務(wù)特征明確,但與政策文本類(lèi)別不一致的樣本。如“行政復(fù)議應(yīng)訴機(jī)構(gòu)負(fù)責(zé)為訴訟代理人辦理授權(quán)委托書(shū)等事宜?!?BERT 模型將其正確分類(lèi)為綜合管理。BERT+TAE 加入標(biāo)題《關(guān)于印發(fā)<國(guó)家測(cè)繪局行政復(fù)議和行政應(yīng)訴辦法>的通知》信息后,反而被誤分類(lèi)為測(cè)繪地理信息管理。
本文提出的結(jié)合NLP 和領(lǐng)域知識(shí)的方法可以有效構(gòu)建句子級(jí)自然資源政策文本分類(lèi)數(shù)據(jù)集,提出的基于深度學(xué)習(xí)的TAE 政策文本分類(lèi)方法可以靈活利用政策文本自身特點(diǎn),進(jìn)一步提升政策文本分類(lèi)性能。實(shí)驗(yàn)結(jié)果表明,5 個(gè)基于CNNs、RNNs、Transformers 的常用深度學(xué)習(xí)分類(lèi)模型增加TAE 方法后,模型的準(zhǔn)確率、宏平均F1值、加權(quán)平均F1值都獲得了顯著提升。該方法可在類(lèi)似政策文本分類(lèi)中應(yīng)用,也可應(yīng)用于政策文本大數(shù)據(jù)分析中。