胡容波 張廣發(fā) 王雅雯 方金云
(?中國科學院計算技術研究所 北京 100190)
(??自然資源部信息中心 北京 100036)
(???中國科學院大學 北京 100190)
管理規(guī)則是法律法規(guī)、規(guī)章規(guī)定等政策文本的基本要素之一,是對各種權利、義務以及相關后果的具體規(guī)定。從政策文本中提取管理規(guī)則對政策沖突檢測[1]、政策智能檢索[2]、事項合規(guī)性檢查[3]、政務系統(tǒng)需求工程[4]等均具有重要意義。然而,識別、提取和形式化管理規(guī)則是一項知識密集型和勞動密集型的任務[5]。為此,可以采用多階段的管理規(guī)則自動抽取方法:(1)對政策文本自動分類,識別目標類別句子;(2)檢測目標句子中是否存在管理規(guī)則以及判定規(guī)則類別;(3)對存在管理規(guī)則的政策文本句子根據規(guī)則類別抽取相應的規(guī)則元素,最終形成規(guī)則庫。
此前的工作[6]探討了第1 階段任務,可實現自然資源政策文本句子自動分類(土地管理、礦產資源管理、海洋管理等)。本文聚焦于第2 階段任務,選取礦產資源管理政策文本句子,對其中的命令類、禁止類、允許類、處罰類等管理規(guī)則進行自動檢測。
近年來,法律智能[7]已成為研究熱點,但主要是對法律文書、案件描述等進行解析處理,以輔助開展罪名預測、法條推薦、刑期預測等。目前直接針對政策文本進行管理規(guī)則檢測的工作還不太多。自動檢測政策文本中的管理規(guī)則是一個新興的自然語言處理(natural language processing,NLP)任務,主要挑戰(zhàn)在于管理規(guī)則大多包含義務、許可、禁止等道義模態(tài)(deontic modality)[8],但以自然語言表達的道義模態(tài)常常存在模糊和歧義[9]。有些有明確的道義詞,有些有多個道義詞,有些則未出現道義詞;有些雖然出現了道義詞,但不一定具有道義指示含義;由于自然語言的復雜性,有些道義詞形式多變。如“對可以由本地方開發(fā)的礦產資源,優(yōu)先合理開發(fā)利用”中雖然有“可以”道義詞,但該管理規(guī)則在語義上并非允許類,而是命令類,但義務道義詞“應該”并未出現。另外,根據礦產資源管理需求,本文將處罰類規(guī)則單獨提出,并將文本處理范圍從語言較為嚴謹的法律擴大到普通政策文件,進一步增加了任務的挑戰(zhàn)性。
研究者已提出基于模式匹配[10]、基于傳統(tǒng)機器學習[11-12]以及基于深度學習[9,13]的政策文本規(guī)則檢測方法。近年來,以基于轉換器的雙向編碼表征(bidirectional encoder representation from transformers,BERT)[14]為代表的預訓練語言模型(pre-trained language model,PLM)在廣泛的下游任務中顯示出強大性能,已成為NLP 領域的主流模型之一。在政策文本規(guī)則檢測任務中,研究者也提出了基于BERT 模型的應用[15],結果優(yōu)于其他已有模型。
BERT 模型的優(yōu)異性能既來源于帶有自注意力機制的多層雙向Transformer 編碼器,也來源于2 個新穎的在大規(guī)模語料上應用的無監(jiān)督預訓練任務:掩碼語言模型(masked language model,MLM)和下一句預測(next sentence prediction,NSP)。其中,MLM 類似完形填空,可實現雙向語言建模,模型學習到的掩碼(mask)詞表示(representation)可以較為精準地融合上下文語義信息。NSP 則使BERT 具備建模兩段文本間關系的能力。
然而,BERT 模型在預訓練階段和下游任務微調階段的不一致性會影響B(tài)ERT 性能的發(fā)揮:一方面,預訓練階段引入的[MASK]標記在下游任務中并不會出現,BERT 特意設計了3 種掩碼方式以降低這種不一致帶來的影響;另一方面,預訓練階段BERT 模型輸出的[CLS]隱向量主要用于建模文本對之間的關系,而在下游其他句子級任務中進行句子表示時通常也使用[CLS]隱向量。已有研究[16]表明,詞語頻率等帶來的詞嵌入偏差和對BERT 網絡層的低效利用導致[CLS]隱向量并不能很好地表示句子語義,但基于提示(prompt)的句子表示方法可以緩解這種嵌入偏差。
為此,本文提出基于BERT 提示的礦產資源管理規(guī)則檢測方法。該方法在不引入其他機制的情況下,通過改變模型輸入層和輸出分類層實現對BERT 模型特點的充分利用。在模型輸入層,構建帶有[MASK]標記的提示模板,如“應該不得可以懲罰[MASK]:”,再將該提示模板與原始政策文本句子拼接后輸入BERT。提示模板雖然不是流暢的自然語言,但融入了管理規(guī)則道義模態(tài)知識,可借助BERT 自身機制探測政策文本句子中與道義模態(tài)相關的信息。在分類輸出層,使用經過多層Transformer 編碼、蘊含豐富上下文語義信息的[MASK]隱向量進行分類預測。在礦產資源管理規(guī)則數據集上的實驗結果表明,該方法在模型準確率、宏平均F1值、加權平均F1值上均優(yōu)于其他基線方法。在公開數據集上的實驗結果也顯示了該方法的有效性。
本文主要貢獻如下。
(1)提出構建帶有[MASK]標記和管理規(guī)則信息的提示模板,可以充分發(fā)揮掩碼語言模型的自編碼優(yōu)勢,激發(fā)BERT 模型更好地提取與管理規(guī)則相關的文本特征。
(2)提出基于BERT 模型進行管理規(guī)則檢測的新應用模式,放棄使用[CLS] 隱向量而采用[MASK]隱向量進行分類預測。由于未改變BERT的原始網絡結構,所提方法幾乎不增加計算量。
(3)在礦產資源管理規(guī)則數據集上的大量實驗結果顯示,所提方法優(yōu)于其他基線方法,在模型穩(wěn)定性上也更具優(yōu)勢。在公開數據集上的實驗結果也顯示該方法可以進一步提升BERT 模型在相關下游任務中的性能。
本節(jié)詳細闡述與本文相關的研究工作,包括政策文本中管理規(guī)則檢測方法、BERT 模型應用模式以及BERT 模型在分類任務中的標簽嵌入方法。
已有的政策文本中管理規(guī)則檢測方法包括模式匹配、傳統(tǒng)機器學習以及深度學習方法。文獻[9]比較了傳統(tǒng)機器學習方法與深度學習方法在法律規(guī)則(義務、禁止和許可)檢測上的性能,其采用的傳統(tǒng)機器學習方法包括邏輯回歸(logistic regression,LR)、支持向量機(support vector machines,SVM)、決策樹(decision trees,DT)、隨機森林(random forest,RF);深度學習方法包括卷積神經網絡(convolutional neural networks,CNN)、長短時記憶網絡(long short-term memory,LSTM)、雙向長短時記憶網絡(bi-directional long short-term memory,BiLSTM)等,結果顯示深度學習模型性能更優(yōu),BiLSTM 取得了最高性能。文獻[15]比較了基于模式匹配、基于BiLSTM 以及基于BERT 的方法在法規(guī)規(guī)則(義務、禁止、許可)檢測上的性能。結果顯示,BERT 優(yōu)于基于模式匹配(需要人工構建匹配模式,模式過少或過多都會影響性能,且通用性較差)和基于BiLSTM的方法,是目前在管理規(guī)則檢測任務上的最先進方法。
本文在上述工作的基礎上,進一步提出基于BERT 模型進行管理規(guī)則檢測的新方法。另外,本文針對中文政策領域進行研究,情形更為復雜,這方面的工作目前還較為欠缺。
以文本分類任務為例,目前對BERT 模型有2種典型的應用模式。一種是基于微調(fine-tuning)[14]的方法,即在BERT 模型上增加額外的分類器,結合下游具體任務進行微調,這種模式在監(jiān)督任務上可取得優(yōu)異性能;另一種是基于提示學習(prompt-based learning)[17]的方法,即在輸入文本中插入帶有[MASK]標記的提示模板,將分類問題轉化為MLM 建模問題。這種應用模式在少樣本和零樣本場景中取得了更好的性能。然而,基于提示學習的方法對預訓練模型的知識要求更高,同時需要進行復雜的模板工程(prompt engineering)和答案工程(answer engineering),模型的性能受這些因素影響較大。
本文提出的方法是一種將2 種應用模式進行部分結合的方法,既可以充分利用MLM 建模的優(yōu)勢,又避免了復雜的答案工程。
對標簽信息的利用吸引了不少研究者的關注。文獻[18]通過在訓練過程中計算實例和標簽之間的相似性捕獲標簽之間的語義重疊,生成更好的標簽分布以取代原來的獨熱標簽向量,最終提高分類性能。但該方法需要增加額外的標簽編碼器、標簽分布計算層等組件。
文獻[19]提出了一種更為簡潔的標簽嵌入方法,通過將標簽文本與輸入文本拼接后一起送入BERT 模型進行編碼,在不改變原始編碼器結構和增加其他機制的情況下,直接利用BERT 固有的自注意力機制實現標簽信息與輸入文本的交互,增強文本的上下文表示,提高分類性能。然而,這是一種對標簽信息的“硬嵌入”方法,分類性能受標簽文本的影響較大。如果標簽文本對不同類別數據的區(qū)分度不大,則增加標簽信息后不僅不能增強文本表示,反而會破壞文本表示,從而導致精度降低。
本文提出的是一種對標簽信息“軟嵌入”的方法,通過將不同管理規(guī)則有代表性的道義詞引入提示模板,借助BERT 模型的MLM 建模機制,可以更好地利用標簽信息。
基于BERT 提示的礦產資源管理規(guī)則檢測方法并不改變BERT 模型的基本網絡結構,即保持BERT編碼層不變,主要改變是調整輸入層和分類輸出層。接下來將詳細介紹本文提出的模型與方法。
本研究任務屬于分類任務,可形式化定義為:對于輸入的礦產資源政策文本句子x=(x1,x2,…,xn),預測其管理規(guī)則類別y∈y。其中,n為政策文本句子長度,y為管理規(guī)則類別標簽集合。
圖1為基于BERT提示的礦產資源管理規(guī)則檢測方法的整體框架,由輸入層、編碼層、分類輸出層構成。其中,輸入層將政策文本句子使用提示模板包裝后輸入模型。編碼層為BERT 基本網絡結構,是由多個雙向Transformer 堆疊而成的深層神經網絡,可將輸入文本編碼為深層上下文語義表示。分類輸出層由Softmax 分類器構成,用于輸出模型對政策文本句子中管理規(guī)則檢測的結果。
圖1 基于BERT 提示的礦產資源管理規(guī)則檢測方法整體框架
(1)輸入層。對于給定的礦產資源政策文本句子x,使用帶有[MASK]標記,且融合了管理規(guī)則信息(代表性道義詞)的提示模板進行包裝。如政策文本句子x為“勘查礦產資源,必須依法申請登記。”,提示模板為“應該不得可以懲罰[MASK]:”,則輸入為
xp=[CLS] 應該不得可以懲罰[MASK]:勘查礦產資源,必須依法申請登記。[SEP]
其中,[CLS]是BERT 模型專為分類任務設定的特殊標記,[SEP]是文本序列之間的分隔標記,[MASK]為提示模板中人為設計的掩碼標記。
文本序列xp經過分詞器分詞及映射,獲得每個標記(分詞單元)的詞向量(token embedding)、塊向量(segment embedding)以及位置向量(position embedding),3 個向量相加得到每個標記的輸入向量,拼接后得到整個文本序列xp的輸入向量v。
(2)編碼層。BERT 模型中的多層Transformer對輸入向量v進行逐層編碼,通過多頭自注意力機制充分學習句子中每個詞之間的語義關聯(lián)[20],最終獲得政策文本句子的上下文語義表示h:
式中,h∈RN×d,為BERT 模型中最后一層Transformer 的輸出;其中,N為BERT 輸入文本的最大長度,d為BERT 隱藏層維度。
如果僅輸出最后一層編碼結果,BERT 模型可分別輸出[CLS]標記對應的隱向量h[CLS]以及整個文本序列所有標記對應的隱向量h。其中,h[CLS]為h的首個分量經過全連接層并使用tanh 函數激活后的結果,通常作為句子表示用于下游分類任務。
(3)分類輸出層。本文提出的方法放棄使用h[CLS]作為句子表示,而代之以[MASK]標記對應的隱向量h[MASK]。將h[MASK]作為分類輸出層的輸入,經過Softmax 分類層,最后輸出政策文本句子中管理規(guī)則類別的概率分布p:
其中,p∈RK,W∈Rd×K為全連接層的權重矩陣,b∈RK為全連接層的偏置,K表示管理規(guī)則類別個數。
對于第i個樣本,取概率最大值所對應的管理規(guī)則類別作為模型預測類別:
其中,pi為模型對第i個樣本的預測概率。
模型訓練時,以交叉熵損失作為模型優(yōu)化的目標函數:
其中,m為樣本個數,表示第i個樣本在第j類上的真實結果,屬于該類為1,否則為0;表示模型對第i個樣本屬于第j類的預測概率。
本節(jié)詳細介紹對基于BERT 提示的礦產資源管理規(guī)則檢測方法的評估實驗,并給出相應分析。
本文從此前工作[6]所構建的自然資源政策文本分類數據集中選取業(yè)務類別為礦產資源管理的部分政策文本句子,由領域專家進行人工標注,形成礦產資源管理規(guī)則數據集。其中,管理規(guī)則類別為:命令類規(guī)則、禁止類規(guī)則、允許類規(guī)則、處罰類規(guī)則、其他類規(guī)則。表1 為數據集統(tǒng)計信息。
表1 礦產資源管理規(guī)則數據集統(tǒng)計
本文對數據集中的每一類別樣本按6 ∶2 ∶2 的比例進行劃分,組合成訓練集、驗證集、測試集。隨機劃分10 次,形成10 組數據集。對所有模型,在這10 組數據集上進行10 次評估。
本文選擇以下用于管理規(guī)則檢測任務的典型方法及最新BERT 標簽嵌入方法等進行對比分析。
(1)SVM[21]:SVM 是傳統(tǒng)機器學習的代表性技術之一。文獻[9]在英文金融法規(guī)道義模態(tài)檢測上使用了該方法,在所比較的傳統(tǒng)機器學習方法中,SVM 性能較高。
(2)基于卷積神經網絡的文本分類學習(convolutional neural networks for text classification,TextCNN)[22]:TextCNN 的基本結構由輸入層、卷積層(convolution layer)、池化層(pooling layer)、全連接層(fully connected layer)和輸出層構成。文獻[9]在英文金融法規(guī)道義模態(tài)檢測上使用該方法取得了超越傳統(tǒng)機器學習方法的效果。
(3)BiLSTM[23]:在應用于文本分類任務時,BiLSTM 可以從2 個方向(從前往后、從后往前)對文本序列進行編碼表示。文獻[9]在英文金融法規(guī)道義模態(tài)檢測上使用了該方法,在神經網絡模型中取得了較高性能。
(4)BERT[14]:基于BERT 模型的常規(guī)微調方法,即輸入層的輸入為原始政策文本句子,分類輸出層將[CLS]隱向量作為分類器的輸入向量。文獻[15]在英文合同條款義務類、許可類、禁止類句子檢測任務上應用了該方法,結果顯示BERT 性能明顯優(yōu)于BiLSTM。該方法也是此前管理規(guī)則檢測任務的最優(yōu)方法。
(5)BERT-label[19]:將標簽信息融入BERT 的方法,即輸入層的輸入為管理規(guī)則各類別標簽詞拼接原始政策文本句子組成的新文本序列,分類輸出層將[CLS]隱向量作為分類器的輸入向量。該方法可以利用標簽嵌入提高BERT 在文本分類中性能。
(6)BERT-tfidf[19]:在BERT-label的基礎上,計算各類別語料分詞后的詞頻-逆文檔頻率(tf-idf)值,每個類別各取5 個tf-idf 值最高的分詞對標簽詞進行擴展,輸入層拼接方法及分類輸出層與BERT-label相同。這是文獻[19]提出的進一步優(yōu)化方法。
(7)BERT-提示[CLS]:輸入層的輸入為提示模板去掉“[MASK]:”后與原始政策文本句子拼接組成的新文本序列,分類輸出層將[CLS]隱向量作為分類器輸入向量。本方法專為檢驗使用[CLS]隱向量和[MASK]隱向量進行管理規(guī)則檢測的性能差異設計。
以上基于BERT 模型的方法分類輸出層均采用Softmax 分類器。
對于單個管理規(guī)則類別的檢測性能,采用F1值作為評價指標。
其中,Ri、Pi、F1i分別表示第i類的召回率、精確率和F1值,TPi、FPi、FNi分別表示模型預測的第i類真正例、假正例、假負例個數。
對于模型整體性能,采用準確率(accuracy)、宏平均F1值和加權平均F1值進行評價。
SVM 模型使用word2vec 生成文本向量表示,核函數使用RBF,C=10,gamma 取默認值。
TextCNN 及BiLSTM 模型使用文獻[24]開源的中文詞向量(人民日報Word+Character+Ngram 300d)進行初始化。學習率(learning_rate) 為0.001,文本固定長度(pad_size)為128,批大小(batch_size)為64。TextCNN 的卷積核大小設置為2、3、4,每個尺寸的卷積核數量為256,迭代次數(epoch)為20。BiLSTM 的隱藏層大小為384,epoch為60。
BERT 模型使用BERT-Base-Chinese 預訓練模型,隱藏層大小為768,丟棄率(dropout)為0.1,batchsize 大小為32,pad_size 為128,選擇AdamW[25]作為優(yōu)化器,learning_rate 為0.000 05,epoch 為10。主實驗提示模板為“應該不得可以懲罰[MASK]”。
實驗環(huán)境:操作系統(tǒng)為Linux,CPU 為12 核Intel(R) Xeon(R) Gold 5320 CPU@2.20 GHz,內存為32 GB,GPU 為1 塊RTX A4000,顯存為16 GB。
本文報告了基于BERT 提示的礦產資源管理規(guī)則檢測方法和其他基線方法在10 組隨機劃分的礦產資源管理規(guī)則數據集上的詳細測試性能(表2)。表中數值為各方法10 次評估的模型準確率、宏平均F1值、加權平均F1值的平均值±標準差,粗體字表示較好結果。可以得出如下結論。
表2 BERT 提示方法與基線方法的對比實驗結果
(1)總體上,基于CNN、循環(huán)神經網絡(recurrent neural network,RNN)的深度學習模型在管理規(guī)則檢測任務上的性能顯著優(yōu)于傳統(tǒng)機器學習方法,這主要是因為傳統(tǒng)機器學習方法捕獲政策文本語義的能力有限?;贐ERT 的方法又明顯優(yōu)于基于CNN、RNN 的方法,這主要得益于BERT 模型有更強大的雙向語言表征能力,可以有效捕獲政策文本句子中的道義模態(tài)特征。
(2)本文提出的BERT 提示方法在準確率、宏平均F1值、加權平均F1值上均優(yōu)于已有方法。其中,BERT-提示[CLS]方法的性能不僅低于BERT 提示方法,還低于BERT 方法。這說明即使是相同的提示信息,不同的利用方式甚至會對模型性能帶來完全不同的影響。同時說明BERT 提示方法的有效性不僅來自于提示信息,也來自于對[MASK]隱向量的利用。
另外,所有方法的宏平均F1值均低于準確率,說明各方法對小樣本類別(禁止類、允許類、處罰類)的預測準確性都低于相對多樣本類別(命令類、其他類)。但BERT 提示方法在宏平均F1值和準確率上的差值最小,顯示BERT 提示方法處理樣本不均衡問題的能力更強。
(3)將標簽詞融入BERT 的方法(BERT-label)相對于常規(guī)BERT 方法幾乎沒有提升,僅在準確率、加權平均F1值的方差上比BERT 方法略小,而在宏平均F1值上反而低于BERT 方法。這與標簽詞(“命令類規(guī)則、禁止類規(guī)則、允許類規(guī)則、處罰類規(guī)則、其他類規(guī)則”)對管理規(guī)則的區(qū)分度不大有關。文獻[19]指出,如果標簽詞對類別的區(qū)分度不足,則該方法可能會破壞文本表示而不是增強文本表示,從而導致分類精度降低。
(4)使用tf-idf 值較高的詞擴展標簽詞的方法(BERT-tfidf)也沒有獲得性能提升,反而在準確率、加權平均F1值、宏平均F1值上均有不同程度下降。這些詞的加入顯然進一步破壞了政策文本表示。該方法在應用于情感極性分類任務時也有類似性能下降的情況[19]。
以上對比實驗中,BERT 提示方法與其他基于BERT 的基線方法最大的區(qū)別在于使用不同的隱向量進行分類預測。BERT 模型的自注意力機制以及預訓練任務讓[CLS]隱向量擅長捕捉句子級上下文信息,[MASK]隱向量擅長捕捉標記(詞)級上下文信息。文獻[16]指出,通過使用提示模板的方法來獲取BERT 中的句子表示可以避免嵌入偏差,并且能夠更好地利用BERT 中的網絡結構,從而可以在相關下游任務中獲得更好的性能。文獻[16]顯示BERT 模型的[CLS]隱向量與基于提示的[MASK]隱向量在語義相似度任務中性能不同,本文實驗則顯示兩者在應用于下游分類任務時也存在差異。合理構建提示模板有助于[MASK]隱向量捕獲更多與具體任務相關的特征,因而有望進一步提升BERT模型的分類性能。
為了探索不同提示模板對模型性能的影響,本文設計了多組硬提示(hard prompt)、軟提示(soft prompt)模板進行實驗。表3 列出其中有代表性的幾組實驗結果。其中“[unused1]”、“[unused2]”、“[unused3]”為BERT-base 預訓練模型詞匯表中預留的特殊標記,準確率為10 次評估結果的平均值,粗體字表示較好結果。
表3 使用不同提示模板實驗結果
模板1 更符合自然語言的流暢性,但并未取得最高性能。模板2 只是將有代表性的道義詞進行拼接,反而獲得較好結果。這些道義詞借助MLM 機制激發(fā)BERT 模型通過[MASK]隱向量更好地捕獲上下文中與規(guī)則類別相關的信息。模板3 的文字部分為標簽詞,性能不及模板1,再次顯示標簽詞對管理規(guī)則的區(qū)分度有限。模板4~6 為所謂軟提示模板,實驗結果總體性能尚可,但并未取得最高性能。
這幾組提示模板的準確率均高于常規(guī)BERT 方法,但如果提示模板構建不當也會導致準確率不及BERT 方法。
本文實驗數據集的樣本量較少。文獻[26]指出,BERT 模型中使用的優(yōu)化器(BertAdam)未進行梯度偏差校正,導致BERT 模型在小數據集上的訓練效率較低,模型不穩(wěn)定。AdamW[25]優(yōu)化器則可以對梯度偏差進行校正,使模型訓練時能更快收斂,性能更加穩(wěn)定。本文在礦產資源規(guī)則數據集上對BERT 方法和基于BERT 提示的方法分別使用2 種優(yōu)化器進行實驗對比。表4 為10 次評估結果的準確率平均值。
表4 使用不同優(yōu)化器實驗結果
可以看出,AdamW 優(yōu)化器為2 種方法都帶來了性能提升。其中,對BERT 方法的提升更為明顯。但是,即使采用BertAdam 優(yōu)化器,BERT 提示方法的準確率也高于BERT 方法采用AdamW 優(yōu)化器的準確率。這顯示BERT 提示方法在模型穩(wěn)定性上更具優(yōu)勢。
表5 顯示了BERT 方法與BERT 提示方法對礦產資源管理規(guī)則各類別的具體檢測性能,各指標均為10 次評估結果的平均值。在礦產資源管理規(guī)則檢測上,無論是BERT 方法還是BERT 提示方法都具有較高性能。在使用BERT 提示方法后,所有類別的F1值均有提升,其中處罰類規(guī)則和允許類規(guī)則的F1值提升相對較大,分別提升1.03%和0.95%,命令類規(guī)則和其他類規(guī)則的F1值提升相對較小,分別提升0.33%和0.35%。
表5 2 種方法對不同類別管理規(guī)則實驗結果對比(F1 值)
案例分析發(fā)現,BERT 提示方法的有效性在語義特征較強、樣本數較少的類別上更為明顯。如“整合后形成的礦井只能有一套生產系統(tǒng),選用先進開采技術和先進裝備,杜絕一礦多井或一礦多坑?!?由于“杜絕”一詞在樣例中不多,BERT 方法難以提取到相關特征,在多次評估中有時將其預測為允許類規(guī)則,有時將其預測為命令類規(guī)則,而BERT提示方法則能將其正確預測為禁止類規(guī)則。再如“油氣探礦權人發(fā)現可供開采的油氣資源的,在報告有登記權限的自然資源主管部門后即可進行開采?!?句子中的2 個“可”對管理規(guī)則類別的意義不同,BERT 方法將其錯誤預測為命令類規(guī)則,BERT提示方法正確預測為允許類規(guī)則。
為進一步驗證BERT 提示方法的有效性,本文在公開數據集上進行了實驗。管理規(guī)則檢測任務場景具有2 個主要特點:(1)數據量不夠充足;(2)管理規(guī)則具有道義模態(tài),但道義詞存在缺失、模糊和歧義情形,需要深層語義理解。由于缺乏管理規(guī)則檢測公開數據集,本文選擇與管理規(guī)則檢測場景相對接近的ChnSentiCorp 數據集[27]和垃圾短信檢測數據集[28]進行實驗。
本文重點對比了BERT 提示方法和常規(guī)BERT方法在分類任務上的性能,其中BERT 提示方法分別構建硬提示、軟提示2 類提示模板。采用準確率作為性能評估指標,準確率為采用10 個隨機種子進行10 次評估的平均值。
(1)ChnSentiCorp 數據集上的實驗。該數據集為經典的句子級情感分類數據集,訓練集、開發(fā)集、測試集大小分別為9600、1200、1200,包含積極、消極2 個類別。文獻[19]實驗顯示,在此類情感極性分類任務上將標簽信息融入BERT 的方法難以發(fā)揮作用。
表6 為在ChnSentiCorp 數據集上的評估結果,BERT 提示方法的準確率均高于BERT 方法,其中軟提示模板帶來的提升更大。
表6 在ChnSentiCorp 數據集上的實驗結果
(2)垃圾短信檢測數據集上的實驗。本文從“帶標簽短信”中隨機采樣5000 個正常短信和5000個垃圾短信,按8 ∶1 ∶1 的比例劃分為訓練集、開發(fā)集、測試集。
表7 為在垃圾短信檢測數據集上的評估結果,BERT 提示方法的準確率同樣高于BERT 方法,其中硬提示模板帶來的提升更大。但如果將提示模板改為“垃圾信息[MASK]:”,則準確率只有0.988 40,反而略低于BERT 方法。這顯示需要合理構建提示模板才能充分發(fā)揮BERT 提示方法的作用。
表7 在垃圾短信檢測數據集上的實驗結果
在2 個公開數據集上的實驗結果表明,本文提出的BERT 提示方法依然有效。
本文提出了基于BERT 提示的礦產資源管理規(guī)則檢測新方法。該方法未改變BERT 的原始網絡結構,僅對模型輸入層和輸出分類層進行改造,幾乎不增加計算量。通過引入帶有[MASK]標記和管理規(guī)則信息的提示模板,一定程度上彌合了BERT 預訓練和下游任務之間的不一致性,可以充分發(fā)揮掩碼語言模型的自編碼優(yōu)勢,更好地利用標簽信息。在分類輸出層,放棄使用 [CLS] 隱向量而采用[MASK]隱向量進行分類預測,可以激發(fā)BERT 模型更好地提取與管理規(guī)則相關的文本特征,從而進一步提高檢測精度。在礦產資源管理規(guī)則數據集上的廣泛實驗結果表明,本文所提方法優(yōu)于已有方法,而且在處理樣本不均衡問題以及模型穩(wěn)定性上更具優(yōu)勢。在公開數據集上的進一步實驗結果也顯示了本文方法的有效性,可以為相關工作提供參考和借鑒。