戴一成 張康林
關(guān)鍵詞:產(chǎn)業(yè)政策;預訓練語言模型;自然語言處理;關(guān)鍵要素
0 引言
政府產(chǎn)業(yè)政策是國家出于規(guī)范市場環(huán)境、推動產(chǎn)業(yè)發(fā)展目的而頒布的制度與做出的安排,科學合理地落實產(chǎn)業(yè)政策可以促進企業(yè)發(fā)展,提高國家經(jīng)濟競爭力和改善全民生活。為了給企業(yè)提供更好的發(fā)展環(huán)境,助力企業(yè)產(chǎn)業(yè)結(jié)構(gòu)升級,國家各部門、各省市近年來出臺大量針對不同行業(yè)的產(chǎn)業(yè)政策。但這些政策在實際落地過程中存在一定困難,一是企業(yè)獲取政策信息途徑較為傳統(tǒng),主要是通過政策宣講會和行業(yè)交流;二是政策傳遞不夠及時,導致企業(yè)對于政策的知曉和運用出現(xiàn)明顯“時差”;三是政策獲取完整度有限,企業(yè)對于政策理解存在碎片化,難以做到應知盡知、知其善用。因此企業(yè)需要花費大量時間精力跟蹤產(chǎn)業(yè)政策的發(fā)布,多源異構(gòu)的海量政策信息導致企業(yè)難以快速從產(chǎn)業(yè)政策中查找并定位與自身行業(yè)相關(guān)的獎勵內(nèi)容,這些問題給企業(yè)有效獲取政策獎勵造成了困擾。
目前,部分學者研究集中于運用自然語言處理方法對政策文件信息進行提取與分析。Altaweel等人[1]在生態(tài)擾動的政策響應研究中,應用自然語言處理主題建模方法對美國甲蟲暴發(fā)事件有關(guān)的政府文件進行了內(nèi)容分析??紫O5热薣2]在貨幣政策研究中引入自然語言處理方法,分別采用絕對概率和條件概率方法,分析了56篇貨幣政策報告,研究認為運用自然語言處理方法對經(jīng)濟政策信息進行提取分析,有利于指導經(jīng)濟發(fā)展。魏宇等人[3]利用自然語言處理方法對旅游交通政策進行量化分析,研究驗證了該方法適用于對分散化政策類情報信息進行分析。靳曉東等人[4]搜集了1995~2021年間股權(quán)質(zhì)押相關(guān)的政策文本,采用自然語言處理技術(shù)和網(wǎng)絡分析方法從四個發(fā)展階段研究政策的核心主題,并通過各階段主題詞共現(xiàn)網(wǎng)絡特點研究政策體系的演變特征。關(guān)海山等人[5]基于BERT模型與規(guī)則處理相結(jié)合的方法對稅收優(yōu)惠政策進行法規(guī)表示、關(guān)鍵信息提取和可視化查詢,使納稅人可以快速找到相關(guān)稅收優(yōu)惠信息,實驗結(jié)果表明,自然語言處理方法可以有效緩解稅收優(yōu)惠信息過多問題。
通過以上梳理可知,已有研究運用自然語言處理方法集中于對政策文件的主題研究與文本分析,對于關(guān)鍵要素抽取的探索較少,同時目前提出的政策文件關(guān)鍵信息抽取模型較為單一、泛化性低。針對上述問題,本文提出一種基于規(guī)則模型、文本分類模型與預訓練語言模型相結(jié)合的自然語言處理方法,實現(xiàn)對產(chǎn)業(yè)政策文件內(nèi)容進行自動化解析和關(guān)鍵要素抽取,并對結(jié)果進行可視化展示,使企業(yè)可以快速準確定位所需的政策獎勵內(nèi)容與條件。
1 研究數(shù)據(jù)與方法
1.1 數(shù)據(jù)來源
本文數(shù)據(jù)來源于31個省份的二級行政區(qū)劃政府官方網(wǎng)站,在其官方網(wǎng)站的“政策文件”板塊以“政策”為關(guān)鍵詞,進行全時段搜索相關(guān)政策文件,對查找到的每一篇政策文件還需進一步篩選,篩選規(guī)則如下:一是政策文件內(nèi)容是完整的,有標題和子標題;二是政策文件包含不同獎勵對應不同獎勵條件的內(nèi)容;三是政策文件內(nèi)容主要針對扶持企業(yè)產(chǎn)業(yè)發(fā)展和轉(zhuǎn)型升級。經(jīng)上述規(guī)則確認后,即可下載文件,最終共收集產(chǎn)業(yè)政策文件175篇,初步形成所需的產(chǎn)業(yè)政策文件庫。
1.2 研究方法
1.2.1 規(guī)則模型
規(guī)則模型目前在人工智能和其他業(yè)務領(lǐng)域都有著廣泛應用,雖然算法模型通常比規(guī)則模型精確性和魯棒性更好,能夠處理復雜非線性關(guān)系和連續(xù)變量,但規(guī)則模型通常比算法模型更簡單直觀,可解釋性強,能夠處理異常值和存在相關(guān)性的特征。因此,在實際應用中,根據(jù)不同場景和需求選擇合適的算法模型和規(guī)則模型進行結(jié)合使用,可以提高模型的性能和可靠性。
規(guī)則模型的構(gòu)建需要在一份高質(zhì)量訓練數(shù)據(jù)基礎上,逐條歸納,每學到一條規(guī)則,就將該規(guī)則覆蓋的樣本從訓練集中取出,然后用剩下的樣本訓練出另一組規(guī)則,最終以準確率為閾值,將總結(jié)出來的所有規(guī)則模型組成規(guī)則集,偽代碼如下:
本文結(jié)合正則表達式和邏輯表達式,針對政策文件的內(nèi)容結(jié)構(gòu),制定多個規(guī)則模型,對有關(guān)政策文件信息進行提取。
1.2.2 文本分類模型
文本分類模型是一種用于將文本數(shù)據(jù)分配到不同類別的機器學習方法。根據(jù)使用的技術(shù),文本分類模型可以分為傳統(tǒng)機器學習模型和深度學習模型。傳統(tǒng)機器學習模型主要基于詞袋、N-gram、TF-IDF等特征表示方法,以及貝葉斯、SVM、隨機森林、KNN等分類算法。深度學習模型主要基于神經(jīng)網(wǎng)絡結(jié)構(gòu),如textCNN、FastText、RNN、LSTM、HAN 等,以及注意力機制、膠囊網(wǎng)絡、圖神經(jīng)網(wǎng)絡等擴展技術(shù)。本文將基于詞袋模型Word2vec結(jié)合集成模型LightGBM對政策文件內(nèi)容進行分割與預測。
Word2vec是一種自然語言處理技術(shù),它使用神經(jīng)網(wǎng)絡模型來生成詞向量,即將每個詞表示為一個數(shù)值向量,而文本通過預處理、分詞、停用詞過濾等操作后,可以通過一個詞語列表表示,再對每個詞語對應的詞向量進行求和平均獲取一個向量矩陣,即可用來表示該文本的語義信息。該模型包括輸入層、隱藏層和輸出層,模型框架根據(jù)輸入輸出的不同,主要包括CBOW和Skip-gram模型,CBOW模型是通過詞的上下文預測詞,Skip-gram模型是通過詞預測上下文,兩種模型的原理如圖1所示。
LightGBM是一個基于樹的梯度提升框架,其因訓練速度快、內(nèi)存占用低、高準確率以及支持并行、分布式和GPU學習等特點,被廣泛應用于大規(guī)模數(shù)據(jù)處理。相較于XGBoost模型,LightGBM在三個方面進行了優(yōu)化,包括使用直方圖算法減少候選分裂點的數(shù)量、使用基于梯度的單邊采樣算法減少樣本數(shù)量以及使用互斥特征捆綁算法減少特征數(shù)量,不僅提升了樣本質(zhì)量還降低了模型復雜度。
1.2.3 預訓練語言模型
預訓練語言模型作為自然語言處理領(lǐng)域的核心技術(shù)之一,通過使用大量數(shù)據(jù)先訓練一個通用模型,然后運用此模型來解決特定任務,即使在少樣本甚至零樣本的情況下,也可以獲得不錯的效果。預訓練模型可以提高模型性能,節(jié)省訓練時間,并且適應低資源場景,常見的預訓練模型有Transformer、BERT、DALL-E等,其中OpenAI發(fā)布的GPT-4和Google發(fā)布的Bard都是基于Transformer預訓練模型生成。本文將采用基于Transformer模型衍生出來的BERT模型,構(gòu)建政策文件關(guān)鍵要素提取模型。相比Transformer 模型,BERT模型包含更多的Transformer block以及具有更大維度的隱藏層輸出向量。此外,BERT模型還使用了雙向編碼器,因此在文本內(nèi)容的提取效果上更符合實際需求。
綜上所述,技術(shù)結(jié)構(gòu)圖如圖2所示。
2 研究設計
2.1 構(gòu)建四項內(nèi)容提取模型
通過對政策文件內(nèi)容結(jié)構(gòu)的了解,本文制定一系列規(guī)則模型,能夠準確輸出“總政策名稱”“子政策名稱”“子政策支持項”“子政策支持項內(nèi)容”4項內(nèi)容。
具體方法如下:
第一是總政策名稱提取,從圖3可以看到,總政策名稱存在于該文件中的前三行,通過‘《》符號進行概括,更加精準存在于“關(guān)于”和“政策”關(guān)鍵詞之間,就可以根據(jù)上述三個條件制定邏輯和正則表達式進行提取。
第二是子政策名稱提取,在圖3中分別是“一、推進現(xiàn)代農(nóng)業(yè)發(fā)展”“二、加快數(shù)字農(nóng)業(yè)建設”“三、推進農(nóng)業(yè)‘雙強行動”“四、加快現(xiàn)代種業(yè)發(fā)展”“五、鼓勵農(nóng)業(yè)主體爭優(yōu)創(chuàng)先”,他們之間存在的共性是以“一、二、”這種格式存在于文章某個段落中,段落長度不會太長且關(guān)鍵詞分別是“推進、加快、鼓勵”,那么就可以根據(jù)上述三個條件制定邏輯和正則表達式進行提取。
第三是子政策支持項名稱的提取,由于圖3 展示的文件不存在子政策支持項,但由于需求,需要使用前一項的內(nèi)容進行填充,那么該政策文件的子政策支持項名稱與子政策名稱相同。
第四是子政策支持項內(nèi)容提取,由于子政策支持項內(nèi)容都是存在于子政策支持項名稱后面,所以只要定位出子政策支持項名稱的位置,再根據(jù)段落信息即可定位子政策支持項內(nèi)容的位置,即‘1.2.3.后面的段落文本為每一個子政策支持項對應的子政策支持項內(nèi)容。
經(jīng)過上述一系列的邏輯和規(guī)則,即可提取出該政策文件對應的四項內(nèi)容,當輸入一個政策文件后,通過規(guī)則模型輸出規(guī)則結(jié)果進行展示,在175 篇測試文檔中提取出四項內(nèi)容的準確率為88.75%。
經(jīng)過查看大量產(chǎn)業(yè)政策文件,根據(jù)四項內(nèi)容存在的位置以及關(guān)鍵信息,總結(jié)出如表1所示的正則表達式進行關(guān)鍵要素抽取。
2.2 構(gòu)建文本分類模型
為了將“子政策支持項內(nèi)容”中的“子政策獎勵條件”以及對應的“子政策獎勵”準確分類,需構(gòu)建文本分類模型。
首先,基于收集到的175篇產(chǎn)業(yè)政策文件,使用人工對每一篇政策文件中存在的獎勵條件和獎勵進行標注,由于構(gòu)建的文本分類模型是以一個短文本為單位進行分類預測的,即通過逗號、句號和分號將一大段文本內(nèi)容分割成一個個短句再進行使用,而對于獎勵條件和獎勵在一個短句中的文本,先將其標注為獎勵,后續(xù)將針對文本再一次構(gòu)建對應的分割模型將其分割,樣本樣例如表2所示。
整理出人工標注好的文本,計算出獎勵條件和獎勵文本個數(shù)后,以接近1∶1∶1的比例,收集部分非獎勵條件和非獎勵文本,構(gòu)建了一個包含4 023條樣本的數(shù)據(jù)集。通過對文本分類模型有關(guān)調(diào)研,本文選擇詞袋模型結(jié)合機器學習集成模型方法,在速度和準確率上都具有較高的優(yōu)勢,使用樣本集在Word2vec+light?gbm模型上進行運行發(fā)現(xiàn)其準確率較高,達到87.1%。
由于子政策支持項內(nèi)容存在于多條獎勵條件以及獎勵內(nèi)容的對應關(guān)系,為了提高兩者關(guān)聯(lián)準確性,對于輸入的一段文本內(nèi)容,首先通過分號和句號對文本內(nèi)容進行分割,再通過逗號一一分割上述分割結(jié)果,將分割短句輸入模型進行分類預測,即可成功獲取獎勵條件和獎勵內(nèi)容的對應關(guān)系。
2.3 構(gòu)建子政策獎勵條件和子政策獎勵分割模型
由于存在子政策獎勵條件和子政策獎勵內(nèi)容都在一個短文本中的樣本,為了便于企業(yè)更加直觀地理解獎勵條件與內(nèi)容,需要針對文本構(gòu)建子政策獎勵條件和子政策獎勵分割模型,將一條短文本中的子政策獎勵條件和子政策獎勵內(nèi)容分割開來,然后進行指定位置保存,整個分割保存邏輯如表3所示。
首先在構(gòu)建子政策獎勵條件和子政策獎勵文本分類模型時,對于人工標注的樣本,規(guī)定將子政策獎勵條件和子政策獎勵內(nèi)容都在一個短文本中的樣本打上屬于子政策獎勵的標簽,最終對于這樣的文本分類結(jié)果將會是無獎勵條件內(nèi)容且只存在獎勵內(nèi)容。
從175篇政策文件中發(fā)現(xiàn)了此類型樣本共存在249條,每一條文本內(nèi)容都可以通過一個名詞實體將子政策獎勵條件和子政策獎勵進行分割開來,所以構(gòu)建Bert模型進行命名實體識別,將短文本中的名詞實體識別出來后,即可定位分割位置,獲取分開的子政策獎勵條件內(nèi)容和子政策獎勵內(nèi)容,標注樣例如表4 所示。第一步是人工對249條短文本進行獎勵對象的實體標注,由于樣本數(shù)據(jù)量并不多,在命名實體識別任務中,預訓練模型transformer在小樣本數(shù)據(jù)量上也能夠取得很好的效果,所以將標注好的樣本放在transformer模型進行訓練、驗證和測試,經(jīng)過調(diào)試,訓練好的模型在該任務上的準確率為83.75%。
最終將子政策獎勵條件和子政策獎勵內(nèi)容都在一個短文本中的待分割樣本放入上述訓練好的模型中,識別出獎勵對象,然后以識別出的獎勵對象文本為分割位置,即可將上述短文本中的子政策獎勵條件和子政策獎勵分割開來,并最終將分割開來的文本填充并替換子政策獎勵條件和子政策獎勵。
3 研究結(jié)果分析
3.1 輸出json 文件
通過上述步驟成功獲取“總政策名稱”“子政策名稱”“子政策支持項”“子政策支持項內(nèi)容”“子政策獎勵條件”“ 子政策獎勵”共6 項內(nèi)容,并形成了dataframe結(jié)構(gòu),由于這6項內(nèi)容存在對應關(guān)系,而json 的樹結(jié)構(gòu)能夠?qū)⑻崛〉男畔⒏庇^地展示出來,所以設計一個將dataframe結(jié)構(gòu)轉(zhuǎn)換為json結(jié)構(gòu)的模塊,最終內(nèi)容形式如圖4所示。
3.2 構(gòu)建政策解析可視化平臺
為了便于企業(yè)優(yōu)化每一步模型結(jié)果,提高下一步模型輸出準確率,需構(gòu)建一個政策解析可視化平臺,如圖5所示。
該平臺支持用戶批量上傳docx、doc兩種政策文件類型,上傳的文件將在下方形成對應的文件列表,每一個文件支持6大功能。第一是可以查看原文;第二是政策分層,可以使用“總政策名稱”“子政策名稱”“子政策支持項”“子政策支持項內(nèi)容”四列內(nèi)容提取模型,將這四列內(nèi)容從非結(jié)構(gòu)化文件中提取出來;第三是可以查看政策分層的結(jié)果,如圖6所示,可以讓用戶對政策分層的結(jié)果進行修改優(yōu)化,提升政策分層結(jié)果的準確率;第四是對上述結(jié)果形成的json文件提供下載接口,通過json文件可查看“子政策獎勵條件”“子政策獎勵”兩項內(nèi)容;第五是提供對文件刪除的功能;第六是用戶可以將解析結(jié)果不滿意的文件上傳到待優(yōu)化文件數(shù)據(jù)庫中,后期可以定期查看這類型文件,進而優(yōu)化解析模型。
4 研究結(jié)論
本文通過構(gòu)建規(guī)則模型、文本分類模型與預訓練語言模型結(jié)合的自然語言處理方法,對175篇產(chǎn)業(yè)政策文件進行結(jié)構(gòu)化自動解析研究,同時對解析結(jié)果進行可視化展示,驗證了規(guī)則模型融合文本分類模型與預訓練語言模型在產(chǎn)業(yè)政策文件解析研究中的適用性,完成了由非結(jié)構(gòu)化產(chǎn)業(yè)政策文件內(nèi)容到結(jié)構(gòu)化產(chǎn)業(yè)政策關(guān)鍵要素數(shù)據(jù)模式的轉(zhuǎn)換。同時,本文研究開發(fā)了產(chǎn)業(yè)政策文件關(guān)鍵要素可視化展示平臺,企業(yè)不僅可以通過該平臺人工矯正模型結(jié)果,還可以查詢與自身行業(yè)相關(guān)的獎勵政策,改善企業(yè)的經(jīng)營環(huán)境。
最后,本文僅運用自然語言處理技術(shù)對產(chǎn)業(yè)政策文件的“總政策名稱”“子政策名稱”“子政策支持項”“子政策支持項內(nèi)容”“子政策獎勵條件”以及“子政策獎勵”進行了提取研究,而對于獎勵條件更精準的企業(yè)定位還未做分析,未來可針對獎勵條件的定位標簽,進行更多拓展性的研究,為相關(guān)政策研究人員以及企業(yè)提供更多便利。