亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT模型的科技政策文本分類研究*

        2022-03-11 09:17:36沈自強(qiáng)李曄丁青艷王金穎白全民
        數(shù)字圖書館論壇 2022年1期
        關(guān)鍵詞:分類政策文本

        沈自強(qiáng) 李曄 丁青艷 王金穎 白全民

        (1. 齊魯工業(yè)大學(xué)(山東省科學(xué)院)經(jīng)濟(jì)與管理學(xué)部,濟(jì)南 250014;2. 山東省科技發(fā)展戰(zhàn)略研究所,濟(jì)南 250014;3. 山東省計算中心(國家超級計算濟(jì)南中心),濟(jì)南 250014)

        十九屆五中全會通過的《中共中央關(guān)于制定國民經(jīng)濟(jì)和社會發(fā)展第十四個五年規(guī)劃和二〇三五年遠(yuǎn)景目標(biāo)的建議》中強(qiáng)調(diào)“完善國家創(chuàng)新體系,加快建設(shè)科技強(qiáng)國”[1]??萍颊呤墙ㄔO(shè)科技強(qiáng)國的重要保障,科技政策文本是體現(xiàn)政策工具的主要載體。黨的十八大提出創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略后,我國日益重視自主創(chuàng)新工作,各部門圍繞科技創(chuàng)新工作密集出臺了大量科技政策文件。然而,頻繁的政策發(fā)布,使得政策文本的數(shù)據(jù)量越來越大,對政策文本進(jìn)行篩選、分析的人力成本激增[2]。通過分析發(fā)現(xiàn),這些科技政策由不同政府部門在不同的時間發(fā)出,分布在不同的政務(wù)網(wǎng)站上,但由于缺少高效的信息處理手段,高校院所、企業(yè)、科技人才等創(chuàng)新主體在配對合適自己的科技政策時存在成本高、耗時久,乃至找不到的困難,影響了科技政策的實施效果。因此,有必要預(yù)先為科技政策文本合理地設(shè)定分類標(biāo)簽,從而提高檢索和配對的效率,幫助各類創(chuàng)新主體找到與自身需求相關(guān)的科技政策信息。

        在政府政務(wù)信息化、智慧化轉(zhuǎn)型趨勢下,大數(shù)據(jù)賦能的政策信息的智能查詢、匹配、推送等個性化服務(wù)需求日益凸顯。自然語言處理、深度學(xué)習(xí)等計算機(jī)信息技術(shù)的快速發(fā)展為滿足這一需求提供了條件。但是在政策文本挖掘領(lǐng)域,許多新技術(shù)的應(yīng)用仍處于探索階段,并且由于政策文本的長短不一、信息密度大、分類體系不統(tǒng)一等特點,研究人員在借助信息技術(shù)手段對政策文本進(jìn)行自動分類時會遇到困難,尚未形成得到廣泛認(rèn)可的技術(shù)方案。針對上述情況,本文以科技政策為出發(fā)點,采用谷歌公司AI團(tuán)隊在2018年發(fā)布的預(yù)訓(xùn)練語言表示模型——BERT(Bidirectional Encoder Representations from Transformers)模型[3],結(jié)合關(guān)鍵詞提取技術(shù),融合政策標(biāo)題與關(guān)鍵詞信息作為模型訓(xùn)練語料,對科技政策文本進(jìn)行自動分類研究,從而實現(xiàn)更加準(zhǔn)確快速的科技政策文本歸類,降低人力成本,助力政務(wù)大數(shù)據(jù)發(fā)展。

        1 相關(guān)研究

        科技政策是由國家或地方政府機(jī)構(gòu)為促進(jìn)經(jīng)濟(jì)社會發(fā)展,基于社會需求在不同階段制定頒布的,一系列用于規(guī)制和激勵全社會從事知識發(fā)現(xiàn)、積累,以及應(yīng)用于技術(shù)創(chuàng)新行為的政策集合,包括規(guī)劃計劃、法規(guī)條例、決定、辦法、措施,以及相應(yīng)的實施細(xì)則、意見建議等[4]。近年來,中國進(jìn)入了科技政策頒布的密集期,出臺了一系列促進(jìn)科技發(fā)展的配套政策。對于科技政策的分類可以從多個角度進(jìn)行劃分。從政策的發(fā)文機(jī)構(gòu)來看,涉及國務(wù)院、科技部、工信部、財政部、商務(wù)部、國稅局等,以及各地方政府機(jī)構(gòu)[4];從政策針對的創(chuàng)新主體來看,涉及企業(yè)、高校院所、科技人才、科技中介、創(chuàng)新平臺、產(chǎn)學(xué)研聯(lián)合體等[5];從政策涉及的領(lǐng)域來看,涉及第一產(chǎn)業(yè)、第二產(chǎn)業(yè)和第三產(chǎn)業(yè)[6]。目前對科技政策的研究通常采用政策工具視角下的分類方式,將科技政策劃分為供給型政策(人才支持、資金支持、技術(shù)支持、基礎(chǔ)設(shè)施建設(shè)等)、環(huán)境型政策(法規(guī)管制、目標(biāo)規(guī)劃、金融支持、稅費減免、知識產(chǎn)權(quán)等)和需求型政策(政府采購、外包、貿(mào)易管制、海外機(jī)構(gòu)管理等)三大類[7-8]。

        文本分類是指從原始文本數(shù)據(jù)中提取特征,并基于這些特征預(yù)測文本數(shù)據(jù)的類別,作為有效的信息檢索和挖掘技術(shù),其在管理文本數(shù)據(jù)中起著至關(guān)重要的作用[9]。傳統(tǒng)機(jī)器學(xué)習(xí)方法如樸素貝葉斯、支持向量機(jī)等技術(shù)表現(xiàn)出的分類效果相對較差[10]。隨著深度學(xué)習(xí)的發(fā)展,文本的表征方式從空間向量模型發(fā)展到word2vec詞向量模型,基于FastText、CNN、RNN、LSTM等神經(jīng)網(wǎng)絡(luò)語言模型的文本分類技術(shù)得到廣泛應(yīng)用,并涌現(xiàn)出各種變體[11],隨后ELMo、BERT等通用預(yù)訓(xùn)練語言模型的出現(xiàn)有效提高了文本分類等自然語言處理任務(wù)的實驗效果。目前,針對中文文本分類任務(wù)的研究主要包括社交文本的情感分析[12-13]、新聞文本的分類任務(wù)[14-15]和專利的自動分類[16]等。在政策文本分類領(lǐng)域,楊銳等[17]將能源政策劃分為投資開發(fā)與建設(shè)類、科技與產(chǎn)業(yè)裝備類、安全生產(chǎn)管理類和市場調(diào)節(jié)與監(jiān)管類,通過Doc2Vec提取主題信息并將其融入卷積神經(jīng)網(wǎng)絡(luò)的方法有效提升了自動文本分類的效果。胡吉明等[18]從政策涉及的產(chǎn)業(yè)領(lǐng)域角度進(jìn)行分類,利用LDA模型和改進(jìn)的TextRank模型增強(qiáng)政策文本的表示效果,采用CNN-BiLSTM-Attention的集成模型來提升政策文本分類的效果和準(zhǔn)確度。張雨等[19]在科技政策知識圖譜研究中根據(jù)政策內(nèi)容訓(xùn)練Bi-LSTM模型對科技政策文本進(jìn)行情感分類,將政策文本按照句子級別劃分扶持型、禁止型、普通型三類。雖然上述研究人員開始嘗試將深度學(xué)習(xí)的技術(shù)應(yīng)用在政策文本領(lǐng)域以達(dá)到批量自動分類的目的,但由于政策文本具有結(jié)構(gòu)復(fù)雜、信息密度大且內(nèi)涵分布不均衡等特點,因此,這樣的研究仍然較少。此外,已有研究在政策分類的標(biāo)簽劃分上較為簡單,在文本的特征提取上也沒有應(yīng)用BERT、XLNet等新興起的預(yù)訓(xùn)練語言模型,對文本語義的理解還有待提升。

        通過對各類科技政策文本進(jìn)行深入解讀后發(fā)現(xiàn),政策文本的語義特征是其重要特征之一[20],如“組織開展離岸創(chuàng)新人才認(rèn)定和引才用才補貼申請工作的通知”,這個標(biāo)題中涉及了人才和資金支持兩個方面,從政策語義來說,其表達(dá)的含義是人才認(rèn)定和人才激勵,因此屬于人才支持類的政策。BERT模型具有較強(qiáng)的文本語義理解能力,在訓(xùn)練過程中可以更好地獲得了一個句子的語義表達(dá)[21]。段瑞雪等[22]將BERT模型應(yīng)用于文本分類、機(jī)器閱讀理解和文本摘要3個下游任務(wù)中,并通過對比實驗展示了BERT模型的優(yōu)越性。因此,本研究從科技政策文本出發(fā),在梳理過往分類標(biāo)準(zhǔn)和分析科技政策文本特點的基礎(chǔ)上,結(jié)合BERT深度學(xué)習(xí)模型,對8 761條科技政策文本進(jìn)行分類研究,提取出9個目標(biāo)類別進(jìn)行實驗,融合科技政策標(biāo)題和關(guān)鍵詞作為訓(xùn)練語料訓(xùn)練模型,以提升分類實驗的準(zhǔn)確度,實現(xiàn)科技政策文本的自動分類。

        2 研究思路

        2.1 研究框架

        基于BERT深度學(xué)習(xí)模型的科技政策文本分類方法的研究框架如圖1所示,主要包括科技政策文本數(shù)據(jù)采集與預(yù)處理、科技政策文本關(guān)鍵詞提取、科技政策文本分類訓(xùn)練三個環(huán)節(jié)。首先采集科技政策文本數(shù)據(jù),確定分類維度并進(jìn)行人工標(biāo)注,再對科技政策文本數(shù)據(jù)進(jìn)行清洗,得到樣本數(shù)據(jù);接著對科技政策的正文文本進(jìn)行關(guān)鍵詞提取,將關(guān)鍵詞拼接在政策標(biāo)題后面作為訓(xùn)練文本,形成數(shù)據(jù)集;最后對3個實驗數(shù)據(jù)集劃分訓(xùn)練集和測試集,構(gòu)建BERT模型,分別進(jìn)行實驗,并對實驗結(jié)果進(jìn)行對比分析。

        圖1 科技政策文本分類框架圖

        2.2 理論模型

        本文采用BERT模型對科技政策文本進(jìn)行特征提取并自動分類。BERT模型的結(jié)構(gòu)由多層Transformer模型組成,用于文本的特征提取。Transformer的核心是注意力機(jī)制,其核心思想是計算一個句子中的每個詞與這句子中所有詞的相互關(guān)系,并認(rèn)為詞與詞之間的相互關(guān)系在一定程度上反應(yīng)了這句話中不同詞之間的關(guān)聯(lián)性和重要程度,再利用這些相互關(guān)系來調(diào)整每個詞的重要性(權(quán)重)就可以獲得每個詞的新表征。這個新表征既包含了該詞本身,還包含了其他詞與這個詞的關(guān)系,因此模型能夠獲得詞語的上下文語義信息。

        BERT模型由兩個階段組成,第一階段是模型在大量通用語料上的預(yù)訓(xùn)練過程,可以學(xué)習(xí)到通用的語義信息;第二階段是模型在專業(yè)語料庫上的微調(diào)過程,能夠得到專業(yè)領(lǐng)域內(nèi)的語義新特征,從而在具體任務(wù)中有良好的表現(xiàn)。

        2.3 算法流程

        基于BERT模型的科技政策文本分類算法運行流程總體上分為數(shù)據(jù)讀入、特征轉(zhuǎn)化、模型構(gòu)建和模型運行4個步驟。①讀入準(zhǔn)備好的科技政策文本實驗數(shù)據(jù)集,每一條數(shù)據(jù)按照文本、tab分隔符、標(biāo)簽的形式存儲在文檔中;②將讀入的數(shù)據(jù)轉(zhuǎn)化為特征向量的形式,并記錄到TFRecord格式文件中,特征向量包含字向量、分段向量和位置向量3個部分;③創(chuàng)建和配置BERT模型,讀取TFRecord格式文件并將特征向量轉(zhuǎn)化成標(biāo)準(zhǔn)的模型輸入,這一步主要通過BERT的Transformer層來實現(xiàn);④根據(jù)設(shè)置好的參數(shù)運行構(gòu)建好的模型,用訓(xùn)練集的標(biāo)準(zhǔn)輸入進(jìn)行訓(xùn)練,用測試集的標(biāo)準(zhǔn)輸入進(jìn)行評估,輸出分類結(jié)果。

        3 實驗過程

        3.1 數(shù)據(jù)采集與預(yù)處理

        本文實驗的科技政策數(shù)據(jù)來源于國家中小企業(yè)政策信息發(fā)布平臺[23]和其他相關(guān)機(jī)構(gòu)網(wǎng)站,采用網(wǎng)絡(luò)爬蟲技術(shù)和八爪魚軟件進(jìn)行科技政策采集,共采集科技政策10 388條。對采集的科技政策數(shù)據(jù)進(jìn)行預(yù)處理,清除空值、去重、去除掉各種與科技政策內(nèi)容無關(guān)的信息。通過專家討論并借鑒過往文獻(xiàn)[6]的分類標(biāo)準(zhǔn),在需求型、供給型和環(huán)境型下確定科技政策分類類別。由于需求型政策數(shù)量較少,而對類別不均衡數(shù)據(jù)分類不是本文研究的重點,因此從供給型和環(huán)境型兩個方面提取出9個目標(biāo)類別對科技政策完成了人工標(biāo)注,共計8 761條,如表1所示。

        表1 9類政策文本數(shù)量分布

        3.2 關(guān)鍵詞提取

        由于科技政策文本篇幅較長,不利于分類模型的訓(xùn)練[18],往往需要提取出用于分類的關(guān)鍵信息,而關(guān)鍵詞是對政策信息最大限度的濃縮,因此本文通過TextRank算法[24-25]以及TF-IDF算法[26]提取科技政策文本的關(guān)鍵詞,將兩種方法提取的關(guān)鍵詞分別拼接在政策標(biāo)題后面作為實驗數(shù)據(jù)集。在采用兩種算法進(jìn)行科技政策文本關(guān)鍵詞提取時,所提取的關(guān)鍵詞數(shù)量值均設(shè)置為20。

        3.3 分類實驗設(shè)置

        本文通過Tensorflow深度學(xué)習(xí)框架實現(xiàn)BERT科技政策文本多分類任務(wù),按照4:1的比例將科技政策文本數(shù)據(jù)集劃分為訓(xùn)練集和測試集。模型運行時加載的預(yù)訓(xùn)練語言模型是BERT官方的BERT-Base-Chinese模型,該模型的Transformer共有12層,詞向量維度為768維,多頭注意力機(jī)制參數(shù)是12,其他實驗參數(shù)設(shè)置如表2所示。在BERT模型上進(jìn)行3次實驗,實驗1對科技政策標(biāo)題數(shù)據(jù)集進(jìn)行實驗;實驗2將科技政策標(biāo)題與TextRank算法提取出的關(guān)鍵詞拼接后輸入BERT模型進(jìn)行實驗;實驗3將科技政策標(biāo)題與TF-IDF算法提取出的關(guān)鍵詞拼接后輸入BERT模型進(jìn)行實驗。

        表2 實驗參數(shù)設(shè)置

        此外,為了驗證BERT模型的有效性并比較不同深度學(xué)習(xí)模型在科技政策文本分類上的效果,選取FastText、LSTM-Attention、TextCNN 3個模型進(jìn)行對比試驗。將所采集到的全部科技政策文本作為語料庫,利用word2vec訓(xùn)練文本詞向量,詞向量維度為300維,對訓(xùn)練文本加載訓(xùn)練好的詞向量模型進(jìn)行科技政策文本的向量表示,分別輸入上述3個模型中進(jìn)行分類實驗,每個批次的訓(xùn)練樣本數(shù)及最大句子長度與BERT模型做相同設(shè)置,模型訓(xùn)練次數(shù)epochs均設(shè)置為20,dropout率均為0.5,損失函數(shù)采用交叉熵?fù)p失函數(shù),激活函數(shù)采用softmax,最后對不同模型的分類結(jié)果進(jìn)行對比分析。

        4 實驗結(jié)果與對比分析

        對于科技政策文本分類的效果采用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1值4個指標(biāo)進(jìn)行評價[27],全部實驗結(jié)果如表3所示。

        表3 實驗結(jié)果%

        對比4種深度學(xué)習(xí)模型的實驗結(jié)果可以看出,基于BERT模型的科技政策文本分類效果最好,各個指標(biāo)結(jié)果均優(yōu)于其他模型,除BERT模型之外,TextCNN模型在科技政策文本分類效果上也有較好的表現(xiàn),各評價指標(biāo)也超過了90%,相比TextCNN模型,LSTM-Attention模型的分類結(jié)果則較差,而FastText模型的表現(xiàn)是最差的,由此得出模型分類結(jié)果為“BERR>TextCNN>LSTMAttention>FastText”,可以驗證BERT模型在科技政策文本分類上的優(yōu)越性。此外,在每個模型上,將兩種算法提取出的政策關(guān)鍵詞與政策標(biāo)題拼接后作為訓(xùn)練文本進(jìn)行訓(xùn)練時,分類效果在總體上均有所提升,這種提升在FastText模型上最為明顯。將TFIDF算法提取出的政策關(guān)鍵詞與標(biāo)題進(jìn)行融合后的分類實驗效果均為最佳,在BERT模型上融合標(biāo)題和TF-IDF關(guān)鍵詞進(jìn)行訓(xùn)練時的準(zhǔn)確率和F1值能夠達(dá)到94.41%和94.59%,是最佳實驗,比僅使用標(biāo)題進(jìn)行訓(xùn)練時準(zhǔn)確率和F1值分別提升了1.21個百分點和1.38個百分點。由此得出訓(xùn)練文本的分類結(jié)果為“Title+TF-IDF>Title+TextRank>Title”,可以驗證科技政策文本關(guān)鍵詞能夠作為重要信息指導(dǎo)模型進(jìn)行分類,TF-IDF關(guān)鍵詞比TextRank關(guān)鍵詞更具有指導(dǎo)意義。

        在BERT模型中,采用標(biāo)題融合TF-IDF關(guān)鍵詞進(jìn)行訓(xùn)練時的分類效果是最佳的,每個政策類別的分類結(jié)果如圖2所示??梢钥闯觯叭瞬胖С帧薄岸愘M減免”和“目標(biāo)規(guī)劃”3個類別的分類效果最好,其F1值均超過了95%;“創(chuàng)新平臺建設(shè)”“知識產(chǎn)權(quán)”和“技術(shù)支持”3個類別次之;“法規(guī)管制”“金融支持”“資金支持”3個類別的分類效果較差,但各評價指標(biāo)在90%左右,其中“法規(guī)管制”分類效果較差,因為其作為常用的政策工具,經(jīng)常用于規(guī)范科技創(chuàng)新的各個領(lǐng)域,容易與其他政策類別相重合,出現(xiàn)分類錯誤的可能性較大。總的來看,在BERT模型上,融合標(biāo)題與TF-IDF關(guān)鍵詞的方法能夠較為準(zhǔn)確地實現(xiàn)對科技政策文本的自動分類。

        圖2 各政策類別的分類結(jié)果

        5 結(jié)論與展望

        隨著信息技術(shù)的發(fā)展,政務(wù)大數(shù)據(jù)研究成為熱點方向。通過大數(shù)據(jù)技術(shù)賦能政策文本的查詢、匹配、推送等智能化服務(wù)的基礎(chǔ)步驟之一就是實現(xiàn)政策文本的自動分類。本文為政策領(lǐng)域的文本分類提供了參考實例,在政策工具視角下提出一種基于BERT模型和關(guān)鍵詞提取技術(shù)相結(jié)合的科技政策文本分類方法,致力于大量科技政策文本的自動分類,得出如下結(jié)論:首先,在FastText、LSTM-Attention、TextCNN、BERT 4個模型的對比實驗中,驗證了BERT模型在科技政策文本分類領(lǐng)域上的優(yōu)越性;然后,通過TF-IDF算法和TextRank算法對政策正文進(jìn)行關(guān)鍵詞提取,將關(guān)鍵詞與政策標(biāo)題進(jìn)行拼接融合后進(jìn)行分類訓(xùn)練有效提升了分類效果,證實了政策文本關(guān)鍵詞對科技政策文本分類具有指導(dǎo)意義,且TF-IDF關(guān)鍵詞的指導(dǎo)意義更大;最后,該方法實現(xiàn)了對科技政策文本較為準(zhǔn)確的自動分類,最佳實驗的準(zhǔn)確率和F1值能夠達(dá)到94.41%和94.59%,在“人才支持”“稅費減免”和“目標(biāo)規(guī)劃”3個政策類別上的識別效果最好。然而本文依然存在一些不足之處,缺少對政策類別分布不均衡這一問題的考慮,以及如何較為完整地提取政策文本的關(guān)鍵內(nèi)容還有待深入研究。

        政策文本自動分類具有廣闊的發(fā)展空間和應(yīng)用前景,未來可以往兩個方面進(jìn)行拓展。一是制定政策分類標(biāo)準(zhǔn)體系,構(gòu)建專業(yè)的政策分類語料庫。目前分類標(biāo)準(zhǔn)不清晰和語料庫建設(shè)成本的局限,使政策文本自動分類的維度是片面的、低實用性的,難以滿足政策分析者的需要,因此需要加強(qiáng)跨學(xué)科合作,注重分類標(biāo)準(zhǔn)與應(yīng)用背景的結(jié)合,構(gòu)建適用于政策文本分類的專用語料庫,為技術(shù)發(fā)展提供基礎(chǔ)條件。二是將深度學(xué)習(xí)與自然語言處理技術(shù)在政策文本分類領(lǐng)域做進(jìn)一步拓展。根據(jù)政策的文本特點,引入和開發(fā)新興技術(shù),需要探究多任務(wù)和多標(biāo)簽的文本分類技術(shù)、長文本分類技術(shù)等在政策分類上的應(yīng)用,搭建智能政策服務(wù)平臺,以滿足政府、企業(yè)、高校院所和科技人才等創(chuàng)新主體對前沿政策信息的獲取與捕捉。

        猜你喜歡
        分類政策文本
        政策
        政策
        分類算一算
        助企政策
        政策
        華人時刊(2019年21期)2019-11-17 08:25:07
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        亚洲AV秘 无码一区二p区三区| 九九99久久精品国产| 国产亚洲精品av一区| 末成年人av一区二区| 中国美女a级毛片| 国产成人精品无码一区二区老年人 | 色偷偷亚洲av男人的天堂| 一区二区三区在线观看视频| 精品国产免费一区二区久久| 亚洲av男人的天堂一区| 曰韩内射六十七十老熟女影视 | 国产资源在线视频| 国产粉嫩嫩00在线正在播放| 亚洲一区二区女优视频| 日韩中文字幕久久久老色批| 校园春色综合久久精品中文字幕| 免费无遮挡无码永久视频| 欧美性性性性性色大片免费的| 国产另类综合区| 人妻无码ΑV中文字幕久久琪琪布| 青青草原亚洲在线视频| 国产二区中文字幕在线观看| 黄污在线观看一区二区三区三州| 亚洲va韩国va欧美va| 99久久综合精品五月天| 最新四色米奇影视777在线看| 亚洲日韩精品久久久久久| av一区二区不卡久久| 自拍偷自拍亚洲一区二区| 中文无码伦av中文字幕| 亚洲av无码不卡久久| 91美女片黄在线观看| 亚洲国产精品成人一区二区在线| 国产精品毛片va一区二区三区| 艳妇乳肉豪妇荡乳av无码福利 | 人妻av在线一区二区三区| 亚洲综合av大全色婷婷| 99久久免费只有精品国产| 国产精品黄在线观看免费软件| 国产欧美日韩综合一区二区三区| 久久精品国产亚洲av桥本有菜|