亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT模型的政策條件識(shí)別研究

        2020-05-18 02:43:35顧佳怡
        科技視界 2020年7期
        關(guān)鍵詞:準(zhǔn)確率向量條件

        顧佳怡

        摘 要

        企業(yè)想要從近年國(guó)家推出的各種惠企政策中找到適合自身的優(yōu)惠政策需要花費(fèi)大量的時(shí)間,為了節(jié)省時(shí)間成本以及實(shí)現(xiàn)惠企政策更好的推送,本文利用BERT+DNN模型的方式,使用BERT將政策文本向量化,從而賦予句子一定的含義。而后向DNN網(wǎng)絡(luò)輸送數(shù)據(jù),訓(xùn)練出分類模型使其能夠自動(dòng)識(shí)別政策文件中企業(yè)申領(lǐng)補(bǔ)貼所要達(dá)到的條件。在僅僅解讀了166篇文件的情況下,最終得出大多數(shù)分類的準(zhǔn)確率都達(dá)到了80%以上,而且可知DNN所獲取的訓(xùn)練數(shù)據(jù)越多,分類就會(huì)越準(zhǔn)確。更精準(zhǔn)的模型能夠節(jié)省很大時(shí)間成本與人力成本解讀政策并且為后續(xù)任務(wù)提供支持。

        關(guān)鍵詞

        自然語(yǔ)言處理;TF-IDF;Single-Pass聚類;熱點(diǎn)問(wèn)題提取

        中圖分類號(hào): ?F626;TP391.1 ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A

        DOI:10.19694/j.cnki.issn2095-2457.2020.07.093

        0 引言

        近幾年國(guó)家推出許多惠企政策,用以降低企業(yè)經(jīng)營(yíng)負(fù)擔(dān);鼓勵(lì)、扶持企業(yè)創(chuàng)辦;援助、恢復(fù)企業(yè)生產(chǎn)力等。針對(duì)不同地區(qū)、不同類型的企業(yè)會(huì)推出不同的政策;同一個(gè)政策文件中有對(duì)企業(yè)申領(lǐng)補(bǔ)貼的條件、補(bǔ)貼的項(xiàng)目、申報(bào)的材料等各字段。面對(duì)各類惠企政策,很多企業(yè)難以分散出精力去研究自身能夠獲得哪些補(bǔ)貼。為了能夠讓企業(yè)獲得更多的實(shí)惠,判定企業(yè)可以獲取哪些政策給予的補(bǔ)貼。首先要判定該企業(yè)是否滿足政策的補(bǔ)貼申領(lǐng)條件。

        本文基于福建省福州市地方政府出臺(tái)的各類政策,利用BERT模型結(jié)合DNN訓(xùn)練出的分類模型用以識(shí)別政策的中的各種條件。為后續(xù)給企業(yè)推送、政策匹配以及給企業(yè)做出政策申請(qǐng)的診斷做技術(shù)鋪墊。

        1 理論模型

        1.1 BERT模型

        使用計(jì)算機(jī)從政策中提取條件之前,首先要讓計(jì)算機(jī)識(shí)別政策中哪些字段屬于條件,BERT模型是由Google公司訓(xùn)練的,可以將字、句子進(jìn)行向量化并且賦予字向量、句子向量一定意義的模型,其最大的特點(diǎn)在于能夠在不同的語(yǔ)境賦予字不同的意義并且以句子為單位將整句話的意義融合到句子開頭的符號(hào)中。本文將用于政策中的句子輸入到BERT模型,得到可以用于后續(xù)任務(wù)的詞向量與句向量。

        1.2 DNN模型

        DNN即為深度神經(jīng)網(wǎng)絡(luò),是包含輸入層、隱藏層和輸出層的神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)會(huì)通過(guò)自身的神經(jīng)元進(jìn)行復(fù)雜的運(yùn)算,整合出輸入數(shù)據(jù)與輸出數(shù)據(jù)的關(guān)系。從而發(fā)現(xiàn)事物的特征以及事物之間的內(nèi)在關(guān)聯(lián),并以參數(shù)的形式存儲(chǔ)下來(lái)。新的數(shù)據(jù)進(jìn)入模型,根據(jù)已經(jīng)存儲(chǔ)下來(lái)的參數(shù)進(jìn)行計(jì)算可以自動(dòng)分類。

        2 政策條件識(shí)別實(shí)證研究

        2.1 研究流程

        首先收集福州工信局、福州市人民政府、福州市政府公開信息欄這三個(gè)門戶網(wǎng)站發(fā)布的政策。第二,將收集好的政策按照句子為單位拆分。第三,依據(jù)企業(yè)標(biāo)簽體系將政策中的企業(yè)申報(bào)補(bǔ)貼條件打上對(duì)應(yīng)的標(biāo)簽值。第四,將所得句子輸入到BERT模型,獲取句子的句向量。第五,將數(shù)據(jù)分為訓(xùn)練集與驗(yàn)證集,并將訓(xùn)練集輸入到DNN模型中進(jìn)行訓(xùn)練。最后利用驗(yàn)證集檢驗(yàn)?zāi)P头诸愋Ч?/p>

        2.2 數(shù)據(jù)預(yù)處理

        2.2.1 政策文件的收集與處理

        首先,本文利用網(wǎng)絡(luò)爬蟲技術(shù),收集了來(lái)自福州工信局、福州市人民政府、福州市政府公開信息欄三個(gè)政府門戶網(wǎng)站的166個(gè)政策文件。然后,設(shè)定規(guī)則將政策文件按照句字拆分并清理掉無(wú)用的符號(hào),總共得到8465句話。最后將數(shù)據(jù)輸入到GOOGLE訓(xùn)練好的專用于中文詞向量化的BERT模型中,得到句子向量化后的數(shù)據(jù)。并將數(shù)據(jù)分為訓(xùn)練集與測(cè)試集。

        2.2.2 企業(yè)標(biāo)簽的獲取

        本文設(shè)定9個(gè)維度去刻畫一家企業(yè),分別為:基礎(chǔ)信息、經(jīng)營(yíng)狀況、企業(yè)績(jī)效、企業(yè)發(fā)展、經(jīng)營(yíng)風(fēng)險(xiǎn)、知識(shí)產(chǎn)權(quán)、社會(huì)貢獻(xiàn)、輿情信息、企業(yè)法人群體。政策文件中對(duì)企業(yè)申領(lǐng)補(bǔ)貼的條件會(huì)與這9個(gè)維度的標(biāo)簽相對(duì)應(yīng)。所以政策文件中屬于申領(lǐng)補(bǔ)貼條件的句子會(huì)被打上標(biāo)簽值為1-9的標(biāo)簽;若政策文件句子不屬于任何維度則標(biāo)簽值為0。

        2.2.3 數(shù)據(jù)的分布

        整理本文得到各類條件的占比以及分類如表1。

        2.3 基于BERT模型輸出結(jié)果說(shuō)明

        本文使用的BERT模型,是由GOOGLE發(fā)布的用中文訓(xùn)練所得模型。將數(shù)據(jù)輸入模型得到每個(gè)句子的向量,輸出的結(jié)果中包含的信息如下:

        ●整個(gè)BERT模型由12層transformer構(gòu)成,本文結(jié)果從倒數(shù)第二層取出。

        ●結(jié)果中包含8465個(gè)條目,每個(gè)條目與訓(xùn)練前的句子一一對(duì)應(yīng)。

        ●每個(gè)條目中都有名為CLS的向量,其維度為768維,包含了整句話的所有信息。

        ●各條目中包含了原句的單個(gè)字的信息,每個(gè)字都被訓(xùn)練為768維度的向量。

        本文旨在從政策文件中提取出是條件的句子以及給條件分類,所以后續(xù)任務(wù)中用到擁有每個(gè)句子所有信息的CLS來(lái)進(jìn)行分類即可。

        2.4 基于DNN網(wǎng)絡(luò)分類結(jié)果分析

        得到包含政策句子的句向量后,需要搭建DNN神經(jīng)網(wǎng)絡(luò)模型進(jìn)行多分類,本文利用Python編程,使用keras深度學(xué)習(xí)框架搭建神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)的參數(shù)如下:

        ●輸入層,神經(jīng)元個(gè)數(shù)24、輸入維度768、激活函數(shù)為relu.

        ●隱藏層1,神經(jīng)元個(gè)數(shù)16、激活函數(shù)為relu.

        ●隱藏層2,神經(jīng)元個(gè)數(shù)12、激活函數(shù)為relu.

        ●輸出層,神經(jīng)元個(gè)數(shù)10、激活函數(shù)為softmax.

        隨機(jī)抽取80%的數(shù)據(jù)放入網(wǎng)絡(luò)中訓(xùn)練,剩下20%的數(shù)據(jù)對(duì)模型的結(jié)果進(jìn)行驗(yàn)證,最終得到的驗(yàn)證集結(jié)果如表2。

        從表2可以看到,各類別分類結(jié)果參差不齊。結(jié)果最好的為‘非條件類別,準(zhǔn)確率高達(dá)98.51%;結(jié)果最差的為‘輿情信息類別,準(zhǔn)確率只有63.26%;不過(guò)總體來(lái)看分類效果還不錯(cuò),除‘經(jīng)營(yíng)狀況、‘輿情信息以外其他類別的準(zhǔn)確率都在80%以上。

        并且可以很明顯的看出,準(zhǔn)確率低的類別數(shù)據(jù)量都較少,準(zhǔn)確率高的類別數(shù)據(jù)量都較大,所以有理由認(rèn)為隨著數(shù)據(jù)量的增多,政策條件識(shí)別的準(zhǔn)確率會(huì)隨之增加。

        3 結(jié)論

        本文采用的數(shù)據(jù)為福州市政府門戶網(wǎng)站的公開惠企政策,共計(jì)166個(gè),政策內(nèi)容均為文本形式。將政策文本拆分為以句為單位,利用BERT將句子轉(zhuǎn)為向量,結(jié)合DNN深度神經(jīng)網(wǎng)絡(luò)分類器對(duì)政策文本條件進(jìn)行識(shí)別得出以下結(jié)論:

        第一:人為對(duì)惠企政策進(jìn)行解讀的話文本中有的條件是可以直觀得到的,但有的條件會(huì)與別的條件產(chǎn)生耦合,個(gè)人長(zhǎng)時(shí)間對(duì)政策進(jìn)行解讀的話很容易產(chǎn)生誤判,利用機(jī)器對(duì)政策條件進(jìn)行識(shí)別會(huì)大大提高效率和準(zhǔn)確率。

        第二:機(jī)器對(duì)政策識(shí)別的準(zhǔn)確率需要大量數(shù)據(jù)的支撐,從表2的結(jié)果也可以看出,隨著數(shù)據(jù)量的增大,分類的準(zhǔn)確率也會(huì)增高。

        第三:效率的提高,如果訓(xùn)練出來(lái)的分類模型效果比較好。后續(xù)政策條件的提取就會(huì)大大節(jié)省人工成本以及時(shí)間成本。

        最后:本文將網(wǎng)絡(luò)爬蟲、數(shù)據(jù)處理、模型遷移、分類模型的搭建等技術(shù)都利用Python編程自動(dòng)化實(shí)現(xiàn)。之后可將其封裝成為一個(gè)模塊部署在政策檢索的系統(tǒng)中幫助系統(tǒng)提升性能。為后續(xù)的任務(wù)如:政策推薦、政策匹配、政策分析等提供有力的支撐。

        猜你喜歡
        準(zhǔn)確率向量條件
        向量的分解
        排除多余的條件
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        聚焦“向量與三角”創(chuàng)新題
        選擇合適的條件
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        為什么夏天的雨最多
        向量垂直在解析幾何中的應(yīng)用
        麻麻张开腿让我爽了一夜| 日产国产精品亚洲高清| 青青草在线免费视频播放| 亚洲热妇无码av在线播放| 亚洲av色福利天堂| 日本国产在线一区二区| 高清在线有码日韩中文字幕| 国产精品久久久久高潮| 国产在线精品一区二区三区不卡| 国产中文字幕乱码在线| 白色白色白色在线观看视频| 亚洲综合图色40p| 男女啪啪永久免费观看网站| 日韩精品欧美激情亚洲综合| 精品国产亚洲av久一区二区三区| 日韩欧美一区二区三区免费观看| 亚洲精品午睡沙发系列| 五月天综合社区| 人妻体体内射精一区中文字幕| 国产亚州精品女人久久久久久| 国产成人av免费观看| 国产成人福利在线视频不卡| 成人大片在线观看视频| 中文字幕日韩三级片| 天堂а√在线最新版中文| 国产三级黄色片子看曰逼大片| 亚洲中文字幕九色日本| 无人区一码二码三码四码区 | 性刺激的大陆三级视频| 草莓视频成人| 国产在线精品亚洲视频在线| 久久伊人这里都是精品| 成人h视频在线观看| 国产午夜激情视频自拍| 成人国产高清av一区二区三区 | 人妻丰满熟妇av无码区| 国产精品亚洲欧美天海翼| 69精品人妻一区二区| 狠狠色狠狠色综合网| 欧美国产日本高清不卡| 女人被躁到高潮嗷嗷叫|