基于WordBERT 和BiLSTM 的政策工具自動(dòng)分類方法研究

2023-07-01 12:44:12霍朝光霍帆帆王婉如余芊蓉楊冠燦

圖書情報(bào)知識(shí) 2023年3期

霍朝光霍帆帆王婉如余芊蓉楊冠燦

1 引言

政策工具（Policy Tools/ Policy Instruments，又稱政府工具、治理工具）是指在國(guó)家治理過程中，政府為實(shí)現(xiàn)政策目標(biāo)，將其行政理念轉(zhuǎn)為切實(shí)行動(dòng)的手段和方法，是政府發(fā)揮引導(dǎo)、規(guī)范、提倡、支持、約束、防止、懲罰等作用的具體措施[1]。政策工具集中體現(xiàn)在國(guó)家發(fā)布的政策文件中，是政策文本分析和研究的重要維度。例如以“政策工具”為主題詞，在北京大學(xué)核心期刊目錄和南京大學(xué)核心期刊目錄CNKI數(shù)據(jù)庫(kù)中檢索，可以發(fā)現(xiàn)自2011年以來共計(jì)發(fā)文3,842篇，2020年、2021年發(fā)文均在500篇以上。關(guān)于政策工具的研究呈逐年上升的趨勢(shì)，其研究體量和增長(zhǎng)趨勢(shì)如圖1所示。

圖1 政策工具相關(guān)研究統(tǒng)計(jì)Fig.1 The Statistics of Research Related to Policy Tools

任何領(lǐng)域或行業(yè)政策都需要分析其使用的政策工具。關(guān)于政策工具分析的需求，幾乎覆蓋科技、金融[2]、環(huán)境[3]、氣候[4]、衛(wèi)生[5]、醫(yī)藥、生物、教育[6]、養(yǎng)老等所有行業(yè)和領(lǐng)域。例如黃萃等對(duì)我國(guó)69份少數(shù)民族雙語(yǔ)教育政策進(jìn)行了手工分類，分析了能力建設(shè)工具、象征和勸誡工具、權(quán)威工具、激勵(lì)工具和系統(tǒng)變革等政策工具的使用情況[7]。孫建軍等對(duì)我國(guó)131份智慧城市政策中的政策工具進(jìn)行了手工分類，基于R-Z框架對(duì)其中的供給型、環(huán)境型、需求型政策工具進(jìn)行了分析，基于Doelen框架對(duì)其中的管制規(guī)制類、激勵(lì)誘因類、信息交互類等政策工具進(jìn)行了分析[8]。盧小賓等對(duì)我國(guó)278份信息公開核心政策進(jìn)行政策工具分類，對(duì)供給型、環(huán)境型、需求型等下屬的二級(jí)政策工具的使用情況進(jìn)行了分類和分析[9]。張薷等對(duì)我國(guó)30份應(yīng)急信息管理政策進(jìn)行政策工具分類和分析[10]。林德明等通過專家咨詢等手工分類的方式，從三份知識(shí)產(chǎn)權(quán)戰(zhàn)略綱領(lǐng)性文件和九份國(guó)家知識(shí)產(chǎn)權(quán)戰(zhàn)略的年度推進(jìn)計(jì)劃中析出政策工具，并將政策工具和戰(zhàn)略目標(biāo)文本分別進(jìn)行向量表示，嘗試通過語(yǔ)義相似度計(jì)算來實(shí)現(xiàn)政策工具與戰(zhàn)略目標(biāo)的自動(dòng)匹配[11]。

政策工具是政策量化分析的重要版塊，然而現(xiàn)有的政策工具分類（如圖2所示）仍存在諸多不足。其一，政策工具分類工作仍停留在手工處理階段，以我國(guó)核心期刊近5年數(shù)據(jù)為例，在662篇政策工具分類研究中，政策工具的分類工作幾乎全部都是由手工分類完成（統(tǒng)計(jì)時(shí)間2022年4月22日）。其二，雖然多人協(xié)同手工分類工作通常以Cohen]s kappa系數(shù)[12]、Holsti一致性百分比[13]等為依據(jù)，判斷不同分類者對(duì)同一段文本獨(dú)立分類的一致性，但是仍然可以發(fā)現(xiàn)不同分類工作信度參差不齊，信度為82%、88.%、92.7%、95.63%等各種情況均有出現(xiàn)，以80%的信度閾值判斷分類工作的合理性仍存在一定爭(zhēng)議。其三，手工分類無法避免認(rèn)知偏差，即使具有較高專業(yè)素養(yǎng)的人員依然會(huì)存在認(rèn)知偏差，不同人員所分類的結(jié)果定有所不同，即使邀請(qǐng)同一專家對(duì)數(shù)據(jù)多次重復(fù)分類，其結(jié)果也會(huì)存在一定的偏差。質(zhì)性分析的固有局限，嚴(yán)重影響到分類結(jié)果的復(fù)現(xiàn)率，甚至導(dǎo)致很多分析結(jié)果出現(xiàn)偏差、難以復(fù)現(xiàn)。其四，手工分類工作需要耗費(fèi)大量時(shí)間和精力，不僅要求數(shù)據(jù)分類人員對(duì)所有政策工具以及子工具有深刻認(rèn)識(shí)，將十幾種政策工具熟記于心，還需要其對(duì)相關(guān)行業(yè)和領(lǐng)域的政策有全面的了解，對(duì)數(shù)據(jù)分類人員要求較高。尤其針對(duì)大量的政策數(shù)據(jù)，工作相當(dāng)枯燥繁瑣，數(shù)據(jù)分類人員很難完成大規(guī)模的政策工具分類，這限制了政策工具的大規(guī)模解析。這也正是以往研究中分類樣本往往非常有限的主要原因。

圖2 政策工具手工分類示例[9]Fig.2 Examples of Manual Classification of Policy Tools

由此可見，政策工具分類迫切需要提升分類速度和效率，需要利用計(jì)算機(jī)技術(shù)實(shí)現(xiàn)政策工具的自動(dòng)分類。本文提出構(gòu)建政策工具自動(dòng)分類模型，利用文本表示學(xué)習(xí)對(duì)政策單元進(jìn)行特征學(xué)習(xí)，利用機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)等有監(jiān)督分類模型，從文本分類的角度解決政策工具的自動(dòng)識(shí)別問題，并以數(shù)據(jù)治理、數(shù)字經(jīng)濟(jì)兩個(gè)數(shù)據(jù)集為例，評(píng)估模型效果，為政策分析提供一種新的自動(dòng)化工具，鍛造政策計(jì)量新模塊。

2 政策工具分類標(biāo)準(zhǔn)

政策工具自動(dòng)分類首要是構(gòu)建分類體系框架。政策工具分類不同于普通的二分類，類別一般較多。關(guān)于政策工具分類體系框架，目前主要有以下幾種分類標(biāo)準(zhǔn)，詳細(xì)如圖3所示。1981年，Rothwell和Zegveld提出包括公共服務(wù)（public enterprise）、科學(xué)與技術(shù)支持（scientific and technical support）、教育（education）、信息（information）、金融（financial）、稅收（taxation）、法規(guī)管制（legal regulation）、政治規(guī)劃（political）、政策采購(gòu)（procurement）、公共服務(wù)（public services）、商業(yè)貿(mào)易（commercial）、海外貿(mào)易（overseas agent）十二類的政策工具分類體系[14]；并于1985年將上述分類體系進(jìn)一步更新，劃分為供給型、需求型、環(huán)境型三個(gè)大類[15]。此外，1983年，Christopher Hood提出較為經(jīng)典的NATO政策工具體系，即波節(jié)型政策工具（nodality tools）、權(quán)威型政策工具（authority tools）、財(cái)富型政策工具（treasure tools）、組織型政策工具（organization）[16]。但是NATO分類體系沒有強(qiáng)調(diào)具體是為了實(shí)現(xiàn)什么樣的政策目標(biāo)，也沒有解釋判斷最終行為是否合乎規(guī)范的機(jī)制[17]。

圖3 國(guó)內(nèi)外政策工具分類標(biāo)準(zhǔn)Fig.3 The Classification Standards of Policy Tools at Home and Abroad

鑒于NATO的不足，1990年，Schneider和Ingram提出權(quán)威型政策（authority policy）、激勵(lì)型政策（incentive Policy）、能力構(gòu)建型政策（capacity-building policy）、價(jià)值觀導(dǎo)向型政策（symbolic/hortatory policy）、學(xué)習(xí)探索型政策（learning policy）五類政策工具分類體系，并強(qiáng)調(diào)分別與之對(duì)應(yīng)的強(qiáng)制、激勵(lì)、信息影響、價(jià)值觀影響、探索學(xué)習(xí)的施政方針[18]。2009年，Howlett等人提出包含命令控制型政策工具（command-control tools）、經(jīng)濟(jì)激勵(lì)型政策工具（economic incentive tools）、社會(huì)自治型政策工具（social autonomy tools）的政策工具分類體系，具體又詳細(xì)分為強(qiáng)制管控（mandatory）、直接規(guī)定（direct provision）、財(cái)政支出（financial expenditure）、稅費(fèi)調(diào)整（tax and fee adjustment）、產(chǎn)權(quán)交易（property exchange）、信息勸輔（information and persuasion）、自發(fā)行為（voluntary behavior）、自由市場(chǎng)（private market）八個(gè)二級(jí)類別[19]。2011年，Bemelmans等人提出“激勵(lì)型政策”（carrots-polities）、“懲罰型政策”（sticks-polities）、“說教型政策”（sermons-polities）三類，強(qiáng)調(diào)與之對(duì)應(yīng)的激勵(lì)、監(jiān)管、信息報(bào)道的施政方針[20]。政策工具分類體系框架研究雖歷經(jīng)40余年，但目前國(guó)際國(guó)內(nèi)沿用較多的仍然是Rothwell和Zegveld提出的類型框架，因此本文將詳細(xì)介紹此政策工具分類框架，并依此進(jìn)行自動(dòng)分類。

本文沿用Rothwell和Zegveld提出的政策工具分類體系，并結(jié)合國(guó)際國(guó)內(nèi)對(duì)其分類體系的補(bǔ)充和更新，強(qiáng)調(diào)將政策工具分為供給型、需求型、環(huán)境型三個(gè)大類。其中，供給型（supply oriented）政策工具主要強(qiáng)調(diào)政府通過專業(yè)人才、技術(shù)、資金和公共服務(wù)等手段推動(dòng)某一項(xiàng)政治活動(dòng)，具體包括人才培養(yǎng)（cultivation of talent）、資金投入（funds support）、科技投入（technical support）、公共服務(wù)（public enterprise）、設(shè)施建設(shè)（infrastructure development）五個(gè)子類。人才培養(yǎng)/教育是指政府通過開展教育和培訓(xùn)，培養(yǎng)相關(guān)專業(yè)人才，為相關(guān)工作開展提供人才保障；資金支持是指政府通過撥付專項(xiàng)資金，對(duì)相關(guān)工作開展提供資金支持；科技支持是指政府通過提供技術(shù)支持推動(dòng)相關(guān)工作的開展；公共服務(wù)是指政府通過提供相應(yīng)的基本配套服務(wù)，來保障工作順利開展；設(shè)施建設(shè)是指政府通過建設(shè)和完善基礎(chǔ)設(shè)施，為相關(guān)工作開展提供基本物質(zhì)保障。

環(huán)境型（environmental oriented）政策工具主要包括目標(biāo)規(guī)劃（target planning）、法規(guī)管制（legal regulatory）、金融支持（financial support/taxation）、政策支持（political support）、產(chǎn)權(quán)保護(hù)（property rights protection）五個(gè)子類。其中，法規(guī)管制是指政府通過制定法規(guī)、制度等強(qiáng)制性措施，加強(qiáng)對(duì)相關(guān)工作的規(guī)范和監(jiān)督；目標(biāo)規(guī)劃是指政府為實(shí)現(xiàn)目標(biāo)通過行政手段或活動(dòng)對(duì)相關(guān)工作開展作出總體規(guī)劃或描述、制定具體實(shí)施計(jì)劃；金融支持是指政府通過提供必要金融支持為相關(guān)工作營(yíng)造良好的政策環(huán)境；稅收優(yōu)惠/激勵(lì)是指政府通過制定減稅、補(bǔ)貼、延期付款等稅收方面優(yōu)惠，激活市場(chǎng)活力；政策支持是指政府通過提供必要的政策支持來為相關(guān)工作營(yíng)造良好的政策環(huán)境。

需求型（demand oriented）政策工具主要包括政府采購(gòu)（government procurement）、公私合作/服務(wù)外包（service outsource）、示范工程（demonstration project）、鼓勵(lì)引導(dǎo)（guidance and encouragement）四個(gè)子類。其中，政府采購(gòu)是指中央或地方政府通過財(cái)政資金向第三方企業(yè)或營(yíng)利組織購(gòu)買物資或服務(wù)等；公私合作/服務(wù)外包是指政府與社會(huì)資本合作拉動(dòng)相關(guān)工作的發(fā)展，或者直接將某項(xiàng)工作外包給相關(guān)企業(yè)和公司；示范工程是指政府通過建設(shè)示范項(xiàng)目等帶動(dòng)相關(guān)工作的實(shí)施和開展；鼓勵(lì)引導(dǎo)是指政府采取措施鼓勵(lì)、引導(dǎo)（獎(jiǎng)勵(lì)、表彰）公眾相關(guān)行為的形式來帶動(dòng)相關(guān)工作的開展。本研究主要針對(duì)這14個(gè)政策工具子類進(jìn)行自動(dòng)分類，各政策工具類型含義如表1所示。

表1 政策工具類型劃分標(biāo)準(zhǔn)Table 1 The Classification Standards of Policy Tool Types

3 研究設(shè)計(jì)

本文研究的政策工具自動(dòng)分類屬于典型的多類別（multiclass）文本分類。多類別分類強(qiáng)調(diào)超過兩個(gè)類別的分類任務(wù)，例如根據(jù)目前的政策工具類型框架，則有供給型、環(huán)境型、需求型三大類，有人才培養(yǎng)、資金投入、科技投入等14個(gè)子類，其假設(shè)每一個(gè)政策單元有且只有一個(gè)類型標(biāo)簽[9]。相反，多標(biāo)簽（multilabel）文本分類則強(qiáng)調(diào)給每個(gè)樣本分配一個(gè)或多個(gè)標(biāo)簽，例如一條新聞可以既屬于體育類也屬于文娛類，一份政策文件可能包含多個(gè)政策工具。但是經(jīng)過切割后的政策單元主要圍繞一個(gè)政策工具展開，因此對(duì)于每一個(gè)政策單元，假設(shè)其只包含一個(gè)標(biāo)簽，進(jìn)行多類別文本分類，以實(shí)現(xiàn)政策工具自動(dòng)分類，其研究流程如圖4所示。

圖4 基于WordBERT 和BiLSTM 的政策工具自動(dòng)分類方法研究流程Fig.4 The Research Process of Automatic Classification Method of Policy Tools Based on WordBERT and BiLSTM

3.1 數(shù)據(jù)收集和標(biāo)注

本文以國(guó)內(nèi)目前相對(duì)較為權(quán)威和全面的法律法規(guī)政策庫(kù)“北大法寶”為依據(jù)，分別構(gòu)建、標(biāo)注數(shù)據(jù)治理和數(shù)字經(jīng)濟(jì)兩個(gè)數(shù)據(jù)集。其一，檢索篩選出數(shù)據(jù)治理相關(guān)政策1,097份（截至2021年12月15日），根據(jù)其效力級(jí)別進(jìn)一步選取法律、行政法規(guī)、部門規(guī)章、國(guó)務(wù)院規(guī)范性文件、部門規(guī)范性文件等核心政策440份，進(jìn)行政策工具編碼。其二，檢索篩選出各地方數(shù)字經(jīng)濟(jì)政策290份（截至2021年12月15日），此部分對(duì)全部政策進(jìn)行編碼。在政策單元切分方面，主要依據(jù)段落、小標(biāo)題以及長(zhǎng)段落中的分號(hào)來進(jìn)行，因?yàn)槿绻麅H僅以段落來切分政策單元，則一個(gè)段落中極可能出現(xiàn)多個(gè)政策工具，即變?yōu)槎鄻?biāo)簽分類問題導(dǎo)致偏差。本研究中的政策工具編碼工作分別來源于其他兩項(xiàng)研究，由主導(dǎo)人分別帶領(lǐng)小組進(jìn)行編碼，各編碼工作平行進(jìn)行，最后由各自領(lǐng)域的兩位專家進(jìn)行校驗(yàn)和篩選，以保證標(biāo)注數(shù)據(jù)的質(zhì)量，經(jīng)統(tǒng)計(jì)，編碼一致性高達(dá)98%。最終，分別獲得包含有2433條、6477條政策工具的兩個(gè)較高質(zhì)量的數(shù)據(jù)集①https://github.com/ChaoguangHuo/policy_tools_classification。

3.2 模型構(gòu)建

關(guān)于政策工具自動(dòng)分類模型，本文強(qiáng)調(diào)通過無監(jiān)督文本表示學(xué)習(xí)和有監(jiān)督深度學(xué)習(xí)分類的思路構(gòu)建模型，從而達(dá)到完全自動(dòng)分類的效果。在無監(jiān)督文本表示學(xué)習(xí)方面，考慮到中文的特殊性，如果使用預(yù)訓(xùn)練模型，則只有基于中文預(yù)訓(xùn)練的才可掌握中文表達(dá)的規(guī)律，因此本文提出基于在中文語(yǔ)料上訓(xùn)練出的WordBERT-ZH預(yù)訓(xùn)練模型。在深度學(xué)習(xí)分類算法方面，本文提出基于BiLSTM，在WordBERT-ZH訓(xùn)練出的句子向量基礎(chǔ)上，接入全連接層進(jìn)行分類，具體政策工具自動(dòng)分類模型架構(gòu)如圖5所示。

圖5 基于WordBERT 和BiLSTM 的政策工具自動(dòng)分類模型Fig.5 The Automatic Classification Model of Policy Tools Based on WordBERT and BiLSTM

WordBERT-ZH是Bert在中文語(yǔ)料下的一個(gè)變體。Bert（Bidirectional Encoder Representation from Transformers）是谷歌AI提出的一種基于Transformer編碼器的語(yǔ)言預(yù)訓(xùn)練向量表示模型，發(fā)布之初在11種自然語(yǔ)言處理測(cè)試任務(wù)中均取得最佳的效果，主要有BERT-Base和BERT-Large兩個(gè)代表性模型[21]。WordBERT-ZH是由Feng等人于2022年提出的一系列無需拆分單詞的Bert改進(jìn)版，尤其針對(duì)中文語(yǔ)料訓(xùn)練出了WordBERT-ZH預(yù)訓(xùn)練模型，在分類、推理以及關(guān)鍵字識(shí)別等任務(wù)方面均超出以往BERT-Base、RoBERTa-base、WoBERT、MarkBERT等預(yù)訓(xùn)練模型[22]。基于WordBERT的政策工具分類需要以下兩步，第一步，利用大規(guī)模未標(biāo)注的中文政策文本語(yǔ)料進(jìn)行自監(jiān)督訓(xùn)練，綜合詞語(yǔ)在各種情境中的表達(dá)，充分學(xué)習(xí)政策文本的語(yǔ)言特征，得到文本的深層次向量表示，進(jìn)而得到預(yù)訓(xùn)練模型，不過鑒于普通算力無法訓(xùn)練出此大規(guī)模的預(yù)訓(xùn)練模型，而學(xué)術(shù)與業(yè)界也尚無基于政策文本的預(yù)訓(xùn)練模型，因此本文選擇基于普通文本的預(yù)訓(xùn)練模型WordBERT-ZH；第二步，結(jié)合具體任務(wù)進(jìn)行微調(diào)，即將預(yù)訓(xùn)練得到的網(wǎng)絡(luò)參數(shù)作為初始模型，輸入分類任務(wù)所標(biāo)注的數(shù)據(jù)集，進(jìn)一步調(diào)整部分參數(shù)，使其在所分類任務(wù)中達(dá)到較優(yōu)的結(jié)果[23]。本研究在WordBERT-ZH模型（模型參數(shù)高達(dá)3.26億）基礎(chǔ)上，輸入政策工具標(biāo)注數(shù)據(jù)集進(jìn)行微調(diào)，設(shè)置樣本輸入最大長(zhǎng)度500，以充分學(xué)習(xí)一個(gè)政策單元的所有語(yǔ)義關(guān)系信息。

BiLSTM由正向和反向LSTM組成。LSTM是深度學(xué)習(xí)遞歸神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network,RNN）的變體，強(qiáng)調(diào)將時(shí)序概念引入到神經(jīng)網(wǎng)絡(luò)中，以增強(qiáng)神經(jīng)網(wǎng)絡(luò)對(duì)長(zhǎng)期時(shí)序數(shù)據(jù)的記憶能力，通過輸入門、輸出門、遺忘門三個(gè)門控制機(jī)制，處理長(zhǎng)距離依賴的時(shí)間序列數(shù)據(jù)[24]。LSTM在學(xué)習(xí)時(shí)間序列數(shù)據(jù)方面，表現(xiàn)較好，因此從理論上對(duì)于處理具有較長(zhǎng)語(yǔ)義關(guān)系的文本應(yīng)該也有不錯(cuò)的結(jié)果[25]。LSTM雖然解決了長(zhǎng)期時(shí)序數(shù)據(jù)的記憶方面的問題，但是其在處理時(shí)序數(shù)據(jù)時(shí)是單向的，對(duì)于需要雙向考慮的政策單元文本序列數(shù)據(jù)可能會(huì)存在一定的不足。因此本文采納BiLSTM算法[26]，強(qiáng)調(diào)從兩個(gè)方向?qū)φ邌卧蛄羞M(jìn)行訓(xùn)練，不僅考慮到詞匯之前的語(yǔ)義信息，還考慮到詞匯之后的語(yǔ)義信息，即充分考慮詞匯所在的上下文信息，實(shí)現(xiàn)時(shí)序數(shù)據(jù)的雙向記憶。

針對(duì)政策工具分類研究任務(wù)，在處理政策文本時(shí)，如果依據(jù)常規(guī)停用詞表直接去掉停用詞[27]，勢(shì)必會(huì)影響政策語(yǔ)義表達(dá)的完整度，例如如果直接去掉“為了”停用詞，那么原本是目標(biāo)規(guī)劃一類的政策工具，可能就會(huì)被誤識(shí)別為政策支持，甚至被識(shí)別為法規(guī)管制?！案鶕?jù)”“為了”“朝著”“依照”“遵照”“鑒于”“即令”“對(duì)于”“按照”等常規(guī)文本處理時(shí)的停用詞，對(duì)于政策文本來說是理解政策內(nèi)容的重要提示詞，對(duì)于政策表達(dá)具有重要意義[28]。由此可見常規(guī)文本處理時(shí)所用的停用詞表，對(duì)于政策文本具有較大弊端，尤其是對(duì)于TFIDF這種完全基于詞頻而缺乏語(yǔ)義的文本向量學(xué)習(xí)方法[29]，因此本文在對(duì)本文進(jìn)行向量化表示時(shí)，不作停用詞處理，以此保證政策工具表達(dá)的完整性，這也是本文提出基于WordBERT構(gòu)建政策工具自動(dòng)分類模型的主要原因。

3.3 實(shí)驗(yàn)設(shè)置

數(shù)據(jù)治理政策和數(shù)字經(jīng)濟(jì)政策是兩個(gè)具有不同特征的政策工具標(biāo)注數(shù)據(jù)集，其中數(shù)據(jù)治理政策工具標(biāo)注數(shù)據(jù)集全部是中央相關(guān)部門出臺(tái)的政策，由法律、行政法規(guī)、部門規(guī)章、國(guó)務(wù)院規(guī)范性文件、部門規(guī)范性文件等組成，其文體段落分明、內(nèi)容簡(jiǎn)潔，總條目相對(duì)較少，本文共計(jì)標(biāo)注有2,433個(gè)政策工具樣本；數(shù)字經(jīng)濟(jì)政策標(biāo)注數(shù)據(jù)集則全部是地方政府相關(guān)部門出臺(tái)的政策，由地方規(guī)范性文件、地方工作文件、地方性法規(guī)等組成，其文本目錄較多，并且層層嵌套，內(nèi)容更加具體，總條目相對(duì)較多，共計(jì)有6,477個(gè)政策工具樣本。因此，本文對(duì)兩個(gè)數(shù)據(jù)集分別進(jìn)行實(shí)驗(yàn)，以檢驗(yàn)不同表示學(xué)習(xí)和機(jī)器學(xué)習(xí)分類算法對(duì)不同層面政策文本的學(xué)習(xí)和識(shí)別能力，最后再對(duì)總數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。對(duì)于每一個(gè)數(shù)據(jù)集，本文均按照6:2:2的比例劃分訓(xùn)練集、驗(yàn)證集、測(cè)試集，依此分別進(jìn)行三組實(shí)驗(yàn)。

鑒于在政策工具分類方法方面，尚無成熟基線方法，因此本文選擇將構(gòu)建的政策工具自動(dòng)分類模型，同其他文本表示學(xué)習(xí)和機(jī)器學(xué)習(xí)分類算法等組合形成的模型進(jìn)行對(duì)比，例如TF-IDF、Doc2vec等文本表示學(xué)習(xí)算法[30]，以及RandomForest、SVM、LSTM、CNN-LSTM、BiGRU等分類算法進(jìn)行對(duì)比分析。本研究實(shí)驗(yàn)設(shè)備為集成服務(wù)器，最大運(yùn)行內(nèi)存為94G，存儲(chǔ)硬盤8T，包含5塊Nvidia Titan RTX顯卡，單塊GPU內(nèi)存24G。其中TF-IDF平均用時(shí)較短，在幾分鐘內(nèi)即可訓(xùn)練完畢，Doc2vec在幾十分鐘內(nèi)即可訓(xùn)練完畢，WordBERT-ZH每次訓(xùn)練均在24小時(shí)以上，甚至更長(zhǎng)時(shí)間。經(jīng)過近半個(gè)月的模型調(diào)參、模型訓(xùn)練，最終確定較優(yōu)參數(shù)設(shè)置，完成三組對(duì)比實(shí)驗(yàn)，相關(guān)數(shù)據(jù)以及詳細(xì)代碼請(qǐng)見GitHub 。

4 結(jié)果評(píng)估

4.1 評(píng)估指標(biāo)

政策工具的自動(dòng)分類屬于典型的多類別文本分類問題，因此以精確率（Precision）、召回率（Recall）、F1（F1-score）三個(gè)指標(biāo)綜合評(píng)估分類模型優(yōu)劣最為直觀，也最具說服力。其中準(zhǔn)確率是指分類器對(duì)整個(gè)樣本的判斷能力，即正確的分類樣本數(shù)與總樣本數(shù)的比例；召回率是指分類器判定為正且判斷正確的樣本數(shù)與真實(shí)正樣本數(shù)的比例；F1值是指綜合精確率Precision和召回率Recall的調(diào)和平均數(shù)，各評(píng)估指標(biāo)計(jì)算方法如下：

4.2 模型評(píng)估

本文對(duì)數(shù)據(jù)治理政策數(shù)據(jù)集、數(shù)字經(jīng)濟(jì)政策數(shù)據(jù)集以及兩個(gè)數(shù)據(jù)的合集，分別進(jìn)行三組實(shí)驗(yàn)。在每組實(shí)驗(yàn)中，分別檢驗(yàn)TF-IDF、Doc2vec、WordBERT-ZH等不同表示學(xué)習(xí)算法對(duì)不同層面和不同規(guī)模政策文本的特征學(xué)習(xí)能力，分別檢驗(yàn)Random Forest、SVM等傳統(tǒng)機(jī)器學(xué)習(xí)分類算法以及LSTM、BiLSTM、CNNLSTM、BiGRU等深度學(xué)習(xí)分類算法對(duì)政策工具類型特征的擬合能力。

第一組實(shí)驗(yàn)，如表2所示，在數(shù)據(jù)治理政策數(shù)據(jù)集上，TF-IDF+RandomForest、TF-IDF+BiLSTM組合模型效果相對(duì)較好，其準(zhǔn)確率分別達(dá)到64.72%和64.77%，召回率分別為66.39%和68.87%，當(dāng)限定TF-IDF表示學(xué)習(xí)算法時(shí)，無論是傳統(tǒng)機(jī)器學(xué)習(xí)分類算法，還是深度學(xué)習(xí)算法，其差異相對(duì)較小。本文提出的WordBERTZH+BiLSTM政策工具自動(dòng)分類模型，雖然準(zhǔn)確率不是最高的，但綜合來看效果也相當(dāng)不錯(cuò)。

表2 模型分類結(jié)果評(píng)估（數(shù)據(jù)治理政策數(shù)據(jù)集）Table 2 The Evaluation Result of Model Classification（Data Governance Policy Dataset）

第二組實(shí)驗(yàn)，如表3所示，在數(shù)字經(jīng)濟(jì)政策數(shù)據(jù)集上，WordBERT-ZH+BiGRU、WordBERT-ZH+BiLSTM模型明顯優(yōu)于其他模型，準(zhǔn)確率分別為69.29%和73.48%，召回率分別為66.32%和70.55%。當(dāng)限定BiLSTM機(jī)器學(xué)習(xí)算法時(shí)，TF-IDF和WordBERT-ZH兩種表示學(xué)習(xí)算法的最終準(zhǔn)確率相差高達(dá)10個(gè)百分點(diǎn)，召回率也相差7個(gè)百分點(diǎn)。對(duì)于此包含6477個(gè)樣本的數(shù)據(jù)集，WordBERT-ZH表示學(xué)習(xí)算法是明顯優(yōu)于TFIDF、Doc2vec等算法的，深度學(xué)習(xí)算法也愈加優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)分類算法。由此可見只有在一定規(guī)模的數(shù)據(jù)集上，大型預(yù)訓(xùn)練模型才更能發(fā)揮其對(duì)語(yǔ)義理解和學(xué)習(xí)的優(yōu)勢(shì)，例如本文所用的WordBERT-ZH總參數(shù)為3.26億個(gè)，微調(diào)參數(shù)118.40萬個(gè)，只有輸入足夠多的數(shù)據(jù)使其充分進(jìn)行參數(shù)微調(diào)，Bert系列模型才能發(fā)揮其優(yōu)勢(shì)。

表3 模型分類結(jié)果評(píng)估（數(shù)字經(jīng)濟(jì)政策數(shù)據(jù)集）Table.3 The Evaluation Result of Model Classification（Digital Economy Policy Dataset）

第三組實(shí)驗(yàn)，如表4所示，在數(shù)據(jù)治理和數(shù)字經(jīng)濟(jì)政策兩個(gè)數(shù)據(jù)合集上，基于WordBERT-ZH的組合效果最好，TF-IDF次之，Doc2vec較差。由此可見，TFIDF自身雖有不足，但在政策工具自動(dòng)分類方面，其模型簡(jiǎn)單，訓(xùn)練速度快，仍具有一定應(yīng)用空間；本研究對(duì)Doc2vec向量維度訓(xùn)練以及各種參數(shù)調(diào)整方面，在目前參數(shù)設(shè)置的基礎(chǔ)上，其結(jié)果相對(duì)較差，可見對(duì)政策文本進(jìn)行簡(jiǎn)單向量表示的處理方式，在政策工具分類方面具有較大局限性；WordBERT-ZH與深度學(xué)習(xí)算法的組合，明顯優(yōu)于其他方法組合，當(dāng)數(shù)據(jù)樣本達(dá)到一定規(guī)模時(shí)，Bert的優(yōu)勢(shì)就會(huì)彰顯，雖然其訓(xùn)練速度較慢、訓(xùn)練成本較高，但是其在準(zhǔn)確率和召回率等方面的優(yōu)勢(shì)是顯著可見的。并且隨著數(shù)據(jù)樣本的增多，深度學(xué)習(xí)算法較傳統(tǒng)機(jī)器學(xué)習(xí)分類算法，也具有明顯優(yōu)勢(shì)。綜合所有實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)，本文提出的基于WordBERT-ZH和BiLSTM的政策工具自動(dòng)分類模型，明顯優(yōu)于其他模型組合，準(zhǔn)確率達(dá)到73.91%，召回率達(dá)到71.29%，F(xiàn)1值達(dá)到71.46%，相對(duì)于其他方法，是目前最為有效的一種政策工具自動(dòng)分類方法。

表4 模型分類結(jié)果評(píng)估（數(shù)據(jù)治理和數(shù)字經(jīng)濟(jì)兩個(gè)數(shù)據(jù)集）Table.4 The Evaluation Result of Model Classification（Data Governance and Digital Economy Policy Dataset）

5 結(jié)語(yǔ)

政策工具是政府為實(shí)現(xiàn)政策目標(biāo)，將其行政理念轉(zhuǎn)為切實(shí)行動(dòng)的手段和方法，是政策量化分析的重要版塊。鑒于當(dāng)前政策工具分析仍停留在手工分類階段，存在標(biāo)準(zhǔn)不統(tǒng)一、難以復(fù)現(xiàn)、規(guī)模小、成本高等一系列問題，本文提出利用表示學(xué)習(xí)、機(jī)器學(xué)習(xí)分類等算法，對(duì)政策文件中的政策工具進(jìn)行自動(dòng)分類。本文系統(tǒng)梳理了現(xiàn)有的政策工具分類框架，在Rothwell和Zegveld政策工具分類體系基礎(chǔ)上，提出構(gòu)建基于WordBERTZH和BiLSTM的政策工具自動(dòng)分類模型，并對(duì)模型進(jìn)行檢驗(yàn)。

以數(shù)據(jù)治理和數(shù)字經(jīng)濟(jì)政策數(shù)據(jù)集為例，經(jīng)過三組實(shí)驗(yàn)，本文發(fā)現(xiàn)對(duì)于數(shù)據(jù)治理小數(shù)據(jù)集，無論是小型TF-IDF還是大型預(yù)訓(xùn)練WordBERT-ZH模型，其分類結(jié)果差異較小。但是隨著數(shù)據(jù)樣本的增加，在數(shù)字經(jīng)濟(jì)政策數(shù)據(jù)集和兩類政策合集時(shí)，WordBERT-ZH表示學(xué)習(xí)算法明顯優(yōu)于TF-IDF、Doc2vec等算法，并且深度學(xué)習(xí)算法也愈加優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)分類算法。由此可見，在數(shù)據(jù)達(dá)到一定規(guī)模，大型預(yù)訓(xùn)練模型才能更加充分進(jìn)行參數(shù)微調(diào)，以更好發(fā)揮其在語(yǔ)義理解和學(xué)習(xí)方面的優(yōu)勢(shì)。在三組實(shí)驗(yàn)中，相較于其他組合模型，本文提出的基于WordBERT-ZH和BiLSTM的政策工具自動(dòng)分類模型效果最好，準(zhǔn)確率達(dá)到73.91%，召回率達(dá)到71.29%，F(xiàn)1值達(dá)到71.46%，是目前政策工具自動(dòng)識(shí)別領(lǐng)域較為有效的一種方法。

雖然本文使用了兩個(gè)數(shù)據(jù)集，但是樣本量仍然是比較有限的，限制了準(zhǔn)確率的進(jìn)一步提升。目前政策工具標(biāo)注數(shù)據(jù)開放程度較低，雖幾經(jīng)聯(lián)系以往作者所標(biāo)注的政策工具，但仍然很難獲取到相關(guān)數(shù)據(jù)，政策工具自動(dòng)分類領(lǐng)域研究仍需構(gòu)建并開放大規(guī)模高質(zhì)量的標(biāo)注數(shù)據(jù)，以此才有望實(shí)現(xiàn)更高精度的政策工具分類，促成對(duì)海量政策文件的全局分析。此外限于目前所用預(yù)訓(xùn)練模型WordBERT-ZH并不是專門針對(duì)政策文本進(jìn)行訓(xùn)練的，未來仍需要專門圍繞政策文本進(jìn)行預(yù)訓(xùn)練，只有基于更有針對(duì)性的模型和更多的標(biāo)注數(shù)據(jù)，政策工具識(shí)別準(zhǔn)確率才有望進(jìn)一步得到提升。

作者貢獻(xiàn)說明

霍朝光：研究設(shè)計(jì)，模型構(gòu)建，進(jìn)行實(shí)驗(yàn)，論文撰寫；

霍帆帆:數(shù)據(jù)標(biāo)注，論文修改；

王婉如：數(shù)據(jù)標(biāo)注；

余芊蓉：實(shí)驗(yàn)支持；

楊冠燦：研究設(shè)計(jì)。

支撐數(shù)據(jù)

支撐數(shù)據(jù)可開放獲取，獲取地址為：https://github.com/ChaoguangHuo/policy_tools_classification。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放