霍朝光 霍帆帆 王婉如 余芊蓉 楊冠燦
政策工具(Policy Tools/ Policy Instruments,又稱政府工具、治理工具)是指在國(guó)家治理過程中,政府為實(shí)現(xiàn)政策目標(biāo),將其行政理念轉(zhuǎn)為切實(shí)行動(dòng)的手段和方法,是政府發(fā)揮引導(dǎo)、規(guī)范、提倡、支持、約束、防止、懲罰等作用的具體措施[1]。政策工具集中體現(xiàn)在國(guó)家發(fā)布的政策文件中,是政策文本分析和研究的重要維度。例如以“政策工具”為主題詞,在北京大學(xué)核心期刊目錄和南京大學(xué)核心期刊目錄CNKI數(shù)據(jù)庫(kù)中檢索,可以發(fā)現(xiàn)自2011年以來共計(jì)發(fā)文3,842篇,2020年、2021年發(fā)文均在500篇以上。關(guān)于政策工具的研究呈逐年上升的趨勢(shì),其研究體量和增長(zhǎng)趨勢(shì)如圖1所示。
圖1 政策工具相關(guān)研究統(tǒng)計(jì)Fig.1 The Statistics of Research Related to Policy Tools
任何領(lǐng)域或行業(yè)政策都需要分析其使用的政策工具。關(guān)于政策工具分析的需求,幾乎覆蓋科技、金融[2]、環(huán)境[3]、氣候[4]、衛(wèi)生[5]、醫(yī)藥、生物、教育[6]、養(yǎng)老等所有行業(yè)和領(lǐng)域。例如黃萃等對(duì)我國(guó)69份少數(shù)民族雙語(yǔ)教育政策進(jìn)行了手工分類,分析了能力建設(shè)工具、象征和勸誡工具、權(quán)威工具、激勵(lì)工具和系統(tǒng)變革等政策工具的使用情況[7]。孫建軍等對(duì)我國(guó)131份智慧城市政策中的政策工具進(jìn)行了手工分類,基于R-Z框架對(duì)其中的供給型、環(huán)境型、需求型政策工具進(jìn)行了分析,基于Doelen框架對(duì)其中的管制規(guī)制類、激勵(lì)誘因類、信息交互類等政策工具進(jìn)行了分析[8]。盧小賓等對(duì)我國(guó)278份信息公開核心政策進(jìn)行政策工具分類,對(duì)供給型、環(huán)境型、需求型等下屬的二級(jí)政策工具的使用情況進(jìn)行了分類和分析[9]。張薷等對(duì)我國(guó)30份應(yīng)急信息管理政策進(jìn)行政策工具分類和分析[10]。林德明等通過專家咨詢等手工分類的方式,從三份知識(shí)產(chǎn)權(quán)戰(zhàn)略綱領(lǐng)性文件和九份國(guó)家知識(shí)產(chǎn)權(quán)戰(zhàn)略的年度推進(jìn)計(jì)劃中析出政策工具,并將政策工具和戰(zhàn)略目標(biāo)文本分別進(jìn)行向量表示,嘗試通過語(yǔ)義相似度計(jì)算來實(shí)現(xiàn)政策工具與戰(zhàn)略目標(biāo)的自動(dòng)匹配[11]。
政策工具是政策量化分析的重要版塊,然而現(xiàn)有的政策工具分類(如圖2所示)仍存在諸多不足。其一,政策工具分類工作仍停留在手工處理階段,以我國(guó)核心期刊近5年數(shù)據(jù)為例,在662篇政策工具分類研究中,政策工具的分類工作幾乎全部都是由手工分類完成(統(tǒng)計(jì)時(shí)間2022年4月22日)。其二,雖然多人協(xié)同手工分類工作通常以Cohen]s kappa系數(shù)[12]、Holsti一致性百分比[13]等為依據(jù),判斷不同分類者對(duì)同一段文本獨(dú)立分類的一致性,但是仍然可以發(fā)現(xiàn)不同分類工作信度參差不齊,信度為82%、88.%、92.7%、95.63%等各種情況均有出現(xiàn),以80%的信度閾值判斷分類工作的合理性仍存在一定爭(zhēng)議。其三,手工分類無法避免認(rèn)知偏差,即使具有較高專業(yè)素養(yǎng)的人員依然會(huì)存在認(rèn)知偏差,不同人員所分類的結(jié)果定有所不同,即使邀請(qǐng)同一專家對(duì)數(shù)據(jù)多次重復(fù)分類,其結(jié)果也會(huì)存在一定的偏差。質(zhì)性分析的固有局限,嚴(yán)重影響到分類結(jié)果的復(fù)現(xiàn)率,甚至導(dǎo)致很多分析結(jié)果出現(xiàn)偏差、難以復(fù)現(xiàn)。其四,手工分類工作需要耗費(fèi)大量時(shí)間和精力,不僅要求數(shù)據(jù)分類人員對(duì)所有政策工具以及子工具有深刻認(rèn)識(shí),將十幾種政策工具熟記于心,還需要其對(duì)相關(guān)行業(yè)和領(lǐng)域的政策有全面的了解,對(duì)數(shù)據(jù)分類人員要求較高。尤其針對(duì)大量的政策數(shù)據(jù),工作相當(dāng)枯燥繁瑣,數(shù)據(jù)分類人員很難完成大規(guī)模的政策工具分類,這限制了政策工具的大規(guī)模解析。這也正是以往研究中分類樣本往往非常有限的主要原因。
圖2 政策工具手工分類示例[9]Fig.2 Examples of Manual Classification of Policy Tools
由此可見,政策工具分類迫切需要提升分類速度和效率,需要利用計(jì)算機(jī)技術(shù)實(shí)現(xiàn)政策工具的自動(dòng)分類。本文提出構(gòu)建政策工具自動(dòng)分類模型,利用文本表示學(xué)習(xí)對(duì)政策單元進(jìn)行特征學(xué)習(xí),利用機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)等有監(jiān)督分類模型,從文本分類的角度解決政策工具的自動(dòng)識(shí)別問題,并以數(shù)據(jù)治理、數(shù)字經(jīng)濟(jì)兩個(gè)數(shù)據(jù)集為例,評(píng)估模型效果,為政策分析提供一種新的自動(dòng)化工具,鍛造政策計(jì)量新模塊。
政策工具自動(dòng)分類首要是構(gòu)建分類體系框架。政策工具分類不同于普通的二分類,類別一般較多。關(guān)于政策工具分類體系框架,目前主要有以下幾種分類標(biāo)準(zhǔn),詳細(xì)如圖3所示。1981年,Rothwell和Zegveld提出包括公共服務(wù)(public enterprise)、科學(xué)與技術(shù)支持(scientific and technical support)、教育(education)、信息(information)、金融(financial)、稅收(taxation)、法規(guī)管制(legal regulation)、政治規(guī)劃(political)、政策采購(gòu)(procurement)、公共服務(wù)(public services)、商業(yè)貿(mào)易(commercial)、海外貿(mào)易(overseas agent)十二類的政策工具分類體系[14];并于1985年將上述分類體系進(jìn)一步更新,劃分為供給型、需求型、環(huán)境型三個(gè)大類[15]。此外,1983年,Christopher Hood提出較為經(jīng)典的NATO政策工具體系,即波節(jié)型政策工具(nodality tools)、權(quán)威型政策工具(authority tools)、財(cái)富型政策工具(treasure tools)、組織型政策工具(organization)[16]。但是NATO分類體系沒有強(qiáng)調(diào)具體是為了實(shí)現(xiàn)什么樣的政策目標(biāo),也沒有解釋判斷最終行為是否合乎規(guī)范的機(jī)制[17]。
圖3 國(guó)內(nèi)外政策工具分類標(biāo)準(zhǔn)Fig.3 The Classification Standards of Policy Tools at Home and Abroad
鑒于NATO的不足,1990年,Schneider和Ingram提出權(quán)威型政策(authority policy)、激勵(lì)型政策(incentive Policy)、能力構(gòu)建型政策(capacity-building policy)、價(jià)值觀導(dǎo)向型政策(symbolic/hortatory policy)、學(xué)習(xí)探索型政策(learning policy)五類政策工具分類體系,并強(qiáng)調(diào)分別與之對(duì)應(yīng)的強(qiáng)制、激勵(lì)、信息影響、價(jià)值觀影響、探索學(xué)習(xí)的施政方針[18]。2009年,Howlett等人提出包含命令控制型政策工具(command-control tools)、經(jīng)濟(jì)激勵(lì)型政策工具(economic incentive tools)、社會(huì)自治型政策工具(social autonomy tools)的政策工具分類體系,具體又詳細(xì)分為強(qiáng)制管控(mandatory)、直接規(guī)定(direct provision)、財(cái)政支出(financial expenditure)、稅費(fèi)調(diào)整(tax and fee adjustment)、產(chǎn)權(quán)交易(property exchange)、信息勸輔(information and persuasion)、自發(fā)行為(voluntary behavior)、自由市場(chǎng)(private market)八個(gè)二級(jí)類別[19]。2011年,Bemelmans等人提出“激勵(lì)型政策”(carrots-polities)、“懲罰型政策”(sticks-polities)、“說教型政策”(sermons-polities)三類,強(qiáng)調(diào)與之對(duì)應(yīng)的激勵(lì)、監(jiān)管、信息報(bào)道的施政方針[20]。政策工具分類體系框架研究雖歷經(jīng)40余年,但目前國(guó)際國(guó)內(nèi)沿用較多的仍然是Rothwell和Zegveld提出的類型框架,因此本文將詳細(xì)介紹此政策工具分類框架,并依此進(jìn)行自動(dòng)分類。
本文沿用Rothwell和Zegveld提出的政策工具分類體系,并結(jié)合國(guó)際國(guó)內(nèi)對(duì)其分類體系的補(bǔ)充和更新,強(qiáng)調(diào)將政策工具分為供給型、需求型、環(huán)境型三個(gè)大類。其中,供給型(supply oriented)政策工具主要強(qiáng)調(diào)政府通過專業(yè)人才、技術(shù)、資金和公共服務(wù)等手段推動(dòng)某一項(xiàng)政治活動(dòng),具體包括人才培養(yǎng)(cultivation of talent)、資金投入(funds support)、科技投入(technical support)、公共服務(wù)(public enterprise)、設(shè)施建設(shè)(infrastructure development)五個(gè)子類。人才培養(yǎng)/教育是指政府通過開展教育和培訓(xùn),培養(yǎng)相關(guān)專業(yè)人才,為相關(guān)工作開展提供人才保障;資金支持是指政府通過撥付專項(xiàng)資金,對(duì)相關(guān)工作開展提供資金支持;科技支持是指政府通過提供技術(shù)支持推動(dòng)相關(guān)工作的開展;公共服務(wù)是指政府通過提供相應(yīng)的基本配套服務(wù),來保障工作順利開展;設(shè)施建設(shè)是指政府通過建設(shè)和完善基礎(chǔ)設(shè)施,為相關(guān)工作開展提供基本物質(zhì)保障。
環(huán)境型(environmental oriented)政策工具主要包括目標(biāo)規(guī)劃(target planning)、法規(guī)管制(legal regulatory)、金融支持(financial support/taxation)、政策支持(political support)、產(chǎn)權(quán)保護(hù)(property rights protection)五個(gè)子類。其中,法規(guī)管制是指政府通過制定法規(guī)、制度等強(qiáng)制性措施,加強(qiáng)對(duì)相關(guān)工作的規(guī)范和監(jiān)督;目標(biāo)規(guī)劃是指政府為實(shí)現(xiàn)目標(biāo)通過行政手段或活動(dòng)對(duì)相關(guān)工作開展作出總體規(guī)劃或描述、制定具體實(shí)施計(jì)劃;金融支持是指政府通過提供必要金融支持為相關(guān)工作營(yíng)造良好的政策環(huán)境;稅收優(yōu)惠/激勵(lì)是指政府通過制定減稅、補(bǔ)貼、延期付款等稅收方面優(yōu)惠,激活市場(chǎng)活力;政策支持是指政府通過提供必要的政策支持來為相關(guān)工作營(yíng)造良好的政策環(huán)境。
需求型(demand oriented)政策工具主要包括政府采購(gòu)(government procurement)、公私合作/服務(wù)外包(service outsource)、示范工程(demonstration project)、鼓勵(lì)引導(dǎo)(guidance and encouragement)四個(gè)子類。其中,政府采購(gòu)是指中央或地方政府通過財(cái)政資金向第三方企業(yè)或營(yíng)利組織購(gòu)買物資或服務(wù)等;公私合作/服務(wù)外包是指政府與社會(huì)資本合作拉動(dòng)相關(guān)工作的發(fā)展,或者直接將某項(xiàng)工作外包給相關(guān)企業(yè)和公司;示范工程是指政府通過建設(shè)示范項(xiàng)目等帶動(dòng)相關(guān)工作的實(shí)施和開展;鼓勵(lì)引導(dǎo)是指政府采取措施鼓勵(lì)、引導(dǎo)(獎(jiǎng)勵(lì)、表彰)公眾相關(guān)行為的形式來帶動(dòng)相關(guān)工作的開展。本研究主要針對(duì)這14個(gè)政策工具子類進(jìn)行自動(dòng)分類,各政策工具類型含義如表1所示。
表1 政策工具類型劃分標(biāo)準(zhǔn)Table 1 The Classification Standards of Policy Tool Types
本文研究的政策工具自動(dòng)分類屬于典型的多類別(multiclass)文本分類。多類別分類強(qiáng)調(diào)超過兩個(gè)類別的分類任務(wù),例如根據(jù)目前的政策工具類型框架,則有供給型、環(huán)境型、需求型三大類,有人才培養(yǎng)、資金投入、科技投入等14個(gè)子類,其假設(shè)每一個(gè)政策單元有且只有一個(gè)類型標(biāo)簽[9]。相反,多標(biāo)簽(multilabel)文本分類則強(qiáng)調(diào)給每個(gè)樣本分配一個(gè)或多個(gè)標(biāo)簽,例如一條新聞可以既屬于體育類也屬于文娛類,一份政策文件可能包含多個(gè)政策工具。但是經(jīng)過切割后的政策單元主要圍繞一個(gè)政策工具展開,因此對(duì)于每一個(gè)政策單元,假設(shè)其只包含一個(gè)標(biāo)簽,進(jìn)行多類別文本分類,以實(shí)現(xiàn)政策工具自動(dòng)分類,其研究流程如圖4所示。
圖4 基于WordBERT 和BiLSTM 的政策工具自動(dòng)分類方法研究流程Fig.4 The Research Process of Automatic Classification Method of Policy Tools Based on WordBERT and BiLSTM
本文以國(guó)內(nèi)目前相對(duì)較為權(quán)威和全面的法律法規(guī)政策庫(kù)“北大法寶”為依據(jù),分別構(gòu)建、標(biāo)注數(shù)據(jù)治理和數(shù)字經(jīng)濟(jì)兩個(gè)數(shù)據(jù)集。其一,檢索篩選出數(shù)據(jù)治理相關(guān)政策1,097份(截至2021年12月15日),根據(jù)其效力級(jí)別進(jìn)一步選取法律、行政法規(guī)、部門規(guī)章、國(guó)務(wù)院規(guī)范性文件、部門規(guī)范性文件等核心政策440份,進(jìn)行政策工具編碼。其二,檢索篩選出各地方數(shù)字經(jīng)濟(jì)政策290份(截至2021年12月15日),此部分對(duì)全部政策進(jìn)行編碼。在政策單元切分方面,主要依據(jù)段落、小標(biāo)題以及長(zhǎng)段落中的分號(hào)來進(jìn)行,因?yàn)槿绻麅H僅以段落來切分政策單元,則一個(gè)段落中極可能出現(xiàn)多個(gè)政策工具,即變?yōu)槎鄻?biāo)簽分類問題導(dǎo)致偏差。本研究中的政策工具編碼工作分別來源于其他兩項(xiàng)研究,由主導(dǎo)人分別帶領(lǐng)小組進(jìn)行編碼,各編碼工作平行進(jìn)行,最后由各自領(lǐng)域的兩位專家進(jìn)行校驗(yàn)和篩選,以保證標(biāo)注數(shù)據(jù)的質(zhì)量,經(jīng)統(tǒng)計(jì),編碼一致性高達(dá)98%。最終,分別獲得包含有2433條、6477條政策工具的兩個(gè)較高質(zhì)量的數(shù)據(jù)集①https://github.com/ChaoguangHuo/policy_tools_classification。
關(guān)于政策工具自動(dòng)分類模型,本文強(qiáng)調(diào)通過無監(jiān)督文本表示學(xué)習(xí)和有監(jiān)督深度學(xué)習(xí)分類的思路構(gòu)建模型,從而達(dá)到完全自動(dòng)分類的效果。在無監(jiān)督文本表示學(xué)習(xí)方面,考慮到中文的特殊性,如果使用預(yù)訓(xùn)練模型,則只有基于中文預(yù)訓(xùn)練的才可掌握中文表達(dá)的規(guī)律,因此本文提出基于在中文語(yǔ)料上訓(xùn)練出的WordBERT-ZH預(yù)訓(xùn)練模型。在深度學(xué)習(xí)分類算法方面,本文提出基于BiLSTM,在WordBERT-ZH訓(xùn)練出的句子向量基礎(chǔ)上,接入全連接層進(jìn)行分類,具體政策工具自動(dòng)分類模型架構(gòu)如圖5所示。
圖5 基于WordBERT 和BiLSTM 的政策工具自動(dòng)分類模型Fig.5 The Automatic Classification Model of Policy Tools Based on WordBERT and BiLSTM
WordBERT-ZH是Bert在中文語(yǔ)料下的一個(gè)變體。Bert(Bidirectional Encoder Representation from Transformers)是谷歌AI提出的一種基于Transformer編碼器的語(yǔ)言預(yù)訓(xùn)練向量表示模型,發(fā)布之初在11種自然語(yǔ)言處理測(cè)試任務(wù)中均取得最佳的效果,主要有BERT-Base和BERT-Large兩個(gè)代表性模型[21]。WordBERT-ZH是由Feng等人于2022年提出的一系列無需拆分單詞的Bert改進(jìn)版,尤其針對(duì)中文語(yǔ)料訓(xùn)練出了WordBERT-ZH預(yù)訓(xùn)練模型,在分類、推理以及關(guān)鍵字識(shí)別等任務(wù)方面均超出以往BERT-Base、RoBERTa-base、WoBERT、MarkBERT等預(yù)訓(xùn)練模型[22]。基于WordBERT的政策工具分類需要以下兩步,第一步,利用大規(guī)模未標(biāo)注的中文政策文本語(yǔ)料進(jìn)行自監(jiān)督訓(xùn)練,綜合詞語(yǔ)在各種情境中的表達(dá),充分學(xué)習(xí)政策文本的語(yǔ)言特征,得到文本的深層次向量表示,進(jìn)而得到預(yù)訓(xùn)練模型,不過鑒于普通算力無法訓(xùn)練出此大規(guī)模的預(yù)訓(xùn)練模型,而學(xué)術(shù)與業(yè)界也尚無基于政策文本的預(yù)訓(xùn)練模型,因此本文選擇基于普通文本的預(yù)訓(xùn)練模型WordBERT-ZH;第二步,結(jié)合具體任務(wù)進(jìn)行微調(diào),即將預(yù)訓(xùn)練得到的網(wǎng)絡(luò)參數(shù)作為初始模型,輸入分類任務(wù)所標(biāo)注的數(shù)據(jù)集,進(jìn)一步調(diào)整部分參數(shù),使其在所分類任務(wù)中達(dá)到較優(yōu)的結(jié)果[23]。本研究在WordBERT-ZH模型(模型參數(shù)高達(dá)3.26億)基礎(chǔ)上,輸入政策工具標(biāo)注數(shù)據(jù)集進(jìn)行微調(diào),設(shè)置樣本輸入最大長(zhǎng)度500,以充分學(xué)習(xí)一個(gè)政策單元的所有語(yǔ)義關(guān)系信息。
BiLSTM由正向和反向LSTM組成。LSTM是深度學(xué)習(xí)遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的變體,強(qiáng)調(diào)將時(shí)序概念引入到神經(jīng)網(wǎng)絡(luò)中,以增強(qiáng)神經(jīng)網(wǎng)絡(luò)對(duì)長(zhǎng)期時(shí)序數(shù)據(jù)的記憶能力,通過輸入門、輸出門、遺忘門三個(gè)門控制機(jī)制,處理長(zhǎng)距離依賴的時(shí)間序列數(shù)據(jù)[24]。LSTM在學(xué)習(xí)時(shí)間序列數(shù)據(jù)方面,表現(xiàn)較好,因此從理論上對(duì)于處理具有較長(zhǎng)語(yǔ)義關(guān)系的文本應(yīng)該也有不錯(cuò)的結(jié)果[25]。LSTM雖然解決了長(zhǎng)期時(shí)序數(shù)據(jù)的記憶方面的問題,但是其在處理時(shí)序數(shù)據(jù)時(shí)是單向的,對(duì)于需要雙向考慮的政策單元文本序列數(shù)據(jù)可能會(huì)存在一定的不足。因此本文采納BiLSTM算法[26],強(qiáng)調(diào)從兩個(gè)方向?qū)φ邌卧蛄羞M(jìn)行訓(xùn)練,不僅考慮到詞匯之前的語(yǔ)義信息,還考慮到詞匯之后的語(yǔ)義信息,即充分考慮詞匯所在的上下文信息,實(shí)現(xiàn)時(shí)序數(shù)據(jù)的雙向記憶。
針對(duì)政策工具分類研究任務(wù),在處理政策文本時(shí),如果依據(jù)常規(guī)停用詞表直接去掉停用詞[27],勢(shì)必會(huì)影響政策語(yǔ)義表達(dá)的完整度,例如如果直接去掉“為了”停用詞,那么原本是目標(biāo)規(guī)劃一類的政策工具,可能就會(huì)被誤識(shí)別為政策支持,甚至被識(shí)別為法規(guī)管制?!案鶕?jù)”“為了”“朝著”“依照”“遵照”“鑒于”“即令”“對(duì)于”“按照”等常規(guī)文本處理時(shí)的停用詞,對(duì)于政策文本來說是理解政策內(nèi)容的重要提示詞,對(duì)于政策表達(dá)具有重要意義[28]。由此可見常規(guī)文本處理時(shí)所用的停用詞表,對(duì)于政策文本具有較大弊端,尤其是對(duì)于TFIDF這種完全基于詞頻而缺乏語(yǔ)義的文本向量學(xué)習(xí)方法[29],因此本文在對(duì)本文進(jìn)行向量化表示時(shí),不作停用詞處理,以此保證政策工具表達(dá)的完整性,這也是本文提出基于WordBERT構(gòu)建政策工具自動(dòng)分類模型的主要原因。
數(shù)據(jù)治理政策和數(shù)字經(jīng)濟(jì)政策是兩個(gè)具有不同特征的政策工具標(biāo)注數(shù)據(jù)集,其中數(shù)據(jù)治理政策工具標(biāo)注數(shù)據(jù)集全部是中央相關(guān)部門出臺(tái)的政策,由法律、行政法規(guī)、部門規(guī)章、國(guó)務(wù)院規(guī)范性文件、部門規(guī)范性文件等組成,其文體段落分明、內(nèi)容簡(jiǎn)潔,總條目相對(duì)較少,本文共計(jì)標(biāo)注有2,433個(gè)政策工具樣本;數(shù)字經(jīng)濟(jì)政策標(biāo)注數(shù)據(jù)集則全部是地方政府相關(guān)部門出臺(tái)的政策,由地方規(guī)范性文件、地方工作文件、地方性法規(guī)等組成,其文本目錄較多,并且層層嵌套,內(nèi)容更加具體,總條目相對(duì)較多,共計(jì)有6,477個(gè)政策工具樣本。因此,本文對(duì)兩個(gè)數(shù)據(jù)集分別進(jìn)行實(shí)驗(yàn),以檢驗(yàn)不同表示學(xué)習(xí)和機(jī)器學(xué)習(xí)分類算法對(duì)不同層面政策文本的學(xué)習(xí)和識(shí)別能力,最后再對(duì)總數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。對(duì)于每一個(gè)數(shù)據(jù)集,本文均按照6:2:2的比例劃分訓(xùn)練集、驗(yàn)證集、測(cè)試集,依此分別進(jìn)行三組實(shí)驗(yàn)。
鑒于在政策工具分類方法方面,尚無成熟基線方法,因此本文選擇將構(gòu)建的政策工具自動(dòng)分類模型,同其他文本表示學(xué)習(xí)和機(jī)器學(xué)習(xí)分類算法等組合形成的模型進(jìn)行對(duì)比,例如TF-IDF、Doc2vec等文本表示學(xué)習(xí)算法[30],以及RandomForest、SVM、LSTM、CNN-LSTM、BiGRU等分類算法進(jìn)行對(duì)比分析。本研究實(shí)驗(yàn)設(shè)備為集成服務(wù)器,最大運(yùn)行內(nèi)存為94G,存儲(chǔ)硬盤8T,包含5塊Nvidia Titan RTX顯卡,單塊GPU內(nèi)存24G。其中TF-IDF平均用時(shí)較短,在幾分鐘內(nèi)即可訓(xùn)練完畢,Doc2vec在幾十分鐘內(nèi)即可訓(xùn)練完畢,WordBERT-ZH每次訓(xùn)練均在24小時(shí)以上,甚至更長(zhǎng)時(shí)間。經(jīng)過近半個(gè)月的模型調(diào)參、模型訓(xùn)練,最終確定較優(yōu)參數(shù)設(shè)置,完成三組對(duì)比實(shí)驗(yàn),相關(guān)數(shù)據(jù)以及詳細(xì)代碼請(qǐng)見GitHub 。
政策工具的自動(dòng)分類屬于典型的多類別文本分類問題,因此以精確率(Precision)、召回率(Recall)、F1(F1-score)三個(gè)指標(biāo)綜合評(píng)估分類模型優(yōu)劣最為直觀,也最具說服力。其中準(zhǔn)確率是指分類器對(duì)整個(gè)樣本的判斷能力,即正確的分類樣本數(shù)與總樣本數(shù)的比例;召回率是指分類器判定為正且判斷正確的樣本數(shù)與真實(shí)正樣本數(shù)的比例;F1值是指綜合精確率Precision和召回率Recall的調(diào)和平均數(shù),各評(píng)估指標(biāo)計(jì)算方法如下:
本文對(duì)數(shù)據(jù)治理政策數(shù)據(jù)集、數(shù)字經(jīng)濟(jì)政策數(shù)據(jù)集以及兩個(gè)數(shù)據(jù)的合集,分別進(jìn)行三組實(shí)驗(yàn)。在每組實(shí)驗(yàn)中,分別檢驗(yàn)TF-IDF、Doc2vec、WordBERT-ZH等不同表示學(xué)習(xí)算法對(duì)不同層面和不同規(guī)模政策文本的特征學(xué)習(xí)能力,分別檢驗(yàn)Random Forest、SVM等傳統(tǒng)機(jī)器學(xué)習(xí)分類算法以及LSTM、BiLSTM、CNNLSTM、BiGRU等深度學(xué)習(xí)分類算法對(duì)政策工具類型特征的擬合能力。
第一組實(shí)驗(yàn),如表2所示,在數(shù)據(jù)治理政策數(shù)據(jù)集上,TF-IDF+RandomForest、TF-IDF+BiLSTM組合模型效果相對(duì)較好,其準(zhǔn)確率分別達(dá)到64.72%和64.77%,召回率分別為66.39%和68.87%,當(dāng)限定TF-IDF表示學(xué)習(xí)算法時(shí),無論是傳統(tǒng)機(jī)器學(xué)習(xí)分類算法,還是深度學(xué)習(xí)算法,其差異相對(duì)較小。本文提出的WordBERTZH+BiLSTM政策工具自動(dòng)分類模型,雖然準(zhǔn)確率不是最高的,但綜合來看效果也相當(dāng)不錯(cuò)。
表2 模型分類結(jié)果評(píng)估(數(shù)據(jù)治理政策數(shù)據(jù)集)Table 2 The Evaluation Result of Model Classification(Data Governance Policy Dataset)
第二組實(shí)驗(yàn),如表3所示,在數(shù)字經(jīng)濟(jì)政策數(shù)據(jù)集上,WordBERT-ZH+BiGRU、WordBERT-ZH+BiLSTM模型明顯優(yōu)于其他模型,準(zhǔn)確率分別為69.29%和73.48%,召回率分別為66.32%和70.55%。當(dāng)限定BiLSTM機(jī)器學(xué)習(xí)算法時(shí),TF-IDF和WordBERT-ZH兩種表示學(xué)習(xí)算法的最終準(zhǔn)確率相差高達(dá)10個(gè)百分點(diǎn),召回率也相差7個(gè)百分點(diǎn)。對(duì)于此包含6477個(gè)樣本的數(shù)據(jù)集,WordBERT-ZH表示學(xué)習(xí)算法是明顯優(yōu)于TFIDF、Doc2vec等算法的,深度學(xué)習(xí)算法也愈加優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)分類算法。由此可見只有在一定規(guī)模的數(shù)據(jù)集上,大型預(yù)訓(xùn)練模型才更能發(fā)揮其對(duì)語(yǔ)義理解和學(xué)習(xí)的優(yōu)勢(shì),例如本文所用的WordBERT-ZH總參數(shù)為3.26億個(gè),微調(diào)參數(shù)118.40萬個(gè),只有輸入足夠多的數(shù)據(jù)使其充分進(jìn)行參數(shù)微調(diào),Bert系列模型才能發(fā)揮其優(yōu)勢(shì)。
表3 模型分類結(jié)果評(píng)估(數(shù)字經(jīng)濟(jì)政策數(shù)據(jù)集)Table.3 The Evaluation Result of Model Classification(Digital Economy Policy Dataset)
第三組實(shí)驗(yàn),如表4所示,在數(shù)據(jù)治理和數(shù)字經(jīng)濟(jì)政策兩個(gè)數(shù)據(jù)合集上,基于WordBERT-ZH的組合效果最好,TF-IDF次之,Doc2vec較差。由此可見,TFIDF自身雖有不足,但在政策工具自動(dòng)分類方面,其模型簡(jiǎn)單,訓(xùn)練速度快,仍具有一定應(yīng)用空間;本研究對(duì)Doc2vec向量維度訓(xùn)練以及各種參數(shù)調(diào)整方面,在目前參數(shù)設(shè)置的基礎(chǔ)上,其結(jié)果相對(duì)較差,可見對(duì)政策文本進(jìn)行簡(jiǎn)單向量表示的處理方式,在政策工具分類方面具有較大局限性;WordBERT-ZH與深度學(xué)習(xí)算法的組合,明顯優(yōu)于其他方法組合,當(dāng)數(shù)據(jù)樣本達(dá)到一定規(guī)模時(shí),Bert的優(yōu)勢(shì)就會(huì)彰顯,雖然其訓(xùn)練速度較慢、訓(xùn)練成本較高,但是其在準(zhǔn)確率和召回率等方面的優(yōu)勢(shì)是顯著可見的。并且隨著數(shù)據(jù)樣本的增多,深度學(xué)習(xí)算法較傳統(tǒng)機(jī)器學(xué)習(xí)分類算法,也具有明顯優(yōu)勢(shì)。綜合所有實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),本文提出的基于WordBERT-ZH和BiLSTM的政策工具自動(dòng)分類模型,明顯優(yōu)于其他模型組合,準(zhǔn)確率達(dá)到73.91%,召回率達(dá)到71.29%,F(xiàn)1值達(dá)到71.46%,相對(duì)于其他方法,是目前最為有效的一種政策工具自動(dòng)分類方法。
表4 模型分類結(jié)果評(píng)估(數(shù)據(jù)治理和數(shù)字經(jīng)濟(jì)兩個(gè)數(shù)據(jù)集)Table.4 The Evaluation Result of Model Classification(Data Governance and Digital Economy Policy Dataset)
政策工具是政府為實(shí)現(xiàn)政策目標(biāo),將其行政理念轉(zhuǎn)為切實(shí)行動(dòng)的手段和方法,是政策量化分析的重要版塊。鑒于當(dāng)前政策工具分析仍停留在手工分類階段,存在標(biāo)準(zhǔn)不統(tǒng)一、難以復(fù)現(xiàn)、規(guī)模小、成本高等一系列問題,本文提出利用表示學(xué)習(xí)、機(jī)器學(xué)習(xí)分類等算法,對(duì)政策文件中的政策工具進(jìn)行自動(dòng)分類。本文系統(tǒng)梳理了現(xiàn)有的政策工具分類框架,在Rothwell和Zegveld政策工具分類體系基礎(chǔ)上,提出構(gòu)建基于WordBERTZH和BiLSTM的政策工具自動(dòng)分類模型,并對(duì)模型進(jìn)行檢驗(yàn)。
以數(shù)據(jù)治理和數(shù)字經(jīng)濟(jì)政策數(shù)據(jù)集為例,經(jīng)過三組實(shí)驗(yàn),本文發(fā)現(xiàn)對(duì)于數(shù)據(jù)治理小數(shù)據(jù)集,無論是小型TF-IDF還是大型預(yù)訓(xùn)練WordBERT-ZH模型,其分類結(jié)果差異較小。但是隨著數(shù)據(jù)樣本的增加,在數(shù)字經(jīng)濟(jì)政策數(shù)據(jù)集和兩類政策合集時(shí),WordBERT-ZH表示學(xué)習(xí)算法明顯優(yōu)于TF-IDF、Doc2vec等算法,并且深度學(xué)習(xí)算法也愈加優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)分類算法。由此可見,在數(shù)據(jù)達(dá)到一定規(guī)模,大型預(yù)訓(xùn)練模型才能更加充分進(jìn)行參數(shù)微調(diào),以更好發(fā)揮其在語(yǔ)義理解和學(xué)習(xí)方面的優(yōu)勢(shì)。在三組實(shí)驗(yàn)中,相較于其他組合模型,本文提出的基于WordBERT-ZH和BiLSTM的政策工具自動(dòng)分類模型效果最好,準(zhǔn)確率達(dá)到73.91%,召回率達(dá)到71.29%,F(xiàn)1值達(dá)到71.46%,是目前政策工具自動(dòng)識(shí)別領(lǐng)域較為有效的一種方法。
雖然本文使用了兩個(gè)數(shù)據(jù)集,但是樣本量仍然是比較有限的,限制了準(zhǔn)確率的進(jìn)一步提升。目前政策工具標(biāo)注數(shù)據(jù)開放程度較低,雖幾經(jīng)聯(lián)系以往作者所標(biāo)注的政策工具,但仍然很難獲取到相關(guān)數(shù)據(jù),政策工具自動(dòng)分類領(lǐng)域研究仍需構(gòu)建并開放大規(guī)模高質(zhì)量的標(biāo)注數(shù)據(jù),以此才有望實(shí)現(xiàn)更高精度的政策工具分類,促成對(duì)海量政策文件的全局分析。此外限于目前所用預(yù)訓(xùn)練模型WordBERT-ZH并不是專門針對(duì)政策文本進(jìn)行訓(xùn)練的,未來仍需要專門圍繞政策文本進(jìn)行預(yù)訓(xùn)練,只有基于更有針對(duì)性的模型和更多的標(biāo)注數(shù)據(jù),政策工具識(shí)別準(zhǔn)確率才有望進(jìn)一步得到提升。
作者貢獻(xiàn)說明
霍朝光:研究設(shè)計(jì),模型構(gòu)建,進(jìn)行實(shí)驗(yàn),論文撰寫;
霍帆帆:數(shù)據(jù)標(biāo)注,論文修改;
王婉如:數(shù)據(jù)標(biāo)注;
余芊蓉:實(shí)驗(yàn)支持;
楊冠燦:研究設(shè)計(jì)。
支撐數(shù)據(jù)
支撐數(shù)據(jù)可開放獲取,獲取地址為:https://github.com/ChaoguangHuo/policy_tools_classification。