王 芳,徐路路
(南開大學(xué)商學(xué)院信息資源管理系,天津300071)
政策,是一套用于指導(dǎo)政治、經(jīng)濟或商業(yè)決策的思想、原則或計劃體系。公共政策,是指由政府機構(gòu)或其代表頒布的關(guān)于特定主題的法律、監(jiān)管措施、行動方針或資金優(yōu)先權(quán)方案。2003年,Ander‐son[1]提出公共政策制定的周期一般包括五個階段:①問題識別與議程設(shè)置;②政策提出;③政策采納;④政策實施;⑤政策評估。其中,政策實施是指為使政策生效或問題得以解決而采取的行動。政策實施過程同時包含著政策的擴散。政策擴散既是政策實施的前提,也是政策實施的結(jié)果。1983年,Lucas[2]認(rèn)為擴散過程滲透到政策決策過程中的頻率遠(yuǎn)遠(yuǎn)高于公共政策被普遍接受的概率。目前,國外關(guān)于政策擴散的研究大多聚焦于地方政府間的橫向?qū)W習(xí)和競爭[3]。在我國,政策擴散受自上而下政治權(quán)威的影響較大,中央政府在政策層級擴散中發(fā)揮著核心倡導(dǎo)者和推動者的作用。地方政府在領(lǐng)會和貫徹執(zhí)行中央政策的過程中進(jìn)行政策的部署、創(chuàng)新和發(fā)展。探測地方政府在傳達(dá)和執(zhí)行中央政策過程中的意愿、效果和創(chuàng)新,可以促進(jìn)各級政府更加切實、有效地執(zhí)行政策;同時,比較不同省市地區(qū)在政策擴散中的傾向性和區(qū)域部署,可以為政策創(chuàng)新與政府治理提供全方位、深層次、前瞻性的信息指引。
在政府體系內(nèi),公共政策通常以公文流轉(zhuǎn)的形式進(jìn)行傳達(dá),體現(xiàn)為法律、條例、規(guī)定以及公報、命令、決定、報告、通知、實施方案等。公文是行政機關(guān)為有效開展各類公務(wù)活動,傳達(dá)貫徹國家方針、政策、決議而形成的具有特定法律效應(yīng)的文種,具有權(quán)威性、準(zhǔn)確性、規(guī)范性和前瞻性的特點。中央政府的政策類公文一般代表國家未來戰(zhàn)略部署和對重點遴選領(lǐng)域的發(fā)展規(guī)劃及指導(dǎo)意見[4]。公文與政令文件在不同層級政府間的傳遞可能伴隨著政令主題變遷、政策失靈(如替換式失靈、象征式失靈及選擇式失靈等)以及政策構(gòu)件分解等問題[5]。根據(jù)文本特征和內(nèi)容特征進(jìn)行有效的政策解析,分析從中央到省部再到市區(qū)縣的擴散過程中政策主題的演變,對于認(rèn)識政策的垂直擴散規(guī)律具有重要意義,同時也為大數(shù)據(jù)時代政策擴散研究提供一種新思路、新視角。
一個政府的政策選擇或創(chuàng)新會受到其他政府的影響。1966年,Crain[6]研究了創(chuàng)新在城市間的擴散之后,半個多世紀(jì)以來,科研人員圍繞政策擴散的機制、形式、框架等內(nèi)容展開了廣泛研究。1983年,Rogers[7]對政策擴散的內(nèi)涵、外延以及本質(zhì)屬性進(jìn)行了界定和拓展,并指出政策擴散本質(zhì)是社會成員利用某一渠道(公文、社交、指示等)實現(xiàn)溝通交流而形成機制創(chuàng)新和政策變遷的過程。2008年,Shipan等[8]提出,政策擴散是指在內(nèi)外部壓力之下,政策創(chuàng)新從一個政府傳播到另一個政府的過程。除了水平政策擴散之外,由自上而下的壓力而導(dǎo)致的垂直政策擴散也受到了學(xué)者們的關(guān)注,如Berry等[9]和Sugiyama[10]。在垂直擴散中,學(xué)習(xí)和競爭不再是政策擴散的關(guān)鍵要素,中央政府的核心作用更加明顯。歐洲的公共政策研究通常側(cè)重于將歐盟與國內(nèi)政治的縱向聯(lián)系作為政策變化的主要解釋因素[11]。Kim等[12]基于2018年美國50個州的數(shù)據(jù)的研究發(fā)現(xiàn),一項政策從州到其下屬地方政府的縱向擴散取決于州的財政能力和地方政府的人事能力。
大量研究聚焦于政策擴散的時空演變規(guī)律。1971年,Brown等[13]運用案例分析方法揭示了美國公共政策擴散過程中的時空演變規(guī)律,發(fā)現(xiàn)政策擴散在時間維度上呈S形曲線分布,在空間維度上則呈現(xiàn)出明顯的“層級效應(yīng)”(先行后驅(qū)式)和“鄰近效應(yīng)”(區(qū)域擴散式)。1973年,Gray[14]對教育、公民福利等領(lǐng)域政策的擴散強度和擴散速度進(jìn)行分析,并構(gòu)建了公共政策擴散的評價模型。1994年,Berry[15]將政策擴散模式總結(jié)為:全國互動模型(The National Interaction Model)、區(qū)域擴散模型(The Regional Diffusion Model)、領(lǐng) 導(dǎo)-跟 進(jìn) 模 型(Leader-Laggard Model)、垂直影響模型(Vertical Influence Models)。2007年,Karch[16]對政策擴散時空演變前期的發(fā)展進(jìn)行了探究,多維度分析政策創(chuàng)新和擴散機制成因。2008年,Shipan等[8]總結(jié)了政策擴散的7個教訓(xùn):政策擴散不只是相似政策的地理集聚;地方政府之間相互競爭;政府互相學(xué)習(xí);政策擴散不總是有益的;在政策擴散中政治與政府能力十分重要;政策擴散取決于政策自身;去中心化對于政策擴散至關(guān)重要。2012年,周望[17]分析了中國“政策試驗”實踐中以“試驗-推廣”為基本特征的政策擴散過程,認(rèn)為這一過程呈現(xiàn)為一個在多層級間互動的立體化網(wǎng)絡(luò),即水平擴散過程會受到政府層級結(jié)構(gòu)的垂直性影響。針對政策擴散時空演變問題開展研究的學(xué)者還有Shimogawa等(2012,日本城市農(nóng)村政策擴散分析)[18]、Gatrell(1984,空間擴散模型體系構(gòu)建)[19]以及吳建南等(2007,中國政府創(chuàng)新擴散要素分析)[20]、孫慧(2017,中國地市級政策擴散分析)[21]等。
政策擴散機制和驅(qū)動因素也受到了較多關(guān)注。1969年,Walker[22]對美國各州創(chuàng)新政策的實施、發(fā)展和擴散過程進(jìn)行了研究,指出州際信息網(wǎng)絡(luò)是影響公共政策擴散的重要因素,該成果標(biāo)志著政策創(chuàng)新與政策擴散理論的產(chǎn)生。Mintrom[23]認(rèn)為,溝通網(wǎng)絡(luò)及政策信息交流平臺對政策傳播發(fā)揮著重要推動作用。1990年,Berry等[24]指出,政策擴散演變過程受系統(tǒng)內(nèi)部激勵促進(jìn)因素(經(jīng)濟、社會、歷史等)和外部推動因素(政策創(chuàng)新、強制推動)的影響。2007年,Karch[16]總結(jié)了4種政策擴散的機制,并指出分析政策擴散現(xiàn)象時,需要關(guān)注地理鄰近、模仿、效仿、競爭等因素。2009年,Marsh等[25]在學(xué)習(xí)、競爭、強制和模仿4種機制的基礎(chǔ)上,指出在政策擴散過程中存在政策發(fā)展遷移和演變的現(xiàn)象。此外,2011年,Makse等[26]認(rèn)為政策自身的復(fù)雜性、兼容性、可觀察性、相對優(yōu)勢和可試驗性對于其擴散也具有重要影響。2016年,張劍等[27]對科技成果轉(zhuǎn)化政策的擴散機制進(jìn)行了量化分析,發(fā)現(xiàn)不同類型(規(guī)劃類、法律類等公共政策)的政策在擴散的強度、速度、廣度和方向四個維度上有所不同。
綜上所述,目前政治學(xué)、公共政策、國際關(guān)系、情報學(xué)以及區(qū)域政策分析等領(lǐng)域的學(xué)者,基于政策擴散的理論框架和研究假設(shè),開展中國政策擴散的探索研究,取得了豐富的研究成果。同時,也存在一些問題。首先,中國政府結(jié)構(gòu)和政令執(zhí)行系統(tǒng)不同于歐美國家,在政策擴散與創(chuàng)新模式上存在較大差異,例如,美國政策試驗多是單個州立法,通過之后各州自愿模仿和學(xué)習(xí)[28];而中國的政策實施過程多是中央主導(dǎo)開展試點,并進(jìn)行自上而下的傳達(dá)和執(zhí)行,上級政府以意見、通知、命令等公文形式實現(xiàn)政策的逐級擴散,處于層級結(jié)構(gòu)頂端的政策推動者有力保障了政策的實施和落實[29],因此,政策擴散模式更多為自上而下的層級式擴散。其次,國內(nèi)研究大多關(guān)注政策擴散與區(qū)域經(jīng)濟、?。ㄊ校╅L年齡等變量間的相關(guān)關(guān)系,而對政策內(nèi)容本身的擴散關(guān)注不足[30-31]。第三,相關(guān)研究多采用案例研究(如低保政策[32]、養(yǎng)老保險政策[33]以及行政審批制度[34]等)以及Berry提出的事件史分析方法(如文獻(xiàn)[1-2,35])。案例研究方法有利于發(fā)現(xiàn)新的理論性要素,但是卻無法有效識別多源異構(gòu)大規(guī)模政策公文的主題信息,從而難以進(jìn)行深層的政策主題統(tǒng)計分析。大數(shù)據(jù)背景下,基于海量政府公文的挖掘與探測成為政策研究關(guān)注的新興領(lǐng)域[36-37],但是運用關(guān)鍵詞詞頻統(tǒng)計、內(nèi)容分析等傳統(tǒng)文本分析方法無法準(zhǔn)確揭示政策文本主題的演變與擴散情況[38-40]。因此,本文將根據(jù)我國政策擴散的特點,以大數(shù)據(jù)政策為例,運用文本挖掘方法深入文本內(nèi)部識別政策文件的主題、側(cè)重點以及擴散模式,通過對大規(guī)模政府公文的信息抽取與主題挖掘,多維度分析政策發(fā)布時間、布局?jǐn)?shù)量、政策主題強度、執(zhí)行部門數(shù)量等特征,提出一種基于多特征融合的政策擴散傾向性指標(biāo)模型,對政策執(zhí)行主體采納特定政策的意愿程度進(jìn)行量化分析。
目前,我國的政策制定體系為:中共中央辦公廳、國務(wù)院辦公廳及其組成部門負(fù)責(zé)領(lǐng)導(dǎo)全國黨政機關(guān)工作,制定國家級政策條例和管理辦法,而地方性法規(guī)政策的審定、批準(zhǔn)及實施由各級地方政府完成。在政策傳達(dá)過程中,各省、自治區(qū)、直轄市等政府部門承接中央決策與指令,通過部門協(xié)調(diào)、調(diào)研咨詢等方式制定區(qū)域性指導(dǎo)政策,傳達(dá)黨中央和國務(wù)院的決定、通知、公告、意見及批復(fù)等信息;地區(qū)級行政單位根據(jù)本地的產(chǎn)業(yè)結(jié)構(gòu)、社會需求、經(jīng)濟側(cè)重點等開展具體的行政管理與公共服務(wù)。公文是政策信息的物理載體。公文流轉(zhuǎn)體現(xiàn)了從中央到省部再到各地市的政策垂直擴散過程[41]。根據(jù)公文流轉(zhuǎn)及公文使用特點,將政策類公文在三級行動主體間的流轉(zhuǎn)架構(gòu)圖如圖1所示。
在本文中,政策層級擴散主要是指一項政策自上而下地、從中央到省部再到地市的垂直擴散過程。根據(jù)我國政策擴散的特點,將政策執(zhí)行主體劃分為中央、省(自治區(qū)、直轄市)、地市縣三級行動主體,運用文本挖掘方法分析政策文件的要素構(gòu)件及政策側(cè)重點。同時,公共政策、法律政策以及產(chǎn)業(yè)政策等政策種類的不同對于政策制定和擴散有不同的影響,因此,本文需要根據(jù)特定公文文本的結(jié)構(gòu)特征與要素特征,提出基于多特征要素融合的政策擴散傾向性探測指標(biāo)模型,對政策執(zhí)行主體執(zhí)行特定政策的意愿程度進(jìn)行分析。本文的總體分析框架如圖2所示。
圖1 我國政策公文層級流轉(zhuǎn)架構(gòu)圖
圖2 政策層級擴散的分析架構(gòu)
3.2.1政策擴散主題維度分析
本文采用主題概率模型對公文文本進(jìn)行主題識別,分析我國政府從中央到省部再到地方的政策擴散過程和政令部署主題信息,揭示政策擴散的主題發(fā)展、繼承、變遷等行為。LDA(Latent Dirichlet Allocation)是一種文檔主題生成模型,包含了詞、主題和文檔三層結(jié)構(gòu)之間的多項式分布信息。作為一種非監(jiān)督機器學(xué)習(xí)技術(shù),LDA可以有效識別文檔集或語料庫中潛藏的主題信息[42-43],分析公文文本中的政策變遷與演變過程。LDA主題模型的聯(lián)合分布概率可以表示為
利用LDA模型可以得到文檔-主題-主題詞三維映射矩陣,通過計算中央與各省級單位、省級單位與地市級單位不同主題的相似度,可以構(gòu)建不同行政級別上政策主題的關(guān)聯(lián)路徑,確定政策擴散的發(fā)展、創(chuàng)新與演進(jìn)脈絡(luò)關(guān)系。本文采用點積余弦相似度算法[44]計算政策主題相似度,以完成各機構(gòu)政策主題的關(guān)聯(lián)構(gòu)建。
3.2.2 政策擴散的傾向性分析
政策擴散傾向性,是指特定行政主體執(zhí)行與傳播某一政策的意愿。就大數(shù)據(jù)政策而言,擴散傾向性分析是指對各級政府是否愿意圍繞大數(shù)據(jù)主題開展一系列的政治經(jīng)濟布局,以及在大數(shù)據(jù)促進(jìn)產(chǎn)業(yè)升級、提升政府治理效能等政策創(chuàng)新方面的能力和意愿進(jìn)行量化研究。一個政府的政策擴散傾向性越強,越傾向于制定更多的政策文件、動員更廣泛的政策執(zhí)行單位。這一假設(shè)為量化分析特定行政機構(gòu)的政策偏好和政策傾向性奠定了基礎(chǔ)。目前,主要的量化分析方法有Walker[22]的政策擴散指數(shù)、Dye等[45]的政策采納模型、Savage[46]的政策創(chuàng)新指數(shù)等,但上述模型僅僅考慮政策發(fā)布時間或數(shù)量等單一維度,未對政策擴散傾向性進(jìn)行多尺度描述和分析。因此,本文嘗試構(gòu)建基于多特征融合的政策擴散傾向性指標(biāo)模型(Policy Diffusion Tendency In‐dex,PDTI),從政策發(fā)布時間、政策布局?jǐn)?shù)量、政策主題強度、執(zhí)行部門數(shù)量等多個維度,綜合量化行政部門的政策執(zhí)行意愿,其中,α、β、γ、θ分別為調(diào)諧系數(shù),各參量設(shè)置為
1)政策發(fā)布時間指標(biāo)(Policy Release Time In‐dex,PRTI)
研究假設(shè):政策發(fā)布時間體現(xiàn)出某一行政單位對上級政策的響應(yīng)能力和重視程度。政策發(fā)布需要專家論證和領(lǐng)導(dǎo)班子研討確定,發(fā)布時間越早表示該政府對上級政策的認(rèn)同越大,對于該領(lǐng)域的政策部署越重視,后續(xù)相關(guān)政策的擴散及發(fā)展演進(jìn)的傾向性也越大。借鑒Walker[22]提出的CIS指數(shù)(Com‐posite Innovation Score,政策創(chuàng)新指數(shù)),本文提出量化政策發(fā)布時間的PRTI指標(biāo),具體為
其中,Ti表示某層級政府單位發(fā)布該主題下某一政策的時間,i取值為0到j(luò)之間,j表示某單位該主題下政策的數(shù)量;Ts表示公文集中該主題下政策發(fā)布的最早時間;Te表示公文集中該主題下的政策發(fā)布的最晚時間;M為同一層級政府單位的數(shù)量;PRTI指標(biāo)反映了某省市單一行政主體的政策發(fā)布時間,該值越大表示政策單位越重視、傾向性越大;APRTI指標(biāo)表示同級別政府單位政策發(fā)布時間指標(biāo)的平均值。
2)政策布局指標(biāo)(Policy Layout Index,PLI)
研究假設(shè):政策布局指標(biāo)表示某層級政府圍繞特定主題展開的政策布局和規(guī)劃情況,包括制定一定數(shù)量的通知、公告及批復(fù)等公文。該指標(biāo)反映了該層級政府的布局強度和布局決心,PLI越大表示政府進(jìn)行了充分的政策分析和戰(zhàn)略布局規(guī)劃,相關(guān)產(chǎn)業(yè)后續(xù)的資金投入和行政管理也會相應(yīng)加大,政策執(zhí)行傾向性越大。政策布局指標(biāo)制定為
其中,Topici表示某政策主題下某一層級單位相關(guān)的政策布局?jǐn)?shù)量為i,i取值范圍為0到j(luò),j為政策布局的總數(shù)量;M為同一層級政府單位的數(shù)量;APLI是對PLI的均值化處理,可以探測同一層級單位政策布局指標(biāo)的平均水平。
3)政策主題強度指標(biāo)(Policy Topic Intensity Index,PTII)
研究假設(shè):政策主題強度指標(biāo)反映一段時間內(nèi)公文文本數(shù)據(jù)源所呈現(xiàn)出的政策熱度、政策關(guān)注度等信息,政策主題強度越大表示該段時間內(nèi)政府圍繞該主題的政策研究和政策創(chuàng)新投入的資金和精力越大,后續(xù)執(zhí)行也具有更強的意愿和主動性。政策主題強度指標(biāo)制定為
其中,w(Ti)表示T主題下的第i個主題詞的權(quán)重;N表示該主題T下的主題詞的個數(shù);m表示某一層級單位下的公文數(shù)量;PLI則表示某一層級行政單位的所有公文所體現(xiàn)出的主題強度值;APLI是PLI的均值處理,表示各個政府單位的平均主題強度值。
4)鄰近機構(gòu)政策引導(dǎo)力指標(biāo)(Neighbor Institu‐tions Policy Guidance Index,NIPGI)
研究假設(shè):鄰近?。ㄊ校┑恼邎?zhí)行與創(chuàng)新狀況會對本省(市)政策的執(zhí)行和創(chuàng)新造成壓力,地理位置因素顯著影響政策擴散[15,47]。如果某一行政機構(gòu)領(lǐng)先于鄰近機構(gòu)實現(xiàn)某項政策的制定和規(guī)劃,那么該機構(gòu)具有更強的政策引導(dǎo)力;若某省政策擴散行為晚于所有鄰近省份,則認(rèn)為其政策引導(dǎo)力為零。同理,假如A省的鄰近政府都采納該政策,B省的鄰近政府尚未采納該政策,即使A與B同時發(fā)布相關(guān)后續(xù)政策,本文仍認(rèn)為B省具有更強的政策引導(dǎo)力。在已有研究基礎(chǔ)[15]上,本文提出鄰近機構(gòu)政策引導(dǎo)力指標(biāo)以考慮地理位置因素的影響,鄰近機構(gòu)政策引導(dǎo)力指標(biāo)制定為
其中,Num(N)表示與某一層級特定政府機構(gòu)相鄰的機構(gòu)的數(shù)量;Num(A)表示與某一層級政府機構(gòu)相鄰且已采納某一政策的機構(gòu)數(shù)量。二者比值反映了該機構(gòu)對于鄰近機構(gòu)的政策輻射和引領(lǐng)作用,ANIPGI表示各單位指標(biāo)的平均值以反映平均水平。該指標(biāo)融合地理信息特征,可以更好地刻畫群體性行政機構(gòu)的政策擴散特征。
5)政策執(zhí)行機構(gòu)數(shù)指標(biāo)(Amount of Policy Im‐plementing Agencies Index,APIAI)
研究假設(shè):政策的有效執(zhí)行和實施是后續(xù)相關(guān)政策制定的基礎(chǔ),政策反饋是實現(xiàn)政策擴散和區(qū)域演進(jìn)的條件[48],政策執(zhí)行機構(gòu)數(shù)量越多,表示該層級行政單位下屬各部門及各事業(yè)單位圍繞該政策進(jìn)行的合作越有效,政策的反饋機制和反饋效果越好,也表明該層級單位政策擴散和政策創(chuàng)新的決心。政策執(zhí)行機構(gòu)數(shù)指標(biāo)制定為
其中,n(topic)表示某層級政府中關(guān)于某一主題政策的執(zhí)行機構(gòu)數(shù)量,該數(shù)值可以利用人工字符串匹配方法實現(xiàn)特定機構(gòu)名稱的抽取,共有m個主題則可求得某一層級單位的政策執(zhí)行機構(gòu)總數(shù);ANPIAI為NPIAI的均值處理,代表大數(shù)據(jù)政策背景下同一層級不同行政單位的執(zhí)行數(shù)量的平均值。
Strang[49]認(rèn)為,政策擴散是指采納某種行動或政策的地區(qū)改變未采納地區(qū)的過程,而地理鄰近位置是影響區(qū)域政策擴散的重要因素。同時,同級政策執(zhí)行機構(gòu)的廣泛參與是政策擴散的試金石和政策創(chuàng)新演進(jìn)的再生驅(qū)動力,有助于完善政策擴散的反饋機制。因此,本文在所構(gòu)建的基于多特征融合的政策擴散傾向性指標(biāo)模型中給予指標(biāo)NIPGI和API‐AI較大權(quán)重,以更好地描述和表達(dá)該指標(biāo)在政策擴散傾向性量化中的作用。
在政策擴散過程中,不同政府的政策公文傳達(dá)的信息和主題并不完全相同。各地區(qū)根據(jù)本地區(qū)產(chǎn)業(yè)結(jié)構(gòu)、經(jīng)濟模式等特點制定的政策,呈現(xiàn)出創(chuàng)新、發(fā)展及演進(jìn)等特征。如何把握我國不同層級政府之間的政策擴散規(guī)律、探索政策內(nèi)容本身的發(fā)展演進(jìn)過程對于提升我國政府治理效能具有重要意義。
為清晰表達(dá)層級政府間政策擴散的規(guī)律,基于上述步驟識別出的政策主題結(jié)果和行政單位的政策擴散傾向性指標(biāo)模型,基于Javascript語言的Web前端可視化技術(shù)設(shè)計一種政策擴散的可視化圖譜,具體如圖3所示。
圖3 層級政策擴散示意圖
圖3 中,橫軸表示我國政府從中央到地方的三級 行 政 機 構(gòu)INS(Institution),INS={Icen,Ipro,Imun}分別表示中央機構(gòu)(center)、省級機構(gòu)(province)和地方機構(gòu)(municipal),P1、P2、P3表示各省級機構(gòu),M1、M2、M3等表示各地方機構(gòu);縱軸表示大數(shù)據(jù)領(lǐng)域政策主題Topic,分別含有{Tc1,Tc2,Tc3}等多個政策子主題,灰色連接表示政策主題的擴散路徑,其粗細(xì)由點積余弦相似度算法求得,幫助政策制定者從宏觀角度把握層級政府間政策主題的擴散路徑,了解地域差異,并掌握政策文本的前繼和后驅(qū)演化規(guī)律。
(1)硬件:Windows10操作系統(tǒng)、i5-4590 CPU、500G HardDrive。
(2)軟件:scrapy抓取框架、pycharm、Knime、Gensim庫 以 及D3等 工 具。
(3)數(shù)據(jù)集:2015年8月,國務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》(國發(fā)[2015]50號),標(biāo)志著大數(shù)據(jù)成為國家級的發(fā)展戰(zhàn)略[50]。之后,國家發(fā)改委、環(huán)保部及各省市地方等推出關(guān)于大數(shù)據(jù)的發(fā)展意見和方案,大數(shù)據(jù)產(chǎn)業(yè)投入和應(yīng)用場景建設(shè)逐漸展開。本文的主要研究政策由中央到地方的擴散過程,故剔除含有“請示”“報告”“函”等明顯標(biāo)志上行文及平行文的公文類型。以2015年為時間起始點,利用scrapy爬蟲框架爬取中央及地方政府網(wǎng)站中標(biāo)題含有“大數(shù)據(jù)”字段的政府公文,結(jié)合公文庫獲取等途徑共獲得有效公文數(shù)據(jù)535條。
4.2.1 參數(shù)設(shè)置與復(fù)雜度計算
實驗采用Gensim中的LDA主題概率識別方法識別項目文本主題,LDA參數(shù)決定主題隨機抽取數(shù)量、平滑系數(shù)、單詞分配主題的概率和識別效率。經(jīng)實驗,設(shè)置文檔-主題分布θ的參數(shù)α設(shè)為0.4,主題-主題詞矩陣分布參數(shù)β設(shè)為0.1,采用Gibbs Sampling估計模型的后驗參數(shù),主題識別效果較好。主題識別需確定公文信息數(shù)據(jù)的主題數(shù)目。復(fù)雜度(Perplexity)是衡量一個語言模型優(yōu)劣常用的一個指標(biāo),定義一個有M篇文檔的文檔集的主題模型的復(fù)雜度為
當(dāng)困惑度取值最小時,主題未出現(xiàn)冗余且具有較好的擬合效果,由此建立主題-文檔的映射關(guān)系及主題數(shù)。本文對中央政策主題數(shù)目及復(fù)雜度動態(tài)對應(yīng)關(guān)系進(jìn)行實驗,在其他參數(shù)如上述表達(dá)情況下,文檔主題數(shù)設(shè)置區(qū)間為[10,200],步進(jìn)單位為25,得到主題數(shù)選擇10時最優(yōu)。
4.2.2 主題表征與關(guān)聯(lián)構(gòu)建
利用LDA主題識別模型可以得到文檔-主題映射與主題-主題詞映射關(guān)系,將中央大數(shù)據(jù)政策與省級、地市等公文文本分別進(jìn)行主題模型試驗。其中,中央公文主題設(shè)置為10,有10個主題詞,省市級文件主題利用復(fù)雜度計算確定其主題數(shù)量。主題-主題詞映射關(guān)系可以根據(jù)權(quán)重大小表征文本內(nèi)容,采用余弦相似定理構(gòu)建中央-省(自治區(qū)、直轄市)-地市三級政策單位的10個主題擴散關(guān)系,確定政策主題演進(jìn)的前繼、后驅(qū)關(guān)系。最后,可得到我國大數(shù)據(jù)領(lǐng)域政策主題在公文流程中的變化情況。表1列舉了大數(shù)據(jù)領(lǐng)域國務(wù)院及其所屬部門發(fā)布政策的10個子主題,主要包括金融、大數(shù)據(jù)區(qū)域試點、醫(yī)療、農(nóng)業(yè)、信用監(jiān)管以及城市設(shè)施建設(shè)和智慧城市等10個方面。表2列舉了中央及各地方大數(shù)據(jù)領(lǐng)域政策中某一主題的主題詞及權(quán)重值情況。以農(nóng)業(yè)子主題為例,國務(wù)院等中央級單位主要從宏觀角度圍繞開展大數(shù)據(jù)農(nóng)業(yè)應(yīng)用、農(nóng)業(yè)技能培訓(xùn)等主題展開,貴州作為省級單位傳達(dá)中央信息政策并在大數(shù)據(jù)+農(nóng)業(yè)方法展開規(guī)劃,六盤水市大數(shù)據(jù)政策開展早于其他城市,建立大數(shù)據(jù)應(yīng)用中心觀摩點、推行云長制度、建立安全保障體系等具體工作;黔南州政府作為市級單位出現(xiàn)了“小鎮(zhèn)”“編制”等主題詞,結(jié)合公文內(nèi)容可以得到該市發(fā)布的《關(guān)于扶持百鳥河數(shù)字小鎮(zhèn)加快發(fā)展的政策措施》,以及建立黔南州大數(shù)據(jù)管理局并對人員編制進(jìn)行了詳細(xì)規(guī)定。本文利用LDA主題模型識別政策主題信息,并利用相似度計算建立不同層級政策主題之間的關(guān)聯(lián),設(shè)定閾值0.4,相似度大于0.4,即判定該層級單位主題與上一層級單位的政策擴散主題關(guān)聯(lián)。
表2 政策主題-主題詞表征(部分)
按照上述研究流程及實驗可知,我國大數(shù)據(jù)領(lǐng)域政策的主題分布以及政策主題在中央級別、省級及地市級三級行政單位的擴散情況。為揭示政策主題在不同機構(gòu)間的擴散規(guī)律,本文基于Javascript語言的Web前端可視化技術(shù),設(shè)計一種我國層級政府間的政策擴散可視化圖譜。如圖3所示,右側(cè)一列Tc金融、Tc醫(yī)療、Tc農(nóng)業(yè)、Tc政府平臺等分別表示中央大數(shù)據(jù)政策的子主題,不同顏色的元素塊大小與主題強度成正比,與表1中Topic1、Topic3、Topic4、Topic5等主題詞一一對應(yīng);第二列表示我國部分省、自治區(qū)、直轄市等二級行政機構(gòu);第三列Tp監(jiān)管、Tp城市設(shè)施等表示由二級行政機構(gòu)向三級行政機構(gòu)(市、州及地方行政公署等)擴散的主題;最后一列為發(fā)布大數(shù)據(jù)政策的城市(包括省會城市)主題分布情況。圖4中灰色連線表示政策擴散的過程,線條粗細(xì)與主題強度成正比。該可視化圖譜可以幫助政策制定者從宏觀角度了解我國政策主題的擴散演進(jìn)。
4.3.1 中央到省級單位的政策擴散主題分析
圖4 層級公文政策擴散主題可視化(部分)
在從中央到地方的政策擴散過程中,各省、直轄市、自治區(qū)根據(jù)本地區(qū)的經(jīng)濟狀況、產(chǎn)業(yè)特色制定不同的政策方針和重點發(fā)展方向,呈現(xiàn)出不同的政策主題分布。本文提出主題擴散比(即某一政府或行政單位所發(fā)布政策的子主題強度值與總主題的比值)概念,用于研究大數(shù)據(jù)政策擴散到不同省份時的主題分布情況,該指標(biāo)可有效表達(dá)該地區(qū)的政策重點主題及占比情況。統(tǒng)計分析見附錄1(前15個省級單位),加黑斜體的主題值表示各省級單位主題擴散比前3位的主題,即各省圍繞大數(shù)據(jù)政策主要展開部署的具體主題。研究結(jié)果發(fā)現(xiàn):①貴州(Topic2、Topic5、Topic7)是大數(shù)據(jù)政策開展最充分的省份,重點關(guān)注方向為:大數(shù)據(jù)試點區(qū)域建立、政府平臺建設(shè)、設(shè)施、制度標(biāo)準(zhǔn)等;②廣東(Topic1、Topic3、Topic6)重點圍繞金融投資領(lǐng)域、市場監(jiān)督與大數(shù)據(jù)醫(yī)療等熱點方向展開政策發(fā)展;③上海(Topic1、Topic2、Topic5)更關(guān)注政府系統(tǒng)、云平臺、云存儲以及試點區(qū)域示范等基礎(chǔ)性工作,為后續(xù)大數(shù)據(jù)在各領(lǐng)域各產(chǎn)業(yè)的有效融合打下基礎(chǔ);④河南(Topic1、Topic4、Topic6)主要對大數(shù)據(jù)與新型農(nóng)業(yè)、農(nóng)業(yè)信息化以及金融等領(lǐng)域的融合進(jìn)行了政策引導(dǎo)與制定;⑤內(nèi)蒙古自治區(qū)對大數(shù)據(jù)在農(nóng)業(yè)和旅游方面的應(yīng)用投入較多關(guān)注;⑥海南省在大數(shù)據(jù)提升旅游服務(wù)方面的政策傾斜尤為明顯,可以推測海南省對于旅游服務(wù)和精準(zhǔn)服務(wù)有著很大的政策需求??傮w來看,各省份對大數(shù)據(jù)與農(nóng)業(yè)、醫(yī)療、金融等領(lǐng)域的融合及示范區(qū)建設(shè)關(guān)注較多,但對與生態(tài)環(huán)境、氣象等領(lǐng)域的融合的關(guān)注度有待于進(jìn)一步提升。
基于Javascript語言的Web前端可視化技術(shù),對我國31個省級行政單位與大數(shù)據(jù)政策主題間的擴散演進(jìn)關(guān)系進(jìn)行了可視化,可清晰表達(dá)大數(shù)據(jù)在省級行政單位的主題擴散關(guān)系,具體如圖5所示。
4.3.2 省級到市級單位的政策擴散主題分析
從省級到市級政府的政策擴散主題分析,可揭示我國地方政府大數(shù)據(jù)政策的部署情況,充分反映我國政策擴散的主題分布特點。市級單位作為我國自上而下政策擴散的第三層行政單位,往往是具體政策的實踐者和執(zhí)行者。不同于中央政策統(tǒng)籌兼顧的特點和省級政府多領(lǐng)域、多主題協(xié)同發(fā)展的特點,市級單位往往按照省政府的政策規(guī)劃和指示,圍繞特定領(lǐng)域特定主題下的政策開展具體工作。因此,了解市級單位對具體政策的執(zhí)行情況對上級政府制定下一步規(guī)劃方針具有重要意義,同時,對于市級單位政策主題內(nèi)容的揭示也有助于人民群眾更好地監(jiān)督政府,使政策內(nèi)容落到實處。
本文選取貴州和廣州作為典型省份,進(jìn)行省級到市級政策擴散的分析。如圖6所示,左側(cè)元素塊表示省級行政單位(貴州省、廣東?。?,中間元素塊表示政策擴散主題,灰色連線粗細(xì)表示主題強度大小,右側(cè)表示各個市級單位。由圖6可見,貴陽市在大數(shù)據(jù)方面表現(xiàn)卓越,主要承接省里政府平臺建設(shè)、政策示范區(qū)試點、城市設(shè)施建設(shè)以及智慧城市發(fā)展等任務(wù),六盤水市在示范區(qū)建設(shè)、大數(shù)據(jù)氣象及醫(yī)療等領(lǐng)域具有一定的部署,銅仁、安順等其他5個城市均在大數(shù)據(jù)政策方面進(jìn)行了一定的規(guī)劃;廣東的市級單位中表現(xiàn)比較好的有深圳、梅州和清遠(yuǎn)3個城市,其中深圳市在大數(shù)據(jù)金融領(lǐng)域表現(xiàn)突出,這也與深圳作為國家經(jīng)濟特區(qū)的地位有關(guān),而梅州、東莞、清遠(yuǎn)、江門、惠州等多個市級單位均在大數(shù)據(jù)領(lǐng)域積極展開戰(zhàn)略部署,說明廣東省的大數(shù)據(jù)政策推動較好。
圖5 我國中央到省級政策擴散的主題可視化
利用本文提出的PDTI模型對不同層級行政機構(gòu)的政策擴散傾向性進(jìn)行計算,多維度考量政策發(fā)布時間、地理鄰近機構(gòu)以及執(zhí)行部門數(shù)量等特征要素,綜合分析特定行政機構(gòu)對于特定政策的擴散意愿和傾向性。
4.4.1 PDTI的分指標(biāo)計算
計算我國31個省級行政機構(gòu)(除港、澳、臺)在PDTI模型中的PRTI、APRTI、PLI、APLI、PTII、APTII、NIPGI、ANIPGI、APIAI、AAPIAI等10個分指標(biāo),具體結(jié)果如附錄2所示。研究結(jié)果發(fā)現(xiàn):
(1)PRTI指標(biāo)靠前的省份有遼寧、湖南、新疆、甘肅、廣東、北京等,其對中央大數(shù)據(jù)政策發(fā)布動態(tài)較為關(guān)注,相關(guān)政策發(fā)布的時間也比較早;
(2)貴州、上海、四川、甘肅等地的PLI值較大,表示這些省份對大數(shù)據(jù)相關(guān)政策具有較強的布局規(guī)劃,發(fā)展大數(shù)據(jù)產(chǎn)業(yè)的傾向性顯著;
(3)上海、山東、重慶、廣東等地的NIPGI值均為1,表示對鄰近省份的政策擴散影響力較大,在區(qū)域內(nèi)發(fā)揮著引領(lǐng)和帶頭作用,而西藏、內(nèi)蒙古、吉林、江蘇等地的NIPGI值為0,表示該省份大數(shù)據(jù)政策制定時間晚于所有周圍省份;
(4)PTII招標(biāo)可深入政策文本內(nèi)容進(jìn)行主題挖掘,APIAI指標(biāo)可對機構(gòu)單位進(jìn)行正則抽取,以反映政策內(nèi)容本身的特點。結(jié)果顯示,貴州、廣東、河南等地具有較大的PTII值,而貴州、甘肅、上海、內(nèi)蒙古等地的APIAI值靠前,表示政策執(zhí)行的反饋機制更加充分。
4.4.2 省級政府政策擴散傾向性計算
通過分析政策文本的外部屬性和內(nèi)容主題特征,可以全面探測各級政府政策擴散的意愿和傾向性?;诘?.2.2節(jié)的分析和已有研究,本文對PD‐TI模型中α、β、γ、θ這4個調(diào)諧系數(shù)進(jìn)行設(shè)置,最終5個分指標(biāo)的權(quán)重值分別為0.15、0.15、0.15、0.30、0.25。對5個分指標(biāo)進(jìn)行加權(quán)整合,最終得到我國層級政府機構(gòu)政策擴散傾向性的計算值??傮w來看,我國省級政府在大數(shù)據(jù)政策方面的擴散傾向熱度呈分散式特點,由點及面,統(tǒng)籌部署。各省級政府分析如下:
(1)貴州(PDTI=3.50)、上海(PDTI=2.23)、甘肅(PDTI=2.00)和廣州(PDTI=1.79)對于大數(shù)據(jù)擴散傾向性最為顯著,表現(xiàn)出政府在發(fā)展大數(shù)據(jù)產(chǎn)業(yè)方面的決心和政策傾向;
圖6 貴州省和廣東省的省級到市級政策擴散的主題可視化
(2)山東(PDTI=1.21)、重慶(PDTI=1.27)、湖北(PDTI=1.22)具有較強的政策擴散意愿,計劃投入一定的資金和技術(shù)圍繞大數(shù)據(jù)領(lǐng)域展開政策部署;
(3)四川(PDTI=1.03)、陜西(PDTI=1.00)、內(nèi)蒙古(PDTI=0.91)和河北(PDTI=0.93)等絕大多數(shù)省份處于穩(wěn)定的政策擴散和執(zhí)行狀態(tài),未表現(xiàn)出明顯的規(guī)劃重點;
(4)西藏、黑龍江、廣西以及云南等地則對大數(shù)據(jù)政策的擴散意愿不夠強烈,政策擴散傾向性有待于提高。
4.4.3 市級機構(gòu)政策擴散傾向性計算
市級政府作為特定政策的基層執(zhí)行單位對于政策擴散至關(guān)重要。為有效表達(dá)我國市級政府在大數(shù)據(jù)政策擴散中的傾向性,本文結(jié)合地理信息與多要素分析雷達(dá)圖,對市級政府展開分析,具體如圖7所示。選取市政府較多,并且在PDTI模型中呈現(xiàn)不同特點的省份作為分析對象,包括貴州、山西、廣東和河北4個省份。研究結(jié)果發(fā)現(xiàn):
(1)貴陽市在貴州省大數(shù)據(jù)政策中處于絕對核心地位,在政策制定時間指標(biāo)、布局指標(biāo)、鄰近地域影響等PDTI的5個分指標(biāo)中均表現(xiàn)良好,六盤水市(PDTI=1.57)各要素表現(xiàn)均衡,銅仁市在NIPGI指標(biāo)表現(xiàn)較好,體現(xiàn)出較強的鄰近地理政策帶動作用,黔西南布依族苗族自治州大數(shù)據(jù)政策制定時間較早,但后續(xù)在政策部署和政策制定上沒有進(jìn)行有效開展,在其他要素指標(biāo)上得分較低,因而PDTI較低,大數(shù)據(jù)政策擴散傾向性較差。
圖7 我國市級機構(gòu)政策擴散傾向性可視化
(2)山西省有6個市級單位制定了大數(shù)據(jù)相關(guān)政策,包括陽泉市、呂梁市、大同市以及忻州市等。其中,陽泉市部署時間較早,呂梁市則在政策布局?jǐn)?shù)量上較為充分,大同及忻州體現(xiàn)出較強的主題強度,臨汾和晉城在鄰近地域引導(dǎo)力指標(biāo)上表現(xiàn)良好。總體來看,山西省各市在各指標(biāo)要素上呈現(xiàn)不均衡特點,因此總體表現(xiàn)一般。
(3)廣東省有12個市圍繞大數(shù)據(jù)展開政策部署。其中,深圳、惠州等表現(xiàn)突出,深圳主題強度指標(biāo)較大,政府涉及面廣泛,惠州、韶關(guān)以及梅州等市在政策布局?jǐn)?shù)量上較多。
(4)河北省石家莊、邯鄲等表現(xiàn)出較強的政策擴散傾向。
本文在分析我國政策文本結(jié)構(gòu)和內(nèi)容特征屬性的基礎(chǔ)上,利用LDA等文本挖掘方法分析政策在不同層級政府間擴散過程中的主題變遷,以揭示我國各級政府在政策擴散過程中的傾向性和特點,了解不同層級政府對于大數(shù)據(jù)政策的發(fā)展規(guī)劃、側(cè)重主題和區(qū)域部署,對于加強地域間合作、同主題方向下的政策學(xué)習(xí)提供了事實基礎(chǔ)和方法論指導(dǎo);利用可視化技術(shù)表達(dá)從中央到省級、地市級政策擴散過程中的主題變遷。同時,構(gòu)建了包括政策發(fā)布時間、布局?jǐn)?shù)量、政策主題強度、執(zhí)行部門數(shù)量等指標(biāo)在內(nèi)的政策擴散傾向性指標(biāo)探測模型,以刻畫各個行政機構(gòu)的意愿程度,對于除大數(shù)據(jù)政策之外的其他政策擴散研究也具有適用性。以大數(shù)據(jù)政策為例的研究得到如下研究發(fā)現(xiàn):
(1)國務(wù)院及其所屬部門發(fā)布的大數(shù)據(jù)政策主要包括10個子主題:金融、大數(shù)據(jù)區(qū)域試點、醫(yī)療、農(nóng)業(yè)、信用監(jiān)管以及城市設(shè)施建設(shè)和智慧城市等。
(2)在自上而下的政策擴散過程中,中央政府部門主要進(jìn)行宏觀指導(dǎo),省級政府對各地市所承擔(dān)的具體任務(wù)進(jìn)行任務(wù)分配和重點部署,而地市級政府則主要承擔(dān)試點建設(shè)、具體制度創(chuàng)新和人員編制等具體政策的細(xì)化制定和實施。
(3)在從中央到地方的政策擴散過程中,各省份根據(jù)本地區(qū)的經(jīng)濟發(fā)展水平和產(chǎn)業(yè)特色制定重點發(fā)展方向,政策呈現(xiàn)出不同的主題類型,例如,貴州側(cè)重大數(shù)據(jù)平臺與制度建設(shè),廣東側(cè)重金融投資大數(shù)據(jù),上海側(cè)重政府平臺與云存儲,河南側(cè)重農(nóng)業(yè)大數(shù)據(jù),內(nèi)蒙古側(cè)重農(nóng)業(yè)和旅游大數(shù)據(jù),海南側(cè)重旅游大數(shù)據(jù),等等。
(4)大數(shù)據(jù)政策擴散傾向性靠前的省份有貴州、上海、甘肅和廣州;接下來是山東、重慶和湖北,計劃在大數(shù)據(jù)領(lǐng)域投入一定的資金和技術(shù);四川、陜西、內(nèi)蒙古以及河北等絕大多數(shù)省份處于穩(wěn)定執(zhí)行狀態(tài),未表現(xiàn)出明顯的規(guī)劃側(cè)重和重點意愿;而西藏、黑龍江、廣西以及云南等地則對大數(shù)據(jù)政策的總體擴散意愿不強烈。
(5)就各分指標(biāo)而言,遼寧、湖南、新疆、甘肅、廣東和北京的政策發(fā)布時間較早,但有些省份后續(xù)的政策創(chuàng)新并沒有跟上;貴州、上海、四川、甘肅等地具有更充分的布局規(guī)劃,發(fā)展大數(shù)據(jù)相關(guān)產(chǎn)業(yè)的意愿強烈;上海、山東、重慶、廣東對鄰近省份的政策影響力較強,而西藏、內(nèi)蒙古、吉林及江蘇等地則影響力較弱;貴州、甘肅、上海、內(nèi)蒙古等地的政策反饋機制更加充分。
由于受研究目標(biāo)和文章篇幅所限,本文的研究局限有三方面:①由于本文的研究目標(biāo)為政策文本的智能化分析,但是僅依靠文本分析難以充分揭示政策制定過程中的情境性因素和因果關(guān)系;②本文只分析了大數(shù)據(jù)政策一種政策類型,難以揭示不同類型政策擴散的差異;③本文所提出的政策擴散主題識別方法有待進(jìn)一步改善與提高,在政策擴散傾向性分析中指標(biāo)挖掘與制定不夠全面,未來將進(jìn)一步結(jié)合公共管理、政策研究等相關(guān)領(lǐng)域的研究成果進(jìn)行指標(biāo)的融合與擴展,以提高探測模型的準(zhǔn)確性與科學(xué)性。
未來本研究組將繼續(xù)推進(jìn)以下三方面的研究:首先,主題概率模型在政策文本挖掘中力度較為不足,不同于論文、專利等主題特征明顯的文本數(shù)據(jù),綱領(lǐng)性的政策文本常常提及多個主題領(lǐng)域的內(nèi)容,因此,為了更加準(zhǔn)確和科學(xué)地識別政策主題內(nèi)容,后續(xù)研究將對政策文本進(jìn)行結(jié)構(gòu)分解和功能識別,結(jié)合篇章語義技術(shù)對特定主題下同一篇政策文本的內(nèi)容進(jìn)行細(xì)粒度的拆解和分析。其次,本文側(cè)重于分析政策在不同層級政府間的擴散問題,下一步研究將結(jié)合因果推斷(如雙重差分法、斷點回歸法等方法)分析擴散過程中的驅(qū)動因素與驅(qū)動機制,尋找不同類型政策擴散的內(nèi)部驅(qū)動力。最后,本文選擇特定領(lǐng)域的政策擴散為研究對象,未來將進(jìn)一步研究縣級、鄉(xiāng)鎮(zhèn)等行政機構(gòu)對不同類型政策的擴散和推進(jìn)。同時,本文僅僅分析了從中央到地方自上而下的政策擴散研究,未來將繼續(xù)研究自下而上式擴散以及同級政府間的政策模仿機制,從而更加全面地揭示政策的擴散和演進(jìn)機制。
附錄1我國省級行政單位主題擴散比分析(前15位)
附錄2基于多特征融合的政策擴散傾向性指標(biāo)模型計算