武楷彪 董瑜
關(guān)鍵詞:政策擴(kuò)散:創(chuàng)新價值鏈:文本關(guān)聯(lián)挖掘;人工智能
政策擴(kuò)散是政策過程理論的重要研究領(lǐng)域,研究內(nèi)容主要包括特征、影響因素和機(jī)制等。隨著自然語言處理技術(shù)的不斷發(fā)展以及政府信息公開措施的逐步加強(qiáng),政策擴(kuò)散的路徑與活動得以被更好地記錄,從而為該項研究提供了新視角與更多的數(shù)據(jù)樣本。當(dāng)前,越來越多的學(xué)者運用文本挖掘方法來分析政策擴(kuò)散特征,并已在政策文本語義挖掘方面取得了較大進(jìn)展。但從計算社會科學(xué)的視角來看,還需在政策擴(kuò)散特征規(guī)律挖掘基礎(chǔ)上結(jié)合相關(guān)理論與方法探索其背后的影響因素和機(jī)制,即遵循先“大數(shù)據(jù)發(fā)現(xiàn)”后“小數(shù)據(jù)驗證”的邏輯。為實現(xiàn)這一目標(biāo),需要對政策文本挖掘方法進(jìn)行改進(jìn),其中就包括增強(qiáng)政策文本挖掘結(jié)果的理論性,這是因為人們普遍認(rèn)為大數(shù)據(jù)方法強(qiáng)調(diào)數(shù)據(jù)驅(qū)動和相關(guān)關(guān)系發(fā)現(xiàn),而社會科學(xué)研究注重因果分析,而從相關(guān)關(guān)系走向因果關(guān)系需結(jié)合研究議題的領(lǐng)域知識和理論:回到基于文本挖掘的政策擴(kuò)散研究中,以政策擴(kuò)散的主題分布特征研究為例,現(xiàn)有研究大多集中在不同機(jī)構(gòu)之間政策主題分布異同、演化趨勢的描述性分析,而較少探究主題分布特征背后所蘊(yùn)含的政府行為邏輯、價值取向以及擴(kuò)散機(jī)制。事實上,目前已有研究指出,在政策擴(kuò)散特征研究基礎(chǔ)上尋找擴(kuò)散的驅(qū)動因素和動力機(jī)制,既是未來研究的重要議題,同時也是計算社會科學(xué)快速發(fā)展背景下數(shù)據(jù)驅(qū)動方法和學(xué)科指導(dǎo)理論不斷融合交叉的必然要求。
當(dāng)前,對政策擴(kuò)散過程中政策主題挖掘大多是運用人工編碼或概率主題建模方法,其中,人工編碼方法可以根據(jù)需要選擇研究者關(guān)注的主題要點,但面臨效率低下的問題:而概率主題建模由于對主題的判斷并無統(tǒng)一的標(biāo)準(zhǔn),因而結(jié)果難以復(fù)現(xiàn),更重要的是,目前還尚未有較好結(jié)合主題模型和公共政策理論的政策擴(kuò)散特征研究。而在政府醫(yī)療服務(wù)評價等領(lǐng)域,已有學(xué)者開始嘗試采用成熟的理論來輔助判斷主題聚類算法得到的主題含義。為此,本文嘗試建立文本挖掘主題與現(xiàn)有成熟理論分析框架之間的映射關(guān)系,以更好地揭示政策擴(kuò)散過程中不同政府對同一政策議題不同方面的價值取向異同以及背后的潛在機(jī)制。本文以我國人工智能政策為分析對象,探討了如何有效結(jié)合文本挖掘方法和創(chuàng)新價值鏈理論測度政策擴(kuò)散特征并探究其背后的擴(kuò)散機(jī)制。在文本挖掘方法設(shè)計上,本文從文本相似度和主題分布比例兩方面揭示政策內(nèi)容擴(kuò)散程度和主題擴(kuò)散分布特征。在基于創(chuàng)新價值鏈的政策主題分析框架構(gòu)建上,由于我國人工智能政策布局是覆蓋人工智能理論研究到促進(jìn)社會發(fā)展的全過程,而政策主題擴(kuò)散(即由政府價值取向所反映的政策主題選擇性擴(kuò)散)可以發(fā)生在創(chuàng)新價值鏈的各個階段。因而,本文選擇創(chuàng)新價值鏈理論構(gòu)建文本分析框架,具體是通過建立政策文本詞匯與創(chuàng)新價值鏈理論的對應(yīng)關(guān)系實現(xiàn)政策擴(kuò)散主題傾向性分析。
在得到政策主題擴(kuò)散分布計算結(jié)果后,本文進(jìn)一步分析了政策擴(kuò)散的潛在機(jī)制。已有大量研究表明,地方政府的經(jīng)濟(jì)資源是影響政策采納主題傾向性的重要因素.而對于科技政策而言,某地科技資源存量會影響該地政策采納傾向性。不同于之前研究是采用因果推斷方法建立了地方政府的資源稟賦與政策采納與否(即二元變量)的關(guān)系,本文嘗試從文本數(shù)據(jù)挖掘角度試圖探索政府科技發(fā)展情況與政策主題傾向(即定序變量)的關(guān)系,最終發(fā)現(xiàn)政策主題擴(kuò)散傾向性與政府資源稟賦之間存在相關(guān)性。從方法改進(jìn)角度,通過探索基于成熟理論的政策文本主題確定方法,有助于彌補(bǔ)當(dāng)前政策文本分析領(lǐng)域存在深層次方法創(chuàng)新欠缺而應(yīng)用研究富余的不足。從政策擴(kuò)散實踐角度,通過探索我國人工智能政策擴(kuò)散實踐過程特征,可為我國人工智能政策試點示范推廣提供補(bǔ)充性的依據(jù)。
1國內(nèi)外文獻(xiàn)綜述
1.1基于文本挖掘的政策擴(kuò)散特征研究
1.1.1政策擴(kuò)散的概念
政策擴(kuò)散(Policy Diffusion)通常是指政策創(chuàng)新的擴(kuò)散,包括兩個角度:一是政策創(chuàng)新(Policy Inno-vation),二是創(chuàng)新擴(kuò)散(Innovation Diffusion)。Walk-er J將政策創(chuàng)新定義為,某一政府首次采納的政策或項目(無論該政策或項目是否已經(jīng)出現(xiàn)或已被其他政府采納)。Rogers E M將創(chuàng)新擴(kuò)散定義為,“政策創(chuàng)新的傳播過程就是創(chuàng)新擴(kuò)散”,即一種新的理念、思想或方法在社會系統(tǒng)中交流。上述兩個角度實際上都是對政府A的政策創(chuàng)新被政府B采納這一政策過程的觀察。通過文本挖掘分析政策擴(kuò)散特征可分為政策內(nèi)容擴(kuò)散程度研究和政策主題擴(kuò)散分布研究。
1.1.2政策內(nèi)容擴(kuò)散程度特征研究
政策內(nèi)容擴(kuò)散程度主要是通過文本相似度計算描述政策擴(kuò)散過程中不同機(jī)構(gòu)發(fā)布政策文本的相似性和差異性來衡量,其反映的是不同機(jī)構(gòu)之間政策總體相似性。通常采用政策文本相似度計算,一般而言,文本相似度數(shù)值越高,就代表一項政策的擴(kuò)散程度越低,即新政策對原型政策的細(xì)化更新較少。這類研究會將文本計算結(jié)果結(jié)合其他分析對象(如文本頒布的機(jī)構(gòu)等)進(jìn)行進(jìn)一步特征規(guī)律的揭示。如Garrett K N等通過立法機(jī)構(gòu)頒布文本和利益集團(tuán)機(jī)構(gòu)頒布文本之間的相似度構(gòu)建政策擴(kuò)散網(wǎng)絡(luò),再運用社會網(wǎng)絡(luò)分析的方法研究利益集團(tuán)在政策擴(kuò)散網(wǎng)絡(luò)中扮演的角色地位。Hinkle R K通過對法律文本計算研究了聯(lián)邦法院在洲際政策擴(kuò)散中的影響,具體是對比洲際政策文本與聯(lián)邦法院立法文本之間的相似性,反映各州立法者對聯(lián)邦法律政策學(xué)習(xí)和模仿的程度。Linder F等提出了一種可識別立法文本的相似序列以衡量文本之間相似性程度的算法,并進(jìn)一步測算了政策傳播網(wǎng)絡(luò)中政策模仿狀態(tài)變化,最終得到由意識形態(tài)相似的發(fā)起人提出的法案具有很高的文本重用率等結(jié)論。Alschner W等對2100份IIA(International Investment Agree-ments,國際投資協(xié)議)的24 000篇文章從4個維度(國際維度、國家維度、擴(kuò)條約水平以及個別條約)研究全球主要國家(地區(qū))的投資條約文本中的一致性和創(chuàng)新性,從而發(fā)現(xiàn)各國(地區(qū))投資政策內(nèi)容變化。郁建興計算了“最多跑一次”政策擴(kuò)散中浙江省出臺的政策文本與27個省份出臺的“最多跑一次”政策文本的相似度。王雪玲研究了各城市海外高層次人才市級核心政策的文本相似度以測度政策擴(kuò)散程度。
1.1.3政策主題擴(kuò)散分布特征研究
主題擴(kuò)散分布研究主要通過政策文本主題來反映政策擴(kuò)散過程中不同機(jī)構(gòu)之間的政治理念傳遞、政令部署和政策議題采納等主題擴(kuò)散傾向特征。通常是先計算文本主題分布,再分析這些主題在政策擴(kuò)散過程中的變化。當(dāng)前對主題分布的挖掘方法主要集中在主題模型。如王芳等從政策發(fā)布時間、布局?jǐn)?shù)量、政策主題強(qiáng)度等維度提出了大數(shù)據(jù)政策擴(kuò)散傾向性模型。政府機(jī)構(gòu)的政策擴(kuò)散傾向性分值越高,則代表越傾向于進(jìn)行政令部署(如政治經(jīng)濟(jì)布局和動員等),其中對政策主題擴(kuò)散強(qiáng)度的刻畫便用到了LDA主題模型。段堯清等利用開源工具,提煉了政策文本的關(guān)鍵詞,接下來計算了政策主題擴(kuò)散的繼承比、擴(kuò)散比和創(chuàng)新比。裴雷等提出了針對信息政策主題擴(kuò)散的漣漪效應(yīng)與漏洞效應(yīng)的5項指標(biāo):擴(kuò)散比率、繼承比率、擴(kuò)散加權(quán)比率、繼承加權(quán)比率與主題分布相似性。Gilardi F等研究了在政策擴(kuò)散的問題定義階段引入Text-as-Data方法的可行性,具體使用了結(jié)構(gòu)主題模型(Structural Topic Model,
STM)對1996-2013年49份有關(guān)禁煙政策的報紙中共計52 675個段落文本數(shù)據(jù)進(jìn)行分析,最終驗證了4項影響政策擴(kuò)散框架因素的假設(shè)。
1.1.4小結(jié)
綜合已有研究發(fā)現(xiàn),現(xiàn)有政策擴(kuò)散特征研究在具體文本挖掘技術(shù)方法選擇上存在差異:國外學(xué)者傾向于使用文本相似度,而國內(nèi)學(xué)者多基于引用關(guān)系和主題模型,而主題模型中主題含義通常是由主觀決定的,其理論性和可解釋性較弱。針對這一不足,已有研究開始討論如何通過構(gòu)建詞典的方式來完成主題模型的詞匯聚類結(jié)果與現(xiàn)有理論主題的映射,這類通過理論驅(qū)動主題識別的方法對于社會科學(xué)研究人員而言,可有效提升主題結(jié)果解釋力和增加與理論對話的空間。在政策擴(kuò)散研究中,政策文本是政府進(jìn)行社會利益和價值分配的載體,而不同層級政府面臨的資源約束和預(yù)期目標(biāo)也不相同。政府面對一項新政策時,通常會進(jìn)行一定程度的調(diào)整,換言之是改變原有政府的價值排序。因此,應(yīng)當(dāng)嘗試從理論視角搭建政策擴(kuò)散過程中的主題變化分析框架,以更好地挖掘不同政府之間的價值傳遞結(jié)果。
1.2基于創(chuàng)新價值鏈理論的人工智能政策研究
本文擬選擇人工智能政策作為實證分析對象,理由包含:人工智能技術(shù)是當(dāng)前世界科技強(qiáng)國在新一輪國際科技競爭中爭奪的焦點;與其他國家(地區(qū))政策相比,中國人工智能政策尤其注重頂層設(shè)計和引導(dǎo)功能,并強(qiáng)調(diào)應(yīng)用端市場的牽引,在技術(shù)研發(fā)與應(yīng)用、產(chǎn)業(yè)經(jīng)濟(jì)發(fā)展和智能社會等方方面面主題均有布局。因此,從實證角度,可較充分說明政策文本詞匯與主題對照過程;從現(xiàn)實角度,就我國而言,在頒布《新一代人工智能發(fā)展規(guī)劃》后,“中央一地方”“地方一地方”之間形成了顯著的傳播、采納和借鑒現(xiàn)象,即我國人工智能政策擴(kuò)散符合現(xiàn)實情況。
在政策文本主題研究方面,現(xiàn)有分析維度有政策工具、政策目標(biāo)、政策主體以及針對政策對象特點構(gòu)建的理論分析框架,具體在人工智能政策研究中,學(xué)者基于創(chuàng)新價值鏈理論構(gòu)建了文本主題分析框架并取得一定進(jìn)展。創(chuàng)新價值鏈(Innovation Val-ue Chain,IVC)是在價值鏈理論基礎(chǔ)上融人了技術(shù)創(chuàng)新理論,其包含從創(chuàng)新源到從創(chuàng)新源轉(zhuǎn)化為新產(chǎn)品、再到市場化的不斷增值過程,在產(chǎn)業(yè)政策文本分析中,由于創(chuàng)新價值鏈理論蘊(yùn)含的技術(shù)價值實現(xiàn)過程與新興產(chǎn)業(yè)成長發(fā)展過程比較一致,學(xué)者已借助該理論分析科技成果轉(zhuǎn)化政策、5G技術(shù)發(fā)展政策等。
我國人工智能政策重點在于對人工智能產(chǎn)業(yè)鏈各個環(huán)節(jié)進(jìn)行布局,包括基礎(chǔ)理論研究、技術(shù)研發(fā)、產(chǎn)業(yè)融合以及對社會整體福利的促進(jìn),現(xiàn)有研究在創(chuàng)新價值鏈的階段劃分上各有側(cè)重:如湯志偉等研究維度包括基礎(chǔ)理論研究、應(yīng)用技術(shù)深化、學(xué)科人才建設(shè)、產(chǎn)業(yè)市場發(fā)展和服務(wù)智能社會5個方面。馬曉飛等則是從基礎(chǔ)層、技術(shù)層和應(yīng)用層3個方面對文本內(nèi)容進(jìn)行分析編碼。呂文晶等從政策工具和創(chuàng)新過程兩個維度展開分析,其中創(chuàng)新過程維度被劃分為科學(xué)技術(shù)研究、產(chǎn)業(yè)化和商業(yè)化3個階段。宋偉等從基礎(chǔ)理論、核心關(guān)鍵技術(shù)、支撐平臺、產(chǎn)業(yè)化、融合應(yīng)用和發(fā)展環(huán)境6個方面展開了各省政策的比較分析。張濤等主要關(guān)注人工智能政策的五大任務(wù)(科技創(chuàng)新體系、智能經(jīng)濟(jì)、智能社會、央地融合以及科技項目)主題相似程度。
上述研究在方法上以人工編碼為主,在內(nèi)容上主要關(guān)注政策中有關(guān)創(chuàng)新價值鏈的技術(shù)創(chuàng)新過程,而忽略了政策環(huán)境、創(chuàng)新主體以及支撐要素等在創(chuàng)新價值鏈中扮演的角色。因此,有必要進(jìn)一步拓寬現(xiàn)有創(chuàng)新價值鏈分析框架的維度,同時構(gòu)建更為自動化的從文本主題到創(chuàng)新價值鏈過程的政策文本挖掘方法,從而更好地描述各地政府所頒布的人工智能政策中政策議題的選擇傾向性。
2政策擴(kuò)散特征測度方法構(gòu)建
依照前文所述,政策擴(kuò)散特征主要包含兩部分:一是內(nèi)容擴(kuò)散程度特征,直接通過已有文本關(guān)聯(lián)挖掘算法實現(xiàn)測度,該算法是通過對文本進(jìn)行依存句法分析得到短語詞組的方式計算相似度,除了計算結(jié)果較為準(zhǔn)確,還可識別文本之間具體關(guān)聯(lián)的短語結(jié)構(gòu),可直接利用該算法計算政策文本之間相似度來測度內(nèi)容演化特征。二是主題擴(kuò)散分布特征,核心包含兩個步驟,如圖1所示,分別是映射詞典的構(gòu)建及驗證和政策主題擴(kuò)散分布計算。
2.1映射詞典構(gòu)建及驗證
2.1.1基于創(chuàng)新價值鏈的政策文本主題分析框架構(gòu)建
在已有研究基礎(chǔ)上,為更細(xì)致地分析不同地方政府頒布政策的主題傾向性,借助采用映射詞典識別政策主題方法的優(yōu)勢,本文進(jìn)一步拓寬主題分析框架的維度,分別從發(fā)展階段、創(chuàng)新主體及合作組織、支持要素和政策保障4個維度構(gòu)建基于創(chuàng)新價值鏈理論的文本主題分析框架。其中,發(fā)展階段維度構(gòu)建了人工智能從基礎(chǔ)理論研究到技術(shù)研發(fā)應(yīng)用再到最后人工智能產(chǎn)業(yè)發(fā)展以及促進(jìn)社會整體智能化的過程:創(chuàng)新主體及組織合作維度主要關(guān)注參與創(chuàng)新價值鏈的實體,可能包括從事人工智能技術(shù)的研發(fā)機(jī)構(gòu)、產(chǎn)品生成的相關(guān)企業(yè)以及創(chuàng)新主體之間形成的合作聯(lián)盟(如產(chǎn)業(yè)集群、創(chuàng)業(yè)園等);支撐要素維度涉及人才、資本以及底層資源和服務(wù)平臺,最后是政策保障維度。
2.1.2關(guān)鍵短語抽取和映射詞典構(gòu)建及驗證
本文利用依存句法分析和語義計算將政策文本拆成多個圍繞句子核心詞匯的兩類短語結(jié)構(gòu),一類是動賓短語結(jié)構(gòu),如“建設(shè)人工智能人才實訓(xùn)基地”;一類是修飾短語結(jié)構(gòu),如“科研院所”“產(chǎn)業(yè)聯(lián)盟”等,上述短語結(jié)構(gòu)可以較好涵蓋并傳達(dá)句子的核心內(nèi)容。因此,本文將政策文本抽取后的高頻短語結(jié)構(gòu)與上述主題分析框架建立一一映射關(guān)系,由此便可實現(xiàn)短語結(jié)構(gòu)詞匯對應(yīng)詞典的構(gòu)建。具體在構(gòu)建詞典過程中為了保證詞典構(gòu)建的信度和效度,本文還涉及了多人多輪編碼與專家知識相結(jié)合的方式,并根據(jù)政策文本固有篇章結(jié)構(gòu)構(gòu)建了文本“內(nèi)容一主題”的驗證集來進(jìn)一步驗證詞典的準(zhǔn)確性。
2.2政策主題擴(kuò)散分布特征計算
在構(gòu)建完成詞典之后,便可對政策文本主題分布進(jìn)行測度。在具體實驗過程中,本文發(fā)現(xiàn)政策文本的章節(jié)標(biāo)題往往是對所在章節(jié)內(nèi)容的有效概括,可綜合章節(jié)標(biāo)題和內(nèi)容共同判斷文本主題以提高準(zhǔn)確率。因此,本文在實際進(jìn)行政策主題分布計算時,通過詞典分別得到文本篇章結(jié)構(gòu)中標(biāo)題與內(nèi)容的主題,通過對比兩者結(jié)果(若一致,則根據(jù)結(jié)果得到主題維度;若不一致,則引人人工判讀)從而實現(xiàn)更加精準(zhǔn)的主題分布計算。最后,在主題分布計算結(jié)果基礎(chǔ)上,通過比較不同省份在基于創(chuàng)新價值鏈理論構(gòu)建的主題分析框架中的分布情況得到政策主題擴(kuò)散分布特征。
3我國人工智能政策擴(kuò)散特征的實證研究
3.1政策文本數(shù)據(jù)搜集和預(yù)處理
3.1.1數(shù)據(jù)搜集時間范圍
自2017年國務(wù)院頒布《新一代人工智能發(fā)展規(guī)劃》以來,我國人工智能相關(guān)政策進(jìn)入深化階段,并開始強(qiáng)調(diào)在各行業(yè)領(lǐng)域的試點示范,因此,本文將數(shù)據(jù)搜集時間限定在2017年7月8日(《新一代人工智能發(fā)展規(guī)劃》頒布時間)-2021年12月31日。
3.1.2數(shù)據(jù)搜集過程
首先,在北大法寶、iPolicy政策分析系統(tǒng)以及各級政府官網(wǎng)根據(jù)關(guān)鍵詞“人工智能”進(jìn)行標(biāo)題檢索,獲得初始數(shù)據(jù)集;接下來,對初始數(shù)據(jù)進(jìn)行人工篩選。鑒于本文主要從政策文本內(nèi)容的角度分析人工智能政策擴(kuò)散特征,為保證搜集得到的政策文件具有可比性且符合政策擴(kuò)散實際情況,在人工篩選時保留了規(guī)劃類文本,如政策文本標(biāo)題含“發(fā)展規(guī)劃”或“產(chǎn)業(yè)規(guī)劃”等詞匯,同時刪除人工智能創(chuàng)新發(fā)展試驗區(qū)的回復(fù)函等文本。此外,還有一些省份的人工智能政策規(guī)劃文本標(biāo)題為“智能XX發(fā)展規(guī)劃”,如《智能貴州發(fā)展規(guī)劃(2017-2020年)》也一并納人數(shù)據(jù)集。在初步形成本文研究數(shù)據(jù)集后,對比現(xiàn)有人工智能政策研究中采用的數(shù)據(jù)集以查漏補(bǔ)缺,同時剔除掉已失效的政策文件,最終形成針對人工智能發(fā)展制定的規(guī)劃性或綱領(lǐng)性政策文件庫,共110份。其中,由國家級或省級政府機(jī)構(gòu)頒布的政策文件57份,地級市及以下行政級別政府政策文件53份。
3.2政策擴(kuò)散的時空分布特征
3.2.1時間分布特征
統(tǒng)計隨時間推移累計出臺人工智能政策的省級政府?dāng)?shù)量如圖2所示,其擴(kuò)散趨勢符合S型經(jīng)典累積分布曲線。圖2表明截至2021年年底,我國共有24個省份(不含港、澳、臺地區(qū))頒布了人工智能政策,其累計分布曲線反映我國人工智能政策呈現(xiàn)早期快速擴(kuò)散、中期逐步放緩的特征。
3.2.2空間層級特征
使用Gephi繪制2017-2021年我國人工智能政策擴(kuò)散網(wǎng)絡(luò),具體是以各個省份出臺的政策文本為節(jié)點,政策之間的參照關(guān)系為節(jié)點之間的連邊,將演化過程以年為單位進(jìn)行切片,再從網(wǎng)絡(luò)密度、網(wǎng)絡(luò)平均模塊化指數(shù)和網(wǎng)絡(luò)平均路徑長度分析我國人工智能政策擴(kuò)散網(wǎng)絡(luò)演化特征和趨勢,如圖3所示。
可以發(fā)現(xiàn),隨時間推移,我國人工智能政策擴(kuò)散網(wǎng)絡(luò)密度逐步降低,這表明網(wǎng)絡(luò)節(jié)點之間連接緊密程度呈下降趨勢,即“地方一地方”之間的政策擴(kuò)散現(xiàn)象逐步增多;平均度先上升、后下降。在2018年、2019年我國密集出臺了大量人工智能政策,隨后年份出臺數(shù)量減少。模塊化指數(shù)不斷上升,即各省份出臺的人工智能規(guī)劃政策與配套政策之間逐步形成模塊。網(wǎng)絡(luò)平均路徑長度不斷上升,這是因為人工智能政策正不斷從中央向地方省市區(qū)進(jìn)行擴(kuò)散,網(wǎng)絡(luò)層級結(jié)構(gòu)不斷增加。整體而言,我國人工智能政策擴(kuò)散網(wǎng)絡(luò)的核心節(jié)點始終是中央出臺的兩項政策,呈現(xiàn)出“由點到面”的特征。
3.3政策內(nèi)容擴(kuò)散程度特征
以中央文件為對比對象,對24個省份的人工智能領(lǐng)域政策文本進(jìn)行相似度計算,為保證各省之間納入計算的政策文本具有可比性,只考慮省級政府層面頒布的政策文本。在計算之前,還需對文本進(jìn)行預(yù)處理:刪除文本中與人工智能規(guī)劃部署無直接關(guān)聯(lián)的內(nèi)容(如戰(zhàn)略態(tài)勢、指導(dǎo)思想等),僅保留對人工智能發(fā)展規(guī)劃做出詳細(xì)部署的內(nèi)容(如重點目標(biāo)、保障措施等),此外還刪除政策內(nèi)容中的專欄部分內(nèi)容。同時,若該省份發(fā)布的人工智能領(lǐng)域政策數(shù)量超過1份時,對該省份進(jìn)行標(biāo)記,最終得到各省份相對于中央政策文件的相似度數(shù)值如圖4所示(按相似度從高至低展示)。
由圖4可知,這24個省份和直轄市的平均相似度為0.704,其中,頒布文本數(shù)量為1份的省份平均相似度(0.726)高于政策文本數(shù)量大于1的省份平均相似度(0.679)。因此,從數(shù)據(jù)反映的特征可以發(fā)現(xiàn),中國人工智能政策在擴(kuò)散過程中,各個省份首先會學(xué)習(xí)模仿中央出臺的政策規(guī)劃,然后再根據(jù)本省的實際情況出臺其他配套政策,因而出臺政策較少的省份與中央政策相似度越高,因為出臺政策較少的省份尚處于政策擴(kuò)散早期,因此會傾向于先模仿中央政策迅速出臺相關(guān)政策文件。然而,文本相似度數(shù)值對政策擴(kuò)散過程內(nèi)容變化程度揭示的粒度仍較粗,因此,有必要進(jìn)一步探究各省政策文本主題擴(kuò)散情況。
3.4政策主題擴(kuò)散分布特征
3.4.1主題映射詞典構(gòu)建及驗證
首先構(gòu)建文本短語結(jié)構(gòu)與主題分析框架映射關(guān)系的詞典,具體從實際分析的政策文本(字?jǐn)?shù)約351844字)中分別抽取兩類短語結(jié)構(gòu),其中動賓短語結(jié)構(gòu)13437個,修飾短語結(jié)構(gòu)8328個,依據(jù)短語的依存關(guān)系,從這些短語結(jié)構(gòu)中抽取主要成分關(guān)系(動賓結(jié)構(gòu)和修飾語結(jié)構(gòu)等),再剔除掉結(jié)構(gòu)中不能表達(dá)文本主題的詞匯(如動詞、介詞等),得到7572個不同詞組。在建立映射關(guān)系詞典時,主要考慮高頻短語詞組,這是因為高頻短語詞組往往也是政策文本內(nèi)容關(guān)聯(lián)的詞組結(jié)構(gòu)。高頻詞組的選取過程參考了學(xué)界對高頻詞的選取方法,研究表明,借助二八定律的思想來確定高頻詞閾值是比較合理的。具體到本研究,以累計詞頻為20%的詞組結(jié)構(gòu)作為高頻詞組,則應(yīng)選取頻率大于或等于13的詞組作為待分析高頻詞組,考慮到并非所有高頻詞組都能一一對應(yīng)至主題分析框架,因此適當(dāng)拓寬詞組,最終選取詞頻大于等于12的詞組,得到154個高頻短語詞組。通過回溯政策文本內(nèi)容,結(jié)合上下文語境,將這些詞組對應(yīng)到文本主題分析框架不同維度,形成最終高頻短語詞典,如表1所示。
本文還進(jìn)一步驗證了所提主題分布算法的有效性,由于政策文本標(biāo)題可在一定程度上概括章節(jié)內(nèi)容,因而可將部分段落作為算法測試驗證集。本文從原始文本數(shù)據(jù)集中提取了105個政策文本段落,人工標(biāo)記文本主題標(biāo)簽用于測試算法有效性,在分別計算不納入和納入章節(jié)標(biāo)題后,發(fā)現(xiàn)算法準(zhǔn)確率由72.54%上升至82.35%。由此可見,本文算法可較好地輔助人工主題識別和判讀,且考慮章節(jié)標(biāo)題主題的算法,有效提升了主題識別準(zhǔn)確率。
3.4.2政策主題擴(kuò)散分布結(jié)果
央地政策主題分布計算如圖5所示,可發(fā)現(xiàn)央地政策在創(chuàng)新價值鏈各環(huán)節(jié)上均有所布局,但側(cè)重點有所不同。
上述主題擴(kuò)散分布計算結(jié)果表明,從整體上,在發(fā)展階段維度,中央和地方都更關(guān)注“技術(shù)研發(fā)與應(yīng)用”,可見當(dāng)前我國人工智能發(fā)展規(guī)劃更為人工智能技術(shù)的研發(fā)及具體應(yīng)用,具體體現(xiàn)在對人工智能相關(guān)產(chǎn)品針對性展開布局:在創(chuàng)新主體及組織合作維度,中央和地方都更注重強(qiáng)調(diào)發(fā)展人工智能企業(yè);在支撐要素維度,中央和地方都較少對資金資本進(jìn)行規(guī)劃,而更強(qiáng)調(diào)人才建設(shè)和資源平臺在人工智能發(fā)展中起到的作用。在央地政策細(xì)分主題對比上,計算相較于中央而言各省頒布政策主題的側(cè)重點。計算結(jié)果表明,發(fā)展階段維度,北京市、上海市、福建省、天津市、廣東省、浙江省、江蘇省和安徽省更注重在創(chuàng)新價值鏈的前端進(jìn)行布局:陜西省、山東省、河南省、吉林省、貴州省、山西省、江西省、廣西壯族自治區(qū)、甘肅省、黑龍江省和云南省則更注重在創(chuàng)新價值鏈的后端進(jìn)行布局:創(chuàng)新主體維度,除企業(yè)以外,相較于中央政策而言,安徽省、北京市、福建省、廣東省、上海市和江蘇省更強(qiáng)調(diào)科研機(jī)構(gòu)作為創(chuàng)新價值鏈主體發(fā)揮的作用:支撐要素維度,中央當(dāng)前發(fā)布的政策更強(qiáng)調(diào)人才建設(shè),具體表現(xiàn)在教育部出臺了兩項有關(guān)加強(qiáng)人工智能人才培養(yǎng)和學(xué)科建設(shè)的政策文件。而各省份有的更強(qiáng)調(diào)加快人才培養(yǎng),有的則更強(qiáng)調(diào)建設(shè)資源平臺。其中,安徽省、重慶市、廣東省、甘肅省、貴州省、黑龍江省、湖北省、吉林省、江蘇省、江西省、遼寧省、四川省、山東省、上海市、陜西省、山西省和浙江省這17個省份更強(qiáng)調(diào)對資源平臺建設(shè)的布局,而北京市、福建省、廣西壯族自治區(qū)、河南省、天津市和湖南省這6個省份更強(qiáng)調(diào)人才建設(shè);政策保障維度,中央與地方政策這一部分內(nèi)容占比相較于其他維度較少,與中央政策相比,有7個省份有關(guān)政策保障的內(nèi)容占比較高,表明這些省份更強(qiáng)調(diào)人工智能發(fā)展規(guī)劃中軟環(huán)境的營造,分別是重慶市、廣東省、甘肅省、廣西壯族自治區(qū)、黑龍江省、遼寧省和山西省。
3.4.3政策擴(kuò)散潛在機(jī)制探因
為進(jìn)一步考察政策擴(kuò)散潛在機(jī)制,本文建立各省份人工智能發(fā)展階段與政策主題擴(kuò)散傾向性的關(guān)系。其中,各省按人工智能的發(fā)展程度劃分3個梯度,劃分方式參考了國家工業(yè)信息安全發(fā)展研究中心發(fā)布的《中國人工智能產(chǎn)業(yè)發(fā)展指數(shù)(2019)》、中國互聯(lián)網(wǎng)協(xié)會和中國信息通信研究院發(fā)布的《中國“智能+”社會發(fā)展指數(shù)報告(2019)》和呂榮杰等對中國人工智能區(qū)域發(fā)展水平的動態(tài)測度,結(jié)合政策主題擴(kuò)散分布計算結(jié)果得到各省在創(chuàng)新價值鏈各環(huán)節(jié)主題側(cè)重如表2所示。
將省份所在梯隊階段和政策主題擴(kuò)散傾向性分別作為定序變量并賦值,并計算兩者的Spearman等級相關(guān)系數(shù)。結(jié)果表明,在0.01的置信水平區(qū)間上,兩者相關(guān)性為0.6636,由此發(fā)現(xiàn),地方政府在面對中央政府政策文件時,當(dāng)前人工智能發(fā)展?fàn)顩r較好、具有較多科技資源的省份會相對更注重對創(chuàng)新價值鏈的前端進(jìn)行布局,反之亦成立。對于這一現(xiàn)象,行政指令機(jī)制可作為潛在解釋機(jī)制。在我國人工智能政策發(fā)展過程中,中央頒布了《國家新一代人工智能創(chuàng)新發(fā)展試驗區(qū)建設(shè)》(以下簡稱“試驗區(qū)”)的相關(guān)文件,指出要在2023年建成20個試驗區(qū),通過先行先試的方式探索人工智能技術(shù)與經(jīng)濟(jì)社會的融合路徑,探索適應(yīng)人工智能創(chuàng)新發(fā)展的制度環(huán)境和智能時代政府治理的方法,以及強(qiáng)化人工智能發(fā)展的基礎(chǔ)設(shè)施建設(shè),并重點依托人工智能創(chuàng)新資源較為豐富的城市作為探索載體,發(fā)揮引領(lǐng)作用。在試驗區(qū)的建設(shè)過程中,科技部對各城市發(fā)展試驗區(qū)的致函中體現(xiàn)了對不同城市發(fā)揮示范引領(lǐng)作用的要求,如對北京市強(qiáng)調(diào)“打造全球人工智能技術(shù)創(chuàng)新策源地”、對杭州市強(qiáng)調(diào)“打造人工智能產(chǎn)業(yè)聚集高地”、對濟(jì)南市強(qiáng)調(diào)“推動人工智能在重大場景中的創(chuàng)新應(yīng)用”等。由此可見,上級政府及部門通過直接介入政策內(nèi)容,以行政指令方式推動了人工智能政策的廣泛擴(kuò)散和實施,對于各省市的要求貼合該省市的資源稟賦,由此影響了各省政策規(guī)劃布局重點的傾向性和價值取向。在未來,為進(jìn)一步增強(qiáng)我國人工智能產(chǎn)業(yè)發(fā)展的推動力,可適當(dāng)采用政治和經(jīng)濟(jì)手段混合激勵方式。
4結(jié)論和討論
本文構(gòu)建了融合創(chuàng)新價值鏈理論和文本關(guān)聯(lián)挖掘方法的政策擴(kuò)散特征測度方法,并以人工智能政策為例說明了這一過程。研究結(jié)果表明,相較于中央政策,各省人工智能政策主題擴(kuò)散各有側(cè)重,其中,人工智能發(fā)展?fàn)顩r較好、具有較多科技資源的省份相對更注重對創(chuàng)新價值鏈的前端(即基礎(chǔ)理論)進(jìn)行布局,反之亦成立。此外,在日寸間上,呈現(xiàn)早期快速擴(kuò)散、中期逐步放緩特征;在空間上,形成了圍繞中央頒布政策的擴(kuò)散網(wǎng)絡(luò),且地方政策正逐步形成模塊化效應(yīng);在內(nèi)容上,各省政府先“學(xué)習(xí)模仿中央政策”后“因地制宜創(chuàng)新細(xì)化”。
與現(xiàn)有研究相比,本文部分結(jié)論與前人研究一致,如宋偉等提出,央地政策均更強(qiáng)調(diào)人工智能技術(shù)應(yīng)用。單曉紅等比較了人工智能產(chǎn)業(yè)區(qū)域(京津冀、長三角、珠三角)政策,指出這些區(qū)域政策主題均側(cè)重于基礎(chǔ)理論與技術(shù)研究以及相關(guān)產(chǎn)業(yè)智能化升級。在內(nèi)容擴(kuò)散程度研究方面,有學(xué)者的計算結(jié)果也同樣表明,遼寧省人工智能政策文本與中央政策文本相似度最高。但需要特別說明的是,上述關(guān)于政策主題擴(kuò)散研究對特定主題的識別采用的是人工編碼方式,而本文是通過建立詞典的方式,考慮到政策文本用詞的穩(wěn)定性以及構(gòu)建的主題分析框架不僅僅適用于人工智能政策,也同樣適用于其他對貫穿創(chuàng)新價值鏈各環(huán)節(jié)進(jìn)行政策指引的科技政策。因此,本文構(gòu)建的詞典和分析框架具有一定的拓展性,可重復(fù)利用在其他相關(guān)領(lǐng)域政策。
除了上述提到的優(yōu)勢,得益于基于成熟理論構(gòu)建的政策文本主題分析框架,本文核心貢獻(xiàn)在于在政策主題擴(kuò)散分布特征基礎(chǔ)上,進(jìn)一步探討了各級政府主題傾向與其資源稟賦關(guān)系以及潛在擴(kuò)散機(jī)制,這將有助于更細(xì)粒度揭示政府創(chuàng)新行為。當(dāng)然,本文目前還處于相關(guān)性關(guān)系探索階段,未來可以在本文結(jié)果基礎(chǔ)上,將內(nèi)容擴(kuò)散程度數(shù)值作為因變量,將潛在影響因素(如科技資源)作為自變量,建立回歸方程進(jìn)行因果推斷研究。