亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合LDA模型的政策文本量化分析

        2016-05-14 06:08:14楊慧楊建林
        現(xiàn)代情報 2016年5期
        關鍵詞:政策文本R語言量化分析

        楊慧 楊建林

        〔摘要〕政策文本是政策生命周期的核心要件,對其進行多種維度的內(nèi)容挖掘與國內(nèi)外的對比分析不但有利于指導政策的制定,還有益于把握國際局勢,以提升國家軟實力。對于政策文本內(nèi)容的量化研究而言,目前的學術成果采用的方法主要有基于數(shù)理統(tǒng)計的內(nèi)容分析類、文獻計量類、社會網(wǎng)絡分析類、文本挖掘類等方面。文章選取國際氣候領域作為試點對象,采用主題模型的新視角,對采集到的政策文本數(shù)據(jù)進行基于語義的主題挖掘,并同時融合詞頻及分布形態(tài)研究、時間離散化、實證研究等方法綜合對比分析我國與美國、歐盟的氣候政策情況。最后,根據(jù)數(shù)據(jù)證據(jù)為我國相關政策的制定提出完善建議。

        〔關鍵詞〕LDA;模型;政策文本;主題挖掘;量化分析;R語言;國際氣候領域

        政策法規(guī)原始文本作為一種特殊類型的文獻具有期刊論文、專利文獻等信息資源無法比擬的權威性、嚴肅性、約束力。其廣義上的文本內(nèi)涵表現(xiàn)為由國家或地區(qū)的各級權力或行政機關以文件形式頒布的法律、法規(guī)、部門規(guī)章等官方文獻,通常被統(tǒng)稱為政策文本。學術界對于政策法規(guī)的研究由來已久,研究對象涵蓋政策法規(guī)的制定、執(zhí)行以及效果、環(huán)境變量和反饋等重大方面,研究觸角遍及政策法規(guī)的整個生命周期,采用的量化分析手段涉及運籌學、系統(tǒng)論與控制論、計量經(jīng)濟等眾多領域。以上的研究切面很多是跳出政策文本,進行宏微觀環(huán)境的模擬與探討。作為社會的風向標以及生命周期的核心要件,相對于整個生命周期瑰麗的量化分析手段而言,政策文本的量化分析手段則較為簡約,亟待開發(fā)與拓展。

        相對單調(diào)的量化分析手段與政策文本自身的特性休戚相關。作為文本對象,政策文本的研究方式源于文獻解讀,即在思辨的基礎之上結(jié)合研究者的專業(yè)素養(yǎng)和政策領悟,通過分析政策文本的謀篇布局以及修辭與表述方式,探測出相關政治立場,并基于此進行深度解讀或政治變遷的預測與估量。然而,當思辨形式的文本解讀無法滿足學術界關于理性主義、科學主義的訴求,以試圖彌補以往研究的模糊性、經(jīng)驗性的量化主義便開始萌芽與發(fā)展。量化主義著手于從政策文本的外部特征和內(nèi)容特征發(fā)現(xiàn)數(shù)量規(guī)律與政治現(xiàn)象,研究方式不僅是基于單篇文本層面的微觀統(tǒng)計,還涉及特定領域大批量文本的宏觀計量。

        縱觀政策文本量化分析的歷史進程,時至今日,在循序漸進中已經(jīng)形成幾條較為可行的研究方法與基本范式,筆者認為可以歸納為以下幾大方面:①基于數(shù)理統(tǒng)計的內(nèi)容分析類。模式表現(xiàn)為基于一定的理論工具,提出基本的文本分析框架并制定量化標準,采用多人編碼或者專家打分的方式,從不同維度來測度文本的基本單元和內(nèi)涵。典型的流程如國內(nèi)學者盛亞[1]等人在研究創(chuàng)新政策中的利益相關者時,通過引入Rothwell等學者有關政策分類工具的理論成果,制定分類維度與內(nèi)容編碼標準,融合抽樣以及多組多輪的分析方式,在結(jié)果的信度水平滿足基本要求的情況下得出研究結(jié)論。②文獻計量類。旨在將傳統(tǒng)的文獻計量方式遷移至政策文本,并在此基礎上進行創(chuàng)新。李江[2]等學者提出“Policiometrics”即政策計量學這一概念,認為其是一種研究政策文本外部和內(nèi)容結(jié)構(gòu)屬性的定量分析方法。研究切入點不僅涉及關鍵詞共現(xiàn)、發(fā)文主體以及年份計量、政策類型及效力等傳統(tǒng)視角,還包括文本內(nèi)容中參照分析以及知識擴散等方面。③社會網(wǎng)絡分析類。政策文本的社會網(wǎng)絡分析視角常與文獻計量方法融合交匯,不同的是,社會網(wǎng)絡分析視角更加注重融合圖論和傳播學知識,注重從宏觀視角展現(xiàn)政策文本中所隱含的關系網(wǎng)絡、語言關聯(lián)、行動關系。如張永安[3]等學者就運用社會網(wǎng)絡分析法描繪出了相關領域政策發(fā)文主體的關系網(wǎng)絡圖譜。④文本挖掘類。在以往的定量分析方法均存在人力耗損較大、信息抽取方式過于簡單、內(nèi)容細節(jié)容易被忽視等情況下,部分學者開始嘗試文本挖掘視角,這也是本文隨后探討的主要方面。⑤綜合方法。通過對以上方法進行兩兩或多方融合并輔以其他特定分析手段,力求從多角度進行文本內(nèi)容的全方位探討。這種融會貫通的量化分析偏好將成為政策文本分析今后發(fā)展的重要方向。

        通覽上述方法的特性,不難發(fā)現(xiàn)文本挖掘的應用程度將成為提升政策文本量化分析成熟度的關鍵。其豐富的研究手段不僅能夠從政策文本中發(fā)掘出潛在的信息與知識,還能夠憑借技術理性和機器效率完成文本內(nèi)容多種維度的特征識別與信息抽取,為內(nèi)容分析和政策文獻計量等方法提供堅實的數(shù)據(jù)基礎與效率支撐。由于政策文本有諸多特性,目前文本挖掘?qū)ζ涞膽贸潭壬胁桓撸芯刻幱谄鸩狡?。針對政策文本的高詞項維度、多主題分布特征,本文將主題挖掘技術引入政策文本分析,通過基于主題的語義降維,探知政策文本潛在的主題內(nèi)容及演化趨勢。為使研究成果能夠反映當下熱點并更具實際價值,本文選取氣候領域作為研究對象,因為隨著發(fā)達國家碳資本主義的發(fā)展以及發(fā)展中國家能源消耗的加強,氣候問題日益突出并國際化。由于不同國家或者地區(qū)的經(jīng)濟發(fā)展水平、戰(zhàn)略利益等方面彼此不同,氣候政策制定存在差異,因此基于主題挖掘來對比分析相異的氣候政策的內(nèi)容及發(fā)展趨勢,能夠利于把握國際氣候治理局勢并提高國家的軟實力,對我國氣候政策的制定具有重要的意義。本文的研究目的在于從主題分析的理論角度推進政策文本挖掘進程,并結(jié)合氣候領域的分析實踐驗證主題挖掘的可行性及性能,最終根據(jù)研究結(jié)論為國家氣候治理提供建議。

        1政策文本挖掘研究進展

        文本挖掘技術是指可以從文本中獲得隱含知識的一類技術的統(tǒng)稱,相關研究與應用興起于20世紀90年代,處理的對象從最初的非結(jié)構(gòu)化文本逐步擴展到半結(jié)構(gòu)化的網(wǎng)頁,再進一步延伸至專利文獻、科技報告等特殊類型的非結(jié)構(gòu)化文本。隨著政策文本量化分析的需求逐漸凸顯,以及文本挖掘技術在眾多領域所實現(xiàn)的璀璨價值,有學者開始嘗試將文本挖掘前沿技術應用于政策文本的內(nèi)容分析。例如,Prior等人(2012年)[4]對英國的衛(wèi)生領域的政策文件進行比較研究,基于政策文本敘事結(jié)構(gòu)的特征識別,將文本挖掘策略與語義網(wǎng)分析相結(jié)合,揭示出政策文本內(nèi)容的基本元素;Talamini與Dewes(2012年)[5]對巴西有關科研機構(gòu)的學術文獻以及政府公文施行文本挖掘,從宏觀環(huán)境維度和d-words視角抽取高質(zhì)量文本內(nèi)容,從而對比分析液體生物燃料的科研成果與實際政策間的差異;Li Jiexun等人(2010年)[6]提出了一個名為政策過程挖掘(Policy-based Process Mining)的新方法,將文本挖掘算法融入商業(yè)政策文本,以完成特定信息自動抽取;劉興(2011年)[7]通過融合正則自動機模型、改進的TF算法以及樸素貝葉斯算法(Naive Bayes)實現(xiàn)了稅收政策公文識別;蘇變萍(2008年)[8]改進了文檔自動分類模式,提出了面向政策法規(guī)Web文本的一種動態(tài)可擴展的分類方法;熊小梅(2007年)[9]構(gòu)建出法律案情文本分類系統(tǒng),利用潛在語義分析技術進行文本二次降維,并使用支持向量機(Support Vector Machine)以及K近鄰(K-Nearest Neighbour)技術測試文本分類。

        綜合當下的研究成果,可以發(fā)現(xiàn)政策文本挖掘的成熟度和豐富度均有待提升。一方面從研究成果“量”的角度來看,政策文本挖掘類文獻較少,其學術投入的加強對改善政策內(nèi)容分析定量不足而定性有余的整體態(tài)勢具有實際意義。另一方面從研究成果的“質(zhì)”上來看,當下政策文本挖掘類成果的研究視角主要集中在信息抽取、分類、聚類以及詞項降維等方面,基于語義視角的技術補充則成為接下來的重要工作。由于主題挖掘技術的語義價值以及在降維方面的特殊作用,將其應用于政策文本分析以實現(xiàn)主題抽取則更具實際效用。

        2主題挖掘的發(fā)展概況以及政策文本的主題模型適用性論證主題挖掘技術伴隨著自動文摘的研究而產(chǎn)生,其興起始于學術界有關提升文本挖掘效能和深度的需求,技術開始從詞項間的語義視角探知文本內(nèi)容結(jié)構(gòu)。隨著單篇文檔的局部主題無法滿足研究需求,以及文本聚類、分類迫切需要語義視角的補充,基于大規(guī)模語料庫的多文檔主題挖掘便成為研究熱點。目前相關研究內(nèi)容主要包括探知主題外延、主題內(nèi)涵、主題壽命、主題強度、主題遷移以及主題間的關系等,分析手段主要包括基于主題模型、基于網(wǎng)絡圖、基于詞匯鏈的構(gòu)造、基于共詞分析等。

        主題模型是主題挖掘常用手段,被廣泛用于自然語言處理和機器學習。其產(chǎn)生源自1990年Deerwester SC等人提出的潛在語義索引(LSI),以及隨之發(fā)展的概率潛在語義索引(pLSI)。隨后,David M Blei等人拓展了pLSI,提出了一個更完善的概率生成模型,即潛在狄利克雷分配模型(LDA)。作為非監(jiān)督機器學習技術,LDA成為使用最為廣泛的主題模型,現(xiàn)在的主題模型大多是基于其的擴展,如CTM、Labeled-LDA、PAM。目前,LDA的使用范圍遍及文本情感分析、微博主題挖掘、話題追蹤、垃圾評論屏蔽、知識挖掘、計算機視覺以及生物醫(yī)學等領域,并由學術界逐漸延伸至工業(yè)界,已經(jīng)發(fā)展成較為成熟的主題分析方法。

        對于政策法規(guī)這類特殊文本而言,由于其詞項的高維特性,傳統(tǒng)的基于相似性度量的分類和聚類等文本挖掘技術實施后的結(jié)果則缺乏可解釋性,而其多主題特性則致使基于詞頻和內(nèi)容結(jié)構(gòu)規(guī)則的主題歸納方法失去實用價值。然而,主題模型則提供了新型語義降維與探索主題結(jié)構(gòu)的新方法,將成為解決以上兩大核心問題的關鍵技術。因為,主題模型具有清晰的層次結(jié)構(gòu),不僅能夠從語義視角將高維的“文檔-詞項”分布映射至低維的“文檔-主題”、“主題-詞項”分布,從而將基于語義的“中層特征”(即主題)取代“底層特征”(即詞項),達到更具意義的文本降維,還能夠?qū)⑽谋局黝}結(jié)構(gòu)及其分布量化的展現(xiàn)出來,并挖掘出定性的角度難以歸納出的潛在語義關系,從而定量的實現(xiàn)政策法規(guī)這類特殊文本的多主題分析價值。此外,對于大規(guī)模語料庫,主題模型的適用性和支持性均較為突出,這也使得分析大容量的政策法規(guī)文本庫可行性較大。基于以上論斷,本文將采用LDA主題模型進行氣候領域政策法規(guī)原始文本的主題挖掘?qū)嵺`。

        2數(shù)據(jù)來源和處理方法

        2采集對象

        依據(jù)UNFCCC(聯(lián)合國氣候變化框架公約)歷史締約方的氣候治理態(tài)度,參與氣候國際談判的國家或地區(qū)可被分為領跑者、傘形國家、發(fā)展中國家和特殊利益集團3種主要類型[10]。本文選取歐盟、美國、中國分別作為這3種類型的典型代表,以發(fā)布的氣候政策文本作為分析對象,進行主題挖掘與對比分析。為確保分析對象的可比性,本文聚焦最高層面的政策法規(guī),因為頂層設計基本反映了一個國家或者地區(qū)的整體規(guī)劃。此外,氣候與能源、環(huán)境等國家核心架構(gòu)聯(lián)系密切,很多有關氣候的政策法規(guī)其核心主題并不是氣候,而是能源、環(huán)境等,這樣的政策文本顯然不能作為本文的主要數(shù)據(jù)來源,否則會形成較大的偏差。本文所采集的政策文本明確限定于標題包含氣候的政策法規(guī)。

        2數(shù)據(jù)來源

        由于三方的法律體系、政府機構(gòu)、公文類型均有差異,本文以政府官方門戶發(fā)表的公文情況為基準,利用爬蟲抓取門戶上的目標法律、法規(guī)、政策文件。本文將政策文本大類定義為:法律(法律、草案、議案等形式)、政府公布的所有相關類型的文件(所有相關部門或委員會公布的條例、政策、白皮書等),數(shù)據(jù)抓取時間為2015年7月。

        2歐盟

        歐盟法除了成員國國內(nèi)法外,主要包括條約、二級法、補充法3個層面。有關歐盟的聯(lián)盟層面的政策法規(guī)在官方門戶EUR-Lex(url:http:∥eur-lex.europa.eu/homepage.html/)均可以查到。符合要求的文件類型為除Consolidated Legislation(合并立法)和Parliamentary Questions(議會疑問)外的所有類型,實驗最終抓取滿足條件的文件共計249份。

        c美國

        美國是憲政聯(lián)邦共和制國家,有關美國的法律(包括議案)在國會門戶(url:https:∥www.congress.gov/)均可獲得,聯(lián)邦政府以及相關部門的政策文件來自GPO(美國政府出版辦公室,url:http:∥www.gpo.gov/)的FDsys(美國政府出版辦公室聯(lián)邦數(shù)字化系統(tǒng))。該系統(tǒng)提供了美國政府自90年代以來的官方文件。根據(jù)文件集的簡介,選擇滿足條件的文件集作為文件來源,融合兩大門戶最終抓取文件754份。

        2中國

        全國人大是中國的最高權力機關,享有立法權。國務院(即中央人民政府)是最高行政機關的執(zhí)行機關。我國政策文本的采集理應來自這兩方。由于政府門戶公布的信息僅是近年的,且檢索界面不夠友好,故將數(shù)據(jù)來源替換為“北大法寶”(url:http:∥www.pkulaw.cn/),目前國內(nèi)最為權威的法律法規(guī)信息檢索系統(tǒng)。篩選數(shù)據(jù)集后,最終抓取文件86份。

        3基于R語言的主題挖掘模型構(gòu)建

        政策文本具有典型的長文本特性,其政治術語較多,語義表述較為完整。同微博等個人類短文本不同,政策文本并不涉及較多的情感詞匯,也不涉及千變?nèi)f化的表達習慣和個性標簽,其內(nèi)容的特征單元詞往往具有規(guī)范性與文本間的連續(xù)使用性。此外,與學術文獻等不同,政策文本往往不具有摘要類結(jié)構(gòu),其內(nèi)容結(jié)構(gòu)隨著政策類別或政策領域而形態(tài)各異。因此,對政策文本內(nèi)容的挖掘往往是基于政策全文的。由于基于詞頻熱度的主題詞表達熱點主題的能力有限,語義層面的主題分析則成為關鍵的補充。本文通過融合詞項層面和語義層面的分析視角進行政策文本的主題研究,并在以內(nèi)容特征作為挖掘?qū)ο蟮幕A之上,加入時間窗口的外部特征,利用主題的時間離散化以進行趨勢分析。

        本文構(gòu)建了基于R語言的主題挖掘模型(見圖1)。模型整體由左上角政府官方門戶開始至右下角主題強度遷移結(jié)束,共分為五大模塊:①政策法規(guī)數(shù)據(jù)的采集與語料庫的建立;②文本預處理;③N-gram模型;④高維數(shù)據(jù)降維與信息過濾;⑤LDA主題模型與模型參數(shù)的構(gòu)建。此外,虛線框及其右上方標識代表相應的R語言模塊。圖1基于R語言的政策文本主題挖掘模型示意圖

        1文本預處理

        施行數(shù)據(jù)清洗后,得到歐盟228件、美國751件、中國84件文本。①英文:對原始文本進行基礎字符處理,創(chuàng)建融合政策法規(guī)常規(guī)停用詞的針對性停用詞表,使用Porter詞干提取算法[11]對語料庫文檔進行詞干化。②中文:采用Rwordseg(原理為利用rJava調(diào)用基于中科院中文分詞算法ictclas的開源工具Ansj)進行中文分詞,加載搜狗專業(yè)詞典23個(其中包括氣象、能源、法律政策等領域?qū)I(yè)詞匯)以提升分詞效果,融合哈工大停用詞表、四川大學機器智能實驗室停用詞庫、政策特征停用詞以進行停用詞處理。

        2N-gram模型

        在進行文本挖掘時,僅分析單詞顯然不能滿足要求,如“text mining”中的元素“text”單獨出現(xiàn)沒有實際分析價值。N-gram模型可以避免單詞分析的不足,其基本思路為[12]:假設句子S由k個特征項構(gòu)成,即S=(w1,w2,w3,…,wk),且其中一個特征項出現(xiàn)的概率僅與前k-1項的概率相關,第i項出現(xiàn)的概率由公式(1)計算所得。公式(1) 使用最大似然估計法求取條件概率,公式中的c(wi-n+1,wi-n+2,…,wi-1,wi)為相應的特征項序列在語料庫中出現(xiàn)的次數(shù)。RWeka提供了NGramTokenizer函數(shù),用于基于N-gram的特征項抽取,通過提供最小和最大的元數(shù),將字符串分裂成N元。國外已有學者將NGramTokenizer函數(shù)用于銀行業(yè)的文獻主題挖掘[13]。本文利用該函數(shù),將N區(qū)間設置為1~3,以單詞和二三元詞組作為研究對象,這樣設置的優(yōu)勢是在概率統(tǒng)計的基礎上,能將核心詞匯和核心詞組一并得出。

        P(wiw1,w2,w3,…,wk)=P(wiwi-n+1,wi-n+2,…,wi-n)=c(wi-n+1,wi-n+2,…,wi-1,wi)c(wi-n+1,wi-n+2,…,wi-1)(1)

        3高維數(shù)據(jù)降維與信息過濾

        降維和信息過濾是實現(xiàn)數(shù)據(jù)可分析的兩項核心任務,二者交互進行。對于政策法規(guī)而言,其大多為長文本且信息噪聲較大,在預處理過程中會產(chǎn)生十幾萬甚至更多維數(shù)的稀疏矩陣。目前常用的高維數(shù)據(jù)降維方法可以歸納為3大類。①縱向投影:利用映射、抽取或者綜合的方法將文本集合的特征項由高維轉(zhuǎn)換至低維,如主成分分析(PCA)、潛在語義索引(LSI)、多維尺度分析(MDS)、局部線性嵌入(LLE)[14]。②橫向過濾:除了使用停用詞剔除噪聲、提高精度,還包括建立評價函數(shù),篩選分值較高的特征項用于后續(xù)挖掘,如TF和TF-IDF[15-16]、信息增益(IG)、互信息(MI)、期望交叉熵(ECE)[14]。③其他:利用聚類或主題分析等方式,以提取“中間特征”進行降維。本文融合方法②③,先使用停用詞表等基礎處理方式,然后剔除TF-IDF過低的詞項,接著將TF閾值設置為5[15],并利用removeSparseTerms函數(shù)去除稀疏度達到95%以上的詞項。通過融合以上處理方法,得到的文檔詞項矩陣維數(shù)更加接近有意義的實質(zhì)維數(shù),再利用LDA施行語義降維。

        2 4LDA主題模型與模型參數(shù)的構(gòu)建

        LDA主題模型認為主題是詞項的概率分布,文檔是多種主題的概率分布,文檔集合中的單篇文章以不同概率共享一組主題。LDA融合了貝葉斯理論、Dirichlet分布等成果,是一種對自然語言建模的語言模型。其文檔生成過程如下:①對一篇文檔d,選擇主題概率分布θ,且θ~P(θα);②從以上抽出的θ中,抽取一個主題z,且z~P(zθ);③從主題z的多項式分布中抽取一個單詞w,且w~P(wz,β);④對文檔中的每個詞項重復③④。求解過程中,θ、分別有帶有超參數(shù)α和β的Dirichlet先驗分布,w作為觀測變量,z、θ為隱藏變量,通過選取的參數(shù)估計算法,將文檔在詞項空間的表示轉(zhuǎn)化為文檔在主題空間的表示。

        本文采用topicmodels包進行主題模型的構(gòu)建,該包在輸入數(shù)據(jù)結(jié)構(gòu)上繼承了tm包的特性,因此用于本文的主題模型構(gòu)建較為合適。根據(jù)Griffiths利用Gibbs采樣技術發(fā)現(xiàn)科學主題的實驗[15],以及有關Gibbs采樣技術和VEM(變化的最大期望算法)的比較[16],本文選用Gibbs采樣技術,并綜合Griffiths的實驗將上文提出的LDA模型的兩個超參數(shù)α和β分別設置為50/K和01,迭代次數(shù)設置為1 000次。已知LDA模型有兩個重要的輸入?yún)?shù),一個是文檔詞項矩陣,另一個是主題個數(shù)K,其中文檔詞項矩陣的元素值為詞頻tf。本文基于以上前四大模塊的文本處理技術,得出文檔詞項矩陣DTM,并采用Perplexity(困惑度)指標衡量模型[15-16]以選取主題個數(shù)K。其中D為文檔集,V為詞項集,n(jd)表示第j個詞項出現(xiàn)在第d個文檔中的頻率。本文根據(jù)文獻[15]中的設定方法,在10~100區(qū)間內(nèi)以10為間隔取樣,而后每隔50取樣一次,直至主題個數(shù)為200,根據(jù)實驗結(jié)果,最終將主題個數(shù)設定為歐盟50個、美國30個、中國15個,此時三方的主題模型達到相對較好狀態(tài)。

        3政策分析

        3政策文本高頻詞匯及其分布形態(tài)

        為更加具體的觀測氣候政策文本的熱點,在經(jīng)歷過上文的詞法分析后,選用二、三元詞組作為對象,以詞頻為統(tǒng)計指標。進行詞形還原和同義詞歸并后,選取排名前20的高頻詞組(見表1)。在歐、美、中氣候政策文本熱點中,“氣候變化”頻次最高。此外,本文在進行資料收集時發(fā)現(xiàn),很多國家并沒有直接分管氣候的專門常規(guī)部門,卻有“氣候變化”問題的專門板塊,可見“氣候變化”已然成為氣候領域的代表性問題。

        歐盟美國中國詞項頻率詞項頻率詞項頻率Climate Change8 374Climate Change4 564氣候變化1 506Developing/ed Country2 653Greenhouse Gas Emission1 187溫室氣體〖〗306Greenhouse Gas Emission2 078National Oceanic Atmospheric1 157氣候可行性論證177Energy Efficiency1 989Was Hington DC688節(jié)能減排170Emission Reduction1 647Environment Protection641發(fā)展改革154Kyoto Protocol1 197Natural Resources610交通運輸145Renewable Energy1 135Department Commerce578國務院139Climate Change Adaption1 089National Climate569二氧化碳133Emission Trade691Global Change550中國氣象局131Adapt Climate611Impact Climate484發(fā)展中國家123Impact Climate Change585Carbon Dioxide454水資源122Adaption Strategy563Fish Wildlife426應對氣候變化工作117Energy Consumption542Impact Climate Change410聯(lián)合國116Low Carbon518Secretary Commerce324可持續(xù)發(fā)展107Economy Social497Climate Change Science317氣象災害104表1(續(xù))

        歐盟美國中國詞項頻率詞項頻率詞項頻率Sustainable Development458Envionment Protection Agency306發(fā)達國家96Energy Save451Effect Climate282國際合作96Reduction Target451Department Energy265低碳技術92Climate Change Impaction446National Marine234氣候事件91Fossil Fuel415Local Governments224極端天氣90

        雖然美國的文本量比歐盟多,但表1詞頻表明,歐盟頻次前20的詞項詞頻較高,顯示出歐盟氣候領域關注熱點較為集中。此外,作為氣候變化行動的領導者,歐盟有關能源的提及較多,包括能源效率、新能源、能源消耗、能源保存。再者,歐盟反復強調(diào)Kyoto Protocol(《京都議定書》),這一國際氣候行動的核心文件,在一定程度上表現(xiàn)了歐盟對國際氣候行動的支持。歐盟還反復提及的一個熱點便是氣候變化適應問題,并關注相關適應策略的制定。歐盟致力于具體的減排目標,并在完成度上處于國際領先,“Reduction Target”的出現(xiàn)頻率也反映了歐盟氣候行動的具體性。對于美國而言,得出的高頻詞項的含義則相對寬泛。其氣候變化涉及到行政部門包括National Oceanic and Atmospheric(NOAA,美國國家海洋與大氣管理局)、Department of Commerce(DOC,商務部)、Environment Protection Agency(EPA,環(huán)境保護署)、Department of Energy(DOE,能源部)。NOAA高頻率在一定程度上反映了其在美國氣候變化應對方面的核心地位。Climate Change Science Program(CCSP,美國氣候變化科學項目)起源于小布什政府,正是因為小布什政府的氣候懷疑論,才產(chǎn)生了氣候一系列有關氣候科學項目的研究。此外,DOC具有如此高的提及頻率顯示了美國市場因素的熱度。對于中國,“氣候可行性論證”一詞高頻出現(xiàn),其相關政策旨在規(guī)范氣候資源的合理開發(fā)和利用,盡最大努力減輕或者規(guī)避一些項目實施后的氣候風險。因為中國正處于快速發(fā)展時期,經(jīng)濟發(fā)展與能源消耗相伴產(chǎn)生,一些項目會很大程度上影響局地氣候,為可持續(xù)發(fā)展,必須進行相關的規(guī)范與監(jiān)管。表2顯示,中國還通過節(jié)能減排與低碳技術來降低溫室氣體的排放,國際能源署首席經(jīng)濟學家法提赫·比羅爾就表示,中國在過去5年承擔了全球低碳技術應用量的40%[17]。此外,數(shù)據(jù)還展現(xiàn)了氣候變化所帶來的水資源分布不均以及極端天氣等問題。

        為從可視化角度透視三方的熱詞分布,本文根據(jù)詞頻數(shù)值降序排列,截取排名前100的二、三元詞組制作詞頻云圖(表1最后一行)。其中,詞項的頻率決定詞項的大小,且由于歐盟、美國前3個詞組以及中國第一個詞組的頻率過大不利于顯示,故截去。從三者的云圖可以可看出,在前100的詞組中,尺寸較大的詞組為核心詞項,在三方中所占的比例均不大。字號的大小對比反映了詞組熱度的差距,而歐盟對比較為明顯,表現(xiàn)為諸如“Energy Efficiency”的高頻詞組與外圍最小詞頻的詞組之間的大小差距,屬于“金字塔”型結(jié)構(gòu)。美國高頻熱詞的密度與數(shù)量比歐盟大,且分布較為均衡,反映了其關注熱點相對平衡的“中堅”型結(jié)構(gòu)。對于中國,除“溫室氣體”外,詞組大小的遞減幅度較小,大部分詞頻差距不大,外圍詞組與核心詞組界限不明顯,呈現(xiàn)出緩慢遞減的“階梯”型結(jié)構(gòu)。

        2政策文本主題分析

        2主題強度分析

        利用上文LDA模型的θ、矩陣,可得出每篇文檔與每個主題相關的后驗概率及每個詞項與每個主題相關的后驗概率。本文利用主題強度分布,查看歐、美、中每個主題在語料集中的相對分量。本文的主題強度計算公式如下:

        Pk=∑NiθkiN(2)

        其中,Pk表示第k個主題的強度,N為文檔數(shù),θki表示第k個主題在第i篇文檔中的概率。以公式(2)為基礎進行計算,得出歐、美、中三方的宏觀主題強度分布如圖2所示,其中橫坐標表示主題標號,縱坐標P表示主題強度??梢钥闯?,主題強度反映了主題的宏觀均值。

        本文發(fā)現(xiàn),實驗所得的主題詞項以及其分布情況與人工判定結(jié)果具有較好的一致性。根據(jù)主題情況,本文將選取三者的熱門主題(Hot Topics)、冷門主題(Cold Topics)以及辨識度較高的隨機主題(Others)各3個進行分析。其中熱門主題和冷門主題是按照主題強度選取的最高三值和圖2三方主題強度分布

        最低三值,隨機主題是按照主題內(nèi)容情況進行篩選。最終選取的主題標號為EU(Hot Topics:29、36、11;Cold Topics:47、25、22;Others:16、27、43)、US(Hot Topics:22、9、17;Cold Topics:16、1、6;Others:3、11、14)、China(Hot Topics:1、5、4;Cold Topics:10、9、14;Others:7、13、15)。

        2主題內(nèi)容及強度逐年演化趨勢分析

        表2展示了選中主題內(nèi)容的局部特征詞集合。通過查閱語料與人工判定相結(jié)合,總結(jié)主題對應的標題。上述主題強度反映主題相對于所有文檔的概率均值,由于文檔數(shù)N恒定,主題強度反映的則是主題的累計概率值,并不能反映主題的變遷。為分析這27個主題及其強度逐年演化趨勢,本文進行了時間后離散化。已知θki表示第k個主題在第i篇文檔中的概率,采用同一年份的主題在相關文檔中概率的算術平均mean(θki)表示當年主題強度[15],圖3以其為縱坐標,展示了主題強度逐年演化趨勢,主題標號與表2相對應。

        相關主題主題含義主題含義主題含義詞項相關度詞項相關度〖〗詞項相關度(A)歐盟

        熱門主題29?氣候變化官方行動36?京都議定書承諾期的減排情況11?應對氣候變化的支持系

        由表2(A)可知,歐盟熱門主題29主要涉及氣候變化官方行動,包括委員會和歐洲議會制定相關法律政策,也包括一系列重要會議的召開。此主題并不涉及具體應對氣候問題的內(nèi)容,而是形式或官方機制。主題36事關歐盟在《京都議定書》承諾期的減排情況,由圖3(A)中演化趨勢可以看出,其強度由2000年開始遞增,在2000年與2005年間達到一個相當?shù)姆逯?,?010年又開始了另一輪的遞增??v觀歐盟的氣候行動,2000年啟動了第一個歐洲氣候變化計劃ECCP Ⅰ,該計劃具體落實了減排目標,確定了溫室氣體的排放交易體系ETS。而后,歐盟又草擬了相關法令,嘗試建立相應的市場。2005年,其啟動了ECCP Ⅱ,改將碳捕獲和存儲作為未來重點。隨后,在經(jīng)歷了2009年哥本哈根會議的挫折后,2010年歐盟又提出了“后哥本哈根”的相關政策,重申了大尺度的減排目標和發(fā)展路線。這些時間段的實際情況均與與圖中主題強度演化趨勢相對圖3主題強度逐年演化趨勢

        應。11號主題是歐盟應對氣候變化的支持系統(tǒng)和制定的相關行動、標準和框架,其強度雖然不高但一直較為穩(wěn)定,這有賴于歐盟完備的環(huán)境保護立法和制度,以及一直致力于制定并完善具體的行動與措施。歐盟的冷門主題包括減少資源浪費、地區(qū)性環(huán)境問題、發(fā)達國家與發(fā)展中國家排放量基準的討論。本文所指冷門主題的宏觀強度值雖與熱門主題有一定的差距,但卻可以在某一個時間段高于熱門主題,具有相對性(如47號主題便在1996年和2009年達到近03的峰值,并不亞于部分熱門主題)。22號主題即發(fā)達國家與發(fā)展中國家排放量基準的討論,雖然處于穩(wěn)定的波動狀態(tài),但強度較低,主要因為歐盟對于發(fā)展中國家的減排義務較美國而言要更加妥協(xié),基本遵循公約的“共同但有區(qū)別的責任原則”。圖3(C)展示的是辨識度較強的隨機主題(節(jié)能投資計劃、溫室氣體排放規(guī)劃、為適應氣候變化所進行的相關監(jiān)控與投資)的強度變遷。3個主題的強度均在2007年、2008年發(fā)生變遷,在2013年、2014年幾乎同步達到峰值。這在一定程度上是因為歐盟2007年提出的“能源氣候一攬子決議”、2008年通過的“氣候行動可再生能源一攬子計劃”以及2013年提出的“歐盟適應氣候變化一攬子計劃”。這個3個重要文件對歐盟相應的政策制定和走向產(chǎn)生了重要的影響,奠定了歐盟的戰(zhàn)略規(guī)劃與治理模式。

        (2)美國

        展示了美國的主題強度變遷。熱門主題22號涉及碳排放權,反映了美國政府減少溫室氣體排放的市場傾向。這種傾向在1997-2005年一個9年的時間段內(nèi)均占據(jù)主導地位,且近幾年又有回升的趨勢。美國氣候問題的國際立場一直是在不損害經(jīng)濟的前提下,以市場為基礎進行調(diào)節(jié)的方案?!毒┒甲h定書》的三大機制:CDM(清潔發(fā)展機制)、ET(排放貿(mào)易)、JI(聯(lián)合履約)均在美國的倡導下建立起來[30],這種市場傾向在克林頓政府和小布什政府期間較為明顯,表現(xiàn)為如圖3(D)所示的1997-2005年的變化趨勢。主題9展現(xiàn)了氣候問題涉及的部門,包括國家海洋和大氣管理局(NOAA)、商務部(DOC)、國家海洋漁業(yè)局(NMFS)等。主題17即有關國土資源調(diào)控的主題在1996-2006年間一直保持著一定的水平,在近年有些回落。美國的冷門主題強度與熱門主題強度的差距并沒有歐盟顯著,其3個主題分別在1985年、1993年、2004年達到峰值,其余年份均較為穩(wěn)定的波動。美國辨識度較高的隨機主題主要包括自然資源的保護、清潔能源技術、環(huán)境污染管理。其中,清潔能源技術主題在1993年達到了前所未有的峰值,其他兩個主題則一直處于平穩(wěn)狀態(tài)。1993年有關清潔能源技術的討論達到峰值在一定程度上是受到1992年《能源政策法》的影響,美國嘗試減少對石油的依賴,開始探索清潔道路。此外,對于清潔能源而言,美國較為有影響力的法案還包括奧巴馬政府出臺的《清潔能源與安全法案》。

        (3)中國

        較歐美而言,中國的15個主題均具有較高的強度值,這表明中國氣候領域的關注點較為集中,主題并不分散,且強度冷熱只是相對而言。中國氣候領域的熱門主題包括國際合作、相關領域的改革、氣候可行論論證等方面。2005年《京都議定書》在中國生效,次年,中國有關國際合作的主題1強度達到峰值,表現(xiàn)了中國氣候治理的合作理念。作為發(fā)展中國家,氣候變化的治理與社會和經(jīng)濟的建設發(fā)展存在一定的沖突現(xiàn)象,由主題5可知,氣候政策的制定也融合了城鄉(xiāng)建設、工業(yè)、環(huán)境保護等綜合因素。主題4有關氣候可行倫的監(jiān)管,其旨在防止不良的工程影響局地氣候。1、5、4三個主題在近年來強度均穩(wěn)定在一定的水平上下波動。對于冷門主題而言,宏觀波動趨勢較為一致。海洋領域的預警與監(jiān)控與林業(yè)領域的監(jiān)管這兩個主題在近年的涉及度均有上升,且在2013年和2014年達到了較高的峰值,這與近些年來的極端天氣所引發(fā)的氣候事件有關。辨識度較強的隨機主題主要包含當下熱點議題,包括節(jié)能減排、氣候事件與極端天氣、低碳技術。氣候事件與極端天氣的主題長期處于穩(wěn)定的波動狀態(tài),但客觀而言,中國應對極端天氣的能力還較弱。節(jié)能減排和低碳技術的強度值在2012年同時達到峰值,主要因為有三項重要的行動和計劃,包括新一輪低碳交通運輸體系的城市試點工作、科技部等16個部委協(xié)會制定的《“十二五”國家應對氣候變化科技發(fā)展專項計劃》、工信部等4個部委制定的《工業(yè)領域應對氣候變化行動方案2012-2020年》。節(jié)能減排和低碳技術是中國應對氣候變化問題的主要手段,節(jié)能、減排、低碳城市、低碳消費、低碳企業(yè)已成為社會性的行動。但是,作為發(fā)展中國家,經(jīng)濟快速發(fā)展帶來了能源需求的增長、供需矛盾的凸顯以及環(huán)境問題的制約,中國一方面面臨著“彰顯大國風范”的國際壓力,一方面需要面對國內(nèi)較大的減排難度。氣候問題,可謂是中國國際政策的一大難點與挑戰(zhàn)。

        33基于主題挖掘的歐、美、中三方氣候政策對比分析作為國際熱點課題,政府間的氣候政策側(cè)重點具有明顯的差異性。由于每個國家黨派特性不同、內(nèi)外環(huán)境不同、發(fā)展水平不同,對于氣候問題的治理也會采用不同的政治工具。本文以政策文本作為定量分析對象,通過對歐盟、美國、中國這三方的主題挖掘?qū)嵺`,窺探UNFCCC 3個層次的歷史締約方對于氣候治理的典型態(tài)度。

        ①歐盟熱衷于減排計劃,并更加注重可持續(xù)發(fā)展與氣候保護政策相關制度體系的構(gòu)建。其高頻詞項分布形態(tài)具有以“可再生能源”、“能源效率”等詞項為塔尖的“金字塔”型結(jié)構(gòu),主題分布更多地涉及公約承諾期減排完成情況、應對氣候變化的支持系統(tǒng)、節(jié)能減排、監(jiān)控與投資等實質(zhì)性的計劃和規(guī)制,屬于“實干家”。

        ②美國聯(lián)邦層面的氣候政策市場導向明顯,其在國際氣候治理上的政治立場受到黨派特性以及利益集團的綜合影響,表現(xiàn)為時而阻撓時而推動的搖擺不定態(tài)勢。雖然政治立場搖擺不定,但是在數(shù)據(jù)采集中本文發(fā)現(xiàn),其頂層氣候政策是三方發(fā)布最多的。高頻詞項分布展示了其以NOAA和環(huán)境保護為代表的多部門寬領域的“中堅”型結(jié)構(gòu),主題分布更多的涉及市場因素、管理部門、自然資源、清潔能源和環(huán)境保護等,屬于“多面派”。

        ③中國更加強調(diào)規(guī)范氣候資源合理開發(fā)利用、相關領域改革以及利用低碳技術。其高頻詞項分布形態(tài)則呈現(xiàn)出頻率緩慢遞減的“階梯”型結(jié)構(gòu),主題分布更多的涉及合作、改革、氣候可行性論證以及節(jié)能減排和低碳技術。作為發(fā)展中的大國,經(jīng)濟快速發(fā)展與能源消耗相伴產(chǎn)生,中國與歐盟和美國因此具有截然不同的內(nèi)部矛盾與外部制約。雖然相對于歐盟和美國,中國對氣候問題的關注起步較晚,能夠采集到的政策法規(guī)較少,但是就主題挖掘而言,中國的各個主題強度較高且主題概況較具中國特色。中國以改革、合作、可行性論證為政策主旋律,輔以節(jié)能減排、低碳技術為政策工具,為“改革與發(fā)展者”。

        4總結(jié)與建議

        本文構(gòu)建了基于R語言的主題挖掘模型,以主題分析的新視角對政策文本進行基于語義的量化分析。通過輔以高頻詞項及其分布,著重從主題內(nèi)容和強度演化角度分析了歐盟、美國、中國的氣候政策法規(guī),取得了較好的實踐結(jié)果,這在三方的熱門、冷門、隨機主題的內(nèi)容及演化規(guī)律上得到了有關實證支持。針對此次主題挖掘成果以及國內(nèi)氣候治理的不足之處,本文認為國內(nèi)氣候政策法規(guī)體系的建設與完善可以從以下5個方面著眼:

        1考慮氣候方面專門立法

        氣候問題是一個涉及環(huán)境、能源、經(jīng)濟、國土資源的綜合議題,很多情況下氣候政策只是能源政策和計劃的附帶產(chǎn)品。近些年來我國逐漸意識到了氣候問題的嚴峻性以及其與發(fā)展改革的重要關系,開始注重可行性論證與領域改革,但是氣候變化卻始終缺乏堅硬的法律基石作為支持。模糊的公共職能、不明朗的領域邊界都在不同程度上削弱了氣候治理的效率。歐盟對于氣候變化有著堅實的法律基礎,除了英國頒布的《氣候變化法》外,其他成員國均以“能源氣候一攬子計劃”為基石進行分散立法。美國采取綜合立法模式,通過了《清潔能源與安全法》規(guī)定應對氣候變化的一系列相關方面。我國應盡快進行氣候方面專門立法,并基于此構(gòu)建包括《氣候稅》等后續(xù)相關法律。

        2完善寬領域與多部門協(xié)同應對氣候變化的制度體系雖然《中國應對氣候變化報告》公布了國內(nèi)已成立應對氣候變化領導小組,并建立了相應的工作機制,但是從數(shù)據(jù)采集和主題挖掘的結(jié)果可以看出,相對于美國以NOAA為核心的應對氣候變化多部門協(xié)同體系,我國諸如環(huán)境、能源等部門所制定的不同視角的氣候政策還是捉襟見肘,氣候政策的發(fā)布與制定部門較為單一。為了更好地增添氣候治理的政策視角、增加處理氣候問題的主動性與效率,應建設并完善多部門協(xié)同作用的應對氣候變化制度體系,變各部門的“協(xié)助”為“自理”。

        3適度強化市場力量

        美國是氣候政策市場導向較為明顯的國家,其氣候問題的國際立場一直是在不損害經(jīng)濟的前提下,以市場為基礎進行調(diào)節(jié)。我國不應照搬美國的政策模式,但可以借鑒其市場工具。在國家宏觀調(diào)控的前提下輔以市場手段,可以在一定程度上保證氣候治理的健康穩(wěn)固的發(fā)展。因此,我國應盡早建成碳交易體系,并嘗試探索其他以市場為依托的新方面、新路子。

        4增進與發(fā)達國家的技術、科研等領域的雙邊或多邊合作目前,節(jié)能減排、低碳發(fā)展是我國氣候治理的主要手段,我國正以“綠色能源”為目標,向“去碳化”發(fā)展邁進。作為清潔能源技術的三大超級投資方,歐盟、美國、中國擁有各自的能源投資計劃,之間面臨著一些競爭以及合作機會。為了可持續(xù)發(fā)展,我國應當增進與發(fā)達國際的技術和科研合作,增加三方專利技術的利用率并分享經(jīng)驗教訓,在技術出口上進行協(xié)調(diào)與配置,以此推動全球的能源機制轉(zhuǎn)型。

        5構(gòu)建新型國際氣候法規(guī)智能信息庫等決策支持系統(tǒng)氣候問題是國際重點問題,每個國家均會施行基于本國國情的以及不同視角的政策法規(guī)。隨著政府官方門戶、自媒體以及各種商業(yè)數(shù)據(jù)庫的完善與進步,國際政策法規(guī)、決策者言論、決策影響力、受眾接受力等政治相關要素均可以通過互聯(lián)網(wǎng)平臺進行獲取與挖掘。因此,構(gòu)建氣候政策法規(guī)智能信息庫將是一項重要的任務,其可以將國際氣候方面的政策法規(guī)以及相關政治要素進行自動采集并施以分類、聚類、主題分析等數(shù)據(jù)挖掘方法,以便決策者更好的洞悉國際政策發(fā)展以及執(zhí)行成果,從科學性和可行性等角度支撐我國決策制定。同時,建設高水平、功能豐富的新型氣候法規(guī)智能信息庫將有利于提升我國的軟實力與國際競爭力。

        參考文獻

        [1]盛亞,陳劍平.區(qū)域創(chuàng)新政策中利益相關者的量化分析[J].科研管理,2013,34(6):25-33.

        [2]李江,劉源浩,黃萃,等.用文獻計量研究重塑政策文本數(shù)據(jù)分析——政策文獻計量的起源、遷移與方法創(chuàng)新[J].公共管理學報,2015,12(2):138-144.

        [3]張永安,鄔龍.基于政策計量分析的我國大氣污染治理現(xiàn)狀研究[J].生產(chǎn)力研究,2015,27(1):122-126.

        [4]Prior L,Hughes D,Peckham S.The Discursive Turn in Policy Analysis and the Validation of Policy Stories[J].Journal of Social Policy,2012,41:271-289.

        [5]Talamini E,Dewes H.The macro-environment for liquid Biofuels in Brazilian science and public policies[J].Science and Public Policy,2012,39(1):13-29.

        [6]Li J X,Wang H J,Zhang Z,et al.A policy-based process mining framework:mining business policy texts for discovering process models[J].Information Systems And E-Business Management,2010,8(2):169-188.

        [7]劉興.貝葉斯分類算法在稅收政策公文識別的研究和應用[D].長沙:湖南大學,2011.

        [8]蘇變萍,侯筱婷.面向政策法規(guī)數(shù)據(jù)的分類方法[J].微電子學與計算機,2008,37(7):166-168.

        [9]熊小梅,劉永浪.基于LSA的二次降維法在中文法律案情文本分類中的應用[J].電子測量技術,2007,(10):111-114.

        猜你喜歡
        政策文本R語言量化分析
        中國男女平等政策演變特征研究
        我國住房保障政策演進分析
        我國來華留學生教育政策變遷的路徑與特點
        中國節(jié)能減排政策的演進
        基于GPS軌跡數(shù)據(jù)進行分析改善城市交通擁擠
        基于R語言的Moodle平臺數(shù)據(jù)挖掘技術的研究
        2005—2015年中國遠程教育機構(gòu)及其學習者成本效益研究的量化分析
        亞太教育(2016年31期)2016-12-12 08:53:44
        國家社科基金視角下我國馬列·科社學科研究狀況分析
        營改增對企業(yè)稅負影響的量化分析
        網(wǎng)絡新聞標題修改的量化分析
        今傳媒(2016年8期)2016-10-17 00:05:51
        疯狂做受xxxx国产| 丰满女人又爽又紧又丰满| 精品久久久久久777米琪桃花 | 天天天综合网| 欧美色资源| 精品中文字幕久久久人妻| 亚洲 另类 小说 国产精品| 777米奇色狠狠俺去啦| ā片在线观看免费观看| 最新国产午夜福利| 日本不卡的一区二区三区| 免费人成视频网站在线不卡| 四虎影视久久久免费观看| 亚洲成av人在线观看天堂无码| 亚洲av色先锋资源电影网站| 无码91 亚洲| 国产丝袜美腿在线播放| 337p人体粉嫩胞高清视频| 国内揄拍国内精品人妻浪潮av| 亚洲一区二区在线| 免费av网址一区二区| 米奇欧美777四色影视在线| 亚洲精品久久久久久久久av无码| 亚洲三区二区一区视频| 人妻av不卡一区二区三区| 国产丝袜爆操在线观看| 少妇人妻精品一区二区三区| 色综合中文综合网| 国产av无码专区亚洲草草| 亚洲色图专区在线观看| 国产精品乱码一区二区三区| 国产精品无码片在线观看| 国产一区二区在线观看我不卡| 日本高清一区二区不卡| 无码爆乳护士让我爽| 激情另类小说区图片区视频区| 四虎国产精品免费久久麻豆| 日日麻批免费高清视频| 风韵少妇性饥渴推油按摩视频| 中文字字幕在线精品乱码| 欧美韩国精品另类综合|