亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本挖掘技術(shù)的山東省科技創(chuàng)新政策演化研究

        2021-12-14 06:40:48孫夢
        魅力中國 2021年52期
        關(guān)鍵詞:詞頻分詞云圖

        孫夢

        (濟南大學(xué)商學(xué)院,山東 濟南 250000)

        一、引言

        我國的科技創(chuàng)新政策從上世紀八十年代來一直備受關(guān)注,尤其是近年來中國經(jīng)濟處于飛速發(fā)展的階段,作為經(jīng)濟轉(zhuǎn)型動力的“創(chuàng)新”就更受重視了,科技創(chuàng)新政策是中國經(jīng)濟變革中十分重要的一部分,對于近些年來對科技創(chuàng)新政策轉(zhuǎn)變的研究也不斷增多,這其中包含了多種的研究方式,早些年只能通過人工統(tǒng)計分析研究科技創(chuàng)新政策的演變路徑,如劉鳳朝將統(tǒng)計分析的方法引進創(chuàng)新政策研究領(lǐng)域,對1980 年到2005 年間289 項科技創(chuàng)新政策進行統(tǒng)計分析我國科技創(chuàng)新政策的演變路徑[1]。伴隨著科技創(chuàng)新政策數(shù)量的快速膨脹,從大量的科技創(chuàng)新政策文本中得出科技創(chuàng)新政策的演化路徑就不再能夠通過傳統(tǒng)的人工統(tǒng)計分析進行實現(xiàn),好在文本挖掘技術(shù)的不斷成熟以及文本挖掘技術(shù)在政策研究中的成熟利用,使得對于政策的研究更為方便,文本挖掘的方法能夠快速處理大量的文本信息,且能夠更大概率避免人為主觀思想的影響。

        二、基本概念與研究綜述

        政策文本指的是由國家或地區(qū)的各級機關(guān)以文件形式頒布的法律法規(guī)、規(guī)章制度等文件。文件是一種載體,在一定程度上能夠反映政策頒布的意圖,并且對于追溯文件的發(fā)展提供了事實依據(jù)。所以對于大量科技創(chuàng)新政策演化路徑的分析有利于追溯科技領(lǐng)域的發(fā)展路徑,本文擬從大量的政策文本中梳理政策文本的演化路徑,進而對做出演化預(yù)測具有十分重要的意義。

        國內(nèi)外學(xué)者對于文本政策的量化分析也有著各種各樣的維度,既有對政策發(fā)布機關(guān)等外部要素的研究,同時也有大量對政策內(nèi)容本身的研究。在對外部要素研究方面,黃萃等基于1978-2013 年中國中央部門聯(lián)合行文的科技政策文本,繪制出不同階段政府各部門合作網(wǎng)絡(luò)圖,并基于責(zé)任與利益兩個維度,對府際合作關(guān)系分類進行了討論[2]。當(dāng)然更多的文獻著重于對政策內(nèi)容的研究,如劉云等分析研究了中國不同階段創(chuàng)新國際化政策的主題變遷,并結(jié)合新形勢新需求,提供了若干啟示[3]。郄海拓、張志娟通過政策文本的高頻詞來概括創(chuàng)新政策聚焦于“創(chuàng)新”“科技”和“技術(shù)”等,并利用小團體分析法梳理了政策內(nèi)容的深層邏輯,為創(chuàng)新指明方向、提供支持[4]。

        三、研究思路

        本研究擬選取山東省2011-2020 十年間發(fā)布的科技創(chuàng)新政策文本為研究對象。本文擬采用的選取數(shù)據(jù)樣本的方法是:首先需要通過相關(guān)數(shù)據(jù)庫獲取有關(guān)科技創(chuàng)新的政策文件,然后再通過對有關(guān)科技創(chuàng)新政策的相關(guān)研究,對獲取政策進行篩選,獲得最終本文研究的樣本文本。利用Python 語言的jieba 包對政策文本按照不同年份的數(shù)據(jù)進行分詞處理,接下來建立行業(yè)詞庫,并保存作為相應(yīng)的詞庫。

        對政策文本進行分詞,并將分詞結(jié)果統(tǒng)計成詞頻,由高到低呈現(xiàn)。詞頻的高低能提現(xiàn)詞語在文中的重要程度,通過篩選得到部分詞頻統(tǒng)計結(jié)果,并且可以根據(jù)行業(yè)的高頻詞匯生成詞云圖,更加直觀地展現(xiàn)十年間政策文本中行業(yè)詞匯的變化,從而能夠分析政策文本的演化方向。

        四、實證研究

        (一)篩選獲取政策文本

        本研究選擇的政策文本的來源為北大法寶法律數(shù)據(jù)庫。在北大法寶法律數(shù)據(jù)庫中分別搜索科技、創(chuàng)新政策,將數(shù)據(jù)下載構(gòu)成樣本數(shù)據(jù)。通過搜索2011-2020年10 年內(nèi)與創(chuàng)新相關(guān)的山東省法律規(guī)章等文件,最終通過人工篩查得到了山東省2011-2020 年共108 篇文獻。

        表1 山東省創(chuàng)新政策的數(shù)量統(tǒng)計

        (二)文本處理

        1.文本分詞處理

        由于篩選好的科技創(chuàng)新政策文本都是非結(jié)構(gòu)化的數(shù)據(jù),需要對政策文本進行預(yù)處理。對于政策文本的處理,首先就是要進行分詞處理,分詞的準確與否很大程度上決定了政策文本演化分析研究的科學(xué)與否。隨著計算機技術(shù)的成熟與發(fā)展,有多種分詞的工具可供使用,由于在計算機領(lǐng)域和數(shù)據(jù)分析領(lǐng)域的應(yīng)用有所不同。所以在政策分析時十分常用的分詞工具就是Python第三方中文分詞庫jieba分詞,jieba 分詞支持三種分詞模式:精確模式、全模式和搜索引擎模式,本研究采用的就是jieba 分詞的精確模式。

        2.停用詞處理

        停用詞指的是在文本中對文本主題內(nèi)容沒有太大影響的詞語。這些詞語在政策文本中出現(xiàn)的頻率可能很高、但又對于結(jié)論無實際意義,去掉停用詞可以減少數(shù)據(jù)維度,提高文本處理的效率和準確度,所以下一步就是去掉停用詞的影響。

        本研究使用python 語言將108 篇政策文本非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化,進行jieba文本分詞,在導(dǎo)入停用詞后去掉了文本中的停用詞,使政策文本數(shù)據(jù)的復(fù)雜度降低,從而使文本挖掘的效率提升,預(yù)處理后的政策文本分詞有一定的效果,去掉冗余數(shù)據(jù)后為后續(xù)的分析做好了準備。

        (三)生成詞云圖、分析演化方向

        對行業(yè)詞的詞頻進行統(tǒng)計,由高到低呈現(xiàn)。詞頻的高低能提現(xiàn)詞語在文中的重要程度。從分詞結(jié)果中可以得到,2011-2020 年行業(yè)詞在當(dāng)年所發(fā)布的政策文本中出現(xiàn)頻次數(shù)前三位如表2 所示。

        表2 山東省創(chuàng)新政策的行業(yè)詞頻次排名統(tǒng)計

        為了讓高頻詞的展現(xiàn)更加直觀清晰,從山東省每年的科技創(chuàng)新政策文本中選取高頻詞和頻數(shù)的行業(yè)詞匯進行匯總,在匯總后剔除頻率較低的行業(yè)詞匯,使用python語言中的wordcloud包制作詞云圖,進行對比分析,在詞云圖中,字體越大,代表這個詞的詞頻越高,出現(xiàn)的次數(shù)越多。2011-2020 年間高頻行業(yè)詞直觀展示詞云圖如圖1。

        通過詞云圖,我們可以直觀看到十年間的變化。首先,2011 年政策文件中多次提到發(fā)展特色產(chǎn)業(yè),這相對于后來的政策文件中提到的內(nèi)容來說是比較特別的,到了2014 年“特色產(chǎn)業(yè)”仍是較高頻的詞匯,2015 年后來的文件可能較少出現(xiàn)“特色產(chǎn)業(yè)”,但開始出現(xiàn)高頻的“新興產(chǎn)業(yè)”“科技”等字眼。這些文件中對于特色產(chǎn)業(yè)、新興產(chǎn)業(yè)等要求也體現(xiàn)了不斷變化中的政策需求,即希望在科技信息化的時代潮流中,把握機會發(fā)展特色產(chǎn)業(yè)以及新興產(chǎn)業(yè),從而保持經(jīng)濟的增長。第二,從詞云圖可以看到“農(nóng)業(yè)”、“工業(yè)”、“制造業(yè)”等詞幾乎在每一年的政策文件中都是被高頻提到的,后來還多次出現(xiàn)“現(xiàn)代農(nóng)業(yè)”的字眼,說明了對于農(nóng)業(yè)的重視,也說明了在農(nóng)業(yè)的發(fā)展過程中要利用信息化、智慧農(nóng)業(yè)等促進山東省農(nóng)業(yè)的現(xiàn)代化發(fā)展。第三,“服務(wù)業(yè)”的發(fā)展也是山東省產(chǎn)業(yè)發(fā)展的重點,在2011 年至2018 年的政策文件中都是以高或者較高頻率的詞匯出現(xiàn)的,所以說明政府和機構(gòu)也希望通過指定合理有效的產(chǎn)業(yè)政策來促進服務(wù)業(yè)的發(fā)展。第四,從2018 年至2020 年,出現(xiàn)了“互聯(lián)網(wǎng)”這樣的高頻詞,這對于前些年來說是較大的改變,說明了政府在這幾年內(nèi)對于互聯(lián)網(wǎng)產(chǎn)業(yè)的扶持與發(fā)展。另外“互聯(lián)網(wǎng)”、“IT”等詞幾乎代表了信息化的發(fā)展,現(xiàn)今各個行業(yè)的發(fā)展都離不開科技的發(fā)展與進步,哪個行業(yè)的信息化發(fā)展的越好,說明是更為科學(xué)有效的發(fā)展。

        五、主要研究結(jié)論與政策建議

        通過分析研究,我們可以看到山東省政策文件多為鼓勵山東省現(xiàn)有老牌產(chǎn)業(yè)和特色產(chǎn)業(yè)的發(fā)展,對于農(nóng)業(yè)、工業(yè)、制造業(yè)等行業(yè)仍是山東經(jīng)濟發(fā)展的重頭戲,也是多次提倡和鼓舞發(fā)展的。但發(fā)展也要跟緊時代的步伐,加快建設(shè)現(xiàn)代農(nóng)業(yè)、新興產(chǎn)業(yè)的發(fā)展,才能不斷進步,我始終認為信息化的發(fā)展對于各行各業(yè)來說都是必不可少的,行業(yè)的信息化越成熟,越方便其發(fā)展,所以在此后的政策文件中對于行業(yè)方向的要求更應(yīng)該側(cè)重新興產(chǎn)業(yè)的發(fā)展以及各行各業(yè)的信息化發(fā)展。

        本文對于行業(yè)發(fā)展的推斷來源于文本挖掘和數(shù)據(jù)分析的結(jié)果,但整體來說行業(yè)詞的出現(xiàn)頻率并不很高,數(shù)據(jù)量不夠大時就無法做出更科學(xué)合理的結(jié)論,只針對現(xiàn)有的分詞結(jié)果所得出的結(jié)論稍顯片面,日后也將尋求新的方法解決此問題。

        猜你喜歡
        詞頻分詞云圖
        基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        成都云圖控股股份有限公司
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        黃強先生作品《雨后松云圖》
        名家名作(2017年3期)2017-09-15 11:13:37
        值得重視的分詞的特殊用法
        基于TV-L1分解的紅外云圖超分辨率算法
        詞頻,一部隱秘的歷史
        云圖青石板
        云存儲中支持詞頻和用戶喜好的密文模糊檢索
        以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報》學(xué)術(shù)研究特色
        圖書館論壇(2014年8期)2014-03-11 18:47:59
        国产美女做爰免费视频| av免费在线手机观看| 手机在线播放成人av| 日韩综合无码一区二区| 中国凸偷窥xxxx自由视频| 亚洲AV成人无码久久精品四虎| 日韩av中文字幕少妇精品| 久久久精品国产亚洲av网深田| 免费无遮挡禁18污污网站| 国产高中生在线| 亚洲第一页综合av免费在线观看| 日本久久久免费观看视频| 国产午夜精品一区二区| 伊人网综合在线视频| 亚洲国产精一区二区三区性色| 日本熟女精品一区二区三区| 小sao货水好多真紧h无码视频| 欧美精品中文| 99精品又硬又爽又粗少妇毛片| 国产情侣自拍一区视频| 亚洲色欲久久久综合网| 免费国产一级特黄aa大片在线| 国产午夜精品综合久久久| 日韩精品无码一区二区三区四区| 精品无码中文视频在线观看| 亚洲精品自拍视频在线观看| 精品国产亚洲一区二区三区四区 | 久久成年片色大黄全免费网站| 国内精品熟女一区二区| 国产在线一区二区三区四区| 边做边流奶水的人妻| 日产精品一区二区三区| 亚洲日产乱码在线中文字幕| 台湾佬中文娱乐网22| 久久久久99精品成人片试看| 热热久久超碰精品中文字幕| 国产白浆一区二区三区性色| 无码少妇a片一区二区三区| 综合久久久久6亚洲综合| 中文字幕色偷偷人妻久久一区 | 久久精品国产亚洲av试看|