武 虹,楊寶龍,杜治高,李涵露
1(中國科協(xié)創(chuàng)新戰(zhàn)略研究院,北京 100086)
2(北京航空航天大學,北京 100083)
科技政策是國家為實現(xiàn)一定歷史時期的科技任務而規(guī)定的基本行動準則,是確定科技事業(yè)發(fā)展方向,指導整個科技事業(yè)的戰(zhàn)略和策略原則.科技政策是否高效合理,對科學技術(shù)能否快速發(fā)展具有重要的影響.為了提升科技政策制定過程的系統(tǒng)性和科學性,2005年美國提出了“科學政策學” (Science of Science Policy,SoSP) ,把科技政策研究作為一門“科學”[1],并將SoSP作為建立美國政府“基于證據(jù)的決策系統(tǒng)”的重要舉措[2].2008年國家科學技術(shù)委員會 (NSTC) 和白宮科技政策辦公室 (OSTP) 聯(lián)合發(fā)布了《科技政策學:聯(lián)邦研究路線圖》,指導國家科技政策學的發(fā)展[3].2009年日本科學技術(shù)振興機構(gòu) (JST) 在日本發(fā)起科技政策學的研究與梳理工作,加強日本科技政策的證據(jù)基礎,推進科技政策科學的發(fā)展[4].2010年,歐盟與美國聯(lián)合舉辦了歐美科技政策學討論會,以推進歐洲科技政策學的規(guī)范化研究[5].自此,世界科技政策研究邁入了科技政策科學的新階段[6],并形成了大量高水平的研究成果.近年來,科技政策研究在國內(nèi)也得到了越來越多的關(guān)注[7,8].
作為科技政策研究的主體,國內(nèi)外的歷史科技政策種類繁多、數(shù)量龐大,近些年的歷史政策散落在互聯(lián)網(wǎng)各處,2000年以前的歷史政策則一般只有紙版文檔,這些政策文獻很難得到有效的收集整理,對科技政策研究帶來了不便和障礙.隨著網(wǎng)絡爬蟲技術(shù)的發(fā)展,利用信息技術(shù)從互聯(lián)網(wǎng)收集歷史科技政策文獻成為了可能;而自然語言處理、大數(shù)據(jù)、機器學習等技術(shù)的發(fā)展,則為科技政策研究提供了新的技術(shù)手段[9].部分科技政策研究單位已經(jīng)開始收錄和整理科技政策文獻,但是這項研究整體上仍然處于起步階段.部分現(xiàn)有科技政策數(shù)據(jù)庫僅采集國內(nèi)政策,缺乏對國際先進經(jīng)驗的整理;或者僅限于科技政策收集,對政策解讀、領(lǐng)導講話、政策研究等相關(guān)文獻缺乏關(guān)注;還有部分政策庫采集了政府部門制定的所有政策,對科技政策研究而言針對性不強.另外,現(xiàn)有科技政策庫建設的關(guān)注焦點仍集中在數(shù)據(jù)采集方面,對數(shù)據(jù)清洗,以及統(tǒng)計分析等研究支持能力缺乏深入研究 .
本文基于Scrapy 爬蟲框架[10]設計和實現(xiàn)了可管理的網(wǎng)絡爬蟲,從225 個互聯(lián)網(wǎng)站點采集國內(nèi)外科技政策文獻;并進一步對原始政策數(shù)據(jù)進行結(jié)構(gòu)化信息提取、數(shù)據(jù)去重、非相關(guān)數(shù)據(jù)清洗等數(shù)據(jù)清洗操作,構(gòu)建了完整和統(tǒng)一的科技政策庫;在政策庫的基礎上實現(xiàn)文本分類、關(guān)聯(lián)分析、全文檢索、統(tǒng)計分析功能,為科技政策的研究與制定提供了參考和依據(jù).
(1) 面向225 個國內(nèi)國外、結(jié)構(gòu)不一、安全策略各異的互聯(lián)網(wǎng)站點,設計可配置、可管理的網(wǎng)絡爬蟲,采集科技政策相關(guān)的數(shù)據(jù),實現(xiàn)數(shù)據(jù)的增量更新.利用OCR 技術(shù)識別歷史文獻圖書,提取文獻的結(jié)構(gòu)化信息,實現(xiàn)歷史文獻的批量入庫.
(2) 采用機器學習、自然語言處理等技術(shù),對從互聯(lián)網(wǎng)采集的56 萬條科技政策相關(guān)網(wǎng)頁進行數(shù)據(jù)清洗,通過數(shù)據(jù)去重、非相關(guān)數(shù)據(jù)清洗、數(shù)據(jù)屬性缺陷處理等一系列操作,去除噪音數(shù)據(jù),提升數(shù)據(jù)質(zhì)量.
(3) 在數(shù)據(jù)清洗基礎上實現(xiàn)科技政策庫文獻的分類、關(guān)聯(lián)關(guān)系分析、全文索引,并向用戶提供文獻檢索、查閱和下載功能;針對有效入庫的文獻實現(xiàn)時域分析、地域分析等功能.
科技政策庫系統(tǒng)通過網(wǎng)絡爬蟲采集互聯(lián)網(wǎng)上的政策數(shù)據(jù),對紙版歷史文獻進行OCR 識別;這兩類原始數(shù)據(jù)在采集之后被寫入消息隊列;數(shù)據(jù)清洗子系統(tǒng)作為消息隊列消費者,對原始數(shù)據(jù)進行數(shù)據(jù)清洗,并將有效數(shù)據(jù)寫入文獻存儲子系統(tǒng);數(shù)據(jù)分析子系統(tǒng)則對文獻存儲子系統(tǒng)內(nèi)的文獻進行全文索引、文本分類、關(guān)聯(lián)分析,并向管理員和研究人員提供文獻檢索、查閱、下載、統(tǒng)計分析接口.系統(tǒng)的具體流程見圖1.
(1) 數(shù)據(jù)采集子系統(tǒng)包括網(wǎng)絡爬蟲、增量爬取調(diào)度器、數(shù)據(jù)屬性識別、爬蟲配置、爬蟲異常管理等組件.對225 個國內(nèi)外站點按照網(wǎng)站結(jié)構(gòu)、安全策略等特點進行分類,基于Scrapy 爬蟲框架設計一系列爬蟲,每個爬蟲負責一類站點的數(shù)據(jù)采集.
(2) OCR 子系統(tǒng)基于ABBYY FineReader 軟件實現(xiàn)歷史文獻的電子化,并進一步提取電子文獻的結(jié)構(gòu)化數(shù)據(jù),批量導入消息隊列.
(3) 采用Redis 軟件實現(xiàn)消息隊列.本系統(tǒng)采集的文獻可以分為核心政策、領(lǐng)導講話、政策解讀、科技政策相關(guān)新聞、科技政策研究論文、科技政策研究項目等10 類.不同類型文獻的數(shù)據(jù)屬性存在較大差異,通常來自同一站點欄目或者搜索結(jié)果列表的文獻結(jié)構(gòu)化信息類似.因此,基于文獻來源在消息隊列中劃分消息主題,同一消息主題下的文獻具有相同的數(shù)據(jù)結(jié)構(gòu).
(4) 數(shù)據(jù)清洗子系統(tǒng)包括數(shù)據(jù)去重、非相關(guān)數(shù)據(jù)清洗、數(shù)據(jù)屬性缺陷處理等組件,清除原始數(shù)據(jù)中的臟數(shù)據(jù).
(5) 文獻存儲子系統(tǒng)包括:Mysql 數(shù)據(jù)庫,存儲文獻的數(shù)據(jù)屬性信息;文件系統(tǒng),存儲原始html、txt、pdf、doc 等各種格式的政策文本;Solr,存儲文本和部分結(jié)構(gòu)化信息,實現(xiàn)全文索引.
圖1 系統(tǒng)流程示意圖
(6) 數(shù)據(jù)分析子系統(tǒng)包括文本分類,文本關(guān)聯(lián)關(guān)系分析,文獻檢索、查閱、下載,文獻統(tǒng)計分析等組件.
(7) 系統(tǒng)包括管理員和研究人員兩類用戶,管理員具有爬蟲配置、異常處理、文獻增刪改查等系統(tǒng)管理權(quán)限,研究人員則可以從系統(tǒng)檢索、查閱、下載文獻,進行文獻的統(tǒng)計分析和結(jié)果可視化查看.
科技政策庫系統(tǒng)的采集源共225 個站點,其中中央政府和部委站點80 個,地方政府站點50 個,第三方門戶和垂直資訊站點9 個,政策研究機構(gòu)站點13 個,美國政府站點18 個,印度政府站點48 個,芬蘭政府站點7 個.
由于源站點范圍廣、種類多,數(shù)據(jù)采集子系統(tǒng)的設計面臨諸多挑戰(zhàn).首先,這些網(wǎng)站的結(jié)構(gòu)差異明顯,部分站點科技政策相關(guān)的數(shù)據(jù)集中在某個欄目,其他站點則需要通過檢索接口查詢獲?。桓髡军c的政策列表頁面翻頁機制不盡相同;部分站點的內(nèi)容由Javascript代碼動態(tài)生成.其次,各站點的政策列表和政策詳情網(wǎng)頁結(jié)構(gòu)差異較大,無法開發(fā)一致的數(shù)據(jù)屬性識別策略.最后,各站點的數(shù)據(jù)保護策略不盡相同,常見的策略包括監(jiān)控訪問頻度、賬號認證、動態(tài)URL (Uniform Resource Locator)等.
2.1.1 基于Scrapy 框架的爬蟲設計
本文基于Scrapy 框架和Splash 實現(xiàn)網(wǎng)絡爬蟲.Scrapy 是Python 開發(fā)的一個快速Web 抓取框架,用于抓取web 站點并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù).Scrapy是目前廣泛應用的爬蟲框架,非常適合特定站點和欄目的定向爬取.Splash 是一個實現(xiàn)了HTTP API 的輕量級瀏覽器,支持Javascript 渲染.Scrapy 框架通過Scrapy-Splash 模塊引入Splash 軟件,彌補了Scrapy 無法抓取網(wǎng)頁動態(tài)內(nèi)容的缺陷.
根據(jù)網(wǎng)站結(jié)構(gòu)和網(wǎng)頁結(jié)構(gòu)對源站點進行分組,比如大部分部委的網(wǎng)站結(jié)構(gòu)相似,可以分成一個組.針對每組站點設計單獨的爬蟲,實現(xiàn)站點數(shù)據(jù)的爬取和結(jié)構(gòu)化信息提取.
2.1.2 基于XPath 的數(shù)據(jù)屬性識別
本文基于XPath 實現(xiàn)網(wǎng)頁的數(shù)據(jù)屬性識別.XPath使用路徑表達式來選取 XML 文檔中的節(jié)點或者節(jié)點集,由于HTML 和XML 結(jié)構(gòu)基本一致,因此XPath 非常適合從網(wǎng)頁中提取結(jié)構(gòu)化信息.例如XPath 表達式"http://*[@id='article_author']/text()"在網(wǎng)頁中查找所"article_author"標簽,提取列表中各篇文章的作者姓名.
2.1.3 反爬設計
為了應對各站點的數(shù)據(jù)保護措施,本文采取了3 種反爬方法.首先,在爬蟲工作時,設置了最小訪問時間間隔,并動態(tài)調(diào)整頁面請求時間間隔.第二種方法是采用動態(tài)UserAgent,部分站點會根據(jù)UserAgent判斷用戶的訪問是否合理,為了避免誤判,使用Python 的fake_useragent 插件動態(tài)模擬UserAgent.第三種反爬方法是動態(tài)代理IP,部分站點會對頻繁訪問的IP 暫時或永久的禁止,針對這些站點爬蟲維護一個可用的代理IP 庫,每次請求隨機從該庫中選擇一個IP 訪問.
2.1.4 爬蟲配置和管理
網(wǎng)絡爬蟲必須適應網(wǎng)站改版、站點安全策略的變化,因此本文支持對爬蟲的行為進行配置,包括初始URL、搜索關(guān)鍵字、最大失敗重試次數(shù)、結(jié)構(gòu)化信息的XPath 表達式配置等.
對于爬蟲采集數(shù)據(jù)中發(fā)生的各種錯誤,例如404、502、Timeout 等錯誤,系統(tǒng)進行記錄、報警,并提供了錯誤查詢接口.
為了實現(xiàn)科技政策數(shù)據(jù)的增量更新,實現(xiàn)了爬蟲調(diào)度器,定期啟動爬蟲對源站點進行新的數(shù)據(jù)采集操作.為了多次采集造成數(shù)據(jù)重復,將曾經(jīng)爬取的網(wǎng)頁URL 保存在Redis 中,每次采集時進行比對過濾.
數(shù)據(jù)采集子系統(tǒng)從互聯(lián)網(wǎng)上收集的原始數(shù)據(jù)質(zhì)量無法保證,首先,雖然數(shù)據(jù)采集子系統(tǒng)避免了相同URL 網(wǎng)頁的重復采集,但是很多文獻在不同站點反復出現(xiàn),導致了原始數(shù)據(jù)集存在大量數(shù)據(jù)重復.第二,由于大部分站點的數(shù)據(jù)是通過其檢索接口采集的,因此爬蟲程序采集了大量與科技政策無關(guān)的數(shù)據(jù).第三,部分數(shù)據(jù)存在關(guān)鍵屬性缺失、屬性錯誤、屬性值格式不統(tǒng)一等缺陷.原始數(shù)據(jù)中夾雜的臟數(shù)據(jù)會誤導科技政策的研究,因此必須予以清除.
2.2.1 基于Simhash 的數(shù)據(jù)去重
Simhash 是一種LSH 算法(Locality-Sensitive Hashing,局部敏感哈希)[11],是目前最好的海量文本去重算法.Simhash 算法對文本經(jīng)過分詞、散列、加權(quán)、合并、降維等一系列計算,最終為文本生成64-bit 的信息指紋.判斷兩個文本相似度的方法是對其Simhash值進行異或操作:
其中,hammingDist為計算兩個整數(shù)海明距離的函數(shù),即為兩個整數(shù)二進制編碼中不同的位數(shù),K是最大容忍的不同位數(shù),取值3.
本文采用Jieba 分詞軟件對文本進行分詞,基于詞表去除停用詞,采用TF-IDF(Term Frequency-Inverse Document Frequency)[12]算法進行權(quán)重計算并降維,將文本表示為特征向量;之后為每篇文獻進行Simhash 計算;最后逐篇文本進行Simhash 計算,比較去重.
為了降低計算次數(shù),將文本的64 位Simhash 值均分為4 份,并建立16 bit 索引進行存儲.分析可知,這種方案的存儲開銷變?yōu)樵瓉淼? 倍,但是單個文本的相似度計算次數(shù)降為:4×4n/216,其中n為文獻總量.常規(guī)的兩兩比較計算次數(shù)整體為:n×(n-1)/2,因此整體計算次數(shù)約降為原來的1/213.
2.2.2 基于機器學習的非相關(guān)數(shù)據(jù)清洗
本文采用邏輯回歸算法[13]將爬蟲采集的原始數(shù)據(jù)分為科技政策相關(guān)、非科技政策相關(guān)兩類,從而實現(xiàn)對非相關(guān)數(shù)據(jù)的清洗.邏輯回歸模型作為廣義線性模型類別,屬于概率性回歸,主要用來推斷兩分類或者多分類應變量與多維解釋變量的關(guān)系.使用邏輯回歸算法進行科技政策文本分類的流程:
(1) 構(gòu)建訓練集.從爬蟲采集的原始數(shù)據(jù)中選擇1000 篇科技政策相關(guān)的數(shù)據(jù),政策類型覆蓋核心政策、政策解讀、政策研究等各種類型;并選擇1000 篇非科技政策相關(guān)的數(shù)據(jù).
(2) 文本預處理.對訓練集文本使用Jieba 分詞軟件分詞,根據(jù)詞表去除停用詞.
(3) 特征提取.使用TF-IDF 算法構(gòu)建文本的特征向量,并降維.
(4) 訓練模型.從2000 篇標注的文本中隨機選擇1000 篇進行模型訓練,并利用其他1000 篇驗證模型分類概率.不斷調(diào)整梯度下降等算法參數(shù),以達到理想的分類效果.
(5) 使用訓練好的模型對爬蟲采集的數(shù)據(jù)進行分類,并清除非科技政策相關(guān)數(shù)據(jù).
2.2.3 數(shù)據(jù)屬性缺陷處理對爬蟲提取的結(jié)構(gòu)化信息進行分析,常見的屬性缺陷可以分成四類:第一類缺陷是數(shù)據(jù)屬性值缺失,例如文獻沒有標題;第二類缺陷是數(shù)據(jù)屬性錯誤,例如日期屬性的值為一段描述文字;第三類缺陷是多個屬性之間違反完整性約束,例如政策的發(fā)布日期、生效日期、失效日期違反了先后順序;第四類缺陷是不同文獻的統(tǒng)一屬性格式不統(tǒng)一,例如日期格式五花八門,對后續(xù)的統(tǒng)計分析造成障礙.
本文采取基于規(guī)則的方法結(jié)合人工參與,來識別和校正數(shù)據(jù)屬性錯誤.對于前三類類缺陷,系統(tǒng)定義一系列規(guī)則去識別缺陷;如果標題和正文等關(guān)鍵信息缺失或者錯誤,則丟棄改文獻;如果非關(guān)鍵屬性缺失,則依賴人工補充.對于第四類缺陷,系統(tǒng)采用正則表達式實現(xiàn)數(shù)據(jù)屬性的規(guī)格化,首先針對每個數(shù)據(jù)屬性,枚舉所有格式的正則表達式,例如日期格式的[0-9]{4}[-./年][0-9]{2}[-./月][0-9]{2}或者[0-9]{2}[/][0-9]{2}[/][0-9]{4}等;然后針對每個文獻的屬性值,與這些正則表達式進行模式匹配;不同的格式采用不同的轉(zhuǎn)換方式,最終全部轉(zhuǎn)換為標準格式.
系統(tǒng)對于數(shù)據(jù)屬性錯誤標識、審閱修正保留了記錄,方便后續(xù)對這些操作進行跟蹤評估.
2.3.1 基于規(guī)則的政策分類
科技政策研究需要對文獻進行多種維度的分類:按照國別和地區(qū)分類;按照政策性質(zhì)分成核心政策、政策解讀、領(lǐng)導講話、政策研究論文、政策法案、政策研究課題等類別;按照政策手段可以分成財稅政策、人才政策等類別;按照政策層次可以分成中長期規(guī)劃、具體政策等類別.
系統(tǒng)依據(jù)數(shù)據(jù)來源和文本特點實現(xiàn)了國別和地區(qū)、政策性質(zhì)的分類.政策的采集來源可以作為重要的分類依據(jù),例如不同國家、不同地方政府發(fā)布的政策采集來源是非常明確的;政策研究課題信息則來源于政策研究機構(gòu);政策研究論文則來自于科研論文數(shù)據(jù)庫等.
另外核心政策具有很多明確的特點:發(fā)文機構(gòu)有確定的范圍,政策具有發(fā)文字號,標題中一般包含決議、決定、命令(令)、公報、公告、通告、意見、通知、通報、報告、請示、批復、議案、函、紀要等字眼.
2.3.2 基于Apriori 算法的關(guān)聯(lián)分析
科技政策之間存在替代、合并、規(guī)劃與落實等許多關(guān)聯(lián)關(guān)系,如果能夠發(fā)現(xiàn)這些關(guān)聯(lián)關(guān)系,并在用戶瀏覽政策時以推薦、可視化圖譜的形式進行展示,對科技政策研究具有重要意義.Apriori 算法[14,15],是最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法,其核心是基于兩階段頻集思想的遞推算法.本文基于Apriori 算法,以政策文本中所包含的關(guān)鍵詞作為政策的特征描述,并結(jié)合政策發(fā)布的時效性特點,計算政策之間的關(guān)聯(lián)關(guān)系.具體的分析流程:
(1) 所有政策數(shù)據(jù)集合為D(Data),通過預設以及關(guān)鍵詞提取得到的關(guān)鍵詞庫集合為K(Keyword),單個政策文本數(shù)據(jù)為P(Policy),三者可以抽象表示為:
(2) 定義一個政策特征變量S,可表示為一組關(guān)鍵詞的集合S={K1,K2,…,Ks},需要注意S與P的區(qū)別:P是某個政策文本中提取出的關(guān)鍵詞的集合,而S是所有關(guān)鍵詞組成的集合.如果S?P,則說明政策P包含政策特征S,政策與政策特征的包含關(guān)系表明S中的各關(guān)鍵詞是相互關(guān)聯(lián)的.
(3) 政策數(shù)據(jù)集合D中包含特征S的政策文本數(shù)據(jù)P的數(shù)量為該特征政策的支持數(shù)σs,則該政策特征的支持度support(S)為:
其中,D為所有政策數(shù)據(jù)的數(shù)量,若support(S)小于系統(tǒng)規(guī)定的最小支持度,則S為不頻繁政策特征集;若S大于等于最小支持度,則S為頻繁特征集.在本系統(tǒng)中,除了統(tǒng)計計算得到的頻繁特征集外,還可以預設頻繁特征集.
(4) 若有兩個互不包含的政策特征SA,SB,SA?SB記為特征關(guān)聯(lián)關(guān)系,這個關(guān)聯(lián)關(guān)系的可信度為在D 中包含了政策特征SA的政策文本同時又包含了政策特征SB的數(shù)量百分比,特征關(guān)聯(lián)可信度confidence(SA?SB)為:
如果confidence(SA?SB)小于系統(tǒng)規(guī)定的最小可信度,則它們?yōu)槿蹶P(guān)聯(lián)關(guān)系,否則為強關(guān)聯(lián)關(guān)系.
系統(tǒng)在得到頻繁特征集集合和強可信關(guān)聯(lián)關(guān)系集合后,根據(jù)每個集合中的政策文本的發(fā)文時間以及發(fā)布機構(gòu)字段來確定同一集合內(nèi)的政策間的追溯關(guān)系.
2.3.3 統(tǒng)計分析
系統(tǒng)在數(shù)據(jù)采集和數(shù)據(jù)清洗的基礎上實現(xiàn)了初步的統(tǒng)計分析功能.系統(tǒng)支持統(tǒng)計每個省、每年發(fā)布的科技政策數(shù)量,以此為基礎支持從時域、地域兩個維度進行統(tǒng)計分析.支持分析指定區(qū)域發(fā)布科技政策數(shù)量隨時間的變化趨勢;支持分析在一定時間范圍內(nèi),各地區(qū)發(fā)布的科技政策總量的對比.
從2018年10月在中國科協(xié)正式上線應用以來,科技政策庫系統(tǒng)對225 個互聯(lián)網(wǎng)站點進行了數(shù)據(jù)采集;并實現(xiàn)了一套圖書的OCR 識別入庫,即《中共中央文件選集:1949年10月-1966年5月(全五十冊)》;共計獲取564 749 條科技政策相關(guān)的原始數(shù)據(jù);經(jīng)過數(shù)據(jù)清洗,有效入庫數(shù)據(jù)404 083 條.
通過基于Simhash 算法的去重清洗了重復數(shù)據(jù)62 336 條,通過基于邏輯回歸分類方法清洗了非科技政策相關(guān)數(shù)據(jù)94 706 條,清洗標題和文本等關(guān)鍵屬性缺失的數(shù)據(jù)3624 條.經(jīng)過數(shù)據(jù)清洗之后,有效入庫數(shù)據(jù)404 083 條.
為了驗證數(shù)據(jù)清洗的效果,本文從有效入庫的文獻中隨機抽取1000 篇文獻,進行人工的重復、非相關(guān)文獻統(tǒng)計.經(jīng)過10 次試驗求平均值,可知數(shù)據(jù)清洗之后,數(shù)據(jù)重復率約為0.07%,非相關(guān)文獻數(shù)量比率約為0.6%.
表1 科技政策庫數(shù)據(jù)清洗效果
對于有效入庫的404 083 條數(shù)據(jù)按照國別和政策性質(zhì)兩個維度進行了統(tǒng)計,結(jié)果見表2和表3.表3中的177 423 篇核心政策中,包括中共中央文件選集4248 篇,美國科技政策法案8157 篇.相關(guān)數(shù)據(jù)包括科技政策相關(guān)的領(lǐng)導講話、科技政策解讀、科技政策新聞等相關(guān)文獻.
表2 有效入庫數(shù)據(jù)按國別分類統(tǒng)計
表3 有效入庫數(shù)據(jù)按政策性質(zhì)統(tǒng)計
系統(tǒng)基于Spring Boot 和Javascript、Vue(一種JavaScrip 前端開發(fā)框架)等技術(shù)實現(xiàn)了B/S 架構(gòu)的管理功能和UI,圖2-圖4展示了科技政策庫系統(tǒng)的部分界面.
圖2 政策檢索結(jié)果列表
圖3 政策在線閱讀
圖4 政策發(fā)布趨勢分析
圖5 政策發(fā)布地區(qū)對比
科技政策庫系統(tǒng)基于Scrapy 框架針對大量異構(gòu)站點設計了可管理的網(wǎng)絡爬蟲,基于機器學習算法實現(xiàn)了數(shù)據(jù)去重、非相關(guān)數(shù)據(jù)識別、數(shù)據(jù)屬性缺陷識別等數(shù)據(jù)清洗功能,對有效入庫的科技政策進一步進行了文本分類、關(guān)聯(lián)關(guān)系分析,系統(tǒng)基于B/S 架構(gòu)向用戶提供了政策檢索、在線閱讀、統(tǒng)計分析等功能.系統(tǒng)上線之后總計采集科技政策相關(guān)數(shù)據(jù)564 749 條,數(shù)據(jù)清洗之后有效入庫404 083 條數(shù)據(jù),為科技政策研究工作提供了堅實的基礎.下一步需要從國內(nèi)外、歷史文件等方面擴大數(shù)據(jù)采集范圍,引入眾包等最新方法進一步提升數(shù)據(jù)清洗能力,從自定義分析、數(shù)據(jù)可視化等方面豐富系統(tǒng)的統(tǒng)計分析手段,以便更好地為科技政策研究提供支持.