李輝 曾文 吳晨生 李榮 樊彥芳
〔摘 要〕大數(shù)據(jù)時代的到來,促進了計算機科學技術的飛速發(fā)展,同時也給科技情報分析方法的研究帶來發(fā)展機遇。有效的數(shù)據(jù)分析方法是獲取有價值情報的基礎??萍颊邤?shù)據(jù)分析是指利用計算機處理技術自動地從科技政策數(shù)據(jù)中提取簡練且有代表性的語句,識別出數(shù)據(jù)的核心內容或用戶感興趣的語句內容?;诳萍颊邤?shù)據(jù)內容的特點,本文提出適用于科技政策數(shù)據(jù)內容特點的數(shù)據(jù)分析方法,設計并構建科技政策數(shù)據(jù)內容分析實驗系統(tǒng),驗證了本文提出方法的有效性。為探索深層次的科技數(shù)據(jù)情報分析方法提供了新思路。
〔關鍵詞〕中文科技政策;數(shù)據(jù)分析;新能源汽車
DOI:10.3969/j.issn.1008-0821.2018.06.010
〔中圖分類號〕F204;G311 〔文獻標識碼〕A 〔文章編號〕1008-0821(2018)06-0068-05
〔Abstract〕The arrival of the era of big data has promoted the rapid development of computer science and technology,and also brought opportunities for the development of scientific and technological information analysis methods.Effective data analysis methods are the basis for acquiring valuable information.Data analysis of science and technology policy refers that it use processing technology of computer to automatically extract concise and representative statements from the scientific and technological policy data,identify the core content of the data.Based on the characteristics of science and technology policy,this paper proposed a data analysis method suitable for the content of science and technology policy,designed and constructed the experimental system about data analysis of science and technology policy,and verified the effectiveness of the method proposed in this paper.It provided a new way for exploring the deep analysis method of scientific and technical information.
〔Key words〕chinese science and technology policy;data analysis;new energy vehicles
科技政策數(shù)據(jù)是一種特殊類型的科技數(shù)據(jù),相比其它類型的科技數(shù)據(jù),如科技文獻數(shù)據(jù),其數(shù)據(jù)內容更具研究特色,科技政策數(shù)據(jù)內容相對比較寬泛、公文化表述內容居多??萍颊邤?shù)據(jù)的分析是指對科技政策數(shù)據(jù)內容進行語句級的分析。目前,國家和各級政府頒布的科技政策通常會通過網(wǎng)絡實現(xiàn)實時的發(fā)布,例如:我國國家科學技術部、中國科學院和各省、市科委均設有科技政策法規(guī)相關網(wǎng)站,并且國內已建有科技政策法規(guī)數(shù)據(jù)庫,如:全國科技創(chuàng)新政策數(shù)據(jù)庫,可提供按時間排序的科技政策信息瀏覽和全文下載功能。但是,針對科技政策數(shù)據(jù)內容的分析服務并未有涉及。所以,當用戶使用傳統(tǒng)的關鍵詞方式,檢索科技政策數(shù)據(jù)庫時,特別是在大規(guī)模數(shù)據(jù)情況下,用戶快速、準確找到其需求的科技政策數(shù)據(jù)是比較難以實現(xiàn)的。因此,如何準確而快速地挖掘科技政策內容中的關鍵語句信息,對政策制定者、企業(yè)、個人等普通用戶均是必要的??紤]到目前涉及科技政策數(shù)據(jù)深層次內容進行自動分析的研究相對較少,所以研究意義相對更大。因此,本文重點介紹科技政策數(shù)據(jù)的分析方法,需要指出的是:本文提出的科技政策數(shù)據(jù)內容分析方法可以為非科技政策數(shù)據(jù)內容的分析提供借鑒和參考。
1 研究現(xiàn)狀
目前科技政策法規(guī)的研究,即對政策法規(guī)研究方法、工具和理論較多,來自不同學科的研究都有其自身的研究基礎和方法論,形成了各種各樣的研究框架和研究方法。在研究的內容方面,包括科技評價、技術創(chuàng)新、高新技術企業(yè)、科技成果轉化等,研究方法和工具涉及政治學、社會學、經(jīng)濟學、公共政策等多個學科,主要涉及3個方面:
1.1 針對科技政策基本理論的研究
肖世恩[1]以政策法規(guī)理論框架為基礎,探討了地方科技創(chuàng)新政策的評估內涵、評估標準、評估指標體系和評估方法。高峰[2]利用政策指數(shù)對區(qū)域政策法規(guī)內容進行整體判斷與分析,仲偉俊等[3]在政策工具的視角下構建政策分析框架,建立了基本政策工具緯度、科技活動類型緯度、科技活動領域緯度的三維分析框架,通過實證分析提出我國現(xiàn)有政策法規(guī)的不足和展望。
1.2 利用定量化的方法分析科技政策
黃萃等[4]提出一種政策工具視角下的政策文本量化研究方法,根據(jù)政策工具理論制定分析框架并進行頻數(shù)統(tǒng)計,在量化分析的基礎上提出政策建議,汪濤等[5]提出一種類定量化的政策法規(guī)文本分析框架,通過對一定年份北京市政策法規(guī)的演進分析,來驗證該框架的合理性并提出政策實踐的改進建議。
1.3 科技政策內容的分析
楊陽等[6]通過對政策的收集和對政策內容的總結,分析德國政府關于海上風電政策的演變、德國海上風電在新能源整體戰(zhàn)略布局中的地位,最后針對性地提出德國海上風電發(fā)展在政策上對于我國發(fā)展海上風電的啟示。彭紀生等[7]利用計量模型分析了我國近幾十年的技術創(chuàng)新政策的演變路徑,同時利用柯布-道格拉斯生產(chǎn)函數(shù)對政策法規(guī)變量進行統(tǒng)計,他們利用政策量化和統(tǒng)計分析的方法,探討政策法規(guī)對經(jīng)濟績效和技術的影響。
綜上所述,已有研究多是為政策制定者和政策主體制定政策、解決政策問題等提出的分析框架,可為制定者明確問題和調整政策提供參考。但是針對政策服務對象即用戶的科技政策內容分析則較少,在大數(shù)據(jù)量的情況下,用戶如果仍然使用傳統(tǒng)的檢索策略去查詢科技政策數(shù)據(jù)庫的數(shù)據(jù),是難以快速有效獲取有價值的科技政策數(shù)據(jù)信息的。
2 科技政策數(shù)據(jù)的分析方法
2.1 領域科技政策停用詞表與詞典的構建
人類語言系統(tǒng)中有很多對表達文檔中心含義沒有任何實質幫助的詞,這些極其常見的詞就是功能詞。如果單獨考慮這些詞語,將會影響文本分析的效率和準確率,所以數(shù)據(jù)預處理時需要去除這些功能詞,這些功能詞又被稱為停用詞。停用詞在不同的自然語言過程中指代的定義也有所不同,在基于詞的檢索系統(tǒng)中,停用詞指的是那些沒有太大檢索意義的詞,一般情況下這些詞出現(xiàn)的頻率也很高;在自動問答系統(tǒng)中,停用詞會根據(jù)實際問題的不同而變化;在自動分類中,停用詞指的是無情感傾向的中性詞和無實際含義的虛詞。在實際的自然語言處理過程中,部分修飾成分詞語可能會對句子識別進行干擾,所以需要過濾這些停用詞,從而可有效減少索引量,提高效率,并最終提高匹配效果。
科技政策數(shù)據(jù)內容用詞較為嚴謹,政策領域的停用詞和通用停用詞表相比,沒有“哦”、“哈”等語氣詞,沒有擬聲詞,沒有相對白話的轉折詞,沒有人物代詞,沒有相對特殊的符號,但是有部分公文領域常用詞。為了構造適用于政策法規(guī)文本的停用詞表,首先需要了解普通停用詞表應該包含的詞性。周欽強等[8]認為,基本的停用詞表不僅應該包含通常意義下的數(shù)字、標點符號和字符等,也需要包含文本信息量非常少且詞頻很高的獨立字,例如“的”等。羅杰等[9]認為,停用詞的詞性應包括數(shù)詞、量詞、代詞、方位詞、擬聲詞、嘆詞等,某些沒有實際意義的動詞和詞頻過高的名詞也可以作為停用詞,例如“按照”、“研究”等。所以,本書構建的停用詞表也應包含符號、數(shù)字和無實際意義的某些詞性,為了找到停用詞,需要依據(jù)一定的標準計算得到。最基本的計算標準是利用詞頻的大小判斷。詞頻評估函數(shù)的理論假設是:通常高頻詞與高噪聲值具有相關性,即當一個詞的詞頻非常高時,很有可能是噪聲詞。本書利用中國科學院NLPIR-ICTCLAS2014分詞系統(tǒng)對所搜集的科技政策法規(guī)進行分詞,統(tǒng)計分詞及詞性標注后的政策文本中所有詞的詞頻。可以發(fā)現(xiàn):一些沒有實際意義的詞,如:“的”、“是”、“和”等虛詞,連詞(即停用詞)出現(xiàn)次數(shù)非常多,這些詞不能出現(xiàn)在術語中。同時,一些頻繁出現(xiàn)的常用詞,如:“服務”、“推廣”、“加快”、“我們”等,它們雖然有實際意義,但不包含領域專業(yè)信息,同樣不能出現(xiàn)術語中。對于停用詞及不包含領域專業(yè)信息的常用詞,需對它們進行以下處理:對于停用詞,直接將它們存入停用詞表中;對于常用詞,對照相應公文領域及科技領域主題詞表,以詞頻及主題詞表判斷作為依據(jù),選擇不是術語的常用詞,存入停用詞表文件中。對于科技政策數(shù)據(jù)的詞典的構建,可以參見文章科技政策術語自動識別技術[10],實現(xiàn)科技政策詞典的構建,此處不再贅述。
2.2 科技政策數(shù)據(jù)內容的分析方法
科技政策內容分析是指利用計算機處理技術自動地從科技政策文本中提取簡練且有代表性的語句,識別出文本的核心內容或用戶感興趣的語句內容??萍颊呶谋局庇^表現(xiàn)為公文化、規(guī)整化的長文本。公文化體現(xiàn)在政策法規(guī)遣詞造句較為嚴謹,包含大量的公文用詞;規(guī)整化表現(xiàn)在部分政策法規(guī)分條目論述,形式規(guī)范,每條內容的聯(lián)系性一般不大,區(qū)別于普通敘述性文章和科技論文??萍颊邤?shù)據(jù)內容還有低噪聲和高冗余的特點,低噪聲的特點指的是科技政策文本行文規(guī)范,沒有特殊符號和網(wǎng)絡用語;高冗余的特點指的是指有關某個主題的政策用語有可能會十分相似。因此,適用于科技政策數(shù)據(jù)內容特點的分析方法應以計算政策法規(guī)的重要語句為重點,而語句權重的計算是判斷重要語句的依據(jù)。其計算上,我們重點使用特征組合方法。特征組合的方法是將數(shù)據(jù)中語句的多個特征按一定方式組合,然后根據(jù)對每個特征的計算和特征組合后計算值進行排序,抽取出相對重要的語句。常使用的特征包括:詞頻、與標題的相似度、句子位置、線索詞等?;诳萍颊邤?shù)據(jù)內容的特點,本文使用的特征是詞頻、語句與標題的相似度、語句的技術強度等。
2.2.1 基于詞頻的科技政策數(shù)據(jù)內容權重計算
詞頻較大則代表詞的重要性更高,那么包含重要性高的詞越多的語句的重要性越大,則更有可能稱為重要句。這點對于科技政策文本重要語句的分析同樣適用。該方法是將詞頻作為詞語的權重,再根據(jù)詞語的權重來計算語句的權重,其假設文本是語句的線性排列,語句是詞的線性排列,若一個語句中權重高的詞匯越多,那么其包含的信息量就越大,因此這個語句就越重要。基于該假設,本文此處做如下改進:基于詞頻的科技政策數(shù)據(jù)內容權重計算不是衡量語句中的每個詞的權重,而是結合科技政策數(shù)據(jù)詞典和停用詞表處理來衡量語句中每個術語的權重,這是由于語句中不僅包含有實際含義的詞語,也包含一些停用詞、無意義虛詞,而詞典中的術語是本領域中專業(yè)概念的集合,理論上語句中的術語包含了語句的主要思想。因此,本文在計算語句權重時,考慮語句中每個術語的權重,既可以簡化計算又能提高計算準確率。計算方法如下:
2.2.2 基于標題相似度的科技政策數(shù)據(jù)內容權重計算
科技政策數(shù)據(jù)文本的標題是一個很重要的信息,標題通常與文章的中心內容相關性很大。由于科技政策文本具有公文化、規(guī)整化的特性,其標題通常較為簡潔且歸納了該政策的核心內容,因此出現(xiàn)在標題中的詞理論上具有更高的權重。基于該假設,本文通過語句與標題的相似度計算來進一步衡量語句的權重,語句與標題的相似度的計算采用基于向量空間模型的相似度計算方法。向量空間模型是最常用的語句、文檔相似度度量模型,其優(yōu)點是基于線性的模型利用統(tǒng)計的手段解決語義的問題,計算方法簡單且效率較高。本文研究是基于向量空間模型的原理,利用術語庫形成的詞典對每個語句和標題進行分詞,把語句和標題用其含有的術語即特征項的向量表示出來,然后計算語句與其對應標題的向量間的夾角,向量夾角越小,標題與語句的相似度越高。語句與標題的相似度的計算公式如下:
2.2.3 基于技術強度的科技政策數(shù)據(jù)內容權重計算
在某種意義上,我國的科技政策具有指導科技創(chuàng)新發(fā)展的意義,科技政策法規(guī)內容往往會涉及技術術語。我們可以假設:如果在某個科技政策法規(guī)的語句中包含有科技術語,則這個含有科技術語的語句,我們認為它相對其它不包含科技術語的語句是更重要的。2012年,中國科學技術信息研究所組織編撰了漢語科技詞系統(tǒng),其中包含新能源汽車等領域的核心科技術語集、非核心科技術語集和相關科技術語集等。依據(jù)漢語科技詞系統(tǒng)的內容,本文設計如下基于技術強度的科技政策數(shù)據(jù)內容權重計算方法。
如果科技政策的語句中含有核心科技術語,則該語句的技術強度權值為0.8;如果科技政策的語句中含有非核心科技術語,則該語句的技術強度權值為0.5;如果科技政策的語句中含有相關科技術語,則該語句的技術強度權值為0.3;對于其他情況,該語句的技術強度權值為0.1。
綜上,本文提出的科技政策數(shù)據(jù)內容的重要性計算公式如下:
3 實驗分析
為驗證本文提出的科技政策數(shù)據(jù)分析方法的有效性,本文設計實驗系統(tǒng)平臺,應用本文提出的方法并進行相關實驗。實驗數(shù)據(jù)是新能源汽車領域的科技政策數(shù)據(jù)。系統(tǒng)平臺實現(xiàn)科技政策數(shù)據(jù)集中每篇科技政策文本內容的每個句子重要性權重計算。權重計算的主要內容涉及3個方面:一是基于詞頻的科技政策數(shù)據(jù)內容權重計算;二是基于標題相似度的科技政策數(shù)據(jù)內容權重計算;三是基于技術強度的科技政策數(shù)據(jù)內容權重計算。科技政策數(shù)據(jù)的分析方法流程如圖1所示,通過實驗處理后,實現(xiàn)科技政策數(shù)據(jù)集中的語句內容,按照重要性計算值的高低進行排序輸出。
科技政策的數(shù)據(jù)內容按policy(Importance_value)值從大到小排序,將內容中的句子依次輸出,本文抽取部分所得結果(見表1)進行分析。表1是隨機選取的5條政策法規(guī),列舉5條政策法規(guī)內容中重要性值最高和最低的語句。以隨機抽取的例子來看,第一條政策,其重要性值最高的語句描述的是政策制定的目的,重要性值最低的語句描述的是住宅小區(qū)物業(yè)服務企業(yè)對業(yè)主提出的要求;第二條政策,其重要性最高的句子描述的是政策目的主題內容,重要性值最低的句子描述地區(qū)實施方式;第三條政策,其重要性值最高的語句描述的是政策的適用范圍,重要性值最低的語句描述的是政策實施的條件;第四條政策,其重要性值最高的語句描述的是廣州新能源汽車推廣應用的方案,具有總括性,重要性值最低的語句描述的是探索具體的商業(yè)模式;第五條政策,其重要性值最高的語句描述的新能源汽車推廣的意義,重要性值最低的語句描述推廣應用結果??梢钥闯觯匾灾蹈叩恼Z句包含的信息內容豐富程度和重要程度相對來說比重要性值低的語句高,這些結果可在一定程度上證明本方法的可行性。系統(tǒng)平臺的界面如圖2所示,該系統(tǒng)平臺實現(xiàn)科技政策數(shù)據(jù)的自動分析,提供語句級的科技政策數(shù)據(jù)內容重要性分析和數(shù)據(jù)內容顯示功能。
4 結 論
隨著網(wǎng)絡技術的發(fā)展和應用,人們獲取科技政策數(shù)據(jù)的途徑和方式越來越方便和快捷,與此同時,其也導致政策法規(guī)的數(shù)據(jù)規(guī)模日益龐大,涉及的數(shù)據(jù)內容寬泛且復雜。如何從數(shù)據(jù)規(guī)模大且數(shù)據(jù)內容各不相同的科技政策數(shù)據(jù)中,分析其中的有價值數(shù)據(jù)內容是非常必要的。本文在已有的科技政策領域術語獲取方法基礎之上,實現(xiàn)了科技政策數(shù)據(jù)內容的深層次語義分析。針對目前關于科技政策數(shù)據(jù)內容分析研究較為匱乏的局面,設計并構建了一個科技政策數(shù)據(jù)內容的分析方法,旨在通過計算機自動處理的方法提煉出相對重要的科技政策語句,進而幫助有查詢意圖的用戶快捷、準確地找到其目標政策語句,為未來實現(xiàn)面向海量政策法規(guī)數(shù)據(jù)集的快速檢索、分析和導航奠定分析方法和技術基礎。
參考文獻
[1]肖士恩.基于創(chuàng)新型社會的地方科技創(chuàng)新政策評估理論研究[J].科技進步與對策,2010,27(1):103-105.
[2]高峰.基于政策指數(shù)的科技政策實證研究[J].科技進步與對策,2013,30(19):105-108.
[3]仲偉俊,蔡琦.科技政策分析框架研究[J].科技管理研究,2014,(22):23-27.
[4]黃萃,蘇竣,施麗萍,等.政策工具視角的中國風能政策文本量化研究[J].科學學研究,2011,(6):876-882,889.
[5]汪濤,安暄.類定量化科技政策文本分析框架構建及北京市科技政策演進分析[J].技術經(jīng)濟,2011,30(6):15-17,34.
[6]楊陽,鄭彥寧,陳峰,等.德國發(fā)展海上風電的政策分析[J].中國科技論壇,2011,(10):154-160.
[7]彭紀生,孫文祥,仲為國,等.中國技術創(chuàng)新政策演變與績效實證研究(1978-2006)[C].第七屆全國科技評價學術研討會,北京:科研管理,2007:134-150.
[8]周欽強,孫炳達,王義,等.文本自動分類系統(tǒng)文本預處理方法的研究[J].計算機應用研究,2005,22(2):85-86.
[9]羅杰,陳力,夏德麟,等.基于新的關鍵詞提取方法的快速文本分類系統(tǒng)[J].計算機應用研究,2006,23(4):32-34.
[10]曾文,李智杰,王小玉,等.科技政策術語自動識別技術初探[J].中國科技資源導刊,2017,49(3):20-25.
(實習編輯:陳 媛)