曾 文 李智杰 王小玉 董 誠(chéng)
(中國(guó)科學(xué)技術(shù)信息研究所,北京 100038)
科技政策術(shù)語(yǔ)自動(dòng)識(shí)別技術(shù)初探
曾 文 李智杰 王小玉 董 誠(chéng)
(中國(guó)科學(xué)技術(shù)信息研究所,北京 100038)
在對(duì)科技政策領(lǐng)域術(shù)語(yǔ)的特點(diǎn)分析基礎(chǔ)上,提出一種適用于科技政策領(lǐng)域的術(shù)語(yǔ)識(shí)別方法,即結(jié)合科技政策術(shù)語(yǔ)的語(yǔ)言特點(diǎn),采用統(tǒng)計(jì)計(jì)算的方法進(jìn)行兩次術(shù)語(yǔ)過(guò)濾過(guò)程,實(shí)現(xiàn)科技政策術(shù)語(yǔ)的自動(dòng)識(shí)別。實(shí)驗(yàn)結(jié)果表明,本文提出的基于科技政策術(shù)語(yǔ)語(yǔ)言特點(diǎn)和統(tǒng)計(jì)計(jì)算相結(jié)合的科技政策術(shù)語(yǔ)自動(dòng)識(shí)別的方法具有一定的可行性,將用于科技政策詞典的構(gòu)建和科技政策文本內(nèi)容的深層次語(yǔ)義分析。
科技政策;科技政策術(shù)語(yǔ);術(shù)語(yǔ)特點(diǎn);統(tǒng)計(jì)計(jì)算;自動(dòng)識(shí)別
隨著網(wǎng)絡(luò)的發(fā)展和應(yīng)用普及,國(guó)家和各級(jí)政府的科技政策通過(guò)網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)發(fā)布,例如:科學(xué)技術(shù)部、中國(guó)科學(xué)院和各省市科技廳(委)均設(shè)有科技政策相關(guān)網(wǎng)站,并建有科技政策數(shù)據(jù)庫(kù),如全國(guó)科技創(chuàng)新政策數(shù)據(jù)庫(kù)(http://www.kjcxzc.com/contentlist.asp?parentid=4)、萬(wàn)方數(shù)據(jù)的政策法規(guī)知識(shí)服務(wù)平臺(tái)(http://s.wanfangdata.com.cn/Claw.aspx?f=claw.Cateogory&q=effectlevel%3a司法解釋),可按時(shí)間排序提供科技政策信息瀏覽和全文下載功能。科技政策的數(shù)據(jù)量日益增長(zhǎng),科技政策涉及的內(nèi)容廣泛而復(fù)雜,如何準(zhǔn)確快速地挖掘科技政策中的核心信息,急需對(duì)科技政策進(jìn)行深層的內(nèi)容分析,而其基礎(chǔ)工作是科技政策術(shù)語(yǔ)的識(shí)別。所謂科技政策術(shù)語(yǔ)是指科技政策文本中的詞語(yǔ)。本文擬對(duì)科技政策術(shù)語(yǔ)的自動(dòng)識(shí)別進(jìn)行初步探討。
術(shù)語(yǔ)自動(dòng)識(shí)別方法主要分為3類:基于規(guī)則的方法、基于統(tǒng)計(jì)的方法以及統(tǒng)計(jì)與規(guī)則相結(jié)合的方法。除此以外,還有一些新穎但應(yīng)用相對(duì)較少的方法[4]。其中,基于規(guī)則的方法主要利用術(shù)語(yǔ)詞典和規(guī)則模板進(jìn)行術(shù)語(yǔ)抽取,即把一些常用的術(shù)語(yǔ)收入詞典作為基礎(chǔ),對(duì)于詞典中沒(méi)有的術(shù)語(yǔ),則通過(guò)構(gòu)建規(guī)則模板的方法來(lái)識(shí)別[5]。該方法對(duì)特定領(lǐng)域和特定類型的術(shù)語(yǔ)識(shí)別具有良好的效果,但該方法需要掌握術(shù)語(yǔ)的構(gòu)詞規(guī)則,其適應(yīng)性及可移植性較低?;诮y(tǒng)計(jì)的方法是以統(tǒng)計(jì)理論為基礎(chǔ),利用術(shù)語(yǔ)已經(jīng)在語(yǔ)料庫(kù)中的分布統(tǒng)計(jì)屬性來(lái)識(shí)別術(shù)語(yǔ),即從概率意義上衡量多字單元是否為術(shù)語(yǔ)[6]。比較經(jīng)典的方法是詞頻統(tǒng)計(jì)方法、互信息和信息熵方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法等?;诮y(tǒng)計(jì)的方法相對(duì)于基于語(yǔ)言學(xué)的方法來(lái)說(shuō)不需要特定專業(yè)知識(shí)或資源,因此可移植性較好,但是其統(tǒng)計(jì)計(jì)算需要依靠大規(guī)模的語(yǔ)料庫(kù)。單獨(dú)地使用基于規(guī)則的方法或基于統(tǒng)計(jì)的方法進(jìn)行術(shù)語(yǔ)自動(dòng)識(shí)別,或多或少會(huì)存在較大的誤差,而將兩者結(jié)合起來(lái)使用,則會(huì)提高術(shù)語(yǔ)自動(dòng)識(shí)別的準(zhǔn)確度。因此,使用兩者結(jié)合的方法進(jìn)行術(shù)語(yǔ)自動(dòng)識(shí)別是目前的主要方法,其具有代表性的方法是C-value方法及其改進(jìn)的方法。此外,其他新方法還有擴(kuò)展法。其主要思想是通過(guò)種子術(shù)語(yǔ)[7]、中心詞串、術(shù)語(yǔ)部件等術(shù)語(yǔ)核心部分進(jìn)行擴(kuò)展,以抽取術(shù)語(yǔ)。如,文獻(xiàn)[8]設(shè)計(jì)了一種串?dāng)U展算法,對(duì)一個(gè)中心串集的每一個(gè)中心串,需在領(lǐng)域語(yǔ)料中找出包含這個(gè)中心串的句子集合,并對(duì)其中每一個(gè)句子進(jìn)行單句串?dāng)U展操作。這種算法用于密碼學(xué)領(lǐng)域的術(shù)語(yǔ)識(shí)別,取得了不錯(cuò)的效果。文獻(xiàn)[9]提出一種術(shù)語(yǔ)部件擴(kuò)展算法來(lái)自動(dòng)識(shí)別術(shù)語(yǔ)。術(shù)語(yǔ)部件是特定領(lǐng)域中構(gòu)成術(shù)語(yǔ)能力較強(qiáng)的單詞或語(yǔ)言片段,通過(guò)對(duì)領(lǐng)域文本分詞后,判斷每一分詞串是否包含術(shù)語(yǔ)部件,若包含則對(duì)其向左向右進(jìn)行擴(kuò)展,擴(kuò)展時(shí)結(jié)合詞性及詞語(yǔ)長(zhǎng)度的規(guī)則進(jìn)行判斷,向左擴(kuò)展時(shí)若到了符合首詞規(guī)則的詞時(shí)則終止,向右擴(kuò)展時(shí)若到了符合尾詞規(guī)則的詞時(shí)則終止,兩者都終止即得到了候選術(shù)語(yǔ)。該方法的不足之處是隨著術(shù)語(yǔ)的不斷更新變化,無(wú)法保證構(gòu)建出一個(gè)完整的術(shù)語(yǔ)部件庫(kù),同時(shí)很多術(shù)語(yǔ)并不包含所謂的術(shù)語(yǔ)部件。
因此,本文首先從科技政策的術(shù)語(yǔ)特點(diǎn)和語(yǔ)言規(guī)則入手,分析適用的術(shù)語(yǔ)識(shí)別方法。
科技政策術(shù)語(yǔ)主要有以下5方面的語(yǔ)言特點(diǎn)。
(1)中心詞普遍存在。中心詞指科技政策文本中頻繁出現(xiàn)的基本術(shù)語(yǔ),多數(shù)非單個(gè)詞的術(shù)語(yǔ)是由中心詞組成的名詞性結(jié)構(gòu)或謂詞結(jié)構(gòu)等。
(2)連接結(jié)構(gòu)??萍颊咝g(shù)語(yǔ)中存在一些專有術(shù)語(yǔ),它們的詞素和詞素之間通過(guò)符號(hào)連接,如協(xié)議標(biāo)準(zhǔn)GB/T19596-2004。
(3)數(shù)據(jù)存在稀疏現(xiàn)象??萍颊咧杏行┬g(shù)語(yǔ)只出現(xiàn)一次或少數(shù)幾次。
(4)術(shù)語(yǔ)存在嵌套。多個(gè)詞組成的術(shù)語(yǔ)由單個(gè)術(shù)語(yǔ)組合而成,使這些術(shù)語(yǔ)存在嵌套關(guān)系。
(5)停用詞表內(nèi)容不同。科技政策文本用詞較為嚴(yán)謹(jǐn),政策領(lǐng)域的停用詞和通用停用詞表相比,沒(méi)有“哦”“哈”等語(yǔ)氣詞,沒(méi)有擬聲詞,沒(méi)有相對(duì)白話的轉(zhuǎn)折詞,沒(méi)有人物代詞,沒(méi)有相對(duì)特殊的符號(hào),但是有部分公文領(lǐng)域常用詞。
在科技政策文本中,作為反復(fù)使用且形式較為固定的、表達(dá)某一特定概念的詞語(yǔ),術(shù)語(yǔ)的組成結(jié)構(gòu)一般具有詞性特點(diǎn)。能夠構(gòu)成術(shù)語(yǔ)的詞一般為名詞、動(dòng)詞、形容詞等,有些詞性的詞是不能作為術(shù)語(yǔ)出現(xiàn)的,如連詞、介詞、副詞、語(yǔ)氣詞等。考慮到科技政策中術(shù)語(yǔ)的特點(diǎn),保留部分動(dòng)詞性成分、形容詞性成分和前后綴。相關(guān)詞性如表1所示。
此外,在科技政策文本中,領(lǐng)域?qū)I(yè)術(shù)語(yǔ)用詞較為嚴(yán)謹(jǐn),同時(shí)對(duì)比已有的公文術(shù)語(yǔ)詞典,發(fā)現(xiàn)其構(gòu)詞長(zhǎng)度大部分是單個(gè)詞、2個(gè)詞和3個(gè)詞,所以本文選擇識(shí)別長(zhǎng)度在1~3個(gè)詞的術(shù)語(yǔ)??梢园l(fā)現(xiàn):多數(shù)科技政策術(shù)語(yǔ)的語(yǔ)言規(guī)則為二元術(shù)語(yǔ)及三元術(shù)語(yǔ),如汽車節(jié)油率、資源節(jié)約型等,也含有少量單詞術(shù)語(yǔ)和四元及其以上的術(shù)語(yǔ)。針對(duì)這些科技政策術(shù)語(yǔ)的詞性構(gòu)成,構(gòu)造科技政策術(shù)語(yǔ)常用的語(yǔ)言規(guī)則模板如表2、表3和表4所示。其中,一元指一個(gè)詞性標(biāo)記代表一個(gè)術(shù)語(yǔ);二元指兩個(gè)詞性標(biāo)記代表一個(gè)術(shù)語(yǔ);三元指三個(gè)詞性標(biāo)記代表一個(gè)術(shù)語(yǔ)等。
經(jīng)語(yǔ)言規(guī)則過(guò)濾處理可得到初次的候選術(shù)語(yǔ)集,其中還會(huì)包含非術(shù)語(yǔ)的普通詞語(yǔ)搭配、無(wú)意義的詞語(yǔ)搭配。為了進(jìn)一步得到正確的術(shù)語(yǔ),本文采用統(tǒng)計(jì)計(jì)算進(jìn)行二次過(guò)濾候選術(shù)語(yǔ)的策略。由于科技政策術(shù)語(yǔ)存在嵌套現(xiàn)象,因此本文基于C-value的統(tǒng)計(jì)方法進(jìn)一步過(guò)濾候選術(shù)語(yǔ)。C-value方法是一種實(shí)現(xiàn)多詞語(yǔ)自動(dòng)術(shù)語(yǔ)識(shí)別,且與領(lǐng)域無(wú)關(guān)的方法,其綜合運(yùn)用了統(tǒng)計(jì)學(xué)和語(yǔ)言學(xué)的信息,目的是改進(jìn)嵌套術(shù)語(yǔ)(nested terms)的識(shí)別。由于C-value方法充分考慮了術(shù)語(yǔ)長(zhǎng)度的問(wèn)題和嵌套術(shù)語(yǔ)的問(wèn)題,可以在一定程度上改進(jìn)嵌套術(shù)語(yǔ)的抽取準(zhǔn)確率。
表1 詞性釋義
表2 科技政策術(shù)語(yǔ)一元語(yǔ)言規(guī)則
表3 科技政策術(shù)語(yǔ)二元語(yǔ)言規(guī)則
表4 科技政策術(shù)語(yǔ)三元搭配規(guī)則
C-value算法的基本思想是:(1)如果一個(gè)字符串作為子串出現(xiàn)在長(zhǎng)的多詞術(shù)語(yǔ)中的頻率很高,而它作為單獨(dú)術(shù)語(yǔ)出現(xiàn)的頻率很低,那么盡管這個(gè)字符串的整體詞頻很高但其很有可能不是術(shù)語(yǔ);(2)如果一個(gè)字符串經(jīng)常作為子串出現(xiàn)在多個(gè)不同的多詞術(shù)語(yǔ)中,那么這個(gè)字符串是術(shù)語(yǔ)的概率更大;(3)如果兩個(gè)長(zhǎng)短不同的候選術(shù)語(yǔ)具有相同的詞頻,那么長(zhǎng)字符串是術(shù)語(yǔ)的可能性更大。一個(gè)候選術(shù)語(yǔ)的C-value值的大小與其在語(yǔ)料中的詞頻和長(zhǎng)度成正比,如果候選術(shù)語(yǔ)是其他詞語(yǔ)的子串即候選術(shù)語(yǔ)被嵌套,其C-value值會(huì)相應(yīng)降低。其計(jì)算公式如下:
其中:s表示一個(gè)候選術(shù)語(yǔ);|s|表示候選術(shù)語(yǔ)s的長(zhǎng)度;f (s)表示候選術(shù)語(yǔ)s的詞頻。
如果s被嵌套,TS指以s為子串的候選術(shù)語(yǔ),指以s為子串的候選術(shù)語(yǔ)總個(gè)數(shù),w指TS中任意的以s為子串的候選術(shù)語(yǔ),為w在候選s的上下文中出現(xiàn)的次數(shù)。通過(guò)以上公式計(jì)算每個(gè)候選術(shù)語(yǔ)的C-value值。C-value值越高,該候選術(shù)語(yǔ)成為術(shù)語(yǔ)的可能性就越大。把C-value小于某個(gè)閾值的術(shù)語(yǔ)去掉,則可得到二次過(guò)濾后的術(shù)語(yǔ)結(jié)果。
與其他領(lǐng)域術(shù)語(yǔ)的停用詞相似,科技政策術(shù)語(yǔ)停用詞表也包含符號(hào)、數(shù)字和無(wú)實(shí)際意義的某些詞。為了找到停用詞,需要依據(jù)一定的標(biāo)準(zhǔn)計(jì)算得到。最基本的計(jì)算標(biāo)準(zhǔn)是利用詞頻的大小判斷。詞頻評(píng)估函數(shù)的理論假設(shè)是,通常高頻詞與高噪聲值具有相關(guān)性,即當(dāng)一個(gè)詞的詞頻非常高時(shí),很有可能是噪聲詞。本文利用中國(guó)科學(xué)院NLPIR-ICTCLAS 2014分詞系統(tǒng)對(duì)所搜集的科技政策進(jìn)行分詞,統(tǒng)計(jì)經(jīng)過(guò)分詞及詞性標(biāo)注后的政策文本中所有詞的詞頻,可以發(fā)現(xiàn),一些沒(méi)有實(shí)際意義的詞,如“的”“是”“和”等虛詞、連詞(即停用詞)出現(xiàn)次數(shù)非常多,這些詞不能出現(xiàn)在術(shù)語(yǔ)中。同時(shí),一些頻繁出現(xiàn)的常用詞,如“服務(wù)”“推廣”“加快”“我們”等,雖然有實(shí)際意義,但不包含領(lǐng)域?qū)I(yè)信息,同樣不能出現(xiàn)在術(shù)語(yǔ)中。所以,對(duì)于停用詞,直接將它們存入停用詞表中;對(duì)于常用詞,對(duì)照相應(yīng)公文領(lǐng)域及科技領(lǐng)域主題詞表,以詞頻及主題詞表判斷作為依據(jù),選擇不是術(shù)語(yǔ)的常用詞,存入停用詞表文件中。如表5所示。
為提高科技政策術(shù)語(yǔ)自動(dòng)識(shí)別的準(zhǔn)確性,本文將科技政策術(shù)語(yǔ)的自動(dòng)識(shí)別過(guò)程分為3部分:一是利用停用詞表過(guò)濾科技政策文本數(shù)據(jù);二是利用科技政策術(shù)語(yǔ)語(yǔ)言規(guī)則識(shí)別候選科技政策術(shù)語(yǔ);三是利用統(tǒng)計(jì)計(jì)算實(shí)現(xiàn)科技政策術(shù)語(yǔ)的再識(shí)別和過(guò)濾,以形成整個(gè)科技政策術(shù)語(yǔ)的自動(dòng)識(shí)別過(guò)程。具體算法流程見(jiàn)圖1。
圖1中的數(shù)據(jù)預(yù)處理主要指實(shí)現(xiàn)分詞和詞性標(biāo)注,以實(shí)現(xiàn)后續(xù)的組詞過(guò)程。經(jīng)過(guò)停用詞表去除科技政策中的停用詞,使用科技政策術(shù)語(yǔ)的語(yǔ)言規(guī)則進(jìn)行術(shù)語(yǔ)的第一次過(guò)濾,將不滿足條件的詞語(yǔ)刪除。之后,采用統(tǒng)計(jì)計(jì)算進(jìn)行候選術(shù)語(yǔ)的第二次過(guò)濾,最終得到科技政策術(shù)語(yǔ)集。
表5 科技政策領(lǐng)域停用詞表(部分)
圖1 科技政策術(shù)語(yǔ)自動(dòng)識(shí)別算法流程圖
本文選取1426條科技政策作為實(shí)驗(yàn)數(shù)據(jù),通過(guò)開(kāi)發(fā)JAVA編程語(yǔ)言程序?qū)崿F(xiàn)上述科技政策術(shù)語(yǔ)的自動(dòng)識(shí)別算法,并進(jìn)行術(shù)語(yǔ)識(shí)別效果的檢驗(yàn)。利用科技政策術(shù)語(yǔ)的語(yǔ)言規(guī)則進(jìn)行術(shù)語(yǔ)的過(guò)濾。第一次過(guò)濾后得到科技政策術(shù)語(yǔ)69720個(gè),第二次統(tǒng)計(jì)計(jì)算過(guò)濾后得到科技政策術(shù)語(yǔ)83745個(gè),并對(duì)識(shí)別后的術(shù)語(yǔ)進(jìn)行排序。通過(guò)對(duì)比,可以發(fā)現(xiàn)第二次統(tǒng)計(jì)計(jì)算解決了術(shù)語(yǔ)的嵌套問(wèn)題,增加了識(shí)別后術(shù)語(yǔ)的數(shù)量。由于目前國(guó)內(nèi)外尚無(wú)有關(guān)中文科技政策術(shù)語(yǔ)的抽取算法及相關(guān)科技政策主題詞表或詞表用于術(shù)語(yǔ)結(jié)果的對(duì)比,因此對(duì)文中經(jīng)過(guò)算法識(shí)別的術(shù)語(yǔ)結(jié)果只能通過(guò)人工方法來(lái)判斷是否正確。由于數(shù)據(jù)集較大,同時(shí)為了保證人工判斷的相對(duì)客觀性,本文分別在83745個(gè)術(shù)語(yǔ)集中隨機(jī)選取前端1000個(gè)術(shù)語(yǔ)(T1000,統(tǒng)計(jì)計(jì)算值較高),中間1000個(gè)術(shù)語(yǔ)(M1000,統(tǒng)計(jì)計(jì)算值中等),后部1000個(gè)術(shù)語(yǔ)(B1000,統(tǒng)計(jì)計(jì)算值較低),并對(duì)這3000個(gè)經(jīng)過(guò)算法識(shí)別的術(shù)語(yǔ)進(jìn)行人工判斷,分別計(jì)算T1000、M1000、B1000術(shù)語(yǔ)的準(zhǔn)確率,最后通過(guò)取平均值得到本文術(shù)語(yǔ)識(shí)別方法的準(zhǔn)確率。準(zhǔn)確率計(jì)算方法如下:
準(zhǔn)確率的計(jì)算結(jié)果如表6所示。
表6 術(shù)語(yǔ)識(shí)別準(zhǔn)確率
根據(jù)實(shí)驗(yàn)結(jié)果可知,本文設(shè)計(jì)的科技政策術(shù)語(yǔ)識(shí)別方法具有一定的可行性,
科技政策術(shù)語(yǔ)既是構(gòu)建科技政策領(lǐng)域詞表的詞匯基礎(chǔ),也是對(duì)科技政策進(jìn)行深層次數(shù)據(jù)挖掘的基礎(chǔ)。本文提出的基于科技政策術(shù)語(yǔ)語(yǔ)言特點(diǎn)和統(tǒng)計(jì)計(jì)算相結(jié)合的術(shù)語(yǔ)自動(dòng)識(shí)別方法,可以應(yīng)用于科技政策詞表的構(gòu)建過(guò)程和科技政策語(yǔ)義分析過(guò)程。實(shí)驗(yàn)結(jié)果表明,該方法具有一定的術(shù)語(yǔ)抽取效果,但將受到數(shù)據(jù)集選擇規(guī)模的大小或數(shù)據(jù)集內(nèi)容質(zhì)量的高低的影響,術(shù)語(yǔ)識(shí)別的準(zhǔn)確度達(dá)不到人工識(shí)別的精確度和智能性。此外,實(shí)驗(yàn)結(jié)果有效性的對(duì)比問(wèn)題仍有待進(jìn)一步的研究。因此,在科技政策術(shù)語(yǔ)自動(dòng)識(shí)別的具體算法設(shè)計(jì)和實(shí)現(xiàn)有待進(jìn)一步的深入研究[10]。
[1] BERNIER-COLBORNE G,DROUIN P.Creating a test corpus for term extractors through term annotation[J].Terminology,2014,20(1):50-73.
[2] 袁勁松,張小明,李舟軍.術(shù)語(yǔ)自動(dòng)抽取方法研究綜述[J].計(jì)算機(jī)科學(xué),2015(8):7-12.
[3] 張二艷.術(shù)語(yǔ)自動(dòng)抽取技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2009:20-50.
[4] 楊雅娜,劉勝奇.基于TValue融合領(lǐng)域度的術(shù)語(yǔ)抽取法[J].情報(bào)工程,2015(5):25-31.
[5] 閆琪琪,張海軍.中文領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取方法進(jìn)展研究[J].電腦知識(shí)與技術(shù),2014(28):6716-6718.
[6] 季培培,鄢小燕,岑詠華.面向領(lǐng)域中文文本信息處理的術(shù)語(yǔ)識(shí)別與抽取研究綜述[J].圖書情報(bào)工作, 2010(16):124-129.
[7] MEIJER K,FRASINCAR F,HOGENBOOM F.A semantic approach for extracting domain taxonomies from text[J].Decision Support Systems,2014,62:78-93.
[8] 陳士超,郁濱.面向科技領(lǐng)域的術(shù)語(yǔ)自動(dòng)抽取模型[J].系統(tǒng)工程理論與實(shí)踐,2013(1):230-235.
[9] 閆琪琪,張海軍.一種混合策略的領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取方法[J].電子制作,2015(8):50-51.
[10] 曾文,李穎,韓紅旗,等.海量數(shù)據(jù)的組織與管理方法研究[J].情報(bào)工程,2016,2(1):109-113.
Research on Automatic Recognition Technology of Science and Technology Policy Term
ZENG Wen, LI Zhijie, WANG Xiaoyu, DONG Cheng
(Institute of Scienti fi c and Technical Information of China, Beijing 100038)
The paper proposed an automatic recognition method based on characteristics and statistical computing of term. The method fully combined language characteristics and statistical information of terms.And the method of statistical calculation is adopted to carry out the two fi ltering process of terms. Experimental results showed that the proposed method had certain feasibility. It will have certain application value. In the next step, the method will be used for constructing the dictionary and deep semantic analysis of science and technology policy.
science and technology policy, science and technology policy term, term characteristic, statistical calculations, automatic recognition
TP391
A
10.3772/j.issn.1674-1544.2017.03.004
曾文(1973—),女,中國(guó)科學(xué)技術(shù)信息研究所副研究員,研究方向:智能信息處理、情報(bào)分析和知識(shí)組織等(通訊作者);李智杰(1992—),男,中國(guó)科學(xué)技術(shù)信息研究所碩士研究生,研究方向:知識(shí)組織;王小玉(1992—),女,中國(guó)科學(xué)技術(shù)信息研究所碩士研究生,研究方向:科技資源管理;董誠(chéng)(1970—),男,中國(guó)科學(xué)技術(shù)信息研究所研究員,研究方向:科技管理與科技創(chuàng)新。
國(guó)家社會(huì)科學(xué)基金項(xiàng)目“基于事實(shí)型科技大數(shù)據(jù)的情報(bào)分析方法及集成分析平臺(tái)研究”(14BTQ038)。
2017年1月16日。