肖劉明鏡,周 志,鄒小軍,胡俊峰,
(1. 北京大學(xué) 信息科學(xué)技術(shù)學(xué)院,北京 100871;2. 北京大學(xué) 計算語言學(xué)教育部重點實驗室,北京 100871)
一種基于領(lǐng)域本體的稿件—審閱人相關(guān)度度量方法
肖劉明鏡1,周 志2,鄒小軍2,胡俊峰1,2
(1. 北京大學(xué) 信息科學(xué)技術(shù)學(xué)院,北京 100871;2. 北京大學(xué) 計算語言學(xué)教育部重點實驗室,北京 100871)
隨著稿件數(shù)量的不斷增長,審閱人指派越來越成為會議組織者、期刊編輯和基金委員會的一項費時費力的工作,計算機輔助審閱人指派研究也由此得到了更多的關(guān)注。稿件—審閱人相關(guān)度度量是該研究中的一個重點問題。該文設(shè)計了一種基于領(lǐng)域本體的稿件—審閱人相關(guān)度度量方法。該方法由文檔關(guān)鍵詞提取、領(lǐng)域本體的自動構(gòu)建及基于網(wǎng)絡(luò)流模型的稿件—審閱人相關(guān)度計算等部分組成。初步實驗表明,該方法在國家自然科學(xué)基金申請書申請代碼分配的任務(wù)中取得較好表現(xiàn),優(yōu)于單純基于關(guān)鍵詞字串相似度的方法。
審閱人指派;相似度計算;領(lǐng)域本體;信息檢索
在學(xué)術(shù)界,將候選稿件準確、高效地投遞到合適的審閱人手中是一項很重要的工作,它關(guān)系到論文評審、基金申請等工作的公正性、合理性。近年來,稿件規(guī)模數(shù)量呈現(xiàn)大量增長且有繼續(xù)增長的趨勢。2012年國家自然科學(xué)基金(The National Natural Science Foundation of China, NSFC)項目申請集中接收期間,實際共接收各類項目申請170 792項,比2011年同期增加23 089項*數(shù)據(jù)來源: http://www.nsfc.gov.cn/nsfc/cen/xmzn/2013xmzn/index.html。審閱人之間的回避關(guān)系,比如曾經(jīng)是共同作者,或者在同一個研究工作機構(gòu)工作。本文主要關(guān)注第一點,即稿件與審閱人之間的匹配程度度量的優(yōu)化。。每份申請書會被指派給4~5名同行審閱專家,如此大量的申請書指派任務(wù)已經(jīng)成為一個非常繁重的工作。
審閱人自動指派問題已經(jīng)受到學(xué)術(shù)界越來越多的關(guān)注,尤其是稿件—審閱人相關(guān)度的計算問題,國內(nèi)外學(xué)者在這一問題上進行過大量的研究。最早研究這一問題的學(xué)者是Dumais和Nielsen,他們提出了一種基于潛在語義索引(latent semantic indexing, LSI)的稿件-審閱人相關(guān)度計算方法,即將稿件和審閱人投射到k維潛在語義空間中,使用向量夾角余弦值計算稿件-審閱人相關(guān)度[1]。Biswas和Hasan等人采用向量空間模型(vector space model, VSM)來計算稿件-審閱人的匹配程度[2]。為了改進算法效率,他們還嘗試用自動提取關(guān)鍵詞來替代用所有詞語表示文本向量,以及基于ACM計算機分類系統(tǒng)(computing classification system,CCS)構(gòu)建的領(lǐng)域本體來計算稿件與審閱人的相關(guān)度。馬建等利用國家自然科學(xué)基金的資助項目建立了一個研究本體,并基于該本體進行國家自然科學(xué)基金申請書的指派[3]。Yarowsky和Florian等人綜合了審閱人的論文發(fā)表信息,采用樸素貝葉斯方法計算稿件與領(lǐng)域委員會的相關(guān)度,他們還嘗試對審閱人所發(fā)表論文進行層次化聚類,自動構(gòu)建領(lǐng)域委員會的層次結(jié)構(gòu)[4]。Watanabe等人引入關(guān)鍵詞協(xié)作網(wǎng)絡(luò)來計算稿件-審閱人相關(guān)度,并提出了話題新奇程度度量來優(yōu)化指派效果[5]。唐文斌、唐杰等通過最小費用流算法將多個不同角度的限制條件綜合到指派過程中[6]。
本文提出了一種基于本體的稿件-審閱人相關(guān)度計算方法,該方法首先通過對大規(guī)模專業(yè)領(lǐng)域語料的分析自動構(gòu)建層次化的領(lǐng)域本體。同時分別對稿件和評審專家提取關(guān)鍵詞集。然后通過關(guān)鍵詞在領(lǐng)域本體樹上的距離來度量關(guān)鍵詞之間的語義相似度,并據(jù)此構(gòu)建網(wǎng)絡(luò)流模型計算稿件-審閱人相關(guān)度。該方法的主要特點是引入領(lǐng)域本體作為外部知識,相對于單純依靠文章內(nèi)容進行相關(guān)性計算能提供更多的信息?;诖笠?guī)模專業(yè)語料的本體挖掘為該方法提供了必要的數(shù)據(jù)基礎(chǔ)。該方法的主要優(yōu)勢體現(xiàn)在一個關(guān)鍵詞可以跟同領(lǐng)域的其他關(guān)鍵詞建立合理的相關(guān)關(guān)系。網(wǎng)絡(luò)流算法的引入則能很好地利用這種多對多的關(guān)聯(lián)模型,在關(guān)鍵詞集合間計算出合理的相似度。
在計算機科學(xué)與信息科學(xué)領(lǐng)域,本體是指一種“形式化的,對于共享概念體系的明確而又詳細的說明”[7]。領(lǐng)域本體則指的是特定專業(yè)領(lǐng)域的層次化的概念知識體系。其中,概念之間最重要的關(guān)系就是上下位關(guān)系。
很多的本體都是人工構(gòu)建的,這個過程需要耗費大量的人力、物力和財力。例如WordNet[8]系統(tǒng)。其基本出發(fā)點就是把人類對世界的認知轉(zhuǎn)化為形式化的概念知識體系,然后用來指導(dǎo)文本信息的智能化的檢索、分類等計算。鑒于手工方式費時費力,實現(xiàn)本體的自動或者半自動構(gòu)建的技術(shù)—本體學(xué)習(xí)(ontology learning)[9]技術(shù)應(yīng)運而生。除此之外也有研究關(guān)注在語料中提取概念之間的關(guān)系[10]。
何劭達等[11]在分布相似度的基礎(chǔ)上,設(shè)計了一種基于HITS[12]的面向中文文本的本體學(xué)習(xí)框架。該框架可以根據(jù)文本語料自動學(xué)習(xí)得到該語料領(lǐng)域內(nèi)的領(lǐng)域本體。從形式上來看,該領(lǐng)域本體的底層為表達一個概念的術(shù)語集,以上各層均為更大的術(shù)語集合。從實質(zhì)上來講,在該系統(tǒng)中,概念理論上是用一個詞向量空間中的特征向量來表達的。其本質(zhì)反映了對應(yīng)的詞匯集合在詞向量空間中的主特征向量。該特性是由HITS算法的本質(zhì)所決定的。實驗表明[11]該算法在概念發(fā)現(xiàn)和概念層次聚類上均優(yōu)于Google 基于RNN和k-means 的算法。由于學(xué)習(xí)得到的本體包含的是該語料范圍內(nèi)的領(lǐng)域知識,因而它能夠輔助我們衡量該領(lǐng)域下關(guān)鍵詞之間的語義距離,而不僅僅是關(guān)鍵詞之間的字串距離,并且我們可以隨時增加或改變用于本體學(xué)習(xí)的語料,以適應(yīng)時代的變化,因此本文借助該本體學(xué)習(xí)框架生成領(lǐng)域本體并借以改進稿件-審閱人相關(guān)度度量。
3.1 稿件及審閱人建模
我們采用周志等提出的基于帶權(quán)復(fù)雜網(wǎng)絡(luò)的關(guān)鍵詞提取算法[13],對每一份稿件自動提取關(guān)鍵詞列表。這種算法提取出來的關(guān)鍵詞是按重要程度排序的,排列越靠前,表示該關(guān)鍵詞在列表中越重要。實驗表明[13],該算法優(yōu)于經(jīng)典的TF-IDF[14]關(guān)鍵詞提取算法,因此本文選用該算法提取的關(guān)鍵詞列表來表征稿件的內(nèi)容信息。同時我們也綜合了作者在稿件中自己給定的關(guān)鍵詞,直接插入到自動提取的關(guān)鍵詞列表的前面并對列表中的關(guān)鍵詞去重。表1給出了我們對一篇稿件進行關(guān)鍵詞提取的結(jié)果,關(guān)鍵詞前面的序號表示它在列表中的排名。
表1 對一篇稿件進行關(guān)鍵詞提取的結(jié)果
在審閱人建模問題上,本文以關(guān)鍵詞列表來表征審閱人。具體做法為: 收集審閱人近年來發(fā)表的論文,采用前述方法對論文摘要自動提取排序靠前的關(guān)鍵詞,同時兼顧審閱人自己給定的關(guān)鍵詞,綜合作為該篇論文的關(guān)鍵詞列表,最后統(tǒng)計關(guān)鍵詞在所有論文中出現(xiàn)的頻率,按頻率降序排列得到關(guān)鍵詞列表。該方法能準確地表征審閱人的研究領(lǐng)域和方向。
3.2 詞語分布相似度計算與領(lǐng)域本體構(gòu)建
我們采用了何邵達等提出的計算詞語分布相似度的方法[11],并應(yīng)用于專業(yè)文本語料的領(lǐng)域本體學(xué)習(xí)中。該方法在詞匯上下文相似度的基礎(chǔ)上,通過詞性模板引入了詞性上下文相似度,二者結(jié)合起來表示詞語分布相似度。該方法支持在較小的專業(yè)文本語料庫中學(xué)習(xí)領(lǐng)域本體。具體工作流程如下:
(1) 通過上下文共現(xiàn)計算詞語兩兩間的點互信息(PMI)(本文以窗長為5計算上下文共現(xiàn)),把PMI向量作為詞匯上下文特征向量,采用其夾角余弦值作為詞語間的詞匯上下文相似度。
(2) 對文本做詞性標注,對每個詞語統(tǒng)計詞性模板頻率(本文以窗長為3劃定詞性模板)作為詞性模板向量,采用其夾角余弦值作為詞語間的詞性上下文相似度。最終計算詞匯上下文相似度與詞性上下文相似度的乘積并將其作為詞語間的分布相似度。
詞語間的分布相似度定義如下:
(1)
(2)
(3)
(4)
其中,Simwiwj表示詞語wi和wj的分布相似度;Simwiwjlex表示詞匯上下文相似度;Simwiwjpos表示詞性上下文相似度;PMIwi表示詞匯上下文特征向量;PATwi表示詞性模板向量;Freqwi表示wi的詞頻,PMIwiwj表示wi和wj的共現(xiàn)頻率。
本文中我們均采用了中科院分詞軟件ICTCLAS[15]進行分詞和詞性標注。我們在收集的相關(guān)專業(yè)領(lǐng)域的文檔集中用該方法計算得到該領(lǐng)域下的詞語分布相似度矩陣?;谠摼仃嚕覀儾捎煤紊圻_等提出的基于HITS的本體學(xué)習(xí)方法自動生成專業(yè)領(lǐng)域本體,實驗表明該算法在概念發(fā)現(xiàn)和概念層次聚類上均優(yōu)于Google基于RNN和k-means的算法[11]。領(lǐng)域本體使用樹狀的XML格式存儲,通過樹形結(jié)構(gòu)描述了概念及概念間的從屬關(guān)系。我們采用網(wǎng)上收集的信息科學(xué)領(lǐng)域科技文獻摘要,來生成該領(lǐng)域的本體*數(shù)據(jù)鏈接: http://www.klcl.pku.edu.cn/clr/ontology/ontology_InformationScience.rar。。在本文中,我們還增加了NSFC提供的部分數(shù)據(jù)資源作為語料生成電子學(xué)與信息系統(tǒng)領(lǐng)域本體*由于使用授權(quán)限制無法提供公開下載。。
3.3 稿件—審閱人相關(guān)度計算
對于稿件的關(guān)鍵詞w和審閱人的關(guān)鍵詞w′,我們通過關(guān)鍵詞的字串相似度(本文采用兩個字符串的最長公共子序列長度來計算)及關(guān)鍵詞的語義相似度(本文采用關(guān)鍵詞在本體樹上的距離來計算)綜合計算兩個關(guān)鍵詞之間的匹配程度,如式(5)~式(7)所示。
(5)
(6)
(7)
其中,Matchww′表示稿件的關(guān)鍵詞w和審閱人的關(guān)鍵詞w′的匹配程度;Matchww′sem表示w和w′的語義相似度;Matchww′str表示w和w′的字串相似度;LCSww′表示w和w′的最長公共子序列長度;Lenw和Lenw′分別表示w和w′的字符串長度;Disww′tree表示w和w′在本體樹上的距離;γ為調(diào)節(jié)字串相似度和語義相似度比重的參數(shù)。
我們引入網(wǎng)絡(luò)流算法[16]來計算稿件與審閱人之間的相關(guān)度。構(gòu)建如圖1所示的網(wǎng)絡(luò)G=(V,E),其中V=M∪R∪{s,t}為頂點集,M表示稿件的關(guān)鍵詞集合,R表示審閱人的關(guān)鍵詞集合,s和t分別表示網(wǎng)絡(luò)的源點和匯點。E為邊集;其中每條邊(u,v)均有容量屬性Capu,v。邊集E由以下規(guī)則確定:
(1) 對M中的每個關(guān)鍵詞m,令源點s到m的邊容量Caps,m=1;
(2) 對R中的每個關(guān)鍵詞r,令r到匯點t的邊容量Capr,t=1;
(3) 對M中的每個關(guān)鍵詞m,R中的每個關(guān)鍵詞r,令Capm,r=Matchm,r(若Capm,r=0,則(m,r)不屬于邊集E)。
對上述網(wǎng)絡(luò)從源點s向匯點t求解最大流。M∪R中每個頂點滿足入流流量等于出流流量,E中每條邊滿足流量不超過容量的限制。我們將整個網(wǎng)絡(luò)的最大流的流量作為稿件與審閱人的相關(guān)度。最大流流量越大,表明稿件與審閱人的匹配程度越高。采用網(wǎng)絡(luò)流模型的優(yōu)勢在于,既通過關(guān)鍵詞之間的匹配程度作為邊容量來增加流量,又通過關(guān)鍵詞與源點或匯點間的邊容量限制來防止單個關(guān)鍵詞過度增大整個網(wǎng)絡(luò)的流量。
圖1 稿件-審閱人相關(guān)度計算的網(wǎng)絡(luò)流模型
我們收集了NSFC已經(jīng)結(jié)題的一些項目申請書作為評測數(shù)據(jù)。NSFC設(shè)立了八個主要的學(xué)部,分別用A到H表示,每個學(xué)部自頂向下建立了三級申請代碼體系,每一級學(xué)科由一個唯一的申請代碼來表示。表2給出了信息科學(xué)學(xué)部的申請代碼體系的部分結(jié)構(gòu),其中“F01電子學(xué)與信息系統(tǒng)”是信息科學(xué)學(xué)部的一個一級申請代碼,其下包括“F0101信息理論與信息系統(tǒng)”“F0102通信理論與系統(tǒng)”等二級申請代碼,再往下一層均為三級申請代碼。
表2 信息科學(xué)學(xué)部申請代碼體系的部分結(jié)構(gòu)
申請人在提交基金申請書時,被要求填寫兩個最合適的申請代碼。而在實際的申請書指派工作中,所有評審專家也會被要求填寫五個以內(nèi)的最熟悉的申請代碼。申請代碼在申請書—審閱人指派工作中扮演了很關(guān)鍵的作用。在一些情況下,申請書和審閱人被按申請代碼直接分成組,然后由專業(yè)人員直接進行指派。因此,如果我們能把申請書正確地投送到合理的申請代碼下,就意味著初步實現(xiàn)了對審閱人的智能指派??紤]到實際的申請書指派結(jié)果具有保密要求,不適宜用作評測數(shù)據(jù),本文的研究就把申請書對申請代碼的指派模擬為對審閱人的指派來完成對本文算法的有效性測試。
申請代碼建模采用類似前述審閱人建模的方式,以關(guān)鍵詞列表表征申請代碼。具體做法為: 收集近年來填報該申請代碼的申請書,對申請書的文本摘要提取、排序關(guān)鍵詞,同時兼顧申請人自填關(guān)鍵詞,綜合作為該篇申請書的關(guān)鍵詞列表,然后以TF-IDF方式統(tǒng)計該關(guān)鍵詞對于該申請代碼的重要性,其中TF為該申請代碼下提取到該關(guān)鍵詞的申請書篇數(shù),DF為提取到該關(guān)鍵詞的申請代碼數(shù)。實驗中我們選取前30個關(guān)鍵詞對每個申請代碼進行建模,選取前10個關(guān)鍵詞對每篇申請書進行建模。表3給出了我們對三級申請代碼“F010401圖像處理”進行建模的結(jié)果。
表3 對三級申請代碼“F010401圖像處理”
本文以用戶自填的兩個申請代碼作為申請書-審閱人指派的標準答案。用本文中基于本體的稿件-審閱人相關(guān)度度量方法為申請書指派相關(guān)度最高的兩個申請代碼,并與用戶自填申請代碼進行比較。如果本文方法在指派申請代碼上的準確率有所提升,那么有理由認為我們的方法在審閱人指派問題上相比基線方法指派的效果也會更佳。
為了驗證本方法的有效性,我們設(shè)計了如下實驗。我們選用三種不同的稿件-審閱人相關(guān)度計算方法來比較指派的準確率。方法一是只考慮關(guān)鍵詞的字串相似度,即令公式(5)中的γ等于零,并且僅采用作者在稿件中自己給定的關(guān)鍵詞作為關(guān)鍵詞列表。方法二相對于方法一引入了3.1節(jié)中的方法來對稿件進行建模,即綜合了作者自己給定的關(guān)鍵詞和關(guān)鍵詞提取算法自動提取出來關(guān)鍵詞列表。方法三是采用本文提出的基于本體的稿件-審閱人相關(guān)度計算方法。實驗中選取的參數(shù)γ=0.6。
我們采用NSFC“F01電子學(xué)與信息系統(tǒng)”領(lǐng)域已結(jié)題的項目申請書作為評測的數(shù)據(jù)集,實驗結(jié)果如表4所示。其中指派一個申請代碼的實驗是指派相關(guān)度最高的一個申請代碼,只要自動指派的申請代碼包含在用戶自填的兩個申請代碼中,就算作正確指派。指派兩個申請代碼的實驗是指派相關(guān)度最高的兩個申請代碼,如果自動指派的兩個申請代碼與用戶自填申請代碼完全相同,才算作正確指派,如果只有一個申請代碼包含在用戶自填申請代碼中,則只算作50%的正確率。由表4可以看出,基于方法三(本文方法)的申請代碼指派在準確率上相對于其他兩種方法有所提升。在指派一個申請代碼的實驗中,本文方法比方法一和方法二的準確率分別提高了14.80%和2.00%,在指派兩個申請代碼的實驗中,本文方法比方法一和方法二的準確率分別提高了15.79%和3.16%。方法二之所以優(yōu)于方法一,主要是因為方法二在稿件建模上引入了自動提取的關(guān)鍵詞,表征稿件內(nèi)容信息更為準確豐富。本文方法通過領(lǐng)域本體挖掘了關(guān)鍵詞間的近義關(guān)系,因此相比于方法一和方法二中基于字串相似度的指派更為準確。
表4 三種方法進行申請代碼指派的比較
本文設(shè)計了一種基于本體的稿件-審閱人相關(guān)度度量方法,該方法結(jié)合了關(guān)鍵詞字串相似度與基于領(lǐng)域本體計算的語義相似度,并通過構(gòu)建網(wǎng)絡(luò)流模型計算稿件-審閱人的相關(guān)度。初步實驗表明,我們的方法在指派準確率上要優(yōu)于基于關(guān)鍵詞字串相似度的方法。
下一步工作我們將從以下幾個方面展開: 一是優(yōu)化網(wǎng)絡(luò)邊容量的設(shè)計,本文目前設(shè)計的網(wǎng)絡(luò)邊容量與關(guān)鍵詞匹配程度的函數(shù)形式及參數(shù)存在較多經(jīng)驗的因素,今后可以考慮通過機器學(xué)習(xí)的方法來優(yōu)化參數(shù)的設(shè)定。二是考慮引入話題模型,綜合語義相似度和文本話題相似度來優(yōu)化稿件-審閱人相關(guān)度的度量。
[1] Dumais S T, Nielsen J. Automating the assignment of submitted manuscripts to reviewers[C]//Proceedings of the 15th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 1992: 233-244.
[2] Biswas H K, Hasan M. Using publications and domain knowledge to build research profiles: an application in automatic reviewer assignment[C]//Information and Communication Technology, 2007. ICICT'07. International Conference on. IEEE, 2007: 82-86.
[3] Ma J, Xu W, Sun Y, et al. An ontology-based text-mining method to cluster proposals for research project selection [J]. IEEE Transactions on Systems, Man and Cybernetics, Part A: Systems and Humans, 2012, 42(3): 784-790.
[4] Yarowsky D, Florian R. Taking the load off the conference chairs: towards a digital paper-routing assistant [C]// Proceedings of the Joint SIGDAT Conference on Empirical Methods in NLP and Very Large Corpora.1999: 220-230.
[5] Watanabe S, Ito T, Ozono T, et al. A paper recommendation mechanism for the research support systempapits[C]//Proceedings of the International Workshop on IEEE, 2005: 71-80.
[6] Tang W, Tang J, Lei T, et al. On optimization of expertise matching with various constraints[J]. Neurocomputing, 2012, 76(1): 71-83.
[7] Gruber T R. A translation approach to portable ontologyspecifications [J]. Knowledge acquisition, 1993, 5(2): 199-220.
[8] Snasel V, Moravec P, Pokorny J. WordNet ontology based model for web retrieval[C]//Proceedings of the International Workshop on Challenges in. IEEE, 2005: 220-225.
[9] Sanderson M, Croft B. Deriving concept hierarchies from text[C]//Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 1999: 206-213.
[10] Fu R, Qin B, Liu T. Exploiting multiple sources for open-domain hypernym discovery[C]//Proceedings of EMNLP. 2013: 1224-1234.
[11] He S, Zou X, Xiao L, et al. Construction of diachronic ontologies from People’s Daily of fifty years[C]//Proceedings of the 9th edition of the Language Resources and Evaluation Conference. 2014.
[12] Kleinberg J M. Authoritative sources in a hyperlinked environment[J]. Journal of the ACM (JACM), 1999, 46(5): 604-632.
[13] Zhou Z, Zou X, Lü X, et al. Research on weighted complex network based keywords extraction[M]//Chinese Lexical Semantics. Springer Berlin Heidelberg, 2013: 442-452.
[14] Salton G, Buckley C. Term-weighting approaches in automatic text retrieval[J]. Information processing & management, 1988, 24(5): 513-523.
[15] Zhang H P, Liu Q, Cheng X Q, et al. Chinese lexical analysis using hierarchical hidden markov model[C]//Proceedings of the second SIGHAN workshop on Chinese language processing-Volume 17. Association for Computational Linguistics, 2003: 63-70.
[16] Ahuja R K, Magnanti T L, Orlin J B. Network flows: theory, algorithms, and applications[C]//Proceeding of the Prentice Hall,Inc.1993.
An Ontology Based Measurement for Manuscript—Reviewer Relevance
XIAO Liumingjing1, ZHOU Zhi2, ZOU Xiaojun2, HU Junfeng2
(1. School of Electronics Engineering & Computer Science, Peking University, Beijing 100871, China;2. Key Laboratory of Computational Linguistics, Ministry of Education,Peking University, Beijing 100871, China)
With the growing amount of manuscripts, reviewer assignment becomes an increasingly laborious task for conference organizers, journal editors and grant administrators. To develop a computer-aided reviewer assignment for this purpose, the measurement of relevance between manuscripts and reviewers is a key issue. This paper presents a domain ontology based relevance measurement method. This method includes keywords extraction of the manuscript, domain ontology mining and manuscript-reviewer relevance measurement based on the network flow algorithm. Preliminary experiments show that this method performs well in the task of domain assignment of the NSFC proposals, and outperforms string similarity based method.
reviewer assignment; similarity computation; domain ontology; information retrieval
肖劉明鏡(1992—),碩士,主要研究領(lǐng)域為自然語言處理。E?mail:xlmj531@163.com周志(1990—),碩士,主要研究領(lǐng)域為自然語言處理。E?mail:zhouzhi0126@163.com鄒小軍(1985—),碩士,主要研究領(lǐng)域為自然語言處理。E?mail:xiaojunzou@163.com
2016-09-27 定稿日期: 2016-10-15
國家自然科學(xué)基金(M1321005);國家自然科學(xué)基金(61472017)
1003-0077(2017)02-0163-06
TP391
A