李林澳
摘要:年鑒中有很多關(guān)于數(shù)值知識(shí)元的描述,如何把這些知識(shí)元抽取出來是細(xì)粒度知識(shí)組織的重要研究?jī)?nèi)容之一。本文通過對(duì)中國信息年鑒進(jìn)行內(nèi)容分析,把數(shù)值知識(shí)元分為引用型、比率型、總結(jié)型、時(shí)間型、排名型、對(duì)比型和消息型七種類型。對(duì)年鑒中包含數(shù)值的句子進(jìn)行抽取,過濾句子中的其他不相關(guān)詞后形成句子的線性描述結(jié)構(gòu),在此基礎(chǔ)上經(jīng)過人工審核與合并歸類,形成數(shù)值知識(shí)元的描述規(guī)則,為后續(xù)知識(shí)元抽取提供支撐。
關(guān)鍵詞:數(shù)值知識(shí)元;年鑒;知識(shí)元抽取
一、前言
進(jìn)入21世紀(jì)以來,知識(shí)日益成為占支配地位的競(jìng)爭(zhēng)因素之一,信息量也呈爆炸式增長(zhǎng),全球即將進(jìn)入信息和數(shù)據(jù)存儲(chǔ)的“澤他時(shí)代”。雖然信息觸手可及,但隨之而來的是更深層次的問題:一方面,獲取有效信息的難度大大提升,而另一方面,繁冗復(fù)雜的知識(shí)與信息也降低了人類利用的效率。我們正處于“被信息所淹沒,卻又饑餓于知識(shí)的客觀現(xiàn)狀”中[1]。為了從海量信息資源中揭示與描述知識(shí),滿足精細(xì)化的知識(shí)獲取需求,需要將知識(shí)載體的粒度碎化為知識(shí)元。
年鑒作為一種信息密集型工具書,將一年內(nèi)所發(fā)生的重大事件、新聞以及各類數(shù)據(jù)和統(tǒng)計(jì)資料進(jìn)行編排匯總,對(duì)科研進(jìn)展有著極大的推動(dòng)作用。年鑒中蘊(yùn)含有各類型的知識(shí)元,其中數(shù)值知識(shí)元占據(jù)了非常重要的比例。隨著時(shí)間的推移,年鑒數(shù)量飛速增長(zhǎng),僅靠人工識(shí)別其中所包含的數(shù)值知識(shí)元已難以勝任。只有依靠知識(shí)抽取與挖掘技術(shù)來獲取有價(jià)值的知識(shí)才能滿足需求,為民所用。而要想實(shí)現(xiàn)自動(dòng)或半自動(dòng)的數(shù)值知識(shí)元抽取與挖掘,就需要對(duì)數(shù)值知識(shí)元的描述規(guī)則與識(shí)別方法進(jìn)行進(jìn)一步的分析與研究。因此,關(guān)于數(shù)值知識(shí)元的抽取與挖掘是具有一定的研究?jī)r(jià)值與實(shí)踐意義的。
文本挖掘是指抽取散布在文本當(dāng)中的知識(shí)以更好地組織信息的過程,但這些應(yīng)用更多地是關(guān)注文檔文獻(xiàn)本身的組織效果,沒有從文獻(xiàn)單元深入到知識(shí)單元。在進(jìn)行分詞識(shí)別時(shí),主要有基于統(tǒng)計(jì)的方法和基于規(guī)則的方法?;诮y(tǒng)計(jì)的方法多適用于以單個(gè)詞匯為處理單元的文本,而年鑒中多是長(zhǎng)難句分析,基于規(guī)則的方法更加適用。知識(shí)元的類型、描述規(guī)則以及常用模式就成為了抽取數(shù)值知識(shí)元的重難點(diǎn)。
二、基本定義
定義1:知識(shí)元。不可再分割的具有完備知識(shí)表達(dá)的知識(shí)單位??煞譃槊枋鲂椭R(shí)元和過程型知識(shí)元[2]。
定義2:數(shù)值知識(shí)元。以數(shù)值形式存在,且數(shù)值有意義、有價(jià)值、可供分析的知識(shí)單元。
數(shù)值知識(shí)元有不同的類型。在經(jīng)濟(jì)建設(shè)領(lǐng)域,依據(jù)知識(shí)元描述對(duì)象的層次可分為宏觀數(shù)值知識(shí)元(如某地區(qū)或行業(yè)發(fā)展的數(shù)值知識(shí))和微觀數(shù)值知識(shí)元(如某經(jīng)濟(jì)組織市場(chǎng)經(jīng)營的數(shù)值知識(shí))[3]。
三、研究綜述
關(guān)于知識(shí)元已有一部分學(xué)者進(jìn)行了研究,主要是從知識(shí)元的理論、技術(shù)以及應(yīng)用方面展開探討。
(一)知識(shí)元的概念及類型研究
弗拉基米爾·斯拉麥卡指出,知識(shí)的控制單位將從文獻(xiàn)深入到其中的數(shù)據(jù)、公式、結(jié)論等最小的獨(dú)立的“數(shù)據(jù)元”,這是有記載的關(guān)于知識(shí)元概念最早的定義[4]。趙紅州學(xué)者最先從科學(xué)計(jì)量領(lǐng)域提出知識(shí)元這一概念,即“能夠用數(shù)學(xué)公式表示的科學(xué)概念”,并以“知識(shí)單元”計(jì)量為基礎(chǔ),導(dǎo)出科學(xué)指數(shù)增長(zhǎng)定律[5]。溫有奎在《知識(shí)元鏈接理論》中提出,知識(shí)元是構(gòu)造知識(shí)機(jī)構(gòu)的基元,是可獨(dú)立使用的最小單位[6]。柳長(zhǎng)華叫冬知識(shí)元定義為知識(shí)系統(tǒng)中可以表達(dá)一個(gè)完整概念的不可再分解的最小知識(shí)單位;文庭孝等認(rèn)為知識(shí)元應(yīng)該是在知識(shí)管理中可以自由切分、表達(dá)、存取、組織、檢索和利用知識(shí)的基本知識(shí)單位[8];劉新提出一個(gè)能相對(duì)獨(dú)立并且準(zhǔn)確表述知識(shí)的內(nèi)涵以及外延的知識(shí)單元就是知識(shí)元[9];畢經(jīng)元認(rèn)為知識(shí)元是對(duì)知識(shí)進(jìn)行存儲(chǔ)、共享與引用的最小單位[10]。
至于知識(shí)元的分類,溫有奎將其分為描述型知識(shí)元和過程型知識(shí)元[2]。原小玲認(rèn)為,知識(shí)元可以分為理論與方法型知識(shí)元、事實(shí)型知識(shí)元和數(shù)值型知識(shí)元n;。王延章則分成了對(duì)象知識(shí)元(客觀事物實(shí)體)、屬性知識(shí)元(客觀事物實(shí)體的特征描述)和屬性映射關(guān)系知識(shí)元(對(duì)對(duì)象知識(shí)元內(nèi)部屬性狀態(tài)相互作用關(guān)系的描述)三個(gè)類別[12]。
雖然上述文字表示各有不同,但大體大同小異。由于語義的復(fù)雜性,不同維度有不同的分類,目前尚無唯一標(biāo)準(zhǔn)。
(二)知識(shí)元的抽取技術(shù)研究
比較常用的知識(shí)元抽取方法主要是基于文本結(jié)構(gòu)的方法和基于規(guī)則的方法兩種類型。
1.基于文本結(jié)構(gòu)的方法
柳長(zhǎng)華分析了中醫(yī)古籍文獻(xiàn)的知識(shí)結(jié)構(gòu)、內(nèi)容特點(diǎn),在以知識(shí)元為核心的中醫(yī)古籍計(jì)算機(jī)知識(shí)表示方法上進(jìn)一步制定了標(biāo)引規(guī)范,用古籍整理的方式進(jìn)行知識(shí)元的抽取與標(biāo)引,取得了良好的效果[5]。姜永常等提出了基于文本物理結(jié)構(gòu)和邏輯結(jié)構(gòu)的抽取方法,先分析文本的物理結(jié)構(gòu),以此來建立文本的邏輯結(jié)構(gòu),抽取標(biāo)題、小標(biāo)題、段首、段尾、引文等作為向?qū)畔?,從而為知識(shí)元的抽取指明方向[13]。鄭彥寧、化柏林從自然語言處理的角度介紹知識(shí)元抽取的流程[14]。
2.基于規(guī)則的方法
典型代表是蔣玲提出的。她先對(duì)文本進(jìn)行分句,提取向?qū)畔⒁詷?gòu)成主題句集合,然后建立各屬性知識(shí)元的句法模型(即提取規(guī)則),將主題詞和提取規(guī)則相結(jié)合進(jìn)行句法匹配,得到具有該句法的知識(shí)元描述候補(bǔ)句后再根據(jù)句法模型來確定各知識(shí)元屬性[15]。
此外,溫有奎認(rèn)為實(shí)現(xiàn)數(shù)值知識(shí)元的抽取是建立知識(shí)元庫的先導(dǎo)和基石。他開發(fā)出了一套數(shù)值知識(shí)元抽取軟件,能從年鑒、網(wǎng)頁文本中自動(dòng)抽取數(shù)值知識(shí)元并將抽取結(jié)果自動(dòng)存人庫中[2,16-17]。肖洪和薛德軍則詳細(xì)描述類從海量年鑒文本中抽取宏觀數(shù)值知識(shí)元的具體流程以及主要算法,得出了在特定領(lǐng)域內(nèi)將數(shù)值知識(shí)元抽取提高到可用水平是可行的這一結(jié)論[3]。
(三)知識(shí)元的應(yīng)用研究
1.在檢索方面的應(yīng)用
為了解決檢索查全率、查準(zhǔn)率不高的問題,可以將對(duì)文獻(xiàn)知識(shí)單元的控制深入到知識(shí)元層次上來。CNKI就是一個(gè)比較成熟的例子。清華大學(xué)于1995年創(chuàng)辦了《中國學(xué)術(shù)期刊》,發(fā)展成為現(xiàn)在的中國知識(shí)基礎(chǔ)設(shè)施工程,即CNKI工程。目前,CNKI已擁有多個(gè)知識(shí)元庫,可以實(shí)現(xiàn)基于知識(shí)元的學(xué)術(shù)定義搜索、數(shù)值知識(shí)元搜索、圖形表格搜索等等[18]。
2.在應(yīng)急事件處理中的應(yīng)用
陳雪龍構(gòu)建了知識(shí)元模型,給出了知識(shí)元屬性間關(guān)系的隱性描述方法,為突發(fā)事件的應(yīng)急管理提供了知識(shí)支持[19]。仲秋雁等通過抽取情景共性要素及要素關(guān)系來形成情景原模型,認(rèn)為這有利于幫助計(jì)算機(jī)進(jìn)行情景模擬,輔助決策行為并提供應(yīng)對(duì)基礎(chǔ)[20]。
3.在古籍處理方面的應(yīng)用
肖懷志提出可以利用基于歷史本體而建立的語義關(guān)聯(lián)來聚集相關(guān)年份歷史知識(shí)元[21],游章才在知識(shí)元語義分析的基礎(chǔ)上,探討了中藥“性一效一證一癥一病”知識(shí)元間的內(nèi)在聯(lián)系[22]。除此之外,還有學(xué)者通過抽取、構(gòu)建知識(shí)元來嘗試分析古籍中概念不明知識(shí)元的含義。
上述研究表明,隨著認(rèn)知理論的不斷發(fā)展以及自然語言處理能力的提高,對(duì)文獻(xiàn)正文內(nèi)容進(jìn)行抽取與挖掘正得到逐步重視[23]。本文試圖對(duì)年鑒中數(shù)值知識(shí)元的類型進(jìn)行歸納總結(jié),初步構(gòu)建描述規(guī)則,以期為后續(xù)自動(dòng)和半自動(dòng)知識(shí)抽取提供參考借鑒。
四、研究方法
(一)研究的數(shù)據(jù)與素材
為了對(duì)年鑒中數(shù)值知識(shí)元的類型進(jìn)行歸納總結(jié),本文試圖從圖書情報(bào)領(lǐng)域關(guān)鍵詞表中識(shí)別數(shù)值術(shù)語表并以此為依據(jù)對(duì)文本進(jìn)行識(shí)別。但由于數(shù)值的特殊性,幾乎沒有文章將數(shù)字總結(jié)為關(guān)鍵詞,因此從關(guān)鍵詞表中識(shí)別數(shù)值術(shù)語表是不可行的。本文轉(zhuǎn)而將重點(diǎn)放在了對(duì)數(shù)字以及量詞的識(shí)別上,總結(jié)了量詞表達(dá)的125種模式,并輔以《中華人民共和國行政區(qū)劃簡(jiǎn)冊(cè)》對(duì)年鑒文本進(jìn)行抽取識(shí)別。以《2015年中國信息年鑒》為例,從全文當(dāng)中共識(shí)別出3413條包含有數(shù)值的句子,將這些句子融合清洗以及匯總后,嘗試進(jìn)行規(guī)則的識(shí)別與構(gòu)建。
(二)流程與方法
首先讀取年鑒全文,將所有包含有數(shù)值的句子抽取出來,然后剔除一些雖含有數(shù)值,但數(shù)值無意義且不可被分析的句子,隨后利用中文分詞軟件和圖書情報(bào)領(lǐng)域關(guān)鍵詞表進(jìn)行分詞,借助量詞表以及行政區(qū)劃簡(jiǎn)冊(cè)對(duì)句子中的命名實(shí)體進(jìn)行過濾清洗,形成句子的線性結(jié)構(gòu),例如,“據(jù)統(tǒng)計(jì)/…數(shù)據(jù)顯示:…”、“預(yù)計(jì)…比例達(dá)到…比例升至…”得到句式結(jié)構(gòu)之后,人工進(jìn)行校對(duì)查重,判定不同數(shù)值知識(shí)元的類型并歸納總結(jié),以形成數(shù)值知識(shí)元描述規(guī)則。
在上述篩選過濾過程中,有以下兩點(diǎn)需要注意。
1.無意義數(shù)值的過濾
雖然都是含有數(shù)值的句子,但是其中有很多并不具有知識(shí)意義,因此需要從數(shù)值知識(shí)元當(dāng)中剔除,包括以下幾種情況:(l)數(shù)字編號(hào)。例如“1.電子元件百強(qiáng)企業(yè)”、“2.平板顯示龍頭企業(yè)”等,雖然含有數(shù)值,但缺少主謂賓結(jié)構(gòu),不能獨(dú)立的表達(dá)知識(shí)的概念;(2)特定名稱。例如“2014海峽兩岸光通信論壇”、“315晚會(huì)”、“《關(guān)于加快發(fā)展生產(chǎn)性服務(wù)業(yè)促進(jìn)產(chǎn)業(yè)結(jié)構(gòu)調(diào)整升級(jí)的指導(dǎo)意見》(國發(fā)[20]4]26號(hào))”等,數(shù)值只是作為數(shù)字進(jìn)行標(biāo)記,不具有實(shí)際意義;(3)機(jī)構(gòu)名稱。例如“人社部門12333民生服務(wù)平臺(tái)”、“12306中國鐵路客戶服務(wù)中心”等等,數(shù)值只是用來命名,無法進(jìn)行進(jìn)一步的分析;(4)其他類型。例如“3D技術(shù)”、“《物流業(yè)發(fā)展中長(zhǎng)期規(guī)劃(2014-2020)》”、“包頭熱線電話96200”、“國內(nèi)首款智能電視SoC芯片Hi3751”、“360°景區(qū)全景觀賞”等。
2.命名實(shí)體的過濾
命名實(shí)體一般是指一些具體或抽象的客觀實(shí)體,例如人、組織、地點(diǎn)等,可以是人名、組織名、機(jī)構(gòu)名、地名等,也可以是時(shí)間、數(shù)量的表達(dá)式等形式,常是數(shù)值知識(shí)元的描述對(duì)象。命名實(shí)體識(shí)別的實(shí)際上就是從文本中發(fā)現(xiàn)出命名實(shí)體,并確定其類別的過程。命名實(shí)體的識(shí)別一般要經(jīng)歷下面兩個(gè)階段:在進(jìn)行分詞的同時(shí),標(biāo)注出詞表中已經(jīng)收集的命名實(shí)體;在此基礎(chǔ)上,調(diào)用構(gòu)建好的命名實(shí)體識(shí)別模型,對(duì)文中的尚未標(biāo)記出的命實(shí)體進(jìn)行識(shí)別。在進(jìn)行命名實(shí)體的識(shí)別時(shí),要結(jié)合實(shí)體自身的構(gòu)成信息,合理地使用先驗(yàn)知識(shí),根據(jù)實(shí)體所在的上下文對(duì)其的約束作用來進(jìn)行識(shí)別過濾。在年鑒中,基于年鑒的特點(diǎn),要在機(jī)構(gòu)特征詞中增加一些地域名特征詞(如“居委會(huì)”、“村公所”)并去掉一些行政機(jī)關(guān)名稱(如“委員會(huì)”、“統(tǒng)計(jì)局”),因?yàn)榇祟悪C(jī)構(gòu)常常是發(fā)布單位,不適合作為數(shù)值知識(shí)元的主體。
五、研究結(jié)果
(一)引用型數(shù)值知識(shí)元
引用型數(shù)值知識(shí)元是指在擺出數(shù)據(jù)時(shí),通過事實(shí)說話,所有數(shù)值都有可靠來源。可以通過“據(jù)…統(tǒng)計(jì)…”等描述規(guī)則來抽取,也可以通過“…指數(shù)為…”來抽取。
(二)比率型數(shù)值知識(shí)元
比率型數(shù)值知識(shí)元是指所有的數(shù)值都是以比率的形式呈現(xiàn)的,在描述過程中必定會(huì)出現(xiàn)百分比。除此之外,還包含各類型的比率,比如覆蓋率、普及率、增長(zhǎng)率等等。
(三)總結(jié)型數(shù)值知識(shí)元
總結(jié)型數(shù)值知識(shí)元就是指將數(shù)據(jù)進(jìn)行匯總后統(tǒng)一發(fā)布的知識(shí)元,描述規(guī)則比較簡(jiǎn)單,如下所示。
(四)時(shí)間型數(shù)值知識(shí)元
時(shí)間型數(shù)值知識(shí)元是指?jìng)?cè)重點(diǎn)在于時(shí)間的知識(shí)元,通常是在某一特定時(shí)間范圍內(nèi)所發(fā)生的事情。
(五)排名型數(shù)值知識(shí)元
排名型數(shù)值知識(shí)元是指對(duì)數(shù)值主體進(jìn)行排名的知識(shí)元。在進(jìn)行排名型數(shù)值知識(shí)元的識(shí)別時(shí),量詞形式大多限定在“位”與“名”這兩個(gè)詞之間,因此只要將這兩個(gè)量詞識(shí)別出來,就可以把大部分的排名型數(shù)值知識(shí)元識(shí)別出來。
(六)對(duì)比型數(shù)值知識(shí)元
對(duì)比型數(shù)值知識(shí)元是指將同類型或不同類型的數(shù)值進(jìn)行比較,從而得到有效信息。在句式上可以分為一對(duì)一和一對(duì)多。
(七)消息型數(shù)值知識(shí)元
消息型數(shù)值知識(shí)元是最常見的數(shù)值知識(shí)元,通常為六元組形式,是指將事實(shí)用敘述的方式呈現(xiàn)出來的知識(shí)元,如“2014年全國制作完成的國產(chǎn)電視動(dòng)畫片為278部、1.17萬集、13.86萬分鐘?!钡捎谙?shù)量龐大、內(nèi)容繁復(fù)且具有隨意性,很難將其描述規(guī)則具體化,所以只能從表達(dá)模式上對(duì)其進(jìn)行識(shí)別。
依據(jù)中文數(shù)值的表達(dá)習(xí)慣,本文將消息型數(shù)值知識(shí)元的文字表達(dá)總結(jié)為如下3種模式,重難點(diǎn)在于如何識(shí)別指標(biāo)、謂詞和其他文本的區(qū)別。而實(shí)現(xiàn)這一重難點(diǎn)的關(guān)鍵技術(shù)則在于中文自動(dòng)分詞和詞性標(biāo)引。
(1)模式1:指標(biāo)十謂詞十?dāng)?shù)值+單位
例:“全國高新技術(shù)產(chǎn)業(yè)增加值比上年增長(zhǎng)23.5%”
(2)模式2:謂詞+指標(biāo)+數(shù)值+單位
例:”醫(yī)院共有醫(yī)生526人”
備注:模式2同時(shí)也處理無謂詞的“指標(biāo)+數(shù)值”模式。
(3)模式3:謂詞+數(shù)值+指標(biāo)+單位
例:“全年全社會(huì)建筑業(yè)上繳2002億元稅金”
六、討論與展望
本文通過人工與機(jī)器相結(jié)合的方法,將數(shù)值知識(shí)元的表達(dá)形式分為引用型、比率型、總結(jié)型、時(shí)間型、排名型、對(duì)比型和消息型七種類型,并給出了詳細(xì)實(shí)例。這些分類以及描述規(guī)則希望能對(duì)后續(xù)數(shù)值知識(shí)元的抽取技術(shù)有所幫助。
研究中發(fā)現(xiàn),雖然都是運(yùn)用數(shù)值來表達(dá)知識(shí),但不同句式以及數(shù)值的排列組合能表達(dá)出的意思千差萬別,句子的復(fù)雜程度以及描述規(guī)則也不盡相同。需要特別注意的是,雖然數(shù)值知識(shí)元有不同的類別,但一個(gè)句子中往往可以同時(shí)包含多個(gè)類型的數(shù)值知識(shí)元,比如"2014年,全國兩化融合發(fā)展總指數(shù)達(dá)為66.14,比2013年增長(zhǎng)4.19,但仍只處于世界中等水平”就同時(shí)包含了引用型和對(duì)比型數(shù)值知識(shí)元。
本文研究還存在較多不足之處。一方面,本文選取的文本局限性較強(qiáng),僅分析了年鑒當(dāng)中的數(shù)值知識(shí)元表達(dá)形式。年鑒由于自身文本特征的局限性,大多采用了規(guī)范化的語言進(jìn)行描述,而中文博大精深,由于語言的復(fù)雜以及各學(xué)科論文文體的差異性,總結(jié)出的規(guī)則覆蓋度不高,不適用于所有類型文檔。另一方面,沒有針對(duì)數(shù)值知識(shí)元抽取的測(cè)試集,抽取出來的結(jié)果難以評(píng)測(cè)且無具體評(píng)估標(biāo)準(zhǔn)。后續(xù)研究可以增加原始語料的規(guī)模并構(gòu)建測(cè)試集,發(fā)現(xiàn)更具有普適性的數(shù)值知識(shí)元描述規(guī)則。
參考文獻(xiàn):
[1]溫有奎,計(jì)算機(jī)檢索中的情報(bào)取樣與濾波分析[J].情報(bào)學(xué)報(bào),1993,(1):87.
[2]溫有奎,徐國華,賴伯年,等知識(shí)元挖掘[M].西安:西安電子科技大學(xué)出版社,2005:171,177-183.
[3]肖洪,薛德軍.基于大規(guī)模真實(shí)文本的數(shù)值知識(shí)元挖掘研究[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(30):150-152,222.
[4]高國偉,王亞杰,李永先,我國知識(shí)元研究綜述[J].情報(bào)科學(xué),2016,34(2):161-165.
[5]趙紅州,唐敬年,蔣國華,鄭文藝.知識(shí)單元的靜智荷及其在荷空間的表示問題[J].科學(xué)學(xué)與科學(xué)技術(shù)管理,1990,11(1):37-41.
[6]溫有奎,徐國華.知識(shí)元鏈接理論[J].情報(bào)學(xué)報(bào),2003,22(6):665-670.
[7]柳長(zhǎng)華.基于知識(shí)元的中醫(yī)古籍計(jì)算機(jī)知識(shí)表示方法[C].第三屆國際傳統(tǒng)醫(yī)藥大會(huì)文集,2004:240-241.
[8]文庭孝.知識(shí)單元的演變及其評(píng)價(jià)研究[J].圖書情報(bào)工作,2007,51(10):72-76.
[9]劉新,王泰森,學(xué)習(xí)型知識(shí)元數(shù)據(jù)庫鏈接理論研究[J].圖書館學(xué)研究,2009,(11):25-28.
[10]畢經(jīng)元,基于web2.0的知識(shí)元鏈接網(wǎng)絡(luò)系統(tǒng)ID],杭州:浙江大學(xué),2010:24-25.
[11]原小玲.基于知識(shí)元的知識(shí)標(biāo)引[J].圖書館學(xué)研究,2007,(6):47-49.
[12]王延章.模型管理的知識(shí)及其表示方法[J].系統(tǒng)工程學(xué)報(bào),2011,26(6):850-856.
[13]姜永常,基于知識(shí)元的知識(shí)組織及其系統(tǒng)服務(wù)功能研究[J].情報(bào)理論與實(shí)踐,2007,(1):37-40.
[14]鄭彥寧,化柏林.句子級(jí)知識(shí)抽取在情報(bào)學(xué)中的應(yīng)用分析[J].情報(bào)理論與實(shí)踐,2011,(12):5-8.
[15]蔣玲.面向?qū)W科的知識(shí)元標(biāo)引關(guān)鍵技術(shù)研究[D],武漢:華中師范大學(xué),2011:36-37.
[16]溫有奎,溫浩,徐端頤,等,基于知識(shí)元的文本知識(shí)標(biāo)引[J].情報(bào)學(xué)報(bào),2006,25(3):282-288.
[17]溫有奎,文本知識(shí)元標(biāo)引[C]第十九屆全國計(jì)算機(jī)信息管理學(xué)術(shù)研討會(huì),宜昌,2005:59-66.
[18]盧城曉,基于知識(shí)元檢索的知識(shí)相關(guān)度研究[D]南京:南京大學(xué),2012:16.
[19]陳雪龍,董恩超,王延章非常規(guī)突發(fā)事件應(yīng)急管理的知識(shí)元模型[J].情報(bào)雜志,2011,(12):21-30.
[20]仲秋雁,等,基于知識(shí)元的非常規(guī)突發(fā)事件情景模型研究[J].情報(bào)科學(xué),2012,30(1):115-120.
[21]肖懷志,李明.基于本體的歷史年代知識(shí)元在古籍?dāng)?shù)字化中國的應(yīng)用[J].圖書情報(bào)知識(shí),2005,(3):28-33.
[22]游章才,等.基于中藥“性—效—證—癥—病”知識(shí)元關(guān)聯(lián)探討“澀味”的內(nèi)涵[J].四川中醫(yī),2010,28(8):54-57.
[23]化柏林.學(xué)術(shù)論文中方法知識(shí)元的類型與描述規(guī)則研究[J].中國圖書館學(xué)報(bào),2016,42(221):30-40.