, ,鵬年 , ,
隨著語義網(wǎng)技術(shù)的不斷發(fā)展,本體(ontology)成為知識組織的研究熱點,越來越多的研究人員開始構(gòu)建基于本體的知識庫。本體是共享概念模型的明確的形式化規(guī)范說明[1],包含概念、關(guān)系、屬性、公理、函數(shù)、實例6個要素[2]。在本體的六要素中,概念是中心屬性,其它屬性都是對概念的明確的形式化規(guī)范說明。本體的構(gòu)建需要以概念為核心,實現(xiàn)對領(lǐng)域概念術(shù)語的整合,概念獲取是構(gòu)建本體的重要工作。
中華人民共和國國家標(biāo)準(zhǔn)GB/T 15237.1-2000 中,將其“概念”定義為是對特征的獨特組合而形成的知識單元[3]。軍事醫(yī)學(xué)概念應(yīng)滿足領(lǐng)域概念的一般性特點:首先是概念的詞性通常為名詞,其次是概念所表達的內(nèi)容一般是一類或者具有實際意義的事物,不能太過具體[4]。軍事醫(yī)學(xué)是研究在軍事活動中鑒定、保護、恢復(fù)和促進軍隊成員健康的理論、技術(shù)和組織方法的特種醫(yī)學(xué),是醫(yī)學(xué)與軍事學(xué)的交叉學(xué)科[5]。軍事醫(yī)學(xué)是一個特殊的分支范疇,目前學(xué)科體系的劃分沒有形成統(tǒng)一的標(biāo)準(zhǔn),定義不明確,邊界不明顯。軍事醫(yī)學(xué)概念應(yīng)包含軍事醫(yī)學(xué)領(lǐng)域的全部方面,其概念表達的全面性和代表性應(yīng)獲得領(lǐng)域?qū)<业恼J(rèn)同。隨著時代變革及學(xué)科的不斷發(fā)展演化,軍事醫(yī)學(xué)的概念也應(yīng)不斷更新。
軍事醫(yī)學(xué)概念包含通用性概念、上位學(xué)科領(lǐng)域概念和軍事醫(yī)學(xué)領(lǐng)域特有概念3個部分。
通用性概念是任何學(xué)科領(lǐng)域都需要的,屬于通用本體的基本內(nèi)容,在軍事醫(yī)學(xué)領(lǐng)域概念中也不可或缺,如時間、地名、人名、機構(gòu)等。
上位學(xué)科領(lǐng)域概念(以軍事醫(yī)學(xué)為例)。軍事醫(yī)學(xué)是醫(yī)學(xué)和軍事學(xué)的交叉學(xué)科,軍事醫(yī)學(xué)概念與醫(yī)學(xué)和軍事學(xué)概念存在相似性[6]。因此既可以繼承某些醫(yī)學(xué)領(lǐng)域概念,如基礎(chǔ)醫(yī)學(xué)、臨床醫(yī)學(xué)、急救醫(yī)學(xué)等概念,也可以繼承某些軍事學(xué)概念,如戰(zhàn)創(chuàng)傷等軍事傷病防治領(lǐng)域概念。
軍事醫(yī)學(xué)領(lǐng)域特有概念的特點是在軍事醫(yī)學(xué)領(lǐng)域頻繁出現(xiàn),而在其他領(lǐng)域及通用領(lǐng)域中出現(xiàn)的概率較小,如軍隊衛(wèi)生學(xué)、軍隊流行病學(xué)、核化生武器醫(yī)學(xué)防護學(xué)、軍事生物醫(yī)學(xué)工程學(xué)、軍隊衛(wèi)生裝備學(xué)、軍事藥學(xué)、軍事醫(yī)學(xué)史學(xué)等學(xué)科領(lǐng)域概念。
《中國圖書館圖書分類法》(簡稱“中圖法”)第五版中包含5大部類、22個大類、51 881個類目,中圖法是我國圖書情報界廣泛使用的綜合性分類法,對中文圖書和文獻的分類標(biāo)引起到重要作用,能夠為領(lǐng)域本體構(gòu)建提供基本概念。其中與軍事醫(yī)學(xué)相關(guān)的類目為R82軍事醫(yī)學(xué)、R83航海醫(yī)學(xué)、R84潛水醫(yī)學(xué)、R85航空航天醫(yī)學(xué)。
《軍用醫(yī)學(xué)主題詞表》是軍事醫(yī)學(xué)領(lǐng)域的專業(yè)敘詞表,是《軍用主題詞表》系列的重要組成部分,1993年出版。該詞表對統(tǒng)一和規(guī)范我國軍事醫(yī)學(xué)用語、建立軍事醫(yī)學(xué)數(shù)據(jù)庫、健全軍事醫(yī)學(xué)情報系統(tǒng)、實現(xiàn)全軍聯(lián)機檢索和資源共享具有重要作用[7]。用戶可以從字順表、范疇表(學(xué)科分類)和英文譯名3個角度查找。詞表總詞量為23 387個,其中正式主題詞(含有專業(yè)名詞)為20 662個,非正式主題詞為2 725個,屬大型專業(yè)詞表。詞表包含了軍事醫(yī)學(xué)領(lǐng)域內(nèi)的概念系統(tǒng),并提供了概念術(shù)語間“用、帶、屬、分、參”關(guān)系。詞表中設(shè)置了族首詞,表示在詞族中概念最大的主題詞。如在衛(wèi)生裝備的本體構(gòu)建中,族首詞“醫(yī)療后送工具”的款目格式實例如下:
漢語拼音→Yi liao hou song gong ju
款目詞 →醫(yī)療后送工具* [0210]←范疇號
英文譯名→Medical evacuation mean
參照項“代”→ D 傷病員運輸工具
參照項“分”→ F 擔(dān)架
·海軍擔(dān)架
海上傷員換乘工具
·換乘吊籃
救護車
衛(wèi)生船舶
·救護艇
·衛(wèi)生運輸船
·醫(yī)院船
衛(wèi)生列車
參照項“參”→ C 衛(wèi)生飛機
醫(yī)療后送飛機
在上面這個實例中,可以得到的本體概念有“工具、傷病員、擔(dān)架、救護車、衛(wèi)生船舶、救護艇、衛(wèi)生列車、衛(wèi)生飛機、”,而“海軍擔(dān)架、換乘吊籃”為概念的實例,“運輸、換乘、后送”這種與動作相關(guān)的詞可以作為概念之間的關(guān)系。
傳統(tǒng)《軍用醫(yī)學(xué)主題詞表》提供了相對豐富的軍事醫(yī)學(xué)概念及可靠的概念關(guān)系,是構(gòu)成軍事醫(yī)學(xué)本體概念的良好基礎(chǔ),應(yīng)該最大程度地加以繼承。
專業(yè)詞典能夠?qū)ζ漕I(lǐng)域內(nèi)的專業(yè)詞匯作出解釋,因此可以從中抽取領(lǐng)域本體的概念及關(guān)于概念的定義。軍事醫(yī)學(xué)詞典包括《軍事醫(yī)學(xué)辭典》 和《漢英常用軍事醫(yī)學(xué)詞匯》等。代表領(lǐng)域內(nèi)權(quán)威的書籍包括著作、教科書、百科全書等,其專業(yè)性較強,包含領(lǐng)域的概念及解釋,可從中提取核心概念,用于領(lǐng)域本體的構(gòu)建。軍事醫(yī)學(xué)的論著有《軍事醫(yī)學(xué)概論》和 《軍事醫(yī)學(xué)系統(tǒng)論》,教科書有《現(xiàn)代野戰(zhàn)內(nèi)科學(xué)》 《海戰(zhàn)外科學(xué)》 《軍事醫(yī)學(xué)地理學(xué)》《防化醫(yī)學(xué)》 《軍事勞動衛(wèi)生學(xué)》《軍事環(huán)境衛(wèi)生學(xué)》 《軍事醫(yī)學(xué)社會學(xué)》《軍事檢驗醫(yī)學(xué)》 《軍事作業(yè)醫(yī)學(xué)》 《核武器與核事件醫(yī)學(xué)防護學(xué)》 《生物武器損傷防護學(xué)》《軍隊營養(yǎng)與食品衛(wèi)生學(xué)》《外科學(xué)及戰(zhàn)創(chuàng)傷外科學(xué)》 《野戰(zhàn)護理學(xué)》《軍事醫(yī)學(xué)病理學(xué)》《軍事醫(yī)學(xué)心理學(xué)》《軍事預(yù)防醫(yī)學(xué)》等,百科全書有《中國醫(yī)學(xué)百科全書:軍事醫(yī)學(xué)卷》和《中國醫(yī)學(xué)百科全書:軍隊衛(wèi)生學(xué)》以及與醫(yī)學(xué)相關(guān)的各卷。
傳統(tǒng)的軍事醫(yī)學(xué)知識組織法如敘詞表、百科全書等,大多為20世紀(jì)90年代出版,內(nèi)容較為陳舊,且后續(xù)無更新版本。隨著科技進步和軍隊?wèi)?zhàn)斗力的發(fā)展變化,軍事醫(yī)學(xué)也在不斷地發(fā)展演化。新的領(lǐng)域概念不斷產(chǎn)生,詞義不斷引申,軍事醫(yī)學(xué)概念需要不斷擴充新詞及概念間的語義關(guān)聯(lián),同時要根據(jù)領(lǐng)域的最新進展,甄別和去除那些陳舊過時的概念或概念間關(guān)系,確保軍事醫(yī)學(xué)本體的科學(xué)性、全面性和及時性?;诖耍覀兲岢鲆环N基于文獻詞頻統(tǒng)計的綜合集成法來獲取軍事醫(yī)學(xué)的本體概念,其技術(shù)路線如圖1所示。
圖1 軍事醫(yī)學(xué)本體概念獲取技術(shù)路線
軍事醫(yī)學(xué)科研機構(gòu)是軍事醫(yī)學(xué)系統(tǒng)發(fā)現(xiàn)主體中從事與軍事任務(wù)需求最密切相關(guān)科研項目的主體,研究軍事醫(yī)學(xué)科研機構(gòu)的發(fā)文可掌握軍事醫(yī)學(xué)核心研究領(lǐng)域的熱點和發(fā)展趨勢[8],因此采用軍事醫(yī)學(xué)科研機構(gòu)發(fā)表的文獻集作為軍事醫(yī)學(xué)文獻集。
3.1.1 軍事醫(yī)學(xué)樣本文獻集的搜集
選取大型中文文獻數(shù)據(jù)庫,用軍事醫(yī)學(xué)相關(guān)主題詞進行檢索,并設(shè)定檢索范圍為數(shù)據(jù)庫中“醫(yī)學(xué)衛(wèi)生”領(lǐng)域,得出軍事醫(yī)學(xué)樣本文獻集。通過在軍事醫(yī)學(xué)專業(yè)詞表及論著中提取與軍事醫(yī)學(xué)密切相關(guān)主題詞,得到如下檢索詞,如“軍隊”、“軍事”、“海軍”、“戰(zhàn)爭”、“武器”、“空軍”、“防護”、“勤務(wù)”、“野戰(zhàn)”、“戰(zhàn)傷”、“航海”、“航空”等。
3.1.2 軍事醫(yī)學(xué)機構(gòu)檢索集的確定
提取軍事醫(yī)學(xué)樣本文獻集的機構(gòu)名稱,按照出現(xiàn)頻次排序,得出排名靠前的機構(gòu)名稱,再手工對其進行篩選。在得出的機構(gòu)集中,由于醫(yī)院的定位不僅僅服務(wù)于軍事醫(yī)學(xué),還要保障廣大人民群眾的醫(yī)療健康,發(fā)文范圍遠大于軍事醫(yī)學(xué)的研究范疇,因此軍事醫(yī)學(xué)機構(gòu)集中應(yīng)去除醫(yī)院,通過進一步核實得出軍事醫(yī)學(xué)機構(gòu)檢索集。
3.1.3 軍事醫(yī)學(xué)文獻集的建立
在選取的中文文獻數(shù)據(jù)庫中,按照機構(gòu)的檢索方式,在專業(yè)檢索中編輯輸入軍事醫(yī)學(xué)機構(gòu)檢索集的名稱,得出軍事醫(yī)學(xué)文獻集。
關(guān)鍵詞能夠表現(xiàn)出文獻的主題,便于分割,不需要進行分詞,并且經(jīng)過了初步規(guī)范,因此利用關(guān)鍵詞提取詞匯方便可行。關(guān)于概念的獲取方法,無論國外還是國內(nèi),基于統(tǒng)計的方法都是主流[9]。在軍事醫(yī)學(xué)文獻集中,提取關(guān)鍵詞,統(tǒng)計每個關(guān)鍵詞的頻次,再通過以下兩種選取方式構(gòu)建軍事醫(yī)學(xué)文獻詞匯集。
3.2.1 選取軍事醫(yī)學(xué)領(lǐng)域高頻詞匯
詞頻信息為領(lǐng)域詞匯的選取提供了重要依據(jù),詞頻高的詞匯是領(lǐng)域的核心詞匯,但光憑高頻詞還不夠準(zhǔn)確。對于一些典型的通用概念,如“設(shè)計”、“實驗”、“應(yīng)用”等,雖然出現(xiàn)頻次很高,但不能代表軍事醫(yī)學(xué)的領(lǐng)域概念,因此還需要判斷詞頻專業(yè)偏向度。詞頻專業(yè)偏向度的含義為一個關(guān)鍵詞在專業(yè)領(lǐng)域文獻中的詞頻與在學(xué)術(shù)文獻總庫中的詞頻比值,取值范圍為0至100%[10]。詞頻專業(yè)偏向度越高,代表該詞屬于專業(yè)領(lǐng)域詞匯的可能性越大;同時,頻次越高,代表該詞在專業(yè)領(lǐng)域中使用越多。通過詞頻專業(yè)偏向度和詞頻絕對值,可以確定軍事醫(yī)學(xué)領(lǐng)域的高頻詞匯。如我們在中國知網(wǎng)CNKI中,利用關(guān)鍵詞檢索“衛(wèi)生裝備”一詞,檢索結(jié)果的學(xué)科分布如圖2。從圖2可以看出“衛(wèi)生裝備”在“特種醫(yī)學(xué)”和“軍事醫(yī)學(xué)與衛(wèi)生”學(xué)科中的詞頻明顯高于其他科學(xué)。由于這兩個學(xué)科均屬于“軍事醫(yī)學(xué)”范疇,將這兩個學(xué)科詞頻相加,得出“衛(wèi)生裝備”的詞頻專業(yè)偏向度為72.86%,確定為軍事醫(yī)學(xué)范疇。
圖2關(guān)鍵詞“衛(wèi)生裝備”在CNKI中按學(xué)科詞頻分布
3.2.2 選取軍事醫(yī)學(xué)領(lǐng)域熱點詞匯
有些關(guān)鍵詞的詞頻絕對值不高,不屬于高頻詞,但是按照年代分析該詞的詞頻時發(fā)現(xiàn),某一年該詞突然出現(xiàn)并且頻次快速提高,這類詞稱為領(lǐng)域熱點詞。如“非典型肺炎”在2003年之前沒有該關(guān)鍵詞,但由于2003年我國爆發(fā)大規(guī)?!胺堑洹币咔椋乖撽P(guān)鍵詞從2003年起突然出現(xiàn)并達到383次,被認(rèn)定為領(lǐng)域熱點詞(圖3)。在構(gòu)建軍事醫(yī)學(xué)文獻詞匯集時,應(yīng)把這部分詞匯也考慮在內(nèi),使軍事醫(yī)學(xué)領(lǐng)域詞匯更加全面。
圖3關(guān)鍵詞“非典型肺炎”在CNKI中按年代詞頻分布
傳統(tǒng)的敘詞表、分類法、詞典、百科全書、專業(yè)論著等為領(lǐng)域概念獲取提供了豐富的術(shù)語庫,應(yīng)最大程度加以繼承。對這些傳統(tǒng)知識組織法進行數(shù)字化,將其加工成TXT、XML等格式,便于對詞表進行分析和利用。敘詞表中還包含范疇表,為專業(yè)詞匯定義了范疇分類,數(shù)字化的過程中應(yīng)保留對應(yīng)關(guān)系,便于獲取領(lǐng)域概念及概念間關(guān)系。
將通過關(guān)鍵詞詞頻統(tǒng)計得出的軍事醫(yī)學(xué)文獻詞匯集與原有軍事醫(yī)學(xué)專業(yè)詞匯庫進行匹配,判斷文獻詞匯集中的詞匯是否為新增詞。若軍事醫(yī)學(xué)專業(yè)詞匯庫中沒有該詞,則判斷為新增詞,否則舍棄。對于新增詞,還應(yīng)進一步判斷該詞所屬的范疇分類,利用該詞在數(shù)據(jù)庫中不同學(xué)科分組出現(xiàn)的詞頻,詞頻最高的學(xué)科分組為該詞的范疇分類。
利用范疇表可以從更新后的軍事醫(yī)學(xué)專業(yè)詞匯庫提取本體概念。另外,對軍事醫(yī)學(xué)專業(yè)詞匯進行同義詞合并,利用合并后的詞頻排序,也可以為本體概念的提取提供參考。
本文通過對軍事醫(yī)學(xué)傳統(tǒng)知識組織方式進行分析,提出了基于文獻關(guān)鍵詞詞頻統(tǒng)計的綜合集成法獲取軍事醫(yī)學(xué)本體概念,既繼承了傳統(tǒng)詞庫的權(quán)威性和系統(tǒng)性,又能夠從文獻中提取高頻詞和熱點詞對傳統(tǒng)詞庫加以補充,使傳統(tǒng)詞匯庫不斷更新和更加完善。
與傳統(tǒng)的基于知識組織法獲取軍事醫(yī)學(xué)本體概念的方法相比,本文提出的基于文獻關(guān)鍵詞詞頻統(tǒng)計的綜合集成法具有以下優(yōu)點:一是傳統(tǒng)知識組織法大多較為陳舊過時,無法緊跟軍事醫(yī)學(xué)學(xué)科的發(fā)展演化,基于文獻的概念獲取方法更具及時性和客觀性;二是傳統(tǒng)知識組織法能夠體現(xiàn)完整的學(xué)科結(jié)構(gòu),基于文獻的概念獲取方法更能體現(xiàn)不同時期軍事醫(yī)學(xué)的發(fā)展?fàn)顟B(tài),可以用來甄別和去除傳統(tǒng)知識法中陳舊過時的概念;三是基于文獻關(guān)鍵詞詞頻統(tǒng)計的綜合集成法能夠提取出軍事醫(yī)學(xué)領(lǐng)域特有的概念集。傳統(tǒng)知識組織法涵蓋了軍事醫(yī)學(xué)相關(guān)的所有概念,但不利于對軍事醫(yī)學(xué)特有概念的提取。
軍事醫(yī)學(xué)是由自然科學(xué)、社會科學(xué)和人文科學(xué)交叉生成的一門特殊學(xué)科,學(xué)科領(lǐng)域范圍不明確、邊界不清晰,概念的提取也比較復(fù)雜。軍事醫(yī)學(xué)在近幾十年的發(fā)展中積累了大量文獻數(shù)據(jù),目前我們已經(jīng)完成了軍事醫(yī)學(xué)文獻集的建立,接下來會通過大量實驗數(shù)據(jù)驗證本文方法的適用性,并不斷修正技術(shù)流程,使軍事醫(yī)學(xué)本體概念的獲取方法更加科學(xué)可行。