亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Mesh詞表和共詞分析的疾病本體半自動構建方法研究

        2009-04-29 00:00:00劉菊紅于建榮繆有剛
        現(xiàn)代情報 2009年3期

        〔摘 要〕分析了利用專業(yè)詞表和共現(xiàn)分析方法相結合半自動構造領域本體構建的方法。利用專業(yè)詞表抽取概念和等級關系,利用共現(xiàn)分析方法抽取非等級關系。

        〔關鍵詞〕本體;半自動構建;Mesh;共現(xiàn)分析

        〔中圖分類號〕G254.24 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)03-0208-04

        本體是用來描述某個領域甚至更廣范圍內(nèi)的概念以及概念之間的聯(lián)系,使得這些概念和聯(lián)系在共享的范圍內(nèi)有著明確惟一的定義,達成一種共識,這樣人機就可以進行交流。N.Guarino提出將本體劃分為頂級本體(top—level ontology)、領域本體(domain ontology)、任務本體(task ontology)和應用本體(application ontology)。

        1 領域本體概述

        1.1 領域本體的概念、特征及其發(fā)展態(tài)勢

        領域本體是用于描述指定領域知識的一種專門本體。它給出了領域實體概念及相互關系、領域話動以及該領域所具有的特性和規(guī)律的一種形式化描述。目前,領域本體模型的研究已經(jīng)進入實際應用階段,許多研究領域都建立了自己標準的本體[1]。領域本體的發(fā)展非常迅速,不僅得到了廣泛的應用,在實際應用中也取得了積極的作用。國外文獻中涉及的領域本體,包括化學領域、生物醫(yī)學領域、地理學領域和其他領域。領域本體的應用展現(xiàn)出涉及學科領域廣、更加專業(yè)化、針對性更強、涉及多個學科的領域本體增多等特點[2]。

        對數(shù)字圖書館而言,領域本體在數(shù)字圖書館對其知識進行語義層面的組織中扮演著至關重要的角色,領域本體的構建是語義網(wǎng)絡環(huán)境下數(shù)字圖書館知識組織不可或缺的關鍵步驟。

        1.2 領域本體的構建

        目前本體構建主要有手工構建、復用已有本體以及自動構建本體3種方法。手工構建領域本體費時費力、花費巨大,且由于手工構建本體尚缺少一套工程化的科學管理流程作為支撐,使得本體的構建主觀性太強,可行性和實用性都受到質疑。自動構建本體目前還處于研究階段,利用機器學習會產(chǎn)生大量的噪音數(shù)據(jù),缺乏必要的語義邏輯基礎,抽取的概念關系松散且可信度無法得到很好的保障。盡管機器學習應用于本體自動構建有巨大的潛力,但是距離良好的可理解性尚有很大的距離。半自動構建本體是較為理想的模式,其關鍵技術在于領域概念的獲取和領域概念之間關系的獲取[3]。

        1.2.1 領域本體構建的主要方法

        目前主要的領域本體構建方法有TOVE法、METHONTOLOGY法、骨架法、KACTUS工程法、SENSUS法、IDEF5法和斯坦福大學醫(yī)學院開發(fā)的七步法。TOVE法專用于構建TOVE本體,由多倫多大學企業(yè)集成實驗室研制;METHONTOLOGY法專用于構建化學本體(有關化學元素周期表的本體);骨架法專門用來構建企業(yè)本體;KACTUS工程法的目的是要解決技術系統(tǒng)生命周期過程中的知識復用問題;SENSUS是開發(fā)用于自然語言處理的SENSUS語言本體的方法路線。IDEF5法開發(fā)用于描述和獲取企業(yè)本體的方法;斯坦福大學醫(yī)學院開發(fā)的七步法,主要用于領域本體的構建。目前大多數(shù)領域本體的構建都采用了七步法。

        1.2.2 領域本體構建的流程

        根據(jù)現(xiàn)有的本體構建方法進行總結,本體構建的一般流程如下:(1)明確研究對象和范疇;(2)對該領域的現(xiàn)有本體進行調查和研究,借鑒已有的研究成果;(3)提取核心概念;(4)對概念詞進行分類和合并,定義類和類的語義關系,主要包括等級關系和非等級關系;(5)定義函數(shù)和公理;(6)創(chuàng)建實例;(7)構建知識庫。

        1.3 領域本體構建的關鍵技術

        領域本體構建的關鍵技術包括領域概念的獲取和領域概念之間關系的獲取。領域本體領域概念獲取主要有以下兩個途徑:①專業(yè)詞典;②利用自然語言處理技術,直接從全文或者文摘、關鍵詞字段中抽詞。領域概念之間的關系主要分為等級關系和相關關系。等級關系獲取的方法主要有:①專業(yè)詞典;②聚類算法;③字面成族;④模式匹配。相關關系獲取的主要算法有:①共現(xiàn)統(tǒng)計算法;②關聯(lián)規(guī)則算法;③隱含語義索引;④Hopfield聯(lián)想算法等[3]。

        2 疾病本體的構建

        生物學領域涉及比較廣,與醫(yī)學、化學等多個學科多有交叉,相關本體也多是與其他學科相結合,其應用也比較成熟、廣泛。近年來在生物醫(yī)學領域出現(xiàn)的領域本體有:(1)SGDS(Similar genes discovery system),相似基因發(fā)現(xiàn)系統(tǒng);(2)GOHSE系統(tǒng),是一個支持瀏覽生物資源的應用程序;(3)FMA(the Foundational Model of Anatomy)是一個生物醫(yī)學信息學方面的參考本體。(4)OBO(Open Biomedical Ontologies),開放生物醫(yī)學本體[3]。

        重大疾病通常具有以下2個基本特征:一是“病情嚴重”,會在較長一段時間內(nèi)嚴重影響到患者及其家庭的正常工作與生活;二是“治療花費巨大”,此類疾病需要進行較為復雜的藥物或手術治療,需要支付昂貴的醫(yī)療費用。衛(wèi)生部2006年統(tǒng)計報告指出,重大疾病導致的全國人口死亡總數(shù)占死亡總數(shù)的90.4%。因此,探討重大疾病本體構建的方法具有重大意義。

        2.1 疾病本體的頂層構建

        由于疾病具有相同的特征,如都可以從表型、病因學、治療手段等角度進行描述。因此,對疾病的特征進行分析,探討構建本體的方法是可行的。澳大利亞科庭大學Maja Hadzi等人對疾病本體展開了深入的研究,在第38屆國際系統(tǒng)科學會議上,展示了在疾病本體研究領域的研究成果,構建了疾病本體的頂層框架,認為疾病本體可以從疾病類型、表型、病因學、治療手段4個主要的維度進行描述(見圖1)[4]。人類基因組計劃后,人類對基因的認識突飛猛進,對現(xiàn)有生物醫(yī)學相關數(shù)據(jù)庫的調查發(fā)現(xiàn),大部分數(shù)據(jù)庫僅限于基因組學等分子生物學領域。從基因的角度認識基因與疾病的關系尤其具有重要的意義。

        2.2 疾病本體概念的獲取

        由Medline數(shù)據(jù)庫收錄的生物醫(yī)學文獻,都由標引人員賦予了12個左右的MeSH主題詞來表達該文獻的主要內(nèi)容。正是由于MeSH主題詞的存在,才保證了PUBMED海量生物醫(yī)學文獻的有效檢索?!夺t(yī)學主題詞表》(Medical Subject Headings,簡稱MeSH),由美國國立醫(yī)學圖書館(NLM)編輯出版。MeSH詞表的以下特點,使MeSH詞表滿足為疾病本體構建提供概念的要求。

        (1)詞表主題詞是在醫(yī)學文獻標引的基礎上編制的,并盡可能吸收反映專業(yè)文獻領域新出現(xiàn)的專業(yè)術語符合醫(yī)學文獻標引的需要。目前,MeSH已收入敘詞24 767個,入口詞97 000個[5]。

        (2)樹形結構表劃分級別深,列類詳盡,遠超過一般敘詞表的范疇索引,有助于從分類的角度對敘詞表進行查找和使用。

        (3)使用范圍廣:MeSH是國外生物醫(yī)學領域使用最廣泛的專業(yè)詞表,NLM利用MeSH敘詞表來標引MEDLINE數(shù)據(jù)庫和pubMED數(shù)據(jù)庫中的4 800種世界頂級生物醫(yī)學期刊的文章。

        (4)更新速度快:MeSH詞表1960年出版,從1962年起每年更新1次,網(wǎng)絡版每周更新,使詞表 能收錄最新的詞匯,避免了辭典通常不能及時收錄新詞的缺陷。

        2.3 等級關系的獲取

        MeSH詞表從學科分類角度組織敘詞。樹形結構表從學科分類的角度,按MeSH收錄的主題詞的學科屬性分類編排而成,故又稱范疇表。它通過展示主題詞在學科體系中的邏輯關系,縱向反映主題詞之間的概念等級關系。樹形結構表將MeSH所有的主題詞分為17大類(見表1)[6]。

        在各大類下,再根據(jù)情況劃分若干基本類目,按照需要按概念的等級關系逐漸展開子類,最多可達9級,用逐級縮格的方式來表達它們的邏輯隸屬關系,同一級的主題詞按字順排列,每一個詞給一個樹形結構號。下面為胰島抵抗樹形結構表的編排格式(見圖2):[6]

        第1級Diseases疾病C

        第2級 Nutritional and Metabolic Diseases營養(yǎng)和代謝疾病C18

        第3級 Metabolic Diseases代謝疾病C18.452

        第4級 Glucose Metabolism Disorders葡萄糖代謝紊亂C18.452.394

        第5級Hyperinsulinism胰島功能亢進 C18.452.394.968

        第6級 Insulin Resistance胰島素抵抗 C18.452.394.968.500

        圖2 胰島抵抗樹狀結構片段

        被Mesh詞表收錄的每一個概念詞,都存在于樹狀分類結構之中。因此,可以利用Mesh詞表的范疇表,提取糖尿病本體概念的等級關系。

        2.4 非等級關系的獲取

        目前,非等級關系的提取主要依賴于人工提取,通過領域專家的閱讀來建立概念間的非等級關系,手工構建領域本體不僅費時費力、花費巨大,且其隨意性大,可用性受到質疑,并且依賴于領域專家的參與。

        2.4.1 共詞分析的相關理論

        共詞分析是共現(xiàn)分析當中的一種,具體指通過分析在同一個文本主體中的款目對(單詞或名詞短語對)共同出現(xiàn)的形式,以發(fā)現(xiàn)科學領域的學科結構的定量分析方法[11]。在自然語言中,所有的概念之間都是直接或者間接相關的。對于全部概念,同一領域內(nèi)概念之間的聯(lián)系要比不同領域間概念的聯(lián)系程度更密切。在這里用概念之間的距離表示概念之間關系的緊密程度,兩個概念越相關,那么這兩個概念的距離就越短,這種聯(lián)系的直接表現(xiàn)就是概念在文本中的共現(xiàn),在一篇文章中,一個主題內(nèi)容會出現(xiàn)多個概念,而這些概念就是要提取的[7]。

        2.4.2 相關研究

        Ying Ding在12屆國際數(shù)據(jù)庫和專家系統(tǒng)應用會議上提出可利用共現(xiàn)理論來構建本體[8]。Takeshi Morita,Yoshihiro Shigeta,Ying Ding等正在開發(fā)的DODDLE-OWL本體構建項目綜合利用了共現(xiàn)分析方法和現(xiàn)有詞表或本體中的分類學知識為特定知識系統(tǒng)構建本體。DODDLE-OWL項目利用已有本體中的類別信息構建本體中的基礎類別關系。同時,通過從該領域文本集中抽取的相關概念進行共現(xiàn)分析以確定概念之間的非分類關系;Ying Ding在構建IR和AI本體時,首先利用共現(xiàn)分析獲得具有語義關系的關鍵詞對,隨后利用現(xiàn)有的領域詞表提供的BT/NT關系豐富詞匯間的層次關系[8-9]。張學福利用詞共現(xiàn)進行了可視化的概念空間研究[10]。王曰芬等提出共現(xiàn)分析可用于構建本體[11]。

        2.4.3 共詞分析的基本流程

        按照共現(xiàn)分析的方法論基礎和研究的目的,本文針對疾病本體的構建,設計了如下共現(xiàn)分析流程:

        (1)概念詞抽取:從題名、文摘、關鍵詞字段,提取出被MeSH詞表收錄的概念詞。從概念出現(xiàn)頻次及出現(xiàn)位置兩個角度進行加權計算,設置閾值,選擇部分與研究領域最相關的概念詞。

        (2)概念間關系的提取:從概念對之間的共現(xiàn)頻率、共現(xiàn)時相隔的詞間距離等角度進行加權計算,選擇部分語義關聯(lián)概率最大的詞對。

        (3)構造共詞矩陣:根據(jù)第二步提取出來的詞匯對,構造共詞矩陣。

        (4)概念關聯(lián)度分析:分析兩個詞匯(或概念)間的關聯(lián)度的主要測度方法有Dice指數(shù)、余弦指數(shù)、Jaccard指數(shù)和H.Chen提出的共現(xiàn)算法等[11],選擇合算法進行概念關聯(lián)度分析。

        (5)算法改良:分析概念間語義關系的提出質量,對算法進行改進。

        3 總 結

        利用詞表和共現(xiàn)分析方法構建本體,已有相關的理論探討和研究。本文認為,在生物醫(yī)學領域,可以將這2種方法相結合,實現(xiàn)本體的半自動構建。這相比手工構建本體而言,節(jié)省了從量的時間跟人力。如何利用共現(xiàn)分析方法,提高語義關系獲取的質量和效率,還有待在實踐中進一步改進。

        參考文獻

        [1]王梅.owl領域本體構建方法研究[J].圖書情報工作,2004,12(22):12-33.

        [2]余倩.近年來領域本體的應用新進展[J].圖書館建設,2008,(8):95-99.

        [3]何琳,杜慧平,侯漢清.領域本體的半自動構建方法研究[J].圖書館理論與實踐,2007,(5):26-27,38.

        [4]Maja Hadzic,Elizabeth Chang.Ontology-based Support for Human Disease Study.Proceedings of the 38th Hawaii International Conference on System Sciences.2005,143a.

        [5]http:∥www.nlm.nih.gov/pubs/factsheets/mesh.html[EB].2008-09-06.

        [6]http:∥www.nlm.nih.gov/cgi/mesh/2008/MBcgi[EB].2008-09-07.

        [7]耿騫,耿崇.利用詞語共現(xiàn)進行Ontology的概念獲取[J].現(xiàn)代圖書情報技術,2006,(2):43-49.

        [8]Ying Ding IR and AI:Using Co-occurrence Theory to Generate Lightweight Ontologies 12th International Workshop on Database and Expert Systems Applications.0961.

        [9]TakeshiMorita,Yoshihiro Shigeta,et al.DODDLE-OWL:On-the-fly Ontology Construction with Ontology Quality Management[EB].http:∥iswc2004.semanticweb.org/posters/PID-JURPMVUS-1090083983.pdf,2008-09-07.

        [10]張學福.基于詞共現(xiàn)的可視化概念空間研究[J].情報學報,2008,(27):2,205-211.

        [11]王曰芬,宋爽,苗露.共現(xiàn)分析在知識服務中的應用研究[J].現(xiàn)代圖書情報技術,2006,(4).29-34.

        蜜桃成人永久免费av大| 尤物在线观看一区蜜桃| av无码国产在线看免费网站| 精品久久久久久777米琪桃花| 亚洲人成无码网www| 无码免费人妻超级碰碰碰碰| 四虎影视国产884a精品亚洲| 国产在线一区二区视频免费观看| 中文字幕亚洲精品高清| 美女视频在线观看亚洲色图| 国产乱码精品一区二区三区四川人| 国产亚洲精品久久久久久| 日韩国产成人精品视频| 一区=区三区国产视频| 国产午夜激无码av毛片不卡| 麻豆tv入口在线看| 欧美黑人又粗又大久久久| 国产精品原创av片国产日韩| 美腿丝袜一区二区三区| 久久精品蜜桃亚洲av高清| 欧美人伦禁忌dvd放荡欲情| 无码a∨高潮抽搐流白浆| 欧美在线资源| 狼人狠狠干首页综合网| 中文字幕亚洲精品一区二区三区| 亚洲日韩国产一区二区三区| 国产精品嫩草影院av| 日本精品a在线观看| 久久精品国产屋| 一区二区三区视频免费观看在线| 日韩精品综合一本久道在线视频| 国产精品三级在线观看无码| 中文字幕一区二区三区人妻精品 | 国产微拍精品一区二区| 久久频精品99香蕉国产| 中文字幕文字幕一区二区| 一个人看的视频在线观看| 麻豆精品传媒一二三区| 亚洲AV秘 无码一区二区三 | 亚洲一区二区三区免费av在线| 国产一区二区亚洲一区|