卜景旭
自從Google公司于2012 年5月發(fā)布知識圖譜(Knowledge Graph)技術以來,人們從谷歌精準快速的搜索技術中看到了知識圖譜所蘊含的巨大科學的力量,因此在各個領域都引發(fā)了一股研究知識圖譜的熱潮。國內外的各大公司紛紛推出自己相應的產品,例如:微軟的Sator,百度的“知心”、搜狗的“知立方”等產品。
一、將知識圖譜引入中醫(yī)的教學工作
作為一名在中醫(yī)藥教育領域的從業(yè)者,筆者認為,中醫(yī)發(fā)展到現在,已經積累了大量珍貴的臨床經驗,形成了無數經典理論。如何借助先進信息科學與技術來對中醫(yī)藥理論和知識體系進行整理和分析,從而有助于教學工作是值得中醫(yī)教育工作者探索的一個重要問題。隨著知識圖譜的出現,這個工作的可能性和是實用性越來越重要。
知識圖譜是結構化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關系。其基本組成單位是“實體-關系-實體”三元組,以及實體及其相關屬性-值對,實體間通過關系相互聯結,構成網狀的知識結構。它本質上是語義網絡。
針對知識圖譜這一特點,引用知識圖譜解決中醫(yī)學在知識表達、共享和應用方面的問題也受到中醫(yī)界的重視。在中醫(yī)學中的本體可以易經和陰陽五行學說為指導,從認識、生理、病理、辨證論治基本部分開始構建。
整個中醫(yī)的概念體系中,類關系、整體與部分的關系是概念體系的主要關系,所以中醫(yī)知識圖譜的結構分為了兩大類關系,一類是概念層級關系、一類是實體關系。
二、知識圖譜的邏輯架構
知識圖譜的邏輯架構,分為兩個層次:數據層和模式層。知識圖譜的數據層是指:知識以事實(Fact)為單位存儲在圖數據庫.例如谷歌的Graphd和微軟的Trinity都是典型的圖數據庫。存儲在圖數據庫中的所有數據將構成龐大的實體關系網絡,形成知識的“圖譜”。
知識圖譜的模式層在數據層之上,是知識圖譜的核心。在模式層存儲的是經過提煉的知識,通常采用本體庫來管理知識圖譜的模式層,借助本體庫對公理、規(guī)則、約束條件來規(guī)范實體、關系以及實體的類型和屬性等對象之間的聯系。
三、知識圖譜的邏輯構建方法
知識圖譜的構建主要有自頂向下和自底向上兩種方法。所謂自頂向下的方法是指首先為知識圖譜定義數據模式(即為其定義本體),在定義本體的過程中,首先從最頂層的概念開始,然后逐步進行細化,形成結構良好的分類學層次結構;在定義好數據模式后,再把實體一個個往概念中添加。自底向上的方法則剛好相反,首先從實體開始,對實體進行歸納組織,形成底層的概念,然后逐步往上抽象,形成上層的概念。兩種方法在具體的構建過程中通常都不是從零開始的,前者可以利用一些現有的結構化的知識庫,而后者則可以從開放鏈接數據或在線百科中得到很多實體。在實際的構建過程中,通常采用兩種方式結合的方法。
本文接下來把知識圖譜的構建分成兩步,數據模式層的構建(本體定義)和實體層的構建。
(一)數據模式層的構建的過程
本體的構建步驟通常都是依據圖中的層次結構來進行的,自底向上依次實體抽取、概念抽取和關系抽取
實體抽取,也稱為命名實體識別是指從文本數據集中自動識別出命名實體。這是本體構建的基礎工作,語抽取通常釆用基于語言學規(guī)則的方法和使用統計的方法,實體通常是單字或多字的組合,它們在特定的領域或上下文環(huán)境中有特定的含義。
概念抽取,作為概念,通常需要具備如下三個層面的信息,內涵、外延和詞匯實現。概念抽取的常用方法包括基于語言學的方法、基于統計的方法和混合方法?;谡Z言學的方法通常依據特定的詞法結構或模板,因此基本是與語言相關的?;诮y計的方法主要依據概念與一般的詞匯之間不同的統計特征,區(qū)分概念和普通術語。
關系抽取,其中包括同義關系抽取和分類關系抽取。同義關系抽取的目標是尋找那些代表同一概念、實體或屬性的術語。分類關系抽取指分析概念之間的層次關系。通常采用的方法有:基于詞法模式的方法,基于共現分析的方法,基于語言學的方法,以及近年來興起的基于開放鏈接數據和在線百科的方法。
(二)實體層的構建過程
實體填充,對于一個實體,如果僅擁有實體名稱,該實體的意義則非常有限;通常需要通過一定的方式來描述實體,使得實體可以被人和機器理解。描述實體的數據包括實體的描述,圖片,同義名稱,以及屬性等。同義名稱學習的相關研究通常被稱為同義關系學習,而實體屬性學習的相關研究通常被稱為實體屬性關系學習。
構建實體鏈,實體鏈接(entity linking)是指對于從文本中抽取得到的實體對象,將其鏈接到知識庫中對應的正確實體對象的操作。實體鏈接的基本思想是根據給定的實體,從知識庫中選出一組候選實體對象,然后通過相似度計算將其鏈接到正確的實體對象。
四、應用和展望
知識圖譜是一個新概念,從2012年提出到現在不過5年時間,然而通過對知識圖譜構建技術體系進行深入觀察和分析,可以看出它事實上是建立在多個學科領域研究成果基礎之上的一門實用技術。尤其結合中醫(yī)學之后,有著實際的應用場景:
中醫(yī)知識檢索,作為中醫(yī)知識圖譜的基本檢索服務,關于中醫(yī)單個術語、多個術語、術語間關系、術語間指定關系的路徑查詢等基本的知識檢索服務。
輔助診斷教學,根據癥狀信息,基于知識圖譜,結合多種中醫(yī)辨證方法,進行辨證論治策略的推薦和分析,可以實現學習實踐模擬。
同時我們也要看到構建知識圖譜目前也面臨一些挑戰(zhàn)。如面向開放域的信息抽取方法研究還處于起步階段,技術不太成熟。 存在多種數據源,每個數據源的數據格式多種多樣,知識的融合比較困難。
盡管面臨這些困難,知識圖譜在中醫(yī)教學方面的發(fā)展和應用的前景還是很廣闊的。
參考文獻:
[1]韓軼,李鵬.試論中醫(yī)教學方法與內容的與時俱進[J].新疆中醫(yī)藥,2013,31(04):78-80.
[2]孫保木,羅明.多媒體技術在中醫(yī)教學中的應用[J].解放軍醫(yī)院管理雜志,2013,20(06):578-580.
[3]姜德友,魯美君.案例式教學在中醫(yī)教學中的應用研究[J].中華中醫(yī)藥學刊,2010,28(08):1582-1583.