, ,
我國(guó)正致力于以全面維護(hù)和增進(jìn)人民健康,提高健康公平,實(shí)現(xiàn)社會(huì)經(jīng)濟(jì)與人民健康協(xié)調(diào)發(fā)展為目標(biāo),以公共政策為落腳點(diǎn),以重大專項(xiàng)、重大工程為切入點(diǎn)的國(guó)家戰(zhàn)略。例如,中國(guó)衛(wèi)生政策支持項(xiàng)目(HPSP項(xiàng)目)的目的是提高依靠證據(jù)建立并提高新政策的決策能力,通過合作機(jī)制,努力建立一個(gè)高效、公平和高質(zhì)量的衛(wèi)生政策支持系統(tǒng),使各級(jí)衛(wèi)生決策者能以合適方式及時(shí)地獲得,從而為決策和管理服務(wù)?!敖】抵袊?guó)2020”戰(zhàn)略也提出了推動(dòng)衛(wèi)生事業(yè)發(fā)展的8項(xiàng)政策措施,其中包括建立與經(jīng)濟(jì)社會(huì)發(fā)展水平相適應(yīng)的公共財(cái)政投入政策與機(jī)制。
國(guó)內(nèi)已有的醫(yī)療衛(wèi)生政策法規(guī)是衛(wèi)生政策決策者制定新政策的重要依據(jù)之一,但相關(guān)政策法律又相當(dāng)復(fù)雜,包括憲法、法律、行政法規(guī)、地方性法規(guī)、規(guī)章及規(guī)范性文件,其法律效力、層次、適用范圍都不同。因此,衛(wèi)生政策制定者在制定一項(xiàng)政策之前往往要查閱大量相關(guān)政策法規(guī)。
醫(yī)療衛(wèi)生知識(shí)管理的主要內(nèi)容是對(duì)現(xiàn)有證據(jù)進(jìn)行有效收集、分析、綜合和傳播,以保證相關(guān)衛(wèi)生政策制定是以知識(shí)或證據(jù)為基礎(chǔ)。有效的知識(shí)管理系統(tǒng)能及時(shí)全面地從各知識(shí)源獲取所需要的知識(shí)并分析整合,形成醫(yī)療衛(wèi)生政策相關(guān)的證據(jù),通過合適的方式發(fā)布,提高國(guó)家和省級(jí)政策制定者利用健康和醫(yī)療相關(guān)知識(shí)的能力,使決策者在選擇政策時(shí)獲得全面系統(tǒng)的知識(shí)以幫助和支持相應(yīng)的決策過程。
任何知識(shí)管理解決方案都應(yīng)包含一種知識(shí)組織模型的思路,其具體技術(shù)實(shí)現(xiàn)有本體(RDF/OWL)[1]、主題地圖(Topic Maps)[2]、Prolog[3]等多種方式。它們?cè)谥R(shí)表示能力、推理能力等方面各有優(yōu)劣(見表1),可根據(jù)具體應(yīng)用的需要進(jìn)行選擇。
表1 主流知識(shí)管理技術(shù)特點(diǎn)比較
在W3C聯(lián)盟提出的語義網(wǎng)結(jié)構(gòu)藍(lán)圖中,本體作為URL、XML之上知識(shí)表示層有著非常重要的地位。W3C聯(lián)盟在2001年提出RDF(資源描述框架)技術(shù)標(biāo)準(zhǔn)和2004年提出的OWL(Web本體語言)技術(shù)標(biāo)準(zhǔn)[4]都是本體描述語言的具體國(guó)際標(biāo)準(zhǔn)。隨著語義網(wǎng)的發(fā)展,本體被廣泛應(yīng)用于醫(yī)療衛(wèi)生、國(guó)防、制造業(yè)、生物學(xué)、歷史學(xué)、情報(bào)學(xué)等領(lǐng)域。例如,浙江大學(xué)計(jì)算機(jī)學(xué)院與中國(guó)中醫(yī)藥研究院(China Academy of Traditional Chinese Medicine ,CATCM)合作開發(fā)的Dartgrid[5],通過擁有70多個(gè)類及800多個(gè)屬性的中醫(yī)藥正式本體從語義上整合了70多個(gè)遺留中藥數(shù)據(jù)庫(kù)。其中,中醫(yī)藥本體是作為單獨(dú)的語義層存在的,其作用在于彌合遺留異構(gòu)關(guān)系數(shù)據(jù)庫(kù)之間的差異,從而從語義上將它們整合到一起,并且提供對(duì)中醫(yī)藥團(tuán)體的一體化語義提問、查詢和導(dǎo)航服務(wù)。國(guó)外最早研究醫(yī)療衛(wèi)生法律本體的是2000年Despres等提出的Medical Law Ontology[6],它利用已有的法律核心本體和來自醫(yī)學(xué)專業(yè)人士訪談為基礎(chǔ),并采取文本挖掘技術(shù)從法律文本中抽取領(lǐng)域詞表,最終設(shè)計(jì)了一套醫(yī)療衛(wèi)生法律本體,并提供統(tǒng)一的醫(yī)療衛(wèi)生法律檢索系統(tǒng)。Alessio等在2014年擴(kuò)展了Eunomos法律知識(shí)管理系統(tǒng)[7],并構(gòu)建了醫(yī)療法律本體映射,其目的是利用本體打通法律領(lǐng)域和醫(yī)療領(lǐng)域的知識(shí)鴻溝,主要用于診療臨床路徑推理和醫(yī)療法律服務(wù)輔助等方面[8]。
主題地圖是用來組織和表示專業(yè)領(lǐng)域知識(shí)的一種ISO標(biāo)準(zhǔn),是為了方便人們對(duì)于海量知識(shí)的管理及導(dǎo)航。一個(gè)主題地圖是一些人們感興趣的具體科目的主題,一些表示這些科目間關(guān)系的關(guān)聯(lián),以及一些作為這些科目相關(guān)信息資源。主題地圖因其在知識(shí)與資源關(guān)聯(lián)的描述上的優(yōu)勢(shì)而被廣泛應(yīng)用于檔案管理、數(shù)字圖書館、教育等領(lǐng)域。它的局限性在于知識(shí)描述能力沒有本體強(qiáng),且沒有推理機(jī)制。例如,挪威Cerpus AS公司BrainBank產(chǎn)品[9]是一款基于概念的學(xué)習(xí)的教育工具,利用主題地圖技術(shù)使知識(shí)得以文檔化,還可以將不同用戶的主題地圖融合用來表征一個(gè)組織的知識(shí)結(jié)構(gòu)。
Prolog是當(dāng)代最有影響的人工智能語言之一,由于該語言很適合表達(dá)人的思維和推理規(guī)則,在自然語言理解、機(jī)器定理證明、專家系統(tǒng)等方面得到了廣泛的應(yīng)用,已經(jīng)成為人工智能應(yīng)用領(lǐng)域的強(qiáng)有力的開發(fā)語言。Prolog是陳述性語言,一旦提交必要的事實(shí)和規(guī)則之后,Prolog就使用內(nèi)部的演繹推理機(jī)制自動(dòng)求解程序給定的目標(biāo),而不需要在程序中列出詳細(xì)的求解步驟。例如,Basic Medical Knowledge (BMK)[10]使用Prolog作為邏輯規(guī)則來建立不同條件下診療臨床路徑推薦目錄。
綜上所述,從研究?jī)?nèi)容來看,國(guó)內(nèi)外相關(guān)研究主要是通過提供統(tǒng)一的框架,使用本體減少知識(shí)整合過程中在概念上和術(shù)語上的混淆,從而使醫(yī)療衛(wèi)生法律知識(shí)整合更有效。本文選擇本體技術(shù)作為醫(yī)療衛(wèi)生政策法律知識(shí)管理系統(tǒng)的核心,主要是利用本體對(duì)知識(shí)的描述來檢索知識(shí)庫(kù),從而提高檢索的效率和精確度。從用戶角度來看,國(guó)內(nèi)外相關(guān)研究主要是針對(duì)使用者,如醫(yī)療工作者、醫(yī)院管理人員和醫(yī)患糾紛律師,幫助他們解決法律實(shí)施過程中的具體問題。本文則是針對(duì)醫(yī)療衛(wèi)生政策決策者,提供醫(yī)療衛(wèi)生政策法律的制定、修改和廢止的決策支持。
現(xiàn)行《國(guó)家行政機(jī)關(guān)公文處理辦法》規(guī)定國(guó)家行政公文有13種:命令(令)、決定、公告、通告、通知、通報(bào)、議案、報(bào)告、指示、批復(fù)、意見、函、會(huì)議紀(jì)要等。可以按照上行文、下行文和平行文將公文分為三類。其中議案兼有上行文和平行文的雙重特征,通知同時(shí)屬于平時(shí)文和下行文之列,會(huì)議紀(jì)要可以是下行文,也可以是平行文。
醫(yī)療衛(wèi)生政策法律種類繁多,主要包括醫(yī)政類政策法規(guī)、藥政類政策法規(guī)、婦幼類政策法規(guī)、防預(yù)類法規(guī)、衛(wèi)生監(jiān)督類法規(guī)、計(jì)劃生育類政策法規(guī)、醫(yī)院檢疫類政策法規(guī)、血液制品管理的規(guī)定等。但由于國(guó)家對(duì)紅頭文件的格式有一定的顯性的限制,并且長(zhǎng)期以來,紅頭文件的書寫也產(chǎn)生了一定的潛在的規(guī)律。這些限制和規(guī)律為信息管理工作和醫(yī)療衛(wèi)生領(lǐng)域本體構(gòu)建提供了一定的便利。從某種程度上講,電子檔案介于純文本和元數(shù)據(jù)結(jié)構(gòu)之間。電子政務(wù)檔案一般由文件頭、正文和文件尾組成,某些文件可能有附件。正文標(biāo)題由主送機(jī)關(guān)、原由和事項(xiàng)組成;原由有依據(jù)和目的兩種,事項(xiàng)的書寫方式一般有并列式和遞進(jìn)式兩種。其結(jié)構(gòu)如圖1所示。
圖1 醫(yī)療衛(wèi)生政策法律文件電子檔案結(jié)構(gòu)
醫(yī)療衛(wèi)生政策法律文件檔案的載體多種多樣,有些是Word文檔,有些是tiff格式的掃描文件,還有一些是檔案數(shù)據(jù)庫(kù),醫(yī)療衛(wèi)生政策法律文件以掃描圖片的方式進(jìn)行存放居多。對(duì)于這種不同載體的數(shù)據(jù)的加工,需要對(duì)Word、PDF、tiff等各種形式的數(shù)據(jù)進(jìn)行本文識(shí)別和抽取。本文采取基于XML的半自動(dòng)方式進(jìn)行本體知識(shí)提取。
對(duì)于新制定的政策,知識(shí)管理模型應(yīng)該能夠指引出它和已有的政策法規(guī)之間的關(guān)系。以醫(yī)療衛(wèi)生政策法律文件關(guān)系為例,從時(shí)間線來看存在著多種聯(lián)系。如一旦上級(jí)召開某些醫(yī)療衛(wèi)生政策會(huì)議,作為會(huì)議成果一般會(huì)產(chǎn)生一些新的思想和會(huì)議精神,一段時(shí)間后相關(guān)部門便會(huì)發(fā)布公文組織下屬各級(jí)政府進(jìn)行學(xué)習(xí)。
政府會(huì)承辦一些活動(dòng),會(huì)組織各方面的人力物力來完成這些任務(wù)。具體來說,主要包括等價(jià)關(guān)系:新政策與已有的某個(gè)政策法規(guī)完全相同,那么就沒有必要制定新的政策;矛盾關(guān)系:新政策與已有的某個(gè)政策法規(guī)完全相矛盾,那么需要考慮兩個(gè)政策法規(guī)的法律效力的大小,即保留法律效力較大的那一個(gè);包含關(guān)系:新政策的內(nèi)容包含了已有的某個(gè)政策法規(guī)的內(nèi)容,那么需要考慮新政策其他方面的內(nèi)容;被包含關(guān)系:已有的某個(gè)政策法規(guī)的內(nèi)容包含了新政策的內(nèi)容,那么就沒有必要制定新的政策;相關(guān)關(guān)系:新政策與已有的某個(gè)政策法規(guī)內(nèi)容相關(guān),那么可以做為相關(guān)參考。
由于本文主要研究目的是讓相關(guān)醫(yī)療衛(wèi)生政策決策方便地使用醫(yī)療衛(wèi)生政策法律文件,并將文件中所隱含的知識(shí)抽取出來建立本體知識(shí)庫(kù),使用戶容易獲取和利用。這些文件中的知識(shí)包羅萬象,包括醫(yī)學(xué)知識(shí)、診療規(guī)范和法律問題等,因此不太可能將其中所有的領(lǐng)域知識(shí)和常識(shí)知識(shí)全部抽取出來。
本文主要側(cè)重于構(gòu)建文件生命周期相關(guān)的知識(shí),例如文件發(fā)布、文件修改、文件關(guān)系以及同一個(gè)法律問題的不同文件,它們也是醫(yī)療衛(wèi)生政策決策者最關(guān)心的并在決策過程中希望搜索到的相關(guān)信息。搜索到之后,再根據(jù)文件內(nèi)容進(jìn)一步?jīng)Q策。
根據(jù)以上原則,本文選取OWL作為本體知識(shí)表示建模語言,用于構(gòu)建知識(shí)分類樹和知識(shí)關(guān)系。如表2所示,在領(lǐng)域?qū)<业膸椭略O(shè)計(jì)了5個(gè)主要的本體知識(shí)分類,并用OWL語言進(jìn)行了編碼。
表2 主要的本體知識(shí)分類
醫(yī)療衛(wèi)生政策法律文件并不是孤立存在的,它們之間存在著補(bǔ)充、修改、轉(zhuǎn)發(fā)、印發(fā)、貫徹、集合各種關(guān)系,如表3所示。
表3 主要的本體知識(shí)關(guān)系
由于國(guó)內(nèi)外環(huán)境的變化,我國(guó)各種醫(yī)療衛(wèi)生政策創(chuàng)建、修改甚至廢止非常常見,導(dǎo)致了醫(yī)療衛(wèi)生政策法律文件相應(yīng)的演變。不同版本的文件在不同時(shí)間節(jié)點(diǎn)上生效,涉及同一個(gè)醫(yī)療衛(wèi)生社會(huì)問題而來自不同的政府部門頒布的文件也可能同時(shí)生效。這些醫(yī)療衛(wèi)生政策決策者所無法回避的現(xiàn)實(shí)問題在本體知識(shí)庫(kù)中都有相關(guān)定義。
由于醫(yī)療衛(wèi)生政策法律文件特征非常明顯,本文采取基于自然語言處理的方法,包括3個(gè)步驟。
3.2.1 文本提取
醫(yī)療衛(wèi)生政策法律文件是tiff格式的掃描圖片,包含若干個(gè)頁面。本文利用微軟的Office Document Imaging (MODI)來進(jìn)行OCR文字識(shí)別,所有文件抽取的文本保存在txt文件中。如果醫(yī)療衛(wèi)生政策法律文件是doc或者純文本文件,那么不需要此步驟。
3.2.2 本體知識(shí)的正則表達(dá)式[7]抽取
由于文件都是按照特定格式嚴(yán)格撰寫的,領(lǐng)域?qū)<铱梢钥偨Y(jié)出基于正則表達(dá)式的本體知識(shí)抽取規(guī)則。例如,以下是兩個(gè)文件之間“印發(fā)”關(guān)系的正則表達(dá)式:“([[[]&&[u4e00-/9fa5]][|<|(][u4e00-u9fa5》]])印發(fā)”。
文件可以通過書名號(hào)“《》”識(shí)別,還包括兼容OCR錯(cuò)誤識(shí)別出來的“<>”和“<<>>”等標(biāo)點(diǎn)符號(hào)。這個(gè)步驟的產(chǎn)物是被識(shí)別出來的XML格式的本體知識(shí)以及本體知識(shí)關(guān)系本體編碼:被抽取的本體知識(shí)通過Dom4j和Jena[11]來編碼成OWL格式,最終被存儲(chǔ)到Allegrograph[3]服務(wù)器中。
后臺(tái)知識(shí)管理系統(tǒng)是通過Protégé[7]實(shí)現(xiàn)的,可以在知識(shí)庫(kù)中錄入數(shù)據(jù)或者修改數(shù)據(jù)。庫(kù)中主要建立了“政策法規(guī)”“法律條文”“頒發(fā)單位”“專題”“事件”“時(shí)間”“衛(wèi)生知識(shí)”“問題”“反映”等本體知識(shí)分類,圖2為后臺(tái)知識(shí)管理系統(tǒng)截圖。
4.1.1 政策法規(guī)類
主要是描述國(guó)內(nèi)衛(wèi)生方面的政策法規(guī)。“政策法規(guī)”類具有一系列的屬性來表示與該政策法規(guī)相關(guān)的一些知識(shí):“發(fā)行時(shí)間”“實(shí)施時(shí)間”“失效時(shí)間”“標(biāo)題”“所包含條文”“頒發(fā)組織”“文件編號(hào)”“前序法律”“后序法律”,其中“所包含條文”用來包含“法律條文”類的實(shí)例,“頒布組織”的取值范圍為“頒發(fā)組織”類的實(shí)例。
政策法規(guī)類下面又分有8種子類:“衛(wèi)生基本法”“ 公共衛(wèi)生服務(wù)法”“ 醫(yī)療保障法”“ 健康促進(jìn)法”“ 公共衛(wèi)生監(jiān)督法”“ 環(huán)境保護(hù)法”“ 公共衛(wèi)生危機(jī)管理法”、“ 國(guó)際公共衛(wèi)生法”,每個(gè)子類具有一系列的實(shí)例與其對(duì)應(yīng)。如圖2所示,“衛(wèi)生基本法”就對(duì)應(yīng)“中華人民共和國(guó)傳染病防治法”“中華人民共和國(guó)衛(wèi)生檢疫條例”等8個(gè)本體實(shí)例。
4.1.2 法律條文類
用來表示政策法規(guī)中的每個(gè)條文,該類具有“所屬法律”“全文”“編號(hào)”“細(xì)化法律”“相關(guān)知識(shí)”“關(guān)系”等屬性。
“所屬法律”表示該條文屬于哪一個(gè)法律,“編號(hào)”表示該條文在其所屬法律中是第幾條,“細(xì)化法律”則是用來表示哪部法律有對(duì)該條文的進(jìn)一步解釋;“相關(guān)知識(shí)”用來表示跟該條文相關(guān)的一些知識(shí),它的取值范圍是“衛(wèi)生知識(shí)”類的實(shí)例;“全文”則是表示該條文的全文;“關(guān)系”屬性用來表示條文之間的關(guān)系,其下還有“細(xì)化”“包含”“沖突”“等價(jià)”4個(gè)屬性,“細(xì)化”屬性表示一系列屬性是一個(gè)屬性的細(xì)化說明,“包含”屬性表示一個(gè)條文包含另一個(gè)條文,“沖突”屬性表示一個(gè)條文與另一個(gè)條文相沖突,“等價(jià)”屬性表示兩個(gè)條文之間的等價(jià)關(guān)系。
4.1.3 專題類
用來表述一些人們特別關(guān)系的法律專題知識(shí),該類具有“所包含的條文”“發(fā)布時(shí)間”“相關(guān)知識(shí)”。下面分有一系列子類:“藥政”“醫(yī)政”“防疫”“衛(wèi)生監(jiān)督”“中醫(yī)藥”“婦幼”“醫(yī)藥管理局”“愛國(guó)衛(wèi)生”“衛(wèi)生檢疫”“計(jì)劃生育”“地方法規(guī)”“其它”,每個(gè)子類又有一系列實(shí)例。如 “衛(wèi)生防疫”具有“狂犬病”“血吸蟲”“非典”等實(shí)例?!翱袢 睂n}的“所包含的條文”屬性值為一系列“法律條文”實(shí)例。
4.1.4 衛(wèi)生知識(shí)類
用來描述與健康相關(guān)的知識(shí)或支持衛(wèi)生系統(tǒng)的信息、技術(shù)、專業(yè)知識(shí)和經(jīng)驗(yàn)等,具有“相關(guān)條文”“相關(guān)專題”“全文”等屬性。
“相關(guān)條文”或“相關(guān)專題”用來表示與該知識(shí)相關(guān)的條文或?qū)n},“全文”則表述該衛(wèi)生知識(shí)的全文?!靶l(wèi)生知識(shí)”類有三個(gè)子類:“疾病信息”“ 健康危險(xiǎn)因素信息”“ 基本衛(wèi)生信息”,均含有一系列的實(shí)例。例如,“傳染病”類對(duì)應(yīng)于“SARS”“新生兒破傷風(fēng)”“流行性疾病”“猩紅熱”“ 血吸蟲病”“瘧疾”等實(shí)例。
圖2 后臺(tái)知識(shí)管理系統(tǒng)截圖
系統(tǒng)前臺(tái)提供基于關(guān)鍵詞的法律法規(guī)全文檢索功能。如圖3所示,用戶以“傳染病”為檢索關(guān)鍵詞,將法律法規(guī)頒布時(shí)間限定在1976年1月至2007年1月之間。頒布部門限定在國(guó)務(wù)院,法律法規(guī)類型選項(xiàng)將檢索結(jié)果限定在法律范圍之內(nèi)。滿足以上條件的法律很多,返回結(jié)果有《中華人民共和國(guó)食品衛(wèi)生法》等,證明用戶對(duì)該法最為感興趣。用戶選擇該法律之后,有關(guān)該法律的簡(jiǎn)要信息,包含用戶關(guān)鍵字的條款等被返回給用戶。
圖3 法規(guī)檢索系統(tǒng)功能
專題演變提供用戶所選法律專題的不同時(shí)間段、不同行政級(jí)別所頒布的法律條文變化情況。如圖4所示,在左欄的“專題演變”分類列表中用戶選定“非典”專題,而在右上的“條件設(shè)置”欄目中,用戶設(shè)定開始時(shí)間段和結(jié)束時(shí)間段以及頒布法律的行政級(jí)別及機(jī)構(gòu),比如選“部級(jí)”和“衛(wèi)生部”,點(diǎn)擊“提交”,在下面的欄目中將呈現(xiàn)圖中的變化圖片,圖片中粉藍(lán)色部分是2003年5月衛(wèi)生部所頒布的法律條文,而粉紅色部分是2003年6月頒布的法律條文,這兩部分的重疊部分是5、6月頒布的法律中語義相同的法律條文。將鼠標(biāo)移至某一條文,將在圖中顯示該條文所屬法律文本的名稱和頒布時(shí)間。
圖4 專題演變系統(tǒng)功能
本文提出了基于本體的知識(shí)組織模型具體實(shí)現(xiàn)機(jī)制,并以國(guó)內(nèi)衛(wèi)生政策法規(guī)為突破口,建立國(guó)內(nèi)衛(wèi)生政策方面知識(shí)庫(kù),使得決策者在制定政策時(shí)便捷地充分地獲取相關(guān)政策法律知識(shí)以幫助和支持相應(yīng)的政策制定過程,能夠較好地解決衛(wèi)生政策制定的知識(shí)組織、知識(shí)檢索和知識(shí)服務(wù)等問題,達(dá)到提供給衛(wèi)生政策制定領(lǐng)導(dǎo)并作為輔助決策的依據(jù)的目標(biāo)。
在實(shí)踐過程中,該系統(tǒng)在數(shù)據(jù)更新和發(fā)布方面有一定滯后性,主要原因在于知識(shí)管理后臺(tái)系統(tǒng)在體系結(jié)構(gòu)上屬于單機(jī)系統(tǒng),暫無法滿足多用戶快速更新維護(hù)數(shù)據(jù)的要求。未來將進(jìn)一步研發(fā)和完善基于Web架構(gòu)、網(wǎng)絡(luò)版本的知識(shí)管理后臺(tái)系統(tǒng)。