王世鈺 崔超寧 由麗萍
山西大學(xué)經(jīng)濟(jì)與管理學(xué)院 太原 030006
隨著信息技術(shù)在醫(yī)療衛(wèi)生領(lǐng)域的廣泛應(yīng)用,眾多醫(yī)療網(wǎng)站及APP開(kāi)始涌現(xiàn),且積累了大量疼痛相關(guān)的問(wèn)診記錄信息。由于該類(lèi)信息對(duì)于患者疼痛感知的表達(dá)更為準(zhǔn)確與全面,因此獲取及分析此類(lèi)信息可以為高效判斷患者的病情及提高醫(yī)療服務(wù)質(zhì)量提供決策支持。
知識(shí)圖譜(Knowledge Graph)是一種基于關(guān)系與結(jié)構(gòu)化的知識(shí)表達(dá)方式。既可以與不同的實(shí)體相連接,實(shí)現(xiàn)“實(shí)體-關(guān)系-實(shí)體”的三元組,以表示實(shí)體之間的關(guān)系,也可以連接實(shí)體與其相關(guān)屬性-值對(duì),從而構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu);并根據(jù)用戶的需求,運(yùn)用可視化技術(shù)以圖片形式向用戶反饋結(jié)構(gòu)化的知識(shí),更為直觀的展示出其各種關(guān)系,使用戶不必自行從大量信息中進(jìn)行梳理及篩選,就能獲取準(zhǔn)確的信息。本體(ontology)[1]提供了特定領(lǐng)域中概念或?qū)ο箢?lèi)型及其屬性和相互關(guān)系的表示,可實(shí)現(xiàn)語(yǔ)義網(wǎng)中的信息及關(guān)系的結(jié)構(gòu)化描述,是知識(shí)圖譜的一種信息描述形式,并且有助于計(jì)算機(jī)處理效率的提升。因此,知識(shí)圖譜可以將信息存儲(chǔ)與語(yǔ)義相融合,有效的組織疼痛感知信息,從而完善語(yǔ)義推理機(jī)制對(duì)于醫(yī)療領(lǐng)域知識(shí)的應(yīng)用。
國(guó)外對(duì)于知識(shí)圖譜在醫(yī)療領(lǐng)域的應(yīng)用與研究均早于國(guó)內(nèi)。當(dāng)前具有最大影響力的醫(yī)療知識(shí)庫(kù)UMLS[2]即通過(guò)知識(shí)圖譜的方式對(duì)醫(yī)學(xué)各概念之間的關(guān)系進(jìn)行描述,其中包含了100多萬(wàn)個(gè)醫(yī)學(xué)概念,133類(lèi)醫(yī)學(xué)領(lǐng)域語(yǔ)義類(lèi)型、54種語(yǔ)義關(guān)系。在UMLS的基礎(chǔ)上,中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所開(kāi)發(fā)研制了中文一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)CUMLS[3]。國(guó)外的研究工作主要集中在對(duì)于醫(yī)療領(lǐng)域?qū)嶓w知識(shí)及關(guān)系知識(shí)的抽取[4-6],而國(guó)內(nèi)相關(guān)研究則以特定范圍或特定載體信息為主[7-12]。目前,總體上我國(guó)缺乏對(duì)某一具體領(lǐng)域語(yǔ)義層面的深入研究,就醫(yī)療領(lǐng)域知識(shí)圖譜的相關(guān)研究仍處于起步階段。
在疼痛感知信息分析領(lǐng)域中,由Melzack[13]提 出 的McGill疼 痛 問(wèn) 卷(McGill Pain Questionnaire,MPQ)是目前常用的臨床及研究工具。但由于制定年代久遠(yuǎn)而有一定的局限性,Dworkin等[14]基于簡(jiǎn)版MPQ(Short-form MPQ,SF-MPQ)制定了SF-MPQ-2。隨后中國(guó)各地10家三甲醫(yī)院的疼痛科在中華醫(yī)學(xué)會(huì)疼痛學(xué)分會(huì)倡導(dǎo)下相互合作,制定與驗(yàn)證了中文版SF-MPQ-2[15]。SF-MPQ和SF-MPQ-2為疼痛感知信息分析提供了專(zhuān)業(yè)的概念框架和參考標(biāo)準(zhǔn),但其中的信息太過(guò)概括。由于疼痛感知作為一種在患者體驗(yàn)的基礎(chǔ)上所得到的柔性信息,具有較強(qiáng)的主觀性,因此,用這種量表描述患者的疼痛信息在描述深度上是遠(yuǎn)遠(yuǎn)不夠的。隨著在線醫(yī)療應(yīng)用的蓬勃發(fā)展,網(wǎng)絡(luò)上積累了大量醫(yī)患之間的對(duì)話信息,其具有真實(shí)性、全面性和語(yǔ)義豐富性,可以作為疼痛感知信息描述的重要知識(shí)源,但這一點(diǎn)在學(xué)術(shù)界還沒(méi)有引起足夠的重視。同時(shí),隨著自然語(yǔ)言處理和語(yǔ)義網(wǎng)相關(guān)技術(shù)日趨成熟,目前基于問(wèn)診記錄的知識(shí)獲取和信息查詢具有高度的可行性。
因此,本文結(jié)合在線醫(yī)療問(wèn)診記錄相關(guān)驗(yàn)證數(shù)據(jù)與醫(yī)療領(lǐng)域疼痛感知專(zhuān)業(yè)知識(shí),結(jié)構(gòu)分析患者疼痛信息;基于自然語(yǔ)言處理和語(yǔ)義網(wǎng)相關(guān)技術(shù)分析在線醫(yī)療問(wèn)診記錄,實(shí)現(xiàn)疼痛感知的知識(shí)獲?。贿\(yùn)用知識(shí)圖譜工具描述和組織疼痛感知信息,實(shí)現(xiàn)相關(guān)知識(shí)的表示與存儲(chǔ);最后,在應(yīng)用方面通過(guò)語(yǔ)義推理查詢疼痛感知知識(shí)圖譜。
1.1.1 疼痛感知定義及類(lèi)型
不同種類(lèi)的疼痛是人主觀感覺(jué)的集成,對(duì)疼痛感知信息的全面描述,不僅要科學(xué)分類(lèi)疼痛感知的性質(zhì),還要描述疼痛感知的部位、程度等特征。本文從文獻(xiàn)[15]中獲取了中文版SFMPQ-2的疼痛感知的相關(guān)分類(lèi),結(jié)果如圖1所示。
圖1 疼痛感知分類(lèi)
1.1.2 疼痛感知屬性
本文以醫(yī)療領(lǐng)域公認(rèn)綜合疼痛評(píng)估的關(guān)鍵組成部分的標(biāo)準(zhǔn)[16]為主,同時(shí)咨詢相關(guān)領(lǐng)域醫(yī)學(xué)專(zhuān)家,共同作為疼痛感知相關(guān)屬性定義的主要參考。由于疼痛感知信息主要以語(yǔ)言作為交際媒介在醫(yī)患之間進(jìn)行相互傳遞,因此,語(yǔ)言中蘊(yùn)含了相應(yīng)的屬性信息。所以,參考語(yǔ)言學(xué)領(lǐng)域關(guān)于感知場(chǎng)景的相關(guān)論述[17],將身體感知的語(yǔ)義角色類(lèi)型——身體部位、程度、原因、時(shí)間等也納入描述范圍。疼痛感知屬性定義,如表1所示。
表1 疼痛感知屬性定義表
1.1.3 疼痛感知因果關(guān)系
造成疼痛程度變化的因素分為緩解因素和加重因素,其對(duì)于醫(yī)生評(píng)估病情十分重要。同時(shí),疼痛的產(chǎn)生必然伴隨著對(duì)自身生活及情緒上的影響。因此,疼痛感知變化原因及其影響對(duì)于疼痛感知信息分析是必不可少的部分,其定義如表2所示。
表2 疼痛感知因果關(guān)系定義表
1.1.4 檢查和診斷信息
問(wèn)診過(guò)程中的疼痛感知信息,即可以體現(xiàn)出描述疼痛感知狀態(tài)的細(xì)化信息,還可以體現(xiàn)出患者的病史信息、醫(yī)生的檢查建議及診斷結(jié)果,其定義如表3所示。
表3 檢查和診斷信息定義表
1.2.1 疼痛感知概念模型設(shè)計(jì)
在概念模型設(shè)計(jì)上,首先確定本體頂層大類(lèi),即具有共同屬性和行為的對(duì)象集合,包括患者、疼痛部位、疼痛類(lèi)型、疼痛程度和病史,且將其設(shè)定為同級(jí)關(guān)系(Sibling Class);在此基礎(chǔ)上,采用自頂向下的方法,參考醫(yī)患問(wèn)診對(duì)話記錄,對(duì)上層概念逐步細(xì)化,為頂層類(lèi)添加子類(lèi)(Subclass),從而建立類(lèi)與類(lèi)之間及類(lèi)與自身屬性之間的關(guān)系,即定義對(duì)象屬性和數(shù)據(jù)屬性,數(shù)據(jù)屬性包括:患者年齡、性別、疼痛影響因素等。結(jié)果如圖2所示。
圖2 本體類(lèi)與屬性結(jié)構(gòu)圖
1.2.2 疼痛感知知識(shí)獲取
(1)語(yǔ)義分類(lèi)詞表構(gòu)建
由于患者缺乏醫(yī)學(xué)專(zhuān)業(yè)知識(shí),所以,多采用自然語(yǔ)言表達(dá)方式描述病情,而非醫(yī)療專(zhuān)業(yè)術(shù)語(yǔ)。因此,需構(gòu)建能夠與醫(yī)療領(lǐng)域疼痛感知類(lèi)型進(jìn)行匹配的專(zhuān)業(yè)詞表。本文以在線問(wèn)診量比較大且疼痛現(xiàn)象比較多的頸椎病為例,從好大夫在線(https://www.haodf.com)爬取醫(yī)患對(duì)話記錄2500條,采用哈工大語(yǔ)言技術(shù)平臺(tái)(LTP)進(jìn)行文本預(yù)處理,再以形容詞和動(dòng)詞為主進(jìn)行人工篩查,初步實(shí)現(xiàn)疼痛類(lèi)型詞語(yǔ)的提取;繼而利用語(yǔ)言學(xué)詞典《新編同義詞詞林》和《現(xiàn)代漢語(yǔ)分類(lèi)詞典》等補(bǔ)充相關(guān)同義詞以便豐富詞表。共收集了89個(gè)詞語(yǔ),按疼痛類(lèi)型進(jìn)行語(yǔ)義分類(lèi),結(jié)果如表4所示。
表4 疼痛感知詞表
(2)疼痛等級(jí)詞表構(gòu)建
目前,對(duì)疼痛程度的描述醫(yī)療領(lǐng)域普遍采用的是十級(jí)量表,即0代表沒(méi)有疼痛,10代表疼痛最嚴(yán)重,1到10代表疼痛程度依次加重。但在問(wèn)診記錄中患者描述癥狀時(shí)通常使用的是程度副詞,如“一點(diǎn)點(diǎn)”“有點(diǎn)”“不嚴(yán)重”“很”“厲害”等。由于語(yǔ)言中的程度詞與十級(jí)量表并不能夠相互對(duì)應(yīng),為分析文本中的疼痛程度等級(jí)信息,則需通過(guò)語(yǔ)義分析識(shí)別程度詞,并根據(jù)十級(jí)量表對(duì)其進(jìn)行合理賦值。因此,本文將十級(jí)量表調(diào)整為三個(gè)區(qū)間以對(duì)應(yīng)程度詞,如表5所示。
表5 疼痛程度詞與十級(jí)量表對(duì)應(yīng)表
(3)本體實(shí)例添加
由于類(lèi)和屬性與語(yǔ)言表達(dá)中的語(yǔ)義角色相對(duì)應(yīng),因此,需對(duì)文本進(jìn)行語(yǔ)義角色標(biāo)注。本文利用課題組自主研發(fā)的語(yǔ)義標(biāo)注軟件,即“基于框架本體的中文情感語(yǔ)義標(biāo)注與查詢系統(tǒng)”(軟件著作權(quán)登記號(hào):2018SR823004),標(biāo)注出文本中的疼痛部位、程度、因果關(guān)系、時(shí)間等角色。以此為基礎(chǔ),將所標(biāo)注出的疼痛感知知識(shí)作為實(shí)例,添加至疼痛感知本體中。其中,主要類(lèi)包括疼痛部位、疼痛類(lèi)型、病史等,主要屬性包括年齡、性別、疼痛時(shí)長(zhǎng)等,共97個(gè)實(shí)例,其實(shí)例添加結(jié)果如表6、表7所示。
表6 主要類(lèi)的實(shí)例添加結(jié)果表
表7 主要屬性的實(shí)例添加結(jié)果表
1.2.3 疼痛感知知識(shí)存儲(chǔ)
疼痛感知知識(shí)圖譜存儲(chǔ)格式為RDF格式。RDF標(biāo)準(zhǔn)語(yǔ)法基于可擴(kuò)展標(biāo)記語(yǔ)言(Extensible Markup Language,XML)進(jìn)行設(shè)計(jì),利用XML文件的開(kāi)頭命名空間對(duì)不同領(lǐng)域資源進(jìn)行劃分,同一領(lǐng)域?qū)嶓w和關(guān)系URI前綴相同,將前綴定義為 URIref,即標(biāo)簽術(shù)語(yǔ)。利用標(biāo)簽術(shù)語(yǔ)與URI中的關(guān)鍵詞對(duì)資源進(jìn)行描述,語(yǔ)句簡(jiǎn)單清晰,有助于提高計(jì)算機(jī)的理解效率。例如以下問(wèn)診記錄:
用RDF/XML語(yǔ)言對(duì)上述例子中疼痛感知本體進(jìn)行描述,如圖3所示:
圖3 RDF/XML語(yǔ)言描述疼痛感知本體
其中,用“contact”和標(biāo)簽術(shù)語(yǔ)(pain_location等)描述數(shù)據(jù)的具體內(nèi)容。例如:“contact”和“疼痛感知文本1”以關(guān)鍵詞“about”確認(rèn)其URI,contactant:pain_location 表示在該URL下的疼痛部位是“手指”。由于在一個(gè)RDF文件中可能存在多個(gè)“手指”,利用 URI即可表示特定的“手指”。
將問(wèn)診記錄中的實(shí)例相對(duì)應(yīng)于其不同的類(lèi)和屬性,實(shí)現(xiàn)疼痛感知的知識(shí)存儲(chǔ)。上述例子中知識(shí)存儲(chǔ)如表8所示。
表8 問(wèn)診記錄實(shí)例對(duì)應(yīng)的類(lèi)與屬性表
1.2.4 疼痛感知知識(shí)圖譜可視化
利用Protégé5.2.0進(jìn)行可視化,其插件OntoGraf支持中文本體多種形式的展示,利于理解整體結(jié)構(gòu)及類(lèi)之間、實(shí)例之間的語(yǔ)義關(guān)聯(lián),將知識(shí)直觀地展示給用戶,滿足讀取和查詢的需求。本文構(gòu)建的疼痛感知領(lǐng)域知識(shí)圖譜包括5個(gè)類(lèi),10個(gè)屬性,13種實(shí)體間關(guān)系以及182個(gè)實(shí)例,部分展示如圖4。
圖4 疼痛感知本體中部分類(lèi)與屬性關(guān)系圖
本文應(yīng)用可視化工具Fuseki以及查詢語(yǔ)言
SPARQL(Simple Protocol and RDF Query Language),對(duì)疼痛感知知識(shí)圖譜進(jìn)行推理式查詢。SPARQL結(jié)合了rdfDB、RDQL和SeRQL等RDF查詢語(yǔ)言的優(yōu)勢(shì),可以在語(yǔ)義層面進(jìn)行檢索,進(jìn)而滿足用戶多種查詢需求,與傳統(tǒng)的SQL語(yǔ)句相比,提高了數(shù)據(jù)查詢的有效性和全面性。
SPARQL查詢是以一個(gè)三元組為單位進(jìn)行檢索,即將任意一個(gè)元素設(shè)置為缺失值,通過(guò)限定另外兩個(gè)元素來(lái)完成查詢。在RDF數(shù)據(jù)庫(kù)中,數(shù)據(jù)存儲(chǔ)格式為“主語(yǔ)-謂語(yǔ)-對(duì)象”,即主謂賓結(jié)構(gòu),通過(guò)限制主語(yǔ)和謂語(yǔ)得出賓語(yǔ)、限制謂語(yǔ)和賓語(yǔ)得出主語(yǔ)、限制主語(yǔ)和賓語(yǔ)得出謂語(yǔ)。以疼痛類(lèi)型、疼痛部位、檢查方式為例,可以同時(shí)限制“疼痛部位”“疼痛類(lèi)型”得出相應(yīng)的疼痛感知文本,再通過(guò)得到的疼痛感知文本得出最后需要的“檢查方式”。
根據(jù)癥狀描述查詢相應(yīng)的問(wèn)診實(shí)例是最為常見(jiàn)的信息需求,因此,以“手麻”為例進(jìn)行查詢,結(jié)果如圖5所示。
圖5 疼痛感知知識(shí)圖譜查詢結(jié)果
以“麻”為關(guān)鍵詞進(jìn)行精確檢索,結(jié)果可呈現(xiàn)出涉及該疼痛類(lèi)型的所有患者信息,結(jié)果如圖6所示。
圖6 精確檢索可視化結(jié)果
知識(shí)圖譜按照三元組的方式對(duì)信息進(jìn)行存儲(chǔ),為各實(shí)例之間加入多種語(yǔ)義關(guān)系,提供了不同的關(guān)系鏈種類(lèi),利于搜索結(jié)果的發(fā)散性。傳統(tǒng)的關(guān)鍵詞檢索結(jié)果多而雜,用戶需對(duì)檢索結(jié)果自行甄別和篩選,從而可能導(dǎo)致遺漏信息。然而,知識(shí)圖譜提升了信息的密度及關(guān)聯(lián)度,可降低檢索結(jié)果的單一性,并向用戶反饋結(jié)構(gòu)化的知識(shí),使用戶可以準(zhǔn)確定位和深度獲取知識(shí),進(jìn)一步提高檢索效率,但由于醫(yī)學(xué)領(lǐng)域的專(zhuān)業(yè)性,在其應(yīng)用方面仍需基于專(zhuān)業(yè)人員的判斷進(jìn)一步加以考量。
本文通過(guò)對(duì)醫(yī)療領(lǐng)域疼痛感知信息分析從而構(gòu)建知識(shí)圖譜,并進(jìn)行查詢應(yīng)用,具體研究貢獻(xiàn)包括:(1)結(jié)構(gòu)分析患者疼痛感知信息,并基于自然語(yǔ)言處理技術(shù)構(gòu)建了醫(yī)療領(lǐng)域疼痛感知詞表。(2)利用知識(shí)圖譜工具及相關(guān)技術(shù)構(gòu)建了疼痛感知知識(shí)圖譜。(3)將疼痛感知知識(shí)圖譜應(yīng)用于語(yǔ)義查詢,實(shí)驗(yàn)結(jié)果表明基于知識(shí)圖譜的檢索具有較高的效率和準(zhǔn)確性,具有一定的應(yīng)用價(jià)值。
本文研究結(jié)果提供了計(jì)算機(jī)可讀、可理解的疼痛感知知識(shí)資源,從技術(shù)層面構(gòu)建了疼痛感知專(zhuān)業(yè)領(lǐng)域知識(shí)圖譜,并于一定程度上實(shí)現(xiàn)了推理式語(yǔ)義查詢,為醫(yī)療健康領(lǐng)域知識(shí)圖譜的應(yīng)用提供借鑒,但仍存在一定的局限性,即在該知識(shí)圖譜的專(zhuān)業(yè)應(yīng)用方面仍需基于醫(yī)學(xué)專(zhuān)業(yè)人員的判斷進(jìn)一步加以考量。