劉玉文, 王 凱, 徐濟(jì)成
(1.蚌埠醫(yī)學(xué)院 衛(wèi)生管理系, 安徽 蚌埠 233030;2.中國科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 安徽 合肥 230027; 3.安徽農(nóng)業(yè)大學(xué) 信息與計(jì)算機(jī)學(xué)院, 安徽 合肥 230027)
基于概念格的本體醫(yī)療資源語義推薦方法
劉玉文1,2, 王 凱1, 徐濟(jì)成3
(1.蚌埠醫(yī)學(xué)院 衛(wèi)生管理系, 安徽 蚌埠 233030;2.中國科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 安徽 合肥 230027; 3.安徽農(nóng)業(yè)大學(xué) 信息與計(jì)算機(jī)學(xué)院, 安徽 合肥 230027)
圍繞本體概念相似度計(jì)算的局限性展開研究,將用戶及醫(yī)療資源融入本體構(gòu)建模型,利用概念格的層次分類模型,通過篩選用戶偏好,分別構(gòu)建用戶本體與醫(yī)療資源本體,改進(jìn)相似度匹配算法獲取用戶的個(gè)性需求,得到具有較高推薦精度的用戶模型.實(shí)驗(yàn)結(jié)果表明,該模型能有效降低用戶選擇醫(yī)療資源的困難度,提高需求滿意度和推薦質(zhì)量.
本體; 概念格; 個(gè)性推薦; 語義建模; 相似匹配
伴隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)資源呈爆炸式增長(zhǎng).互聯(lián)網(wǎng)醫(yī)療資源因其具有稀缺性,傳統(tǒng)基于關(guān)鍵詞的醫(yī)療信息查詢方法難以獲取高質(zhì)量的資源信息,用戶面臨資源的最優(yōu)化選擇問題日益突出.個(gè)性化推薦技術(shù)是解決信息過載的有效途徑,常用的推薦方法包括基于協(xié)同過濾的推薦方法、基于內(nèi)容的推薦方法以及混合推薦方法[1].
基于協(xié)同過濾的推薦方法[2]是利用用戶群內(nèi)個(gè)體或項(xiàng)目之間的交互行為,以相同喜好為前提,將“物以類聚”思想融入推薦模型,通過計(jì)算用戶或項(xiàng)目的最小近鄰獲取目標(biāo)推薦.該方法的優(yōu)點(diǎn)是綜合考慮相似用戶之間的潛在目標(biāo)集,協(xié)同用戶或項(xiàng)目間的相似關(guān)系,逐步獲取最小近鄰.雖然該方法得到了廣泛應(yīng)用,但仍存在數(shù)據(jù)稀疏條件下的相似度難以計(jì)算等約束,極端情況下還可能出現(xiàn)冷啟動(dòng)問題,即伴隨著用戶間共同評(píng)價(jià)項(xiàng)目數(shù)量的減少,用戶之間的相似可比性逐步降低,最優(yōu)項(xiàng)目可能因?yàn)闆]有用戶評(píng)分而長(zhǎng)時(shí)間得不到推薦.基于內(nèi)容的推薦方法[3]是通過構(gòu)建用戶候選推薦集合,利用關(guān)鍵字匹配,計(jì)算用戶信息與項(xiàng)目信息之間的相似度,獲取最優(yōu)候選集合.該方法的優(yōu)點(diǎn)是解決了協(xié)同推薦方法的冷啟動(dòng)問題,有效避免了數(shù)據(jù)稀疏.缺點(diǎn)是該方法對(duì)余弦相似度計(jì)算過度依賴,結(jié)果過于集中于那些與目標(biāo)用戶具有相同屬性的用戶集,引起推薦結(jié)果集合與該用戶歷史偏好項(xiàng)目高度類似或重疊,推薦驚喜度不高.混合推薦方法[4]是融合基于內(nèi)容和協(xié)同算法的聯(lián)合推薦算法.該方法能夠有效降低上述兩種方法的缺陷,提升推薦質(zhì)量,但多種方法的使用降低了計(jì)算效率,存在計(jì)算規(guī)模大、各算法間權(quán)值難以統(tǒng)一等問題.
面向醫(yī)療資源的自動(dòng)推薦技術(shù)主要用于稀缺醫(yī)療資源的推薦,相關(guān)學(xué)者已進(jìn)行了卓有成效的研究.文獻(xiàn)[5]針對(duì)患有特定疾病的用戶,利用帶有標(biāo)注的屬性協(xié)同推薦方法獲取醫(yī)療資源.文獻(xiàn)[6]采用先驗(yàn)歷史知識(shí),半自動(dòng)化構(gòu)建醫(yī)療資源評(píng)級(jí)模型,通過調(diào)整推薦算法因子降低醫(yī)療資源的需求過載問題.文獻(xiàn)[7]利用語義本體構(gòu)建用戶基本文檔信息,借助本體知識(shí)庫對(duì)用戶行為特征進(jìn)行分類,獲得興趣偏好集合,實(shí)現(xiàn)基于用戶需求的過濾醫(yī)療資源推薦.
本體語義推薦模型是通過結(jié)構(gòu)化建模語言構(gòu)建資源語義池,建立資源概念實(shí)體間的語義分類關(guān)系,通過構(gòu)建概念實(shí)體語義鏈接,實(shí)現(xiàn)資源間的語義關(guān)系度量,提升語義資源推薦的準(zhǔn)確性.文獻(xiàn)[8]針對(duì)產(chǎn)品開發(fā)業(yè)務(wù)過程中任務(wù)執(zhí)行時(shí)的知識(shí)管理問題,提出了一種情境感知的工作流任務(wù)知識(shí)智能推薦方法,建立了基于本體論的分層工作流情境本體模型.文獻(xiàn)[9]設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)面向應(yīng)急領(lǐng)域的本體管理與資源推薦工具,根據(jù)突發(fā)事件的信息可以提供基于規(guī)則的應(yīng)急資源推薦.文獻(xiàn)[10]針對(duì)知識(shí)可信問題,研究網(wǎng)絡(luò)環(huán)境下面向以本體為基本粒度單位的知識(shí)資源可信評(píng)價(jià)理論體系,建立了本體可信模型.
本文以上述方法的局限性為切入點(diǎn),提出一種基于概念格的本體醫(yī)療資源語義推薦方法.該方法有機(jī)結(jié)合概念格理論與語義本體技術(shù),將層次分類技術(shù)融入資源推薦模型,充分利用概念格結(jié)構(gòu)的形式背景知識(shí)為用戶個(gè)性化推薦提供決策支持,并通過相似度計(jì)算篩選出與目標(biāo)用戶最為接近的推薦項(xiàng)目.經(jīng)過實(shí)驗(yàn)驗(yàn)證,該方法能有效提高醫(yī)學(xué)資源推薦質(zhì)量.
醫(yī)療語義本體是醫(yī)療領(lǐng)域內(nèi)的共享規(guī)范化表示方法,用高度形式化的OWL本體語言(ontology web language)表達(dá)領(lǐng)域概念,具有層次結(jié)構(gòu)清晰、語義表示明確、知識(shí)互操作性強(qiáng)等特點(diǎn),被廣泛用于語義Web內(nèi)醫(yī)療資源的顯性化表示[11].醫(yī)療資源包括各種軟硬件設(shè)施以及相關(guān)人員等,內(nèi)容與形式較為復(fù)雜.本文依據(jù)研究目的,有針對(duì)性地選取患者資源和醫(yī)生資源,建立和完善醫(yī)生本體的領(lǐng)域概念,如醫(yī)生職級(jí)、所在科室、專業(yè)領(lǐng)域以及患者評(píng)價(jià)等概念主體,著重解決為患者推薦專業(yè)領(lǐng)域醫(yī)生的功能.
1.1 患者本體建模
構(gòu)建患者本體需要初始化設(shè)置患者的相關(guān)文檔信息,包括四類基本屬性文檔集:第一類是能夠體現(xiàn)患者自身需求的信息文檔集,包括患者的年齡、性別、病狀描述、病程等,該文檔是組成患者本體的基礎(chǔ);第二類是能夠體現(xiàn)患者日常行為特征的信息文檔集,主要涉及患者日常飲食習(xí)慣、預(yù)防及保養(yǎng)等,該文檔是構(gòu)建患者本體的知識(shí)輔助來源;第三類是患者的偏好文檔集,如果患者對(duì)某類疾病的事物感興趣,通常對(duì)包含該類疾病的醫(yī)生本體項(xiàng)目感興趣的可能性會(huì)增加,從而加大對(duì)該類本體的項(xiàng)目評(píng)分,通過(患者、醫(yī)生)評(píng)分矩陣統(tǒng)計(jì)該類信息,可增加個(gè)性化推薦的準(zhǔn)確性;第四類是患者病史信息文檔集,包括患者的電子病歷、既往診斷說明等,該類信息能夠?yàn)榛颊弑倔w構(gòu)建提供必要的底層分類邏輯信息.
為充分獲取患者對(duì)與其相關(guān)醫(yī)生資源的興趣度,同時(shí)便于動(dòng)態(tài)更新患者興趣的時(shí)間維度屬性,即隨時(shí)間而發(fā)生的偏移情況,需要為患者本體添加興趣度三元組,具體描述為屬性、屬性值以及屬性權(quán)重.設(shè)置方式以靜態(tài)賦值和動(dòng)態(tài)更新為主,實(shí)現(xiàn)患者本體的需求語義描述目標(biāo).具體更新方式由興趣度分析模塊處理.
興趣度分析模塊的主要功能是利用患者對(duì)不同醫(yī)生本體的訪問記錄,動(dòng)態(tài)獲取患者興趣度的變化狀態(tài),具體步驟描述如下:
Begin
Read PatHis.Inte.List
For each(UserHis.Inte.List)
{Get PatHis.Infor; ∥獲得患者基本信息
Get PatHis.Inem; ∥獲得患者的歷史醫(yī)生項(xiàng)目信息
Read PatActionRules ∥讀取更新規(guī)則
For PatHis.Inte.Inem from i=Inte.List(Current) to Inte.List(End)
Get UserHis.Degree ∥獲取屬性興趣度
Get Pre〈Degree,vi〉 ∥獲取興趣度函數(shù)
For each 〈Degree,vi〉 in Pre〈Degree,v1〉
{If UserHis.Inte.Pre in Pre〈Degree,v1〉
Then update UserHis.Inte.List
Esle add 〈Degree,vi〉 to UserHis.Inte.Pre
}
}
End
1.2 醫(yī)生本體建模
選取由美國國家醫(yī)學(xué)圖書館開發(fā)的標(biāo)準(zhǔn)化醫(yī)學(xué)語言構(gòu)建系統(tǒng)(unified medical language system,UMLS)構(gòu)建醫(yī)生本體,以醫(yī)學(xué)領(lǐng)域敘詞表、信息源地圖、領(lǐng)域?qū)<以~典以及語義網(wǎng)絡(luò)為核心,構(gòu)建以醫(yī)生為核心的生物醫(yī)學(xué)概念及相關(guān)詞匯集.
為降低患者選取合適醫(yī)生資源的難度,提高匹配效率和準(zhǔn)確性,需要建立與患者本體相關(guān)聯(lián)的醫(yī)生本體規(guī)則集,構(gòu)建基于本體模型的關(guān)聯(lián)規(guī)則庫,清晰化表達(dá)本體概念間的分類關(guān)系,建立和完善面向需求驅(qū)動(dòng)的語義關(guān)系模型.依據(jù)醫(yī)生本體的特征屬性,以領(lǐng)域本體規(guī)則推理為核心,構(gòu)建與患者興趣度一致的協(xié)同屬性.如患者本體概念實(shí)例內(nèi)含有高血壓臨界屬性,測(cè)試結(jié)果收縮壓大于等于140 mmHg且小于等于150 mmHg,關(guān)聯(lián)規(guī)則庫依據(jù)疾病診斷規(guī)則集診斷該患者患有輕度高血壓.顯性規(guī)則需要描述患者主體身份,屬性為收縮壓,屬性值高出臨界值且給出明確診斷類型,邏輯表示如下:
Patient_med-record(?Inte.List)Λhas_BP(?Inte.List,?bp)Λdisatolic_bolld_pressure(?Bp,?o)Λswrlb:higherThanOrEqual(?o,140)Λswrlb:higherThanOrEqual(?o,150).
→Patient_med-record(?Inte.List)Λhas_Level_hypertension_Classification(?,Inte.List,?,o)Λswrlb:equal(?,o,)Λhas_International_Classification_of_Diseases(?,Inte.List,?,o)).
本模型構(gòu)建的患者及醫(yī)生的部分概念層次關(guān)系如圖1所示.
1.3 本體概念的語義表示
患者本體的形式化表示需要將患者的基本屬性映射到本體中,統(tǒng)一規(guī)范化描述患者的基本概念.將患者本體模型以本體中類、實(shí)例以及關(guān)系等形式化表示:PModel={C,IR,PR,H,A}.其中C表示層次概念;IR代表概念層次關(guān)系,主要包括概念間分類關(guān)系和概念與實(shí)例之間的實(shí)例關(guān)系;PR表示概念間的屬性關(guān)系,用于連接概念與屬性間的層次分類關(guān)系;H表示本體中類的實(shí)例;A表示永真公理.
醫(yī)生本體建模與患者本體建模相類似,也采用五元組形式構(gòu)建本體模型.為優(yōu)化語義匹配準(zhǔn)確度,增加醫(yī)生本體的概念類數(shù)量,將形式化三元組DocModel={DocInfo,DocDOI,DocOnto}映射到醫(yī)生本體庫.其中DocInfo表示概念類中醫(yī)生的基本信息,包含患者檢索時(shí)關(guān)心的醫(yī)生核心屬性信息,具體表示為一個(gè)五元組,即DocInfo={DocID,Name,Age,ServiceTime,Title},該信息在首次生成醫(yī)生類數(shù)據(jù)時(shí)自動(dòng)生成,后期允許狀態(tài)更新;DocDOI表示患者選擇興趣度,用于存儲(chǔ)患者隨時(shí)間維度而發(fā)生變化的興趣漂移度,即通過不斷學(xué)習(xí)患者選定醫(yī)生后的評(píng)價(jià)屬性值,動(dòng)態(tài)調(diào)整醫(yī)生對(duì)于該類患者的選擇滿意度,優(yōu)化推送質(zhì)量,表示為DocDOI={(H1,D1(t)), (H2,D2(t))…,(Hn,Dn(t))},其中Hi(1≤i≤n)是患者已評(píng)價(jià)的第i個(gè)醫(yī)生實(shí)例,Di(t)是患者在時(shí)間t對(duì)該實(shí)例的選擇興趣度,并限定該數(shù)值范圍是[-1,1]內(nèi)的實(shí)數(shù),臨界值下限表示完全不感興趣(負(fù)相關(guān)),上限表示非常感興趣(正相關(guān));DocOnto表示患者選擇后的興趣本體,DocOnto={C,IR,PR,H,A},C表示某患者概念感興趣的醫(yī)生概念類集合,IR表示醫(yī)生實(shí)例集合.
患者模型僅需在初始狀態(tài)時(shí),確定對(duì)某類醫(yī)生的興趣度.通過患者概念的屬性描述,結(jié)合患者DocDOI中的實(shí)例ID評(píng)分,就能夠獲取該類患者與醫(yī)生實(shí)例間的語義關(guān)系描述,即包含實(shí)例屬性、概念以及概念內(nèi)屬性關(guān)系的DocOnto.
本體概念的語義相似度計(jì)算依據(jù)實(shí)例的相關(guān)信息進(jìn)行聚類分析.推薦模型的核心思想是通過計(jì)算相似用戶或項(xiàng)目,過濾出相似用戶或項(xiàng)目所對(duì)應(yīng)的目標(biāo)區(qū)域數(shù)據(jù),從而達(dá)到個(gè)性化信息推送的目的.相似患者會(huì)對(duì)與其相似的鄰居患者所選擇的醫(yī)生資源產(chǎn)生較大的興趣度.因此可以將患者偏好數(shù)據(jù)作為聚類對(duì)象,基于患者的余弦相似性度量模型,實(shí)現(xiàn)相似患者間的訪問數(shù)據(jù)推薦.
概念格是基于形式概念分析理論的概念層次分類模型.概念格內(nèi)部結(jié)構(gòu)是面向相同形式背景知識(shí)下的概念表達(dá),節(jié)點(diǎn)間層次結(jié)構(gòu)是概念間分類關(guān)系的反應(yīng).格概念包含概念的外延和內(nèi)涵,其中外延是概念的對(duì)象集,內(nèi)涵是概念的實(shí)例集,體現(xiàn)了概念的屬性關(guān)系.
定義1 完全知識(shí)背景 某三元組滿足Z={T,M,R},其中T是集合內(nèi)對(duì)象的并集,M是集合內(nèi)屬性的并集,R滿足T與M上的偏序二元關(guān)系,則定義Z是該對(duì)象與屬性集合上的完全知識(shí)背景.
定義2 格概念 概念C(A1,B1)的屬性A1是知識(shí)背景的屬性集T(A1,A2,…Ai)的子集,且B1是知識(shí)背景的實(shí)例集H(H1,H2,…Hi)的子集,則概念C是屬于該知識(shí)背景下的格概念,記為Cdoc.
定義3 子概念 概念C1的所有屬性均是在概念C2的屬性子集,則標(biāo)記C1是C2的子概念,即對(duì)于所有概念Ci(Ai,Bi),若A1A2且B1B2,則C1(A1,B1)是C2(A2,B2)的子概念,記為(A1,B1)≤(A2,B2),其中“≤”表示概念格內(nèi)的概念層次結(jié)構(gòu)關(guān)系.
定義4 概念格偏序集 對(duì)于二元組E=(C,R),節(jié)點(diǎn)概念C代表概念集內(nèi)的任意格概念,R滿足概念格內(nèi)的任意概念間的偏序關(guān)系,則稱二元組E是概念格偏序集.
基于概念格的本體概念算法的基本思路是:對(duì)于任意滿足概念格偏序集的二元組E,遍歷概念格內(nèi)的所有格概念節(jié)點(diǎn),通過層數(shù)求解函數(shù)Tra(E)返回節(jié)點(diǎn)的所在層數(shù)值;移除格內(nèi)層級(jí)數(shù)較低的概念節(jié)點(diǎn),添加到格內(nèi)Hasse圖較低層級(jí),并為該移除概念的子概念增加新的空概念節(jié)點(diǎn),以保持概念層級(jí)結(jié)構(gòu)的穩(wěn)定.
定義5 概念外延相似度 對(duì)于概念A(yù)與概念B內(nèi)擁有共同屬性的對(duì)象在整個(gè)概念對(duì)象集合中的比重,稱為概念對(duì)(A,B)內(nèi)共有概念外延在概念外延集合中的權(quán)重,即概念外延相似度,記為SimObj(A,B).
定義6 概念內(nèi)涵相似度 對(duì)于概念A(yù)與概念B內(nèi)擁有共同屬性在整個(gè)概念屬性集合的比重,稱為概念對(duì)(A,B)內(nèi)共有概念內(nèi)涵在概念內(nèi)涵集合中的權(quán)重,即概念內(nèi)涵相似度,記為SimAttr(A,B).
定義7 概念外延相似度權(quán)重 統(tǒng)計(jì)概念A(yù)與概念B內(nèi)的對(duì)象并集在整個(gè)概念對(duì)象集與屬性集中的比重,稱為概念對(duì)(A,B)內(nèi)概念外延在概念集合中的相似度權(quán)重,記為ObjRO(A,B).
定義8 概念內(nèi)涵相似度權(quán)重 統(tǒng)計(jì)概念A(yù)與概念B內(nèi)的屬性并集在整個(gè)概念對(duì)象集與屬性集中的比重,稱為概念對(duì)(A,B)內(nèi)概念內(nèi)涵在概念集合中的相似度權(quán)重,記為AttrRO(A,B).
概念格內(nèi)概念節(jié)點(diǎn)的基本二元關(guān)系是對(duì)象和屬性.對(duì)象反應(yīng)了概念在外延上與其他概念的層次關(guān)系;屬性顯示了概念在內(nèi)涵上的分類關(guān)系.綜合對(duì)象與屬性的關(guān)聯(lián)關(guān)系,將概念對(duì)象相似度與概念屬性相似度分別乘以各自的權(quán)重系數(shù),再做加權(quán)求和,即為概念A(yù),B之間的相似度,計(jì)算模型為:
(1)
式中,關(guān)于概念A(yù),B的相關(guān)內(nèi)容定義如下:
A對(duì)象集Oa=(Oa1,Oa2,Oa3,…,Oai);
B對(duì)象集Ob=(Ob1,Ob2,Ob3,…,Obm);
A屬性集Aa=(Aa1,Aa2,Aa3,…,Aaj);
B屬性集Ab=(Ab1,Ab2,Ab3,…,Abn);
A、B對(duì)象集的交集表示A,B內(nèi)所包含的相同對(duì)象,即概念的相同外延,表示為:Oab=Oa∩Ob;
A、B對(duì)象集的并集表示A,B內(nèi)對(duì)象之和,即概念的外延范圍,表示為:OAB=Oa∩Ob;
A、B屬性集的交集表示A,B內(nèi)所包含的相同屬性,即概念的相同內(nèi)涵,表示為:Aab=Aa∩Ab;
A、B屬性集的并集表示A,B內(nèi)屬性之和,即概念的內(nèi)涵范圍,表示為:AAB=Aa∩Ab.
依據(jù)以上表示,將(1)式改寫成(2)式:
(2)
基于概念格的本體概念相似度算法(ontologyconceptsimilarityalgorithmbasedonconceptlattice,OCSA)算法表示如下:
輸入:候選概念對(duì)(Ai,Bi);Oa,Ob,Aa,Ab概念層的最大概念數(shù)n;閾值α;調(diào)節(jié)參數(shù)β.
輸出:相似矩陣Rij,Sim(Ai,Bi).
(1)FOReachj≤mDO.
(2)FOReachi≤nDO.
(3)IfCount(Ai.Attr), Count(Bi.Attr)and
(4)Until0≤β≤α≤1.
(5)EndFOR.
(6)EndFOR.
(7)Do.
SIM(A,B)=SimObj(A,B)·ObjRO+SimAttr(A,B)·AttrRO.
(8)RETURNAij.
(9)Untilα+β=1andSim(Ai,Bi).
Sim(A1,Bi)=max{Sim(A1,B1),Sim(A1,B2)…Sim(A1,Bi)}.
(10)EndIf.
(11)RETURNSim(Ai,Bi).
本模型綜合考慮概念的對(duì)象屬性二元關(guān)系,降低了概念相似度單一維度計(jì)算的偏差,提高了對(duì)象及屬性在相似度系數(shù)設(shè)定過程中的權(quán)重精度.
為有效驗(yàn)證本模型的有效性,以CTBoSNOMED數(shù)據(jù)庫(clinicaltermsbasedonsystematizednomenclatureofmedicine)中的標(biāo)準(zhǔn)醫(yī)學(xué)建模術(shù)語為基礎(chǔ),構(gòu)建基本語料庫,隨機(jī)抽取包含獨(dú)立定義的術(shù)語集.實(shí)驗(yàn)選取臨床診斷支持集、病情監(jiān)控集、健康信息集等5類分層概念集中的500個(gè)臨床數(shù)據(jù)及主題詞表,通過標(biāo)準(zhǔn)化處理添加概念關(guān)聯(lián)屬性集作為計(jì)算實(shí)例.
臨床概念本體利用開源平臺(tái)Protégé解析出本體疾病概念,首先針對(duì)對(duì)象及屬性集構(gòu)建疾病概念形式背景,概念分類關(guān)系如圖2所示.基于形式背景所生成的疾病概念格Hasse圖如圖3所示.
為提高患者醫(yī)生資源的語義匹配性,按同樣方法構(gòu)建患者概念格和醫(yī)生概念格,以圖1中患者的相關(guān)屬性為基礎(chǔ),篩選出與疾病概念格相同的癥狀,構(gòu)建的患者概念格Hasse圖如圖4所示,P1~P5表示患者的對(duì)象標(biāo)號(hào).構(gòu)建的醫(yī)生概念格如圖5所示,D1~D5表示醫(yī)生的對(duì)象標(biāo)號(hào).
從選取的5類分層概念集中隨機(jī)抽取患者及醫(yī)生屬性構(gòu)建患者概念格和醫(yī)生概念格,添加概念關(guān)聯(lián)屬性集作為計(jì)算實(shí)例,通過OCSA算法獲取概念格映射關(guān)系集.并通過設(shè)置對(duì)比試驗(yàn),驗(yàn)證本算法模型的運(yùn)算性能.
模型驗(yàn)證實(shí)驗(yàn)分為兩組:第一組實(shí)驗(yàn)為本模型在不同概念外延閾值下的計(jì)算準(zhǔn)確性分析,測(cè)試5組不同樣本數(shù)據(jù)下患者醫(yī)生概念實(shí)例(P1,D1)的相似度;第二組實(shí)驗(yàn)將算法作橫向?qū)Ρ确治?,分析與其他算法的相似度穩(wěn)定性.
第一組實(shí)驗(yàn)的目的是測(cè)試算法OCSA的準(zhǔn)確性,采用皮爾遜相關(guān)系數(shù)(Pearsoncorrelationcoefficient,PCC)評(píng)價(jià)推薦相似度的計(jì)算公式為:
(3)
第二組實(shí)驗(yàn)的目的是測(cè)試算法OCSA的穩(wěn)定性,選取驗(yàn)證實(shí)驗(yàn)效果的查準(zhǔn)率,計(jì)算公式為:
(4)
4.1 第一組實(shí)驗(yàn)
采用基于概念格的本體概念相似度算法(OCSA),將圖4和圖5概念格的對(duì)象及屬性代入(2)式,以對(duì)象(P1,D1)為例計(jì)算跨概念格的本體概念相似度,并以依次遍歷醫(yī)生概念格中的所有概念,最終選取其中數(shù)值最大的概念,為患者P1推薦醫(yī)生.然后選擇其他患者實(shí)例,重復(fù)以上過程.計(jì)算出各概念對(duì)的皮爾遜相關(guān)系數(shù),并與專家的判定結(jié)果相比較,如表1所示,粗體數(shù)字表示與該患者相似度最高的醫(yī)生概念實(shí)例,最終為不同患者推薦的醫(yī)生映射關(guān)系圖,如圖6所示.
表1 患者醫(yī)生概念對(duì)PCC對(duì)比
表1(續(xù))
通過分析以上數(shù)據(jù),本模型算法的相似度結(jié)果與專家評(píng)定數(shù)值較接近,且根據(jù)患者的疾病癥狀,推薦結(jié)果基本符合其要求,滿足了患者個(gè)性化醫(yī)生資源推薦的需求.
4.2 第二組實(shí)驗(yàn)
調(diào)整不同概念外延閾值,并與Souza、Davis等[12-13]經(jīng)典算法進(jìn)行比較,計(jì)算(P1,D1)相似度數(shù)值的查準(zhǔn)率,如表2、圖7所示.
表2 不同算法模型中(P1,D1)的查準(zhǔn)率
分析圖7可以看出:OCSA算法在不同概念外延閾值下的準(zhǔn)確性均較其他算法有所提高,算法的整體穩(wěn)定性較好;所有算法均在數(shù)據(jù)量增加的情況下,準(zhǔn)確率出現(xiàn)下降的趨勢(shì),其原因是當(dāng)對(duì)象增加時(shí),其關(guān)聯(lián)屬性的數(shù)量也會(huì)急劇增加,對(duì)象的分類關(guān)系劃分的準(zhǔn)確性降低,導(dǎo)致算法的整體計(jì)算效能出現(xiàn)下降,推薦效果也逐漸降低.
本文圍繞本體概念相似度計(jì)算的局限性展開研究,并將用戶及醫(yī)療資源融入本體構(gòu)建模型,利用概念格的層次分類模型,通過篩選用戶偏好,分別構(gòu)建用戶本體與醫(yī)療資源本體,改進(jìn)相似度匹配算法獲取用戶的個(gè)性需求,得到具有較高推薦精度的用戶模型.實(shí)驗(yàn)結(jié)果表明,該模型能有效降低用戶選擇醫(yī)療資源的困難度,提高需求滿意度和推薦質(zhì)量.不足之處在于實(shí)驗(yàn)數(shù)據(jù)在動(dòng)態(tài)新增的條件下,概念格構(gòu)造算法的精度缺乏穩(wěn)定性.下一步研究重點(diǎn)是概念格建格算法的魯棒性問題,提高推薦算法的計(jì)算精度.
[1]孫海霞,錢慶,成穎.基于本體的語義相似度計(jì)算方法研究綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2010(1):51-56.
[2]劉宏哲,須德.基于本體的語義相似度和相關(guān)度計(jì)算研究綜述[J].計(jì)算機(jī)科學(xué),2012,39(2):8-13.
[3]呂剛,鄭誠.改進(jìn)的基于概念相似度的文本檢索[J].計(jì)算機(jī)工程,2010,36(12):55-57.
[4]徐德智,鄭春卉.基于SUMO的概念語義相似度研究[J].計(jì)算機(jī)應(yīng)用,2016,26(1):180-183.
[5]李丹亞,胡鐵軍,李軍蓮,等.中文一體化醫(yī)學(xué)語言系統(tǒng)的構(gòu)建與應(yīng)用[J].情報(bào)雜志,2011,30(2):147-151.
[6]WANG Y Z,JIA Y T.Information retrieval and data mining based on open network knowledge[J].Journal of Computer Research and Development,2014,52(2):456-474.
[7]傅興玉,尤紅建,付琨.基于改進(jìn)Markov隨機(jī)場(chǎng)的高分辨率SAR圖像建筑物分割算法[J].電子學(xué)報(bào),2012,40(6):1 141-1 147.
[8]劉庭煜,汪惠芬,賁可存,等.基于多維情境本體匹配的產(chǎn)品開發(fā)過程業(yè)務(wù)產(chǎn)物智能推薦技術(shù)[J].計(jì)算機(jī)集成制造系統(tǒng),2016,12(4):158-162.
[9]曾慶田,魯法明,段華,等.面向應(yīng)急領(lǐng)域的本體管理與資源推薦工具[J].系統(tǒng)工程理論與實(shí)踐,2014,8(2):34-39.
[10]趙振,胡乃平,劉敏,等.基于本體可信模型的知識(shí)可信評(píng)價(jià)理論[J].計(jì)算機(jī)集成制造系統(tǒng),2014,12(2):124-130.
[11]張?jiān)浦?Ontology和FCA在知識(shí)建模中的融合機(jī)理研究[J].現(xiàn)代圖書情報(bào)技術(shù),2010,26(3):40-46.
[12]DAVIS S,ESBENSEN K,GELADI P.Principal component analysis[J].Chemometr Intell Lab Syst ,2002,2(1):37-42.
[13]EVANGELISTA A T,HASSANIEN A E.Dimensionality reduction of medical big data using neural-fuzzy classifier[J].Soft Computer,2014,19(4):1 112-1 115.
(1.Department of Health Management, Bengbu Medical College, Bengbu 233030, China;2.School of Computer Science and Technology, University of Science and Technology of China, Hefei 230027, China;3.School of Information and Computer Science, Anhui Agriculture University, Hefei 230027, China)
[責(zé)任編輯 邵圣文]
SIM(A,B)=SimObj(A,B)·ObjRO+SimAttr(A,B)·AttrRO.
SIM(A,B)=SimObj(A,B)·ObjRO+SimAttr(A,B)·AttrRO=
Semantic Recommendation Method of Ontology Based on Concept Lattice
LIU Yuwen1,2, WANG Kai1, XU Jicheng3
Through the screening of user preferences, this paper focuses on the limitations of the study. Hierarchical classification model based on concept lattice were constructed, based on which users and medical resources into the construction of ontology model for similarity matching were improved to obtain the user's individual needs and high accuracy of recommendation. The experimental results show that the proposed model can effectively reduce the difficulty of selecting medical resources and improve the satisfaction and quality of recommendation.
keywords ontology; concept Lattice; personalized recommendation; semantic modeling; similarity matching
2016-12-10
安徽省高校自然科學(xué)一般項(xiàng)目(KJ2015B023by);蚌埠醫(yī)學(xué)院自然科學(xué)重點(diǎn)項(xiàng)目(Byky1411ZD).
王凱,碩士,講師,研究方向:大數(shù)據(jù)處理、本體論.E-mail:wangkai0552@126.com
TP391
A
1009-1734(2017)02-0047-10