亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于異構(gòu)星型網(wǎng)絡(luò)分析的藥物推薦改進(jìn)算法HIC-MedRank

        2017-10-21 08:21:07鄒林霖李學(xué)明
        計(jì)算機(jī)應(yīng)用 2017年8期
        關(guān)鍵詞:期刊高血壓文章

        鄒林霖,李學(xué)明,2,李 雪,袁 洪,劉 星

        (1.重慶大學(xué) 計(jì)算機(jī)學(xué)院,重慶 400044; 2.重慶大學(xué) 信息物理社會(huì)可信服務(wù)計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室,重慶 400044;3.昆士蘭大學(xué) 信息技術(shù)與電子工程學(xué)院,澳大利亞 布里斯班 4072; 4.中南大學(xué) 湘雅三醫(yī)院心內(nèi)科,長沙 410013)

        (*通信作者電子郵箱lixuemin@cqu.edu.cn)

        基于異構(gòu)星型網(wǎng)絡(luò)分析的藥物推薦改進(jìn)算法HIC-MedRank

        鄒林霖1,李學(xué)明1,2*,李 雪3,袁 洪4,劉 星4

        (1.重慶大學(xué) 計(jì)算機(jī)學(xué)院,重慶 400044; 2.重慶大學(xué) 信息物理社會(huì)可信服務(wù)計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室,重慶 400044;3.昆士蘭大學(xué) 信息技術(shù)與電子工程學(xué)院,澳大利亞 布里斯班 4072; 4.中南大學(xué) 湘雅三醫(yī)院心內(nèi)科,長沙 410013)

        (*通信作者電子郵箱lixuemin@cqu.edu.cn)

        伴隨著醫(yī)療文獻(xiàn)數(shù)據(jù)庫的快速增長,缺乏經(jīng)驗(yàn)的初級醫(yī)師在為患者開處方時(shí)難以閱讀大量的醫(yī)療文獻(xiàn)來獲得科學(xué)的決策輔助。2013年提出的MedRank算法從Medline數(shù)據(jù)庫中提取醫(yī)學(xué)信息異構(gòu)星型網(wǎng)絡(luò),基于“有療效的藥物是由好的文章提及的,好的文章是由優(yōu)秀的作者寫的并刊登在高水平的期刊上”的假設(shè),旨在為各類疾病的患者推薦最具有療效的藥物。該算法仍然存在幾個(gè)問題:1)模型輸入的疾病不是獨(dú)立的疾病;2)推薦的結(jié)果不是具體的藥物;3)沒有考慮文章的發(fā)表時(shí)間等其他因素;4)沒有定義判定作者、期刊、文章是“好的”的標(biāo)準(zhǔn)。對以上問題進(jìn)行了研究并提出HIC-MedRank算法,該算法納入作者的H指數(shù)、期刊的影響因子、文章的引用數(shù)作為評判作者、期刊、文章是否優(yōu)秀的指標(biāo),并綜合考慮文章的發(fā)表時(shí)間、支持機(jī)構(gòu)、發(fā)表類型等因素,為高血壓合并慢性腎臟病(CKD)患者推薦最佳的降壓藥物。在Medline數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示HIC-MedRank推薦的藥物比MedRank算法推薦的藥物更為精準(zhǔn),與主治醫(yī)師投票選擇的藥物較為一致,與美國成人高血壓治療指南(JNC)推薦的藥物一致性達(dá)到80%。

        異構(gòu)信息網(wǎng)絡(luò);數(shù)據(jù)挖掘;臨床決策支持;H指數(shù);高血壓;慢性腎臟?。凰幬锿扑]

        0 引言

        通過醫(yī)學(xué)論壇丁香園的調(diào)研[1],4 858名中國醫(yī)師中有55.9%的人在不知道如何作診斷決策時(shí)會(huì)選擇查閱文獻(xiàn)??墒前殡S著醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫的快速增長,醫(yī)師難以閱讀大量的文獻(xiàn)來獲得與時(shí)俱進(jìn)的醫(yī)學(xué)知識,于是從醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫中挖掘出有用的醫(yī)學(xué)知識就顯得十分重要。

        文獻(xiàn)[2-3]從文獻(xiàn)數(shù)據(jù)中挖掘知識以減少醫(yī)療錯(cuò)誤;文獻(xiàn)[4]使用臨床決策支持系統(tǒng)、醫(yī)療誤差等關(guān)鍵詞從Medline數(shù)據(jù)庫中獲得知識以預(yù)防藥物的不良反應(yīng);還有一些研究如文獻(xiàn)[5-7]從數(shù)據(jù)庫中挖掘疾病相關(guān)的藥物推薦給臨床醫(yī)師,以輔助他們進(jìn)行臨床決策。在文獻(xiàn)[7]中,Chen等通過分析異構(gòu)信息網(wǎng)絡(luò)提出了一種新的藥物推薦算法——MedRank算法。

        MedRank算法可以從Medline數(shù)據(jù)庫中抽取出與疾病相關(guān)的文章、作者、期刊、臨床試驗(yàn)及治療方法這5個(gè)對象構(gòu)成醫(yī)學(xué)異構(gòu)信息網(wǎng)絡(luò),通過分析該網(wǎng)絡(luò)為給定疾病推薦排名前十的治療方法。在實(shí)驗(yàn)中,該算法分別為艾滋病、2型糖尿病等5種疾病推薦出排名前十的治療方法并與醫(yī)生的調(diào)研結(jié)果進(jìn)行比較,結(jié)果顯示MedRank算法推薦的治療方法得到醫(yī)生的普遍認(rèn)可。

        然而,從更深入的醫(yī)學(xué)和技術(shù)角度分析,MedRank算法仍然存在許多不足:第一,給定的疾病不是獨(dú)立的疾病,患者的用藥與所患疾病的合并癥以及個(gè)人狀態(tài)有關(guān),所以輸入的疾病應(yīng)是經(jīng)過細(xì)化之后的疾病名稱。比如糖尿病可以根據(jù)病人患病的程度、年齡、是否肥胖等因素劃分為多類別的糖尿病(1型糖尿病、2型糖尿病、妊娠糖尿病等),所以在為糖尿病患者推薦用藥時(shí),需輸入具體的疾?。?型糖尿病或2型糖尿病,而不是籠統(tǒng)地輸入“糖尿病”。第二,算法推薦的結(jié)果不是特定的藥物,比如2型糖尿病的推薦用藥,排在第一位的是“降糖藥”,可是“降糖藥”是其他推薦藥物的總稱。第三,既然要獲得與時(shí)俱進(jìn)的醫(yī)學(xué)知識,較近年份的文章提及的藥物應(yīng)當(dāng)給予更多重視,所以文章的發(fā)表時(shí)間應(yīng)該納入模型;此外文章的發(fā)表類型和研究類型決定著一篇文章的質(zhì)量,也應(yīng)該被考慮,因?yàn)樵卺t(yī)學(xué)領(lǐng)域中“指元分析(Meta-analysis)”以及“隨機(jī)對照試驗(yàn)(Randomized Controlled Trial, RCT)”類型的文章比其他類型的文章更得到醫(yī)學(xué)界的認(rèn)可,同樣醫(yī)學(xué)界對研究類型為“多中心研究(Multicenter Study)”“單盲研究(Single-Blind Method)”“雙盲研究(Double-Blind Method)”等類型的文章也較為認(rèn)可。第四,MedRank算法基于以下假設(shè):一個(gè)好的治療藥物易于被好的醫(yī)學(xué)文章提及且在臨床試驗(yàn)階段成功應(yīng)用,而這篇好的文章則是由一些優(yōu)秀的作者撰寫并刊登在高水平的期刊上??墒俏恼轮胁]有給出如何判定文章是好的、作者是優(yōu)秀的、期刊是高水平的標(biāo)準(zhǔn)。

        因此,本文引入文章的引用數(shù)目、作者的H指數(shù)、期刊的影響因子來評估作者、文章、期刊的好壞。假設(shè):

        1)一篇文章是好的,如果它被其他文章高引用;

        2)一個(gè)期刊是高水平的,如果它有很高的影響因子;

        3)一個(gè)作者是優(yōu)秀的,如果他/她的h篇文章被至少引用了h次;

        4)一個(gè)治療藥物是有效的,如果它被許多好的文章提及,而這些文章出自優(yōu)秀的作者之手并被刊登在高水平的期刊上。

        同時(shí)還考慮了文章的發(fā)表時(shí)間、發(fā)表類型、研究類型,提出一個(gè)改進(jìn)的藥物推薦算法——HIC-MedRank(H-index, Impact factor, and Citation count-MedRank)。在實(shí)驗(yàn)中,選擇高血壓合并慢性腎臟病(Chronic Kidney Disease, CKD)為模型的輸入(因?yàn)樵摷膊∈且环N影響全球幾億人健康的常見疾病[8]),各種類型的降壓藥物作為輸出。最后,將排名前十的藥物與醫(yī)師調(diào)研的結(jié)果以及美國成人高血壓治療指南(The report of the Joint National Committee on Prevention, Detection, Evaluation, and Treatment of High Blood Pressure, JNC)進(jìn)行比較,結(jié)果顯示HIC-MedRank 算法推薦的藥物比MedRank算法推薦的藥物更精準(zhǔn),與指南一致性達(dá)到80%。

        1 問題定義

        以下將給出問題的定義并介紹相關(guān)的概念和符號。

        在現(xiàn)實(shí)生活中,許多網(wǎng)絡(luò)都可以表示為星型網(wǎng)絡(luò),比如書目信息網(wǎng)絡(luò)或者在線電影信息網(wǎng)絡(luò)。如圖1所示,“文章”對象是該星型網(wǎng)絡(luò)的中心對象,“疾病”“作者”“期刊”“發(fā)表類型”“藥物”就是屬性對象,屬性對象都與中心對象有關(guān)聯(lián)。本文也將構(gòu)建圖中所示的網(wǎng)絡(luò)模型作為醫(yī)療異構(gòu)星型信息網(wǎng)絡(luò)。

        圖1 星型網(wǎng)絡(luò)模型Fig. 1 Star network model

        定義3 疾病子網(wǎng)絡(luò)。給定一個(gè)醫(yī)療星型信息網(wǎng)絡(luò)G=〈V,E,W〉以及一種疾病d∈Xd,其中Xd∈V是“疾病”類型對象的集合。定義疾病子網(wǎng)絡(luò)G′=〈V′,E′,W′〉?G使得V′=V-V″,其中:V″∈{x∈X0|?/y([x,y]∈E∧y=d)},E′={[x,y]∈E|x,y∈V′},W′={wx,y∈W|[x,y]∈E′}。

        因?yàn)楸疚牡哪繕?biāo)是為給定的疾病d將文獻(xiàn)庫中的藥物進(jìn)行排名,于是從文獻(xiàn)庫中提取跟d相關(guān)的文章構(gòu)成集合V′?,F(xiàn)在,將問題描述如下:

        給定疾病子網(wǎng)絡(luò)G′=[V′,E′,W′],如果有一個(gè)“藥物”類型的對象集合Xs?V、一個(gè)排名函數(shù)R以及整數(shù)K,存在X′?Xs,|X′|=K使得?x∈X′,?y∈(Xs-X′),都有R(x)>R(y)。

        2 HIC-MedRank算法

        本文根據(jù)疾病從醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)中提取相關(guān)的文章以及其他屬性對象,構(gòu)建醫(yī)療異構(gòu)星型網(wǎng)絡(luò),網(wǎng)絡(luò)的權(quán)重值將由作者H指數(shù)、期刊影響因子、文章引用數(shù)目以及文章發(fā)表時(shí)間等其他因素共同計(jì)算。在計(jì)算各對象排名時(shí),類似于PageRank算法,一個(gè)類型的對象具有較高的排名值,如果它的鄰居對象也具有較高的排名值。一個(gè)藥物的排名值越大,那么其必由一些好的文章提及,這些文章是由優(yōu)秀的作者寫的并被刊登在高水平的期刊上。選擇高血壓合并慢性腎臟病作為模型輸入,降壓藥作為模型輸出,將HIC-MedRank算法分為“提取網(wǎng)絡(luò)”“設(shè)置權(quán)重”“計(jì)算排名”三部分進(jìn)行介紹。

        2.1 提取網(wǎng)絡(luò)

        本節(jié)將介紹如何通過醫(yī)學(xué)本體MeSH(Medical Subject Headings)詞表從Medline數(shù)據(jù)庫中提取醫(yī)療異構(gòu)星型網(wǎng)絡(luò)。

        MeSH詞表是一部醫(yī)學(xué)詞典,包含57 299個(gè)描述符,為當(dāng)前醫(yī)學(xué)信息提供規(guī)范化的說明。Medline是一個(gè)由NLM(National Library of Medicine)發(fā)布的醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫,它包含了許多文章的書目信息。每一篇文章的書目信息包含了文章的記錄號(PubMed Unique IDentifier, PMID)、文章名、作者列表、期刊信息、發(fā)表類型以及MeSH詞表標(biāo)注的關(guān)鍵信息。該數(shù)據(jù)庫可以以XML文件格式下載,湘雅三醫(yī)院于2015年6月獲得對數(shù)據(jù)庫的訪問權(quán)限。

        掃描所有XML文件,當(dāng)文章的書目信息中包含疾病對應(yīng)的MeSH關(guān)鍵字時(shí),將文章的PMID、作者、期刊、發(fā)表類型、研究類型、發(fā)表時(shí)間以及藥物名稱提取出來。本文方法只考慮8類主要的降壓藥物:血管緊張素轉(zhuǎn)化酶抑制劑(Angiotension Converting Enzyme Inhibitors, ACEI)、血管緊張素受體阻滯劑(Angiotensin Receptor Blocker, ARB)、鈣通道阻滯劑(Calcium Channel Blockers, CCB)、利尿劑、β受體阻滯劑、α受體阻滯劑、血管擴(kuò)張劑、神經(jīng)節(jié)阻滯藥,而且只有當(dāng)文章中提及的這些藥物被MeSH詞標(biāo)注為“治療用途(therapeutic use)”“藥物治療(drug therapy)”或者是“投藥&劑量(administration & dosage)”,才能提取文章PMID,并將PMID與藥物建立連接。而且為了保障文章的質(zhì)量,本文只將文章發(fā)表類型為“指元分析(meta-analysis)” “隨機(jī)對照試驗(yàn)(randomized controlled trial)” “實(shí)用性臨床試驗(yàn)(pragmatic clinical trial)” “雙生子研究(twin study)”“臨床對照試驗(yàn)(controlled clinical trial)” “觀察研究(observational study)” “對比研究(comparative study)”以及 “病例報(bào)告(case report)”這8種類型的文章提取到網(wǎng)絡(luò)中。

        對于Medline數(shù)據(jù)庫中的每一篇文章,只有當(dāng)它的發(fā)表類型、藥物滿足以上要求時(shí),才能在“文章”“發(fā)表類型”或“降壓藥物”之間建立連接。

        2.2 設(shè)置權(quán)重

        本節(jié)將闡述如何獲得與引入作者的H指數(shù)、期刊的影響因子、文章的引用數(shù)作為判斷“文章是好的,作者是優(yōu)秀的,期刊是高水平的”的標(biāo)準(zhǔn),并討論如何給醫(yī)療信息網(wǎng)絡(luò)設(shè)置權(quán)重。

        自1989年以來,引用數(shù)便作為衡量科學(xué)研究貢獻(xiàn)的指標(biāo)廣泛使用[9],于是用其來評估一篇文章是否是好的文章。期刊的影響因子則在1955年就被Garfield博士[10]提出,在20世紀(jì)60年代被用來作為篩選期刊的工具,一個(gè)高水平的期刊必定有較高的影響因子。而作者的H指數(shù)于2005年才被Hirsch[11]提出,用來評估科研人員的研究水平。作者H指數(shù)的計(jì)算主要依靠兩個(gè)部分:作者文章的發(fā)表數(shù)和其他科研人員對作者文章的引用數(shù),其被定義為“一個(gè)研究人員的H指數(shù)為h,如果這個(gè)作者有h篇文章被至少引用了h次”[12]。本文假設(shè)一個(gè)好的作者其H指數(shù)也高。

        上述三個(gè)指標(biāo)可從許多數(shù)據(jù)庫獲得,比如Google Scholar、 Scopus、 Web of Science等。本文選擇Web of Science爬取期刊的引用數(shù)和作者的H指數(shù),期刊的影響因子則從期刊引用報(bào)告(Journal Citation Reports, JCR)獲得。根據(jù)2.1節(jié)中提取的期刊ISSN號、文章名、作者姓名以及期刊名稱從Web of Science網(wǎng)站和JCR中獲得作者H指數(shù)、期刊影響因子、文章引用數(shù),然后用最大最小規(guī)范化的方法將三種指標(biāo)進(jìn)行規(guī)范化加入到醫(yī)療信息網(wǎng)絡(luò)中作為網(wǎng)絡(luò)的權(quán)重?,F(xiàn)在,醫(yī)療信息網(wǎng)絡(luò)可以描述如下:

        1)醫(yī)療信息網(wǎng)絡(luò):G=〈V,E,W〉;

        2)對于醫(yī)療信息網(wǎng)絡(luò)中的節(jié)點(diǎn)集合V,它包含5種類型的節(jié)點(diǎn):“文章”類型的節(jié)點(diǎn)記為A,“期刊”類型的節(jié)點(diǎn)記為J,“作者”類型的節(jié)點(diǎn)記為S,“文章發(fā)表類型”的節(jié)點(diǎn)記為P,“藥物”類型的節(jié)點(diǎn)記為O。假設(shè)每種類型節(jié)點(diǎn)的個(gè)數(shù)分別為|A|,|J|,|S|,|P|,|O|。V是所有類型節(jié)點(diǎn)的集合:V=A∪J∪S∪P∪O。

        3)對于醫(yī)療信息網(wǎng)絡(luò)中的邊E和權(quán)重W:在網(wǎng)絡(luò)中,每篇文章對應(yīng)著許多作者,發(fā)表在一個(gè)期刊上,提及一種或多種藥物,而對于不同的文章,它的連接是不一樣的。假設(shè)有兩種不同類型的節(jié)點(diǎn)xi、xj,它們之間有一條邊e:〈xi,xj〉∈E。wxixj表示邊e的權(quán)重,定義如下:

        在上述定義中:p和q分別表示經(jīng)過歸一化處理后的期刊影響因子和作者H指數(shù);k表示經(jīng)過歸一化處理之后的文章引用數(shù);當(dāng)發(fā)表類型P滿足“Meta-analysis”或者“RCT”中的一種時(shí),文章對象與其對應(yīng)的發(fā)表類型之間的權(quán)重為1,其他時(shí)候?yàn)?。

        另外,本文考慮了文章的發(fā)表時(shí)間以及研究類型,當(dāng)文章的研究類型為“美國研究院(U.S. based institutes)”“前瞻性研究(prospective studies)”“隨機(jī)分配(random allocation)”“多中心研究(multicenter study)”“雙盲研究(double-blind method)”“單盲研究(single-blind method)”中的一種時(shí),wAI=1,其他情況wAI=0。假設(shè)發(fā)表時(shí)間越近的文章,權(quán)重越大,符合指數(shù)增長。用t表示文章的發(fā)表年份,T表示當(dāng)前年份,a表示增長率,則文章發(fā)表時(shí)間的權(quán)重則為wAT=ea(t-T)(e為自然常數(shù))。如果t=T,則wAT=0。

        最后,整個(gè)醫(yī)療信息網(wǎng)絡(luò)的權(quán)重為Wxixj=wxixj+k+(wAI+wAT)/10,其中xi(xj)∈A,xj(xi)∈J∪S∪P∪O。

        2.3 計(jì)算排名

        在設(shè)置權(quán)重之后,仍然采用RankClus算法[13]和NetClus算法[14]中權(quán)威排名的計(jì)算公式計(jì)算各對象的排名值:

        (1-α)U/|X1|

        (1)

        (2)

        經(jīng)過上述三部分的工作,可以得到各對象排名的情況,在藥物對象的排名向量中選取排名前十的藥物作為推薦藥物。最后,HIC-MedRank算法可總結(jié)為如下所示:

        輸入d表示給定疾??;K表示排名個(gè)數(shù);ξ表示收斂的閾值;

        輸出F表示前K的藥物排名列表。

        1)

        根據(jù)給定疾病d,結(jié)合本體Mesh從醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫中提取醫(yī)學(xué)信息異構(gòu)星型網(wǎng)絡(luò)G=〈V,E,W〉;

        2)

        從Web of Science網(wǎng)站上獲得三種指標(biāo),歸一化之后更新網(wǎng)絡(luò)的權(quán)重矩陣

        3)

        將排名值Rx1初始化為1/|X1|

        4)

        while(difference<ξ或l>預(yù)設(shè)迭代次數(shù))

        Do

        利用式(1)和式(2)計(jì)算l+1次迭代時(shí)X1的排名值;

        l←l+1

        5)

        選取排名列表前K個(gè)藥物作為推薦列表P←top-K(Rx1,K)

        在該算法中,提取網(wǎng)絡(luò)的時(shí)間復(fù)雜度取決于掃描Medline數(shù)據(jù)庫構(gòu)建網(wǎng)絡(luò)的時(shí)間,假設(shè)Medline數(shù)據(jù)庫中有N條記錄,則提取網(wǎng)絡(luò)的時(shí)間復(fù)雜度為O(N)。設(shè)置權(quán)重階段需要從網(wǎng)頁上爬取數(shù)據(jù),爬取數(shù)據(jù)代碼的時(shí)間復(fù)雜度為O(1);設(shè)置權(quán)重階段的時(shí)間復(fù)雜度主要由作者、期刊、文章這三個(gè)對象的節(jié)點(diǎn)數(shù)決定,假設(shè)三個(gè)對象的節(jié)點(diǎn)數(shù)分別為|A|、|J|、|S|,那么設(shè)置權(quán)重階段的時(shí)間復(fù)雜度為O(|A|)+O(|J|)+O(|S|)。在排名計(jì)算階段,每一次迭代中每條邊的權(quán)重都會(huì)計(jì)算兩次,那么每一次迭代的時(shí)間復(fù)雜度為O(E),假設(shè)迭代l次,計(jì)算的開銷則為O(l|E|)。最后算法總的時(shí)間復(fù)雜度為O(N)+O(|A|)+

        O(|J|)+O(|S|)+O(l|E|)。

        3 算法實(shí)驗(yàn)

        本文從NLM官網(wǎng)(http://www.nlm.nih.gov/bsd/licensee/ access/medline_pubmed.html)獲得Medline數(shù)據(jù)庫的XML格式文件,并選擇高血壓合并慢性腎臟病(CKD)作為選定的疾病,因?yàn)楦哐獕鹤鳛槿蚍秶鷥?nèi)最常見的慢性疾病,也是我國發(fā)病率高的疾病之一,據(jù)國家心血管病中心發(fā)布的報(bào)告[15]顯示我國高血壓患者至少有2億。慢性腎臟病作為高血壓主要的并發(fā)癥之一,兩者相互影響,導(dǎo)致人群患病率及致死率逐年增高。于是在實(shí)驗(yàn)中我們根據(jù)“人類(Human)”“高血壓(Hypertension)”“ 慢性腎衰竭(Kidney Failure, Chronic和Kidney Insufficiency, Chronic)” 等關(guān)鍵字將與高血壓合并慢性腎臟病相關(guān)的文章PMID、作者、期刊、發(fā)表類型、研究類型、發(fā)表時(shí)間以及藥物名稱提取出來,構(gòu)成疾病子網(wǎng)絡(luò)。表1顯示了這個(gè)疾病子網(wǎng)絡(luò)各類型對象的數(shù)目。

        表1 CKD星型網(wǎng)絡(luò)各對象的數(shù)目Tab. 1 Size of objects in CKD star network

        接著,根據(jù)作者的姓名、期刊的ISSN號、文章名稱和期刊名從Web of Science 上利用爬蟲程序得到作者的H指數(shù)、期刊的影響因子和文章的引用數(shù),待標(biāo)準(zhǔn)化之后更新網(wǎng)絡(luò)權(quán)重。最后將算法中的參數(shù)設(shè)置為ξ=0.000 1,K=10并運(yùn)行,最終得到高血壓合并慢性腎臟病排名前十的藥物如表2所示。作為比較,表2中也列出了MedRank算法得到的前十名推薦藥物。

        從表2可以看出,MedRank算法推薦的第一名是“Antihypertensive Agents(降壓藥)”,這個(gè)名詞是后面推薦藥物的總稱,于醫(yī)療人員沒有參考價(jià)值,而HIC-MedRank算法推薦的方案是具體的降壓藥物名稱。之后,對HIC-MedRank算法推薦的前十名藥物相關(guān)的支持文章數(shù)目、文章的發(fā)表年份以及三個(gè)指標(biāo)的平均值進(jìn)行了統(tǒng)計(jì)分析,統(tǒng)計(jì)結(jié)果如表3所示。

        表2 MedRank和HIC-MedRank算法為高血壓合并慢性腎臟病推薦的前十名降壓藥物Tab. 2 Top 10 influential medications for Hypertension with CKD recommended by MedRank and HIC-MedRank

        表3中顯示了與每一種藥物相關(guān)的三種指標(biāo)的平均值,從表中可以看出排名前十的藥物它們對應(yīng)的文章具有較高的引用率或者期刊的平均影響因子較高或者作者的平均H指數(shù)較高。在本文算法中,文章的引用數(shù)目影響較大,所以在結(jié)果中擁有最高平均文章引用數(shù)248.35的“Losartan”排名第一,而第二名“Irbesartan”的平均文章引用數(shù)僅為143.65??梢妼?shí)驗(yàn)結(jié)果符合本文假設(shè):一個(gè)治療藥物是有效的,如果它被許多好的文章提及,而這些文章出自優(yōu)秀的作者之手并被刊登在高水平的期刊上。

        圖2展示了支持前十名藥物的文章近十幾年來發(fā)表的數(shù)目,圖中有3個(gè)峰值:“Captopril”是第一個(gè)研究熱點(diǎn),研究時(shí)間從1979年至1993年;“Irbesartan”是第二個(gè)研究熱點(diǎn),研究時(shí)間從1997年至2008年;第三個(gè)是從2010年至今進(jìn)行研究的“Olmesartan”。而在實(shí)際生活中,“Captopril”和“Irbesartan”的確是治療高血壓時(shí)使用廣泛的藥物[16],而“Olmesartan”會(huì)不會(huì)成為接下來流行使用的藥物尚未可知,還待進(jìn)一步研究。

        與第一名藥物L(fēng)osartan關(guān)聯(lián)的文章、作者、期刊以及發(fā)表類型如圖3所示,其中空心圓節(jié)點(diǎn)代表作者,三角形節(jié)點(diǎn)代表文章,菱形節(jié)點(diǎn)代表期刊,實(shí)心圓節(jié)點(diǎn)代表藥物,正方形節(jié)點(diǎn)代表發(fā)表類型。

        表3 HIC-MedRank算法推薦的前十名藥物相關(guān)的支持文章數(shù)、文章發(fā)表年份以及三個(gè)指標(biāo)的平均值Tab. 3 Supporting articles’ count, publishing year and average of three indicators of top 10 recommended medications by HIC-MedRank algorithm

        圖2 前十名藥物支持文章的發(fā)表年份和發(fā)表數(shù)目關(guān)系圖Fig. 2 Relation between publication year and paper count per year of top 10 medications

        圖3 與Losartan藥物相關(guān)的醫(yī)療信息網(wǎng)絡(luò)Fig. 3 Medical information network of Losartan

        4 結(jié)果評估

        本章將對HIC-MedRank算法推薦的前十個(gè)降壓藥物進(jìn)行評估,采用的方法是:1)與醫(yī)生的調(diào)研結(jié)果進(jìn)行比較;2)與美國成人高血壓治療指南進(jìn)行比較。

        4.1 HIC-MedRank算法vs. 醫(yī)生排名

        4.1.1 醫(yī)生排名

        為了評估算法結(jié)果,本文特定在全國范圍內(nèi)面向醫(yī)生群體作了一次調(diào)研。調(diào)研問卷包含22個(gè)單項(xiàng)選擇題和多個(gè)多項(xiàng)選擇,內(nèi)容涵蓋:1)醫(yī)生的基本信息(所處地區(qū)、醫(yī)院等級、科室、職位、年齡、性別等);2)治療高血壓合并慢性腎臟病患者時(shí)傾向使用的降壓藥。

        調(diào)研時(shí)間歷時(shí)1個(gè)月,共收到中國大陸地區(qū)28個(gè)省反饋的375份有效問卷?;卮饐柧淼尼t(yī)師有76.92%來自三級醫(yī)院,32.5%的醫(yī)師是主任或副主任級別,24.5%的是主治醫(yī)師,剩余的是住院醫(yī)師或醫(yī)學(xué)研究生。本文將醫(yī)師按照崗位級別劃分為三類,每一類醫(yī)師按照年齡進(jìn)行高低排序并選擇其中的前90名,統(tǒng)計(jì)他們第一傾向使用的藥物,結(jié)果如表4所示。

        表4 三個(gè)級別的醫(yī)師的投票結(jié)果Tab. 4 Voting results of three level physicians

        4.1.2 一致性測量

        HIC-MedRank算法的推薦結(jié)果需要與醫(yī)師的投票結(jié)果進(jìn)行一致性比較,本文采用交叉度量 (intersection metric或AO)[17]的方式進(jìn)行測量。

        使用τ(i)(1≤i≤k)表示大小為k的列表中前i個(gè)值,根據(jù)文獻(xiàn)[14]中的定義,兩個(gè)列表之間的不一致性由以下兩個(gè)公式計(jì)算:

        (3)

        (4)

        最后,列表的一致性為:

        AO(τ1,τ2)=1-δ(w)(τ1,τ2)

        (5)

        其中:⊕表示對稱差,X⊕Y=(XY)∪(YX);τ1,τ2是兩個(gè)排序列表。AO的取值范圍為[0,1],0表示兩個(gè)列表不一致,1表示兩個(gè)列表完全一致。

        將算法排名與各級別醫(yī)師的投票結(jié)果使用上述公式進(jìn)行兩兩一致性比較,結(jié)果如表5所示。

        由于醫(yī)生的投票具有很強(qiáng)的主觀性,不同的醫(yī)生治療疾病使用的藥物不盡相同,所以HIC-MedRank推薦的藥物與醫(yī)師的投票結(jié)果一致性在期望值以下。此外,本次調(diào)研范圍只是在中國大陸,中國醫(yī)生的反饋結(jié)果并不能代表全世界醫(yī)生的意愿。所以接下來,本文將算法的推薦結(jié)果與更具權(quán)威的JNC指南進(jìn)行比較。

        表5 HIC-MedRank算法結(jié)果與三個(gè)級別醫(yī)師投票結(jié)果的一致性計(jì)算Tab. 5 AO score among system rankings and physicians’ rankings

        4.2 HIC-MedRank算法vs. JNC

        JNC指南是由美國預(yù)防、檢測、評估與治療高血壓全國聯(lián)合委員會(huì)發(fā)布的報(bào)告。在JNC第7次報(bào)告中,ACEI類和ARB類藥物作為高血壓合并腎臟病的推薦使用藥物,這兩類藥物主要包含:Benazepril、Captopril、Enalapril, Fosinopril、Lisinopril、Moexipril、Quinapril、Perindopril、Ramipril、Trandolapril、Candesartan、Eprosartan、Irbesartan、Losartan、Olmesartan、Telmisartan、Valsartan等17種藥物。將HIC-MedRank推薦的藥物與指南比較,結(jié)果如表6所示,只有Amlodipine與Atenolol不在指南推薦藥物之內(nèi)。

        表6 算法推薦用藥與JNC指南比較Tab. 6 Concordance evaluation compared with JNC7

        5 結(jié)語

        本文提出了一個(gè)改進(jìn)的基于醫(yī)學(xué)信息網(wǎng)絡(luò)分析的藥物推薦算法HIC-MedRank,不僅在MedRank算法上考慮了文章的發(fā)表時(shí)間、發(fā)表類型、研究類型等屬性,還使用作者H指數(shù)、期刊影響因子、文章的引用數(shù)作為判斷作者、期刊、文章是否優(yōu)秀的指標(biāo)。假設(shè)一篇文章是好的,如果它被其他文章引用頻率很高;一個(gè)期刊是高水平的,如果該期刊有很高的影響因子;一個(gè)作者是優(yōu)秀的,如果他/她的h篇文章被至少引用了h次;那么一個(gè)治療藥物是有效的,如果它被許多好的文章提及,而這些文章出自優(yōu)秀的作者之手并被刊登在高水平的期刊上。最終HIC-MedRank推薦的用藥比MedRank算法更精準(zhǔn),更易輔助醫(yī)生進(jìn)行臨床決策,且推薦藥物與JNC指南也較為一致。

        然而,本文還存在許多不足之處。不少研究人員認(rèn)為H指數(shù)并不能作為判斷作者學(xué)術(shù)水平能力的指標(biāo),如果一個(gè)作者只寫過1篇文章,即使這篇文章被引用了上千次,該作者的H指數(shù)也只能是1。所以有研究者于2006年提出評價(jià)作者科研能力的新指標(biāo)——G指數(shù),可以彌補(bǔ)H指數(shù)不能很好反映高被引用論文的缺陷[18]。此外本文研究還存在另外一個(gè)問題,在提取網(wǎng)絡(luò)時(shí),假定文章中提及到的藥物是文章認(rèn)為有效的藥物,可是在實(shí)際生活中,文中提到的藥物也許是無效藥物,所以還需要從摘要或文章中進(jìn)行文本、語義分析判斷文中提到的藥物是否是文章認(rèn)為有效的藥物,這個(gè)問題還待進(jìn)一步研究與解決。

        References)

        [1] 丁香園調(diào)查派. 醫(yī)療決策支持:文獻(xiàn)經(jīng)久不衰[EB/OL]. [2016- 01- 25]. http://vote.dxy.cn/report/dxy/id/67390. (www.dxy.cn. Clinical decision support:literatures last a long time [EB/OL]. [2016- 01- 25]. http://vote.dxy.cn/report/dxy/id/67390.)

        [2] AGHAZADEH S, ALIYEV A Q, EBRAHIMNEJAD M. The role of computerizing physician orders entry (CPOE) and implementing decision support system (CDSS) for decreasing medical errors [C]// AICT 2011: Proceedings of the 2011 5th International Conference on Application of Information and Communication Technologies. Piscataway, NJ: IEEE, 2011: 1-3.

        [3] ELDER N C, DOVEY S M. Classification of medical errors and preventable adverse events in primary care: a synthesis of the literature [J]. Journal of Family Practice, 2002, 51(11): 927-932.

        [4] BOM H S, PARK S H, CHOI J W, et al. Effects of clinical decision support system on reduction of adverse drug events: a meta-analysis [J]. Journal of Korean Society of Medical Informatics, 2002, 8(3): 55-60.

        [5] REICHRATH J, BENS G, BONOWITZ A, et al. Treatment recommendations for pyoderma gangrenosum: an evidence-based review of the literature based on more than 350 patients [J]. Journal of the American Academy of Dermatology, 2005, 53(2): 273-283.

        [6] AGARWAL P, SEARLS D B. Literature mining in support of drug discovery [J]. Briefings in Bioinformatics, 2008, 9(6): 479-492.

        [7] CHEN L, LI X, HAN J. MedRank: discovering influential medical treatments from literature by information network analysis [C]// ADC 2013: Proceedings of the Twenty-Fourth Australasian Database Conference. Darlinghurst, Australia: Australian Computer Society, 2013: 3-12.

        [8] LANCET T. Chronic kidney disease: refining diagnosis and management [J]. The Lancet, 2014, 384(9941): 378.

        [9] LINDSEY D. Using citation counts as a measure of quality in science measuring what’s measurable rather than what’s valid [J]. Scientometrics, 1989, 15(3/4): 189-203.

        [10] GARFIELD E. Journal impact factor: a brief review [J]. Canadian Medical Association Journal, 1999, 161(8): 979-980.

        [11] HIRSCH J E. An index to quantify an individual’s scientific research output [J]. Proceedings of the National Academy of Sciences of the United States of America, 2005, 102(46): 16569-16572.

        [12] BALL P. Index aims for fair ranking of scientists [J]. Nature, 2005, 436(7053): 900.

        [13] SUN Y, HAN J, ZHAO P, et al. RankClus: integrating clustering with ranking for heterogeneous information network analysis [C]// EDBT 2009: Proceedings of the 12th International Conference on Extending Database Technology: Advances in Database Technology. New York: ACM, 2009: 565-576.

        [14] SUN Y, YU Y, HAN J. Ranking-based clustering of heterogeneous information networks with star network schema [C]// KDD 2009: Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2009: 797-806.

        [15] 陳偉偉,高潤霖,劉力生,等.中國心血管病報(bào)告2013概要[J].中國循環(huán)雜志,2014(7):487-491. (CHEN W W, GAO R L, LIU L S, et al. Outline of 2013 China cardiovascular disease report [J]. Chinese Circulation Journal, 2014(7): 487-491.)

        [16] HUSAIN A, AZIM M S, MITRA M, et al. A review of pharmacological and pharmaceutical profile of Irbesartan [J]. Pharmacophore, 2011, 2(6): 276-86.

        [17] FAGIN R, KUMAR R, SIVAKUMAR D. Comparing topklists [J]. SIAM Journal on Discrete Mathematics, 2003, 17(1): 134-160.

        [18] EGGHE L. Theory and practice of theG-index [J]. Scientometrics, 2006, 69(1): 131-152.

        This work is partially supported by the National High Technology Research and Development Program (863 Program) of China (2015AA015308), the National Science Foundation of China (81273594), the National Science and Technology Major Project (2012ZX09303014001).

        ZOULinlin, born in 1990, M. S. candidate. Her research interests include machine learning, data mining.

        LIXueming, born in 1967, Ph. D., professor. His research interests include data mining, big data, high performance computing.

        LIXue, born in 1956, Ph. D., professor. His research interests include data mining, social computing, intelligent information systems.

        YUANHong, born in 1957, Ph. D., chief physician, professor. His research interests include individualized treatment of hypertension, clinical cardiovascular pharmacology.

        LIUXing, born in 1989, Ph. D. candidate, physician. Her research interests include big data of hypertension.

        HIC-MedRankimproveddrugrecommendationalgorithmbasedonheterogeneousinformationnetwork

        ZOU Linlin1, LI Xueming1,2*, LI Xue3, YUAN Hong4, LIU Xing4

        (1.CollegeofComputerScience,ChongqingUniversity,Chongqing400044,China;KeyLaboratoryofDependableServiceComputinginCyberPhysicalSociety,MinistryofEducation,ChongqingUniversity,Chongqing400044,China;3.SchoolofInformationTechnologyandElectricalEngineering,UniversityofQueensland,Brisbane4072,Australia;4.DepartmentofCardiology,theThirdXiangyaHospital,CentralSouthUniversity,ChangshaHunan410013,China)

        With the rapid growth of medical literature, it is difficult for physicians to maintain up-to-date knowledge by reading biomedical literatures. An algorithm named MedRank can be used to recommend influential medications from literature by analyzing information network, based on the assumption that “a good treatment is likely to be found in a good medical article published in a good journal, written by good author(s)”, recomending the most effective drugs for all types of disease patients. But the algorithm still has several problems: 1) the diseases, as the inputs, are not independent; 2) the outputs are not specific drugs; 3) some other factors such as the publication time of the article are not considered; 4) there is no definition of “good” for the articles, journals and authors. An improved algorithm named HIC-MedRank was proposed by introducing H-index of authors, impact factor of journals and citation count of articles as criterion for defining good authors, journals and articles, and recommended antihypertensive agents for the patients suffered from Hypertension with Chronic Kidney Disease (CKD) by considering published time, support institutions, publishing type and some other factors of articles. The experimental results on Medline datasets show that the recommendation drugs of HIC-MedRank algorithm are more precise than those of MedRank, and are more recognized by attending physicians. The consistency rate is up to 80% by comparing with the JNC guidelines.

        heterogeneous information network; data mining; clinical decision support; H-index; hypertension; Chronic Kidney Disease (CKD); drug recommendation

        TP391.4; TP181

        A

        2017- 02- 10;

        2017- 03- 15。

        國家863計(jì)劃項(xiàng)目(2015AA015308);國家自然科學(xué)基金資助項(xiàng)目(81273594);國家科技重大專項(xiàng)(2012ZX09303014001)。

        鄒林霖(1990—),女,四川內(nèi)江人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘; 李學(xué)明(1967—),男,重慶人,教授,博士,主要研究方向:數(shù)據(jù)挖掘、大數(shù)據(jù)、高性能計(jì)算; 李雪(1956—),男,重慶人,教授,博士,主要研究方向:數(shù)據(jù)挖掘、社會(huì)計(jì)算、智能信息系統(tǒng);袁洪(1957—),男,湖南長沙人,主任醫(yī)師,教授,博士,主要研究方向:高血壓個(gè)體化治療、臨床心血管藥理; 劉星(1989—),女,湖南長沙人,醫(yī)師,博士研究生,主要研究方向:高血壓大數(shù)據(jù)。

        1001- 9081(2017)08- 2368- 06

        10.11772/j.issn.1001- 9081.2017.08.2368

        猜你喜歡
        期刊高血壓文章
        期刊更名啟事
        期刊簡介
        全國高血壓日
        期刊問答
        細(xì)致入微的描寫讓文章熠熠生輝
        放屁文章
        如何把高血壓“吃”回去?
        高血壓,并非一降了之
        小處著眼,寫大文章
        做好深化國企改革大文章
        永久免费的av在线电影网无码 | 国产精品性一区二区三区| 日本妇女高清一区二区三区| 99久久无码一区人妻| 国产xxxx99真实实拍| 精品亚洲国产探花在线播放 | 国产成人精品三级麻豆 | 亚洲中文字幕在线观看| 国产精品不卡无毒在线观看| 久久国产精品一区二区| 日本系列中文字幕99| 免费a级作爱片免费观看美国| 久久久久久久久久久熟女AV| 免费人成黄页网站在线观看国产| 一本久久综合亚洲鲁鲁五月夫| 一区二区三区在线视频观看 | 在线av野外国语对白| 丰满少妇av一区二区三区| 国产av熟女一区二区三区 | 妺妺窝人体色www看人体| 欧美白人最猛性xxxxx| 国产精品女同学| 亚洲网站一区在线播放| 无码人妻精品一区二区| 99视频全部免费精品全部四虎| 精品在线视频免费在线观看视频 | 午夜日本精品一区二区| 亚洲中文字幕在线一区| 亚洲精品美女久久久久99| 国产成人8x视频网站入口| 精品人妻日韩中文字幕| 亚洲av无码无限在线观看| 初尝黑人嗷嗷叫中文字幕| 日本中文字幕av网址| 国产亚洲一区二区三区| 无套内射无矿码免费看黄| 在线观看国产三级av| 日韩av一区二区三区精品久久 | 国产亚洲成av人片在线观黄桃| 日本a级特黄特黄刺激大片| 一区二区在线视频大片|