王文斌 顧君忠 周子力 張非凡
電子病歷檢索中基于詞權(quán)調(diào)整的查詢重構(gòu)
王文斌1顧君忠1周子力2張非凡1
1(華東師范大學(xué)計算機科學(xué)技術(shù)系 上海 200241)
2(曲阜師范大學(xué)物理工程學(xué)院 山東 曲阜 273165)
電子病歷EMR(Electronic Medical Records)檢索是信息檢索研究中的一個新領(lǐng)域。醫(yī)學(xué)術(shù)語在電子病歷檢索中占有重要地位,通常用來限定檢索條件、表達用戶的檢索意圖。針對這種情況,提出一種基于醫(yī)學(xué)術(shù)語權(quán)重調(diào)整的查詢重構(gòu)方法,以提高電子病歷檢索的性能。該方法首先從原始查詢語句中篩選出醫(yī)學(xué)術(shù)語,然后使用自信息來度量每個醫(yī)學(xué)術(shù)語的權(quán)重,最后將加權(quán)的醫(yī)學(xué)術(shù)語與原始查詢語句按照一定的權(quán)重比例結(jié)合,構(gòu)造出新的查詢語句。將該方法在TREC數(shù)據(jù)集上進行實驗,結(jié)果表明與原始查詢結(jié)果相比,重構(gòu)后的查詢結(jié)果在MAP、bpref和P10這三項指標(biāo)上,分別提高了14.2%、10.1%和9.6%,驗證了該方法的有效性。
信息檢索 電子病歷 查詢重構(gòu) 醫(yī)學(xué)術(shù)語 權(quán)重調(diào)整 自信息
隨著醫(yī)療系統(tǒng)的信息化,電子病歷EMR被醫(yī)療機構(gòu)廣泛使用。電子病歷包含了病人的臨床信息,比如:病史、檢查報告、治療藥物等。這些豐富的醫(yī)療信息,可以用來協(xié)助醫(yī)生診斷病人的病情,為病人提供個性化的健康關(guān)懷,更有利于臨床醫(yī)學(xué)研究,可以更好地診斷、預(yù)防和治療人類的疾病。
文獻[1]指出,雖然電子病歷系統(tǒng)能夠有效地訪問病歷中的結(jié)構(gòu)化文本,但是結(jié)構(gòu)化文本很難描述病人之間的差異性,所以病歷的主要內(nèi)容還是由大量自由文本組成。自由文本為醫(yī)護人員記錄病歷提供了方便,卻對電子病歷檢索帶來了巨大困難,因此如何有效地檢索電子病歷成為信息檢索領(lǐng)域中一個熱點問題。
電子病歷檢索是一種篩選符合限制條件的病歷集合的檢索任務(wù)。限制條件中通常包含了各種醫(yī)學(xué)術(shù)語,比如:青光眼(glaucoma)、阿莫西林(amoxicillin)、內(nèi)窺鏡檢查(endoscopy)等等。這些醫(yī)學(xué)術(shù)語描述了病人的病情、使用過的藥物、接受過的檢查等重要醫(yī)療信息。從直覺上來講,這些醫(yī)學(xué)術(shù)語表達了用戶的檢索意圖,應(yīng)該加大權(quán)重?;谶@種假設(shè),本文提出一種基于醫(yī)學(xué)術(shù)語權(quán)重調(diào)整的查詢重構(gòu)方法(UMLS-W),通過提取查詢語句中的醫(yī)學(xué)術(shù)語,在概率模型的框架下,用自信息度量這些術(shù)語的權(quán)重,同時結(jié)合查詢語句中的非醫(yī)學(xué)術(shù)語,重構(gòu)原始查詢語句。在TREC 2011 Medical數(shù)據(jù)集上進行實驗,與原始查詢結(jié)果相比,經(jīng)UMLS-W重構(gòu)后的查詢結(jié)果在MAP、bpref和P10這三項指標(biāo)上,分別提高了14.2%、10.1%和9.6%。
隨著EMR系統(tǒng)的推廣,研究人員嘗試著將搜索引擎技術(shù)應(yīng)用到電子病歷檢索中,EMERSE (Electronic Medical Record Search Engine)系統(tǒng)因此而產(chǎn)生,該系統(tǒng)是最早的電子病歷檢索系統(tǒng)之一。為了更好地研究EMR檢索,文本檢索會議TREC(Text REtrieval Conference)在2011年推出了病歷檢索任務(wù)。TREC任務(wù)的基本規(guī)則是,組織者提供文檔集合和一些測試主題,要求參賽者從文檔集合中檢索出與測試主題相關(guān)的文檔,按照文檔與主題的相關(guān)度降序排序。病歷任務(wù)的規(guī)則略有不同,文檔集是病歷(report)的集合,病人一次就診(visit)會產(chǎn)生一到多份report,檢索結(jié)果按照visit與主題的相關(guān)度降序排序。
查詢重構(gòu)是信息檢索領(lǐng)域中的一種常用技術(shù),其方式一般有兩種,即擴展查詢關(guān)鍵詞[2-4]和關(guān)鍵詞權(quán)重調(diào)整[5]。大多數(shù)病歷檢索的參賽者都利用一些醫(yī)學(xué)相關(guān)的外部資源,比如:UMLS,MeSH,ICD-9編碼等,通過擴展查詢關(guān)鍵詞重構(gòu)查詢。Zhu[6]等人嘗試從不同的外部醫(yī)學(xué)資源中提取新關(guān)鍵詞加入到原始查詢中,構(gòu)造新查詢,以提高病歷檢索的質(zhì)量。他們還研究了資源大小與質(zhì)量,以及混合使用不同資源對查詢重構(gòu)效果的影響。實驗結(jié)果表明,這些擴展關(guān)鍵詞的重構(gòu)方法,相對于原始查詢,各種評價指標(biāo)都有了不同程度的提高,綜合所有評價指標(biāo),udelmx[6]方法效果最好。然而Daoud[7]等人和He[8]等人也使用了醫(yī)學(xué)相關(guān)的外部資源,檢索結(jié)果相對于各自的基準(zhǔn)線,只獲得少許提升,甚至沒有提升。分析其中原因,主要是擴展關(guān)鍵詞的方法容易引入查詢漂移的問題。查詢漂移是指擴展查詢詞后的主旨偏離了用戶的原始檢索意圖,導(dǎo)致查準(zhǔn)率的下降。為了減少主題漂移的影響,Dinh[9]等人從關(guān)鍵詞權(quán)重調(diào)整的角度出發(fā)重構(gòu)原始查詢,實驗結(jié)果表明,綜合所有評價指標(biāo),LGD[9]方法的檢索效果最好。然而Dinh等人的LGD方法與Zhu等人的方法相比,并沒有利用醫(yī)學(xué)相關(guān)的信息。因此,本文嘗試將醫(yī)學(xué)相關(guān)信息加入到權(quán)重調(diào)整算法中,更多地考慮查詢語句中醫(yī)學(xué)術(shù)語的權(quán)重調(diào)整。
本文通過分析病歷檢索的查詢語句和檢索目標(biāo),提出了一種基于醫(yī)學(xué)術(shù)語權(quán)重調(diào)整的查詢重構(gòu)方法UMLS-W,其中重構(gòu)過程如圖1所示。UMLS-W重構(gòu)查詢的流程可以分為三個步驟:步驟1,從輸入的Qorigin中識別出醫(yī)學(xué)術(shù)語,并對其進行篩選;步驟2,對于步驟1中得到的醫(yī)學(xué)術(shù)語,采用自信息度量其權(quán)重;步驟3,結(jié)合Qorigin和步驟2中帶權(quán)重的醫(yī)學(xué)術(shù)語,構(gòu)造新查詢Qnew。本節(jié)將詳細介紹這三個步驟,并以測試集的Topic 104為例進行說明。
圖1 UMLS-W流程圖
2.1 醫(yī)學(xué)術(shù)語識別及篩選
UMLS是統(tǒng)一醫(yī)學(xué)語言系統(tǒng)的簡稱,由元敘詞表、語義網(wǎng)絡(luò)和專家詞典三個組件構(gòu)成。元敘詞表是UMLS的核心數(shù)據(jù)庫,是由各種醫(yī)學(xué)概念和術(shù)語以及它們之間的關(guān)系所構(gòu)成的集合。MetaMap是由Aronson[10]基于UMLS元敘詞表開發(fā)的一款醫(yī)學(xué)術(shù)語識別工具。
本文采用MetaMap識別查詢語句中的醫(yī)學(xué)術(shù)語。因為MetaMap識別出的醫(yī)學(xué)術(shù)語中包含了醫(yī)學(xué)停用詞,比如:病人(patient)、醫(yī)生(doctor)、治療(treat)、診斷(diagnosis)等詞,所以需要將醫(yī)學(xué)停用詞從識別結(jié)果中篩掉。本文采用的醫(yī)學(xué)停用詞表來源于文獻[11],如表1所示(僅列出原型詞)。篩選后的醫(yī)學(xué)術(shù)語記為MUMLS={M1,M2,…,Mx,…,Mn}。因為醫(yī)學(xué)術(shù)語一般由幾個詞組成,所以每個醫(yī)學(xué)術(shù)語可以表示為單詞的集合,即Mx={t1,t2,…,ty,…,tmx}。比如,測試集中的Topic 104的查詢主題為:Patients diagnosed with localized prostate cancer and treated with robotic surgery, 通過MetaMap識別之后,得到patients, diagnosed, localized prostate cancer, treated, robotic surgery, 其中patients, diagnosed, treated屬于醫(yī)學(xué)停用詞,去掉之后,最后得到:
MUMLS={M1,M2}
M1={localized,prostate,cancer}
M2={robotic,surgery}
表 1 本文使用的醫(yī)學(xué)停用詞表
2.2 醫(yī)學(xué)術(shù)語權(quán)重計算
自信息用來衡量單一事件發(fā)生時所包含信息量的多寡。假設(shè)隨機事件ωn發(fā)生的幾率是p(ωn),自信息I(ωn)的定義為:
I(ωn)=-log(p(ωn))
(1)
從定義可以看出,事件發(fā)生的機率越低,在事件發(fā)生時,包含的自信息越大。本文在權(quán)重計算時借鑒了這種思想,即醫(yī)學(xué)術(shù)語在文檔集合中表現(xiàn)出的自信息大小,反映了其在查詢語句中重要程度的高低。因此,本文引入自信息作為醫(yī)學(xué)術(shù)語權(quán)重的度量方式。根據(jù)自信息的定義,醫(yī)學(xué)術(shù)語Mx的權(quán)重wx可以表示為:
wx=-ln(p(Mx|θC))
(2)
其中,p(Mx|θC)表示Mx由文檔集合模型θC生成的概率,本文采用自然對數(shù)。接下來我們需要估算p(Mx|θC),對文檔采用一元語言模型建模,即詞與詞之間是相互獨立的,那么:
(3)
(4)
(5)
問題轉(zhuǎn)換為求文檔集合模型θC生成詞t的概率。本文采用泊松分布來擬合詞t在文檔中的出現(xiàn)次數(shù)T的概率分布情況,即T~Poisson(λ)。在泊松概率分布模型下,使用p(T≥1)估算p(t|θC),那么:
p(t|θC)=p(T≥1)=1-p(T=0)=1-e-λ
(6)
基于整個文檔集合,式(6)中的參數(shù)λ可以使用極大似然估計計算得到,即:
(7)
其中,n表示文檔集合的大小,ki表示詞t在文檔Di中的出現(xiàn)次數(shù)。在文檔集合固定的前提下,每個詞對應(yīng)的λ可以通過預(yù)處理方式先計算出來,這樣可以避免重復(fù)計算,降低計算量。根據(jù)式(7)估算,測試集中Topic 104的localized prostate cancer對應(yīng)的λ值分別為0.0447, 0.0482, 0.1280(保留4位小數(shù)),robotic surgery對應(yīng)的值分別為0.0006, 0.2641(保留4位小數(shù)),代入式(5)、式(6)計算得到:w1=8.31和w2=8.88(保留2位小數(shù))。
2.3 新查詢構(gòu)造
由于醫(yī)學(xué)術(shù)語只是原始查詢語句的一部分,如果僅僅使用它們進行查詢會丟失部分信息,我們將原始查詢語句Qorigin和醫(yī)學(xué)術(shù)語結(jié)合起來,構(gòu)造新查詢,具體的過程如下:
(1) 對于原始查詢語句Qorigin內(nèi)部,組成Qorigin的詞之間的權(quán)重平均分配,得到查詢子句1;
(2) 對于醫(yī)學(xué)術(shù)語Mx內(nèi)部,Mx中每個詞的權(quán)重平均分配;
(4) 將查詢子句1和查詢子句2,按照α:(1-α) 的比例分配權(quán)重,得到新查詢語句,其中參數(shù)α的取值范圍是[0, 1]。
(8)
根據(jù)式(8),對于測試集中的Topic 104,可以計算得到兩個醫(yī)學(xué)術(shù)語的權(quán)重分別為:
本文使用TREC 2011 Medical任務(wù)的數(shù)據(jù)集進行實驗評估。數(shù)據(jù)集共有100 866篇report,對應(yīng)17 198次visit,平均5.86篇report對應(yīng)一次visit。測試集共包含34個主題(實際有35個,其中一個主題因為沒有相關(guān)文檔而被去掉),每個主題的描述部分平均由9.79個詞組成,其中平均5.06個詞屬于醫(yī)學(xué)術(shù)語。
3.1 評價標(biāo)準(zhǔn)
由于平均準(zhǔn)確率均值MAP(Mean Average Precision)是信息檢索的常用評價指標(biāo),以及二值偏好(bpref)和Top-10準(zhǔn)確率(P10)是TREC Medical 2011任務(wù)的官方評價指標(biāo)。因此,本文采用MAP、bpref和P10作為評價標(biāo)準(zhǔn),其中MAP作為主要的評價指標(biāo),三種指標(biāo)的介紹如下:
(1) P10:測量單個檢索結(jié)果中排名前十的文檔準(zhǔn)確率。
(2) MAP:單個主題的平均準(zhǔn)確率是每篇相關(guān)文檔檢索出后的準(zhǔn)確率的平均值,MAP是每個主題的平均準(zhǔn)確率的平均值,是反映系統(tǒng)在全部相關(guān)文檔上性能的單值指標(biāo)。
(3) bpref:主要關(guān)心不相關(guān)文檔在相關(guān)文檔之前出現(xiàn)的次數(shù),具體公式為:
(9)
其中,對每個主題已判定結(jié)果中有R個相關(guān)結(jié)果,r表示相關(guān)文檔,n表示Top R篇不相關(guān)文檔集合的子集,n ranked higher than r是指當(dāng)前相關(guān)結(jié)果項之前有n個不相關(guān)的結(jié)果。需要注意的是,本文之后提到的P10或者bpref是指所有主題的P10或者bpref的均值,并且本文把MAP作為最主要的評價標(biāo)準(zhǔn)。
3.2 實驗設(shè)置
首先介紹實驗的基本設(shè)置:(1) 采用Indri檢索系統(tǒng),以report為單位建立索引和進行檢索,其中,建立索引時,使用Porter[12]算法進行詞干提??;(2) 檢索模型采用Indri支持的語言模型[13],使用Dirichlet平滑方法[14],參數(shù)μ取默認值2500;(3) 檢索結(jié)果需要做report到visit的聚合,聚合的方法是根據(jù)report的排名,計算visit的得分score(v),visit按照score(v)降序排序。score(v)的計算公式見式(10),其中rank(r)表示report的排名。
(10)
為了驗證本文方法的有效性,我們設(shè)計了3組實驗作為對比:(1) 直接將主題的描述作為查詢語句進行檢索,得到的結(jié)果作為基準(zhǔn)結(jié)果(Baseline);(2) 參考2.3節(jié)的新查詢構(gòu)造過程,除了Mx之間的權(quán)重分配方式修改為平均分配,其余保持一致,檢索結(jié)果記為UMLS-E;(3) 使用本文提出的方法進行查詢,檢索結(jié)果記為UMLS-W。為了評估參數(shù)α的作用,從0到1按照0.1的步長,取用α的11個數(shù)值,對UMLS-E和UMLS-W分別設(shè)計了11組實驗。
本文的實驗采用Indri系統(tǒng),經(jīng)UMLS-E和UMLS-W重構(gòu)后的查詢語句,可以很容易地使用Indri的查詢語法進行形式化表示,如圖2和圖3所示。其中,#weight和#combine都是Indri查詢語法的操作符,#weight表示按照給定的比例進行權(quán)重分配,#combine是特殊的#weight,表示權(quán)重平均分配。
圖2 UMLS-E的查詢語句
圖3 UMLS-W的查詢語句
3.3 實驗結(jié)果與分析
首先,我們分析α值對查詢的影響。圖4是在不同α值下,UMLS-E和UMLS-W的MAP值變化的折線圖。從圖4中可以看出:(1) 無論是UMLS-E還是UMLS-W,僅使用醫(yī)學(xué)術(shù)語(即α=0)進行查詢得到的MAP值要高于僅使用原始查詢語句(即α=1)進行查詢得到的MAP值,說明了醫(yī)學(xué)術(shù)語在電子病歷查詢語句中的重要性;(2) 除了Baseline(即α=1)這個點,UMLS-W折線始終在UMLS-E折線的上方,說明查詢的整體性能,UMLS-W方法完全優(yōu)于UMLS-E;(3) 當(dāng)α=0.6時,UMLS-E和UMLS-W的MAP值達到最大值,因此我們將α的取值定為0.6。在下文的分析中,如果不作特別說明,UMLS-E和UMLS-W的各項指標(biāo)都是在α=0.6時得到的結(jié)果。
圖4 α對UMLS-E和UMLS-W的影響
接著,我們分析使用自信息度量醫(yī)學(xué)術(shù)語權(quán)重的效果。作為對比的三個實驗Baseline,UMLS-E和UMLS-W的實驗結(jié)果如表2所示。其中,括號內(nèi)的數(shù)據(jù),是相對Baseline變化的百分比??梢钥闯觯?1) 與Baseline相比, UMLS-E和UMLS-W在三項指標(biāo)上提高了5%~14%,說明更多地考慮醫(yī)學(xué)術(shù)語的權(quán)重有助于提高電子病歷檢索的性能;(2) UMLS-W相對Baseline比UMLS-E相對Baseline提高得更多,說明利用自信息分配醫(yī)學(xué)術(shù)語之間的權(quán)重更有助于提高檢索的性能,驗證了采用自信息度量醫(yī)學(xué)術(shù)語權(quán)重的有效性。
表2 Baseline,UMLS-E和UMLS-W的對比
最后,Baseline、UMLS-E和UMLS-W的準(zhǔn)確—召回率折線圖如圖5所示。從圖5中可以看出,UMLS-E的折線完全在Baseline的右上方,而UMLS-W的折線完全在UMLS-E的折線的右上方,說明整體的檢索性能是UMLS-W > UMLS-E > Baseline。
圖5 準(zhǔn)確-召回率折線圖
最終,我們將UMLS-W和Zhu[6]等人提出的udelmx方法以及Dinh[9]等人提出的LGD方法進行對比。udelmx側(cè)重于擴展關(guān)鍵詞,LGD則側(cè)重于關(guān)鍵詞權(quán)重的調(diào)整。表3給出了UMLS-W、udelmx、LGD三種方法對比的結(jié)果。通過對比表3中的數(shù)據(jù)我們可以發(fā)現(xiàn),在bpref指標(biāo)上,三者的性能相差不多,UMLS-W稍勝一籌。在P10指標(biāo)上,UMLS-W相比udelmx有6.6%的提高,其原因分析為udelmx擴展關(guān)鍵詞之后,過多的擴展詞不但不會起到優(yōu)化原查詢的作用,反而加入噪聲,使得查詢的歧義性增加,導(dǎo)致查準(zhǔn)率下降。而UMLS-W和LGD并不存在這種問題,甚至LGD的P10值還略優(yōu)于UMLS-W。在MAP指標(biāo)上,UMLS-W相比udelmx和LGD分別提高4.8%和6.5%。究其原因,UMLS相比udelmx不受主題漂移問題的影響,而它又考慮了醫(yī)學(xué)術(shù)語這一因素,因此比LGD的查詢效果更好。
表3 UMLS-W與LGD,udelmx的對比。*和**
總體而言,本文的UMLS-W方法使用自信息度量醫(yī)學(xué)術(shù)語的權(quán)重,被證實可以更合理地分配權(quán)重,重構(gòu)的查詢語句可以提高電子病歷檢索系統(tǒng)的性能。
電子病歷檢索的查詢語句中通常包含一些醫(yī)學(xué)術(shù)語作為限制條件。本文研究了如何利用這些醫(yī)學(xué)術(shù)語進行查詢重構(gòu),最后提出了使用自信息度量醫(yī)學(xué)術(shù)語,結(jié)合原始查詢語句,進行查詢重構(gòu)的方法,提高了電子病歷檢索系統(tǒng)的性能。實驗表明,相對于原始查詢結(jié)果,使用UMLS-W重構(gòu)后的查詢結(jié)果在MAP、bpref和P10這三項指標(biāo)上,分別提高了14.2%、10.1%和9.6%。
目前,在本文中參數(shù)α的值是統(tǒng)一設(shè)置的。在接下來的工作中,我們計劃研究針對不同的查詢,自適應(yīng)地設(shè)置α的值,進一步提高電子病歷檢索的性能。
[1] Voorhees E,Hersh W.Overview of the TREC 2012 medical records track[C]//Proceedings of the 21st Text REtrieval Conference Proceedings TREC,2012.
[2] Weerkamp W,Balog K,De Rijke M.Exploiting external collections for query expansion[J].ACM Transactions on the Web (TWEB),2012,6(4):18.
[3] Xu J,Croft W B.Query expansion using local and global document analysis[C]//Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval,ACM,1996:4-11.
[4] Gao J,Xu G,Xu J.Query expansion using path-constrained random walks[C]//Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval,ACM,2013:563-572.
[5] Chang Y C,Chen S M.A new query reweighting method for document retrieval based on genetic algorithms[J].Evolutionary Computation,IEEE Transactions on,2006,10(5):617-622.
[6] Zhu D,Carterette B.Using Multiple External Collections for Query Expansion[C]//Proceedings of the 20th Text REtrieval Conference Proceedings TREC,2011.
[7] Daoud M,Kasperowicz D,Miao J,et al.York University at TREC 2011:Medical Records Track[C]//Proceedings of the 20th Text REtrieval Conference Proceedings TREC,2011.
[8] He J,Hollink V,Boscarino C,et al.CWI at TREC 2011:session,web,and medical[C]//Proceedings of the 20th Text REtrieval Conference Proceedings TREC,2011.
[9] Dinh D,Tamine L.IRIT at TREC 2011:Evaluation of query reformulation techniques for retrieving medical records[C]//Proceedings of the 20th Text REtrieval Conference Proceedings TREC,2011.
[10] Aronson A R,Lang F M.An overview of MetaMap:historical perspective and recent advances[J].Journal of the American Medical Informatics Association,2010,17(3):229-236.
[11] Hersh W.Information Retrieval: A Health and Biomedical Perspective[M].3rd ed.Springer,2009.
[12] Porter M F.An algorithm for suffix stripping[J].Program:electronic library and information systems,1980,14(3):130-137.
[13] Lavrenko V,Croft W B.Relevance based language models[C]//Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval,ACM,2001:120-127.
[14] Zhai C,Lafferty J.A study of smoothing methods for language models applied to ad hoc information retrieval[C]//Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval,ACM,2001:334-342.
QUERY REFORMULATION IN ELECTRONIC MEDICAL RECORDS RETRIEVAL BASED ON REWEIGHTING
Wang Wenbin1Gu Junzhong1Zhou Zili2Zhang Feifan1
1(DepartmentofComputerScienceandTechnology,EastChinaNormalUniversity,Shanghai200241,China)2(SchoolofPhysicsandEngineering,QufuNormalUniversity,Qufu273165,Shandong,China)
Electronic medical record (EMR) retrieval is a new field in information retrieval. Medical terms occupy an important position in EMR retrieval, and they are usually used to limit the retrieval conditions and to suggest users’ search intention. Aiming at the importance of medical terms, we proposed a medical terms reweighting-based query reformulation method to improve the performance of EMR retrieval. First, the method screens out medical terms from original query sentences, and then measures the weight of each medical term by its own self-information. Finally, it constructs new query sentences by combining the weighted medical terms and the original query sentences proportionally. Our method has been experimented on TREC dataset, results showed that compared with original query results, the reformulated query results improved in three items of MAP (+14.2%), bpref (+10.1%) and P10 (+9.6%) respectively, and this verified the effectiveness of the method.
Information retrieval Electronic medical record Query reformulation Medical terms Reweighting Self-information
2014-12-08。上海市國際科技合作基金項目(134307 10100)。王文斌,碩士生,主研領(lǐng)域:語義搜索。顧君忠,教授。周子力,副教授。張非凡,碩士生。
TP391.1
A
10.3969/j.issn.1000-386x.2016.04.019