薛萌
摘要:隨著信息技術(shù)的發(fā)展和網(wǎng)絡(luò)設(shè)備的普及,大數(shù)據(jù)時代下信息的需求量逐漸增加。對于專業(yè)要求性強且發(fā)展迅速的醫(yī)學(xué)來說,信息檢索技術(shù)的優(yōu)化和利用對于促進醫(yī)學(xué)信息建設(shè),加強信息的互動性和層次性有重要意義。本文就目前醫(yī)學(xué)信息檢索技術(shù)展開研究,并基于醫(yī)學(xué)專業(yè)信息檢索特點,提出了更為便捷的信息檢索方式,以期促進醫(yī)學(xué)信息檢索技術(shù)的發(fā)展。
關(guān)鍵詞:信息檢索;醫(yī)學(xué)信息;檢索技術(shù)
中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1009-3044(2016)23-0241-02
隨著信息技術(shù)的發(fā)展和大數(shù)據(jù)時代的到來,醫(yī)學(xué)理論和醫(yī)學(xué)專業(yè)技術(shù)的革命速度加快,信息量逐漸增大。大量的信息為醫(yī)務(wù)工作者的學(xué)習(xí)和研究提供了便利,同時海量的數(shù)據(jù)也為其帶來了信息檢索和篩選的障礙。傳統(tǒng)的醫(yī)學(xué)信息檢索方式通過文本檢索的方式得到的返回結(jié)果數(shù)量過多,需要額外對返回結(jié)果進行過濾和選擇,難以滿足人們對醫(yī)學(xué)信息檢索精準(zhǔn)和快捷的需求。因此,本文在分析了醫(yī)學(xué)信息檢索相關(guān)技術(shù)的基礎(chǔ)上,探討了短語檢索方式在醫(yī)學(xué)信息檢索與利用中的優(yōu)勢,為醫(yī)學(xué)信息檢索與利用提供參考和借鑒。
1 醫(yī)學(xué)信息檢索的概述
1.1 醫(yī)學(xué)信息檢索的概念
信息檢索是指利用一定的方式將信息進行有序地組織,根據(jù)信息檢索者的需求來找出其需求信息的過程與技術(shù)。那么醫(yī)學(xué)信息檢索的概念就是指,從信息資源的大集合中,查找所需要的醫(yī)學(xué)文獻或者是查找醫(yī)學(xué)文獻中所需要的醫(yī)學(xué)信息內(nèi)容的過程和技術(shù)。從概念中我們得知醫(yī)學(xué)信息檢索是醫(yī)學(xué)信息重新匹配的過程,包括了醫(yī)學(xué)信息的處理和檢索兩個部分。
信息檢索的方式包括手工檢索、機械檢索和計算機檢索,其中計算機檢索是信息檢索的重點部分,是指利用互聯(lián)網(wǎng)終端和信息技術(shù),查找和獲取信息的檢索方式,這種方式符合大數(shù)據(jù)時代的要求,也是未來發(fā)展的主要方向,本文就計算機信息檢索展開研究。
1.2 醫(yī)學(xué)信息檢索的特點
專業(yè)性。醫(yī)學(xué)是一項非常嚴(yán)謹(jǐn)?shù)膶I(yè)研究,從事醫(yī)學(xué)工作的醫(yī)務(wù)人員都有非常具體而明確的研究目標(biāo)與方向,對相關(guān)的信息資源有著非常深入的了解,且關(guān)注的范圍和內(nèi)容有針對性,有強烈的專業(yè)特征。
時效性。由于醫(yī)學(xué)技術(shù)的迅速發(fā)展,在知識不斷更新、技術(shù)不斷優(yōu)化的醫(yī)學(xué)領(lǐng)域中,對于醫(yī)學(xué)信息的實時了解與研究非常重要。醫(yī)學(xué)專業(yè)的工作者對于醫(yī)學(xué)信息檢索的時效性需求更為強烈,及時、高效的醫(yī)學(xué)信息對于醫(yī)療技術(shù)的發(fā)展和進步也有至關(guān)重要的作用。
價值性。對于醫(yī)學(xué)而言,高質(zhì)量、高效率的醫(yī)學(xué)信息資源利用是提升醫(yī)學(xué)專業(yè)理論水平,加深專業(yè)深度的重要方面。在大數(shù)據(jù)時代下,海量的信息中不乏虛假、質(zhì)次、不準(zhǔn)確的信息,這種信息的存在給醫(yī)學(xué)的發(fā)展和醫(yī)學(xué)信息檢索帶來不利。醫(yī)學(xué)信息檢索和利用中的價值性非常重要。
2 醫(yī)學(xué)信息檢索與利用的相關(guān)技術(shù)
2.1 網(wǎng)絡(luò)爬蟲技術(shù)
網(wǎng)絡(luò)爬蟲技術(shù)是根據(jù)一定的規(guī)則和方法自動的抓取萬維網(wǎng)中信息的程序或者腳本技術(shù)。網(wǎng)絡(luò)爬蟲技術(shù)是信息檢索與利用的主要技術(shù),為醫(yī)學(xué)信息的檢索提供了必要的信息來源。
網(wǎng)絡(luò)爬蟲技術(shù)的模塊包括了初始的URL集合、頁面庫、待抓取URL隊列、頁面下載模塊、頁面分析模塊和鏈接過濾模塊六部分。常見的信息抓取策略有深度優(yōu)先策略和廣度優(yōu)先策略兩種。深度優(yōu)先是指在抓取信息時以深度為最優(yōu)先的選擇,隨著鏈接逐漸往下跟蹤,直到達到這條鏈條的重點,再從其他頁面開始抓取信息。廣度優(yōu)先是將頁面所有鏈接都進行提取,放入帶抓取URL隊列,逐層抓取頁面信息。
2.2 結(jié)構(gòu)化信息
信息在經(jīng)過分析之后可以分解為多個有聯(lián)系的組成部分,各個部分之間存在著明確的層次結(jié)構(gòu)被稱之為結(jié)構(gòu)化信息,結(jié)構(gòu)化信息的使用和維護可以通過數(shù)據(jù)庫進行有效管理和操作。醫(yī)學(xué)信息多數(shù)由文本、圖片、表格、檔案、多媒體內(nèi)容等形式組成,這類信息內(nèi)容不可預(yù)知,其內(nèi)容無法直接進行組織排列,被稱為非結(jié)構(gòu)化信息。非結(jié)構(gòu)化信息難以實現(xiàn)高效的流轉(zhuǎn),增加了檢索中的信息處理難度,非結(jié)構(gòu)化信息的結(jié)構(gòu)化是信息檢索和利用的重要步驟。利用網(wǎng)絡(luò)爬蟲技術(shù)抓取的網(wǎng)頁并非是結(jié)構(gòu)化信息,需要進一步對信息進行提取和過濾,增加信息檢索的精確度,將信息以結(jié)構(gòu)化的形式進行保存。
2.3 索引技術(shù)
索引技術(shù)是提高非結(jié)構(gòu)化信息的檢索和提取效率的有效方法,利用索引技術(shù)能夠有效地提取非結(jié)構(gòu)化數(shù)據(jù)信息,使得數(shù)據(jù)信息得以重新組織,加強其結(jié)構(gòu)性,加快信息檢索的效率。索引技術(shù)包括了前向索引和倒排索引兩種。
前向索引是較早也較成熟的索引技術(shù),利用前向索引技術(shù)對文本信息進行分詞組分析,獲取文本信息中的詞元token、頻次等信息。這種技術(shù)進行信息檢索頗為不便,然而利用前向索引獲取的詞,可以為倒排索引建立條件。
倒排索引通過關(guān)鍵字來獲取信息,一般情況下倒排索引包括了詞典和倒排鏈表兩部分。詞典是根據(jù)索引詞的規(guī)則排列而成的,是對索引詞、頻次和指針的記錄。倒排鏈表是對文本的集合,倒排鏈表的節(jié)點數(shù)是根據(jù)詞典中的document frequency來制定。
倒排索引能夠?qū)?fù)雜信息進行高效查詢,將信息轉(zhuǎn)變?yōu)閹讉€集合的交集,通過一定的計算方法獲取所需的數(shù)據(jù)信息,減少了信息讀取的時間,降低了數(shù)據(jù)運算的難度,提升了檢索的效率。
2.4 搜索結(jié)果排序技術(shù)
信息索引完成之后,利用關(guān)鍵字進行查詢能夠快速獲得所需的信息。然而對于專業(yè)程度高、信息量巨大且更新快速的醫(yī)學(xué)信息來說,在通過信息索引完成信息檢索,其檢索的結(jié)果是大量的相關(guān)信息但排列無序仍然無法滿足信息檢索與利用的需求。對信息搜索結(jié)果的排序非常重要。信息搜索結(jié)果的排序需要先利用關(guān)鍵詞查詢獲取相關(guān)信息文本,再通過一定的計算方法對本文的相關(guān)度進行計算或者評分,根據(jù)計算的結(jié)果來進行排序獲取結(jié)果集。通常情況下,搜索結(jié)果排序中的計算方法包括PageRank計算法和Hits計算法兩種。
PageRank計算法是利用入鏈的數(shù)量來判斷網(wǎng)頁信息的重要性的,頁面的入鏈數(shù)量越大則判斷頁面越重要,在實際計算中需要多次的迭代來確定信息的評分。Hits計算法是根據(jù)樞紐值和權(quán)威值互相增強的關(guān)系來進行計算的。樞紐值是指頁面中包含的鏈接所指向頁面的權(quán)威值的和。權(quán)威值是指包含頁面鏈接中頁面的樞紐值的和。在計算過程中根據(jù)Root Set結(jié)合內(nèi)頁面的出入度建立數(shù)據(jù)矩陣,對矩陣進行迭代計算,樞紐值和權(quán)威值達到既定的收斂閾值獲取結(jié)果。
3 醫(yī)學(xué)信息檢索與利用的優(yōu)化——基于短語檢索方法的查詢擴展
隨著大數(shù)據(jù)時代的到來,對于醫(yī)學(xué)專業(yè)而言,在海量信息中精確獲取目標(biāo)信息變得越來越重要?;诙陶Z檢索方法的查詢擴展能夠引導(dǎo)醫(yī)學(xué)信息的需求者發(fā)現(xiàn)需要的信息,實現(xiàn)信息的高效利用。
基于短語檢索方法的查詢擴展能夠利用富含語義信息的概念來取代傳統(tǒng)信息檢索方式,傳統(tǒng)信息檢索方式有耗時耗力、增加索引存儲空間的弊端。短語信息檢索模型在醫(yī)學(xué)信息檢索與利用中以自身比單詞長比句子段的單位特點,能夠更好地表達概念結(jié)構(gòu),消除歧義,確定上下文環(huán)境,以提升醫(yī)學(xué)檢索的性能。在短語檢索中分為句法層面的短語構(gòu)造和統(tǒng)計學(xué)意義的短語構(gòu)造,為了提升檢索精確度,句法層面的短語構(gòu)造更有利用價值。
在醫(yī)學(xué)信息檢索與利用中,短語檢索方式和查詢擴展包括三個步驟。第一是借助MetaMap工具自動實現(xiàn)在檢索查詢中識別短語詞組phrases;第二步是利用檢索引擎Indri和自帶的信息結(jié)構(gòu)化語言實現(xiàn)在文本中識別短語詞組phrases;第三步同樣利用Indri和自帶的信息結(jié)構(gòu)化語言組合短語和原始查詢中的詞項,生成新的查詢并進行搜索結(jié)果排序計算完成最終的檢索。
這種基于短語的醫(yī)學(xué)信息檢索與利用方式相對于傳統(tǒng)檢索方式在各個性能方面都有很大的提升,能夠縮短信息檢索時間,提高信息檢索的精確度,面對較為復(fù)雜的醫(yī)學(xué)信息查詢亦能應(yīng)付自如,是較為理想的醫(yī)學(xué)信息檢索與利用方式。
參考文獻:
[1] 陳永莉,洪漪. 檢索語言在醫(yī)學(xué)信息管理與檢索中的應(yīng)用綜述[J]. 圖書情報知識,2015(3):72-79.
[2] 胡德華,種樂熹,邱均平,等. 國內(nèi)外知識檢索研究的進展與趨勢[J]. 圖書情報知識,2015(3):93-106.
[3] 郭少友,李亞菲,梁園園. 基于細(xì)粒度語義化描述的醫(yī)學(xué)文本檢索[J]. 情報理論與實踐,2015(8):130-134.