亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于全文索引與余弦公式醫(yī)學(xué)文本相似性分析

        2014-08-07 13:20:35謝翠萍陳家益白金山
        微型電腦應(yīng)用 2014年1期
        關(guān)鍵詞:余弦公式相似性向量

        謝翠萍,陳家益,白金山

        基于全文索引與余弦公式醫(yī)學(xué)文本相似性分析

        謝翠萍,陳家益,白金山

        醫(yī)學(xué)文本相似性問題是醫(yī)學(xué)文本挖掘中的重要內(nèi)容,如何能夠快速計算出大數(shù)據(jù)量下的醫(yī)學(xué)文本的相似性情況是醫(yī)學(xué)文本相似性計算的重點。針對基于傳統(tǒng)余弦公式醫(yī)學(xué)文本相似性分析算法在性能上的缺陷,提出了一種基于全文索引技術(shù)與余弦公式醫(yī)學(xué)文本相似性分析算法,對醫(yī)學(xué)文本相似性進行分析。采用全文索引技術(shù)對醫(yī)學(xué)文本數(shù)據(jù)相關(guān)關(guān)鍵詞進行索引,并根據(jù)若干關(guān)鍵詞在索引中檢索出部分?jǐn)?shù)據(jù),從而減少計算復(fù)雜度,提高效率。實驗表明,該方法比基于傳統(tǒng)余弦公式醫(yī)學(xué)文本相似性分析算法具有更優(yōu)的性能。

        醫(yī)學(xué)文本相似性;余弦公式;全文索引;文本挖掘;向量空間模型

        0 引言

        隨著信息時代的發(fā)展,各個行業(yè)都將產(chǎn)生大量的各種各樣的數(shù)據(jù)。其中文本數(shù)據(jù)是較重要的一種數(shù)據(jù)。同樣,隨著醫(yī)學(xué)的不斷進步,各種醫(yī)學(xué)文本數(shù)據(jù)也大量充斥在信息流中。如何快速準(zhǔn)確地分析出這些文本數(shù)據(jù)的規(guī)律,獲取有價值的信息是文本數(shù)據(jù)處理的一個難點問題。文本挖掘主要是指從相對較大文本數(shù)據(jù)中挖掘出一些有價值的信息和內(nèi)容。

        醫(yī)學(xué)文本挖掘主要是指對醫(yī)學(xué)相關(guān)數(shù)據(jù)的挖掘和分析,從而得出一些有價值的醫(yī)學(xué)信息。目前國內(nèi)外眾多學(xué)者對醫(yī)學(xué)文本挖掘相關(guān)知識做了一定的研究[1-6]。王浩暢等研究和概括了生物醫(yī)學(xué)文本挖掘技術(shù)的研究與進展[1]。鄭強等研究了生物醫(yī)學(xué)命名實體識別的研究與進展[2]。顧鈞等提出一種新的文本聚類算法,結(jié)合引文信息的生物醫(yī)學(xué)文本聚類研究[5]。醫(yī)學(xué)文本相似性是醫(yī)學(xué)文本挖掘的一種,主要是通過比較醫(yī)學(xué)文本數(shù)據(jù)之間的相似性,從而能夠確定各個醫(yī)學(xué)文本之間的相似程度。目前主要用來對醫(yī)學(xué)文本數(shù)據(jù)進行相似搜索,對相似信息過濾等。趙國光對醫(yī)學(xué)文獻相似性進行了相關(guān)研究,并利用后綴樹和向量空間模型計算相似度[7]。吳飛珍等通過對基因相似性的研究,一種新的基因注釋語義相似度計算方法[8]。傳統(tǒng)的醫(yī)學(xué)文本相似性分析算法一般是基于傳統(tǒng)余弦公式,性能較低,本文提出一種基于全文索引技術(shù)與余弦公式的醫(yī)學(xué)文本相似性分析算法,對醫(yī)學(xué)文本相似性進行分析。

        1基于傳統(tǒng)余弦公式醫(yī)學(xué)文本相似性分析

        下述過程都是在文本分詞之后進行的,因為目前文本分詞技術(shù)比較成熟,這里也不是本文的重點。

        1.1向量空間模型

        向量間空模型[9](VSM:Vector Space Model) 由Salton等人于20世紀(jì)70年代提出,并成功地應(yīng)用于著名的SMART文本檢索系統(tǒng)。在這個模型中,文本空間被看作是由詞語向量組成的向量空間。每個文本d將被表示為一個文本向量,其中是文本分詞后的各個詞語,是中的權(quán)值,這個權(quán)值通常在文本是各個詞語的詞頻或者詞頻的函數(shù)。這樣文本數(shù)據(jù)就轉(zhuǎn)換為文本向量空間,其中代表文檔數(shù),代表詞語個數(shù)。行表示文檔,列表示文檔中出現(xiàn)的詞。

        1.2 余弦公式

        文本相似性分析主要是希望能夠在大量文本中快速找到內(nèi)容相似的文章。故在相似性分析過程中,待計算文本數(shù)據(jù)需要依次與被比較文本進行比較。根據(jù)1.1節(jié)中的描述可知,文本數(shù)據(jù)已轉(zhuǎn)換為文本向量空間了。計算文本之間的距離就轉(zhuǎn)換為計算文本向量空間的距離。計算向量空間距離的方法比較多,例如歐式距離法,皮爾遜相關(guān)系統(tǒng)法以及余弦公式。本文采用余弦公式[10]來計算相似度,即公式:

        1.3 算法流程

        步驟3:采用余弦公式計算待計算文本數(shù)據(jù)d與待比較文本數(shù)據(jù)D的相似度大?。?/p>

        步驟4:根據(jù)所設(shè)的相似度閾值s將步驟3計算出的相似度大小大于閾值的文本數(shù)據(jù)顯示出來;

        步驟6:按照步驟2至步驟5將計算出其它文本數(shù)據(jù)的相似文本數(shù)據(jù)。

        2 基于全文索引技術(shù)與余弦公式醫(yī)學(xué)文本相似性分析

        采用傳統(tǒng)余弦公式的醫(yī)學(xué)文本相似性分析在算法思路上比較清晰,簡單,實現(xiàn)上也很簡單。但是,該算法在性能上比較差,因為對每篇文本數(shù)據(jù),算法均需要比較待計算文本與待比較文本的數(shù)據(jù),比較次數(shù)會比較多。特別是在文本數(shù)據(jù)量比較大時更是如此,算法的性能會使算法的實用價值大打折扣。為此,本文提出一種基于全文索引技術(shù)與余弦公式相結(jié)合的文本相似性計算方法。

        2.1全文索引技術(shù)

        全文索引技術(shù)[11,12]是目前搜索引擎中比較關(guān)鍵的一項技術(shù)。試想在大小的文件中搜索一個詞,可能需要幾秒,在的文件中可能需要幾十秒,如果在更大的文件中搜索那么就需要更大的系統(tǒng)開銷,這樣的開銷是不現(xiàn)實的。所以在這樣的矛盾下出現(xiàn)了全文索引技術(shù),有時候有人叫倒排文檔技術(shù)。

        原理主要是先定義一個詞庫,然后在文章中查找每個詞出現(xiàn)的頻率和位置,并將這樣的頻率和相關(guān)位置信息按照一定的順序進行歸納,這樣就相當(dāng)于對文件建立了一個以詞庫為目錄的索引,在這樣的情況下查找詞語的話就可以比較快的了。

        在全文索引技術(shù)中,在處理英文文檔的時候顯然這樣的方式是非常好的,因為英文自然的被空格分成若干詞,只要我們有足夠大的詞匯庫就能很好的處理。但是亞洲文字因為沒有空格作為斷詞標(biāo)志,所以就很難判斷一個詞,而且人們使用的詞匯在不斷的變化,而維護一個可擴展的詞匯庫的成本是很高的,所以問題出現(xiàn)了。

        解決出現(xiàn)這樣的問題使“分詞”成為全文索引的關(guān)鍵技術(shù)。目前有兩種基本的方法:

        詞庫法使用詞庫中的詞作為切分的標(biāo)準(zhǔn),這樣也出現(xiàn)了詞庫跟不上詞匯發(fā)展的問題,除非你維護詞庫。

        實際上現(xiàn)在很多著名的搜索引擎都使用了多種分詞的辦法,比如“正向最大匹配”+“逆向最大匹配”,基于統(tǒng)計學(xué)的新詞識別、自動維護詞庫等技術(shù),但是,顯然這樣的技術(shù)還沒有做到完美。

        本文主要采用的是lucene索引技術(shù),Lucene是apache軟件基金會jakarta項目組的一個子項目,是一個開放源代碼的全文檢索引擎工具包,即它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構(gòu),提供了完整的查詢引擎和索引引擎,部分文本分析引擎(英文與德文兩種西方語言)。Lucene的目的是為軟件開發(fā)人員提供一個簡單易用的工具包,以方便的在目標(biāo)系統(tǒng)中實現(xiàn)全文檢索的功能,或者是以此為基礎(chǔ),建立起完整的全文檢索引擎。

        2.2 算法流程

        步驟7:按照步驟2至步驟5將計算出其它文本數(shù)據(jù)的相似文本數(shù)據(jù)。

        3實驗分析

        本文醫(yī)學(xué)文本數(shù)據(jù)來源于相關(guān)醫(yī)學(xué)論文數(shù)據(jù)。數(shù)據(jù)處理中,選取醫(yī)學(xué)文本數(shù)據(jù)中的標(biāo)題和內(nèi)容分別分詞處理,并將標(biāo)題的權(quán)重設(shè)置大一些,因為標(biāo)題顯然比內(nèi)容重要一點。在計算分詞后詞語詞頻時,為了使計算保持在一個數(shù)量級上,對數(shù)據(jù)進行歸一化處理,即通過數(shù)據(jù)歸一化處理將數(shù)據(jù)映射到[0,1]。便于比較和處理方便,本文依次選擇1000篇、2000篇、5000篇、10000篇文本數(shù)據(jù)作為測試數(shù)據(jù),分別采用基于傳統(tǒng)余弦公式醫(yī)學(xué)文本相似性分析算法和基于全文索引技術(shù)與余弦公式醫(yī)學(xué)文本相似性分析算法對它們進行計算和分析。其計算結(jié)果如表1所示:

        表1 算法效率比較表

        從表1中可以看出,基于傳統(tǒng)余弦公式醫(yī)學(xué)文本相似性分析算法在1000篇、2000篇等小數(shù)據(jù)量時算法速度是可以的,因為需要匹配的數(shù)據(jù)量較小。但是,在數(shù)據(jù)量相對較大時,比如5000篇、10000篇甚至更大量的數(shù)據(jù),算法則明顯比基于全文索引技術(shù)與余弦公式醫(yī)學(xué)文本相似性分析算法要慢很多了。數(shù)據(jù)量越大,相對于傳統(tǒng)算法而言,本文提出的算法性能優(yōu)勢越明顯。

        4 總結(jié)

        采用傳統(tǒng)余弦公式對醫(yī)學(xué)文本數(shù)據(jù)進行相似性分析,算法比較簡單,思路也比較清晰、便于理解。但是在數(shù)據(jù)量較大情況下,算法的運行效率比較低,難以滿足實際需求。針對該問題,本文采用全文索引技術(shù)與余弦公式結(jié)合的方式對醫(yī)學(xué)文本數(shù)據(jù)進行相似性分析。該算法采用全文索引技術(shù)對醫(yī)學(xué)文本數(shù)據(jù)相關(guān)關(guān)鍵詞進行索引,這樣算法在相似性計算時,可以先根據(jù)若干關(guān)鍵詞在索引中檢索出部分?jǐn)?shù)據(jù)。這樣能夠大大減少算法計算的量,從而提高效率。實驗表明,該方法比基于傳統(tǒng)余弦公式醫(yī)學(xué)文本相似性分析算法運算效率更高,性能更優(yōu)。

        [1] 王浩暢,趙鐵軍.生物醫(yī)學(xué)文本挖掘技術(shù)的研究與進展[J].中文信息學(xué)報,2008,22(3):89-97.

        [2] 鄭強, 劉齊軍, 王正華, 朱云平. 生物醫(yī)學(xué)命名實體識別的研究與進展[J].計算機應(yīng)用研究,2010,27(3):811-832.

        [3] 豆增發(fā),高琳.利用膜粒子群優(yōu)化和信息熵的醫(yī)學(xué)文本特征選擇[J].西安交通大學(xué)學(xué)報,2012,4:45-51.

        [4] 米曉芳,秦 洋,王立宏,宋宜斌.基于潛在語義差異的醫(yī)學(xué)網(wǎng)頁聚類[J].計算機工程,2008,34(19):64-66.

        [5] 顧鈞,鄭曉東,張連明.結(jié)合引文信息的生物醫(yī)學(xué)文本聚類研究[J].計算機應(yīng)用與軟件,2012,29(10):5-7.

        [6] XUEZHONG ZHOU, YONGHONG PENG,BAOYAN LOU.Text mining for traditional Chinese medical knowledge discovery: A survey[J].Journal of Biomedical Informatics,2010,43 : 650–660.

        [7] 趙國光.醫(yī)學(xué)文獻相似性研究[D].首都師范大學(xué),2009.

        [8] 吳飛珍,馬文麗,王旺迪,陳啟龍,鄭文嶺.一種新的基因注釋語義相似度計算方法[J].生物信息學(xué),2010,1:23-29.

        [9] 郝文寧,馮波,陳剛,靳大尉,趙水寧.基于領(lǐng)域本體的文檔向量空間模型構(gòu)建[J].計算機應(yīng)用研究,2013,3:764-767.

        [10] 郭慶琳,李艷梅,唐琦.基于VSM 的文本相似度計算的研究[J].計算機應(yīng)用研究,2008,25(11):3256-3258.

        [11] 蘇潭英,郭憲勇,金鑫.一種基于 Lucene 的中文全文檢索系統(tǒng)[J].計 算 機 工 程,2007,33(23):94-96.

        [12] 劉小珠, 彭智勇.全文索引技術(shù)時空效率分析[J].軟件學(xué)報,2009,20(7):1768-178.4.

        Similarity Analysis of Medical Text Based on Full-text Indexing Technology and Cosine Formul

        Xie Cuiping, Chen Jiayi, Bai Jinshan
        ( School of Information Engineering, Guangdong Medical College, Dongguan 523808, China )

        Medical text similarity is an important content of medical text mining, how to quickly calculate the similarity from a large number of medical text data is a key problem of medical text similarity calculation.For medical text similarity analysis based on traditional cosine formula algorithm on the performance of defects, this paper proposes a algorithm of medical text similarity analysis which based on full-text index and cosine formula, It can be analyzed in the similarity of medical text. It uses full-text indexing technology to index medical text data relevant keywords, and according to the number of keywords retrieve part of the data from the index , so as to reduce the computational complexity and improve efficiency. Experiments show that, the method of similarity analysis algorithm has better performance than the traditional medical text based on the cosine formula.

        Medical Text Similarity;Cosine Formula;Full-text Indexing;Text Mining;Vector Space Model

        TP393

        A

        1007-757X(2014)01-0025-03

        2013.12.16)

        湛江市科技計劃項目(編號:2012C3102009)廣東醫(yī)學(xué)院青年基金項目(編號:XQ1353)

        謝翠萍(1980-),女,湖南省安仁人,廣東醫(yī)學(xué)院講師,碩士,研究方向:數(shù)據(jù)庫、醫(yī)院信息系統(tǒng),東莞,523808陳家益(1983-),男,廣東省湛江市人,廣東醫(yī)學(xué)院,講師,碩士,研究方向:計算機網(wǎng)絡(luò)與通信,東莞,523808白金山(1972-),男,黑龍江齊齊哈爾人,廣東醫(yī)學(xué)院,講師,博士,研究方向:并發(fā)模型檢,東莞,523808

        猜你喜歡
        余弦公式相似性向量
        一類上三角算子矩陣的相似性與酉相似性
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        淺析當(dāng)代中西方繪畫的相似性
        河北畫報(2020年8期)2020-10-27 02:54:20
        兩角差的余弦公式的不同推導(dǎo)方法
        追溯本源,自然生成*——《兩角差的余弦公式》的教學(xué)設(shè)計
        低滲透黏土中氯離子彌散作用離心模擬相似性
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        三角恒等變換
        亚洲成色在线综合网站| 午夜视频国产在线观看| 亚洲欧美一区二区成人片| 亚洲av无码久久寂寞少妇| 亚洲av成人无码精品电影在线| 国产精品深田咏美一区二区| 91精品全国免费观看青青| 国产亚洲精品视频在线| 亚洲av综合国产av日韩| 欧美天天综合色影久久精品| 久久久无码一区二区三区| 亚洲AV无码成人精品区日韩密殿| 国内精品毛片av在线播放| 国产精品二区一区二区aⅴ污介绍| 一本一道波多野结衣一区| 亚色中文字幕| 亚洲午夜精品第一区二区| 国产欧美一区二区精品久久久| 国产乱子伦精品免费无码专区| 激情亚洲的在线观看| 一区二区二区三区亚洲| 国产精品无码aⅴ嫩草| 波多野结衣视频网址| 国产熟女精品一区二区| 亚洲最大成人综合网720p| 中文字幕久无码免费久久| 欧美aⅴ在线| 蜜桃av一区在线观看| 职场出轨的人妻中文字幕| 国产黄在线观看免费观看不卡| 日韩精品成人无码AV片| 精品国产亚洲人成在线观看| 精品亚洲麻豆1区2区3区| 国产丝袜视频一区二区三区| 北岛玲中文字幕人妻系列| 免费人成黄页网站在线一区二区| 人妻精品久久无码区| 日本免费人成视频播放| 国产国语一级免费黄片| 成人丝袜激情一区二区| 欧美日韩精品一区二区三区不卡|