亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        醫(yī)藥信息文本分類系統(tǒng)中特征選擇模塊的研究

        2008-12-31 00:00:00袁劍鋒張啟蕊
        電腦知識與技術(shù) 2008年30期

        摘要:自動文本分類技術(shù)是組織和管理醫(yī)藥信息的一個有效的辦法。本文主要針對醫(yī)藥信息的自動文本分類系統(tǒng)展開研究,重點研究如何根據(jù)醫(yī)藥領(lǐng)域的特點進行有效的特征選擇,提出了使用文檔頻率DF和互信息MI相結(jié)合進行醫(yī)藥特征選擇的方法。另外,本文還構(gòu)建了一個醫(yī)藥信息語料庫作為醫(yī)藥信息自動文本分類系統(tǒng)的訓(xùn)練集和測試集,該語料庫包含五個類別,600篇文本。實驗證明,該方法能夠有效提高醫(yī)藥文本分類系統(tǒng)的分類速度和精度。

        關(guān)鍵詞:文本分類;特征選擇;醫(yī)藥信息

        中圖分類號:TP391文獻標(biāo)識碼:B文章編號:1009-3044(2008)30-0531-03

        Research of Feature Selection in Medical Information Text Categorization

        YUAN Jian-feng, ZHANG Qi-rui

        (College of Medical Information Engineering, Guangdong Pharmaceutical University, Guangzhou 510006,China)

        Abstract:Automatic text categorization is a viable method to organize and manage the medical information. This paper reports the study of text categorization system on the medical information, and proposes a method of feature selection which combines DF with MI. In addition, this paper constructs a dataset of medical information as the training set and test set in our experiments, which includes five categories and 600 documents. The experimental result shows that our method can efficiently improve the classification performance of medical information classification system.

        Key words:Text categorization; Feature selection;Medical information

        1 引言

        醫(yī)藥領(lǐng)域中的信息量增速是十分驚人,據(jù)不完全統(tǒng)計,每5~7年,醫(yī)藥領(lǐng)域的信息就會出現(xiàn)翻倍。如何準(zhǔn)確有效地利用龐大的醫(yī)藥信息資源,成為醫(yī)藥信息管理人員的研究重點。通過使用醫(yī)藥文本自動分類技術(shù),可以使醫(yī)院、醫(yī)藥網(wǎng)站和醫(yī)藥專業(yè)學(xué)校等方便的利用網(wǎng)絡(luò)資源,通過文本分類系統(tǒng)對網(wǎng)絡(luò)和本地的醫(yī)藥信息文檔進行精確查找、有效的組織和高效的管理。

        文本分類簡單的說就是給定分類體系,將文本分到某個或某幾個類別中[2]。文本分類技術(shù)是大規(guī)模文檔數(shù)據(jù)處理的關(guān)鍵技術(shù),基于人工智能技術(shù)的文本分類技術(shù)可以依據(jù)文本的語義將大量的文本進行自動分類。醫(yī)藥信息文本分類系統(tǒng)就是基于文本分類技術(shù)的原理,更加側(cè)重于醫(yī)藥信息方面的類別區(qū)分特征,以醫(yī)藥信息類文本為訓(xùn)練語料庫作為機器學(xué)習(xí)的基礎(chǔ),從而達到自動地為文檔集合中的每一篇醫(yī)藥文檔確定類別的軟件系統(tǒng)。

        2 醫(yī)藥信息文本分類系統(tǒng)中特征選擇模塊的設(shè)計

        2.1 醫(yī)藥信息文本分類系統(tǒng)設(shè)計流程

        文本分類屬于一種典型的有教師的機器學(xué)習(xí)問題,一般分為訓(xùn)練和分類兩個階段。文本分類系統(tǒng)的模型結(jié)構(gòu)如圖1所示。鑒于對系統(tǒng)模型的分析,可以直觀的看出特征降維對于系統(tǒng)的重要性。特征降維是跨越訓(xùn)練過程與分類過程的,也就表明特征降維是影響文本分類系統(tǒng)分類精度的關(guān)鍵因素。實現(xiàn)最佳的特征降維的方法就是使用特征選擇方法,也就是說利用特征選擇算法在最大程度上對特征維數(shù)進行刪減,同時又保留權(quán)重大的有效特征,以此來提高系統(tǒng)的分類質(zhì)量和分類速度。

        2.2 特征選擇方法

        特征選擇的功能是去除文本中不能表示信息的詞,以提高分類效率和減少計算復(fù)雜度。其基本思想通常是構(gòu)造一個評價函數(shù),對特征集的每個特征進行評估,評價分數(shù)高的特征保留,去掉那些評價分數(shù)低的特征,起到從簡求精的效果[1]。

        下面介紹幾種常用的算法。

        詞條的文檔頻率是指:在訓(xùn)練語料中出現(xiàn)該詞條的文檔數(shù)。采用DF作為特征抽取是基于以下基本假設(shè):DF值低于某個閾值的詞條是低頻詞,它們不含或含有較少的類別信息。

        文檔頻率可表示為:

        (2)

        信息增益是指詞為整個分類所能提供的信息量,當(dāng)信息增益小于某個預(yù)定的值時,就要去掉這個詞。信息增益定義為某一特征在文本中出現(xiàn)前后的信息熵之差。

        CHI統(tǒng)計方法度量詞條t和文檔類別c之間的相關(guān)程度,并假設(shè)t和c之間符合具有一階自由度的X2分布。詞條對于某類的X 統(tǒng)計值越高,它與該類之間的相關(guān)性越大,攜帶的類別信息也較多。

        在文本分類中的實驗期望交叉熵與信息增益相似,也是一種基于概率的方法。所不同的是信息增益要求計算所有特征屬性的值,而期望交叉熵則只計算出現(xiàn)在文檔中的單詞[3]。

        2.3 相關(guān)評測資源設(shè)計

        特征選擇方法的效果檢驗需要一個統(tǒng)一專業(yè)的語料庫。由于目前國內(nèi)還沒有標(biāo)準(zhǔn)的、開放的訓(xùn)練語料集,本文將構(gòu)建一個具有一定醫(yī)藥信息的代表性的語料庫。

        按照國際疾病分類編碼第十版作為參考,對常見疾病的相關(guān)癥狀、知識或事例法規(guī)分成類別。

        索引→

        傳染病和寄生蟲病

        腫瘤

        神經(jīng)系統(tǒng)疾病

        呼吸系統(tǒng)疾病

        循環(huán)系統(tǒng)疾病

        眼和附器疾病

        耳和乳突疾病

        精神和行為障礙

        內(nèi)分泌、營養(yǎng)和代謝疾病

        血液及造血器官疾病和某些涉及免疫機制

        消化系統(tǒng)疾病……

        3 特征選擇的實際應(yīng)用效果的評測及分析

        3.1 特征選擇的測試效果與分析

        為評價分類效果,本文采用最通用的性能評價方法:召回率R(recall)、準(zhǔn)確率P(precision)、和F1度量[4]。

        本文的醫(yī)藥信息語料庫中暫選取傳染病和寄生蟲病、腫瘤、神經(jīng)系統(tǒng)疾病、呼吸系統(tǒng)疾病、循環(huán)系統(tǒng)疾病五類文檔,其中訓(xùn)練語料(訓(xùn)練集)和測試語料按照2:1的比例來劃分,訓(xùn)練語料集總括約400篇文本,每類約80~100篇文檔,測試用的待分文本分為四組,每組中有50篇,當(dāng)中每類別各10篇。在相對充足的前提假設(shè)條件下,保證分類結(jié)果的準(zhǔn)確性。

        首先把醫(yī)藥信息文本語料庫中的5個疾病類別共400篇,進行分類訓(xùn)練,然后測試待分類語料組,需要四次以上的測試,取其平均值作試驗結(jié)果。

        由于語料庫中文本的長度不盡相同,為求平均效果,以特征數(shù)的選取則不能固定維數(shù),需要采用百分比來進行,以下實驗結(jié)果均使用文本的10%作特征選擇比例。得出對比數(shù)據(jù)如圖2所示。

        分析實驗結(jié)果,我們可以得出如下結(jié)論:

        1) 不使用特征選擇的分類系統(tǒng)的分類精度很低,而且分類時間相對長。原因:特征維數(shù)太高,提交到分類器的任務(wù)比較繁重。

        2) 對比結(jié)果,發(fā)現(xiàn)使用特征選擇算法IG的分類效果最好,具有相當(dāng)?shù)姆€(wěn)定性。方法CHI下相對一般。DF和MI的效果較差。

        3.2 DF+MI組合的特征選擇方法的理論原理及實驗效果

        在單獨的特征選擇方法比較中,MI的效果最差,究其原因可能:MI算法沒有考慮特征詞出現(xiàn)的頻度,這樣的結(jié)果就導(dǎo)致了MI 算法不選擇高頻的有用詞而很有可能選擇稀有詞作為文本的最佳特征 。針對這些約束,我們認為對互信息方法后分類精度的提高策略:增加特征空間的維數(shù),來提取足夠多的特征信息,這樣的解決策略會帶來時間和空間上的額外開銷。據(jù)其定義,認為這些低頻詞攜帶著較為重要的類別特征信息,因此對它有不同程度的倚重。當(dāng)訓(xùn)練語料庫不夠齊全時,特征集中必然會存在著大量的出現(xiàn)文檔頻率較低的詞條,其中較低的文檔頻率導(dǎo)致了它們必然的歸屬于少數(shù)類別。但從選取出來的特征詞的觀察發(fā)現(xiàn),大多數(shù)為平時較稀有的生僻詞語,但很少一部分確實帶有較為重要的類別特征信息,多數(shù)只是具有少量的類別特征信息,甚者是噪音詞。

        通過這個想法,我們發(fā)現(xiàn)和MI互信息都處于單獨使用分類精度低的DF文檔頻率方法的優(yōu)點正好是對特征詞出現(xiàn)頻率的大小作為選擇依據(jù)的,所以決定用DF的方法先過濾掉低于設(shè)定閥值的低頻詞,從而消除MI互信息對低頻詞的倚重,再使用MI對剩余的詞條進行打分,并對詞條的互信息量進行排序,篩選出權(quán)重詞條構(gòu)成特征空間,也就是特征集。

        由DF文檔頻率和MI互信息一起使用的方法并不會產(chǎn)生額外的工作量,所以對系統(tǒng)效率的影響微乎其微。理論上也就解決了MI互信息的缺點,也發(fā)揮了DF文檔頻率的優(yōu)點,相得益彰。

        因此,本文將DF+MI作為特征選擇方法應(yīng)用于KNN分類器中,進行實驗得出結(jié)果,如圖3所示。

        結(jié)果證明經(jīng)過合并的DF文檔頻率方法和MI互信息方法具有更穩(wěn)定的分類效果,而且分類時間也少,具有較好的分

        類效率。

        4 結(jié)束語

        各種特征選擇算法都具有其特性及優(yōu)缺點,對于不同的語料庫又會出現(xiàn)不同的實驗結(jié)果,但是,各種特征選擇算法的分類效果區(qū)間還是比較明顯的。本文的實驗和分析證明,在醫(yī)藥信息文本分類系統(tǒng)中,采用這種合并了DF文檔頻率和MI互信息的方法是特征選擇方法的理想選擇,無論在分類效率和分類精度都具有明顯的優(yōu)勢。基于所有的實驗數(shù)據(jù)基礎(chǔ),結(jié)合了DF+MI的組合的特征選擇方法直接應(yīng)用于醫(yī)藥信息文本分類系統(tǒng)具有很強的實用價值。

        參考文獻:

        [1] 寇蘇玲,蔡慶生.中文文本分類中的特征選擇研究[J].計算機仿真, 2007, 24(3): 86-89.

        [2] Fabrizio Sebastiani. Machine learning in automated text categorization[J]. ACM Computing Surveys, 2002, 34(1): 1-47.

        [3] 王衛(wèi)玲,劉培玉,初建崇.一種改進的基于條件互信息的特征選擇算法[J].計算機應(yīng)用, 2007, 27( 2):33-36.

        [4] 張啟蕊,張凌,董守斌,等. 基于免疫算法的文本分類研究[J]. 微計算機信息, 2007, 23(8-3): 210-212.

        注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文

        久久久人妻一区精品久久久| 真实国产乱啪福利露脸| 99久久免费国产精品2017| 中文字幕乱码av在线| 久久精品女同亚洲女同| 亚洲va欧美va日韩va成人网| 日日噜噜夜夜狠狠久久无码区| 国产熟女精品一区二区三区| 少妇久久一区二区三区| 国产大屁股喷水视频在线观看| a级特黄的片子| AV成人午夜无码一区二区| 精品蜜桃在线观看一区二区三区| 国产自拍高清在线观看| 男女爱爱好爽视频免费看| 91人妻无码成人精品一区91| 国产三级精品三级在专区中文| 久久精品网站免费观看| 婷婷色中文字幕综合在线| 久久精品成人91一区二区| 青青草视频视频在线观看| 人妻无码一区二区三区| 亚洲成人小说| 亚洲中文字幕有码av| 人妻中文字幕在线中文字幕| 老师粉嫩小泬喷水视频90| 天天插视频| 97成人精品在线视频| 天天躁夜夜躁狠狠躁2021a2| 国内少妇偷人精品视频免费| 国产成人综合久久三区北岛玲| 国产熟人精品一区二区| 性大毛片视频| 亚洲AV无码未成人网站久久精品 | 大又黄又粗又爽少妇毛片| 亚洲av福利天堂一区二区三| 中文字幕乱码人妻一区二区三区| 亚洲无码中文字幕日韩无码| 中美日韩在线一区黄色大片| 久久久www免费人成精品| 欧美日韩区1区2区3区|