亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機森林和多標記學習算法的慢性胃炎實證特征選擇和證候分類識別研究

        2016-08-01 07:47:44徐瑋斐顧巍杰劉國萍劉晏顏建軍鐘濤
        中國中醫(yī)藥信息雜志 2016年8期
        關鍵詞:慢性胃炎特征選擇證候

        徐瑋斐 顧巍杰 劉國萍 劉晏 顏建軍 鐘濤

        摘要:目的 對慢性胃炎實證證候的特征癥狀進行選擇,并建立證候模型,為慢性胃炎證候量化診斷的建立提供方法學參考。方法 運用慢性胃炎中醫(yī)問診規(guī)范化量表采集臨床癥狀和體征,并運用機器學習領域新提出的隨機森林和多標記學習算法對慢性胃炎的實證癥狀進行選擇和模型構建。結果 運用隨機森林和信息增益算法,結合多標記學習算法對證候分別建模,隨機森林算法挑選出15個特征癥狀,信息增益方法挑選出20個特征癥狀,二者的模型最高準確率分別為83%、82%。通過評價,隨機森林算法選出的特征癥狀更加精簡,提高了診斷模型的識別率。結論 隨機森林結合多標記學習算法可實現(xiàn)慢性胃炎實證證候特征癥狀的選擇,同時還可解決幾個證候相兼問題,彌補傳統(tǒng)學習算法的不足。

        關鍵詞:隨機森林算法;多標記學習算法;慢性胃炎;特征選擇;證候

        DOI:10.3969/j.issn.1005-5304.2016.08.006

        中圖分類號:R259.733 文獻標識碼:A 文章編號:1005-5304(2016)08-0018-06

        證候指人體生理病理的整體功能狀態(tài),臨床上常指對個體整體功能狀態(tài)的判斷結果[1]。證候分類是對不同個體生理病理整體功能狀態(tài)進行分類的一種方法,主觀癥狀和體征(舌脈等)信息則是中醫(yī)證候分類的主要依據(jù)。此外,癥狀和體征的出現(xiàn)在不同證候中有不同的規(guī)律,這種規(guī)律可以利用現(xiàn)代方法去尋找和不斷完善,從而找到證候分類標準的制訂和完善方法。劉渡舟教授大力提倡“抓主癥”,并指出每一種病證都有其特異性的主癥,可以是一個癥狀,也可能由若干個癥狀組成[2]。隨著數(shù)理統(tǒng)計學和數(shù)據(jù)挖掘技術的發(fā)展,如何找出患者的主癥,是提高臨床辨證準確性的關鍵,也是中醫(yī)步入“數(shù)字中醫(yī)”時代的緊迫任務。特征選擇旨在去除不相關特征和冗余特征,力求以最少的特征來表達原始信息,并達到最優(yōu)的預測或分類精度。特征選擇與尋找“主癥”的目的相同。隨機森林算法(random forest algorithm)是一種嵌入式的特征選擇方法,充分利用了集成分類器構建過程所產生的分類模型。隨機森林算法適合對高維、離散型數(shù)據(jù)進行建模仿真,當數(shù)據(jù)含噪聲時也表現(xiàn)出良好的性能。

        本課題組前期研究顯示,臨床實際中慢性胃炎證候往往不會單一出現(xiàn)、時常交織在一起,2個以上證候兼雜的情況占30%以上[3]。這屬于典型的多標記問題。因此,我們運用課題組提出標記相關特征的多標記學習方法[4]和隨機森林算法相結合,進行慢性胃炎癥狀和體征的選擇和實證證候分類識別,為慢性胃炎的中醫(yī)證候診斷規(guī)范化及客觀化研究提供參考。

        1 資料與方法

        1.1 研究對象

        2008年9月-2010年10月于上海中醫(yī)藥大學附屬龍華醫(yī)院、上海中醫(yī)藥大學附屬曙光醫(yī)院、上海交通大學醫(yī)學院附屬新華醫(yī)院、上海市普陀區(qū)中心醫(yī)院及上海市中醫(yī)醫(yī)院消化內科門診、住院部、胃鏡室進行病例采集,去除信息不完整及不符合慢性胃炎診斷的量表,共采集有效樣本919例。其中男性354例(38.5%),平均年齡(44.61±14.54)歲;女性565例(61.5%),平均年齡(48.70±12.74)歲。本研究獲得上海市醫(yī)院倫理委員會批準,所有納入病例患者均簽署知情同意書。

        1.2 診斷標準

        1.2.1 西醫(yī)診斷標準 參考中華醫(yī)學會消化病學分會《中國慢性胃炎共識意見(2006年,上海)》[5],通過胃鏡與病理組織學結果結合臨床表現(xiàn)診斷篩選為慢性胃炎患者。

        1.2.2 中醫(yī)證候診斷標準 參考《中藥新藥臨床研究指導原則(試行)》[6]及中華人民共和國國家標準《中醫(yī)臨床診療術語·證候部分》[7]制定脾胃濕熱、濕濁中阻、脾胃氣虛、脾胃虛寒、肝氣郁滯、肝胃郁熱、胃陰不足、胃絡瘀血8個證候的辨證標準。

        1.3 納入標準

        ①符合慢性胃炎診斷標準和中醫(yī)證候診斷標準;②對本調查知情同意者。

        1.4 排除標準

        ①精神病患者及伴有其他系統(tǒng)重度疾病者;②語言表達能力較差,病情敘述有困難者;③未獲得知情同意,拒絕配合者。

        1.5 采集量表的制作方法

        由上海市資深中西醫(yī)結合消化系統(tǒng)臨床專家、臨床醫(yī)生及研究者組成研究小組。參考以往量表制作的經驗[8],通過文獻檢索,參考國內慢性胃炎證型與證候有關的癥狀頻率的報道,初步制定出臨床流行病學調查表。并經2輪專家咨詢及相關的統(tǒng)計學檢驗,完善修改量表。確定的中醫(yī)問診量表包括寒熱、汗、頭身胸腹、二便、飲食口味、睡眠、情緒、婦女共8個維度,及既往史、望診、切診等內容,共113個變量。

        1.6 調查方法

        量表中對癥狀給以明確的定義,指出問診時的具體操作方法和順序。病例采集人員經統(tǒng)一培訓。為保證在調查過程中的統(tǒng)一,小組成員定期集中,對典型病例的資料進行討論,以盡可能保證所采集資料的一致性。

        1.7 診斷方法

        邀請3位臨床經驗豐富的高年資主任醫(yī)師,參考課題組制定的辨證診斷標準,對信息完整的病例進行中醫(yī)辨證診斷。選取2位專家診斷結果一致的數(shù)據(jù)進行錄入;對于診斷不一致的數(shù)據(jù),再與專家討論,診斷結果達成一致后再錄入。

        1.8 數(shù)據(jù)輸入及處理

        采用Epidata3.1軟件建立數(shù)據(jù)庫。獨立雙遍錄入,并對2份錄入數(shù)據(jù)進行對比核查。再進行邏輯檢查,修正調查表填寫錯誤。

        1.9 分析方法

        1.9.1 癥狀(體征)特征選擇方法 前期研究顯示,信息學的特征提取方法中信息增益(information gain)的結果最優(yōu)[4],因此,本研究運用隨機森林和信息增益2種算法進行對照,分別對慢性胃炎臨床常見證候進行特征選擇,并運用REAL多標記學習算法對證候進行識別。采用matlab7.0進行分析。

        1.9.1.1 信息增益 信息增益在機器學習領域被廣泛應用。在信息論中,樣本屬性的信息增益越大,其包含的信息量也越大。它是通過計算一個特征能帶來多少用于分類的信息,以衡量特征對應分類的重要度。在信息增益中,重要性的衡量標準就是看特征能夠為分類系統(tǒng)帶來多少信息,帶來的信息越多,該特征越重要。

        1.9.1.2 隨機森林算法 本研究利用Abhishek Jaiantilal的R package randomForest工具包訓練出中醫(yī)慢性胃炎數(shù)據(jù)的分類模型以確定特征重要度。在不增加原樣本集樣本的情況下通過自舉法(bootstrap)選擇樣本子集構建一組分量分類器,然后利用投票(voting)機制綜合分量分類器的結果得到最終分類結果。在構建分量分類器時,未被選中的樣本組成袋外(out-of-bag,OOB)數(shù)據(jù)集,用袋外數(shù)據(jù)進行測試得到袋外誤差(out-of-bag error,OOB Err)。在森林每一顆樹的構建過程中,記下OOB事例集,并記下分類投票正確的個數(shù)。隨機改變OOB事例集中一個特征m,把這些事例訓練成樹。然后用之前未受改變特征m影響情況下正確分類投票數(shù)減去改變OOB事例集中特征m后的正確分類票數(shù)得到票數(shù)差,這個票數(shù)差客觀反映了特征m對分類的影響程度。對每棵樹做相同處理,然后每棵樹結構得到的票數(shù)差取平均值稱為特征m的重要度(raw importance)。取出重要度參向量importance=(ipt1,ipt2,…,iptn)。則權

        1.9.2 多標記學習方法 為了更好地體現(xiàn)標記之間的關聯(lián)性,本研究運用課題組提出的標記相關特征的多標記學習算法(REAL算法)進行證候模型的建立。

        輸入:訓練特征集( 以及每個特征集對應的類標簽集 );測試特征集( 以及每個特征集對應的類標簽集 );近鄰數(shù)(k);參數(shù)(s)。

        輸出:類向量( );真值向量( )。

        算法流程如下:

        Step1:通過特征選擇算法挑選各個標記N個相關特征,將每個特征的標號分別放在1個數(shù)組中。

        Step2:對原始數(shù)據(jù)集進行10倍交叉檢驗,劃分訓練集和測試集。

        Step3:根據(jù)每個標記分別使用相關的特征子集進行訓練。所屬訓練樣本之間的距離→每個類的先驗概率→由每個樣本的距離選取最近的k個近鄰→近鄰的標簽→累計每個樣本的近鄰確實是該類的個數(shù)→后驗概率。

        Step4:根據(jù)每個標記分別使用測試集中相關的特征子集進行測試,計算所屬訓練樣本的特征子集和測試樣本的特征子集之間的距離→測試樣本的近鄰→近鄰的標簽→通過先、后驗概率得到每個值的最大后驗概率值。

        1.9.3 實驗設置與評價 根據(jù)每個證型分別選取112、100、70、60、50、40、30、20、15、10、5個癥狀組成的證型相關的特征子集,再運用多標記學習方法對相應的特征子集建模。實驗結果的評價采用5種在多標記學習用的比較常見的評價指標:漢明損失(Hamming loss)、首標記錯誤(One-error)、覆蓋距離(Coverage)、排序損失(Ranking loss)、平均精度(Average precision)。

        1.9.3.1 平均精度 表示預測標記集合中的標記排序等級比實際中的某個 的特定標記更高的統(tǒng)計概率。實際反映了預測標記的平均準確率,該值 越大分類性能越好。

        1.9.3.2 覆蓋距離 代表覆蓋預測樣本標記的平均距離,該值 越小分類性能越好。

        1.9.3.3 漢明損失 評價示例-標簽對錯分的次數(shù),該值 越小越好。也就是不屬于某個事例的標記被預測為該事例了,或者屬于某個事例的標記卻沒有被預測出來。

        式中 表示2個事例-標記對相應位置上數(shù)值的區(qū)別。

        1.9.3.4 首標記錯誤 計算預測的最高等級標記不在樣本標記集合的次數(shù),該值 越小越好。在單標記分類問題中,該評價準則被視作普通的分類錯誤。

        1.9.3.5 排序損失 表示不相關標記比相關標記排序更高的次數(shù),該值 越小分類性能越好。

        其中 代表Y中Yi的補集。

        2 結果

        2.1 基于隨機森林和信息增益的REAL算法不同特征數(shù)下平均準確率的變化

        由于前期的研究顯示,信息增益方法選取20個特征時的識別率最高,平均準確率達到最大值為82%[6]。因此,本研究主要利用隨機森林算法分別選取不同的特征數(shù)運用REAL算法進行分析,分別選取112、100、70、60、50、40、30、20、15、10、5個癥狀組成的證型相關的特征子集,在這些癥狀(體征)子集上進行證候診斷模型的建模,研究癥狀(體征)選擇對證候預測模型的影響。以挑選的特征數(shù)目為橫坐標、預測的平均精度(最高為1)為縱坐標作圖,具體結果見表1、圖1。

        從圖1中可以看出,隨著特征數(shù)的變化,平均準確率是不同的。在選擇的特征數(shù)為15時,平均準確率達到最大值83%,之后隨著特征數(shù)的增加,平均準確率逐漸下降。

        圖2是利用隨機森林算法特征選擇數(shù)目為15、信息增益特征選擇數(shù)目為20時,REAL算法各項性能的對比。

        從圖2中可以看出,利用隨機森林算法進行特征選擇時平均精度、覆蓋距離、漢明損失、首標記錯誤和排序損失分別達到0.830、0.157、0.137、0.265和0.114。而利用信息增益進行特征選擇時,這5項指標分別為0.820、0.160、0.142、0.283和0.117?;陔S機森林算法的REAL算法的各項性能要高于信息增益。

        特征選擇方法下REAL算法各項性能比較

        2.2 提取的最優(yōu)癥狀(體征)子集

        隨機森林算法在選取15個癥狀特征時的識別率最高,平均準確率達到最大值83%;而信息增益方法選取20個特征時的識別率最高,平均準確率達到最大值82%??梢婋S進森林算法的結果更好,因此,我們得到慢性胃炎4個實證證候脾胃濕熱、濕濁中阻、肝氣郁滯、肝胃郁熱的最優(yōu)癥狀(體征)子集,并按照權值進行排序。

        脾胃濕熱證提取的癥狀(體征)有苔黃、苔白、苔膩等15個癥狀體征,濕濁中阻證提取的癥狀(體征)有苔膩、苔厚、苔白等15個癥狀體征,肝氣郁滯證提取了因情緒而加重、脅肋脹或痛、苔膩等15個癥狀體征,肝胃郁熱證提取了舌色紅、苔膩、灼痛等15個癥狀體征,具體見表2。

        3 討論

        特征選擇不僅可以去除數(shù)據(jù)的冗余特征信息和無關特征信息從而提高原始數(shù)據(jù)的質量,而且還可以大大降低數(shù)據(jù)挖掘的成本。

        3.1 特征選擇

        隨機森林算法是一種機器學習方法,適合對高維、離散型數(shù)據(jù)進行建模仿真,當數(shù)據(jù)含噪聲時也表現(xiàn)出良好的性能。它是Leo Breiman[9-10]于2001年提出的一個新的組合分類器算法,從而對數(shù)據(jù)進行挖掘和模式識別。該方法在許多領域得到了應用,例如天文學、微陣列、藥物發(fā)現(xiàn)、癌細胞分析等[11]。其主要優(yōu)點有:①較少的參數(shù)調整;②不必擔心過度擬合;③適用于數(shù)據(jù)集中存在大量未知特征;④能夠估計哪個特征在分類中更重要;⑤當數(shù)據(jù)集中存在大量的噪音時同樣可以取得很好的預測性能。本研究充分考慮到中醫(yī)數(shù)據(jù)的多標記特點,將隨機森林算法和REAL多標記學習算法結合,挑選出慢性胃炎4個實證證候的癥狀和體征大部分與中醫(yī)理論相符。如濕熱內蘊,上泛舌面可見苔黃、苔膩、苔厚。根據(jù)中醫(yī)理論,舌中部多反映中焦脾胃的病變,脾胃運化失常,多見舌中厚膩。寒濕困脾,濕濁上泛見舌苔白厚膩,苔滑、齒痕、胖大皆為寒濕停滯,脾失運化的表現(xiàn)。肝氣郁滯可見脅肋脹痛,肝失條達則因情緒而加重,肝胃不和、胃氣上逆可見噯氣等。肝胃郁熱則見舌色紅,熱使脈道擴張、血行加速,氣血沸涌,致使舌體脈絡充盈而舌色紅,灼痛、大便便質偏干、苔黃也皆是熱證的典型表現(xiàn)。

        但肝氣郁滯證候中同時出現(xiàn)“痛有定處”和“痛無定處”2個癥狀,脾胃濕熱證和濕濁中阻證中見脈弦,與中醫(yī)理論不完全相符??赡苡幸韵略颍孩倥R床上肝氣郁滯證多與血瘀等證候相兼出現(xiàn),單獨出現(xiàn)者較少,故而痛有定處和痛無定處同時出現(xiàn)。②弦脈臨床主痛,肝膽病、痰飲、脾胃濕熱及濕濁中阻證濕郁化飲也可見弦脈。雖然這幾個癥狀(體征)可以用中醫(yī)理論解釋,但并非該證候的特異性癥狀(體征),考慮在今后研究中擴大樣本量,進一步深入探討。

        3.2 證候模型構建

        本研究是將隨機森林算法和信息增益方法進行對比,前期研究顯示信息增益方法選取20個特征數(shù)目時的識別率最高,平均準確率達到最大值。4個證候的特征子集分別為:脾胃濕熱證共提取苔黃、苔膩、胸骨后燒灼感等癥狀(體征)20個;濕濁中阻證共提取苔白、舌胖大、苔膩等癥狀(體征)20個;肝氣郁滯證共提取因情緒而加重、脅脹或痛、痛無定處等癥狀(體征)20個;肝胃郁熱證共提取舌色紅、灼痛、喜冷等癥狀(體征)20個。

        而隨機森林算法在選取15個癥狀特征時的識別率最高,平均準確率達到最大值為83%。通過比較發(fā)現(xiàn),信息增益所得結果中包含的癥狀(體征)基本包含了隨機森林算法選出的15個癥狀(體征),可見隨機森林算法能夠達到精簡癥狀的目的,并且提高了證候的識別率。同時,隨機森林算法能夠計算單個特征重要性,能衡量各個特征對分類問題的重要性和貢獻度,為證候診斷的客觀化提供了直接的參考和依據(jù),也為慢性胃炎證候的診斷標準建立提供了借鑒。

        參考文獻:

        [1] 呂愛平,李梢,王永炎.從主觀癥狀的客觀規(guī)律探索中醫(yī)證候分類的科學基礎[J].中醫(yī)雜志,2005,46(1):4-6.

        [2] 傅延齡,劉渡舟.抓主癥方法的認識與運用[J].中華中醫(yī)藥雜志, 1993,8(4):43-44.

        [3] LIU G P, ZHEN R W, YAN S X. Association analysis and distribution of chronic Ggastritis syndromes based on associated density[C]// 2010 IEEE International Conference on Bioinformatics and Biomedicine Workshops(ITCM2010).Hong Kong,2010:790-794.

        [4] LIU G P, YAN J J, WANG Y Q, Application of multi-label learning using the relevant feature for each label (REAL) algorithm in the diagnosis of chronic gastritis[J]. Evidence-Based Complementary and Alternative Medicine,2012 (2012),Article ID 135387.doi:10.1155/2012/135387.

        [5] 中華醫(yī)學會消化病學分會.中國慢性胃炎共識意見(2006年,上海)[J].中華消化內鏡雜志,2007,24(1):58-63.

        [6] 鄭筱萸.中藥新藥臨床研究指導原則(試行)[M].北京:中國醫(yī)藥科技出版社,2002:124-129.

        [7] 國家技術監(jiān)督局.中醫(yī)臨床診療術語:證候部分[M].北京:中國標準出版社,1997:17-20.

        [8] 劉國萍,王憶勤,董英,等.中醫(yī)心系問診量表的研制及評價[J].中西醫(yī)結合學報,2009,7(1):1222-1225.

        [9] BREIMAN L. Random forests[J]. Machine leaning,2001,45(1):5-32.

        [10] BREIMAN L. Manual on setting up, using, and understanding random forests v4.0[EB/OL].[2014-05-10].http://oz.Berkeley.edu/users/ breiman/Using-random-forests-V4.0.pdf.

        [11] REMLINGER K. Introduction and application of random forest on high though put screening data from drug discovery[EB/OL].[2014- 05-10].http://www4.ncsu.edu/ksremlin.

        猜你喜歡
        慢性胃炎特征選擇證候
        肥胖中醫(yī)證候動物模型研究進展
        Kmeans 應用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        幽門螺桿菌相關性胃病中醫(yī)體質與中醫(yī)證型的關系研究
        蒿芩清膽湯加味治療慢性胃炎脾胃濕熱證臨床觀察
        今日健康(2016年12期)2016-11-17 14:46:48
        蘭索拉唑聯(lián)合克拉霉素治療慢性胃炎的臨床觀察
        奧美拉唑聯(lián)合克拉霉素治療慢性胃炎50例效果觀察
        聯(lián)合互信息水下目標特征選擇算法
        昆明地區(qū)兒童OSAHS中醫(yī)證候聚類分析
        基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
        基于二元搭配詞的微博情感特征選擇
        計算機工程(2014年6期)2014-02-28 01:26:36
        国产成人一区二区三区| 伊人狼人影院在线视频| 国产一区二区三区 在线观看| 噜噜噜噜私人影院| 欧美操逼视频| 麻豆国产乱人伦精品一区二区| 国内精品嫩模av私拍在线观看| 国内久久婷婷六月综合欲色啪| 亚洲国产精品毛片av不卡在线| 国产欧美日产久久| 日日骚一区二区三区中文字幕| 日本高清视频在线观看一区二区| 亚洲va欧美va日韩va成人网| 亚洲成成品网站源码中国有限公司| 亚洲国产成人无码电影| 精品人妻少妇丰满久久久免 | 久久综合给合久久97色| 国产成人大片在线播放| 亚洲人成77777在线播放网站| 久久亚洲欧洲无码中文| 久久国产精品一区二区| 日韩精品人妻中文字幕有码在线| 在线播放免费播放av片| 亚洲国产精品嫩草影院久久| 日韩女同一区二区三区久久| 成年女人免费v片| 久久久噜噜噜www成人网| 欧美日韩高清一本大道免费| 日韩精品免费av一区二区三区 | 国产成人精品一区二区视频| www.尤物视频.com| gg55gg国产成人影院| а天堂中文在线官网| 国产真人无遮挡免费视频| 亚洲av成人无网码天堂| 亚洲国产精品久久久久秋霞小说| 国产精品亚洲成在人线| 日产精品一区二区三区免费| 大香焦av一区二区三区| 亚洲成av人片一区二区| 国产中文字幕乱码在线|