亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        隨機森林算法在中醫(yī)藥院校貧困生認定預測中的應用研究

        2017-07-01 15:26:17唐燕王蘋
        中國醫(yī)藥導報 2017年14期
        關鍵詞:機器學習

        唐燕+王蘋

        [摘要] 中醫(yī)院校的貧困生認定工作是非常重要的,但是目前的認定方法還存在著不科學不公正等問題。為完善貧困生的認定工作,本文基于隨機森林分類算法,對貧困生的認定進行研究。在相同的數(shù)據(jù)集中,分別使用決策樹算法和隨機森林算法對貧困生進行分類,決策樹算法的平均正確率為74.43%,而隨機森林算法模型的平均正確率為85%,并進一步對兩種算法進行比較。實驗證明,隨機森林算法分類正確率較高,適合貧困生的認定工作。隨機森林為貧困生的認定提供了一種新方法。

        [關鍵詞] 貧困生認定;隨機森林;決策樹;機器學習

        [中圖分類號] R-3 [文獻標識碼] A [文章編號] 1673-7210(2017)05(b)-0164-05

        [Abstract] It is an important task to identify the poor students in traditional Chinese medicine colleges and universities, and there are uneconomical and unjust problems in the current methods. In order to improve the identification of poor students, this paper based on the random forest classification algorithm to study the identification of poor students. In the same data set, the decision tree algorithm and the random forest algorithm are used to classify the poor students. The correct rate of decision tree algorithm is 74.43%, while the accuracy rate of the random forest algorithm model is 85%, and further comparison of the two algorithms. Experiments show that the classification accuracy of random forest algorithm is high, which is suitable for the identification of poor students. Random forest provides a new way for the identification of poor students.

        [Key words] Poor students identification; Random forest; Decision tree; Machine learning

        近年來,隨著中醫(yī)藥類高校不斷擴大招生人數(shù),在讀貧困生人數(shù)也明顯增加。所謂貧困生是指家庭收入低,完成學業(yè)有經(jīng)濟困難的學生。數(shù)據(jù)顯示,2015年,全國高校在校家庭經(jīng)濟困難學生比例超過40%,政府、高校及社會等各類政策措施共資助高校學生4141.58萬人次,資助總金額847.97億元[1]??梢钥闯?,貧困生所占比例較大。但高校中也不乏出現(xiàn)為領取助學金而謊報為貧困生的情況。因此,如何精準地認定在校貧困生,更好的通過助學金幫助他們完成學業(yè)是一項非常重要而又意義深遠的工作。目前,貧困生的認定工作人為因素較多,缺乏科學性和合理性,如何科學、公正、合理、高效的認定貧困生是亟待解決的問題。

        1 高校貧困生認定研究

        當前,很多高校的貧困生認定主要方式為:學生主動填寫《普通本科高校國家助學金申請表》《普通本科高校國家勵志獎學金申請表》等各類助學金申請表,各個班根據(jù)申請同學家庭情況、日常消費等情況做出初步評定。班級上報院系后,院系根據(jù)學校給定名額進一步評定,最后確定最終貧困生人選。這種認定方法摻雜人為因素,在貧困生的評選過程中很難做到公平公正、科學合理。

        也有高校根據(jù)一卡通消費數(shù)據(jù)情況給出貧困生認定的一些限制條件[2],例如通過學生就餐、日常刷卡消費情況,給定學生最低生活保障線,由此確定貧困生。這種做法主要根據(jù)數(shù)據(jù)統(tǒng)計分析得出,有一定的科學性,但是認定指標過于單一,認定指標不夠全面,存在片面性。

        在貧困生認定問題上,很多學者應用數(shù)據(jù)挖掘和機器學習算法進行了一些有益的嘗試。曹路舟[3]提出使用FP-growth算法找出貧困生數(shù)據(jù)之間的關聯(lián)規(guī)則,為認定貧困生提供參考。陳曉等[4]提出基于加權約束的決策樹方法建立貧困生認定決策樹,通過決策樹認定貧困生。楊知玲[5]和張建明[6]提出使用決策樹算法構建貧困生認定決策樹,從而提高貧困生認定的準確性和精度。馬幸飛等[7]提出采用新距離標準的K-means算法對學生的三餐消費等情況進行聚類分析,從而為貧困生的認定提供依據(jù)。通過國內相關文獻可以看出,在貧困生認定中,使用決策樹模型進行分析的學者較多,還沒有找到隨機森林算法的相關研究文獻。

        本文結合申請表信息和一卡通消費數(shù)據(jù),通過問卷調查獲取數(shù)據(jù),使用隨機森林算法對貧困生的認定進行分析。通過實驗,隨機森林極大提高了認定的正確率,非常適合貧困生的認定工作。

        2 隨機森林算法

        隨機森林(random forest,簡稱RF)是2001年由美國科學院院士Breiman教授提出的,結合了Bagging和Random Subspace的思想一種算法。隨機森林是由多個決策樹而形成的一種集成分類器模型[8-9]。隨機森林在Bagging基礎上進行了改進,但是訓練效率常優(yōu)于Bagging[10]。隨機森林算法執(zhí)行效率較高,并且明顯的提升了預測精度,被稱為當前最好的算法之一。

        隨機森林算法是由多棵決策樹作為基學習器,利用Bagging生成不同的訓練集,在單棵樹的訓練過程中引入隨機屬性選擇,訓練多次,得到多棵不同的決策樹,將這些樹組合成隨機森林分類器。在分類時通過投票或取平均決定未知樣本的類別。隨機森林的構建過程見圖1[11]。

        隨機森林的構建過程中關鍵步驟包括:隨機生成訓練集、生成多棵決策樹、通過投票實現(xiàn)算法。隨機森林算法的步驟描述如下:

        ①從數(shù)據(jù)集中利用bootstrap抽樣法有放回地隨機抽樣,選取每棵樹的訓練樣本集。初始訓練集中,有些數(shù)據(jù)重復出現(xiàn),有些從未出現(xiàn)。在訓練過程中,每次抽樣約有63.2%的樣本被抽中,作為自助樣本集,用來作為訓練數(shù)據(jù)構建一棵決策樹;剩余的36.8%的樣本稱為袋外數(shù)據(jù),可作為測試集,測試分類誤差[12]。

        ②每個自助樣本集用來構建一棵決策樹或條件樹。假設每個樣本有M個屬性,在構建決策樹時,每次隨機選擇m個屬性(m

        ③每棵決策樹的每一個節(jié)點都按照步驟②進行選擇。使得每個節(jié)點的純度最高,即Gini指數(shù)最小的屬性作為最優(yōu)劃分屬性,直到節(jié)點不能分裂為止。建立CART決策樹。將上述過程重復多次,構建多棵決策樹,形成森林[17]。

        ④在測試集中,計算未知樣本x分類為c的概率:P(c|x)=(1/nTree)·Σhj(c|x),采用多數(shù)投票法、平均法等結合策略確定類別。如果應用多數(shù)投票法確定類別,則c通過arg max P(c|x)得出[18-20]。

        隨機森林的構建過程中有兩次隨機,即樣本的隨機選擇和屬性的隨機選擇。這兩次隨機使得每棵樹的構建過程中即使沒有進行剪枝也不會出現(xiàn)過擬合情況。

        3 實驗分析

        3.1 數(shù)據(jù)采集及數(shù)據(jù)整理

        當前,很多高校依然通過學生填寫貧困生申請表,班級評選確定貧困生。本文根據(jù)申請表填寫的信息,結合學生每月消費情況和三餐消費情況,通過問卷調查采集4個平行班級的180條記錄。數(shù)據(jù)涉及學生家庭信息、家庭經(jīng)濟狀況、學生個人消費情況等方面。

        采集到的數(shù)據(jù)包含12個屬性,分別為:性別(X1)、城市/農(nóng)村戶口(X2)、家庭每月收入(X3)、家庭是否有殘疾/危重病人(X4)、學生每月支出(X5)、每天生活消費(X6)、早餐消費(X7)、午餐消費(X8)、晚餐消費(X9)、是否有當?shù)氐捅#╔10)、來自省市(X11)、是否認定貧困生(Y)。

        數(shù)據(jù)剔除缺失嚴重記錄和異常數(shù)據(jù),最后收集169條記錄。根據(jù)4各班級評議結果,合并特別困難、一般困難為困難,用1表示,不困難用0表示。統(tǒng)計得出,困難64人,不困難105人。

        為比較隨機森林模型和決策樹模型的分類預測效果,將數(shù)據(jù)集中的連續(xù)數(shù)據(jù)離散化。例如:將家庭每月收入分為<2000、2000~4000、4001~6000、>6000四個等級,分別記為1、2、3、4。

        3.2 決策樹和隨機森林實驗結果

        3.2.1 決策樹實驗結果 針對文獻中很多學者使用決策樹對貧困生進行認定,試驗中使用決策樹中的ID3算法對數(shù)據(jù)進行分類,并進一步使用隨機森林算法進行比較。實驗使用python語言分別編寫決策樹分類算法程序和隨機森林分類程序。

        ID3算法的核心思想是在決策樹的每一個非葉子節(jié)點劃分之前,先計算每一個特征向量所帶來的信息增益,選擇最大信息增益的特征向量作為當前節(jié)點進行劃分。因為信息增益越大,區(qū)分樣本的能力就越強,越具有代表性,ID3算法是一種自頂向下的貪心策略。

        決策樹的構建過程是遞歸的過程,一般情況下,決策樹深度越小,預測的正確率越低。當決策樹的深度不斷增加,葉節(jié)點不斷增加時,預測的正確率會不斷增高。但是,如果決策樹深度過深,葉子結點太多,往往會導致過擬合,使得泛化能力變差。因此,需要通過剪枝在樹的大小和正確率之間尋找平衡點。

        和決策樹相比較,隨機森林通過兩次隨機,有效避免了過擬合的情況,并且有很好的抗噪能力,即當數(shù)據(jù)集中有缺失數(shù)據(jù)時對預測精度影響不大。隨機森林在構建單棵樹時,只選擇部分特征屬性(m=log2M,或者m= ),使得隨機森林單棵樹和決策樹相比,特征屬性遠遠小于決策樹。構建的單棵樹是不經(jīng)修剪的完全樹,樹的深度較小,規(guī)模較小,樹的結構比較簡單。隨機森林正是由多棵簡單的決策樹構成,預測時通過投票,以少數(shù)服從多數(shù)等方式顯示結果。隨機森林的單棵簡單的決策樹預測能力比較弱,屬于弱分類器。但是,當很多棵樹形成隨機森林時,體現(xiàn)了集體的力量,預測效果優(yōu)于單一決策樹。因此,隨機森林樹的棵樹越多,預測正確率越高,表現(xiàn)越穩(wěn)定。

        在實驗中隨機選擇80%的數(shù)據(jù)作為訓練數(shù)據(jù),其余20%數(shù)據(jù)作為測試數(shù)據(jù)。當決策樹的深度為3時,正確率最高。實驗中生成的決策樹見圖2。

        實驗中,將決策樹的深度從2遞增到14,依次記錄預測正確率為70.59%、82.35%、64.71%、73.53%、70.59%、73.53%、76.47%、76.47%、76.47%、76.47%、73.53%、76.47%、76.47%,平均正確率為74.43%。使用決策樹進行分類測試,準確度不是很高。實驗進一步使用隨機森林模型進行分類訓練和測試。

        3.2.2 隨機森林實驗結果 實驗進一步在相同的數(shù)據(jù)集上使用隨機森林算法進行分類。實驗中繼續(xù)隨機選擇80%的數(shù)據(jù)作為訓練數(shù)據(jù),其余20%數(shù)據(jù)作為測試數(shù)據(jù)。當給定樹的棵樹為20,樹的最大深度為4時,運行程序10次,依次得到測試集的準確度為85.29%、88.24%、85.29%、91.18%、82.35%、85.29%、79.41%、88.24%、82.35%、82.35%,平均準確度為85%。隨機森林算法的準確度明顯高于決策樹算法。

        3.2.3 兩種模型實驗結果比較 本文中的貧困生認定是二分類問題,可以根據(jù)真實類別和學習器預測類別的組合劃分為真正例TP、假正例FP、真反例TN和假反例FN。這4個值構成分類結果混淆矩陣。

        當決策樹的深度為5時,正確率為73.53%,與平均正確率最接近,此時決策樹模型測試集的分類結果混淆矩陣見表1。

        決策樹模型認定貧困生的分類誤差為0.2,認定非貧困生的分類誤差為0.263。

        選取隨機森林模型某次程序運行結果準確度為82.35%時,測試數(shù)據(jù)集的真實值和與測試值,計算分類結果混淆矩陣見表2。

        隨機森林模型認定貧困生的分類誤差為0,認定非貧困生的分類誤差為0.26??梢钥闯觯S機森林模型認定貧困生類別的準確度高于決策樹,認定非貧困生類別與決策樹相比略高一點。提示隨機森林對貧困生類別的認定誤差更低,更精確。

        3.2.4 兩種模型調整參數(shù)進一步比較 決策樹算法中,樹的深度有可能會影響預測的準確度,因此程序中將樹的深度從2變化到15,計算不同深度時,決策樹的預測正確率,并繪制曲線圖。見圖3。

        隨機森林算法中,設置樹的最大深度參數(shù)分別為3、4或默認值None時,調整樹的棵樹從10變到50,計算測試集的正確率,繪制如圖4所示的曲線圖。

        通過圖3可以看出,決策樹的深度較小時,正確率波動較大,當決策樹深度不斷增大時,正確率越來越穩(wěn)定,但是正確率在0.7~0.8之間波動。從圖4可以看出,隨機森林單棵樹的最大深度為3、4或默認值對正確率的影響不大。隨機森林在樹的數(shù)目較小時,正確率波動也較大,隨著樹的數(shù)目增大,正確率波動減小,始終在0.8~0.9附近變動。隨機森林整體預測效果優(yōu)于決策樹。

        4 小結

        貧困生的認定工作在中醫(yī)院校每年都要開展,這項工作對家庭困難的學子來說是至關重要,有可能影響他們的學業(yè)和前途。如何科學合理、公開公正的完成中醫(yī)院校貧困生的認定工作是個非常值得研究的課題。本文根據(jù)貧困生認定中的常用數(shù)據(jù)指標和一卡通消費數(shù)據(jù),使用數(shù)據(jù)挖掘的多種算法進行模型選擇,經(jīng)過試驗,隨機森林在貧困生的認定中表現(xiàn)突出,正確率大大高于決策樹算法。并且隨機森林算法模型訓練速度快,不易產(chǎn)生過擬合,分類準確性較高。由此可以證明隨機森林算法更加適合貧困生的認定工作,隨機森林為貧困生的認定提供了一種新方法。此種方法可以在今后的中醫(yī)藥類院校貧困生認定工作中,與人為主觀評定綜合使用,提高中醫(yī)藥類院校貧困生認定工作的準確性與公正性。

        [參考文獻]

        [1] 李書翔,趙?;郏悤?數(shù)據(jù)挖掘在家庭經(jīng)濟困難學生精準識別中的應用研究[J].亞太教育,2016(30):292-293.

        [2] 韓玉,施海龍,曲波,等.隨機森林方法在醫(yī)學中的應用[J].中國預防醫(yī)學雜志,2014,15(1):79-81.

        [3] 曹路舟.PF-growth算法在高職院校貧困生認定工作中的應用研究[J].西安文理學院自然科學版,2015,18(1):68-72.

        [4] 陳曉,王樹寶,李建晶,等.基于加權約束的決策樹方法在貧困生認定中的應用研究[J].計算機應用與軟件,2014, 32(12):136-139.

        [5] 楊知玲.數(shù)據(jù)挖掘在高校貧困生評價中的應用研究[D].廣州:華南理工大學,2015.

        [6] 張建明.基于數(shù)據(jù)挖掘的高校貧困生認定系統(tǒng)設計和分析[D].南京:東南大學,2015.

        [7] 馬幸飛,李引.基于改進的K-means算法在高校學生消費數(shù)據(jù)中的應用[J].無錫商業(yè)職業(yè)技術學院學報,2016, 16(6):82-85.

        [8] 馬驪.隨機森林算法的優(yōu)化改進研究[D].廣州:暨南大學,2016.

        [9] 周志華.機器學習[M].北京:清華大學出版社,2016.

        [10] 懷聽聽.隨機森林算法的改進及其應用研究[D].杭州:中國計量大學,2016.

        [11] 楊曉峰,嚴建峰,劉曉升,等.深度隨機森林在離網(wǎng)預測中的應用[J].計算機科學,2016,43(6):208-213.

        [12] 楊飚,尚秀偉.加權隨機森林算法研究[J].微型機與應用,2016,35(3):28-30.

        [13] 李婉華,陳宏,郭昆,等.基于隨機森林算法的用電負荷預測研究[J].計算機工程與應用,2016,52(23):236-243.

        [14] 程淼海,樓俏,王瓊,等.基于隨機森林算法的配網(wǎng)搶修故障量預測方法[J].計算機系統(tǒng)應用,2016,25(9):137-143.

        [15] 向濤,李濤,趙雪專,等.基于隨機森林的精確目標檢測方法[J].計算機應用研究,2016,33(9):2837-2840.

        [16] 盧曉勇,陳木生.基于隨機森林和欠采樣集成的垃圾網(wǎng)頁檢測[J].計算機應用,2016,36(3):731-734.

        [17] 李磊,牟少敏,林中琦.隨機森林在棉蚜蟲害等級預測中的應用[J].安徽農(nóng)學通報,2017,23(1):18-20.

        [18] 張新佶,張?zhí)煲唬S金芳,等.隨機森林傾向性評分方法及其在藥品不良反應信號檢測中的應用[J].中國衛(wèi)生統(tǒng)計,2016,33(4):578-581.

        [19] 鞏亞楠,帕提麥·馬秉成,朱登浩,等.隨機森林與Logistic回歸在預約掛號失約影響因素預測中的應用[J].現(xiàn)代預防醫(yī)學,2014,41(5):769-772.

        [20] 李斐,馬千里.基于腦電信號特征提取的睡眠分期方法研究[J].計算機技術與發(fā)展,2016,26(12):177-181.

        (收稿日期:2017-01-15 本文編輯:程 銘)

        猜你喜歡
        機器學習
        基于詞典與機器學習的中文微博情感分析
        基于網(wǎng)絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        科教導刊(2016年26期)2016-11-15 20:19:33
        下一代廣播電視網(wǎng)中“人工智能”的應用
        活力(2016年8期)2016-11-12 17:30:08
        基于支持向量機的金融數(shù)據(jù)分析研究
        基于Spark的大數(shù)據(jù)計算模型
        基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
        基于圖的半監(jiān)督學習方法綜述
        機器學習理論在高中自主學習中的應用
        極限學習機在圖像分割中的應用
        偷拍韩国美女洗澡一区二区三区 | 国产av熟女一区二区三区| 国产绳艺sm调教室论坛| 亚洲中文无码久久精品1| 厕所极品偷拍一区二区三区视频| 日本一区二区三级在线| 日本少妇春药特殊按摩3| 九九99无码精品视频在线观看 | 日本妇人成熟免费2020| 国产精品一二三区亚洲| 亚洲中字幕日产av片在线| 国产亚洲精品aaaaaaa片| 国产亚洲欧美精品一区| 亚洲综合新区一区二区| 新婚少妇无套内谢国语播放 | 亚洲av不卡免费在线| 久久er99热精品一区二区| 国产在线不卡AV观看| 18禁成人免费av大片一区| 尤物蜜桃视频一区二区三区| av免费在线播放视频| 在线观看精品视频网站| 精品国产一级毛片大全| 亚洲黄片av在线免费观看| 国产亚洲视频在线播放| 99久久人妻无码精品系列| 亚洲人成无码www久久久| 色综合88| 人妻中出中文字幕在线| 亚洲成av人片一区二区密柚| 亚洲丁香五月天缴情综合| 中国精品视频一区二区三区| 麻豆视频黄片在线免费观看| 少妇爆乳无码专区| 少妇装睡让我滑了进去| 国产69口爆吞精在线视频喝尿| va精品人妻一区二区三区| 日韩乱码人妻无码系列中文字幕 | 老外和中国女人毛片免费视频| 亚洲av成人一区二区三区网址| 最近中文字幕精品在线|