苗維誠(chéng)
(蚌埠醫(yī)學(xué)院 數(shù)理教研室,安徽 蚌埠 233030)
數(shù)據(jù)挖掘算法對(duì)于提高實(shí)驗(yàn)報(bào)告質(zhì)量的作用探討
苗維誠(chéng)
(蚌埠醫(yī)學(xué)院 數(shù)理教研室,安徽 蚌埠 233030)
為提高我校醫(yī)用物理實(shí)驗(yàn)報(bào)告的質(zhì)量,本文運(yùn)用數(shù)據(jù)挖掘決策樹(shù)C4.5算法對(duì)實(shí)驗(yàn)報(bào)告進(jìn)行處理分析,找出影響實(shí)驗(yàn)報(bào)告質(zhì)量的關(guān)鍵因素,建立決策樹(shù)模型,提出改善的辦法.
實(shí)驗(yàn)報(bào)告;數(shù)據(jù)挖掘;決策樹(shù)算法
蚌埠醫(yī)學(xué)院數(shù)理教研室常年開(kāi)設(shè)醫(yī)用物理學(xué)實(shí)驗(yàn)課.實(shí)驗(yàn)報(bào)告是實(shí)驗(yàn)教學(xué)的一個(gè)重要環(huán)節(jié),書(shū)寫(xiě)實(shí)驗(yàn)報(bào)告能鍛煉學(xué)生的分析、寫(xiě)作、總結(jié)能力,培養(yǎng)學(xué)生的實(shí)驗(yàn)素質(zhì)和科研能力,也是教師了解學(xué)生掌握知識(shí)的狀況和進(jìn)行成績(jī)?cè)u(píng)定的依據(jù)[1].為提高物理實(shí)驗(yàn)報(bào)告質(zhì)量,對(duì)學(xué)生的實(shí)驗(yàn)報(bào)告進(jìn)行分析,運(yùn)用數(shù)據(jù)挖掘決策樹(shù)C4.5算法找出影響實(shí)驗(yàn)報(bào)告質(zhì)量的關(guān)鍵因素.
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程.決策樹(shù)C4.5算法是數(shù)據(jù)挖掘領(lǐng)域最具影響力的算法之一,在給定數(shù)據(jù)集合上運(yùn)行C4.5算法可以得到一個(gè)從屬性值到類(lèi)別的映射,進(jìn)而可以用該映射去分類(lèi)新的未知實(shí)例,最終形成決策樹(shù)[2].
C4.5算法構(gòu)造決策樹(shù)是以信息增益率作為分枝準(zhǔn)則的,信息增益率表示分枝產(chǎn)生的有用信息的比率,選擇具有最大信息增益率的關(guān)鍵因素作為樹(shù)的根結(jié)點(diǎn).
為了方便介紹C4.5算法的公式,先作如下假設(shè):D表示一個(gè)訓(xùn)練集Di,(i=1,2,…,m)表示D中m個(gè)不同類(lèi),那么對(duì)D中的元組分類(lèi)所需的期望信息記為Info(D),也叫做D的熵,公式為:
假定按照屬性A將訓(xùn)練集D劃分成n個(gè)不同的類(lèi),需要計(jì)算D關(guān)于屬性A的熵EntropyA(D).
計(jì)算訓(xùn)練集D關(guān)于屬性A的信息增益Gain(A)的公式為:
分裂信息SplitInfoA(D)表示按照屬性A劃分訓(xùn)練集D的廣度和均勻性,公式為:
信息增益率(GainRatio)的計(jì)算公式為:
C4.5算法的數(shù)據(jù)來(lái)源于2016級(jí)臨床專(zhuān)業(yè)的學(xué)生,選取了476份實(shí)驗(yàn)報(bào)告.為了方便數(shù)據(jù)的獲取,對(duì)實(shí)驗(yàn)報(bào)告的四個(gè)方面分別進(jìn)行打分,每項(xiàng)的總分都是10分,最后再給實(shí)驗(yàn)報(bào)告一個(gè)總分,滿分100分.這四個(gè)方面為:(1)實(shí)驗(yàn)報(bào)告的格式內(nèi)容.這里存在的問(wèn)題主要是實(shí)驗(yàn)報(bào)告內(nèi)容不完整,格式不規(guī)范,字跡潦草,抄襲書(shū)本原話,內(nèi)容雷同.(2)實(shí)驗(yàn)數(shù)據(jù)的處理.主要問(wèn)題是在數(shù)據(jù)處理上存在簡(jiǎn)單錯(cuò)誤,比如計(jì)算錯(cuò)誤,單位錯(cuò)誤,圖表格式不規(guī)范,還存在數(shù)據(jù)抄襲的現(xiàn)象.(3)實(shí)驗(yàn)報(bào)告的討論總結(jié).主要問(wèn)題是學(xué)生的實(shí)驗(yàn)總結(jié)很簡(jiǎn)單,沒(méi)有深度和新意,沒(méi)有去查閱文獻(xiàn),缺少必要的討論.(4)實(shí)驗(yàn)報(bào)告的反饋完善.問(wèn)題主要是學(xué)生拿到批改后的實(shí)驗(yàn)報(bào)告不能及時(shí)修改,存在拖延現(xiàn)象,有的修改后仍然存在錯(cuò)誤.
通過(guò)對(duì)實(shí)驗(yàn)報(bào)告四個(gè)方面的打分,我們提取出影響實(shí)驗(yàn)報(bào)告質(zhì)量的四個(gè)關(guān)鍵因素,分別為:“格式內(nèi)容”“數(shù)據(jù)處理”“討論總結(jié)”“反饋完善”.把這四項(xiàng)得分大于等于8分的記為“優(yōu)”;小于8分的記為“一般”,于是我們就把“格式內(nèi)容”“數(shù)據(jù)處理”“討論總結(jié)”“反饋完善”根據(jù)得分都分為“優(yōu)”和“一般”兩類(lèi).根據(jù)實(shí)驗(yàn)報(bào)告的總得分,把大于等于80分的記為“優(yōu)”;小于80分的記為“一般”,這樣就把實(shí)驗(yàn)報(bào)告的質(zhì)量也分為“優(yōu)”和“一般”兩類(lèi).對(duì)數(shù)據(jù)進(jìn)行處理獲得476條數(shù)據(jù),把數(shù)據(jù)分為兩類(lèi):訓(xùn)練集360條數(shù)據(jù),測(cè)試集116條數(shù)據(jù).
首先計(jì)算樣本分類(lèi)所需的期望信息量,即熵值.訓(xùn)練數(shù)據(jù)集360條數(shù)據(jù),實(shí)驗(yàn)報(bào)告質(zhì)量?jī)?yōu)的有112條,一般的有248條;
由公式①得:
然后計(jì)算每一個(gè)關(guān)鍵因素的信息增益率:
(1)屬性“格式內(nèi)容”,由訓(xùn)練集得:格式內(nèi)容 =“優(yōu)”有156條,其中84條實(shí)驗(yàn)報(bào)告質(zhì)量?jī)?yōu),72條質(zhì)量一般;
格式內(nèi)容=“一般”有204條,其中28條實(shí)驗(yàn)報(bào)告質(zhì)量?jī)?yōu),176條質(zhì)量一般;
由公式②計(jì)算其熵值為:
由公式③計(jì)算其信息增益為:
Gain(格式內(nèi)容)=I(S1,S2)-E(格式內(nèi)容)=0.13603
由公式④計(jì)算分裂信息:
(2)屬性“數(shù)據(jù)處理”,數(shù)據(jù)處理=“優(yōu)”有98條,其中79條實(shí)驗(yàn)報(bào)告質(zhì)量?jī)?yōu),19條質(zhì)量一般;數(shù)據(jù)處理=“一般”有262條,其中33條實(shí)驗(yàn)報(bào)告質(zhì)量?jī)?yōu),229條質(zhì)量一般;
最終公式⑤計(jì)算:
(4)屬性“反饋完善”,反饋完善 =“優(yōu)”有 117條,其中75條實(shí)驗(yàn)報(bào)告質(zhì)量?jī)?yōu),42條質(zhì)量一般;反饋完善=“一般”有243條,其中37條實(shí)驗(yàn)報(bào)告質(zhì)量?jī)?yōu),206條質(zhì)量一般;
(3)屬性“討論總結(jié)”,討論總結(jié)=“優(yōu)”有93條,其中85條實(shí)驗(yàn)報(bào)告質(zhì)量?jī)?yōu),8條質(zhì)量一般;討論總結(jié)=“一般”有267條,其中27條實(shí)驗(yàn)報(bào)告質(zhì)量?jī)?yōu),240條質(zhì)量一般.
由上面計(jì)算出的每個(gè)關(guān)鍵因素信息增益率的值,來(lái)確定決策樹(shù)的根結(jié)點(diǎn),生成決策樹(shù),再對(duì)決策樹(shù)進(jìn)行剪枝.剪枝采用自下而上的方式,最后生成一棵實(shí)驗(yàn)報(bào)告質(zhì)量決策樹(shù).用括號(hào)表示實(shí)驗(yàn)報(bào)告質(zhì)量決策樹(shù)為:(討論總結(jié)(數(shù)據(jù)處理(質(zhì)量?jī)?yōu),反饋完善(質(zhì)量?jī)?yōu),質(zhì)量一般)),數(shù)據(jù)處理(反饋完善(質(zhì)量?jī)?yōu),格式內(nèi)容(質(zhì)量?jī)?yōu),質(zhì)量一般)),反饋完善(格式內(nèi)容(質(zhì)量?jī)?yōu),質(zhì)量一般),質(zhì)量一般)).
IF討論總結(jié)=“優(yōu)”AND數(shù)據(jù)處理=“優(yōu)”THEN實(shí)驗(yàn)報(bào)告質(zhì)量=“優(yōu)”;IF討論總結(jié)=“優(yōu)”AND數(shù)據(jù)處理=“一般”AND反饋完善=“優(yōu)”THEN實(shí)驗(yàn)報(bào)告質(zhì)量=“優(yōu)”;IF討論總結(jié)=“優(yōu)”AND數(shù)據(jù)處理=“一般”AND反饋完善=“一般”THEN實(shí)驗(yàn)報(bào)告質(zhì)量=“一般”;IF討論總結(jié)=“一般”AND數(shù)據(jù)處理=“優(yōu)”AND反饋完善=“優(yōu)”THEN實(shí)驗(yàn)報(bào)告質(zhì)量=“優(yōu)”;IF討論總結(jié)=“一般”AND數(shù)據(jù)處理=“優(yōu)”AND反饋完善=“一般”AND格式內(nèi)容=“優(yōu)”THEN實(shí)驗(yàn)報(bào)告質(zhì)量=“優(yōu)”;IF討論總結(jié)=“一般”AND數(shù)據(jù)處理=“優(yōu)”AND反饋完善=“一般”AND格式內(nèi)容=“一般”THEN實(shí)驗(yàn)報(bào)告質(zhì)量=“一般”;IF 討論總結(jié) =“一般”AND 數(shù)據(jù)處理 =“一般”AND反饋完善=“優(yōu)”AND格式內(nèi)容=“優(yōu)”THEN實(shí)驗(yàn)報(bào)告質(zhì)量=“優(yōu)”;IF 討論總結(jié) =“一般”AND 數(shù)據(jù)處理 =“一般”AND 反饋完善=“優(yōu)”AND格式內(nèi)容=“一般”THEN實(shí)驗(yàn)報(bào)告質(zhì)量=“一般”;IF 討論總結(jié) =“一般”AND 數(shù)據(jù)處理 =“一般”AND反饋完善=“一般”THEN實(shí)驗(yàn)報(bào)告質(zhì)量=“一般”.
由以上規(guī)則可以看出,我校醫(yī)用物理學(xué)實(shí)驗(yàn)報(bào)告的質(zhì)量主要受到格式內(nèi)容、數(shù)據(jù)處理、討論總結(jié)、反饋完善四個(gè)因素的影響,其中,影響力由大到小依次是討論總結(jié),數(shù)據(jù)處理,反饋完善和格式內(nèi)容.所以要提高實(shí)驗(yàn)報(bào)告的質(zhì)量,可以要求學(xué)生把實(shí)驗(yàn)報(bào)告分為三個(gè)部分書(shū)寫(xiě):(1)課前部分,上課前學(xué)生應(yīng)該認(rèn)真預(yù)習(xí)實(shí)驗(yàn)內(nèi)容,用自己的語(yǔ)言把實(shí)驗(yàn)的目的、原理、步驟等簡(jiǎn)明扼要的寫(xiě)在實(shí)驗(yàn)報(bào)告上,杜絕照抄課本,有不明白的地方應(yīng)在實(shí)驗(yàn)報(bào)告上做好標(biāo)記.(2)課堂部分,學(xué)生做實(shí)驗(yàn)的過(guò)程中需把實(shí)驗(yàn)得到的原始數(shù)據(jù)記錄在實(shí)驗(yàn)報(bào)告上,并完善實(shí)驗(yàn)報(bào)告課前部分的內(nèi)容.(3)課后部分,實(shí)驗(yàn)課結(jié)束后,學(xué)生應(yīng)處理實(shí)驗(yàn)原始數(shù)據(jù)得到實(shí)驗(yàn)結(jié)果,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析討論,討論包括對(duì)實(shí)驗(yàn)的理解,實(shí)驗(yàn)中遇到各種問(wèn)題的解決方法,實(shí)驗(yàn)數(shù)據(jù)的偏差處理,對(duì)整個(gè)實(shí)驗(yàn)的總結(jié)等.教師批改完實(shí)驗(yàn)報(bào)告反饋給學(xué)生,學(xué)生要對(duì)實(shí)驗(yàn)報(bào)告中的不足和錯(cuò)誤及時(shí)進(jìn)行完善和修改.
實(shí)驗(yàn)報(bào)告的改革是一個(gè)循序漸進(jìn)的過(guò)程,運(yùn)用決策樹(shù)C4.5算法對(duì)醫(yī)用物理實(shí)驗(yàn)報(bào)告進(jìn)行分析,學(xué)生實(shí)驗(yàn)報(bào)告寫(xiě)的多,想的少,缺乏自主性和創(chuàng)造性.實(shí)驗(yàn)報(bào)告的重點(diǎn)應(yīng)該是實(shí)驗(yàn)結(jié)果的處理分析和討論總結(jié),只有這樣才能使學(xué)生把理論和實(shí)踐相互轉(zhuǎn)化,真正起到大學(xué)實(shí)驗(yàn)課的作用.
〔1〕呂道文.《醫(yī)學(xué)物理實(shí)驗(yàn)》的課程建設(shè)與教學(xué)改革研究[J].中國(guó)醫(yī)學(xué)物理學(xué)雜志,2009,26(6):1570-1572.
〔2〕袁方.實(shí)用數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2010.
〔3〕吳信東,庫(kù)瑪爾.數(shù)據(jù)挖掘十大算法[M].北京:清華大學(xué)出版社,2013.
〔4〕張學(xué)文,司佑全.《電子技術(shù)》實(shí)驗(yàn)報(bào)告存在的問(wèn)題及對(duì)策[J].湖北師范學(xué)院學(xué)報(bào),2015,35(3):97-101.
〔5〕蔣瑾.寫(xiě)好實(shí)驗(yàn)報(bào)告的思考[J].吉林化工學(xué)院學(xué)報(bào),2013,30(4):56-58.
G642.423
A
1673-260X(2017)12-0201-02
2017-10-25
校級(jí)重大教學(xué)改革項(xiàng)目(2016jyxm07)
赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版2017年24期