杜鴻飛,李明奇
(電子科技大學 數(shù)學科學學院 四川 成都 611731)
建模中的探索性數(shù)據(jù)分析
杜鴻飛,李明奇
(電子科技大學 數(shù)學科學學院 四川 成都 611731)
該文以眼科病床的合理安排問題為分析背景,展示了用SPSS軟件進行探索性數(shù)據(jù)分析的全過程,為建模過程中的許多假設(shè)和結(jié)論找到依據(jù)。對術(shù)前觀察時間進行頻率統(tǒng)計發(fā)現(xiàn),白內(nèi)障病人等待手術(shù)時間太久。構(gòu)建交叉表發(fā)現(xiàn)入院FCFS規(guī)則與院方規(guī)定“周一周三做白內(nèi)障手術(shù)”的時間一直存在沖突,這是造成病床利用率低下的關(guān)鍵。
眼科病床;統(tǒng)計分析軟件;數(shù)據(jù)分析;交叉表;先來先服務(wù)規(guī)則
數(shù)學建模問題中通常涉及數(shù)據(jù)分析,這些分析有助于模型選擇、參數(shù)求解和結(jié)果的檢驗。 SPSS、Excel和Matlab等是常用分析軟件。在前期進行探索性分析時,Matlab需要編程,Excel操作復(fù)雜,對于不是很精通這兩種軟件的人員來說是一件麻煩的事情。 SPSS由于其界面操作簡單易于實現(xiàn),為前期數(shù)據(jù)分析并發(fā)現(xiàn)線索的首選。
迄今有不少文章以2009年全國大學生數(shù)學建模競賽B題“眼科病床的合理安排” 數(shù)據(jù)為分析背景,從純數(shù)學、隨機模擬、衛(wèi)生管理、運籌優(yōu)化等方面進行分析[1-10]。 已發(fā)表的許多文獻對數(shù)據(jù)的規(guī)律通常以猜想假設(shè)的形式出現(xiàn),缺乏前期數(shù)據(jù)分析支撐。 本文討論如何利用SPSS18.0進行探索性數(shù)據(jù)分析,逐步發(fā)現(xiàn)線索并找出數(shù)據(jù)中隱藏的規(guī)律,作為后期優(yōu)化和模擬檢驗的基礎(chǔ)。
為了便于分析,先將所給3組數(shù)據(jù)全部復(fù)制粘貼到Excel中構(gòu)成綜合文檔,并添加一項變量“分組”用于區(qū)分組別。SPSS獲取外部數(shù)據(jù)可以通過復(fù)制粘貼、Excel文檔導(dǎo)入、文本文檔導(dǎo)入。 復(fù)制粘貼時日期數(shù)據(jù)自動成為字符型,即便事先在SPSS中設(shè)置好日期型變量,粘貼過去數(shù)據(jù)仍為空。 因此采用導(dǎo)入方式,導(dǎo)入時需注意以下事項。
1)Excel文檔導(dǎo)入
可能存在兩類問題:
① Office版本不合適的時候會要求輸入密碼;
② 導(dǎo)入時由于“第二次手術(shù)時間”前幾項是缺失數(shù)據(jù)(表示為斜杠)而導(dǎo)致SPSS將該變量自動識別為字符型。通過在Excel中將“第二次手術(shù)時間”添加幾項時間數(shù)據(jù),導(dǎo)入SPSS后再將其刪除來解決。
2)文本文檔導(dǎo)入
① 將事先整理好的Excel文檔轉(zhuǎn)換為文本文檔,Excel中“另存為”—“文本文件(制表符分隔)”;
② SPSS進行“文本導(dǎo)入向?qū)А惫?個步驟,其中有兩處需作調(diào)整。將步驟2“變量名稱是否包含在文件的頂部”選項改為“是”;將步驟5“變量規(guī)范”中的門診時間、入院時間、第一次手術(shù)時間、第二次手術(shù)時間、出院時間的數(shù)據(jù)格式都設(shè)為日期型“yyyy/mm/dd”,就可正確導(dǎo)入所有數(shù)據(jù)。
對原始數(shù)據(jù)進行初步統(tǒng)計分析,可以得到第一直觀印象,并為后續(xù)隨機模擬[1-3]和優(yōu)化[1-5]打下基礎(chǔ)。
2.1 病人類型的比例統(tǒng)計
通過菜單“分析—描述統(tǒng)計—頻率”對變量“類型”進行頻率統(tǒng)計,如表1所示。對于這類定性變量的統(tǒng)計還可以在“頻率”的“圖表”選項中選擇“餅圖”來直觀展示比例,如圖1所示。
表1 各類型病人比例統(tǒng)計
圖1 各類病人比例統(tǒng)計及餅圖
2.2 每天門診到達人數(shù)的統(tǒng)計
為了對原有方案和優(yōu)化方案進行比較,除了用排隊論的方法還可以用隨機模擬方法,模擬需要知道病人到來的分布和參數(shù)。 下面對所有病人的分布進行分析,若需分別分析各類病人,可采用“門診時間*類型”作交叉表后類似處理:
1)對“門診時間”進行頻率統(tǒng)計,可得到每天門診的人數(shù);
2)雙擊SPSS中的輸出表格進行編輯,將每天門診人數(shù)選中復(fù)制粘貼到一個新的SPSS數(shù)據(jù)表中,并命名變量為“門診人數(shù)”;
3)對門診人數(shù)進行頻數(shù)統(tǒng)計,并在圖表選項中選擇“直方圖”,結(jié)果如圖2所示;
4)對門診人數(shù)進行分布檢驗,“分析—非參數(shù)檢驗—舊對話框—1樣本K-S檢驗”,如表2所示。通過K-S檢驗發(fā)現(xiàn)正態(tài)、均勻、泊松和指數(shù)分布雙側(cè)檢驗顯著性取值分別為0.238、0.009、1和0。 因此,可以認為門診人數(shù)服從泊松分布。
2.3 出院時間等的統(tǒng)計
對入院時間、第一次手術(shù)時間、第二次手術(shù)時間和出院時間可以類似統(tǒng)計分析,但得到的結(jié)果缺乏有價值的信息,為此進一步考慮時間間隔。
2.4 構(gòu)造新變量并統(tǒng)計
1)構(gòu)造并統(tǒng)計:等待入院時間、術(shù)前觀察時間和術(shù)后恢復(fù)時間。
2)通過“轉(zhuǎn)換—計算變量”構(gòu)造新變量:從選項“函數(shù)組”中“日期運算”找到Datediff函數(shù)可計算兩個日期之間的時間差額,使用該函數(shù)時需注意第3個參數(shù)需用英文“day”(引號不能少),不能用中文“日”。 兩次手術(shù)之間的時間只有白內(nèi)障雙眼涉及,沒有必要計算。對等待入院時間、術(shù)前觀察時間、術(shù)后恢復(fù)時間3個新變量,做頻數(shù)統(tǒng)計分析。
圖2 門診人數(shù)直方圖
參數(shù)門診人數(shù)N61Poisson參數(shù)a,b 均值8.6885最極端差別 絕對值.044 正.044 負-.029Kolmogorov-SmirnovZ.342漸近顯著性(雙側(cè))1.000
a.檢驗分布為Poisson分布;
b.根據(jù)數(shù)據(jù)計算得到。
3.1 疑點的發(fā)現(xiàn)
對新變量進行分析,“術(shù)后觀察時間”與病人體質(zhì)和病情有關(guān),無法通過管理改變;“等待入院時間”與病床空出有關(guān),可以管理但規(guī)律不易尋找。而由表3可見,“術(shù)前觀察時間”中發(fā)現(xiàn)存在問題:根據(jù)題目敘述,外傷需1天,白內(nèi)障需1~2天,視網(wǎng)膜疾病和青光眼需2~3天,而“術(shù)前觀察時間”統(tǒng)計表中最大值為7天。
3.2 疑點探索
一般分析者到此為止,直接將觀察時間取均值進行下一步優(yōu)化處理[1,5],并沒有進一步探索。為了分析原因,通過“分析—描述統(tǒng)計—交叉表”分析“術(shù)前觀察時間*類型”,結(jié)果如表4所示,其中“外傷”病人只需1天;“視網(wǎng)膜疾病”和“青光眼”需2~3天。然而,“白內(nèi)障”需1~5天,“白內(nèi)障雙眼”需1~7天。
表3 術(shù)前觀察時間統(tǒng)計
表4 術(shù)前觀察時間分類統(tǒng)計
3.3 疑點分析
通過分析發(fā)現(xiàn)僅“白內(nèi)障”(單眼、雙眼)與題目所述不同,并且與白內(nèi)障相關(guān)之處僅在“周一、周三”手術(shù)。 從而提出猜測,術(shù)前觀察時間與入院星期有關(guān)。 這種猜測在一些文獻中以邏輯分析得到[3-4]。
再次根據(jù)“入院時間”構(gòu)造新變量“入院星期”,“轉(zhuǎn)換—計算變量”中“函數(shù)組—抽取日期”函數(shù)Xdate.Wkday可以根據(jù)日期數(shù)據(jù)中返回星期,即代表星期天的1和星期六的7之間的整數(shù)。 為了直觀展示,通過“變量視圖—值—值標簽”對“入院星期”設(shè)置變量值標簽,使得星期顯示為“星期一”到“星期天”。
3.4 隱藏規(guī)律的發(fā)現(xiàn)
分析交叉表“入院星期*術(shù)前觀察時間”(“類型”設(shè)為分組變量),除了外傷病人僅需觀察1天外,由表5分析發(fā)現(xiàn),不同類型眼科病人的術(shù)前觀察時間與入院星期有關(guān)。
規(guī)律1:所有病人的術(shù)前觀察時間與入院星期有關(guān)。白內(nèi)障雙眼受影響最大,如果星期一入院,則需等待7天到下一星期才能手術(shù),等待手術(shù)時間最久。
規(guī)律2:術(shù)前觀察時間可取最小值。 入院星期確定后,術(shù)前觀察時間將完全確定,不存在變異,說明術(shù)前觀察時間可以選擇最小值。 若不考慮入院星期,術(shù)前觀察時間的最小值分別為:白內(nèi)障1天;視網(wǎng)膜疾病2天;青光眼2天。 該結(jié)論在文獻中也出現(xiàn)過[3],但沒有數(shù)據(jù)分析支撐。
表5 受入院星期影響的不同眼科病人術(shù)前觀察時間
表5(續(xù))
本文以眼科病床管理問題為例,展示了將數(shù)據(jù)導(dǎo)入SPSS并由淺入深逐步發(fā)現(xiàn)規(guī)律的完整流程。 通過數(shù)據(jù)分析,驗證了門診病人的人數(shù)服從泊松分布,可作為后續(xù)隨機模擬的基礎(chǔ);發(fā)現(xiàn)了術(shù)前觀察時間受入院星期影響,給出了最小術(shù)前觀察時間,這為后續(xù)的建模優(yōu)化提供了準確的數(shù)據(jù)支撐。
[1]費紹金.眼科病床合理安排的優(yōu)化模型[J].吉林師范大學學報(自然科學版), 2011(4): 85-88, 91.
[2]蔣青松, 華淑名, 韓啟雷,等.眼科病床配置的優(yōu)化模型及其計算機模擬[J].數(shù)學的實踐與認識, 2013,43(2): 7-13.
[3]寧效琦, 游淑軍.眼科病床的合理安排[J].湘南學院學報, 2012(2):19-22,107.
[4]彭君君, 梁威利, 勇灃,等.眼科病床的合理安排[J].中國衛(wèi)生標準管理, 2015,6(2):5-6.
[5]陳利菊, 宋曉峰, 張西峰,等.眼科病床安排的優(yōu)化模型[J].純粹數(shù)學與應(yīng)用數(shù)學,2011,27(3): 419-422.
[6] 李翀, 張昊, 劉亞軍.眼科病床的合理安排[J].中國科技信息, 2010, 27(14): 177-179.
[7] 潘淑平, 黃炎, 許冰冰,等.眼科病床的合理安排[J].吉林化工學院學報, 2010, 27(2): 77-80.
[8] 曾繁慧, 周文龍, 林婉虹,等.眼科病床安排的評價與優(yōu)化模型[J].遼寧工程技術(shù)大學學報, 2010, 29(s1):164-166.
[9] 汪琴, 岑璐局, 張淵嫻,等.基于排隊論的眼科病床合理安排的數(shù)學模型[J].浙江外國語學院學報, 2010(1): 79-88.
[10]李莉, 林銓.基于優(yōu)先級排隊模型的醫(yī)院病床安排[J].惠州學院學報, 2012, 32(6): 45-48.
Exploratory Data Analysis in Modeling
DU Hongfei, LI Mingqi
(School of Mathematical Sciences,University of Electronic Sciences and Technology of China,Chengdu 611731, China)
In this paper, based on the reasonable arrangement of Ophthalmology sickbeds, the whole process of the exploratory data analysis using statistic package for social science (SPSS)is presented, which can be used as a basis for many assumptions and conclusions in the modeling process.Frequency statistic of preoperative observation time showed that the waiting time of cataract patients is too long.The constructed cross-table analysis shows that there is a conflict between the hospital admission first come,first served (FCFS)rule and the provisions of " Monday and Wednesday to do cataract surgery " , which is the main factor leading to low utilization sickbeds.
ophthalmology sickbeds; SPSS; exploratory data analysis; cross-table; FCFS rule
2016-12-12;修改日期:2016-12-19
電子科技大學2016-2018年高等教育人才培養(yǎng)質(zhì)量和教學改革項目(2016XJYYB035)。
杜鴻飛(1973 - ),男,碩士,講師,主要從事數(shù)據(jù)分析與數(shù)學建模方面的研究。
O175.23;G434
A
10.3969/j.issn.1672-4550.2017.01.002