葉超
摘 ?要:該文在數(shù)理統(tǒng)計的視角下,分別以日為單位和以周為單位對溫州職業(yè)技術(shù)學院2013年9月~2018年12月公寓晚歸數(shù)據(jù)進行統(tǒng)計分析。研究發(fā)現(xiàn)2種統(tǒng)計口徑下學生晚歸行為分布與泊松分布之間有顯著相關(guān)性,其卡方檢驗結(jié)果分別為P1=0.048、P2=0.045。因此,以周為單位的晚歸概率分布更好地符合泊松分布的特點。根據(jù)該文的研究結(jié)果可知,在探究學生晚歸行為時,可以將此類隨機事件轉(zhuǎn)化為一個已知均值的泊松分布問題,將復雜問題簡單化、模型化,從而為高校教師和管理者更好地管理學生提供分析和決策依據(jù)。
關(guān)鍵詞:泊松分布;卡方檢驗;晚歸;隨機事件;概率分布
中圖分類號:O211.3 ? ? ? ? 文獻標志碼:A
0 引言
眾所周知,泊松分布[1](Poisson Distribution)是一種離散型隨機概率分布,它是由法國著名的數(shù)學家和物理學家泊松(Poisson S.D)在1837年首先提出來的,與之相關(guān)的泊松過程、復合泊松過程等在物理學、金融學、經(jīng)濟學、工程學和管理學領(lǐng)域扮演者重要的角色。泊松分布主要用于描述單位時間或空間內(nèi)隨機事件X發(fā)生k次的概率分布數(shù)學模型,在描述稀有事件出現(xiàn)的概率時顯得特別有用,例如單位時間內(nèi)電話總機接到用戶呼叫的次數(shù);單位時間內(nèi),電路受到外界電磁波的沖擊次數(shù);1 m2內(nèi)玻璃上產(chǎn)生的水滴數(shù);某一公交車站上車的乘客數(shù);某項保險的索賠次數(shù);某一液滴中觀察到的微生物數(shù)等。
學生公寓晚歸行為通常是指學生在規(guī)定門禁時間之后回到公寓的一種違紀情況。學生無故晚歸會對學生公寓正常管理帶來諸多影響,存在極大的安全隱患。學生晚歸行為作為一種隨機事件,高校教師和管理者通常只關(guān)注發(fā)生晚歸行為的學生,而忽略了晚歸這一行為在統(tǒng)計學上的特征和表現(xiàn)。通常情況下,我們無法準確地預測某一天有幾個同學晚歸,但是我們能統(tǒng)計出某一月、某一學期發(fā)生了多少次晚歸,而泊松分布恰好適合描述這種隨機事件。因此,該文將探究晚歸行為與泊松分布之間的關(guān)系。
作者跟蹤整理了溫州職業(yè)技術(shù)學院從2013年開始長期開展學生公寓學生晚歸。截至2018年底,總共整理匯總1319期學數(shù)據(jù),其中晚上未按時回校2 146人次。為該次分析和研究提供了數(shù)據(jù)支持。
1 以日為單位的泊松分布研究
泊松分布概率函數(shù)通常可表示為:
上式可理解為:隨機變量X在取值為k時的概率,其中k=0,1,2…、λ表示隨機事件在一段時間內(nèi)發(fā)生的平均次數(shù)。對于任意隨機事件如要將其看作泊松過程研究,需滿足3個條件。1)隨機事件具有獨立性。2)隨機事件在不同時間段內(nèi)發(fā)生的概率具有穩(wěn)定性。3)隨機事件是個小概率事件[1]。
該文研究了對象學生晚歸行為,這一隨機事件能夠較好地符合上述3個條件。即學生晚歸行為為個人行為,不會受到之前晚歸的學生的影響;除了涉及假期的月份,其他月份學生的晚歸總數(shù)相對穩(wěn)定,說明學生晚歸概率具有穩(wěn)定性;根據(jù)統(tǒng)計可得,2013年9月~2018年12月溫州職業(yè)技術(shù)學院學生總計晚歸次數(shù)2 146次,平均日晚歸次數(shù)λ≈1.5。對于在校生10 000人左右學校,平均每天有1.5個人晚歸,晚歸概率約為0.01%可以認為是一個小概率事件。因此,可以認為學生晚歸行為是一個泊松過程,其概率分布應(yīng)有泊松分布的趨勢和特點。
由于周末不單獨發(fā)布晚歸數(shù)據(jù),每周五、周六和周日的晚歸數(shù)據(jù)會下一周周一起發(fā)布,即每周一的公告實際包含了周五、周六和周日3天的數(shù)據(jù)。所以,為了補全公告未體現(xiàn)的數(shù)據(jù),該文對這部分未體現(xiàn)的天數(shù)做了如下處理:根據(jù)λ=1.5得到泊松分布的概率分布,可認定某天晚上不發(fā)生晚歸的概率為P(0)=0.22,如果周末3天都未發(fā)生晚歸(其概率為0.223),則認定為這3天為無晚歸。根據(jù)上述處理,補全了確實的數(shù)據(jù),得到溫州職業(yè)技術(shù)學院2013年9月~2018年12月以來的晚歸次數(shù)的概率分布。
如圖1(a)所示,黑線為實際晚歸概率分布Pr(X),紅線為泊松分布Pr(X)| λ=1.5。兩者有相似的趨勢,吻合度較高,這說明學生的晚歸次數(shù)的概率分布具有泊松分布的趨勢。為了定量地描述實際概率分布的與泊松分布的關(guān)系,該文利用卡方檢驗[2](交叉分析)研究泊松分布(λ=1.5)與實際分布的差異關(guān)系,經(jīng)計算可知x12=180、p1=0.048<0.05。這說明兩者有顯著性關(guān)系,學生每日晚歸次數(shù)具有泊松分布的特點。因此,只要知道一段時間內(nèi)的平均晚歸次數(shù),我們就能用對應(yīng)的泊松分布來描述晚歸次數(shù)分布,將一個未知概率分布轉(zhuǎn)化成已知的概率分布。
2 以周為單位的泊松分布研究
根據(jù)上文討論可知,由于晚歸數(shù)據(jù)統(tǒng)計上的特點,每周一的數(shù)據(jù)實際包含了周五、周六和周日3天的晚歸數(shù)據(jù)。該文的處理方式是將λ=1.5的泊松分布P(0)概率當作某天晚上不發(fā)生晚歸的概率為,從而補全空余的數(shù)據(jù)。雖然,實際概率分布與泊松分布(λ=1.5)有著相同的趨勢,且卡方檢驗顯示兩者有顯著相關(guān)性。但是Pr(0)和P(0)|λ=1.5仍有一定的差別,這樣的數(shù)據(jù)處理必將對結(jié)果產(chǎn)生一定的影響。因此,為了避免數(shù)據(jù)處理對研究結(jié)果產(chǎn)生影響,該文通過改進統(tǒng)計方式,以周為單位統(tǒng)計了每周發(fā)生的晚歸次數(shù),從而避開了數(shù)據(jù)補全的過程。
如圖1(b)所示,黑線為的實際晚歸概率分布Pr(X),
紅線為泊松分布 P(X)| λ=10(根據(jù)計算可知,每周發(fā)生晚歸數(shù)λ≈10)。通過比較可知,兩條曲線有相似的趨勢,吻合度較高。利用卡方檢驗(交叉分析)研究泊松分布(λ=10)與實際分布的差異關(guān)系,經(jīng)計算可知x22=93.6、p2=0.045<0.05,這進一步說明兩者之間存在顯著性關(guān)系。此外,x22>x12 ,p1 通過進一步比較兩者的分布圖像,實際概率分布的波峰較寬,峰值相對較低。這主要是由于實際分布Pr(X>24)≠0,在X大于24后仍有一定的概率,而P(X>24)| λ=10=0,在X大于24概率為0造成。這種情況通常是因為在實際生活中一些特殊的節(jié)假日和活動造成的,如舉辦運動會、惡劣天氣造成交通大面積延誤等。因此,如圖1(b)說明學生的晚歸次數(shù)的概率分布確實具有泊松分布的趨勢。同時也說明在在第二小節(jié)中的數(shù)據(jù)處理具有一定的可靠性。 3 結(jié)語 該文通過數(shù)理統(tǒng)計的方法研究發(fā)現(xiàn),溫州職業(yè)技術(shù)學院2013年9月至2018年12月共11個學期的學生公寓晚歸現(xiàn)象具有泊松過程的特點,其發(fā)生次數(shù)的概率分布與泊松分布有顯著性關(guān)系。其中,以日為單位統(tǒng)計的晚歸分布卡方檢驗結(jié)果分別為x12=180、p1=0.048, 滿足學生晚歸分布和泊松分布具有顯著性關(guān)系的判斷標準。在研究過程中,為了減少數(shù)據(jù)處理對結(jié)果的影響,該文對統(tǒng)計分布做了一定的優(yōu)化,不以日為統(tǒng)計單位,通過統(tǒng)計每周的晚歸次數(shù),避開了數(shù)據(jù)補全過程中對數(shù)據(jù)準確性造成的影響。其中,以周為單位統(tǒng)計的晚歸分布卡方檢驗結(jié)果分別為x22=93.6、p2=0.045。計算結(jié)果表明以周為單位的統(tǒng)計分布,確實能更好地符合泊松分布的特點(x22>x12 ,p1 根據(jù)上述討論,該文可將學生晚歸行為這一未知的隨機事件,轉(zhuǎn)化為研究一個符合泊松分布的隨機事件,從而將復雜的問題簡單化、模型化。自1837年首次提出后,圍繞泊松分布有大量的基礎(chǔ)和應(yīng)用研究,以及諸多被實踐證實的性質(zhì)。泊松分布的特點能為高校教師和管理者更好地組織學生提供科學依據(jù)和決策依據(jù),并為學校在制定相關(guān)政策過程中提供幫助,如預測明年學校將發(fā)生的晚歸次數(shù)、定義大規(guī)模晚歸事件的閾值等。 參考文獻 [1]夏元睿,吳俊,葉冬青.泊松分布與概率論的發(fā)展——西蒙·丹尼爾·泊松[J].中華疾病控制雜志,2019,23(7):881-884. [2]林照授,李金釬,陳森森.基于Excel函數(shù)及圖表工具的泊松分布卡方檢驗法應(yīng)用[J].綠色科技,2019(21):171-173.