孫煜 宋麗哲
摘? 要:遠(yuǎn)程開放教育是當(dāng)今社會中最重要的教育方式之一,而遠(yuǎn)程學(xué)習(xí)者往往十分關(guān)心自己完成學(xué)業(yè)的時間,該文以學(xué)期為單位,使用2檢驗法對國家開放大學(xué)2007—2018年共12年的畢業(yè)生學(xué)習(xí)的學(xué)期數(shù)進(jìn)行檢驗,結(jié)果表明,國家開放大學(xué)畢業(yè)生學(xué)習(xí)的學(xué)期數(shù)顯著服從Pareto分布。另外,進(jìn)一步使用最小二乘法對Pareto分布的參數(shù)進(jìn)行了估計,為后續(xù)研究打下了基礎(chǔ)。
關(guān)鍵詞:學(xué)習(xí)時間分布? Pareto分布? 2檢驗法? 擬合研究
中圖分類號:G434? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ? ? ? ? ? ? ? ?文章編號:1672-3791(2020)12(b)-0191-05
Abstract: Distance open education is one of the most important forms of education in today's society, and distance learners are often very concerned about the time they take to complete their studies, the article examines the number of semesters studied by graduates of the Open University of China in a total of 12 years from 2007—2018 in terms of semesters using the chi square test, and the results show that the number of semesters studied by graduates of the Open University of China significantly follows the Pareto distribution. In addition, the parameters of the Pareto distribution were further estimated using the least squares method, which provided the basis for subsequent studies.
Key Words: Learning time distribution; Pareto distribution; Chi square test; Fitting research
現(xiàn)代信息化技術(shù)的快速發(fā)展和廣泛應(yīng)用為高等教育注入了強(qiáng)大的動力,遠(yuǎn)程開放教育成為學(xué)習(xí)型社會最重要的教育方式之一。遠(yuǎn)程開放教育主要通過先進(jìn)信息技術(shù)和傳統(tǒng)教育緊密結(jié)合的手段來構(gòu)筑知識經(jīng)濟(jì)時代的終身學(xué)習(xí)體系。而參加遠(yuǎn)程教育的學(xué)生一般要經(jīng)過多長的學(xué)習(xí)時間才能畢業(yè)?以往學(xué)生的畢業(yè)率情況如何?這些問題不僅為學(xué)生所關(guān)注,對于遠(yuǎn)程教育本身也具有重要意義。
國家開放大學(xué)原名中央廣播電視大學(xué),同地方廣播電視大學(xué)一起,組建成為一個完整的教學(xué)和管理體系。目前,國家開放大學(xué)由總部、分部、地方學(xué)院、學(xué)習(xí)中心和行業(yè)、企業(yè)學(xué)院共同組成完整的辦學(xué)組織體系,在籍學(xué)生約為453萬(數(shù)據(jù)來源于國家開放大學(xué)最新統(tǒng)計數(shù)據(jù))。因此,對其進(jìn)行學(xué)生畢業(yè)所用學(xué)期數(shù)的相關(guān)研究具有重要意義。
過去,出于輟學(xué)現(xiàn)象的普遍性及給遠(yuǎn)程教育帶來不利影響的嚴(yán)重性,大量研究人員選擇“輟學(xué)”作為研究選題,例如張鳳來、王文婷[1-2]在其研究中都指出了遠(yuǎn)程開放教育中,輟學(xué)率的研究一直是一個重要的課題。而對于畢業(yè)的研究相對于輟學(xué)來說,正如一個硬幣的兩面,研究畢業(yè)現(xiàn)象以提升畢業(yè)率,同樣可以降低輟學(xué)率。國內(nèi)也有少部分學(xué)者針對畢業(yè)率進(jìn)行研究,例如宿紅艷(2015)[3],徐輝、梁曉琦(2018)[4]以某所遠(yuǎn)程教育機(jī)構(gòu)為個案,采用描述性統(tǒng)計方法研究不同專業(yè)、不同性別學(xué)生的畢業(yè)率。
然而由于學(xué)生的個體差異較大,學(xué)習(xí)方式復(fù)雜,給統(tǒng)計和研究工作帶來很大的困難,至今少有關(guān)于學(xué)生畢業(yè)學(xué)期數(shù)這方面的報告。
為了能夠更好地分析影響學(xué)生學(xué)習(xí)學(xué)期數(shù)的因素,首要的就是要研究清楚學(xué)生學(xué)習(xí)學(xué)期數(shù)的分布情況。
由此,該文通過對國家開放大學(xué)2007—2018年12年的教務(wù)數(shù)據(jù)對畢業(yè)生學(xué)習(xí)學(xué)期數(shù)進(jìn)行分析,根據(jù)其頻率直方圖以及Pareto分布的概率密度函數(shù)圖,判斷其服從Pareto分布,并采用2檢驗的方法來進(jìn)行檢驗。在通過檢驗的基礎(chǔ)上,建立模型估計其Pareto分布的參數(shù),為進(jìn)一步研究影響學(xué)生學(xué)習(xí)學(xué)期數(shù)的參數(shù)分析等提供一定的參考。文章第一部分介紹該文的研究意義以及方向;第二部分對數(shù)據(jù)的分布做初步擬合;第三部分介紹模型構(gòu)建及估計的過程,并給出分布參數(shù)的估計;第四部分對文章做全面總結(jié),給出結(jié)論。
1? 學(xué)生學(xué)習(xí)時間分布初步擬合
該文選取國家開放大學(xué)2007—2018年共12年的教務(wù)數(shù)據(jù),數(shù)據(jù)量達(dá)到了900萬條,經(jīng)過數(shù)據(jù)篩選,去除空數(shù)據(jù)條目,刪除無效數(shù)據(jù)等,剩余數(shù)據(jù)依然有390萬之多,對其進(jìn)行初步統(tǒng)計得出,頻數(shù)統(tǒng)計見表1。
學(xué)習(xí)時間基礎(chǔ)統(tǒng)計見表2。
而后,根據(jù)頻數(shù)統(tǒng)計表,畫出頻率直方圖,具體見圖1。
由圖1可以看出,學(xué)生學(xué)習(xí)時間的分布屬于截尾分布,魏順平(2011)[5]中曾使用生存分析法、cox回歸模型來對畢業(yè)影響因素進(jìn)行分析,生存分析法以及cox回歸模型都是針對于截尾分布的分析模型,其在不要求估計資料的分布類型的情況下,以生存結(jié)局和生存時間為應(yīng)變量,能夠同時分析眾多因素對生存期的影響。由于這些優(yōu)點,所以,在分析中很受研究人員的歡迎,但也正是因為此類模型通過半?yún)?shù)擬合,規(guī)避了分布類型,所以導(dǎo)致往往只能夠關(guān)注一個終點事件,例如,只關(guān)心學(xué)生8年內(nèi)能夠畢業(yè)的畢業(yè)率,而不能對多個終點進(jìn)行預(yù)測,而往往人們想知道的并不僅僅是一個結(jié)果,例如畢業(yè)所用學(xué)習(xí)時間的期望等。
出于這種目的,該文針對學(xué)習(xí)所用學(xué)期數(shù)進(jìn)行分布擬合。
帕累托分布(Pareto distributions)[6]是以意大利經(jīng)濟(jì)學(xué)家維弗雷多·帕雷托命名的,是維弗雷多·帕雷托在大量真實世界的現(xiàn)象中,發(fā)現(xiàn)的冪次定律分布。這個分布在經(jīng)濟(jì)學(xué)以外的領(lǐng)域,也被稱為布拉德福分布。一個多世紀(jì)以來,它在不同的領(lǐng)域范圍內(nèi),廣泛應(yīng)用,也來越收到科研人員的重視。由于Pareto分布具有遞減的失效率函數(shù),經(jīng)常用來描述諸如個人收入(收入越高,獲得更高收入的能力就會增加)、某種藥理過程后病人的存活時間(存活時間越長,能夠繼續(xù)存活更長時間的可能性就越高)等模型。
在帕累托分布中,如果X是一個隨機(jī)變量,則X的概率分布如公式(1)所示:
式中,x是任何一個大于xmin的數(shù),xmin是x最小的可能值(正數(shù)),k是為正的參數(shù)。可以看出,Pareto曲線族是由兩個數(shù)量參數(shù)化的,即xmin和k。
圖2分別給出了在k=1,2,3時的Pareto分布曲線。
結(jié)合圖1和圖2,可以看出,學(xué)生畢業(yè)所用學(xué)期數(shù)的頻率圖,與Pareto分布曲線圖中的k=3的情況大致已知,加之Pareto的廣泛應(yīng)用,具有良好的分析特性、豐富的參考資料。故該文考慮用Pareto分布擬合學(xué)習(xí)時間的分布。
2? Pareto分布的2檢驗法
前文中,根據(jù)頻率圖與Pareto分布曲線考慮使用Pareto分布進(jìn)行擬合,在擬合之前,需要對分布進(jìn)行假設(shè)檢驗。
由于Pareto分布與雙參數(shù)分布有直接的關(guān)系,在數(shù)據(jù)分析的時候,可以采用對數(shù)變換,然后利用一種針對雙參數(shù)指數(shù)分布的2檢驗方法來進(jìn)行分布的檢驗[7],具體檢驗過程如下。
3? 學(xué)習(xí)時間分布參數(shù)的最小二乘估計
由第三節(jié)結(jié)論,學(xué)習(xí)時間的分布服從Pareto分布:
對學(xué)習(xí)時間數(shù)據(jù)做相應(yīng)變換,得到表4。
將相應(yīng)數(shù)據(jù)帶入式(8)中可得參數(shù)估計約為:
即,國家開放大學(xué)12個學(xué)期的學(xué)生畢業(yè)所用學(xué)期數(shù)所服從的Pareto分布,形狀參數(shù)α的值為5.497,尺度參數(shù)的值為5.112。
4? 結(jié)語
該文基于國家開放大學(xué)一共12個學(xué)期的學(xué)生畢業(yè)所用的學(xué)期數(shù)進(jìn)行研究分析,假定其服從Pareto分布,并使用卡方檢驗方法對假定進(jìn)行了假設(shè)檢驗,根據(jù)假設(shè)檢驗的結(jié)果,確定其服從Pareto分布。在此基礎(chǔ)之上,根據(jù)Pareto的分布函數(shù),通過最小二乘估計方法給出了分布的參數(shù)估計值。
遠(yuǎn)程教育學(xué)生畢業(yè)所用學(xué)期數(shù)的研究,對于分析其影響因素有著基礎(chǔ)性的作用,在確定了所用學(xué)期數(shù)的分布情況之后,才可以更加準(zhǔn)確地研究影響畢業(yè)所用學(xué)期數(shù)的因素,從而為提高畢業(yè)率、降低輟學(xué)率提供方向。
參考文獻(xiàn)
[1] 張鳳來.湖南遠(yuǎn)程開放教育輟學(xué)問題探析[J].創(chuàng)新創(chuàng)業(yè)理論研究與實踐,2018,1(15):41-43.
[2] 王文婷.開放大學(xué)學(xué)生輟學(xué)影響因素量表的編制——基于教育功能論的開放大學(xué)學(xué)生輟學(xué)管理實踐研究[J].內(nèi)蒙古電大學(xué)刊,2017(3):78-82.
[3] 宿紅艷.上海交通大學(xué)繼續(xù)教育學(xué)院網(wǎng)絡(luò)教育學(xué)生畢業(yè)率的研究[J].成人教育,2015,35(6):74-80.
[4] 徐輝,梁曉琦.影響開放教育續(xù)修生畢業(yè)率的相關(guān)因素研究[J].海南廣播電視大學(xué)學(xué)報,2018,19(3):144-148.
[5] 魏順平.網(wǎng)絡(luò)高等教育學(xué)生畢業(yè)時間預(yù)測研究[J].中國遠(yuǎn)程教育,2011(10):18-27,49,95.
[6] 李海芬.Pareto分布的統(tǒng)計分析[D].華東師范大學(xué),2004.
[7] 茆詩松,王靜龍,濮曉龍.高等數(shù)理統(tǒng)計[M].北京:高等教育出版社,2006.
[8] 崔媛媛.步加試驗下Pareto分布的統(tǒng)計分析[D].溫州大學(xué),2016.
[9] 鄭丹丹.多維視角下遠(yuǎn)程開放教育學(xué)習(xí)者輟學(xué)問題的研究[J].科教導(dǎo)刊,2019(6):191-192.