裴嫣珺
(1.華東師范大學(xué)教育技術(shù)專業(yè) 上海 20062;2.上海第二工業(yè)大學(xué)圖書館 上海 201209)
數(shù)據(jù)挖掘(Datamining)是基于數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)的一種多維分析技術(shù),已經(jīng)成為解決“數(shù)據(jù)爆炸、知識(shí)貧乏”等問(wèn)題的有效手段[1]。數(shù)據(jù)挖掘通過(guò)對(duì)海量信息的篩選和處理,借用先進(jìn)管理決策模型,可以大大提高管理者經(jīng)營(yíng)決策的準(zhǔn)確性和實(shí)時(shí)性。目前,數(shù)據(jù)挖掘方法與信息提取手段層出不窮,研究和應(yīng)用領(lǐng)域也從最初的關(guān)系數(shù)據(jù)和事務(wù)數(shù)據(jù)逐漸向多個(gè)方向擴(kuò)展[2]。在教育領(lǐng)域,數(shù)字化校園的建設(shè)已經(jīng)取得了初步的成果。特別是一些綜合性大學(xué)信息平臺(tái)建立日趨完善,并且積累了大量的基礎(chǔ)數(shù)據(jù)。通過(guò)數(shù)據(jù)挖掘技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行提取與綜合分析,獲取的知識(shí)形成決策信息,能為高校管理層提供決策支持所需的技術(shù)依據(jù),更好地為高校的管理與發(fā)展服務(wù)。
學(xué)生作為高校運(yùn)營(yíng)中主要的參與者是授學(xué)施教的主要對(duì)象,對(duì)其在校內(nèi)活動(dòng)情況進(jìn)行分析顯得尤為重要。掌握學(xué)生校內(nèi)活動(dòng)情況的知識(shí)信息能更好地指導(dǎo)管理者制定校園的布局、合理安排教學(xué)活動(dòng)、優(yōu)化管理流程。本文介紹了一個(gè)使用數(shù)據(jù)挖掘技術(shù)建立的“學(xué)生校內(nèi)活動(dòng)情況分析系統(tǒng)”的建立過(guò)程,以及系統(tǒng)在日常活動(dòng)中的應(yīng)用情況,為教育管理者對(duì)學(xué)生行為分析方面的研究提供了一個(gè)很好的參考案例。
“學(xué)生校內(nèi)活動(dòng)情況分析系統(tǒng)”采用多層體系結(jié)構(gòu),如圖1所示。
圖1中的表示層(客戶端)提供用戶交互界面,中間層提供數(shù)據(jù)挖掘服務(wù)接口、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘和數(shù)據(jù)訪問(wèn)代理,數(shù)據(jù)層使用關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)。
該體系結(jié)構(gòu)數(shù)據(jù)挖掘系統(tǒng)的工作過(guò)程如下:
(1) 用戶通過(guò)圖形界面,指定數(shù)據(jù)挖掘的任務(wù)和采用的數(shù)據(jù)挖掘方法; 設(shè)定好數(shù)據(jù)挖掘過(guò)程中所需要的參數(shù)(比如支持度、可信度和趣味性等);
(2) 通過(guò)數(shù)據(jù)挖掘服務(wù)接口將任務(wù)對(duì)象遞交給中間層; 在經(jīng)過(guò)預(yù)處理工作之后,調(diào)用數(shù)據(jù)挖掘功能模塊,訪問(wèn)數(shù)據(jù)庫(kù),按照用戶指定的任務(wù)和指定的挖掘方法進(jìn)行數(shù)據(jù)挖掘工作;
(3) 由DMSI將最終的結(jié)果返回給客戶端顯示。
圖1 數(shù)據(jù)挖掘體系結(jié)構(gòu)Fig.1 Datamining architecture
“學(xué)生校內(nèi)活動(dòng)情況分析系統(tǒng)”是基于瀏覽器客戶端的實(shí)現(xiàn)方案(B/S結(jié)構(gòu))。用戶通過(guò)瀏覽器(Browser)訪問(wèn)系統(tǒng)頁(yè)面,與服務(wù)器端程序(Server)進(jìn)行交互。服務(wù)器程序?qū)⒂脩粽?qǐng)求提交給部署在應(yīng)用服務(wù)器(Application Server)上的企業(yè)組件(EJB),而封裝了數(shù)據(jù)挖掘模式和算法的企業(yè)組件執(zhí)行挖掘任務(wù)并返回結(jié)果。企業(yè)組件是實(shí)現(xiàn)數(shù)據(jù)挖掘的核心。這種結(jié)構(gòu)的益處在于讓開(kāi)發(fā)人員集中精力在業(yè)務(wù)邏輯上,并保證了企業(yè)組件的可重用性,可靠性和可擴(kuò)展性,如圖2所示。
圖2 數(shù)據(jù)挖掘系統(tǒng)的J2EE實(shí)現(xiàn)方案Fig.2 Datamining system of J2EE
系統(tǒng)在Windows XP平臺(tái)上,使用Tomcat 5.5服務(wù)器實(shí)現(xiàn)。
本系統(tǒng)主要的數(shù)據(jù)來(lái)源是學(xué)生使用校園卡在校內(nèi)活動(dòng)的記錄。校園一卡通系統(tǒng)在學(xué)生的各個(gè)活動(dòng)場(chǎng)所(學(xué)習(xí)場(chǎng)所、消費(fèi)場(chǎng)所、生活場(chǎng)所等)設(shè)置刷卡點(diǎn),采集學(xué)生的活動(dòng)數(shù)據(jù)。這樣學(xué)生在校園內(nèi)的活動(dòng)情況都記錄下來(lái),再建成面向主題的數(shù)據(jù)倉(cāng)庫(kù),利用數(shù)據(jù)挖掘算法進(jìn)行分析。這些數(shù)據(jù)的關(guān)鍵內(nèi)容包括人員、時(shí)間、地點(diǎn)。根據(jù)這三項(xiàng)關(guān)鍵的記錄,可以對(duì)學(xué)生在校內(nèi)的活動(dòng)情況進(jìn)行深入的分析。
學(xué)生校內(nèi)活動(dòng)情況分析包含以下幾個(gè)方面:
(1) 各種活動(dòng)場(chǎng)所的利用情況分析;
(2) 根據(jù)活動(dòng)情況對(duì)人群進(jìn)行分類;
(3) 不同活動(dòng)場(chǎng)所之間的關(guān)聯(lián)關(guān)系分析;
(4) 各種人群的活動(dòng)規(guī)律分析;
(5) 各種活動(dòng)場(chǎng)所人員流量的預(yù)測(cè)。
以上的分析是逐級(jí)遞進(jìn)的,即每一個(gè)分析都是在建立在上一個(gè)分析基礎(chǔ)上才能進(jìn)行的。
要實(shí)現(xiàn)以上的分析,最核心的問(wèn)題有兩個(gè):1) 如何對(duì)學(xué)生人群進(jìn)行分類;2) 各種活動(dòng)場(chǎng)所之間有什么關(guān)系。下面詳細(xì)闡述本系統(tǒng)如何使用數(shù)據(jù)挖掘算法解決這兩個(gè)問(wèn)題。
此模型目的是根據(jù)學(xué)生活動(dòng)的頻繁性對(duì)學(xué)生進(jìn)行分類。
由于分類的情況是未知的,所以采用聚類分析對(duì)人群進(jìn)行分類。首先,統(tǒng)計(jì)每個(gè)學(xué)生活動(dòng)的次數(shù)作為聚類的對(duì)象,然后對(duì)這些對(duì)象使用K-means算法[6]進(jìn)行聚類。使用K-means需要解決的問(wèn)題有:
(1) 根據(jù)業(yè)務(wù)經(jīng)驗(yàn)選擇簇?cái)?shù)目,應(yīng)該在3到8之間(因?yàn)閷W(xué)生的活動(dòng)規(guī)律不可能太少也不可能太多);
(2) 使用一組符合正態(tài)分布的值(人群活動(dòng)規(guī)律比較接近于正態(tài)分布)選擇簇中心;
(3) 使用平方誤差準(zhǔn)則計(jì)算簇中心距。
算法如下:
(1) 統(tǒng)計(jì)每個(gè)學(xué)生的活動(dòng)次數(shù),作為聚類的對(duì)象;
(2) 使用k-means算法進(jìn)行聚類;
(3) 標(biāo)記每個(gè)學(xué)生的聚類結(jié)果。
此模型的目的是找出學(xué)生頻繁活動(dòng)的場(chǎng)所有哪些,并且給出這些活動(dòng)場(chǎng)所之間的關(guān)系。根據(jù)事務(wù)數(shù)據(jù)庫(kù)挖掘的項(xiàng)目集空間理論[7,8]:頻繁項(xiàng)目集的子集是頻繁項(xiàng)目集,非頻繁項(xiàng)目集的超集是非頻繁項(xiàng)目集??梢韵日页鰡蝹€(gè)頻繁活動(dòng)的場(chǎng)所,然后再找出 2個(gè)同是頻繁活動(dòng)的場(chǎng)所,依次類推,一直把所有同時(shí)頻繁活動(dòng)全部找出為止。找出的結(jié)果全部存入一個(gè)事務(wù)數(shù)據(jù)庫(kù)中,便得到了所有的頻繁活動(dòng)場(chǎng)所(單個(gè)頻繁活動(dòng)場(chǎng)所),以及這些場(chǎng)所之間的關(guān)聯(lián)關(guān)系(2個(gè)以上同時(shí)頻繁活動(dòng)的場(chǎng)所)。
算法如下:
(1) 對(duì)每個(gè)學(xué)生找出其所有的活動(dòng)地點(diǎn),形成一個(gè)活動(dòng)序列;
(2) 所有學(xué)生的的活動(dòng)序列組成一個(gè)事務(wù)數(shù)據(jù)庫(kù)D;
(3) 計(jì)算最小支持度閾值(手工輸入);
(4) 使用Apriori算法查找頻繁K項(xiàng);
(5) 如果沒(méi)有找到頻繁K項(xiàng)集,執(zhí)行9;
(6) 輸出頻繁K項(xiàng)到事務(wù)數(shù)據(jù)庫(kù)Q;
(7) 根據(jù)頻繁程度對(duì)Q進(jìn)行排序;
(8) 令 K:=K+1,重復(fù)執(zhí)行(4);
(9) 輸出頻繁項(xiàng)集;
(10) 輸出每個(gè)頻繁項(xiàng)集的具體活動(dòng)場(chǎng)所的關(guān)聯(lián)項(xiàng)。
為了驗(yàn)證系統(tǒng)的有效性,我們從校園卡系統(tǒng)采集了符合如下條件的數(shù)據(jù)集進(jìn)行驗(yàn)證:
(1) 時(shí)間范圍為2009年1月1日至2009年12月31日;
(2) 人員范圍為11008名在校學(xué)生;
(3) 地點(diǎn)范圍為10個(gè)有代表性活動(dòng)點(diǎn),包括食堂、宿舍、教學(xué)樓、期刊閱覽室、圖書館自習(xí)室、網(wǎng)上圖書數(shù)據(jù)庫(kù)、機(jī)房、實(shí)訓(xùn)實(shí)驗(yàn)室、體育館、VOD點(diǎn)播系統(tǒng)。
使用2009年數(shù)據(jù)根據(jù)學(xué)生活動(dòng)頻繁度對(duì)學(xué)生的聚類結(jié)果如下:
圖3 學(xué)生聚類結(jié)果Fig.3 Cluster of students’ data
聚類后,共得到六類學(xué)生,分析如下:
表1 聚類結(jié)果Tab.1 Results of clustering
使用2009年數(shù)據(jù),通過(guò)活動(dòng)場(chǎng)所關(guān)聯(lián)模型使用Apriori算法進(jìn)行挖掘,找到了很多關(guān)聯(lián)規(guī)則。列舉兩種關(guān)系如下:
(1) 宿舍→食堂→教學(xué)樓→圖書館自習(xí)室
這個(gè)規(guī)則說(shuō)明學(xué)生習(xí)慣于上課后去圖書館自習(xí)室去學(xué)習(xí)。分析這種現(xiàn)象產(chǎn)生,是因?yàn)閳D書館自習(xí)室提供了好的硬件環(huán)境,如舒適的座位、安靜的環(huán)境及空調(diào)系統(tǒng)等。
(2) 食堂→宿舍→VOD點(diǎn)播系統(tǒng)
這個(gè)規(guī)則說(shuō)明,學(xué)生在宿舍中首選應(yīng)用是在網(wǎng)上看VOD視頻?;谶@種習(xí)慣,以后可以把很多學(xué)習(xí)資源同VOD相關(guān)聯(lián),引導(dǎo)學(xué)生去學(xué)習(xí)。
本文主要介紹了數(shù)據(jù)挖掘技術(shù)在學(xué)生活動(dòng)情況分析中的應(yīng)用情況,介紹了“學(xué)生校內(nèi)活動(dòng)情況分析系統(tǒng)”建設(shè)過(guò)程,以及系統(tǒng)從校園一卡能系統(tǒng)中提取學(xué)生在學(xué)習(xí)生活場(chǎng)所的活動(dòng)數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行綜合分析和進(jìn)一步的數(shù)據(jù)挖掘,提煉出知識(shí)信息為管理人員提供決策支持。重點(diǎn)介紹了該系統(tǒng)分析的內(nèi)容、數(shù)據(jù)挖掘模型的建立以及實(shí)現(xiàn)算法。利用K-means算法對(duì)學(xué)生進(jìn)行分類,然后對(duì)已分類的學(xué)生人群使用 Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘。使用系統(tǒng)對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了分析,并以此得出一些結(jié)論,對(duì)相關(guān)研究人員和學(xué)生管理人員具有一定參考意義。
[1]FAYYAD U M, PIATETSKY SHAPIRO G, SMYTH P.Advances in Knowledge Discovery and Datamining[M].AAAI:MIT Press,1996:83-115.
[2]王光宏, 蔣平.數(shù)據(jù)挖掘綜述[J].同濟(jì)大學(xué)學(xué)報(bào), 2004, 32(2):1-7.
[3]ZADEH L.Fuzzy sets [J].IEEE Information and Control, 1965, 8(3):338-353.
[4]PAWLAK Z.Rough sets[J].International Journal of Information and Computer Science, 1982, 11(5):341-356.
[5]李德毅, 史雪梅, 孟海軍.隸屬云和隸屬云發(fā)生器[J].計(jì)算機(jī)研究和發(fā)展, 1995, 32(6):15-20.
[6]KAUFAN L, ROUSSEEUW P J.Finding Groups in Data:an Introduction to Cluster Analysis[M].New York:John Wiley &Sons,1990.
[7]AGRAWAL R, SRIKANT R.Fast algorithms formining association rules[C]//Proceedings of the 20th International Conference on Very Large Database, Santiago:Morgan Kaufmann, 1994:487-499
[8]AGRAWAL R, SHAFER J C.Parallelmining of association rules[J].IEEE Transaction on Knowledge and Data Engineering, 1996,8(6):962-969.