王榕盛
在當(dāng)今互聯(lián)網(wǎng)時(shí)代,科技飛速發(fā)展的今天,智能化設(shè)備與人工智能技術(shù)的快速發(fā)展,推動(dòng)了社交網(wǎng)絡(luò)的不斷迭代,與此同時(shí),在線下或是線上產(chǎn)生的龐大的數(shù)據(jù),造就了大數(shù)據(jù)時(shí)代(Big Data)的研究基石。全球化的信息技術(shù)革命,正在以前所未有的速度在各個(gè)領(lǐng)域擴(kuò)散滲透。同時(shí)視頻分析技術(shù)、分布式存儲(chǔ)技術(shù)等相關(guān)技術(shù)的快速發(fā)展,拓寬了數(shù)據(jù)采集的邊界,從而使得復(fù)雜的結(jié)構(gòu)化的、非結(jié)構(gòu)化的數(shù)據(jù),都能夠通過一定的技術(shù)手段獲取到,為研究分析提供了可靠的支撐[1]。目前大數(shù)據(jù)挖掘技術(shù)已經(jīng)普遍應(yīng)用于各類場(chǎng)景如:電商平臺(tái)、金融、教育、醫(yī)療等。毋庸置疑,數(shù)據(jù)挖掘技術(shù)的發(fā)展,推動(dòng)了社會(huì)各個(gè)產(chǎn)業(yè)的進(jìn)步。
隨著智能化、信息化的不斷發(fā)展,教育領(lǐng)域也逐漸從完全線下的環(huán)境向線上發(fā)展,與互聯(lián)網(wǎng)接軌,教育信息化發(fā)展已經(jīng)列入國(guó)家教育十年規(guī)劃綱要[2],在校園中,智能化平臺(tái)的使用,一卡通平臺(tái)、課堂監(jiān)控網(wǎng)絡(luò)、校園輿情中心、學(xué)工系統(tǒng)、選課系統(tǒng)、后勤服務(wù)系統(tǒng)等的建立,極大的促進(jìn)了校園數(shù)據(jù)呈指數(shù)增長(zhǎng),這些寶貴的教育數(shù)據(jù),是高校乃至整個(gè)教育領(lǐng)域的財(cái)富。在教學(xué)場(chǎng)景下,學(xué)生尋求知識(shí)的目的是通過其受教育提高自身的質(zhì)量,增強(qiáng)自身的素質(zhì),因此高校應(yīng)該通過改善教育服務(wù)來改善教學(xué)過程[3],即通過智能化手段,為學(xué)生、教師等個(gè)體提供更高質(zhì)量的教育服務(wù)。在教育信息化的時(shí)代中,怎樣使用技術(shù)手段深入分析校園中學(xué)生的行為,以促進(jìn)教與學(xué)有效的發(fā)展、提升教學(xué)質(zhì)量、增強(qiáng)學(xué)生關(guān)聯(lián)性、提高課程設(shè)計(jì)質(zhì)量等方面,有著重要的戰(zhàn)略意義[4]。
目前在各大高校中,選課系統(tǒng)普及程度已經(jīng)超過90%[5],學(xué)生可以通過在線自助選課系統(tǒng)完成選課,因此在校園中存在大量龐雜的選課記錄數(shù)據(jù),其中也蘊(yùn)藏著豐富的隱性關(guān)系,若將學(xué)生視為一個(gè)個(gè)的個(gè)體,那么選課在其中就屬于學(xué)生的一種與學(xué)習(xí)相關(guān)的行為[6]。同時(shí)在高校中,視頻監(jiān)控網(wǎng)絡(luò)的已經(jīng)從單純的應(yīng)用于考試監(jiān)控場(chǎng)景轉(zhuǎn)移到日常的課程記錄中,利用目前成熟的視頻標(biāo)注工具能夠?qū)Υ罅康囊曨l數(shù)據(jù)進(jìn)行處理,從而生成大量的結(jié)構(gòu)化標(biāo)簽數(shù)據(jù)。在上述兩種系統(tǒng)數(shù)據(jù)中,對(duì)其進(jìn)行挖掘,能夠反映出學(xué)生的學(xué)習(xí)行為、關(guān)系網(wǎng)絡(luò)等隱藏信息。
選課系統(tǒng)與視頻監(jiān)控系統(tǒng)中,存儲(chǔ)著龐大的學(xué)生關(guān)系網(wǎng)絡(luò),例如很常見的,某幾個(gè)學(xué)生若關(guān)系越好,那么他們頻繁選擇同一堂課的概率就越大;同樣在視頻數(shù)據(jù)中,若某幾個(gè)學(xué)生聯(lián)系越緊密,那么他們坐在一起的概率也就越大。通過在教學(xué)視頻的基礎(chǔ)上,關(guān)聯(lián)選課系統(tǒng)數(shù)據(jù),挖掘其中的關(guān)系,能夠分析出學(xué)生的社群關(guān)系,而這種社群關(guān)系不僅僅簡(jiǎn)單為朋友關(guān)系,一定程度上在學(xué)習(xí)場(chǎng)景下,可以認(rèn)為存在學(xué)習(xí)伙伴關(guān)系,存在相互促進(jìn)學(xué)習(xí)的可能性。同時(shí)這一群學(xué)生聚集在一起,即可成為由社交關(guān)系而組成的社交網(wǎng)絡(luò)[7]。
數(shù)據(jù)挖掘在數(shù)據(jù)預(yù)處理中,不單是簡(jiǎn)單的將基礎(chǔ)數(shù)據(jù)分類,在基礎(chǔ)數(shù)據(jù)集中挖掘隱性的關(guān)系數(shù)據(jù)需要對(duì)原始數(shù)據(jù)進(jìn)行大量的分析以及處理工作[8],本研究選用兩個(gè)維度的數(shù)據(jù),一個(gè)是校園學(xué)生選課數(shù)據(jù),另一個(gè)是基于教學(xué)視頻利用視頻標(biāo)注技術(shù)標(biāo)注的視頻分析數(shù)據(jù)。因此本研究中數(shù)據(jù)預(yù)處理部分分為圖1 所示幾個(gè)步驟:
圖1
這里在數(shù)據(jù)預(yù)處理過程當(dāng)中,需要對(duì)共現(xiàn)概念進(jìn)行定義,本研究中由于存在兩種維度的基礎(chǔ)數(shù)據(jù),因此對(duì)共現(xiàn)從兩個(gè)角度定義:若不同學(xué)生在同一時(shí)間段內(nèi)頻繁出現(xiàn)于同一地點(diǎn),即可認(rèn)為他們之間存在社交關(guān)系[9],這些不同的學(xué)生組成的集合即為共現(xiàn)集合;若不同學(xué)生頻繁選擇同一節(jié)課,即可認(rèn)為這些同學(xué)興趣大致相同,這些學(xué)生組成的集合即為另一組共現(xiàn)集合。同時(shí)在數(shù)據(jù)預(yù)處理當(dāng)中,由于后續(xù)研究中需要利用頻繁項(xiàng)集挖掘方法對(duì)關(guān)聯(lián)規(guī)則進(jìn)行挖掘,因此采用固定變量切片法,對(duì)數(shù)據(jù)進(jìn)行處理,對(duì)于選課數(shù)據(jù)集采用固定課程變量切片法,對(duì)于視頻采集的時(shí)空數(shù)據(jù)采用固定時(shí)間切片法。
固定課程變量切片法中,采取公式1 進(jìn)行計(jì)算:
Z 為課程總數(shù),M 為選課數(shù);
因此h 為如果每?jī)晒?jié)課有一次共現(xiàn),則可以認(rèn)為他們是存在共現(xiàn)關(guān)系的,即寫入共現(xiàn)集合;
固定時(shí)間切片法中,采取公式2 進(jìn)行計(jì)算:
公式2 中表示,在區(qū)域l 中,任意的位置數(shù)據(jù)m、n 為一個(gè)矩陣,對(duì)應(yīng)到學(xué)生i、j,若兩個(gè)學(xué)生的位置同區(qū)域數(shù)據(jù)在同一時(shí)間段內(nèi),那么可以認(rèn)為二者存在一次共現(xiàn)。
數(shù)據(jù)預(yù)處理結(jié)果如下所示,選課數(shù)據(jù)集中采用中國(guó)傳媒大學(xué)2017 級(jí)部分選修課數(shù)據(jù),經(jīng)過脫敏處理后,學(xué)生數(shù)量:1 168,課程數(shù)量:69,數(shù)據(jù)預(yù)處理結(jié)果如表1:
表1
另一維度中,基于教學(xué)視頻標(biāo)注獲取的學(xué)生時(shí)空數(shù)據(jù),將教室劃分為一個(gè)矩陣網(wǎng)絡(luò),學(xué)生為所處不同區(qū)域中的點(diǎn),數(shù)據(jù)源為課程教學(xué)視頻數(shù)據(jù),經(jīng)過脫敏處理后,學(xué)生數(shù)量:2 250,區(qū)域數(shù)量9。關(guān)于教室中區(qū)域的劃分,如圖2 所示:
圖2
經(jīng)過數(shù)據(jù)預(yù)處理后,結(jié)果如表2:
表2
經(jīng)過數(shù)據(jù)前期的基礎(chǔ)處理,將選課數(shù)據(jù)、時(shí)空數(shù)據(jù)結(jié)構(gòu)化,統(tǒng)一為不同固定變量下的學(xué)生ID 集合。
“業(yè)無高卑志當(dāng)堅(jiān)男兒有求安得閑,工程建設(shè)雖然苦累,但是我依舊選擇了這一行?!币磺粺嵫借F建參與祖國(guó)建設(shè),這也許就是王維振的夢(mèng)想。
關(guān)聯(lián)規(guī)則挖掘是在大數(shù)據(jù)挖掘領(lǐng)域中基本的算法之一,在商業(yè)領(lǐng)域中,關(guān)聯(lián)規(guī)則算法可以為其提供捆綁銷售的決策[10],同時(shí)關(guān)聯(lián)規(guī)則算法隨著科技的不斷進(jìn)步,各行各業(yè)逐漸依靠算力對(duì)領(lǐng)域本身賦能,因此在醫(yī)療、教育、媒體等領(lǐng)域也有著廣泛的應(yīng)用。
目前常用的關(guān)聯(lián)規(guī)則算法有Apriori 算法、FP-Growth 算法等,在關(guān)聯(lián)分析中,最常用到的頻繁項(xiàng)集挖掘算法就是Apriori 算法。Apriori 算法是一種先產(chǎn)生候選項(xiàng)集,再檢驗(yàn)是否頻繁的“產(chǎn)生-測(cè)試”方法。這種方法的弊端是當(dāng)數(shù)據(jù)量較大時(shí),需要遍歷全部數(shù)據(jù)導(dǎo)致運(yùn)算效率較低[11]。而FPGrowth 算法較靈活的解決了這一問題,F(xiàn)P-Growth算法將基礎(chǔ)數(shù)據(jù)集中的每一個(gè)事務(wù)映射到一顆FPTree 上,根據(jù)這個(gè)FP-Tree 尋找頻繁項(xiàng)集,效率較高[12]。
因此由于教育數(shù)據(jù)較為稀疏,且數(shù)據(jù)量較大的情況,本研究采用FP-Growth 算法對(duì)數(shù)據(jù)集進(jìn)行頻繁項(xiàng)集挖掘,進(jìn)而挖掘?qū)W生關(guān)系。
2.2.1 FP-Growth 算法
傳統(tǒng)的FP-Growth 算法包含兩部分,一部分為遍歷數(shù)據(jù)集存儲(chǔ)FP-Tree,另一部分為第二次遍歷數(shù)據(jù)集挖掘頻繁項(xiàng)集,其中第二部分為FP-Growth算法主體部分。
根節(jié)點(diǎn)被標(biāo)記為根(root),集合中的項(xiàng)(item)按照一定的順序鏈接成為子樹,以及一個(gè)頻繁項(xiàng)集頭部表(frequent-item-header),同時(shí)每一個(gè)子樹上包含項(xiàng)的名稱、計(jì)數(shù)值(support count)為到達(dá)該節(jié)點(diǎn)的路徑深度、節(jié)點(diǎn)連接情況(nodelink),如圖3 所示:
圖3
在構(gòu)建出了FP-Tree 之后,進(jìn)入到FP-Growth算法主體部分,算法中涉及到關(guān)聯(lián)規(guī)則的兩個(gè)概念,支持度與置信度,其中支持度為A 與B 同時(shí)出現(xiàn)的概率,若A 與B 同時(shí)出現(xiàn)的概率小,說明A 與B 的關(guān)系較弱;反之即可認(rèn)為A 與B 的關(guān)系較強(qiáng),A 與B 是頻繁的[13],計(jì)算方法如公式3。
整體算法流程如表3 所示:
表3
2.3.1 網(wǎng)絡(luò)結(jié)構(gòu)
利用上述研究方法,可以使用FP-Growth 算法對(duì)選課數(shù)據(jù)集、時(shí)空數(shù)據(jù)集中頻繁項(xiàng)集進(jìn)行挖掘,再利用社區(qū)挖掘算法,挖掘?qū)W生關(guān)系,通過gephi來對(duì)網(wǎng)絡(luò)進(jìn)行分析,可以得到較為清晰的網(wǎng)絡(luò)結(jié)構(gòu)圖。經(jīng)過社區(qū)挖掘算法后,本研究中共計(jì)挖掘出學(xué)生社群51 個(gè),模塊度高達(dá)0.955,模塊度作為衡量社群劃分的優(yōu)劣指標(biāo),數(shù)值越高標(biāo)識(shí)社群劃分效果越好[14],計(jì)算方法如公式5。
模塊度結(jié)果如圖4 所示:
圖4
總計(jì)節(jié)點(diǎn)個(gè)數(shù)1 168,3 286 條關(guān)系邊,其中在學(xué)生社群關(guān)系網(wǎng)內(nèi)部關(guān)系邊達(dá)到2 743 條,占比高達(dá)83.4%,而其余關(guān)系邊則為跨群關(guān)系。因此本研究發(fā)現(xiàn),在校園場(chǎng)景下,學(xué)生更有可能在內(nèi)部形成社交關(guān)系,外部橋接的社交關(guān)系占比較少,在大學(xué)校園中,學(xué)生更有可能出現(xiàn)小團(tuán)體形式的社群關(guān)系。
2.3.2 網(wǎng)絡(luò)特征向量中心度
在網(wǎng)絡(luò)中,特征向量中心度通常用來評(píng)價(jià)節(jié)點(diǎn)重要性,是網(wǎng)絡(luò)分析指標(biāo)中很重要的一項(xiàng)數(shù)據(jù),主要反映出無向網(wǎng)絡(luò)結(jié)構(gòu)中,那些節(jié)點(diǎn)是多次鏈接的,并且只有重要的節(jié)點(diǎn)所參與的鏈路鏈接才可以認(rèn)為是重要的[15]。該項(xiàng)指標(biāo)可以用來分析網(wǎng)絡(luò)鏈路的可靠性以及評(píng)價(jià)節(jié)點(diǎn)。特征向量中心度計(jì)算公式如公式6:
其中xi 為節(jié)點(diǎn)的重要性度量值,c 為一個(gè)常量,當(dāng)計(jì)算經(jīng)過多次迭代逐漸穩(wěn)定時(shí),能夠歸為矩陣如公式7:
計(jì)算方法流程為近鄰矩陣特征向量分解、篩選特征向量最大特征值、計(jì)算特征向量中心度。本研究中,分別以100、500、1 000 迭代次數(shù)計(jì)算特征向量中心度均值分析網(wǎng)絡(luò)整體節(jié)點(diǎn)重要性,結(jié)果如表4:
表4
從整體角度看,當(dāng)?shù)螖?shù)增加時(shí),網(wǎng)絡(luò)中節(jié)點(diǎn)重要性逐漸下降,說明在校園中,社交關(guān)系多為“小團(tuán)體”形式出現(xiàn),缺少同時(shí)處于多個(gè)社群中的學(xué)生,學(xué)生社交范圍較小。
本文通過關(guān)聯(lián)規(guī)則挖掘方法,挖掘頻繁項(xiàng)集,進(jìn)而從頻繁項(xiàng)集中提取學(xué)生關(guān)系,可以較好地從顯性的數(shù)據(jù)關(guān)系分析出隱性的關(guān)系。同時(shí)通過對(duì)分析出的網(wǎng)絡(luò)結(jié)果結(jié)構(gòu)指標(biāo)的計(jì)算,能夠比較清晰的看出學(xué)生關(guān)系網(wǎng)絡(luò)特征。
本文所采用的數(shù)據(jù)為學(xué)生選課數(shù)據(jù)及視頻時(shí)空數(shù)據(jù)。在后續(xù)的研究拓展中,可采用不同維度的數(shù)據(jù)作為輸入,利用本研究中模型對(duì)社群進(jìn)行挖掘分析,如一卡通數(shù)據(jù)等。
通過本研究,在教育信息化、教學(xué)場(chǎng)景下,能夠發(fā)現(xiàn)好友關(guān)系或可能存在的社交關(guān)系,從而可以有針對(duì)性的進(jìn)行好友推薦、圖書推薦、選課推薦等后續(xù)研究,豐富校園信息化手段,提高校園智能化水平。