劉 純
(湖南安全技術(shù)職業(yè)學(xué)院,湖南 長(zhǎng)沙 410151)
在線學(xué)習(xí)已經(jīng)融入教育領(lǐng)域中[1]。學(xué)習(xí)者的在線行為數(shù)據(jù)(例如行為模式、偏好和學(xué)習(xí)難點(diǎn)),為教育研究和實(shí)踐提供了寶貴的數(shù)據(jù)資源。因此,基于大數(shù)據(jù)環(huán)境的在線學(xué)習(xí)行為分析模型研究成為教育領(lǐng)域的研究熱點(diǎn),旨在挖掘這些數(shù)據(jù)中隱藏的知識(shí),為學(xué)習(xí)者提供個(gè)性化的學(xué)習(xí)支持和優(yōu)化的教學(xué)策略[2]。然而,在線學(xué)習(xí)行為分析模型的構(gòu)建和研究面臨多重挑戰(zhàn)。首先,海量的在線學(xué)習(xí)行為數(shù)據(jù)必須進(jìn)行采集和存儲(chǔ),以保證數(shù)據(jù)的質(zhì)量和完整性。其次,數(shù)據(jù)預(yù)處理和特征提取方法是構(gòu)建準(zhǔn)確模型的關(guān)鍵步驟,需要考慮數(shù)據(jù)的維度、特征選擇和處理方法等問(wèn)題。此外,當(dāng)選擇機(jī)器學(xué)習(xí)算法和技術(shù)時(shí),需要考慮到在線學(xué)習(xí)行為數(shù)據(jù)通常具有非線性、高維度和動(dòng)態(tài)變化的特點(diǎn)。因此,選擇適當(dāng)?shù)臋C(jī)器學(xué)習(xí)算法和技術(shù)是構(gòu)建模型的關(guān)鍵。該研究在大數(shù)據(jù)環(huán)境下構(gòu)建了一種高效穩(wěn)定的在線學(xué)習(xí)行為分析模型,旨在提高教育領(lǐng)域中學(xué)習(xí)者的理解能力。
基于大數(shù)據(jù)環(huán)境的在線學(xué)習(xí)行為分析平臺(tái),通過(guò)數(shù)據(jù)采集、預(yù)處理、特征提取、行為模型構(gòu)建以及分析等步驟,實(shí)現(xiàn)對(duì)學(xué)習(xí)行為的深入理解和提供個(gè)性化學(xué)習(xí)支持,如圖1 所示。
圖1 在線學(xué)習(xí)行為分析平臺(tái)總框架設(shè)計(jì)
數(shù)據(jù)獲取模塊主要負(fù)責(zé)設(shè)計(jì)合適的數(shù)據(jù)采集機(jī)制,收集在線學(xué)習(xí)平臺(tái)上的用戶行為數(shù)據(jù),包括點(diǎn)擊、瀏覽和提交作業(yè)等。特征工程模塊對(duì)采集的原始數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗、去除噪聲和處理缺失值等。采用合適的特征提取方法,從原始數(shù)據(jù)中提取與學(xué)習(xí)行為相關(guān)的特征,例如學(xué)習(xí)時(shí)長(zhǎng)、頻率以及互動(dòng)行為等。行為模型與分析模塊選擇合適的機(jī)器學(xué)習(xí)算法和數(shù)據(jù)挖掘方法,構(gòu)建在線學(xué)習(xí)行為模型,可以采用監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)或深度學(xué)習(xí)等方法[3]。模型評(píng)估與優(yōu)化模塊負(fù)責(zé)評(píng)估學(xué)習(xí)行為模型的表現(xiàn),并根據(jù)評(píng)估結(jié)果進(jìn)行優(yōu)化,例如調(diào)整模型參數(shù)、增加新特征和引入領(lǐng)域知識(shí),以提升模型性能[4-5]。
數(shù)據(jù)獲取模塊是在線學(xué)習(xí)行為分析平臺(tái)的核心部分。數(shù)據(jù)采集過(guò)程如下:首先,確定要采集的學(xué)習(xí)行為數(shù)據(jù)類型,例如點(diǎn)擊、瀏覽以及提交作業(yè)等,其次,在在線學(xué)習(xí)平臺(tái)中嵌入數(shù)據(jù)采集器,其前端開發(fā)使用JavaScript,數(shù)據(jù)傳輸協(xié)議采用HTTP,為了優(yōu)化數(shù)據(jù)傳輸,需要對(duì)數(shù)據(jù)進(jìn)行壓縮、批量傳輸,從而實(shí)時(shí)或定期采集用戶的學(xué)習(xí)行為數(shù)據(jù),并將這些數(shù)據(jù)傳輸?shù)綌?shù)據(jù)存儲(chǔ)系統(tǒng)進(jìn)行處理和存儲(chǔ),具體的數(shù)據(jù)存儲(chǔ)流程如圖2 所示。
圖2 數(shù)據(jù)存儲(chǔ)流程
對(duì)采集的原始數(shù)據(jù)進(jìn)行清洗,主要是剔除無(wú)效或錯(cuò)誤的數(shù)據(jù),并進(jìn)行必要的轉(zhuǎn)換和格式化。在數(shù)據(jù)存儲(chǔ)方面,選擇了結(jié)合MySQL 關(guān)系型數(shù)據(jù)庫(kù)與Hadoop 分布式存儲(chǔ)系統(tǒng)的方式,MySQL 數(shù)據(jù)庫(kù)管理系統(tǒng)主要用來(lái)進(jìn)行數(shù)據(jù)的存儲(chǔ)、查詢和更新;Hadoop 分布式文件系統(tǒng)(HDFS)負(fù)責(zé)數(shù)據(jù)存儲(chǔ)和管理,筆者還在HDFS 中建立了列族數(shù)據(jù)庫(kù)表格,以支持大容量和高性能的數(shù)據(jù)訪問(wèn)。根據(jù)數(shù)據(jù)量和查詢需求,筆者對(duì)數(shù)據(jù)進(jìn)行了分區(qū)并建立了索引,以提高數(shù)據(jù)的查詢效率。建立數(shù)據(jù)備份和恢復(fù)機(jī)制,以保證數(shù)據(jù)的可靠性和可用性,采取多項(xiàng)措施保障學(xué)習(xí)行為數(shù)據(jù)的安全,保護(hù)用戶隱私。
數(shù)據(jù)預(yù)處理與特征提取模塊是在線學(xué)習(xí)行為分析平臺(tái)中的關(guān)鍵部分。平臺(tái)須對(duì)采集的原始數(shù)據(jù)進(jìn)行清洗,剔除無(wú)效或錯(cuò)誤的數(shù)據(jù),例如處理缺失、異常和重復(fù)數(shù)據(jù)。如果學(xué)習(xí)行為數(shù)據(jù)來(lái)自不同的數(shù)據(jù)源,需要進(jìn)行數(shù)據(jù)集成,將數(shù)據(jù)源合并為一個(gè)一致的數(shù)據(jù)集。對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換,使其適應(yīng)后續(xù)的特征提取和建模,例如數(shù)據(jù)標(biāo)準(zhǔn)化、離散化以及歸一化等,數(shù)據(jù)標(biāo)準(zhǔn)化B的計(jì)算如公式(1)所示。
式中:x為數(shù)據(jù)集中的各數(shù)據(jù);mean為數(shù)據(jù)的均值;std為數(shù)據(jù)的標(biāo)準(zhǔn)差。
通過(guò)標(biāo)準(zhǔn)化,將數(shù)據(jù)轉(zhuǎn)化為均值為0,標(biāo)準(zhǔn)差為1 的分布。數(shù)據(jù)歸一化A的計(jì)算如公式(2)所示。
式中:min 和max 分別為最小值和最大值;通過(guò)歸一化,將數(shù)據(jù)映射到0~1。
根據(jù)研究目標(biāo)和問(wèn)題,從預(yù)處理后的數(shù)據(jù)中選擇最相關(guān)的特征?;陬A(yù)處理后的數(shù)據(jù),通過(guò)計(jì)算和組合現(xiàn)有特征構(gòu)建新的特征,以捕捉更多的學(xué)習(xí)行為模式。
在提取特征的過(guò)程中,計(jì)算1 組數(shù)據(jù)的統(tǒng)計(jì)特征涉及多個(gè)指標(biāo),包括均值、標(biāo)準(zhǔn)差、最大值、最小值、中位數(shù)、偏度和峰度。均值是將所有數(shù)據(jù)相加后除以數(shù)據(jù)的總數(shù);標(biāo)準(zhǔn)差是計(jì)算每個(gè)數(shù)據(jù)與均值之差的平方,然后對(duì)這些平方差的平均值進(jìn)行開方;最大值和最小值是在數(shù)據(jù)集中找到最大的數(shù)據(jù)和最小的數(shù)據(jù);中位數(shù)是將數(shù)據(jù)按升序或降序排列,然后找到中間位置的值(對(duì)于奇數(shù)個(gè)數(shù)據(jù))或中間2 個(gè)位置的平均值(對(duì)于偶數(shù)個(gè)數(shù)據(jù))。為了計(jì)算數(shù)據(jù)分布的不對(duì)稱性,即數(shù)據(jù)的偏斜方向和程度,需要計(jì)算偏度S,如公式(3)所示。
式中:N為數(shù)據(jù)的總數(shù)。峰度用來(lái)衡量數(shù)據(jù)分布的峰態(tài)K的計(jì)算如公式(4)所示。
通過(guò)計(jì)算這些統(tǒng)計(jì)特征,從數(shù)據(jù)中獲取關(guān)于中心趨勢(shì)、離散程度、分布形態(tài)和偏斜程度的信息,從而深入理解數(shù)據(jù)的特征和模式,這些特征對(duì)于學(xué)習(xí)行為分析和模型構(gòu)建非常有價(jià)值。
行為模型構(gòu)建與分析模塊利用構(gòu)建的行為模型對(duì)學(xué)習(xí)行為數(shù)據(jù)進(jìn)行分析,在基于大數(shù)據(jù)環(huán)境的在線學(xué)習(xí)行為分析模型中,使用支持向量機(jī)(SVM)構(gòu)建行為模型。以下是具體流程:1)數(shù)據(jù)準(zhǔn)備。準(zhǔn)備一個(gè)大規(guī)模的帶有標(biāo)簽的在線學(xué)習(xí)行為數(shù)據(jù)集,其中包括學(xué)習(xí)者的行為特征和相應(yīng)的行為標(biāo)簽。2)特征處理。采取上一步中對(duì)學(xué)習(xí)行為數(shù)據(jù)進(jìn)行特征處理,包括數(shù)據(jù)清洗、特征提取和特征工程等步驟后的數(shù)據(jù)。3)數(shù)據(jù)劃分。用留出法將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,具體流程如圖3 所示。
圖3 留出法劃分?jǐn)?shù)據(jù)集
如圖3 所示,首先,準(zhǔn)備一個(gè)帶有標(biāo)簽的數(shù)據(jù)集,包括輸入特征和相應(yīng)的標(biāo)簽。根據(jù)實(shí)際需求和數(shù)據(jù)集的規(guī)模,確定訓(xùn)練集和測(cè)試集的劃分比例,劃分比例為70/30。其次,使用隨機(jī)的方式將數(shù)據(jù)集中的樣本劃分為訓(xùn)練集和測(cè)試集;在劃分過(guò)程中,需要確保類別標(biāo)簽的平衡,即每個(gè)類別在訓(xùn)練集和測(cè)試集中的樣本數(shù)量相對(duì)均衡。最后,驗(yàn)證訓(xùn)練集和測(cè)試集的劃分結(jié)果,確保劃分后的數(shù)據(jù)集能夠代表整體數(shù)據(jù)集的特征和分布,使用訓(xùn)練集進(jìn)行模型的訓(xùn)練和參數(shù)優(yōu)化,使用測(cè)試集進(jìn)行模型的評(píng)估和性能驗(yàn)證,以驗(yàn)證模型在未見過(guò)的數(shù)據(jù)上的泛化能力。
選擇非線性SVM 模型并使用高斯核函數(shù)(RBF)以引入非線性,目標(biāo)函數(shù)K(xi,xj)的計(jì)算如公式(5)所示。
式中:||xi,xj||為輸入特征向量之間的歐氏距離;γ為高斯核函數(shù)的一個(gè)參數(shù),控制數(shù)據(jù)在特征空間中的分布。決策函數(shù)計(jì)算如公式(6)所示。
式中:b為偏置項(xiàng);xi為訓(xùn)練樣本的輸入特征向量;yi為對(duì)應(yīng)的標(biāo)簽;alphai為支持向量的拉格朗日乘子。
通過(guò)計(jì)算輸入樣本與訓(xùn)練樣本之間的距離,應(yīng)用高斯核函數(shù)將樣本從原始特征空間映射到高維特征空間,進(jìn)而引入非線性的能力。
使用訓(xùn)練集對(duì)SVM 模型進(jìn)行訓(xùn)練,在訓(xùn)練過(guò)程中,SVM通過(guò)最大化間隔來(lái)優(yōu)化分類邊界,并同時(shí)考慮正則化約束。
在基于大數(shù)據(jù)環(huán)境的在線學(xué)習(xí)行為分析模型研究中,使用測(cè)試集評(píng)估訓(xùn)練得到SVM模型的性能,并根據(jù)評(píng)估結(jié)果調(diào)整SVM 模型的超參數(shù),保證性能良好。使用訓(xùn)練好的SVM模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè),并進(jìn)行行為分析、個(gè)性化推薦或其他相關(guān)應(yīng)用。根據(jù)評(píng)估結(jié)果,針對(duì)SVM 模型的超參數(shù)進(jìn)行了調(diào)優(yōu),以提升模型性能。調(diào)整正則化參數(shù)C,C的值越大,對(duì)誤分類的懲罰就越重,可能導(dǎo)致模型過(guò)擬合;C的值越小,對(duì)誤分類的懲罰就越輕,可能導(dǎo)致模型欠擬合。對(duì)于高斯核函數(shù)(RBF)來(lái)說(shuō),調(diào)整gamma參數(shù)會(huì)影響決策邊界的靈活性。使用訓(xùn)練好的SVM 模型對(duì)新的數(shù)據(jù)進(jìn)行預(yù)測(cè),即根據(jù)輸入特征預(yù)測(cè)學(xué)習(xí)者的行為標(biāo)簽。基于這些預(yù)測(cè)結(jié)果,進(jìn)一步進(jìn)行行為分析、個(gè)性化推薦或其他相關(guān)應(yīng)用,從而判斷學(xué)習(xí)者的學(xué)習(xí)偏好、推薦適合的學(xué)習(xí)資源或進(jìn)行學(xué)習(xí)路徑規(guī)劃等。通過(guò)以上流程,評(píng)估和優(yōu)化SVM 模型的性能,并將其應(yīng)用于實(shí)際的行為分析和個(gè)性化推薦任務(wù)中,以提升在線學(xué)習(xí)環(huán)境的效果和用戶體驗(yàn)。
該試驗(yàn)的目標(biāo)是測(cè)試基于大數(shù)據(jù)環(huán)境的在線學(xué)習(xí)行為分析模型平臺(tái)的穩(wěn)定性和其他性能,平臺(tái)搭建在型號(hào)為XYZ-123 的服務(wù)器上,具備充足的計(jì)算資源和存儲(chǔ)容量。安裝了Linux 操作系統(tǒng),并搭建了MySQL 數(shù)據(jù)庫(kù)系統(tǒng)。此外,還安裝了Python、Java 等必要的開發(fā)環(huán)境和Scikit-learn 相關(guān)庫(kù)。在數(shù)據(jù)集的準(zhǔn)備階段,選擇了適當(dāng)?shù)脑诰€學(xué)習(xí)行為數(shù)據(jù)集,其中包括學(xué)習(xí)者的行為記錄和相關(guān)特征。將這個(gè)數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,為了保證平臺(tái)的性能得到全面評(píng)估,確定了以下評(píng)估指標(biāo):平臺(tái)穩(wěn)定性指標(biāo)(例如系統(tǒng)崩潰次數(shù))、響應(yīng)速度、處理能力和傳輸速率。
試驗(yàn)在5 個(gè)不同的運(yùn)行時(shí)間節(jié)點(diǎn)進(jìn)行對(duì)比,記錄響應(yīng)速度、處理能力和傳輸速率,見表1。
表1 平臺(tái)測(cè)試結(jié)果
在給定時(shí)間點(diǎn)A至?xí)r間點(diǎn)E的測(cè)試中,平臺(tái)的響應(yīng)速度在50.21ms~55.61ms,響應(yīng)時(shí)間維持在一個(gè)相對(duì)短的區(qū)間內(nèi),表明平臺(tái)響應(yīng)速度較快。在時(shí)間點(diǎn)A至?xí)r間點(diǎn)E的測(cè)試中,平臺(tái)的處理能力在每秒950~1200 個(gè)請(qǐng)求數(shù),說(shuō)明其處理能力較強(qiáng),能夠有效地處理大量的請(qǐng)求。平臺(tái)的傳輸速率在18.24Mbit/s~23.52Mbit/s,傳輸速率較高,說(shuō)明平臺(tái)在數(shù)據(jù)傳輸方面性能良好。
基于大數(shù)據(jù)環(huán)境的在線學(xué)習(xí)行為分析模型研究旨在利用學(xué)習(xí)者行為數(shù)據(jù),深入了解學(xué)習(xí)模式,實(shí)現(xiàn)個(gè)性化推薦以及優(yōu)化教學(xué)策略。該文采用了支持向量機(jī)(SVM)算法和高斯核函數(shù),構(gòu)建了一個(gè)穩(wěn)定且性能卓越的行為分析模型。試驗(yàn)結(jié)果表明,該模型在響應(yīng)速度、處理能力和傳輸速率等方面均表現(xiàn)出色。在未來(lái)的研究中,筆者將繼續(xù)改進(jìn)模型的算法,進(jìn)一步擴(kuò)展數(shù)據(jù)集的規(guī)模和多樣性,并與其他領(lǐng)域的研究者進(jìn)行合作,共同推動(dòng)在線學(xué)習(xí)行為分析的發(fā)展。