褚正清
(安徽新華學(xué)院 通識教育部,合肥 230088)
充分利用數(shù)字化教學(xué)資源,提升授課過程中課程直觀性,具有開闊視野、增強(qiáng)學(xué)生思維能力的優(yōu)勢。數(shù)字化數(shù)學(xué)教學(xué)資源指針對數(shù)學(xué)課程所制定的數(shù)字化資源,學(xué)生學(xué)習(xí)數(shù)學(xué)課程時(shí)需具有較高的學(xué)習(xí)興趣。數(shù)學(xué)課堂教學(xué)的生動性極為重要,對數(shù)學(xué)教學(xué)資源實(shí)施數(shù)字化處理,有助于提升數(shù)學(xué)教學(xué)質(zhì)量。聚類算法是依據(jù)不同類別事物所存在的相似性實(shí)施分類的重要算法。聚類算法又稱為點(diǎn)群分析,依據(jù)待分類事物間所存在的特征精準(zhǔn)分類事物,屬于多元統(tǒng)計(jì)的重要方法。事物間存在特征類別眾多,依據(jù)事物間所存在的特征,無須先驗(yàn)知識即可獲取分類結(jié)果[1]。聚類方法目前已廣泛應(yīng)用于社會學(xué)、教育學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)等眾多領(lǐng)域中。
巴志超等人提出基于主題語義擴(kuò)展的混合類型數(shù)字資源分類方法[2],通過可行性分析對數(shù)字圖書館資源進(jìn)行特征提取,構(gòu)建語義主題模型進(jìn)行數(shù)字圖書館資源語義擴(kuò)展,實(shí)現(xiàn)數(shù)字資源自動分類。李植等人提出一種適于Docker容器資源控制的分類預(yù)測方法,通過cgroups技術(shù)進(jìn)行Docker容器資源服務(wù)質(zhì)量分類,利用譜聚類算法進(jìn)行容器資源使用次數(shù)預(yù)測,實(shí)現(xiàn)有效容器資源。以上兩種方法分別針對數(shù)字資源以及容器資源分類問題進(jìn)行研究[2-3],并獲取較高的分類效果,但以上方法應(yīng)用于數(shù)學(xué)教學(xué)資源中,分類效果較差。
為此,提出一種基于兩步聚類算法的數(shù)字化數(shù)學(xué)教學(xué)資源歸并分類方法。提取數(shù)字化數(shù)學(xué)教學(xué)資源特征,依據(jù)所提取特征利用兩步聚類算法對資源實(shí)施歸并分類。特征提取可將具有較高維度的數(shù)字化數(shù)學(xué)教學(xué)資源降低至較低維度中,依據(jù)固定變換規(guī)則,降低原始教學(xué)資源數(shù)據(jù)維數(shù),為后續(xù)數(shù)字化數(shù)學(xué)教學(xué)資源的精準(zhǔn)歸并分類提供數(shù)據(jù)技術(shù)。通過實(shí)驗(yàn)驗(yàn)證采用該方法對數(shù)字化教學(xué)資源實(shí)施歸并分類具有較高有效性,可應(yīng)用于數(shù)字化教學(xué)資源歸并分類實(shí)際應(yīng)用中。
數(shù)字化數(shù)學(xué)教學(xué)資源應(yīng)用過程中,隨著教學(xué)課程課時(shí)增加,資源數(shù)據(jù)呈增量發(fā)展趨勢。提取數(shù)字化數(shù)學(xué)教學(xué)資源特征過程中,應(yīng)同時(shí)考慮新增數(shù)據(jù)以及歷史數(shù)據(jù),基于全局角度實(shí)現(xiàn)特征提取,避免忽略資源中所蘊(yùn)含的隱藏信息。采用自適應(yīng)滑動窗口互信息方法處理數(shù)字化數(shù)學(xué)教學(xué)資源的歷史數(shù)據(jù)以及增量數(shù)據(jù),實(shí)現(xiàn)數(shù)字化數(shù)學(xué)教學(xué)資源特征提取。
用矩陣X1=[x1,x2,…,xm]表示原始窗口數(shù)據(jù),矩陣X2=[xm+1,xm+2,…,xm+r]表示增量窗口數(shù)據(jù);數(shù)字化數(shù)學(xué)教學(xué)資源中所包含全部數(shù)據(jù)用X=[X1,X2]表示;Z1與Z2分別表示數(shù)字化數(shù)學(xué)教學(xué)資源原始窗口數(shù)據(jù)以及新增窗口數(shù)據(jù)的互信息矩陣;Z表示全部數(shù)字化數(shù)學(xué)教學(xué)資源樣本的互信息矩陣。
依據(jù)互信息定義可得互信息矩陣表達(dá)式如下:
(1)
對角化處理利用單位陣表示Z1的特征分解公式如下:
(2)
利用G1所張成的空間接收Z2的投影,可得公式如下:
(3)
求公式(1)與公式(2)之和可得:
(4)
(5)
將公式(5)代入公式(4),獲取表達(dá)式如下:
(6)
通過以上過程即可獲取全部數(shù)字化數(shù)學(xué)教學(xué)資源特征分解結(jié)果。
通過公式(2)可知:
(7)
公式(7)中,Λ1∈Rm×k與B1∈Rn×k分別表示數(shù)量為前k個(gè)特征值所組成的矩陣以及原始數(shù)字化數(shù)學(xué)教學(xué)資源主成分決策矩陣。
通過以上過程獲取新增窗口數(shù)據(jù)互信息矩陣的特征值Λ2以及特征向量P2,且Λ2=[μ1,μ2,…,μn],P2=[β1,β2,…,βn]。
依據(jù)特征向量以及特征值獲取全部數(shù)字化數(shù)學(xué)教學(xué)資源樣本特征值公式如下:
(8)
公式(8)中,m表示歷史數(shù)字化數(shù)學(xué)教學(xué)資源樣本數(shù)據(jù);r表示新增數(shù)字化數(shù)學(xué)教學(xué)資源樣本數(shù)據(jù)。
可得數(shù)字化數(shù)學(xué)教學(xué)資源特征向量公式如下:
P=G1βi.
(9)
利用所獲取的特征向量建立主成分決策矩陣,將數(shù)字化數(shù)學(xué)教學(xué)資源映射至所建立的主成分決策矩陣即可實(shí)現(xiàn)數(shù)據(jù)降維[4]。后續(xù)窗口重復(fù)迭代以上過程實(shí)現(xiàn)全部數(shù)字化數(shù)學(xué)教學(xué)資源樣本特征提取。
兩步聚類算法主要包括構(gòu)建特征樹以及層次凝聚算法分組兩部分。
(1)構(gòu)建特征樹。利用所提取的數(shù)字化數(shù)學(xué)教學(xué)資源樣本特征構(gòu)建特征樹。依據(jù)所設(shè)定固定順序掃描數(shù)字化數(shù)學(xué)教學(xué)資源全部樣本數(shù)據(jù)特征,完成掃描后確定數(shù)據(jù)類別以及不同類別中心,將待分類數(shù)字化數(shù)學(xué)教學(xué)資源依據(jù)固定標(biāo)準(zhǔn)劃分至不同類別中,以上過程即建立特征樹的過程[5]。所構(gòu)建特征樹利用葉節(jié)點(diǎn)根部存儲數(shù)字化數(shù)學(xué)教學(xué)資源觀測量,所包含變量信息均通過葉節(jié)點(diǎn)體現(xiàn)。將已存在節(jié)點(diǎn)以及后續(xù)觀測量利用相似性測度對比,比較結(jié)果為相似時(shí),將相似觀測樣本加入現(xiàn)有節(jié)點(diǎn)中;比較結(jié)果為不相似時(shí),在特征樹中建立新節(jié)點(diǎn),直至全部數(shù)字化數(shù)學(xué)教學(xué)資源數(shù)據(jù)比較完成,實(shí)現(xiàn)特征樹構(gòu)建。
(2)特征樹葉節(jié)點(diǎn)分組。選取層次凝聚算法分組所構(gòu)建特征樹葉節(jié)點(diǎn),算法運(yùn)算過程通過歐式平方距離的平方根實(shí)現(xiàn)連續(xù)變量測度,歐式距離度量公式:
(10)
連續(xù)變量以及分類變量的處理利用似然對數(shù)距離實(shí)現(xiàn),似然對數(shù)距離是基于距離所獲取的概率值。似然對數(shù)在不同類別合并為相同類別時(shí)有所降低,不同類別間距離有所變化。
連續(xù)變量以及分類變量在似然對數(shù)運(yùn)算過程中需符合正態(tài)分布以及多項(xiàng)式分布[6],采用似然對數(shù)距離應(yīng)用于數(shù)字化數(shù)學(xué)教學(xué)資源合并與分類時(shí),設(shè)置不同變量均為獨(dú)立狀態(tài)。
定義類別j與類別s間距離d(j,s)表達(dá)式如下:
d(j,s)=xj+xS-x〈j,.s〉.
(11)
公式(11)中,〈j,s〉表示通過歸并處理所獲取的類別。
利用BIC判據(jù)以上過程的分類運(yùn)算結(jié)果,初始估計(jì)所獲取分類數(shù)量。初始分類中最為相近的兩種類比間,存在最大增長距離的聚類數(shù)即最終聚類數(shù)量。
用R表示聚類數(shù)量,可得最終歸并分類計(jì)算公式如下:
(12)
(13)
以上公式中,HA與N分別表示歸并分類過程中連續(xù)變量總數(shù)量以及觀測量總數(shù)量,mj表示葉節(jié)點(diǎn)數(shù)量,LH與HB分別表示待分類數(shù)字化數(shù)學(xué)教學(xué)資源歸并分類第k個(gè)變量編號以及歸并分類過程中所采用全部分類變量總數(shù)量。
選取某高校數(shù)理學(xué)院數(shù)字化數(shù)學(xué)教學(xué)資源作為實(shí)驗(yàn)對象,所采集數(shù)字化數(shù)學(xué)教學(xué)資源大小為5.98 GB,采用兩步聚類算法的數(shù)學(xué)教學(xué)資源歸并分類方法對所采集數(shù)字化數(shù)學(xué)教學(xué)資源實(shí)施歸并分類,驗(yàn)證此方法歸并分類結(jié)果。
設(shè)置數(shù)字化教學(xué)數(shù)學(xué)資源作為測試變量,采用BIC結(jié)果確定最佳分類,BIC自動聚類結(jié)果如表1所示。
表1 自動聚類結(jié)果
通常情況下,通過聚類算法所獲取的BIC值越小,表示該聚類算法聚類性能越優(yōu),所生成聚類數(shù)據(jù)質(zhì)量最高。通過表1可以看出,聚類數(shù)量提升時(shí),所獲取BIC值有所降低,因此需衡量距離測量比以及BIC變化率決定最佳聚類數(shù)量。聚類測量比結(jié)果較高,且BIC變化率同樣較高時(shí),該聚類方案為最佳。表1實(shí)驗(yàn)結(jié)果可以看出,所獲取聚類類別為4類時(shí),通過聚類所獲取聚類測量比最高,同時(shí)BIC變化率最高。因此將數(shù)字化數(shù)學(xué)教學(xué)資源分為4類。
選取文獻(xiàn)[5]方法以及文獻(xiàn)[6]方法作為對比方法,不同方法對數(shù)字化數(shù)學(xué)教學(xué)資源歸并分類結(jié)果如表2所示。
表2 不同方法歸并分類結(jié)果
由表2可以看出,采用三種方法均可實(shí)現(xiàn)數(shù)字化數(shù)學(xué)教學(xué)資源的有效分類。采用兩步聚類算法的數(shù)學(xué)教學(xué)資源歸并分類方法依據(jù)BIC變化率以及距離測量比結(jié)果,將數(shù)字化數(shù)學(xué)教學(xué)資源分為4類,各類分別占總數(shù)的30.6%、35.6%、15.2%以及18.6%。
統(tǒng)計(jì)不同窗口大小時(shí),三種方法對數(shù)字化數(shù)學(xué)教學(xué)資源的歸并分類效率,對比結(jié)果如圖1所示。
圖1 窗口大小對歸并分類效率的影響
由圖1可以看出,不同方法歸并分類數(shù)字化數(shù)學(xué)教學(xué)資源的運(yùn)行時(shí)間隨著窗口大小增加呈下降趨勢;窗口大小高于600時(shí),不同方法歸并分類數(shù)字化數(shù)學(xué)教學(xué)資源運(yùn)行時(shí)間有所提升。主要原因是運(yùn)算窗口過小時(shí),方法需從緩沖區(qū)域提取數(shù)據(jù),占用過多時(shí)間;運(yùn)行窗口大小過大時(shí),提升了數(shù)字化數(shù)學(xué)教學(xué)資源特征分解時(shí)間。因此窗口區(qū)間處于300~600時(shí),數(shù)字化數(shù)學(xué)教學(xué)資源歸并分類效率最佳。相比于另兩種方法,兩步聚類算法的數(shù)學(xué)教學(xué)資源歸并分類方法的歸并分類效率在不同窗口大小時(shí)均為最高,說明該方法歸并分類運(yùn)算效率高于另兩種方法。
采用常應(yīng)用于歸并分類中的評價(jià)指標(biāo)查全度、準(zhǔn)確度以及F1估計(jì)值評價(jià)不同方法歸并數(shù)字化數(shù)學(xué)教學(xué)資源分類準(zhǔn)確率。歸并分類應(yīng)用中,F(xiàn)1估計(jì)值高于90%時(shí),表示該方法具有較高的歸并分類效率。統(tǒng)計(jì)采用兩步聚類算法的歸并分類數(shù)字化數(shù)學(xué)教學(xué)資源的歸并分類性能,統(tǒng)計(jì)結(jié)果如表3所示。
表3 歸并分類性能統(tǒng)計(jì)結(jié)果
表3實(shí)驗(yàn)結(jié)果可以看出,采用兩步聚類算法的歸并分類數(shù)字化數(shù)學(xué)教學(xué)資源的準(zhǔn)確度以及查全度均高于98%; F1估計(jì)值均高于93%。統(tǒng)計(jì)結(jié)果有效驗(yàn)證此方法具有較高的歸并分類性能,具有較高準(zhǔn)確率,應(yīng)用性較高。
將兩步聚類算法應(yīng)用于數(shù)字化數(shù)學(xué)教學(xué)資源歸并分類中,利用兩步聚類算法所具有的海量樣本聚類性能,提升數(shù)字化數(shù)學(xué)教學(xué)資源歸并分類有效性,具有優(yōu)秀的運(yùn)算連續(xù)變量以及離散變量能力,智能性高,具有分類嚴(yán)謹(jǐn)、操作簡便的優(yōu)勢。①效率最高僅為250 ms。②準(zhǔn)確率均值為98.78%,查全度均值為99.06%,F(xiàn)1估計(jì)均值為95.54%。
這說明所提出來的歸并分類有效性較高,處理海量數(shù)字化數(shù)學(xué)教學(xué)資源時(shí),處理可靠性高,可在數(shù)字化數(shù)學(xué)教學(xué)資源歸并分類中發(fā)揮重要作用,取代以往人工歸并分類的低效率方法。