楊思狄
(內(nèi)蒙古大學 滿洲里學院,內(nèi)蒙古 滿洲里 021400)
多媒體課件在現(xiàn)階段的教學中發(fā)揮著十分重要的為,但是課件的組成往往需要耗費大量的人力以及物理,于是課件自動生成技術由此形成[1-2].
現(xiàn)階段課件自動生成技術主要劃分為以下兩種形式:
(1) 將采集到的素材進行整合從而形成自動課件,整合方法需要任課教師不斷進行素材積累[3].相關的研究有王愛紅等人通過B/S 結(jié)構(gòu),針對教師上課采用的視頻以及音頻進行采集,同時收集教師上課所利用全部媒體資源,將其進行統(tǒng)一整合,從而形成多媒體課件.
(2) 通過數(shù)據(jù)庫或者知識庫已經(jīng)存在的數(shù)據(jù)形成自動課件,相關的研究有Dessislava Vassileva 等人通過本體知識庫以及元數(shù)據(jù)信息將領域知識進行組合,同時采用自適應的引擎組建個性化的多媒體課件.
上述第一種課件生成技術主要是依靠人工實現(xiàn)不同素材的整合,整個操作過程費時費力,同時課件的形成速度是無法保證的,所以并不適用.第二種技術主要通過數(shù)據(jù)庫或者知識庫,同時結(jié)合學習者的個人信息形成多媒體課件,但其仍然存在以下幾方面的問題:(1) 數(shù)據(jù)庫以及知識庫的組建仍然需要人工實現(xiàn),且整合的工作量較大;(2)不同庫中存放的知識大部分為通用知識,無法形成專門針對哪一學科的多媒體課件.
針對以上方法存在的問題,結(jié)合多媒體技術,本文設計并提出一種基于多媒體技術的高等數(shù)學電子課件自動生成方法.通過具體的仿真實驗數(shù)據(jù),有效驗證了所提方法的優(yōu)越性以及有效性.
領域本體在電子課件自動生成研究中占據(jù)十分重要的地位,它能夠為該研究領域提供概念定義以及概念之間的關系,同時能夠為該領域發(fā)生的活動以及該領域的主要理論提供一個本體[4-5].以下給出領域本體生成模型的主要組成部分:
(1) 領域語料集以及背景語料集的采集.
選取對應的文獻設定為領域語料,主要用來獲取概念定義以及概念之間存在的關聯(lián).其中文獻資料的選取需要具有權威性以及時效性等特性.
在此過程中,還能夠獲取一個和領域無關的語料集,在概念抽取的過程中設定為背景語料集,同時過濾掉無法真正代表領域的偽術語.
(2) 定義領域詞典.
設定領域詞典,將已知的領域概念加入到領域詞典中,同時還能夠在一定程度上避免在分詞過程中將領域劃分為無意義的詞,從而進一步提升分詞結(jié)果的準確性.
(3) 語料預處理.
針對語料文本進行預處理,同時將領域文檔劃分成若干個不同的文本文件.
(4) 概念抽取.
針對拆分之后的文本文件進行初次分詞以及詞性標注,獲取切分文檔.在上述分析的基礎上,采用基于切分單元的最佳匹配算法針對切分文檔進行處理,獲取再次分析的詞匯集合.
(5) 概念關系抽取.
采用VSM 方法組建概念向量空間模型,通過余弦相似度以及語義相似度相結(jié)合的方法計算不同概念之間的相似度,同時針對概念進行層次聚類[6],準確抽取出不同概念之間的分類關系.
(6) 本體評價.
針對本體進行評價重點需要考慮以下兩方面的因素:(1) 本體自身的精準性;(2) 建模獲取的本體是否能夠滿足課件自動生成的條件.
針對語料進行預處理,其中一方面是抽取文本中重要的特征信息;另外一方面則需要針對文檔進行切分,方便后續(xù)針對相關概念進行提取.
通常情況下,一個文檔可能含有圖像、動畫等豐富的信息表達方式,但是最為主要的信息就是文字信息.根據(jù)將語料文檔格式轉(zhuǎn)換為文本文件,能夠自動刪除無用的文件,獲取規(guī)范的文本以及文件.
領域在這里主要是指教科書或者科技資料的電子文本.教科書或者科技資料內(nèi)容組織的主要特點是由章節(jié)組成,不同的章節(jié)內(nèi)容通常情況下描述不同內(nèi)容的主題,但是各個內(nèi)容主題和章節(jié)標題之間存在的一定的關聯(lián).通過教科書以及科技資料等內(nèi)容的組建特點[7-8],針對領域文本的預處理就是一個逐漸進行分解的過程,即首先將高等數(shù)學的整本教材按照章節(jié)劃分為幾個文本文件,同時將各個章節(jié)所表示的文件進行拆分,拆分為多個不同的文件,即為拆分文件.
概念抽取為本體學習的重要起點.以下詳細給出領域術語抽取的主要操作流程,如圖1所示.
圖1 領域術語抽取流程圖
經(jīng)過以上分析,針對文檔進行統(tǒng)計獲取候選術語集,同時獲取對應的4 個候選結(jié)果.采用基于切分單元的最佳匹配算法,針對切分文檔進行處理,獲取候選集中部分元素.另外,根據(jù)閾值的設定,能夠?qū)⑶蟹治臋n集中的出現(xiàn)概率大于給定閾值的詞加入到對應的候選術語集中.
以下重點采用TFIDF 方法針對候選集中的術語進行領域相關分析,篩選出和領域存在關聯(lián)的術語.具體的操作步驟如下:
(1) 統(tǒng)計領域文檔集中出現(xiàn)的全部詞以及詞頻;
(2) 統(tǒng)計領域文檔集中各個詞在北京語料中出現(xiàn)的次數(shù);
(3) 計算不同詞的TFIDF 取值,算式如下:
(4) 針對TFIDF 的取值結(jié)果進行排序;
(5) 設定對應的閾值,同時將計算結(jié)果大于閾值的詞設定為候選術語集中的詞;
(6) 在計算的過程中,會存在由多個或者一個字組成的詞,但是這些詞大部分是不存在任何意義的,所以需要對其進行過濾處理,獲取有效的候選術語集[9].
向量空間模型主要是通過信息中不同關鍵詞的出現(xiàn)次數(shù)組建關鍵詞向量,首先需要讀入概念提取階段所提取到的概念,同時組建領域概念詞列表,即
針對ConceptList中各個概念詞wi,以概念所出現(xiàn)的文檔設定為該詞語的向量,同時組建概念—文檔所代表的向量空間模型.
針對向量空間C 中的各個概念詞語wi,采用TFIDF 加權方法計算對應的權值,即
結(jié)合概念列表,能夠組建一個M*N 的向量空間,具體的表示形式為
聚類方法主要是通過任意一種策略對高等數(shù)學概念之間的語義距離進行距離實現(xiàn)特征信息分類,即
在完成高等數(shù)學特征信息的劃分之后,需要將采集到的課件內(nèi)容進行均勻的切塊,然后將切塊得到的單元直接放入到課件對應的文件當中.以上做法雖然十分的簡單,但是均勻切塊的操作下,有效掩蓋了教材內(nèi)容自身存在的差異性,實際上就是塊長一致的教材單元包含的知識量不一定是相同的.
針對高等數(shù)學教材進行均勻切塊制作課件的方法并不符合對應的數(shù)學規(guī)律,需要按照正常的知識量進行教學內(nèi)容組織,同時實現(xiàn)課件的制作.
通過對大量的課件進行分析可知,知識量的大小和學習知識點所浪費時間多少成正比,同時和課件中為知識點所需準確的課件量多少呈正比.知識量針對課件內(nèi)容在PPT 文件中的放置位置有著十分重要的影響.在實際教學的過程中,高等數(shù)學知識量的度量將會受到多種不同因素的影響,如知識點的教學目標、高等數(shù)學難重點情況、不同知識點之間的關系等.
知識點的教學層次越高,則說明知識點越難同時也越重要,且包含的知識量也就越大;反之,則包含的知識量也就越小.將影響知識點中知識量的各個因素進行量化處理,則能夠獲取不同知識點的知識量.知識主要包含在對應的概念中,針對高等數(shù)學教學大綱中的知識點,需要從領域本體中提取對應的概念,通過知識點以及知識量之間的量化關系能夠計算不同概念的知識量.
在上述分析的基礎上,結(jié)合對高等數(shù)學大量課件的研究分析,總結(jié)高等數(shù)學電子課件的制作規(guī)律,結(jié)合教學大綱以及多媒體技術[10],在領域本體中選取高等數(shù)學電子課件的內(nèi)容,以達到高等數(shù)學電子課件自動生成的目的.
為了驗證所提基于多媒體技術的高等數(shù)學電子課件自動生成方法的綜合有效性,需要進行仿真實驗測試.實驗環(huán)境為:雙核2.50GHzPentium(R)處理器,2GB 內(nèi)存,仿真軟件采用MATLAB版本是R2015b[37].
(1) 電子課件自動生成時間.
課件生成的快慢在課件自動生成方法中占據(jù)十分重要的地位,其中電子課件自動生成時間越短,則說明課件生成速度越快;反之,則說明課件生成的速度較慢.實驗選取文獻[4]方法以及文獻[5]方法作為對比方法,具體的實驗對比結(jié)果如下表1~3 所示.
表1 所提方法的電子課件自動生成時間
表3 文獻[5]方法的電子課件自動生成時間
綜合分析以上表格中的實驗數(shù)據(jù)可知,當課件的數(shù)量持續(xù)增加時,電子課件自動生成時間也在不斷增加.但是相比另外兩種方法,所提方法的電子課件自動生成時間明顯更低.
(2) 電子課件自動生成費用.
以下仿真實驗測試對比三種不同方法的電子課件自動生成費用,具體的實驗對比結(jié)果如圖2 所示.
分析圖2 中的實驗數(shù)據(jù)可知,所提方法的電子課件自動生成費用最低;文獻[4]方法的電子課件自動生成費用次之;文獻[5]方法的電子課件自動生成費用最高.
圖2 不同方法的電子課件自動生成費用對比結(jié)果
(3) 用戶滿意程度.
表4 所提方法的用戶滿意程度
由于不同方法生成的電子課件具有一定的差異性,以下對比三種不同方法所生成的電子課件,用戶對其滿意程度,具體的實驗對比結(jié)果如表4~6 所示.
表5 文獻[4]方法的用戶滿意程度
表6 文獻[5]方法的用戶滿意程度
分析以上表中的實驗數(shù)據(jù)可知,相比另外兩種方法,所提方法能夠獲取較高的用戶滿意程度,這說明所提方法自動生成的電子課件具有較強的實用性以及有效性.
針對傳統(tǒng)的高等數(shù)學電子課件自動生成方法存在的一系列問題,本文設計并提出一種基于多媒體技術的高等數(shù)學電子課件自動生成方法.通過具體的仿真實驗數(shù)據(jù),充分驗證了所提方法的有效性以及實用性,同時所提方法能夠獲取用戶較為滿意的高等數(shù)學電子課件.