朱 睿,馮錫煒,竇予梓,高天鑄,馬 蕾,吳衍兵
(遼寧石油化工大學(xué) 計(jì)算機(jī)與通信工程學(xué)院,遼寧 撫順 113001)
教育信息化越來(lái)越受到教育研究者的關(guān)注,隨著各類學(xué)科的電子化,人們?cè)L問(wèn)這類網(wǎng)站所產(chǎn)生的瀏覽數(shù)據(jù)量越來(lái)越大。通過(guò)大數(shù)據(jù)技術(shù),對(duì)這些瀏覽數(shù)據(jù)進(jìn)行分析后,可以根據(jù)每個(gè)用戶群體不同的瀏覽數(shù)據(jù)習(xí)慣進(jìn)行相關(guān)教育方面的信息推送[1-3]。
專業(yè)化教育資源本體庫(kù)的建立對(duì)于教學(xué)信息資源的推送有著不尋常的實(shí)踐價(jià)值[4-5]。在2017年教育部發(fā)布了《基礎(chǔ)教育教學(xué)資源元數(shù)據(jù)》系列教育行業(yè)標(biāo)準(zhǔn)通知,里面包括了《基礎(chǔ)教育教學(xué)資源元數(shù)據(jù) 信息模型》、《基礎(chǔ)教育教學(xué)資源元數(shù)據(jù)XML綁定》及《基礎(chǔ)教育教學(xué)資源元數(shù)據(jù) 實(shí)踐指南》,這些標(biāo)準(zhǔn)對(duì)于建立相關(guān)教育信息化本體有著非常重要的意義。
文中利用Protégé,以計(jì)算機(jī)組成原理這一課程內(nèi)容為本體設(shè)計(jì)數(shù)據(jù)來(lái)源,進(jìn)行本體設(shè)計(jì)?;诎俣戎笖?shù)中關(guān)于計(jì)算機(jī)組成原理的各項(xiàng)搜索數(shù)據(jù),基于貝葉斯建立詞匯頻度分析模型,將百度指數(shù)中的搜索指數(shù)結(jié)合詞匯頻度分析模型進(jìn)行計(jì)算,計(jì)算后的各個(gè)不同本體的詞匯頻度分析數(shù)據(jù)按照數(shù)值的從大到小進(jìn)行推送。
教育信息化具有兩層含義,一個(gè)在教育目標(biāo)中加入信息素養(yǎng),另一層指在教學(xué)與科研中加入信息技術(shù)手段,注重教育信息資源的探究與使用[6]。文中主要對(duì)后者進(jìn)行闡述。在信息技術(shù)手段上利用大數(shù)據(jù)、語(yǔ)義分析及用戶粘性等信息技術(shù)對(duì)教育工作者常進(jìn)行瀏覽的網(wǎng)頁(yè)記錄進(jìn)行分析,進(jìn)而進(jìn)行推送[7-8]。
教育資源本體用來(lái)容納和規(guī)范教育信息,根據(jù)實(shí)際的需求,將本體的屬性分為數(shù)據(jù)屬性(Data Property)和對(duì)象屬性(Object Property)。數(shù)據(jù)屬性定義域是本體的類,值域是數(shù)據(jù)類型。對(duì)象屬性是表示所有個(gè)體之間的關(guān)系屬性[9]。
數(shù)據(jù)屬性:為使網(wǎng)絡(luò)上分布的教育資源庫(kù)有統(tǒng)一的語(yǔ)義標(biāo)注標(biāo)準(zhǔn),通過(guò)對(duì)《基礎(chǔ)教育教學(xué)資源元數(shù)據(jù)》的每一個(gè)元數(shù)據(jù)項(xiàng)進(jìn)行分析,然后整理出了數(shù)據(jù)屬性。部分?jǐn)?shù)據(jù)屬性的定義與說(shuō)明如表1所示[10-11]。
表1 數(shù)據(jù)屬性定義及說(shuō)明
對(duì)象屬性:根據(jù)教育元數(shù)據(jù)進(jìn)行教育資源領(lǐng)域的本體構(gòu)建。主要對(duì)象屬性是教育信息的對(duì)象屬性[12]。教育資源之間存在豐富的語(yǔ)義關(guān)系,通過(guò)語(yǔ)義關(guān)系建立本體屬性,利用這些屬性進(jìn)行本體推理和查詢,作為教育資源語(yǔ)義搜索的基礎(chǔ)[6]。
教育資源間屬性關(guān)系,可根據(jù)教育信息的特點(diǎn),對(duì)教育信息間關(guān)系進(jìn)行分析抽象,得到表2所示的對(duì)象屬性及對(duì)應(yīng)公理。
其中對(duì)象屬性的公理,為從離散數(shù)學(xué)當(dāng)中借鑒過(guò)來(lái)的三種關(guān)系性質(zhì),分別是Transitive(傳遞性)、Asymmetric(非對(duì)稱性)和Reflexive(自反性),具體對(duì)象屬性及對(duì)應(yīng)公理如表2所示[13]。
表2 對(duì)象屬性及對(duì)應(yīng)公理
利用Protégé進(jìn)行計(jì)算機(jī)組成原理這一課程體系及相關(guān)知識(shí)的本體構(gòu)建。層級(jí)關(guān)系采用目前本科計(jì)算機(jī)類學(xué)生教學(xué)常用的《計(jì)算機(jī)組成原理》中對(duì)計(jì)算機(jī)組成的分類方式作為分類標(biāo)準(zhǔn),主題上分四個(gè)大塊,分別是概論、計(jì)算機(jī)系統(tǒng)的硬件結(jié)構(gòu)、中央處理器、控制單元。采用樹(shù)狀方式進(jìn)行存儲(chǔ),深度為4層。圖1和圖2分別是在Protégé進(jìn)行本體構(gòu)建的結(jié)構(gòu)圖和可視化界面圖。Protégé會(huì)生成對(duì)應(yīng)的owl及xml文件,可以方便在Hadoop中進(jìn)行相關(guān)處理工作。
圖1 Protégé本體之間結(jié)構(gòu)關(guān)系簡(jiǎn)圖
圖2 Protégé本體之間可視化界面部分展開(kāi)
教育信息之間的語(yǔ)義關(guān)系可以制定豐富的自定義推理規(guī)則[14-15]。這里假設(shè)a、b為教育信息,p、q表示屬性,p具有傳遞性,p和q互逆:
傳遞性規(guī)則:(? a p ? b)(? b p ? c)->(? a p ? c)
如果教育信息a和b之間具有屬性p,教育信息b和c之間也具有屬性p,屬性p具有傳遞性,則可以推理得到教育信息a與c之間也具有屬性p。
互逆規(guī)則:(? a p ? b)->(? b q ? a)
如果教育信息a與b之間具有屬性p,由于屬性p和q互逆,則可以推理得到教育信息b和教育信息a之間具有屬性q。
這里以計(jì)算機(jī)組成原理中的知識(shí)點(diǎn)為例,利用表2對(duì)象屬性及對(duì)應(yīng)公理中對(duì)象屬性結(jié)合傳遞性或互逆規(guī)則,用JSJZC表示計(jì)算機(jī)組成原理的知識(shí)點(diǎn)作,在表3中寫(xiě)出為推理規(guī)則。
表3 教育信息本體間邏輯
續(xù)表3
屬性約束,OWL使用屬性約束來(lái)描述那些特定類的屬性條件,屬性條件的基數(shù)約束如表4所示[11]。
表4 屬性條件約束規(guī)則
本體構(gòu)建只是將零散的教育信息進(jìn)行半結(jié)構(gòu)化的數(shù)據(jù)構(gòu)建過(guò)程,而詞匯頻度分析模型是將這類數(shù)據(jù)進(jìn)行處理的模型。Hadoop作為一個(gè)分布式計(jì)算基本框架,在對(duì)大數(shù)據(jù)進(jìn)行分布式計(jì)算的過(guò)程中,需要對(duì)數(shù)據(jù)進(jìn)行整理和規(guī)劃,而作為Apache公司推出的MapReduce可以在大數(shù)據(jù)以及半非結(jié)構(gòu)化的概況下進(jìn)行數(shù)據(jù)處理[16-17]。教育信息數(shù)據(jù)具有半非結(jié)構(gòu)化,需要通過(guò)本體構(gòu)建的方式構(gòu)建起一個(gè)相對(duì)的結(jié)構(gòu)體系,所以通過(guò)對(duì)MapReduce和Hadoop進(jìn)行配合,進(jìn)行相關(guān)的數(shù)據(jù)計(jì)算,能更好地對(duì)數(shù)據(jù)進(jìn)行處理。
而詞匯頻度分析模型MapReduce對(duì)教育信息資源進(jìn)行管理,詞匯頻度分析模型的處理和表示是分類器構(gòu)建的一個(gè)重要過(guò)程[18]。詞匯頻度分析研究的是對(duì)教育信息資源進(jìn)行推送的相關(guān)算法,在前面已經(jīng)基于本體進(jìn)行個(gè)元數(shù)據(jù)的分類及結(jié)構(gòu)構(gòu)建工作,但只有結(jié)構(gòu)無(wú)法進(jìn)行相應(yīng)的推送工作,因?yàn)閷?duì)于元數(shù)據(jù)來(lái)說(shuō),每個(gè)元數(shù)據(jù)在推送過(guò)程中都具有相同的推送價(jià)值[19-20]。為了更好的進(jìn)行相關(guān)信息資源的推送,文中在基于語(yǔ)義構(gòu)建元數(shù)據(jù)的基礎(chǔ)上加入了基于改良后的貝葉斯概率統(tǒng)計(jì)計(jì)算公式。貝葉斯概率統(tǒng)計(jì)計(jì)算公式相較于傳統(tǒng)的頻數(shù)概率統(tǒng)計(jì)方式有所不同,其概率統(tǒng)計(jì)會(huì)保留不確定性[7]。
(1)
這與推送內(nèi)容的目標(biāo)用戶對(duì)于推送內(nèi)容的不確定性恰好吻合,而傳統(tǒng)的貝葉斯公式如式(1)所示,其中P(A)代表A發(fā)生的概率,其概率值在[0,1],X代表在A之后進(jìn)行測(cè)試的實(shí)驗(yàn)[7]。這個(gè)公式代表的含義是在已知P(A)(在推送中最開(kāi)始的P(A)可來(lái)自該行業(yè)專家的初始定值或小范圍內(nèi)的問(wèn)卷調(diào)查賦值初始概率)的情況下,每次新的變化會(huì)讓概率在[0,1]之間不停的變化。當(dāng)中需要對(duì)每個(gè)教育本體進(jìn)行附加屬性,通過(guò)這些附加屬性進(jìn)行詞匯頻度分析模型的構(gòu)造。文中采用詞匯頻度分析模型來(lái)對(duì)各個(gè)標(biāo)題進(jìn)行賦值,從而在進(jìn)行推送的過(guò)程中可以更加準(zhǔn)確地進(jìn)行相關(guān)信息的推送工作[21]。
W={w1,w2,…,wn}
(2)
wi={name,depth},i∈[1,n]
(3)
式(2)中的W代表本體庫(kù),式(3)中的wi為本體庫(kù)中的本體,每個(gè)本體wi含本體名稱和在本體庫(kù)中的本體層數(shù),規(guī)定根節(jié)點(diǎn)(在文中是計(jì)算機(jī)組成)層數(shù)為1,其中下角標(biāo)i代表每個(gè)本體的標(biāo)號(hào),n代表本體庫(kù)中最大本體數(shù)目。
htj={h11,h12,…,h1m,h21,…,h2m,…,hf1,…,hfm}
(4)
式(4)中htj是各個(gè)本體詞匯在不同日期下的熱度值,其中t代表日期,最大日期值為f,j代表所對(duì)應(yīng)本體的標(biāo)號(hào)。wi通過(guò)記錄的字段name與htj在代表本體進(jìn)行互相映射。
(5)
式(5)為預(yù)先處理數(shù)據(jù),根據(jù)已構(gòu)建的本體庫(kù),其存在層級(jí)關(guān)系,層級(jí)越低,其概括越大。而層級(jí)越高,其內(nèi)容越細(xì)。計(jì)算在本體庫(kù)中與wi具有較強(qiáng)連接度的本體數(shù)據(jù)的比例關(guān)系,進(jìn)而得出與整體的關(guān)系。P(wi)代表的是每個(gè)本體與整體的連接概括關(guān)系,而dep(wi,wj)表示兩個(gè)本體間的層級(jí)的距離,如果兩個(gè)本體間越相近,其dep()值越小,P(wi)越大,其本體wi與其他本體的鏈接越緊密,在推送的時(shí)候更應(yīng)該連帶進(jìn)行推送。此部分對(duì)應(yīng)傳統(tǒng)貝葉斯公式中的P(A)部分。
(6)
式(6)為計(jì)算在對(duì)應(yīng)本體的熱度值,該熱度值的來(lái)源為各大搜索引擎的熱詞搜索數(shù)據(jù)(文中采用的是百度指數(shù)中的相關(guān)數(shù)據(jù))。這里設(shè)每日該本體對(duì)應(yīng)的熱詞比例公式為P(htj),htj和hTj分別為獲取當(dāng)前詞匯的熱度數(shù)和不同天數(shù)下的該本體的熱度數(shù)。P(htj)值越高,代表htj在用戶搜索中占有較重要的意義,htj所對(duì)應(yīng)的本體wi的推送排名應(yīng)該上升。P(htj)值越低,代表htj在推薦中應(yīng)該進(jìn)行排名下滑。
(7)
通過(guò)組合式(5)及式(6),可以得到簡(jiǎn)單的基于貝葉斯模型,如式(7)所示。但貝葉斯在進(jìn)行統(tǒng)計(jì)概率的情況下,其容易受到單次數(shù)據(jù)較大波動(dòng)導(dǎo)致統(tǒng)計(jì)概率發(fā)生較大的起伏,所以,文中在結(jié)合本體與貝葉斯統(tǒng)計(jì)概率公式的同時(shí)加入頻數(shù)統(tǒng)計(jì)概率。
(8)
式(8)為當(dāng)有相應(yīng)的用戶搜索數(shù)據(jù)后,計(jì)算用戶搜索頻度值。式(8)中的α值為加權(quán)自定義值,默認(rèn)情況下為0。而β為本體加權(quán)變量,默認(rèn)情況下為1。如果需要特殊優(yōu)先推送,增加該本體的β值或者調(diào)節(jié)α值,增加β值可以對(duì)本體進(jìn)行正向加權(quán),讓P(wi,htj)增加,而調(diào)節(jié)α即避免當(dāng)前該信息過(guò)新無(wú)人查看P(htj)=0這種情況。
(9)
式(9)得到每個(gè)本體Wi所對(duì)應(yīng)的粘性能量值Ei,推送系統(tǒng)根據(jù)Ei值進(jìn)行相關(guān)內(nèi)容的推送。Ei值越大,其推送排名越靠前;Ei值越小,其推送排名越靠后。
基于逆概率的貝葉斯算法設(shè)計(jì)出的詞匯頻度分析模型和通過(guò)語(yǔ)義本體構(gòu)建規(guī)則構(gòu)建起來(lái)的半結(jié)構(gòu)化教育信息本體結(jié)構(gòu),進(jìn)行用戶粘性模型教育信息推薦系統(tǒng)[22-23]的設(shè)計(jì)工作。通過(guò)在百度指數(shù)上的相關(guān)數(shù)據(jù)結(jié)合專業(yè)書(shū)籍及相關(guān)專業(yè)老師的意見(jiàn),計(jì)算P(wi)及相關(guān)公式的結(jié)果Ei,得到計(jì)算機(jī)組成原理排名前10的詞匯。教育信息推薦系統(tǒng)推送結(jié)果如表5所示。
表5 教育信息推薦系統(tǒng)推送結(jié)果
圖3是用MATLAB生成的教育信息推薦系統(tǒng)推送結(jié)果展示圖,以搜索計(jì)算機(jī)組成一詞例推送出的相關(guān)信息,點(diǎn)的大小代表訪問(wèn)量,距離的遠(yuǎn)近代表相關(guān)性層級(jí)的遠(yuǎn)近。圖4是MATLAB生成的按書(shū)目錄一級(jí)標(biāo)題推送結(jié)果。從圖3和圖4對(duì)比中可以大致看出,基于按一級(jí)目錄進(jìn)行推送的結(jié)果在大多情況下不如教育信息推薦系統(tǒng)的推送結(jié)果,教育信息推薦系統(tǒng)的推送結(jié)果具有信息量大,相關(guān)信息多的特點(diǎn)。
圖3 教育信息推薦系統(tǒng)推送結(jié)果展示圖
圖4 按書(shū)目錄一級(jí)標(biāo)題推送結(jié)果圖
對(duì)于表5當(dāng)中的教育信息推薦系統(tǒng)的推送結(jié)果,選取了100名相關(guān)計(jì)算機(jī)專業(yè)的學(xué)生,通過(guò)給他們推送基于詞匯頻度分析模型及按書(shū)目錄一級(jí)標(biāo)題排列進(jìn)行推薦可靠度打分,讓其判斷需要程度的排序,得出如圖5所示的百名用戶滿意度記錄。從圖中可以大致看出,基于按一級(jí)目錄進(jìn)行推送的結(jié)果在百名用戶中大多情況下不如教育信息推薦系統(tǒng)的推送結(jié)果。
圖5 百名用戶滿意值記錄
數(shù)值判斷方面,利用Jaccard Index(簡(jiǎn)稱JS指數(shù))進(jìn)行用戶對(duì)推送結(jié)果排序的符合程度計(jì)算。式(10)為JS指數(shù)計(jì)算方式,其中A為推送結(jié)果,B為用戶希望推送結(jié)果。J(A,B)為JS指數(shù)計(jì)算結(jié)果,當(dāng)JS指數(shù)大于0.70時(shí)為優(yōu)秀,大于0.50時(shí)為良好,低于0.25時(shí),該系統(tǒng)不利于進(jìn)行推送。
(10)
將表5當(dāng)中的信息推薦系統(tǒng)表和按一級(jí)目錄排列的結(jié)果同時(shí)讓100名自愿用戶(計(jì)算機(jī)專業(yè)學(xué)生)評(píng)判是否符合心理推送預(yù)期。并且利用式(10)進(jìn)行計(jì)算。
根據(jù)圖5中百名用戶滿意值記錄,進(jìn)行平均值計(jì)算,結(jié)果比較如表6所示。從表中可以看出,利用詞匯頻度分析模型結(jié)合語(yǔ)義本體分析后的推送系統(tǒng)JS平均指數(shù)達(dá)到了0.73,達(dá)到了良好的標(biāo)準(zhǔn),而根據(jù)一級(jí)目錄進(jìn)行推薦的推薦系統(tǒng)JS平均指數(shù)達(dá)到了0.57,明顯比基于用戶粘性模型及語(yǔ)義本體分析后的JS平均指數(shù)低。
表6 各類推薦算法比較表
對(duì)于表5當(dāng)中的教育信息推薦系統(tǒng)的推送結(jié)果,從多名自愿用戶(計(jì)算機(jī)專業(yè)學(xué)生)的學(xué)生中選出100個(gè)計(jì)算機(jī)專業(yè)常見(jiàn)詞匯,通過(guò)測(cè)試推送基于詞匯頻度分析模型及按書(shū)目錄一級(jí)標(biāo)題排列進(jìn)行打分,能推送出準(zhǔn)確的結(jié)果為1,未能推送出結(jié)果的為0,未能推送出準(zhǔn)確結(jié)果但能推送出其泛詞(相同或相關(guān)的詞匯)的結(jié)果為0.5。圖6是100詞匯測(cè)試結(jié)果記錄圖,其中實(shí)線代表教育信息推薦系統(tǒng)推送,虛線代表按照一級(jí)目錄推送。
圖6 100詞匯測(cè)試結(jié)果
根據(jù)圖6,將圖中數(shù)據(jù)進(jìn)行推薦度計(jì)算(推薦結(jié)果累加總分/詞匯總數(shù)),結(jié)果比較如表7所示。從表中可以看出,利用詞匯頻度分析模型結(jié)合語(yǔ)義本體分析后的推薦度分?jǐn)?shù)達(dá)到了0.73,達(dá)到了良好的標(biāo)準(zhǔn),而根據(jù)一級(jí)目錄進(jìn)行推薦的推薦系統(tǒng)推薦度數(shù)僅僅達(dá)到了0.535,顯而易見(jiàn),教育信息推薦系統(tǒng)的推送結(jié)果的準(zhǔn)確性要遠(yuǎn)遠(yuǎn)高于按一級(jí)目錄推送結(jié)果的準(zhǔn)確性。
表7 推薦算法比較
文中利用語(yǔ)義本體對(duì)教育信息進(jìn)行本體構(gòu)建,利用貝葉斯及頻度統(tǒng)計(jì)概率的方式對(duì)構(gòu)建的教育信息本體進(jìn)行概率上的計(jì)算,得到每個(gè)本體的推送概率Ei,根據(jù)Ei值的大小進(jìn)行教育本體信息的推送工作。對(duì)推送的結(jié)果進(jìn)行滿意度判斷,并且進(jìn)行統(tǒng)計(jì)后,利用JS指數(shù)對(duì)該推送結(jié)果進(jìn)行分析。
為了使推送的內(nèi)容更加準(zhǔn)確,從算法的實(shí)用性和健壯性出發(fā),在教育信息研究領(lǐng)域當(dāng)中應(yīng)用改進(jìn)貝葉斯算法設(shè)計(jì)的詞匯頻度分析模型,其推送結(jié)果的準(zhǔn)確性和適應(yīng)性優(yōu)于基于目錄結(jié)構(gòu)推送算法,能夠更加精確地對(duì)所服務(wù)的人群進(jìn)行相應(yīng)數(shù)據(jù)的推送工作。