□ 譚金波
基于規(guī)則的網(wǎng)絡(luò)教育資源分類技術(shù)研究
□ 譚金波
本文結(jié)合網(wǎng)絡(luò)教育資源的特征,提出了一個面向網(wǎng)絡(luò)教育資源的基于規(guī)則的Web分類方法。該方法首先構(gòu)造了規(guī)則集,并建立支持規(guī)則的主題詞庫,然后對含有學(xué)科概念詞的網(wǎng)頁錨文本進(jìn)行分類。實驗表明該分類器性能良好,產(chǎn)生的規(guī)則易于被人理解,而且容易更新和調(diào)整。
規(guī)則分類;文本分類;網(wǎng)絡(luò)教育資源
教育資源庫建設(shè)是教育信息化的基礎(chǔ),面對網(wǎng)上的海量信息,人工選擇下載并加以分類整理的做法不但耗費(fèi)大量的人力、物力,而且還存在分類結(jié)果和實際結(jié)果一致性不高的問題。文本自動分類技術(shù)為解決這個問題提供了一個新的思路。國內(nèi)外在文本自動分類方面的研究主要是基于統(tǒng)計方法并取得了可喜成果,其主要算法有支持向量機(jī)(SVM)、Rocchio算法、K近鄰法(KNN)等[1]。這些分類方法需要根據(jù)訓(xùn)練語料得到各類別的模板,進(jìn)而根據(jù)模板進(jìn)行分類[2]。其優(yōu)點(diǎn)是訓(xùn)練簡單方便,一般情況下分類精度高。其缺點(diǎn)主要有兩點(diǎn):一是對訓(xùn)練語料的數(shù)量與質(zhì)量具有較嚴(yán)要求,如果語料不全面,代表性不強(qiáng),則會直接影響自動分類的精度;二是當(dāng)類別之間交叉現(xiàn)象比較嚴(yán)重時,分類器的精度會降低很多,尤其是在層次分類中,有些子類之間的特征交叉更為嚴(yán)重,比如小學(xué)語文、初中語文、高中語文這些子類之間的特征交叉比較嚴(yán)重,研究表明,采用統(tǒng)計分類的精度較低[3]。調(diào)研發(fā)現(xiàn),網(wǎng)絡(luò)教育資源的很多錨文本中含有學(xué)科概念詞,從這些概念詞可以直接判斷它所鏈接網(wǎng)頁的類別。鑒于此,本文主要研究如下兩個問題:可不可以利用規(guī)則的方法直接對錨文本進(jìn)行分類,從而判斷鏈接網(wǎng)頁的類別?如果可行,分類效果如何?在下文中,首先根據(jù)學(xué)科資源的特點(diǎn),人工構(gòu)造規(guī)則,并建立支持規(guī)則的主題詞庫;然后對錨文本含有的信息進(jìn)行分類實驗,并與基于統(tǒng)計的分類方法進(jìn)行比較。
在數(shù)據(jù)挖掘中,概念層次由于能夠以層次的形式和偏序的關(guān)系組織數(shù)據(jù)和概念,以易于理解的高層概念表示數(shù)據(jù)庫中數(shù)據(jù)的關(guān)系,因而在數(shù)據(jù)處理中往往起著舉足輕重的作用[4]。本系統(tǒng)是對網(wǎng)絡(luò)教育學(xué)科資源進(jìn)行分類的,其背景知識可定義成圖1所示的概念層次。本文將教育學(xué)科資源歸納為三種屬性,即學(xué)科屬性、學(xué)段屬性和資源類型屬性,如“《數(shù)列》教案.html”網(wǎng)頁屬于高中數(shù)學(xué)(學(xué)科) 教案(類型)。為方便起見,采用了集合的表示方法,偏序關(guān)系為?。
圖1 學(xué)科資源的概念層次
圖1中的概念層次由并列關(guān)系和包含關(guān)系構(gòu)成,學(xué)科、學(xué)段、類型等資源屬性之間屬于并列關(guān)系,這些資源屬性內(nèi)部是包含關(guān)系,如高中數(shù)學(xué)的子概念構(gòu)成高中數(shù)學(xué)的概念集合,小學(xué)數(shù)學(xué)、初中數(shù)學(xué)、高中數(shù)學(xué)中的共同概念構(gòu)成數(shù)學(xué)的概念集合,從而便于網(wǎng)頁根據(jù)錨文本進(jìn)行分類。
本文構(gòu)建的學(xué)科主題詞庫主要來源于各學(xué)科的章節(jié)目錄名稱(對于文科指課文名稱),因為目錄名稱含有各學(xué)科的主要特征詞,能夠表征學(xué)科的知識點(diǎn),這些特征詞常在基礎(chǔ)教育網(wǎng)頁的錨文本中出現(xiàn)。另外,錨文本中也會經(jīng)常含有表征學(xué)段特征和資源類型特征的詞條(如初二物理試題),所以,主題詞庫也包含這些關(guān)鍵詞,從而增強(qiáng)分類的正確性。
考慮到主題詞的長度、所屬類別的數(shù)量等對分類的貢獻(xiàn)度不同,因而需要給不同類型的主題詞賦予相應(yīng)的權(quán)重。對主題詞加權(quán)的操作過程是:首先,從網(wǎng)上查找并下載學(xué)科目錄;然后,學(xué)科專家對目錄進(jìn)行分詞,切分出有用詞條,根據(jù)詞條的重要程度進(jìn)行加權(quán)。
針對主題詞與類號可能出現(xiàn)的不同情況,根據(jù)下列原則指定詞與類號之間聯(lián)系的權(quán)值賦予規(guī)則:
(1)一個詞就可以準(zhǔn)確定類者,賦予最高的權(quán)值,如類別名稱詞;
(2)一個詞只與一個類號有聯(lián)系或者沒有其它詞出現(xiàn)也能準(zhǔn)確定類者,分配次高的權(quán)值,如學(xué)科目錄;
(3)當(dāng)其它詞出現(xiàn),可能改變或確認(rèn)該詞所定類別時,給予該詞中等的權(quán)值,如從學(xué)科目錄分詞后得到的主題詞;
(4)給予跨類詞較低的權(quán)值,而對于同一大類下的多個子類有相同的詞,則將該詞從子類中取出加到大類中,并給以相應(yīng)的權(quán)重,具體策略如下:
(5)給予單字詞最低的權(quán)值。
本文將主題詞的權(quán)值根據(jù)以上規(guī)則分為5等,即5、4、3、2、1。比如,“高中數(shù)學(xué)”是類別名稱,如果在錨文本中出現(xiàn)這幾個詞,則該網(wǎng)頁可以確定為高中數(shù)學(xué)類,所以賦予最高權(quán)值5;“直線的傾斜角與斜率”是高中數(shù)學(xué)的某章目錄,只與高中數(shù)學(xué)類有聯(lián)系,如果錨文本只出現(xiàn)該詞,則可確定為高中數(shù)學(xué)類,所以分配次高權(quán)值4;另外,可以將“直線的傾斜角與斜率”切分為直線、傾斜角、斜率,“傾斜角”和“斜率”雖為高中數(shù)學(xué)類獨(dú)有的單詞,但如果出現(xiàn)其它詞也可能改變其所屬類別,所以分配給它們中等權(quán)值3;“直線”是高中數(shù)學(xué)類和高中物理類中共有的單詞,屬于跨類的詞,它的重要性較其它幾個要差,因而賦予權(quán)重為2;“函數(shù)”是高中數(shù)學(xué)和初中數(shù)學(xué)共有的詞,并且其它學(xué)科沒有該單詞,因而將它作為數(shù)學(xué)類的主題詞,權(quán)重為4;“家”雖然是高中語文的課文目錄,但從獨(dú)立的角度看,這個單字無法表征高中語文,因而給它賦予最低權(quán)重1。
教育學(xué)科資源具有三種屬性,即學(xué)科屬性、資源類型屬性、學(xué)段屬性,根據(jù)學(xué)科專家對這些屬性的認(rèn)識編寫一定量的主題詞模式規(guī)則,編寫規(guī)則的原則是規(guī)則既不能過分細(xì)化,缺乏可推廣性,又不能過分泛化,精確度不夠。也就是說,要求規(guī)則集最大地覆蓋正面實例,避免反面實例,從而形成一個全局優(yōu)化的規(guī)則集。
定義1 設(shè)I={i1,i2,…,im}是一組物品集,D是一組事務(wù)集(稱之為事務(wù)數(shù)據(jù)庫)。D中的每個事務(wù)T是一組物品,顯然滿足T?I。如果X?T,稱事務(wù)T支持物品集X。關(guān)聯(lián)規(guī)則是如下形式的一種蘊(yùn)含:X→Y,其中X?I,Y?I,且X∩Y=φ。[5]
根據(jù)這個定義,假設(shè)每類主題詞的類標(biāo)簽為C,詞條為T(T={t1,t2,…,tm}),那么可以用事務(wù)D:{C,t1,t2,…,tm}來表示該類詞的模型,則主題詞庫可表示成事務(wù)集,其項集由主題詞條和詞條所屬類別組成。所有的關(guān)聯(lián)規(guī)則均從表示主題詞集的事務(wù)集中產(chǎn)生。
對于建立一個分類器來說,本文感興趣的是形如:T?C(T為詞條項集,C為類標(biāo)簽)的事務(wù)。由此,本文定義如下的規(guī)則:
學(xué)科資源具有的屬性描述為:父學(xué)科(即大類)屬性(tp,weight,p_subject),學(xué)科(即小類)屬性(ts,weight,subject),學(xué)段屬性(tg,weight,grade),資源類型屬性(tt,weight,s_type)。第一個參數(shù)表示詞條,第二個參數(shù)表示詞條的權(quán)值,第三個參數(shù)表示所屬類別。
根據(jù)這些屬性,可以定義四種規(guī)則,即父學(xué)科規(guī)則、學(xué)科規(guī)則、學(xué)段規(guī)則、資源類型規(guī)則。
(1) 父學(xué)科規(guī)則 Rulep:IF Weight(tp1+…+tpi)≥α THEN tp1∧…∧tpi?Cp
即單個錨文本中出現(xiàn)父學(xué)科某類的主題詞權(quán)值之和不小于α,則可判斷其鏈接網(wǎng)頁為該類。
(2) 學(xué)科規(guī)則 Rules1:IF Weight(ts1+…+tsi)≥α THEN ts1∧…∧tsi?Cs
即單個錨文本中出現(xiàn)學(xué)科某類的主題詞權(quán)值之和不小于α,則可判斷其鏈接網(wǎng)頁為該類。
Rules2:IF Weight(tpi+tsi+…+tgi)≥α THEN tsi∧tpi∧…∧tgi?Cs
即單個錨文本中出現(xiàn)父學(xué)科(或?qū)W科)中的主題詞權(quán)值和學(xué)段中主題詞權(quán)值組合后的權(quán)值之和不小于α,則可判斷其鏈接網(wǎng)頁為學(xué)科中該類。
(3) 學(xué)段規(guī)則 Ruleg:IF Weight(tg)≥α THEN tg?Cg
即從學(xué)段的主題詞可以直接判斷學(xué)段。
(4) 資源類型規(guī)則 Rulet:IF Weight(tt)≥α THEN tt?Ct
即從資源類型的主題詞可以直接判斷資源類型。
在基于規(guī)則的Web文檔分類中,本文主要研究對超鏈接的錨文本(anchor)中的信息進(jìn)行分類,下面給出這些信息的關(guān)系屬性:
link_to( hyperlink, source_page, target_page):此關(guān)系式表明網(wǎng)頁的超鏈接結(jié)構(gòu),第一個參數(shù)是超鏈接的標(biāo)識,第二個參數(shù)表示hyperlink所屬的網(wǎng)頁,第三個參數(shù)表示hyperlink指向的網(wǎng)頁。has_anchor_word(hyperlink):指超鏈接中錨文本的詞。
對新的Web文檔進(jìn)行分類處理的過程如下:首先提取錨文本,進(jìn)行分詞,去除副詞、連詞、某些代詞等對分類意義不大的停用詞;然后搜索基于主題詞庫的規(guī)則集,對清理后的詞條產(chǎn)生一個規(guī)則列表,將規(guī)則列表按類標(biāo)簽分組,設(shè)定一個期望閾值,將低于該閾值的匹配規(guī)則從分組中刪除,接著將分組按詞的權(quán)值之和排序,優(yōu)先選擇最大值分組的標(biāo)簽作為該文檔的類標(biāo)簽。
算法1 將新的網(wǎng)頁文檔分類。
輸入:一篇新的待分網(wǎng)頁錨文本Anchor={t1,t2,…,tn};規(guī)則分類器;期望閾值τ輸出:待分網(wǎng)頁文檔的類標(biāo)簽方法:
(1) S←φ
(2) for each rule r in Rule base //根據(jù)規(guī)則前件和Anchor中的詞條產(chǎn)生規(guī)則列表
(3) if (r Anchor>τ)
(4) S←S∪r
(5) 根據(jù)類標(biāo)簽將入選規(guī)則集分為若干個子集:S1,S2,…,Sn
(6) order subset S1,S2, …,Sn according to weight sum
(7) Assign the class to the new document
本文對14個學(xué)科建立了主題詞庫,即小學(xué)語文、初中語文、高中語文、小學(xué)數(shù)學(xué)、初中數(shù)學(xué)、高中數(shù)學(xué)、初中物理、高中物理、初中化學(xué)、高中化學(xué)、初中地理、高中地理、初中生物、高中生物。測試過程是:對網(wǎng)頁的錨文本進(jìn)行分詞,去除停用詞,根據(jù)上述的規(guī)則,計算保留的詞相應(yīng)類別的權(quán)值,將權(quán)值大于或等于4的文檔進(jìn)行歸類,權(quán)值小于4的文檔丟棄。
在實驗基于統(tǒng)計的分類時,對上述14類中的學(xué)科每類選擇300篇訓(xùn)練文檔,訓(xùn)練后每類取3000維特征項。兩種方法采用同一開放測試集,每類50篇,共700篇Web文檔。
分類的評價方法采用精確率(Pri)、召回率(Rei)及微平均 Prμ/Reμ。
表1給出了基于規(guī)則的分類結(jié)果,即每類的精確率和召回率,以及所有類的微平均精確率和召回率,并與基于統(tǒng)計的分類結(jié)果進(jìn)行了比較,如表2所示。
從表1和2中可以看出,基于規(guī)則的分類精確率很高,微平均值為0.92,除了小學(xué)數(shù)學(xué)、高中語文、高中數(shù)學(xué)外,其它類的精確率都達(dá)到了0.9以上;但基于規(guī)則的分類召回率很低,微平均值為0.59,其中,小學(xué)語文、小學(xué)數(shù)學(xué)、初中地理、高中地理的召回率低于0.50?;诮y(tǒng)計的分類與基于規(guī)則的分類相比,微平均精確率(0.73)降低了19%,但微平均召回率(0.69)提高了10%。
表1 基于規(guī)則的分類結(jié)果
表2 基于統(tǒng)計的分類結(jié)果
從兩個分類實驗的結(jié)果可以看出,兩種分類方法各有利弊,規(guī)則分類只對錨文本分析,效率較高;統(tǒng)計分類對全文進(jìn)行分析,效率較低。規(guī)則分類的精確率高,但是由于它丟棄了很多文本,因而召回率較低。
本文結(jié)合網(wǎng)絡(luò)教育資源的特點(diǎn),提出了一種針對網(wǎng)絡(luò)教育資源的基于規(guī)則的分類方法,設(shè)計并實現(xiàn)了基于規(guī)則的Web文檔層次分類系統(tǒng),實驗結(jié)果表明,性能良好?;谝?guī)則的分類效果取決于規(guī)則制定的好壞,所以要由領(lǐng)域?qū)<也粩嘈薷?、完善。?dāng)網(wǎng)頁的標(biāo)記信息無法準(zhǔn)確表達(dá)主題概念時,這種方法將不再適用。下一步筆者打算將基于規(guī)則的方法與基于統(tǒng)計的方法相結(jié)合,以提高分類的整體效果。
[1]Ji He,Ah-Hwee Tan,Chew-Lim Tan.A Comparative Study on Chinese Text Categorization Methods[J].J.PRICAI Workshop on Text and Web Mining.2000:24-35.
[2]李渝勤,孫麗華.基于規(guī)則的自動分類在文本分類中的應(yīng)用[J].中文信息學(xué)報,2004,18(4):9-14.
[3]譚金波.面向網(wǎng)絡(luò)教育資源的文本自動分類系統(tǒng)的設(shè)計與實現(xiàn)[J].中國遠(yuǎn)程教育,2009,(4):68-70.
[4]楊學(xué)兵,蔡慶生.一種基于概念層次的分類規(guī)則挖掘算法研究[J].華中科技大學(xué)學(xué)報,2001,(9):18-20.
[5]馬光志,張生庭.基于關(guān)聯(lián)規(guī)則的Web文檔分類[J].計算機(jī)工程與設(shè)計,2005,(9):2515-2518.
2009-11-30
譚金波,講師,博士,山東師范大學(xué)教育技術(shù)系(250014)。
責(zé)任編輯 鄭 重
G40-057
B
1009—458x(2010)03—0067—04