熊 晗
(重慶工商職業(yè)學(xué)院,重慶 400052)
高校評(píng)教系統(tǒng)如何準(zhǔn)確地刻畫(huà)與量化教師教書(shū)水平,學(xué)生評(píng)價(jià)是有效的信息反饋手段。然而,目前高校的學(xué)生評(píng)教未能真正達(dá)到智能化的程度。其中一個(gè)主要的困難在于,學(xué)生的評(píng)價(jià)有大量的無(wú)效、無(wú)用、甚至是干擾的評(píng)論。如何在海量的評(píng)教文本中準(zhǔn)確地實(shí)現(xiàn)垃圾信息識(shí)別,使評(píng)教系統(tǒng)智能化,是目前項(xiàng)目的工作重點(diǎn)。
近年來(lái),在高校研究工作中,評(píng)教內(nèi)容的使用與研究有很多突破與進(jìn)展。在文本垃圾識(shí)別領(lǐng)域,深度學(xué)習(xí)技術(shù)有著相當(dāng)不錯(cuò)的實(shí)現(xiàn)效果,特別是圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolution Network,GCN)的提出,將聚合節(jié)點(diǎn)的鄰居節(jié)點(diǎn)以及邊的信息來(lái)更新該節(jié)點(diǎn)的向量表征,捕捉到文本中更豐富和細(xì)致的特征,提升垃圾分類(lèi)的識(shí)別效果[1-2]。本文結(jié)合大量學(xué)生評(píng)教語(yǔ)料的分析與處理,使用Bert完成詞嵌入,將文本特征以嵌入向量的形式輸入到圖網(wǎng)絡(luò)模型中。實(shí)驗(yàn)證明,相較于未使用GCN模型的方法,Bert結(jié)合GCN模型有著更好的分類(lèi)性能[3]。
針對(duì)收集的學(xué)校的多年評(píng)教語(yǔ)句初步分析,進(jìn)行分類(lèi)識(shí)別垃圾評(píng)教語(yǔ)句的難點(diǎn)在于:
(1)評(píng)教語(yǔ)句往往比較簡(jiǎn)短,使用傳統(tǒng)的自然語(yǔ)言的處理框架如循環(huán)神經(jīng)網(wǎng)絡(luò)(Rerrent Neural Network,RNN)以及衍生框架很難獲取到語(yǔ)句有效特征;
(2)部分評(píng)教語(yǔ)句從語(yǔ)言、語(yǔ)法上無(wú)法區(qū)分是否為垃圾評(píng)教,比如學(xué)生評(píng)價(jià):“老師教得不錯(cuò)”,可能是中肯的,也可能是敷衍的復(fù)制,這種情況需要收集足夠多的特征來(lái)區(qū)分[4];
(3)文本數(shù)據(jù)量巨大,每年學(xué)生評(píng)教有大量的數(shù)據(jù)產(chǎn)生,人工標(biāo)注較為困難。
本項(xiàng)目將按以下兩個(gè)思路進(jìn)行文本圖結(jié)構(gòu)表示。
第一類(lèi),將每個(gè)文本作為頂點(diǎn),將頂點(diǎn)之間的實(shí)際拓?fù)潢P(guān)系作為邊條件與權(quán)值,例如文本作者與粉絲之間的關(guān)注關(guān)系,文本相互鏈接的關(guān)系等等。
第二類(lèi)是基于文本的實(shí)體與共指關(guān)系連接構(gòu)建。將文本中的實(shí)體作為節(jié)點(diǎn),并把實(shí)體之間的共指同現(xiàn),鄰近實(shí)體連接作為邊,從而使用圖結(jié)構(gòu)進(jìn)行表示。
通過(guò)研究調(diào)查,圖卷積神經(jīng)網(wǎng)絡(luò)與自然語(yǔ)言處理結(jié)合已經(jīng)有理論基礎(chǔ)認(rèn)證,并有部分實(shí)際工作[4-5]。本文重點(diǎn)將結(jié)合圖卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)特點(diǎn),使用目前前沿的Bert框架對(duì)文本詞嵌入做好預(yù)處理。融合學(xué)生屬性數(shù)據(jù)與評(píng)價(jià)文本的特征表示作為輸入,進(jìn)行下一步圖卷積訓(xùn)練,用學(xué)生-教師-評(píng)語(yǔ)二部圖的關(guān)系聚合各節(jié)點(diǎn)的特征信息,捕獲局部上下文的關(guān)系,從而獲取更細(xì)致的特征。最后使用分類(lèi)器對(duì)文本進(jìn)行分類(lèi),完成相關(guān)分類(lèi)工作。
要得到更好的識(shí)別效果,使用的學(xué)生信息就應(yīng)該盡可能地多,才能充分挖掘?qū)W生評(píng)教質(zhì)量的高低,從而識(shí)別出垃圾信息。本次實(shí)驗(yàn),收集的維度不僅僅局限于文本。針對(duì)學(xué)生的成績(jī)好壞、平時(shí)作業(yè)是否喜愛(ài)抄襲、所在班級(jí)、關(guān)系緊密的同學(xué)等等信息都作為特征收集,這些信息在一定程度上可以反映出一個(gè)學(xué)生的評(píng)價(jià)信息是否質(zhì)量較高,這樣從一定程度上豐富了特征信息,補(bǔ)充了僅僅靠學(xué)生評(píng)教語(yǔ)句來(lái)挖掘信息的不足。比如成績(jī)不太好、平時(shí)作業(yè)就有網(wǎng)上復(fù)制習(xí)慣的學(xué)生,很大可能其評(píng)教語(yǔ)句也是隨意復(fù)制的。
圖1 多維度評(píng)價(jià)特征向量
參考圖卷積在文本分類(lèi)上的基本原理,設(shè)定G=
接下來(lái),將學(xué)生的評(píng)教文本數(shù)據(jù)與評(píng)價(jià)老師的關(guān)系看做一個(gè)“學(xué)生、教師為頂點(diǎn),評(píng)語(yǔ)為邊”的二部圖,如圖2所示。
圖2 學(xué)生-教師-評(píng)教二部圖
按照?qǐng)D卷積網(wǎng)絡(luò)的提取過(guò)程,針對(duì)圖網(wǎng)絡(luò)的領(lǐng)域提取特征,同時(shí)將兩邊的特征容納到特征領(lǐng)域的提取過(guò)程中。對(duì)于邊特征的更新過(guò)程為:將邊E特征與二部圖兩側(cè)的頂點(diǎn)教師Vt與學(xué)生特征Vu進(jìn)行更新,更新按照兩個(gè)步驟進(jìn)行,即特征提取與特征融合,對(duì)應(yīng)公式如式(1)和式(2)所示。
如上所述,在基于GCN的節(jié)點(diǎn)分類(lèi)中齊次圖上的任務(wù),從最后一層嵌入節(jié)點(diǎn)用作分類(lèi)器的輸入。相反地,利用上次傳播的邊緣嵌入層以及該邊鏈接到的兩個(gè)節(jié)點(diǎn)的嵌入,將這三個(gè)嵌入連接起來(lái)進(jìn)行邊緣分類(lèi)。根據(jù)設(shè)置的二部圖設(shè)定,在同構(gòu)圖上基于GCN的節(jié)點(diǎn)分類(lèi)任務(wù)中,使用最后一層作為節(jié)點(diǎn)分類(lèi)器的輸入。利用來(lái)自最后的傳播層的邊緣嵌入以及改變的邊緣鏈接到的兩個(gè)節(jié)點(diǎn),使其鏈接起來(lái)作為邊緣分類(lèi),整體構(gòu)架分為Aggregation Sub-layer和Combination Sub-layer。其中Aggregation Sublayer使用TextCNN模型可得到:
最后使用式(5)將sotfmax層接入神經(jīng)網(wǎng)絡(luò)層,對(duì)評(píng)教語(yǔ)句進(jìn)行分類(lèi),最后選擇得到概率最大的類(lèi)別,判斷是垃圾評(píng)價(jià)還是正常評(píng)價(jià)。
總體流程如圖3所示。
圖3 Bert+GCN垃圾識(shí)別模型整體構(gòu)架
數(shù)據(jù)收集重慶工商職業(yè)學(xué)院2010—2015共5年的評(píng)教數(shù)據(jù),并且按照8∶2的比例分為訓(xùn)練集與測(cè)試集。針對(duì)原始數(shù)據(jù)進(jìn)行清理。
對(duì)于評(píng)教數(shù)據(jù)進(jìn)行如下處理:
(1)將評(píng)價(jià)過(guò)于簡(jiǎn)短如“很好”“不錯(cuò)”“可以”等詞語(yǔ)刪除,后續(xù)這部分詞語(yǔ)可以作為一部分低權(quán)重的特征加入對(duì)教師評(píng)價(jià)的判斷中,在本次實(shí)驗(yàn)中暫不考慮;
(2)刪除重復(fù)過(guò)多的評(píng)價(jià)短語(yǔ),這部分幾乎是無(wú)意義地復(fù)制粘貼而來(lái),對(duì)真實(shí)情況的反映意義不大;
(3)處理停用詞與標(biāo)點(diǎn)。
處理后,評(píng)教數(shù)據(jù)總量為18 986條。
對(duì)于學(xué)生的屬性數(shù)據(jù),本次選取的學(xué)生屬性數(shù)據(jù)共13個(gè)維度,樣例如表1所示,共收集數(shù)據(jù)11 289條。
表1 學(xué)生屬性數(shù)據(jù)特征樣例
根據(jù)模型詳細(xì)設(shè)計(jì)流程,為了測(cè)試圖卷積神經(jīng)網(wǎng)絡(luò)針對(duì)選取文本的分類(lèi)效果,本文選擇了幾種常見(jiàn)的自然語(yǔ)言處理的機(jī)器學(xué)習(xí)構(gòu)架來(lái)進(jìn)行比較。為了更加全面與科學(xué)地比較,本次實(shí)驗(yàn)選取機(jī)器學(xué)習(xí)的代表方法支持向量機(jī)(Support Vector Machine,SVM),它是常見(jiàn)的深度學(xué)習(xí)基本框架方法,也是目前主流的組合框架方法。數(shù)據(jù)處理階段,統(tǒng)一使用數(shù)據(jù)特征的處理過(guò)程(圖1過(guò)程),保證輸入結(jié)構(gòu)一致。后面處理過(guò)程采用如下幾種框架進(jìn)行比較。
(1)SVM+樸素貝葉斯。提取的是TF特征,統(tǒng)計(jì)出每個(gè)特征及其頻次。以特征的id作為下標(biāo),頻次作為數(shù)值,假設(shè)一共有n個(gè)特征,一篇文檔就轉(zhuǎn)化為n維的詞袋向量。樸素貝葉斯法是最簡(jiǎn)單常用的一種生成式模型。樸素貝葉斯法基于貝葉斯定理將聯(lián)合概率轉(zhuǎn)化為條件概率,然后利用特征條件獨(dú)立假設(shè)簡(jiǎn)化條件概率的計(jì)算。
(2)GBDT。GBDT是把所有樹(shù)的結(jié)論累加起來(lái)做最終結(jié)論的。GBDT的核心在于,每一棵樹(shù)學(xué)的是之前所有樹(shù)結(jié)論和的殘差(負(fù)梯度),這個(gè)殘差就是一個(gè)加預(yù)測(cè)值后能得到真實(shí)值的累加量,GBDT在各類(lèi)比賽中針對(duì)分類(lèi)類(lèi)型問(wèn)題均有非常好的分類(lèi)表現(xiàn)。
(3)TextCNN。TextCNN的最大優(yōu)勢(shì)是網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,在模型網(wǎng)絡(luò)結(jié)構(gòu)如此簡(jiǎn)單的情況下,通過(guò)引入已經(jīng)訓(xùn)練好的詞向量,依舊有很不錯(cuò)的效果,在多項(xiàng)數(shù)據(jù)數(shù)據(jù)集上超越benchmark。并且網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單導(dǎo)致參數(shù)數(shù)目少,計(jì)算量少,訓(xùn)練速度快。
實(shí)驗(yàn)結(jié)果如表2所示。
表2 評(píng)教垃圾評(píng)語(yǔ)識(shí)別各算法框架對(duì)比
通過(guò)實(shí)驗(yàn)可以看出,bert預(yù)處理的詞嵌入結(jié)合GCN的網(wǎng)絡(luò)模型,在本次實(shí)驗(yàn)的環(huán)境中,極大程度地獲取了評(píng)教文本以及學(xué)生屬性信息的相關(guān)特征信息,很好地表示在文本評(píng)價(jià)質(zhì)量的分類(lèi)工作中。
本文以目前近年來(lái)流行的圖卷積神經(jīng)網(wǎng)絡(luò)框架為研究對(duì)象,結(jié)合目前收集的學(xué)校評(píng)教數(shù)據(jù)的特征進(jìn)行模型設(shè)計(jì),解決評(píng)教語(yǔ)句中過(guò)多的垃圾評(píng)價(jià)很難單通過(guò)語(yǔ)句進(jìn)行判斷的弱點(diǎn)。融入學(xué)生屬性數(shù)據(jù)后,結(jié)合學(xué)生-評(píng)教-教師的二部圖關(guān)系,設(shè)計(jì)圖卷積神經(jīng)網(wǎng)絡(luò)模型,形成在特定場(chǎng)景下的一些具有圖網(wǎng)絡(luò)關(guān)系的評(píng)價(jià)語(yǔ)句進(jìn)行研究。最后通過(guò)實(shí)驗(yàn)證明,在專(zhuān)業(yè)詞匯較多、文本簡(jiǎn)短、評(píng)教文本之間有豐富連接關(guān)系且標(biāo)注數(shù)據(jù)量較少的語(yǔ)料場(chǎng)景下,使用圖卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練取得了更好的效果。