亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于圖卷積神經(jīng)網(wǎng)絡(luò)的高校評(píng)教文本垃圾識(shí)別模型

2021-02-14 06:25:44熊晗

電視技術(shù) 2021年12期

熊晗

（重慶工商職業(yè)學(xué)院，重慶 400052）

0 引言

高校評(píng)教系統(tǒng)如何準(zhǔn)確地刻畫(huà)與量化教師教書(shū)水平，學(xué)生評(píng)價(jià)是有效的信息反饋手段。然而，目前高校的學(xué)生評(píng)教未能真正達(dá)到智能化的程度。其中一個(gè)主要的困難在于，學(xué)生的評(píng)價(jià)有大量的無(wú)效、無(wú)用、甚至是干擾的評(píng)論。如何在海量的評(píng)教文本中準(zhǔn)確地實(shí)現(xiàn)垃圾信息識(shí)別，使評(píng)教系統(tǒng)智能化，是目前項(xiàng)目的工作重點(diǎn)。

近年來(lái)，在高校研究工作中，評(píng)教內(nèi)容的使用與研究有很多突破與進(jìn)展。在文本垃圾識(shí)別領(lǐng)域，深度學(xué)習(xí)技術(shù)有著相當(dāng)不錯(cuò)的實(shí)現(xiàn)效果，特別是圖卷積神經(jīng)網(wǎng)絡(luò)（Graph Convolution Network，GCN）的提出，將聚合節(jié)點(diǎn)的鄰居節(jié)點(diǎn)以及邊的信息來(lái)更新該節(jié)點(diǎn)的向量表征，捕捉到文本中更豐富和細(xì)致的特征，提升垃圾分類(lèi)的識(shí)別效果[1-2]。本文結(jié)合大量學(xué)生評(píng)教語(yǔ)料的分析與處理，使用Bert完成詞嵌入，將文本特征以嵌入向量的形式輸入到圖網(wǎng)絡(luò)模型中。實(shí)驗(yàn)證明，相較于未使用GCN模型的方法，Bert結(jié)合GCN模型有著更好的分類(lèi)性能[3]。

針對(duì)收集的學(xué)校的多年評(píng)教語(yǔ)句初步分析，進(jìn)行分類(lèi)識(shí)別垃圾評(píng)教語(yǔ)句的難點(diǎn)在于：

（1）評(píng)教語(yǔ)句往往比較簡(jiǎn)短，使用傳統(tǒng)的自然語(yǔ)言的處理框架如循環(huán)神經(jīng)網(wǎng)絡(luò)（Rerrent Neural Network，RNN）以及衍生框架很難獲取到語(yǔ)句有效特征；

（2）部分評(píng)教語(yǔ)句從語(yǔ)言、語(yǔ)法上無(wú)法區(qū)分是否為垃圾評(píng)教，比如學(xué)生評(píng)價(jià)：“老師教得不錯(cuò)”，可能是中肯的，也可能是敷衍的復(fù)制，這種情況需要收集足夠多的特征來(lái)區(qū)分[4]；

（3）文本數(shù)據(jù)量巨大，每年學(xué)生評(píng)教有大量的數(shù)據(jù)產(chǎn)生，人工標(biāo)注較為困難。

本項(xiàng)目將按以下兩個(gè)思路進(jìn)行文本圖結(jié)構(gòu)表示。

第一類(lèi)，將每個(gè)文本作為頂點(diǎn)，將頂點(diǎn)之間的實(shí)際拓?fù)潢P(guān)系作為邊條件與權(quán)值，例如文本作者與粉絲之間的關(guān)注關(guān)系，文本相互鏈接的關(guān)系等等。

第二類(lèi)是基于文本的實(shí)體與共指關(guān)系連接構(gòu)建。將文本中的實(shí)體作為節(jié)點(diǎn)，并把實(shí)體之間的共指同現(xiàn)，鄰近實(shí)體連接作為邊，從而使用圖結(jié)構(gòu)進(jìn)行表示。

通過(guò)研究調(diào)查，圖卷積神經(jīng)網(wǎng)絡(luò)與自然語(yǔ)言處理結(jié)合已經(jīng)有理論基礎(chǔ)認(rèn)證，并有部分實(shí)際工作[4-5]。本文重點(diǎn)將結(jié)合圖卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)特點(diǎn)，使用目前前沿的Bert框架對(duì)文本詞嵌入做好預(yù)處理。融合學(xué)生屬性數(shù)據(jù)與評(píng)價(jià)文本的特征表示作為輸入，進(jìn)行下一步圖卷積訓(xùn)練，用學(xué)生-教師-評(píng)語(yǔ)二部圖的關(guān)系聚合各節(jié)點(diǎn)的特征信息，捕獲局部上下文的關(guān)系，從而獲取更細(xì)致的特征。最后使用分類(lèi)器對(duì)文本進(jìn)行分類(lèi)，完成相關(guān)分類(lèi)工作。

1 模型詳細(xì)設(shè)計(jì)

1.1 特征表示與文本詞嵌入

要得到更好的識(shí)別效果，使用的學(xué)生信息就應(yīng)該盡可能地多，才能充分挖掘?qū)W生評(píng)教質(zhì)量的高低，從而識(shí)別出垃圾信息。本次實(shí)驗(yàn)，收集的維度不僅僅局限于文本。針對(duì)學(xué)生的成績(jī)好壞、平時(shí)作業(yè)是否喜愛(ài)抄襲、所在班級(jí)、關(guān)系緊密的同學(xué)等等信息都作為特征收集，這些信息在一定程度上可以反映出一個(gè)學(xué)生的評(píng)價(jià)信息是否質(zhì)量較高，這樣從一定程度上豐富了特征信息，補(bǔ)充了僅僅靠學(xué)生評(píng)教語(yǔ)句來(lái)挖掘信息的不足。比如成績(jī)不太好、平時(shí)作業(yè)就有網(wǎng)上復(fù)制習(xí)慣的學(xué)生，很大可能其評(píng)教語(yǔ)句也是隨意復(fù)制的。

圖1 多維度評(píng)價(jià)特征向量

1.2 圖神經(jīng)網(wǎng)絡(luò)構(gòu)架

參考圖卷積在文本分類(lèi)上的基本原理，設(shè)定G=，其中所有頂點(diǎn)可以表示為v∈V，特征節(jié)點(diǎn)Xv=hvo∈Rd0，其中do表示特征維度，隱層節(jié)點(diǎn)v在lth層學(xué)習(xí)到的狀態(tài)表示為表示隱層lth節(jié)點(diǎn)狀態(tài)。

接下來(lái)，將學(xué)生的評(píng)教文本數(shù)據(jù)與評(píng)價(jià)老師的關(guān)系看做一個(gè)“學(xué)生、教師為頂點(diǎn)，評(píng)語(yǔ)為邊”的二部圖，如圖2所示。

圖2 學(xué)生-教師-評(píng)教二部圖

按照?qǐng)D卷積網(wǎng)絡(luò)的提取過(guò)程，針對(duì)圖網(wǎng)絡(luò)的領(lǐng)域提取特征，同時(shí)將兩邊的特征容納到特征領(lǐng)域的提取過(guò)程中。對(duì)于邊特征的更新過(guò)程為：將邊E特征與二部圖兩側(cè)的頂點(diǎn)教師Vt與學(xué)生特征Vu進(jìn)行更新，更新按照兩個(gè)步驟進(jìn)行，即特征提取與特征融合，對(duì)應(yīng)公式如式（1）和式（2）所示。

如上所述，在基于GCN的節(jié)點(diǎn)分類(lèi)中齊次圖上的任務(wù)，從最后一層嵌入節(jié)點(diǎn)用作分類(lèi)器的輸入。相反地，利用上次傳播的邊緣嵌入層以及該邊鏈接到的兩個(gè)節(jié)點(diǎn)的嵌入，將這三個(gè)嵌入連接起來(lái)進(jìn)行邊緣分類(lèi)。根據(jù)設(shè)置的二部圖設(shè)定，在同構(gòu)圖上基于GCN的節(jié)點(diǎn)分類(lèi)任務(wù)中，使用最后一層作為節(jié)點(diǎn)分類(lèi)器的輸入。利用來(lái)自最后的傳播層的邊緣嵌入以及改變的邊緣鏈接到的兩個(gè)節(jié)點(diǎn)，使其鏈接起來(lái)作為邊緣分類(lèi)，整體構(gòu)架分為Aggregation Sub-layer和Combination Sub-layer。其中Aggregation Sublayer使用TextCNN模型可得到：

最后使用式（5）將sotfmax層接入神經(jīng)網(wǎng)絡(luò)層，對(duì)評(píng)教語(yǔ)句進(jìn)行分類(lèi)，最后選擇得到概率最大的類(lèi)別，判斷是垃圾評(píng)價(jià)還是正常評(píng)價(jià)。

1.3 總體網(wǎng)絡(luò)模型構(gòu)架

總體流程如圖3所示。

圖3 Bert+GCN垃圾識(shí)別模型整體構(gòu)架

2 實(shí)驗(yàn)與結(jié)果

2.1 實(shí)驗(yàn)數(shù)據(jù)與環(huán)境

數(shù)據(jù)收集重慶工商職業(yè)學(xué)院2010—2015共5年的評(píng)教數(shù)據(jù)，并且按照8∶2的比例分為訓(xùn)練集與測(cè)試集。針對(duì)原始數(shù)據(jù)進(jìn)行清理。

對(duì)于評(píng)教數(shù)據(jù)進(jìn)行如下處理：

（1）將評(píng)價(jià)過(guò)于簡(jiǎn)短如“很好”“不錯(cuò)”“可以”等詞語(yǔ)刪除，后續(xù)這部分詞語(yǔ)可以作為一部分低權(quán)重的特征加入對(duì)教師評(píng)價(jià)的判斷中，在本次實(shí)驗(yàn)中暫不考慮；

（2）刪除重復(fù)過(guò)多的評(píng)價(jià)短語(yǔ)，這部分幾乎是無(wú)意義地復(fù)制粘貼而來(lái)，對(duì)真實(shí)情況的反映意義不大；

（3）處理停用詞與標(biāo)點(diǎn)。

處理后，評(píng)教數(shù)據(jù)總量為18 986條。

對(duì)于學(xué)生的屬性數(shù)據(jù)，本次選取的學(xué)生屬性數(shù)據(jù)共13個(gè)維度，樣例如表1所示，共收集數(shù)據(jù)11 289條。

表1 學(xué)生屬性數(shù)據(jù)特征樣例

2.2 實(shí)驗(yàn)結(jié)果分析

根據(jù)模型詳細(xì)設(shè)計(jì)流程，為了測(cè)試圖卷積神經(jīng)網(wǎng)絡(luò)針對(duì)選取文本的分類(lèi)效果，本文選擇了幾種常見(jiàn)的自然語(yǔ)言處理的機(jī)器學(xué)習(xí)構(gòu)架來(lái)進(jìn)行比較。為了更加全面與科學(xué)地比較，本次實(shí)驗(yàn)選取機(jī)器學(xué)習(xí)的代表方法支持向量機(jī)（Support Vector Machine，SVM），它是常見(jiàn)的深度學(xué)習(xí)基本框架方法，也是目前主流的組合框架方法。數(shù)據(jù)處理階段，統(tǒng)一使用數(shù)據(jù)特征的處理過(guò)程（圖1過(guò)程），保證輸入結(jié)構(gòu)一致。后面處理過(guò)程采用如下幾種框架進(jìn)行比較。

（1）SVM+樸素貝葉斯。提取的是TF特征，統(tǒng)計(jì)出每個(gè)特征及其頻次。以特征的id作為下標(biāo)，頻次作為數(shù)值，假設(shè)一共有n個(gè)特征，一篇文檔就轉(zhuǎn)化為n維的詞袋向量。樸素貝葉斯法是最簡(jiǎn)單常用的一種生成式模型。樸素貝葉斯法基于貝葉斯定理將聯(lián)合概率轉(zhuǎn)化為條件概率，然后利用特征條件獨(dú)立假設(shè)簡(jiǎn)化條件概率的計(jì)算。

（2）GBDT。GBDT是把所有樹(shù)的結(jié)論累加起來(lái)做最終結(jié)論的。GBDT的核心在于，每一棵樹(shù)學(xué)的是之前所有樹(shù)結(jié)論和的殘差（負(fù)梯度），這個(gè)殘差就是一個(gè)加預(yù)測(cè)值后能得到真實(shí)值的累加量，GBDT在各類(lèi)比賽中針對(duì)分類(lèi)類(lèi)型問(wèn)題均有非常好的分類(lèi)表現(xiàn)。

（3）TextCNN。TextCNN的最大優(yōu)勢(shì)是網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單，在模型網(wǎng)絡(luò)結(jié)構(gòu)如此簡(jiǎn)單的情況下，通過(guò)引入已經(jīng)訓(xùn)練好的詞向量，依舊有很不錯(cuò)的效果，在多項(xiàng)數(shù)據(jù)數(shù)據(jù)集上超越benchmark。并且網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單導(dǎo)致參數(shù)數(shù)目少，計(jì)算量少，訓(xùn)練速度快。

實(shí)驗(yàn)結(jié)果如表2所示。

表2 評(píng)教垃圾評(píng)語(yǔ)識(shí)別各算法框架對(duì)比

通過(guò)實(shí)驗(yàn)可以看出，bert預(yù)處理的詞嵌入結(jié)合GCN的網(wǎng)絡(luò)模型，在本次實(shí)驗(yàn)的環(huán)境中，極大程度地獲取了評(píng)教文本以及學(xué)生屬性信息的相關(guān)特征信息，很好地表示在文本評(píng)價(jià)質(zhì)量的分類(lèi)工作中。

3 結(jié) 語(yǔ)

本文以目前近年來(lái)流行的圖卷積神經(jīng)網(wǎng)絡(luò)框架為研究對(duì)象，結(jié)合目前收集的學(xué)校評(píng)教數(shù)據(jù)的特征進(jìn)行模型設(shè)計(jì)，解決評(píng)教語(yǔ)句中過(guò)多的垃圾評(píng)價(jià)很難單通過(guò)語(yǔ)句進(jìn)行判斷的弱點(diǎn)。融入學(xué)生屬性數(shù)據(jù)后，結(jié)合學(xué)生-評(píng)教-教師的二部圖關(guān)系，設(shè)計(jì)圖卷積神經(jīng)網(wǎng)絡(luò)模型，形成在特定場(chǎng)景下的一些具有圖網(wǎng)絡(luò)關(guān)系的評(píng)價(jià)語(yǔ)句進(jìn)行研究。最后通過(guò)實(shí)驗(yàn)證明，在專(zhuān)業(yè)詞匯較多、文本簡(jiǎn)短、評(píng)教文本之間有豐富連接關(guān)系且標(biāo)注數(shù)據(jù)量較少的語(yǔ)料場(chǎng)景下，使用圖卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練取得了更好的效果。