亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖卷積神經(jīng)網(wǎng)絡(luò)的高校評(píng)教文本垃圾識(shí)別模型

        2021-02-14 06:25:44
        電視技術(shù) 2021年12期
        關(guān)鍵詞:評(píng)教語(yǔ)句卷積

        熊 晗

        (重慶工商職業(yè)學(xué)院,重慶 400052)

        0 引 言

        高校評(píng)教系統(tǒng)如何準(zhǔn)確地刻畫(huà)與量化教師教書(shū)水平,學(xué)生評(píng)價(jià)是有效的信息反饋手段。然而,目前高校的學(xué)生評(píng)教未能真正達(dá)到智能化的程度。其中一個(gè)主要的困難在于,學(xué)生的評(píng)價(jià)有大量的無(wú)效、無(wú)用、甚至是干擾的評(píng)論。如何在海量的評(píng)教文本中準(zhǔn)確地實(shí)現(xiàn)垃圾信息識(shí)別,使評(píng)教系統(tǒng)智能化,是目前項(xiàng)目的工作重點(diǎn)。

        近年來(lái),在高校研究工作中,評(píng)教內(nèi)容的使用與研究有很多突破與進(jìn)展。在文本垃圾識(shí)別領(lǐng)域,深度學(xué)習(xí)技術(shù)有著相當(dāng)不錯(cuò)的實(shí)現(xiàn)效果,特別是圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolution Network,GCN)的提出,將聚合節(jié)點(diǎn)的鄰居節(jié)點(diǎn)以及邊的信息來(lái)更新該節(jié)點(diǎn)的向量表征,捕捉到文本中更豐富和細(xì)致的特征,提升垃圾分類(lèi)的識(shí)別效果[1-2]。本文結(jié)合大量學(xué)生評(píng)教語(yǔ)料的分析與處理,使用Bert完成詞嵌入,將文本特征以嵌入向量的形式輸入到圖網(wǎng)絡(luò)模型中。實(shí)驗(yàn)證明,相較于未使用GCN模型的方法,Bert結(jié)合GCN模型有著更好的分類(lèi)性能[3]。

        針對(duì)收集的學(xué)校的多年評(píng)教語(yǔ)句初步分析,進(jìn)行分類(lèi)識(shí)別垃圾評(píng)教語(yǔ)句的難點(diǎn)在于:

        (1)評(píng)教語(yǔ)句往往比較簡(jiǎn)短,使用傳統(tǒng)的自然語(yǔ)言的處理框架如循環(huán)神經(jīng)網(wǎng)絡(luò)(Rerrent Neural Network,RNN)以及衍生框架很難獲取到語(yǔ)句有效特征;

        (2)部分評(píng)教語(yǔ)句從語(yǔ)言、語(yǔ)法上無(wú)法區(qū)分是否為垃圾評(píng)教,比如學(xué)生評(píng)價(jià):“老師教得不錯(cuò)”,可能是中肯的,也可能是敷衍的復(fù)制,這種情況需要收集足夠多的特征來(lái)區(qū)分[4];

        (3)文本數(shù)據(jù)量巨大,每年學(xué)生評(píng)教有大量的數(shù)據(jù)產(chǎn)生,人工標(biāo)注較為困難。

        本項(xiàng)目將按以下兩個(gè)思路進(jìn)行文本圖結(jié)構(gòu)表示。

        第一類(lèi),將每個(gè)文本作為頂點(diǎn),將頂點(diǎn)之間的實(shí)際拓?fù)潢P(guān)系作為邊條件與權(quán)值,例如文本作者與粉絲之間的關(guān)注關(guān)系,文本相互鏈接的關(guān)系等等。

        第二類(lèi)是基于文本的實(shí)體與共指關(guān)系連接構(gòu)建。將文本中的實(shí)體作為節(jié)點(diǎn),并把實(shí)體之間的共指同現(xiàn),鄰近實(shí)體連接作為邊,從而使用圖結(jié)構(gòu)進(jìn)行表示。

        通過(guò)研究調(diào)查,圖卷積神經(jīng)網(wǎng)絡(luò)與自然語(yǔ)言處理結(jié)合已經(jīng)有理論基礎(chǔ)認(rèn)證,并有部分實(shí)際工作[4-5]。本文重點(diǎn)將結(jié)合圖卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)特點(diǎn),使用目前前沿的Bert框架對(duì)文本詞嵌入做好預(yù)處理。融合學(xué)生屬性數(shù)據(jù)與評(píng)價(jià)文本的特征表示作為輸入,進(jìn)行下一步圖卷積訓(xùn)練,用學(xué)生-教師-評(píng)語(yǔ)二部圖的關(guān)系聚合各節(jié)點(diǎn)的特征信息,捕獲局部上下文的關(guān)系,從而獲取更細(xì)致的特征。最后使用分類(lèi)器對(duì)文本進(jìn)行分類(lèi),完成相關(guān)分類(lèi)工作。

        1 模型詳細(xì)設(shè)計(jì)

        1.1 特征表示與文本詞嵌入

        要得到更好的識(shí)別效果,使用的學(xué)生信息就應(yīng)該盡可能地多,才能充分挖掘?qū)W生評(píng)教質(zhì)量的高低,從而識(shí)別出垃圾信息。本次實(shí)驗(yàn),收集的維度不僅僅局限于文本。針對(duì)學(xué)生的成績(jī)好壞、平時(shí)作業(yè)是否喜愛(ài)抄襲、所在班級(jí)、關(guān)系緊密的同學(xué)等等信息都作為特征收集,這些信息在一定程度上可以反映出一個(gè)學(xué)生的評(píng)價(jià)信息是否質(zhì)量較高,這樣從一定程度上豐富了特征信息,補(bǔ)充了僅僅靠學(xué)生評(píng)教語(yǔ)句來(lái)挖掘信息的不足。比如成績(jī)不太好、平時(shí)作業(yè)就有網(wǎng)上復(fù)制習(xí)慣的學(xué)生,很大可能其評(píng)教語(yǔ)句也是隨意復(fù)制的。

        圖1 多維度評(píng)價(jià)特征向量

        1.2 圖神經(jīng)網(wǎng)絡(luò)構(gòu)架

        參考圖卷積在文本分類(lèi)上的基本原理,設(shè)定G=,其中所有頂點(diǎn)可以表示為v∈V,特征節(jié)點(diǎn)Xv=hvo∈Rd0,其中do表示特征維度,隱層節(jié)點(diǎn)v在lth層學(xué)習(xí)到的狀態(tài)表示為表示隱層lth節(jié)點(diǎn)狀態(tài)。

        接下來(lái),將學(xué)生的評(píng)教文本數(shù)據(jù)與評(píng)價(jià)老師的關(guān)系看做一個(gè)“學(xué)生、教師為頂點(diǎn),評(píng)語(yǔ)為邊”的二部圖,如圖2所示。

        圖2 學(xué)生-教師-評(píng)教二部圖

        按照?qǐng)D卷積網(wǎng)絡(luò)的提取過(guò)程,針對(duì)圖網(wǎng)絡(luò)的領(lǐng)域提取特征,同時(shí)將兩邊的特征容納到特征領(lǐng)域的提取過(guò)程中。對(duì)于邊特征的更新過(guò)程為:將邊E特征與二部圖兩側(cè)的頂點(diǎn)教師Vt與學(xué)生特征Vu進(jìn)行更新,更新按照兩個(gè)步驟進(jìn)行,即特征提取與特征融合,對(duì)應(yīng)公式如式(1)和式(2)所示。

        如上所述,在基于GCN的節(jié)點(diǎn)分類(lèi)中齊次圖上的任務(wù),從最后一層嵌入節(jié)點(diǎn)用作分類(lèi)器的輸入。相反地,利用上次傳播的邊緣嵌入層以及該邊鏈接到的兩個(gè)節(jié)點(diǎn)的嵌入,將這三個(gè)嵌入連接起來(lái)進(jìn)行邊緣分類(lèi)。根據(jù)設(shè)置的二部圖設(shè)定,在同構(gòu)圖上基于GCN的節(jié)點(diǎn)分類(lèi)任務(wù)中,使用最后一層作為節(jié)點(diǎn)分類(lèi)器的輸入。利用來(lái)自最后的傳播層的邊緣嵌入以及改變的邊緣鏈接到的兩個(gè)節(jié)點(diǎn),使其鏈接起來(lái)作為邊緣分類(lèi),整體構(gòu)架分為Aggregation Sub-layer和Combination Sub-layer。其中Aggregation Sublayer使用TextCNN模型可得到:

        最后使用式(5)將sotfmax層接入神經(jīng)網(wǎng)絡(luò)層,對(duì)評(píng)教語(yǔ)句進(jìn)行分類(lèi),最后選擇得到概率最大的類(lèi)別,判斷是垃圾評(píng)價(jià)還是正常評(píng)價(jià)。

        1.3 總體網(wǎng)絡(luò)模型構(gòu)架

        總體流程如圖3所示。

        圖3 Bert+GCN垃圾識(shí)別模型整體構(gòu)架

        2 實(shí)驗(yàn)與結(jié)果

        2.1 實(shí)驗(yàn)數(shù)據(jù)與環(huán)境

        數(shù)據(jù)收集重慶工商職業(yè)學(xué)院2010—2015共5年的評(píng)教數(shù)據(jù),并且按照8∶2的比例分為訓(xùn)練集與測(cè)試集。針對(duì)原始數(shù)據(jù)進(jìn)行清理。

        對(duì)于評(píng)教數(shù)據(jù)進(jìn)行如下處理:

        (1)將評(píng)價(jià)過(guò)于簡(jiǎn)短如“很好”“不錯(cuò)”“可以”等詞語(yǔ)刪除,后續(xù)這部分詞語(yǔ)可以作為一部分低權(quán)重的特征加入對(duì)教師評(píng)價(jià)的判斷中,在本次實(shí)驗(yàn)中暫不考慮;

        (2)刪除重復(fù)過(guò)多的評(píng)價(jià)短語(yǔ),這部分幾乎是無(wú)意義地復(fù)制粘貼而來(lái),對(duì)真實(shí)情況的反映意義不大;

        (3)處理停用詞與標(biāo)點(diǎn)。

        處理后,評(píng)教數(shù)據(jù)總量為18 986條。

        對(duì)于學(xué)生的屬性數(shù)據(jù),本次選取的學(xué)生屬性數(shù)據(jù)共13個(gè)維度,樣例如表1所示,共收集數(shù)據(jù)11 289條。

        表1 學(xué)生屬性數(shù)據(jù)特征樣例

        2.2 實(shí)驗(yàn)結(jié)果分析

        根據(jù)模型詳細(xì)設(shè)計(jì)流程,為了測(cè)試圖卷積神經(jīng)網(wǎng)絡(luò)針對(duì)選取文本的分類(lèi)效果,本文選擇了幾種常見(jiàn)的自然語(yǔ)言處理的機(jī)器學(xué)習(xí)構(gòu)架來(lái)進(jìn)行比較。為了更加全面與科學(xué)地比較,本次實(shí)驗(yàn)選取機(jī)器學(xué)習(xí)的代表方法支持向量機(jī)(Support Vector Machine,SVM),它是常見(jiàn)的深度學(xué)習(xí)基本框架方法,也是目前主流的組合框架方法。數(shù)據(jù)處理階段,統(tǒng)一使用數(shù)據(jù)特征的處理過(guò)程(圖1過(guò)程),保證輸入結(jié)構(gòu)一致。后面處理過(guò)程采用如下幾種框架進(jìn)行比較。

        (1)SVM+樸素貝葉斯。提取的是TF特征,統(tǒng)計(jì)出每個(gè)特征及其頻次。以特征的id作為下標(biāo),頻次作為數(shù)值,假設(shè)一共有n個(gè)特征,一篇文檔就轉(zhuǎn)化為n維的詞袋向量。樸素貝葉斯法是最簡(jiǎn)單常用的一種生成式模型。樸素貝葉斯法基于貝葉斯定理將聯(lián)合概率轉(zhuǎn)化為條件概率,然后利用特征條件獨(dú)立假設(shè)簡(jiǎn)化條件概率的計(jì)算。

        (2)GBDT。GBDT是把所有樹(shù)的結(jié)論累加起來(lái)做最終結(jié)論的。GBDT的核心在于,每一棵樹(shù)學(xué)的是之前所有樹(shù)結(jié)論和的殘差(負(fù)梯度),這個(gè)殘差就是一個(gè)加預(yù)測(cè)值后能得到真實(shí)值的累加量,GBDT在各類(lèi)比賽中針對(duì)分類(lèi)類(lèi)型問(wèn)題均有非常好的分類(lèi)表現(xiàn)。

        (3)TextCNN。TextCNN的最大優(yōu)勢(shì)是網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,在模型網(wǎng)絡(luò)結(jié)構(gòu)如此簡(jiǎn)單的情況下,通過(guò)引入已經(jīng)訓(xùn)練好的詞向量,依舊有很不錯(cuò)的效果,在多項(xiàng)數(shù)據(jù)數(shù)據(jù)集上超越benchmark。并且網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單導(dǎo)致參數(shù)數(shù)目少,計(jì)算量少,訓(xùn)練速度快。

        實(shí)驗(yàn)結(jié)果如表2所示。

        表2 評(píng)教垃圾評(píng)語(yǔ)識(shí)別各算法框架對(duì)比

        通過(guò)實(shí)驗(yàn)可以看出,bert預(yù)處理的詞嵌入結(jié)合GCN的網(wǎng)絡(luò)模型,在本次實(shí)驗(yàn)的環(huán)境中,極大程度地獲取了評(píng)教文本以及學(xué)生屬性信息的相關(guān)特征信息,很好地表示在文本評(píng)價(jià)質(zhì)量的分類(lèi)工作中。

        3 結(jié) 語(yǔ)

        本文以目前近年來(lái)流行的圖卷積神經(jīng)網(wǎng)絡(luò)框架為研究對(duì)象,結(jié)合目前收集的學(xué)校評(píng)教數(shù)據(jù)的特征進(jìn)行模型設(shè)計(jì),解決評(píng)教語(yǔ)句中過(guò)多的垃圾評(píng)價(jià)很難單通過(guò)語(yǔ)句進(jìn)行判斷的弱點(diǎn)。融入學(xué)生屬性數(shù)據(jù)后,結(jié)合學(xué)生-評(píng)教-教師的二部圖關(guān)系,設(shè)計(jì)圖卷積神經(jīng)網(wǎng)絡(luò)模型,形成在特定場(chǎng)景下的一些具有圖網(wǎng)絡(luò)關(guān)系的評(píng)價(jià)語(yǔ)句進(jìn)行研究。最后通過(guò)實(shí)驗(yàn)證明,在專(zhuān)業(yè)詞匯較多、文本簡(jiǎn)短、評(píng)教文本之間有豐富連接關(guān)系且標(biāo)注數(shù)據(jù)量較少的語(yǔ)料場(chǎng)景下,使用圖卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練取得了更好的效果。

        猜你喜歡
        評(píng)教語(yǔ)句卷積
        地方高校教學(xué)評(píng)價(jià)指標(biāo)制訂與評(píng)教數(shù)據(jù)分析
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        重點(diǎn):語(yǔ)句銜接
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        精彩語(yǔ)句
        高校學(xué)生網(wǎng)上評(píng)教的探索與實(shí)踐
        高校學(xué)生評(píng)教的問(wèn)題與對(duì)策——以中國(guó)礦業(yè)大學(xué)為例
        評(píng)教,別忘記站在教師的立場(chǎng)上
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
        丰满少妇作爱视频免费观看| 亚洲第一区无码专区| 97碰碰碰人妻视频无码| 国产欧美日韩不卡一区二区三区 | 国产精品一区二区 尿失禁| 91久久综合精品国产丝袜长腿| 欧美久久中文字幕| 久久国产香蕉一区精品天美| 亚洲精品在线观看自拍| 日本在线观看一区二区视频| 久久精品亚洲成在人线av | 中文字幕人妻饥渴浪妇| 日韩 亚洲 制服 欧美 综合| 亚洲精品成人无限看| 欧美牲交videossexeso欧美| 亚洲图片日本视频免费| 香蕉人人超人人超碰超国产| 国产精品老熟女露脸视频| 精品国产福利久久久| 日本成人三级视频网站| 国产精品视频一区二区久久| 国产精品主播在线一区二区| 久久久亚洲精品无码| 色哟哟网站在线观看| 精品久久久久久蜜臂a∨| 亚洲第一区二区快射影院| 精品粉嫩国产一区二区三区| 国产av精品一区二区三区视频| 日韩av一区二区不卡在线| 国产一区二区三区亚洲avv| 久久亚洲av成人无码电影| 欧美69久成人做爰视频| 台湾佬娱乐中文22vvvv | 亚洲av福利无码无一区二区| 91白浆在线视频| 国产黄三级三级三级三级一区二区| 国产日产一区二区三区四区五区| 97日日碰人人模人人澡| 国内揄拍国内精品少妇国语| 91亚洲精品福利在线播放| 亚洲伊人免费综合网站|