亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)的教材德目分類(lèi)方法

2021-09-15 02:36:22郭書(shū)武陳軍華

計(jì)算機(jī)與現(xiàn)代化 2021年9期

郭書(shū)武,陳軍華

(上海師范大學(xué)信息與機(jī)電工程學(xué)院,上海 201418)

0 引言

所謂德目教育,就是將德目作為主要內(nèi)容進(jìn)行的道德教育。一個(gè)健康、穩(wěn)定的社會(huì)必然要求有一套被時(shí)代所公認(rèn)的核心價(jià)值體系，并被公民所內(nèi)化[1]。隨著時(shí)代的發(fā)展，我國(guó)德目指標(biāo)也在不斷的發(fā)展，比如“仁、義、禮、智、信”就是傳統(tǒng)意義上的德目指標(biāo)，而“愛(ài)國(guó)守法、明禮誠(chéng)信、團(tuán)結(jié)友愛(ài)、勤儉自強(qiáng)、敬業(yè)奉獻(xiàn)”就是現(xiàn)代意義的德目指標(biāo)。對(duì)學(xué)生的德目教育是學(xué)校的重要職責(zé)，而教材是進(jìn)行德目教育的重要途徑和載體，所以教材德目指標(biāo)也就成為學(xué)校選取教材的重要標(biāo)準(zhǔn)之一，從而達(dá)到傳遞社會(huì)的核心價(jià)值體系的教學(xué)目標(biāo)。

本文的研究源于教育部哲學(xué)社會(huì)科學(xué)重大課題攻關(guān)項(xiàng)目(立項(xiàng)號(hào):13JZD046)——大中小德育課程一體化建設(shè)研究，實(shí)驗(yàn)數(shù)據(jù)集來(lái)源于上海市中小學(xué)教材。

教材為教育教學(xué)提供基本遵循，教材的內(nèi)容選取對(duì)學(xué)生的價(jià)值觀養(yǎng)成起到了關(guān)鍵作用，同時(shí)，中小學(xué)教材存在內(nèi)容簡(jiǎn)單重復(fù)的結(jié)構(gòu)性問(wèn)題。所以，為了能夠更好地對(duì)教材內(nèi)容進(jìn)行德目評(píng)定，項(xiàng)目組專(zhuān)家根據(jù)當(dāng)今我國(guó)社會(huì)主義核心價(jià)值體系的要求，制定了相應(yīng)的德目指標(biāo)，其中包含4個(gè)一級(jí)德目指標(biāo)，分別是：政治認(rèn)同(A)、國(guó)家意識(shí)(B)、文化自信(C)、公民人格(D)。為了更加細(xì)致嚴(yán)謹(jǐn)?shù)脑u(píng)價(jià)教材的德目指標(biāo)，又將每個(gè)一級(jí)德目指標(biāo)細(xì)分為4種二級(jí)德目指標(biāo)，分別是：黨的領(lǐng)導(dǎo)(A1)、科學(xué)理論(A2)、政治制度(A3)、發(fā)展道路(A4)、國(guó)家利益(B1)、國(guó)情觀念(B2)、民族團(tuán)結(jié)(B3)、國(guó)際視野(B4)、國(guó)家語(yǔ)言(C1)、歷史文化(C2)、革命傳統(tǒng)(C3)、時(shí)代精神(C4)、健康身心(D1)、守法平等(D2)、誠(chéng)信盡責(zé)(D3)和自強(qiáng)合作(D4)。本文針對(duì)二級(jí)德目指標(biāo)的自動(dòng)分類(lèi)進(jìn)行研究。

1 相關(guān)工作

文本分類(lèi)是自然語(yǔ)言處理領(lǐng)域中重要的應(yīng)用，諸多的傳統(tǒng)機(jī)器學(xué)習(xí)方法已經(jīng)應(yīng)用到了各種文本分類(lèi)任務(wù)中。文獻(xiàn)[2]通過(guò)結(jié)合改良后的K-modes算法，改良了KNN算法，提高了KNN算法在面對(duì)大樣本數(shù)據(jù)集時(shí)的執(zhí)行效率。文獻(xiàn)[3]提出了一種基于模擬退火(SA)優(yōu)化SVM的文本分類(lèi)方法，有效地解決了優(yōu)化SVM參數(shù)難題。LDA[4]經(jīng)常被用來(lái)做文檔主題聚類(lèi)的分析，所以文獻(xiàn)[5]將LDA和卡方統(tǒng)計(jì)相結(jié)合，然后利用SVM進(jìn)行文本分類(lèi)，實(shí)驗(yàn)結(jié)果表明，把卡方統(tǒng)計(jì)和主題模型相結(jié)合的方法可以有效提升模型的泛化能力。Spark可以基于map reduce算法進(jìn)行分布式計(jì)算，文獻(xiàn)[6]將Spark框架和KNN相結(jié)合，實(shí)現(xiàn)了對(duì)大數(shù)據(jù)量數(shù)據(jù)集的文本分類(lèi)。盡管傳統(tǒng)方法在一些文本分類(lèi)任務(wù)中已經(jīng)取得了非常不錯(cuò)的效果，但是其單純通過(guò)詞頻來(lái)衡量詞的重要性不夠全面，無(wú)法利用詞的位置信息，且不能夠表示這些詞語(yǔ)之間的聯(lián)系。

如何有效地利用詞之間的聯(lián)系及其位置信息，成為了文本分類(lèi)任務(wù)中需要解決的問(wèn)題。長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[7]是一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò)，可以處理時(shí)間序列中間隔很長(zhǎng)的事件，文獻(xiàn)[8]結(jié)合協(xié)同訓(xùn)練的方法對(duì)LSTM進(jìn)行擴(kuò)展，并實(shí)現(xiàn)了對(duì)中文命名實(shí)體的識(shí)別。文獻(xiàn)[9]結(jié)合CNN和LSTM，并對(duì)其進(jìn)行了改進(jìn)和優(yōu)化，在聯(lián)合預(yù)測(cè)模型上添加修正模型，完成了電網(wǎng)電量缺失數(shù)據(jù)的預(yù)測(cè)任務(wù)。文獻(xiàn)[10]結(jié)合了CNN和GRU[11]，并采用條件隨機(jī)場(chǎng)模型作為分類(lèi)器，實(shí)驗(yàn)結(jié)果表明能夠?qū)崿F(xiàn)較高準(zhǔn)確率的情感類(lèi)別的分類(lèi)。Kim[12]提出了TextCNN，將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到了文本分類(lèi)當(dāng)中，TextCNN具有多個(gè)不同大小的卷積核，可以更好地捕捉到句子中的關(guān)鍵信息，其通過(guò)融合各個(gè)卷積層的輸出，然后輸入到Softmax層得到分類(lèi)結(jié)果。

使用傳統(tǒng)的文本分類(lèi)算法對(duì)教材文本進(jìn)行深度學(xué)習(xí)時(shí)，存在特征矩陣稀疏、特征維數(shù)高的問(wèn)題，并且不能有效地利用詞之間的聯(lián)系及位置信息，且上海市中小學(xué)教材數(shù)據(jù)集存在樣本分布不均衡的問(wèn)題，各指標(biāo)下的教材文本條數(shù)差異較大，模型在數(shù)據(jù)量較少的類(lèi)別上不能有效地獲取特征信息。針對(duì)上述問(wèn)題，本文提出一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)TextCNN和注意力機(jī)制的文本分類(lèi)模型，將其稱(chēng)為IoMET_A(Indicators of Moral Education Target based Attention),并提出一種新的數(shù)據(jù)增強(qiáng)技術(shù)來(lái)得到一個(gè)均衡的數(shù)據(jù)集。

2 IoMET_A建模

2.1 數(shù)據(jù)增強(qiáng)

深度學(xué)習(xí)中數(shù)據(jù)集的質(zhì)量對(duì)模型的性能有很大的影響，一個(gè)極端不均衡的數(shù)據(jù)集會(huì)對(duì)模型的訓(xùn)練造成困擾，有可能導(dǎo)致過(guò)擬合的發(fā)生。如圖1所示，上海市中小學(xué)教材文本數(shù)據(jù)存在數(shù)據(jù)不均衡的問(wèn)題，各類(lèi)別的數(shù)量差異較大。所以，本文需要采用數(shù)據(jù)增強(qiáng)的技術(shù)來(lái)得到一個(gè)較為均衡的數(shù)據(jù)集。

圖1 數(shù)據(jù)增強(qiáng)前各類(lèi)別分布情況

數(shù)據(jù)增強(qiáng)是擴(kuò)充數(shù)據(jù)樣本規(guī)模的一種有效方法，常用的方法有過(guò)采樣、欠采樣、回譯、打亂句內(nèi)詞語(yǔ)順序以及句子順序等。其中，過(guò)采樣是在數(shù)據(jù)不足的類(lèi)別上，通過(guò)重復(fù)、自主抽樣或合成少數(shù)類(lèi)過(guò)采樣技術(shù)SMOTE來(lái)平衡數(shù)據(jù)集，SMOTE是通過(guò)構(gòu)建相鄰實(shí)例的凸組合來(lái)創(chuàng)建少數(shù)類(lèi)別的新實(shí)例，沒(méi)有使用重復(fù)樣例，不會(huì)過(guò)多地過(guò)擬合。同時(shí)，Wei等人[13]提出了一種簡(jiǎn)單通用的NLP數(shù)據(jù)增強(qiáng)技術(shù)EDA，其包含4種簡(jiǎn)單的操作來(lái)進(jìn)行數(shù)據(jù)增強(qiáng)，其中包括同義詞替換(Synonyms Repalce, SR)、隨機(jī)插入(Rand-omly Insert, RI)、隨機(jī)交換(Randomly Swap, RS)和隨機(jī)刪除(Randomly Delete, RD)，EDA使用NLTK做英文的同義詞查詢(xún)，對(duì)數(shù)據(jù)集中的實(shí)例生成相同數(shù)量的新文本，在規(guī)模較小的數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí)，EDA取得了十分突出的表現(xiàn)，顯著提高了模型的性能。

因此，針對(duì)上海市中小學(xué)教材文本數(shù)據(jù)集不均衡的問(wèn)題，本文結(jié)合SMOTE和EDA的思想提出一種新的數(shù)據(jù)增強(qiáng)方法，即使用自建停用詞表和同義詞詞林做同義詞查詢(xún)，實(shí)現(xiàn)了在德目指標(biāo)較少類(lèi)別上的過(guò)采樣，并隨機(jī)打亂句內(nèi)詞語(yǔ)的順序以及樣本順序。如圖2所示，數(shù)據(jù)增強(qiáng)后的數(shù)據(jù)集已經(jīng)基本滿(mǎn)足需求，有效地防止了過(guò)擬合的發(fā)生，并提高了模型的泛化能力。

圖2 數(shù)據(jù)增強(qiáng)后各類(lèi)別分布情況

2.2 注意力機(jī)制

Attention機(jī)制最開(kāi)始被Google Mind團(tuán)隊(duì)[14]結(jié)合RNN模型用在了圖像分類(lèi)任務(wù)中。而后Bahdanau等人[15]使用類(lèi)似的注意力機(jī)制來(lái)完成機(jī)器翻譯的任務(wù)，使得模型能夠?qū)崿F(xiàn)翻譯和對(duì)齊同時(shí)進(jìn)行，這是Attention機(jī)制在NLP中的首次應(yīng)用。此后，Attention機(jī)制開(kāi)始被廣泛地應(yīng)用到各種場(chǎng)景任務(wù)中，Google機(jī)器翻譯團(tuán)隊(duì)[16]提出了Transformer的概念，其整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)完全由注意力機(jī)制組成，不再利用CNN或者RNN來(lái)構(gòu)造分類(lèi)模型，在WMT2014語(yǔ)料中的英德、英法翻譯任務(wù)中表現(xiàn)十分突出，且其訓(xùn)練速度也優(yōu)于傳統(tǒng)的CCN、RNN模型。傳統(tǒng)的CNN在進(jìn)行文本分類(lèi)任務(wù)時(shí)，每個(gè)通道對(duì)應(yīng)一個(gè)句子，獲得句子的特征表示后，再輸入到分類(lèi)器中，沒(méi)有考慮將文本的特征表示輸入到分類(lèi)器之前句對(duì)之間的聯(lián)系，而Yin等人[17]提出了3種在卷積神經(jīng)網(wǎng)絡(luò)中使用Attention機(jī)制的方法，通過(guò)把Attention機(jī)制和CNN相結(jié)合，從而把不同的CNN通道的句對(duì)聯(lián)系起來(lái)。

一個(gè)注意力函數(shù)實(shí)質(zhì)上可以認(rèn)為是一個(gè)查詢(xún)(Query)到一個(gè)鍵值對(duì)(set of Key-Value pairs)的映射，其中的Query、Key、Value和輸出都是用向量來(lái)表示,如圖3所示。其中Source可以看作是存儲(chǔ)器內(nèi)存儲(chǔ)的內(nèi)容，其中的元素由地址Key和值Value組成，假設(shè)當(dāng)前有 L_x 個(gè)查詢(xún)，最終要獲取到存儲(chǔ)器中對(duì)應(yīng)的Value值，即Attention的數(shù)值。其中，L_x=‖Source‖ ，代表輸入的文本序列的長(zhǎng)度。

圖3 查詢(xún)到鍵值對(duì)映射

常被用來(lái)計(jì)算Query和Key相似性的函數(shù)有內(nèi)積公式、余弦相似度公式和感知器網(wǎng)絡(luò)公式，分別為：

(Sim(Query,Keyi)=Query·Keyi

(1)

(2)

(Sim(Query,Keyi)=MLP(Query,Keyi)

(3)

然后對(duì)相似性計(jì)算結(jié)果使用Softmax 進(jìn)行歸一化處理，從而得到其概率分布，其中ai表示第i個(gè)查詢(xún)的相似性概率分布，公式為：

(4)

最后根據(jù)權(quán)重系數(shù)對(duì)Value 進(jìn)行加權(quán)求和：

(5)

Attention機(jī)制的實(shí)質(zhì)其實(shí)就是一個(gè)尋址的過(guò)程，通過(guò)計(jì)算與Key的注意力分布并附加在Value上，從而計(jì)算Attention Value，這個(gè)過(guò)程也是Attention機(jī)制降低神經(jīng)網(wǎng)絡(luò)模型復(fù)雜度的表現(xiàn)，通過(guò)將視角聚焦于與當(dāng)前任務(wù)關(guān)聯(lián)度更高的信息，降低甚至無(wú)視其他無(wú)關(guān)的信息，可以有效地解決神經(jīng)網(wǎng)絡(luò)模型信息過(guò)載的問(wèn)題，同時(shí)能夠提高模型的計(jì)算效率和泛化能力。

2.3 IoMET_A模型

如圖4所示，IoMET_A的建模流程分為文本預(yù)處理、數(shù)據(jù)增強(qiáng)、特征提取和訓(xùn)練。

圖4 IoMET_A的建模流程

1)文本預(yù)處理。文本預(yù)處理的目標(biāo)就是將文本變?yōu)榭煞治?、可預(yù)測(cè)的形式，而上海市中小學(xué)教材數(shù)據(jù)集中存在大量的特殊符號(hào)、語(yǔ)氣助詞等與分類(lèi)無(wú)關(guān)的信息，而這些噪音會(huì)增加模型計(jì)算的開(kāi)銷(xiāo)，因此要盡可能地去除噪音，所以本文利用jieba[18]分詞工具和自建停用詞表對(duì)教材文本進(jìn)行噪音去除。

2)數(shù)據(jù)增強(qiáng)。一個(gè)均衡的數(shù)據(jù)集對(duì)模型的分類(lèi)性能有著十分重要的影響，鑒于上海市教材數(shù)據(jù)集的嚴(yán)重不平衡性，本文結(jié)合SMOTE和EDA的思想實(shí)現(xiàn)少數(shù)類(lèi)別的過(guò)采樣，并以一定概率隨機(jī)打亂句子以及句內(nèi)詞語(yǔ)的順序，從而得到了一個(gè)平衡的新數(shù)據(jù)集。

3)特征提取。本文利用Word2vec[19-20]中的負(fù)采樣模型Skip-Gram生成詞向量，將預(yù)處理后的詞語(yǔ)映射到低維向量中。

(4)訓(xùn)練。IoMET_A的模型結(jié)構(gòu)如圖5所示，與普通的TextCNN結(jié)構(gòu)不同的是，在輸入層和卷積層之間引入了attention層，引入attention層是為了給每個(gè)詞語(yǔ)創(chuàng)建上下文向量，然后將上下文向量和詞語(yǔ)原本預(yù)訓(xùn)練進(jìn)行拼接，作為詞語(yǔ)新的表示，輸入到卷積層，然后經(jīng)過(guò)池化層、全連接層，從而得到文本的類(lèi)別。

圖5 IoMET_A模型結(jié)構(gòu)圖

本文目標(biāo)函數(shù)采用收斂速度較快的交叉熵?fù)p失函數(shù)。損失函數(shù)為：

(6)

則每一個(gè)Batch的損失為：

(7)

用gi表示圖中上下文向量，注意力機(jī)制是另外的MLP(多層感知機(jī)網(wǎng)絡(luò)結(jié)構(gòu))，當(dāng)預(yù)測(cè)句子時(shí)，該機(jī)制確定哪些詞語(yǔ)應(yīng)該受到更多的關(guān)注,即：

(8)

其中，αi,j稱(chēng)為attention權(quán)重，要求α≥0且∑jαi,j·xj=1，這里可以通過(guò)softmax規(guī)范化來(lái)實(shí)現(xiàn)：

(9)

(10)

其中，score值由上面提到的MLP來(lái)計(jì)算。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)準(zhǔn)備

本文數(shù)據(jù)集來(lái)自于上海市中小學(xué)教材文本，共計(jì)33360條數(shù)據(jù)，包含16個(gè)類(lèi)別，23083個(gè)詞匯。經(jīng)數(shù)據(jù)增強(qiáng)后，均衡數(shù)據(jù)集共包含110665條數(shù)據(jù)，16個(gè)類(lèi)別，28966個(gè)詞匯。從均衡數(shù)據(jù)集中隨機(jī)選取8:2的數(shù)據(jù)作為訓(xùn)練集和測(cè)試集。樣本數(shù)據(jù)示例如表1所示。

表1 部分樣本數(shù)據(jù)示例

實(shí)驗(yàn)需要回答以下研究問(wèn)題：

Q1：IoMET_A 模型的數(shù)據(jù)增強(qiáng)方法是否有效？

Q2：IoMET_A 模型的參數(shù)選取是否合理？

Q3：結(jié)合注意力機(jī)制的IoMET_A是否有更好的表現(xiàn)？

3.2 實(shí)驗(yàn)設(shè)置

本文實(shí)驗(yàn)環(huán)境基于Python3.6，利用Keras深度學(xué)習(xí)框架完成對(duì)IoMET_A及參照模型的搭建，實(shí)驗(yàn)環(huán)境如表2所示。

表2 實(shí)驗(yàn)環(huán)境

3.3 詞向量預(yù)訓(xùn)練

本文利用Google開(kāi)源的負(fù)采樣模型(Skip-Gram with Negative Sampling)來(lái)生成預(yù)訓(xùn)練詞向量，Skip-Gram模型的訓(xùn)練窗口大小設(shè)置為15(當(dāng)前詞與預(yù)測(cè)詞的最遠(yuǎn)距離)，模型的學(xué)習(xí)速率設(shè)為0.05，negative值設(shè)為5，min_count設(shè)為1(表示不會(huì)有詞語(yǔ)被拋棄)，迭代次數(shù)設(shè)為10次。預(yù)訓(xùn)練詞向量參數(shù)設(shè)置如表3所示。預(yù)訓(xùn)練詞向量詞語(yǔ)相似性示例如表4所示。

表3 預(yù)訓(xùn)練詞向量參數(shù)

表4 預(yù)訓(xùn)練詞向量相似度示例

3.4 實(shí)驗(yàn)設(shè)計(jì)

實(shí)驗(yàn)1 驗(yàn)證IoMET_A模型所提出的數(shù)據(jù)增強(qiáng)方法的有效性。

實(shí)驗(yàn)2 驗(yàn)證IoMET_A的參數(shù)選取是否合理。

實(shí)驗(yàn)3 驗(yàn)證本文所提出的IoMET_A模型的有效性，同時(shí)與Bi-LSTM[7]、Bi-GRU[9]、GRNN[21]和IoMET以及Google提供的BERT-Base[22]作為參照模型進(jìn)行分類(lèi)性能對(duì)比。各模型的超參數(shù)設(shè)置如表5和表6所示。

表5 模型超參數(shù)設(shè)置

表6 BERT模型訓(xùn)練參數(shù)設(shè)置

3.5 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)

精確率(Precision, P)表示發(fā)現(xiàn)的項(xiàng)目中有多少是相關(guān)的比例。召回率(Recall, R)表示相關(guān)的項(xiàng)目中發(fā)現(xiàn)了多少的比例。F1-度量值(F1-Measure, F1)是精確率和召回率組合成的一個(gè)得分，被定義為精確率和召回率的調(diào)和平均數(shù)。計(jì)算公式分別為：

(11)

(12)

(13)

其中，TP(True Positive)表示是相關(guān)項(xiàng)目中正確識(shí)別為相關(guān)的，F(xiàn)P(False Positive)是不相關(guān)項(xiàng)目中錯(cuò)誤識(shí)別為相關(guān)的，F(xiàn)N(False Negative)是相關(guān)項(xiàng)目中錯(cuò)誤識(shí)別為不相關(guān)的。

3.6 結(jié)果分析

實(shí)驗(yàn)1為了驗(yàn)證IoMET_A模型所用數(shù)據(jù)增強(qiáng)方法的有效性，將進(jìn)行數(shù)據(jù)增強(qiáng)后的教材文本和原始文本分別輸入到TextCNN文本分類(lèi)器中，并通過(guò)F1-度量值進(jìn)行評(píng)價(jià)，實(shí)驗(yàn)結(jié)果如圖6所示。

圖6 各個(gè)類(lèi)別的F1-度量值曲線對(duì)比

實(shí)驗(yàn)2因?yàn)椴煌某瑓?shù)設(shè)置會(huì)對(duì)模型有不同的影響，需要對(duì)參數(shù)進(jìn)行優(yōu)化處理。

不同的詞向量維度生成的詞向量矩陣各不相同，表達(dá)的文本特征信息也有所不同，為了尋找在上海市教材文本數(shù)據(jù)集下的最優(yōu)詞向量維度，設(shè)置多組對(duì)照實(shí)驗(yàn)，使用F1-度量值作為模型性能評(píng)價(jià)指標(biāo)。IoMET_A在不同的維度下的表現(xiàn)如圖7所示。

圖7 詞向量維度對(duì)模型性能的影響

模型過(guò)擬合是模型訓(xùn)練過(guò)程中經(jīng)常會(huì)出現(xiàn)的情況，由于過(guò)擬合的模型在測(cè)試集和訓(xùn)練集的損失函數(shù)差異很大，所以過(guò)擬合的模型是不能用在實(shí)際應(yīng)用中的。Krizhevsky等人[23]提出可以在訓(xùn)練模型的過(guò)程中，每一個(gè)訓(xùn)練批次都忽略一些隱藏層節(jié)點(diǎn)，減少這些隱藏層節(jié)點(diǎn)的相互作用，從而減少過(guò)擬合的發(fā)生。所以本文在(0,1)區(qū)間內(nèi)做多組對(duì)照實(shí)驗(yàn)，觀察模型在不同的Dropout取值下IoMET_A的分類(lèi)性能。IoMET_A在不同的Dropout取值下的表現(xiàn)如圖8所示。

圖8 不同Dropout取值對(duì)模型性能的影響

實(shí)驗(yàn)3為了驗(yàn)證IoMET_A對(duì)教材德目指標(biāo)分類(lèi)任務(wù)的有效性，設(shè)置了多組對(duì)照實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如表7所示。

表7 不同分類(lèi)模型的分類(lèi)結(jié)果

對(duì)于Q1，從圖6中可以看出，經(jīng)過(guò)數(shù)據(jù)增強(qiáng)后的教材文本的各類(lèi)別的F1-度量值均高于原始文本，驗(yàn)證了本文所使用的數(shù)據(jù)增強(qiáng)方法的有效性，可以有效地解決文本數(shù)據(jù)集不均衡的問(wèn)題。

對(duì)于Q2，從圖7中可以看出，IoMET_A在詞向量維度100維～150維之間的分類(lèi)性能最好，可能是由于詞向量維數(shù)設(shè)置過(guò)高時(shí)，由語(yǔ)料庫(kù)預(yù)訓(xùn)練出的詞向量質(zhì)量下降導(dǎo)致的。從圖8可以看出，IoMET_A在Dropout取值處于(0,0.5)時(shí)沒(méi)有特別明顯的變化，并在Dropout=0.3時(shí)模型的分類(lèi)性能最佳。

對(duì)于Q3，從表7中可以看出，在對(duì)上海市中小學(xué)教材德目指標(biāo)的分類(lèi)任務(wù)中，本文提出的IoMET_A在詞向量維度是150維、Dropout=0.3時(shí)，取得最高77.51%的F1-度量值，參照模型分別取得61.28%(IoMET)、75.62%(Bi_LSTM)、74.82%(Bi_GRU)、75.19%(GRNN)、78.35%(BERT)的F1-度量值,BERT比IoMET_A的F1-度量值提升了不到1個(gè)百分點(diǎn)，但是，因?yàn)槠湫枰?xùn)練的參數(shù)量龐大，導(dǎo)致其收斂速度也比本文提出的IoMET_A要慢很多，所以針對(duì)本文特定的教材德目指標(biāo)分類(lèi)任務(wù)來(lái)說(shuō)，IoMET_A依然是一個(gè)不錯(cuò)的選擇。

原始的IoMET模型不能很好地利用詞之間的聯(lián)系和位置信息，所以當(dāng)輸入的語(yǔ)句過(guò)長(zhǎng)時(shí)，就可能會(huì)丟失一些重要的語(yǔ)義信息。本文提出的結(jié)合注意力機(jī)制的IoMET_A文本分類(lèi)模型，為每一個(gè)詞都生成一個(gè)上下文向量，然后結(jié)合預(yù)訓(xùn)練的詞向量輸入到卷積神經(jīng)網(wǎng)絡(luò)中去，有效地提高了模型的泛化能力，在上海市中小學(xué)教材德目指標(biāo)的分類(lèi)任務(wù)中取得了更好的表現(xiàn)。

4 結(jié)束語(yǔ)

本文以上海市中小學(xué)教材德目指標(biāo)研究作為實(shí)驗(yàn)背景，提出了IoMET_A文本分類(lèi)模型，實(shí)現(xiàn)了較高準(zhǔn)確率的德目指標(biāo)預(yù)測(cè)，可以為德目指標(biāo)的研究工作提供有效的參考依據(jù)，替代部分人工工作。結(jié)合了注意力機(jī)制的IoMET_A使得輸入的序列向量具有了更強(qiáng)的語(yǔ)義特征信息，能夠有效地保留文本序列的語(yǔ)義關(guān)系信息，且針對(duì)樣本數(shù)量不均衡的問(wèn)題，IoMET_A結(jié)合了SMOTE和EDA的思想，使用自建停用詞表和同義詞詞林做同義詞查詢(xún)實(shí)現(xiàn)了少數(shù)類(lèi)別過(guò)采樣，并隨機(jī)打亂句子順序以及句內(nèi)詞語(yǔ)順序來(lái)建立一個(gè)均衡的數(shù)據(jù)集。從實(shí)驗(yàn)結(jié)果也可以看出，IoMET_A所用的數(shù)據(jù)增強(qiáng)方法可以有效地提高模型的性能，使得模型的F1-度量值得到較高提升，并且結(jié)合了注意力機(jī)制的IoMET_A模型相比未結(jié)合注意力機(jī)制的IoMET，擁有更好的模型泛化能力，同時(shí)與其他設(shè)置的參照模型相比也有明顯優(yōu)勢(shì)。

接下來(lái)的研究方向是改進(jìn)文本的預(yù)處理方法，優(yōu)化模型結(jié)構(gòu)，使得IoMET_A模型的性能得到進(jìn)一步提高。