亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的教材德目分類(lèi)方法

        2021-09-15 02:36:22郭書(shū)武陳軍華
        關(guān)鍵詞:分類(lèi)文本教材

        郭書(shū)武,陳軍華

        (上海師范大學(xué)信息與機(jī)電工程學(xué)院,上海 201418)

        0 引 言

        所謂德目教育,就是將德目作為主要內(nèi)容進(jìn)行的道德教育。一個(gè)健康、穩(wěn)定的社會(huì)必然要求有一套被時(shí)代所公認(rèn)的核心價(jià)值體系,并被公民所內(nèi)化[1]。隨著時(shí)代的發(fā)展,我國(guó)德目指標(biāo)也在不斷的發(fā)展,比如“仁、義、禮、智、信”就是傳統(tǒng)意義上的德目指標(biāo),而“愛(ài)國(guó)守法、明禮誠(chéng)信、團(tuán)結(jié)友愛(ài)、勤儉自強(qiáng)、敬業(yè)奉獻(xiàn)”就是現(xiàn)代意義的德目指標(biāo)。對(duì)學(xué)生的德目教育是學(xué)校的重要職責(zé),而教材是進(jìn)行德目教育的重要途徑和載體,所以教材德目指標(biāo)也就成為學(xué)校選取教材的重要標(biāo)準(zhǔn)之一,從而達(dá)到傳遞社會(huì)的核心價(jià)值體系的教學(xué)目標(biāo)。

        本文的研究源于教育部哲學(xué)社會(huì)科學(xué)重大課題攻關(guān)項(xiàng)目(立項(xiàng)號(hào):13JZD046)——大中小德育課程一體化建設(shè)研究,實(shí)驗(yàn)數(shù)據(jù)集來(lái)源于上海市中小學(xué)教材。

        教材為教育教學(xué)提供基本遵循,教材的內(nèi)容選取對(duì)學(xué)生的價(jià)值觀養(yǎng)成起到了關(guān)鍵作用,同時(shí),中小學(xué)教材存在內(nèi)容簡(jiǎn)單重復(fù)的結(jié)構(gòu)性問(wèn)題。所以,為了能夠更好地對(duì)教材內(nèi)容進(jìn)行德目評(píng)定,項(xiàng)目組專(zhuān)家根據(jù)當(dāng)今我國(guó)社會(huì)主義核心價(jià)值體系的要求,制定了相應(yīng)的德目指標(biāo),其中包含4個(gè)一級(jí)德目指標(biāo),分別是:政治認(rèn)同(A)、國(guó)家意識(shí)(B)、文化自信(C)、公民人格(D)。為了更加細(xì)致嚴(yán)謹(jǐn)?shù)脑u(píng)價(jià)教材的德目指標(biāo),又將每個(gè)一級(jí)德目指標(biāo)細(xì)分為4種二級(jí)德目指標(biāo),分別是:黨的領(lǐng)導(dǎo)(A1)、科學(xué)理論(A2)、政治制度(A3)、發(fā)展道路(A4)、國(guó)家利益(B1)、國(guó)情觀念(B2)、民族團(tuán)結(jié)(B3)、國(guó)際視野(B4)、國(guó)家語(yǔ)言(C1)、歷史文化(C2)、革命傳統(tǒng)(C3)、時(shí)代精神(C4)、健康身心(D1)、守法平等(D2)、誠(chéng)信盡責(zé)(D3)和自強(qiáng)合作(D4)。本文針對(duì)二級(jí)德目指標(biāo)的自動(dòng)分類(lèi)進(jìn)行研究。

        1 相關(guān)工作

        文本分類(lèi)是自然語(yǔ)言處理領(lǐng)域中重要的應(yīng)用,諸多的傳統(tǒng)機(jī)器學(xué)習(xí)方法已經(jīng)應(yīng)用到了各種文本分類(lèi)任務(wù)中。文獻(xiàn)[2]通過(guò)結(jié)合改良后的K-modes算法,改良了KNN算法,提高了KNN算法在面對(duì)大樣本數(shù)據(jù)集時(shí)的執(zhí)行效率。文獻(xiàn)[3]提出了一種基于模擬退火(SA)優(yōu)化SVM的文本分類(lèi)方法,有效地解決了優(yōu)化SVM參數(shù)難題。LDA[4]經(jīng)常被用來(lái)做文檔主題聚類(lèi)的分析,所以文獻(xiàn)[5]將LDA和卡方統(tǒng)計(jì)相結(jié)合,然后利用SVM進(jìn)行文本分類(lèi),實(shí)驗(yàn)結(jié)果表明,把卡方統(tǒng)計(jì)和主題模型相結(jié)合的方法可以有效提升模型的泛化能力。Spark可以基于map reduce算法進(jìn)行分布式計(jì)算,文獻(xiàn)[6]將Spark框架和KNN相結(jié)合,實(shí)現(xiàn)了對(duì)大數(shù)據(jù)量數(shù)據(jù)集的文本分類(lèi)。盡管傳統(tǒng)方法在一些文本分類(lèi)任務(wù)中已經(jīng)取得了非常不錯(cuò)的效果,但是其單純通過(guò)詞頻來(lái)衡量詞的重要性不夠全面,無(wú)法利用詞的位置信息,且不能夠表示這些詞語(yǔ)之間的聯(lián)系。

        如何有效地利用詞之間的聯(lián)系及其位置信息,成為了文本分類(lèi)任務(wù)中需要解決的問(wèn)題。長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[7]是一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò),可以處理時(shí)間序列中間隔很長(zhǎng)的事件,文獻(xiàn)[8]結(jié)合協(xié)同訓(xùn)練的方法對(duì)LSTM進(jìn)行擴(kuò)展,并實(shí)現(xiàn)了對(duì)中文命名實(shí)體的識(shí)別。文獻(xiàn)[9]結(jié)合CNN和LSTM,并對(duì)其進(jìn)行了改進(jìn)和優(yōu)化,在聯(lián)合預(yù)測(cè)模型上添加修正模型,完成了電網(wǎng)電量缺失數(shù)據(jù)的預(yù)測(cè)任務(wù)。文獻(xiàn)[10]結(jié)合了CNN和GRU[11],并采用條件隨機(jī)場(chǎng)模型作為分類(lèi)器,實(shí)驗(yàn)結(jié)果表明能夠?qū)崿F(xiàn)較高準(zhǔn)確率的情感類(lèi)別的分類(lèi)。Kim[12]提出了TextCNN,將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到了文本分類(lèi)當(dāng)中,TextCNN具有多個(gè)不同大小的卷積核,可以更好地捕捉到句子中的關(guān)鍵信息,其通過(guò)融合各個(gè)卷積層的輸出,然后輸入到Softmax層得到分類(lèi)結(jié)果。

        使用傳統(tǒng)的文本分類(lèi)算法對(duì)教材文本進(jìn)行深度學(xué)習(xí)時(shí),存在特征矩陣稀疏、特征維數(shù)高的問(wèn)題,并且不能有效地利用詞之間的聯(lián)系及位置信息,且上海市中小學(xué)教材數(shù)據(jù)集存在樣本分布不均衡的問(wèn)題,各指標(biāo)下的教材文本條數(shù)差異較大,模型在數(shù)據(jù)量較少的類(lèi)別上不能有效地獲取特征信息。針對(duì)上述問(wèn)題,本文提出一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)TextCNN和注意力機(jī)制的文本分類(lèi)模型,將其稱(chēng)為IoMET_A(Indicators of Moral Education Target based Attention),并提出一種新的數(shù)據(jù)增強(qiáng)技術(shù)來(lái)得到一個(gè)均衡的數(shù)據(jù)集。

        2 IoMET_A建模

        2.1 數(shù)據(jù)增強(qiáng)

        深度學(xué)習(xí)中數(shù)據(jù)集的質(zhì)量對(duì)模型的性能有很大的影響,一個(gè)極端不均衡的數(shù)據(jù)集會(huì)對(duì)模型的訓(xùn)練造成困擾,有可能導(dǎo)致過(guò)擬合的發(fā)生。如圖1所示,上海市中小學(xué)教材文本數(shù)據(jù)存在數(shù)據(jù)不均衡的問(wèn)題,各類(lèi)別的數(shù)量差異較大。所以,本文需要采用數(shù)據(jù)增強(qiáng)的技術(shù)來(lái)得到一個(gè)較為均衡的數(shù)據(jù)集。

        圖1 數(shù)據(jù)增強(qiáng)前各類(lèi)別分布情況

        數(shù)據(jù)增強(qiáng)是擴(kuò)充數(shù)據(jù)樣本規(guī)模的一種有效方法,常用的方法有過(guò)采樣、欠采樣、回譯、打亂句內(nèi)詞語(yǔ)順序以及句子順序等。其中,過(guò)采樣是在數(shù)據(jù)不足的類(lèi)別上,通過(guò)重復(fù)、自主抽樣或合成少數(shù)類(lèi)過(guò)采樣技術(shù)SMOTE來(lái)平衡數(shù)據(jù)集,SMOTE是通過(guò)構(gòu)建相鄰實(shí)例的凸組合來(lái)創(chuàng)建少數(shù)類(lèi)別的新實(shí)例,沒(méi)有使用重復(fù)樣例,不會(huì)過(guò)多地過(guò)擬合。同時(shí),Wei等人[13]提出了一種簡(jiǎn)單通用的NLP數(shù)據(jù)增強(qiáng)技術(shù)EDA,其包含4種簡(jiǎn)單的操作來(lái)進(jìn)行數(shù)據(jù)增強(qiáng),其中包括同義詞替換(Synonyms Repalce, SR)、隨機(jī)插入(Rand-omly Insert, RI)、隨機(jī)交換(Randomly Swap, RS)和隨機(jī)刪除(Randomly Delete, RD),EDA使用NLTK做英文的同義詞查詢(xún),對(duì)數(shù)據(jù)集中的實(shí)例生成相同數(shù)量的新文本,在規(guī)模較小的數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),EDA取得了十分突出的表現(xiàn),顯著提高了模型的性能。

        因此,針對(duì)上海市中小學(xué)教材文本數(shù)據(jù)集不均衡的問(wèn)題,本文結(jié)合SMOTE和EDA的思想提出一種新的數(shù)據(jù)增強(qiáng)方法,即使用自建停用詞表和同義詞詞林做同義詞查詢(xún),實(shí)現(xiàn)了在德目指標(biāo)較少類(lèi)別上的過(guò)采樣,并隨機(jī)打亂句內(nèi)詞語(yǔ)的順序以及樣本順序。如圖2所示,數(shù)據(jù)增強(qiáng)后的數(shù)據(jù)集已經(jīng)基本滿(mǎn)足需求,有效地防止了過(guò)擬合的發(fā)生,并提高了模型的泛化能力。

        圖2 數(shù)據(jù)增強(qiáng)后各類(lèi)別分布情況

        2.2 注意力機(jī)制

        Attention機(jī)制最開(kāi)始被Google Mind團(tuán)隊(duì)[14]結(jié)合RNN模型用在了圖像分類(lèi)任務(wù)中。而后Bahdanau等人[15]使用類(lèi)似的注意力機(jī)制來(lái)完成機(jī)器翻譯的任務(wù),使得模型能夠?qū)崿F(xiàn)翻譯和對(duì)齊同時(shí)進(jìn)行,這是Attention機(jī)制在NLP中的首次應(yīng)用。此后,Attention機(jī)制開(kāi)始被廣泛地應(yīng)用到各種場(chǎng)景任務(wù)中,Google機(jī)器翻譯團(tuán)隊(duì)[16]提出了Transformer的概念,其整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)完全由注意力機(jī)制組成,不再利用CNN或者RNN來(lái)構(gòu)造分類(lèi)模型,在WMT2014語(yǔ)料中的英德、英法翻譯任務(wù)中表現(xiàn)十分突出,且其訓(xùn)練速度也優(yōu)于傳統(tǒng)的CCN、RNN模型。傳統(tǒng)的CNN在進(jìn)行文本分類(lèi)任務(wù)時(shí),每個(gè)通道對(duì)應(yīng)一個(gè)句子,獲得句子的特征表示后,再輸入到分類(lèi)器中,沒(méi)有考慮將文本的特征表示輸入到分類(lèi)器之前句對(duì)之間的聯(lián)系,而Yin等人[17]提出了3種在卷積神經(jīng)網(wǎng)絡(luò)中使用Attention機(jī)制的方法,通過(guò)把Attention機(jī)制和CNN相結(jié)合,從而把不同的CNN通道的句對(duì)聯(lián)系起來(lái)。

        一個(gè)注意力函數(shù)實(shí)質(zhì)上可以認(rèn)為是一個(gè)查詢(xún)(Query)到一個(gè)鍵值對(duì)(set of Key-Value pairs)的映射,其中的Query、Key、Value和輸出都是用向量來(lái)表示,如圖3所示。其中Source可以看作是存儲(chǔ)器內(nèi)存儲(chǔ)的內(nèi)容,其中的元素由地址Key和值Value組成,假設(shè)當(dāng)前有 L_x 個(gè)查詢(xún),最終要獲取到存儲(chǔ)器中對(duì)應(yīng)的Value值,即Attention的數(shù)值。其中,L_x=‖Source‖ ,代表輸入的文本序列的長(zhǎng)度。

        圖3 查詢(xún)到鍵值對(duì)映射

        常被用來(lái)計(jì)算Query和Key相似性的函數(shù)有內(nèi)積公式、余弦相似度公式和感知器網(wǎng)絡(luò)公式,分別為:

        (Sim(Query,Keyi)=Query·Keyi

        (1)

        (2)

        (Sim(Query,Keyi)=MLP(Query,Keyi)

        (3)

        然后對(duì)相似性計(jì)算結(jié)果使用Softmax 進(jìn)行歸一化處理,從而得到其概率分布,其中ai表示第i個(gè)查詢(xún)的相似性概率分布,公式為:

        (4)

        最后根據(jù)權(quán)重系數(shù)對(duì)Value 進(jìn)行加權(quán)求和:

        (5)

        Attention機(jī)制的實(shí)質(zhì)其實(shí)就是一個(gè)尋址的過(guò)程,通過(guò)計(jì)算與Key的注意力分布并附加在Value上,從而計(jì)算Attention Value,這個(gè)過(guò)程也是Attention機(jī)制降低神經(jīng)網(wǎng)絡(luò)模型復(fù)雜度的表現(xiàn),通過(guò)將視角聚焦于與當(dāng)前任務(wù)關(guān)聯(lián)度更高的信息,降低甚至無(wú)視其他無(wú)關(guān)的信息,可以有效地解決神經(jīng)網(wǎng)絡(luò)模型信息過(guò)載的問(wèn)題,同時(shí)能夠提高模型的計(jì)算效率和泛化能力。

        2.3 IoMET_A模型

        如圖4所示,IoMET_A的建模流程分為文本預(yù)處理、數(shù)據(jù)增強(qiáng)、特征提取和訓(xùn)練。

        圖4 IoMET_A的建模流程

        1)文本預(yù)處理。文本預(yù)處理的目標(biāo)就是將文本變?yōu)榭煞治?、可預(yù)測(cè)的形式,而上海市中小學(xué)教材數(shù)據(jù)集中存在大量的特殊符號(hào)、語(yǔ)氣助詞等與分類(lèi)無(wú)關(guān)的信息,而這些噪音會(huì)增加模型計(jì)算的開(kāi)銷(xiāo),因此要盡可能地去除噪音,所以本文利用jieba[18]分詞工具和自建停用詞表對(duì)教材文本進(jìn)行噪音去除。

        2)數(shù)據(jù)增強(qiáng)。一個(gè)均衡的數(shù)據(jù)集對(duì)模型的分類(lèi)性能有著十分重要的影響,鑒于上海市教材數(shù)據(jù)集的嚴(yán)重不平衡性,本文結(jié)合SMOTE和EDA的思想實(shí)現(xiàn)少數(shù)類(lèi)別的過(guò)采樣,并以一定概率隨機(jī)打亂句子以及句內(nèi)詞語(yǔ)的順序,從而得到了一個(gè)平衡的新數(shù)據(jù)集。

        3)特征提取。本文利用Word2vec[19-20]中的負(fù)采樣模型Skip-Gram生成詞向量,將預(yù)處理后的詞語(yǔ)映射到低維向量中。

        (4)訓(xùn)練。IoMET_A的模型結(jié)構(gòu)如圖5所示,與普通的TextCNN結(jié)構(gòu)不同的是,在輸入層和卷積層之間引入了attention層,引入attention層是為了給每個(gè)詞語(yǔ)創(chuàng)建上下文向量,然后將上下文向量和詞語(yǔ)原本預(yù)訓(xùn)練進(jìn)行拼接,作為詞語(yǔ)新的表示,輸入到卷積層,然后經(jīng)過(guò)池化層、全連接層,從而得到文本的類(lèi)別。

        圖5 IoMET_A模型結(jié)構(gòu)圖

        本文目標(biāo)函數(shù)采用收斂速度較快的交叉熵?fù)p失函數(shù)。損失函數(shù)為:

        (6)

        則每一個(gè)Batch的損失為:

        (7)

        用gi表示圖中上下文向量,注意力機(jī)制是另外的MLP(多層感知機(jī)網(wǎng)絡(luò)結(jié)構(gòu)),當(dāng)預(yù)測(cè)句子時(shí),該機(jī)制確定哪些詞語(yǔ)應(yīng)該受到更多的關(guān)注,即:

        (8)

        其中,αi,j稱(chēng)為attention權(quán)重,要求α≥0且∑jαi,j·xj=1,這里可以通過(guò)softmax規(guī)范化來(lái)實(shí)現(xiàn):

        (9)

        (10)

        其中,score值由上面提到的MLP來(lái)計(jì)算。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)準(zhǔn)備

        本文數(shù)據(jù)集來(lái)自于上海市中小學(xué)教材文本,共計(jì)33360條數(shù)據(jù),包含16個(gè)類(lèi)別,23083個(gè)詞匯。經(jīng)數(shù)據(jù)增強(qiáng)后,均衡數(shù)據(jù)集共包含110665條數(shù)據(jù),16個(gè)類(lèi)別,28966個(gè)詞匯。從均衡數(shù)據(jù)集中隨機(jī)選取8:2的數(shù)據(jù)作為訓(xùn)練集和測(cè)試集。樣本數(shù)據(jù)示例如表1所示。

        表1 部分樣本數(shù)據(jù)示例

        實(shí)驗(yàn)需要回答以下研究問(wèn)題:

        Q1:IoMET_A 模型的數(shù)據(jù)增強(qiáng)方法是否有效?

        Q2:IoMET_A 模型的參數(shù)選取是否合理?

        Q3:結(jié)合注意力機(jī)制的IoMET_A是否有更好的表現(xiàn)?

        3.2 實(shí)驗(yàn)設(shè)置

        本文實(shí)驗(yàn)環(huán)境基于Python3.6,利用Keras深度學(xué)習(xí)框架完成對(duì)IoMET_A及參照模型的搭建,實(shí)驗(yàn)環(huán)境如表2所示。

        表2 實(shí)驗(yàn)環(huán)境

        3.3 詞向量預(yù)訓(xùn)練

        本文利用Google開(kāi)源的負(fù)采樣模型(Skip-Gram with Negative Sampling)來(lái)生成預(yù)訓(xùn)練詞向量,Skip-Gram模型的訓(xùn)練窗口大小設(shè)置為15(當(dāng)前詞與預(yù)測(cè)詞的最遠(yuǎn)距離),模型的學(xué)習(xí)速率設(shè)為0.05,negative值設(shè)為5,min_count設(shè)為1(表示不會(huì)有詞語(yǔ)被拋棄),迭代次數(shù)設(shè)為10次。預(yù)訓(xùn)練詞向量參數(shù)設(shè)置如表3所示。預(yù)訓(xùn)練詞向量詞語(yǔ)相似性示例如表4所示。

        表3 預(yù)訓(xùn)練詞向量參數(shù)

        表4 預(yù)訓(xùn)練詞向量相似度示例

        3.4 實(shí)驗(yàn)設(shè)計(jì)

        實(shí)驗(yàn)1 驗(yàn)證IoMET_A模型所提出的數(shù)據(jù)增強(qiáng)方法的有效性。

        實(shí)驗(yàn)2 驗(yàn)證IoMET_A的參數(shù)選取是否合理。

        實(shí)驗(yàn)3 驗(yàn)證本文所提出的IoMET_A模型的有效性,同時(shí)與Bi-LSTM[7]、Bi-GRU[9]、GRNN[21]和IoMET以及Google提供的BERT-Base[22]作為參照模型進(jìn)行分類(lèi)性能對(duì)比。各模型的超參數(shù)設(shè)置如表5和表6所示。

        表5 模型超參數(shù)設(shè)置

        表6 BERT模型訓(xùn)練參數(shù)設(shè)置

        3.5 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)

        精確率(Precision, P)表示發(fā)現(xiàn)的項(xiàng)目中有多少是相關(guān)的比例。召回率(Recall, R)表示相關(guān)的項(xiàng)目中發(fā)現(xiàn)了多少的比例。F1-度量值(F1-Measure, F1)是精確率和召回率組合成的一個(gè)得分,被定義為精確率和召回率的調(diào)和平均數(shù)。計(jì)算公式分別為:

        (11)

        (12)

        (13)

        其中,TP(True Positive)表示是相關(guān)項(xiàng)目中正確識(shí)別為相關(guān)的,F(xiàn)P(False Positive)是不相關(guān)項(xiàng)目中錯(cuò)誤識(shí)別為相關(guān)的,F(xiàn)N(False Negative)是相關(guān)項(xiàng)目中錯(cuò)誤識(shí)別為不相關(guān)的。

        3.6 結(jié)果分析

        實(shí)驗(yàn)1為了驗(yàn)證IoMET_A模型所用數(shù)據(jù)增強(qiáng)方法的有效性,將進(jìn)行數(shù)據(jù)增強(qiáng)后的教材文本和原始文本分別輸入到TextCNN文本分類(lèi)器中,并通過(guò)F1-度量值進(jìn)行評(píng)價(jià),實(shí)驗(yàn)結(jié)果如圖6所示。

        圖6 各個(gè)類(lèi)別的F1-度量值曲線對(duì)比

        實(shí)驗(yàn)2因?yàn)椴煌某瑓?shù)設(shè)置會(huì)對(duì)模型有不同的影響,需要對(duì)參數(shù)進(jìn)行優(yōu)化處理。

        不同的詞向量維度生成的詞向量矩陣各不相同,表達(dá)的文本特征信息也有所不同,為了尋找在上海市教材文本數(shù)據(jù)集下的最優(yōu)詞向量維度,設(shè)置多組對(duì)照實(shí)驗(yàn),使用F1-度量值作為模型性能評(píng)價(jià)指標(biāo)。IoMET_A在不同的維度下的表現(xiàn)如圖7所示。

        圖7 詞向量維度對(duì)模型性能的影響

        模型過(guò)擬合是模型訓(xùn)練過(guò)程中經(jīng)常會(huì)出現(xiàn)的情況,由于過(guò)擬合的模型在測(cè)試集和訓(xùn)練集的損失函數(shù)差異很大,所以過(guò)擬合的模型是不能用在實(shí)際應(yīng)用中的。Krizhevsky等人[23]提出可以在訓(xùn)練模型的過(guò)程中,每一個(gè)訓(xùn)練批次都忽略一些隱藏層節(jié)點(diǎn),減少這些隱藏層節(jié)點(diǎn)的相互作用,從而減少過(guò)擬合的發(fā)生。所以本文在(0,1)區(qū)間內(nèi)做多組對(duì)照實(shí)驗(yàn),觀察模型在不同的Dropout取值下IoMET_A的分類(lèi)性能。IoMET_A在不同的Dropout取值下的表現(xiàn)如圖8所示。

        圖8 不同Dropout取值對(duì)模型性能的影響

        實(shí)驗(yàn)3為了驗(yàn)證IoMET_A對(duì)教材德目指標(biāo)分類(lèi)任務(wù)的有效性,設(shè)置了多組對(duì)照實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表7所示。

        表7 不同分類(lèi)模型的分類(lèi)結(jié)果

        對(duì)于Q1,從圖6中可以看出,經(jīng)過(guò)數(shù)據(jù)增強(qiáng)后的教材文本的各類(lèi)別的F1-度量值均高于原始文本,驗(yàn)證了本文所使用的數(shù)據(jù)增強(qiáng)方法的有效性,可以有效地解決文本數(shù)據(jù)集不均衡的問(wèn)題。

        對(duì)于Q2,從圖7中可以看出,IoMET_A在詞向量維度100維~150維之間的分類(lèi)性能最好,可能是由于詞向量維數(shù)設(shè)置過(guò)高時(shí),由語(yǔ)料庫(kù)預(yù)訓(xùn)練出的詞向量質(zhì)量下降導(dǎo)致的。從圖8可以看出,IoMET_A在Dropout取值處于(0,0.5)時(shí)沒(méi)有特別明顯的變化,并在Dropout=0.3時(shí)模型的分類(lèi)性能最佳。

        對(duì)于Q3,從表7中可以看出,在對(duì)上海市中小學(xué)教材德目指標(biāo)的分類(lèi)任務(wù)中,本文提出的IoMET_A在詞向量維度是150維、Dropout=0.3時(shí),取得最高77.51%的F1-度量值,參照模型分別取得61.28%(IoMET)、75.62%(Bi_LSTM)、74.82%(Bi_GRU)、75.19%(GRNN)、78.35%(BERT)的F1-度量值,BERT比IoMET_A的F1-度量值提升了不到1個(gè)百分點(diǎn),但是,因?yàn)槠湫枰?xùn)練的參數(shù)量龐大,導(dǎo)致其收斂速度也比本文提出的IoMET_A要慢很多,所以針對(duì)本文特定的教材德目指標(biāo)分類(lèi)任務(wù)來(lái)說(shuō),IoMET_A依然是一個(gè)不錯(cuò)的選擇。

        原始的IoMET模型不能很好地利用詞之間的聯(lián)系和位置信息,所以當(dāng)輸入的語(yǔ)句過(guò)長(zhǎng)時(shí),就可能會(huì)丟失一些重要的語(yǔ)義信息。本文提出的結(jié)合注意力機(jī)制的IoMET_A文本分類(lèi)模型,為每一個(gè)詞都生成一個(gè)上下文向量,然后結(jié)合預(yù)訓(xùn)練的詞向量輸入到卷積神經(jīng)網(wǎng)絡(luò)中去,有效地提高了模型的泛化能力,在上海市中小學(xué)教材德目指標(biāo)的分類(lèi)任務(wù)中取得了更好的表現(xiàn)。

        4 結(jié)束語(yǔ)

        本文以上海市中小學(xué)教材德目指標(biāo)研究作為實(shí)驗(yàn)背景,提出了IoMET_A文本分類(lèi)模型,實(shí)現(xiàn)了較高準(zhǔn)確率的德目指標(biāo)預(yù)測(cè),可以為德目指標(biāo)的研究工作提供有效的參考依據(jù),替代部分人工工作。結(jié)合了注意力機(jī)制的IoMET_A使得輸入的序列向量具有了更強(qiáng)的語(yǔ)義特征信息,能夠有效地保留文本序列的語(yǔ)義關(guān)系信息,且針對(duì)樣本數(shù)量不均衡的問(wèn)題,IoMET_A結(jié)合了SMOTE和EDA的思想,使用自建停用詞表和同義詞詞林做同義詞查詢(xún)實(shí)現(xiàn)了少數(shù)類(lèi)別過(guò)采樣,并隨機(jī)打亂句子順序以及句內(nèi)詞語(yǔ)順序來(lái)建立一個(gè)均衡的數(shù)據(jù)集。從實(shí)驗(yàn)結(jié)果也可以看出,IoMET_A所用的數(shù)據(jù)增強(qiáng)方法可以有效地提高模型的性能,使得模型的F1-度量值得到較高提升,并且結(jié)合了注意力機(jī)制的IoMET_A模型相比未結(jié)合注意力機(jī)制的IoMET,擁有更好的模型泛化能力,同時(shí)與其他設(shè)置的參照模型相比也有明顯優(yōu)勢(shì)。

        接下來(lái)的研究方向是改進(jìn)文本的預(yù)處理方法,優(yōu)化模型結(jié)構(gòu),使得IoMET_A模型的性能得到進(jìn)一步提高。

        猜你喜歡
        分類(lèi)文本教材
        教材精讀
        教材精讀
        分類(lèi)算一算
        教材精讀
        教材精讀
        在808DA上文本顯示的改善
        分類(lèi)討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        www久久久888| 熟女精品视频一区二区三区| 又黄又爽又色又刺激的视频| 国产精品原创av片国产日韩| 日韩精品免费观看在线| 久久久久久久久久91精品日韩午夜福利| 国产免费一区二区三区在线观看| 操风骚人妻沉沦中文字幕| 午夜福利理论片高清在线观看| 91热这里只有精品| 另类亚洲欧美精品久久不卡| 99JK无码免费| 国产成人美涵人妖视频在线观看| 26uuu在线亚洲欧美| 日韩制服国产精品一区| 欧美精品AⅤ在线视频| 日韩精品免费观看在线| 80s国产成年女人毛片| 国产在线精品一区二区| 欧美成人精品福利在线视频 | 国产激情视频在线观看大全| 精品国产精品三级精品av网址| 超薄丝袜足j好爽在线观看| 亚洲αⅴ无码乱码在线观看性色| 日韩国产一区二区三区在线观看| 最新国产精品拍自在线观看| 国语对白做受xxxxx在| 精品国产高清a毛片无毒不卡| 日本一区二区在线资源| 东北熟妇露脸25分钟| av无码一区二区三区| 中文字幕无码家庭乱欲| 69堂在线无码视频2020| 国产不卡在线观看视频| 国产亚洲欧洲aⅴ综合一区| 国产性一交一乱一伦一色一情| 国品精品一区二区在线观看| 亚洲第一女人天堂av| 国产成人精品免费视频大全软件| 五月婷婷俺也去开心| 精品无码国产一二三区麻豆|