亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        知識(shí)圖譜增強(qiáng)的科普文本分類模型

        2022-05-07 07:07:12唐望徑仝美涵韓美奐王黎明
        計(jì)算機(jī)應(yīng)用 2022年4期

        唐望徑,許 斌,仝美涵,韓美奐,3,王黎明,鐘 琦

        (1.清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,北京 100084;2.北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044;3.清華大學(xué)深圳國(guó)際研究生院,廣東深圳 518055;4.中國(guó)科普研究所,北京 100081)

        0 引言

        文本分類是信息處理和數(shù)據(jù)挖掘的重要研究方向,是自然語(yǔ)言處理(Natural Language Processing,NLP)的核心任務(wù)之一,廣泛應(yīng)用于新聞分類、輿情分析、推薦系統(tǒng)等領(lǐng)域。隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)科普資源呈指數(shù)級(jí)增長(zhǎng),與此同時(shí),海量的科普文本對(duì)人工進(jìn)行文本分類提出嚴(yán)峻的挑戰(zhàn)。一方面,傳統(tǒng)人工識(shí)別文本類型的方法耗時(shí)耗力、效率低下;另一方面,由于科普文章涉及領(lǐng)域廣泛,科普工作者對(duì)科普文章類型識(shí)別往往受到自身專業(yè)領(lǐng)域知識(shí)的限制,難以掌握科普所有領(lǐng)域。因此,利用計(jì)算機(jī)智能輔助專家對(duì)文本進(jìn)行自動(dòng)分類,能夠幫助科普工作者快速、準(zhǔn)確地對(duì)文章歸檔。

        早期淺層學(xué)習(xí)模型通常使用人工特征工程的方法獲取適當(dāng)?shù)奈谋咎卣鱽?lái)表征樣本,之后將特征輸入到機(jī)器學(xué)習(xí)分類模型中,如樸素貝葉斯(Naive Bayes,NB)、支持向量機(jī)(Support Vector Machine,SVM)、和

        K

        近鄰(

        K

        -Nearest Neighbor,

        K

        NN)等。淺層學(xué)習(xí)模型需要設(shè)計(jì)特征提取方法,往往代價(jià)昂貴。

        隨著深度學(xué)習(xí)理論及計(jì)算機(jī)硬件的發(fā)展,深度學(xué)習(xí)模型在文本分類領(lǐng)域得到廣泛應(yīng)用。深度學(xué)習(xí)模型將特征工程集成到模型擬合過(guò)程中,簡(jiǎn)化了分類流程,降低了模型的成本開(kāi)銷。深度學(xué)習(xí)常用模型主要有卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)以及近些年效果表現(xiàn)優(yōu)異的預(yù)訓(xùn)練模型BERT(Bidirectional Encoder Representation from Transformers)。Kim在2014 年首次提出用于文本分類的CNN 模型,其表現(xiàn)與復(fù)雜的基于特征學(xué)習(xí)的分類器模型相比毫不遜色,激發(fā)了深度學(xué)習(xí)文本分類模型的研究熱潮。然而,當(dāng)文本長(zhǎng)度較長(zhǎng)時(shí),CNN 難以提取較好的全局特征。RNN 能夠?qū)?fù)雜的單詞序列學(xué)習(xí)特征,有利于在較長(zhǎng)的文本中提取單詞的全局時(shí)序特征,但是存在梯度消失和梯度爆炸等問(wèn)題。預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型通過(guò)在大規(guī)模無(wú)監(jiān)督的語(yǔ)料上預(yù)訓(xùn)練,再在文本分類任務(wù)上微調(diào)從而達(dá)到目前最優(yōu)的效果;但是預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型輸入的長(zhǎng)度受限,無(wú)法捕獲長(zhǎng)文本語(yǔ)義,同時(shí)由于是端到端模型,缺乏知識(shí)的引導(dǎo)。

        基于上述模型的問(wèn)題,針對(duì)科普文章篇幅超過(guò)千字導(dǎo)致模型難以聚焦分類關(guān)鍵信息、性能不佳的問(wèn)題,本文提出了知識(shí)圖譜增強(qiáng)的科普文本分類模型。首先,采用四步法構(gòu)建了科普領(lǐng)域知識(shí)圖譜,之后將圖譜中的實(shí)體信息作為遠(yuǎn)程監(jiān)督器,訓(xùn)練一個(gè)二分類模型作為信息過(guò)濾器,對(duì)句子進(jìn)行打分、排序并完成篩選,從而使得到的句子特征表示包含更多分類類別相關(guān)信息,以緩解層次模型無(wú)法突出關(guān)鍵語(yǔ)義信息的缺陷。然后,為了進(jìn)一步降低主題無(wú)關(guān)信息干擾,提高分類模型性能,本文引入句級(jí)別注意力模型,對(duì)篩選后的句子信息進(jìn)行二次過(guò)濾。最后,在構(gòu)建的科普文本分類數(shù)據(jù)集(Popular Science Classification Dataset,PSCD)上進(jìn)行對(duì)比實(shí)驗(yàn),根據(jù)實(shí)驗(yàn)結(jié)果,本文所提模型取得良好的分類效果,驗(yàn)證了模型的有效性。相較于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型,本文模型在召回率和F1 指標(biāo)上有所提升。

        本文的主要工作如下:1)提出了知識(shí)圖譜增強(qiáng)的科普文本分類模型,通過(guò)科普知識(shí)圖譜來(lái)進(jìn)行主題句篩選,并引入句級(jí)別注意力模型,最終通過(guò)一個(gè)全連接神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)科普文本分類;2)構(gòu)造了一個(gè)科普文本分類數(shù)據(jù)集,包含了13 372篇科普文章,且本文模型在該數(shù)據(jù)集上取得了最優(yōu)效果。

        1 相關(guān)工作

        1.1 文本分類

        傳統(tǒng)的NB 和SVM 等文本分類模型通常需要將分類流程劃分為特征工程設(shè)計(jì)和分類器設(shè)計(jì)兩部分,構(gòu)建代價(jià)昂貴。隨著深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)模型將特征提取融合進(jìn)模型擬合過(guò)程中,使得模型能夠直接從輸入中學(xué)習(xí)特征表示,無(wú)需過(guò)多的人工干預(yù)和先驗(yàn)知識(shí)。此外,由于深度學(xué)習(xí)模型具有更高的復(fù)雜度,相較于淺層模型具備更優(yōu)異的效果。TextCNN作為一次成功的嘗試,激發(fā)了研究人員在文本分類領(lǐng)域應(yīng)用CNN 的熱情。由于TextCNN 無(wú)法通過(guò)卷積獲取文本的長(zhǎng)距離依賴關(guān)系,為解決該問(wèn)題,Johnson 等提出了深度金字塔CNN(Deep Pyramid CNN,DPCNN),通過(guò)不計(jì)成本地增加網(wǎng)絡(luò)深度,模型能夠更精準(zhǔn)地抽取長(zhǎng)距離的文本依賴關(guān)系。RNN 能夠通過(guò)遞歸計(jì)算捕獲長(zhǎng)距離依賴關(guān)系,但存在梯度消失和梯度爆炸問(wèn)題。人們通常使用RNN的改進(jìn)模型長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)。RNN 能夠更好地捕捉上下文信息,但對(duì)于局部信息的提取能力欠佳。Lai 等提出了用于文本分類任務(wù)的循環(huán)CNN(Recurrent CNN,RCNN)模型,利用雙向LSTM 結(jié)構(gòu)替換CNN 中的卷積層,對(duì)文本進(jìn)行編碼,較好地捕獲了長(zhǎng)文本上的序列信息;同時(shí),通過(guò)CNN 的最大池化層,較好地捕獲了文本的局部特征。

        1.2 注意力機(jī)制

        神經(jīng)網(wǎng)絡(luò)能夠很好地與注意力機(jī)制結(jié)合,在文本建模時(shí)將注意力聚焦于分類的關(guān)鍵信息上,從而提高文本分類效果。注意力機(jī)制在計(jì)算機(jī)視覺(jué)領(lǐng)域首先被提出,隨后因被應(yīng)用到機(jī)器翻譯的端到端模型而引入NLP 領(lǐng)域。注意力機(jī)制通過(guò)目標(biāo)向量對(duì)輸入序列進(jìn)行打分,將注意力聚焦于輸入序列中更為重要的部分,使輸出結(jié)果更加精確。因此,注意力機(jī)制逐漸被應(yīng)用于文本分類等NLP 任務(wù)中。

        在處理由許多句子組成的長(zhǎng)文本時(shí),直接將文本作為長(zhǎng)序列進(jìn)行處理往往容易忽略文本層級(jí)結(jié)構(gòu)中蘊(yùn)含的信息,因此Yang 等提出了基于層級(jí)注意力網(wǎng)絡(luò)(Hierarchical Attention Network,HAN)的文本分類模型,該模型以雙向門控循環(huán)單元(Gate Recurrent Unit,GRU)作為編碼器,通過(guò)兩層注意力機(jī)制使模型更好地捕獲文本中的重要信息,提高了長(zhǎng)文本分類的模型性能表現(xiàn)。文獻(xiàn)[13]通過(guò)一種無(wú)監(jiān)督的段落向量生成模型PV-DM(Distributed Memory model of Paragraph Vectors),基于結(jié)合注意力的CNN 分類模型在長(zhǎng)文本分類任務(wù)中取得了較好的效果。Choi 等以ALBERT(A Lite BERT)作為編碼器,通過(guò)類別表示層提取分類的類別信息,使用類別信息對(duì)句子信息進(jìn)一步增強(qiáng),之后通過(guò)句注意力機(jī)制對(duì)句子信息進(jìn)行篩選,獲取了文本重要信息,有效提高了長(zhǎng)文本分類模型性能。

        2 本文模型

        圖1 為本文所提知識(shí)圖譜增強(qiáng)的科普文本分類模型總體架構(gòu)。

        圖1 知識(shí)圖譜增強(qiáng)的科普文本分類模型架構(gòu)Fig.1 Achitecture of popular science text classification model enhanced by knowledge graph

        通常,語(yǔ)料中的所有文本表示為

        T

        ={

        t

        ,

        t

        ,…,

        t

        ,…,

        t

        },

        t

        表示語(yǔ)料中第

        i

        篇文本,|

        T

        |表示語(yǔ)料中包含的文本數(shù)量;每篇文本可以被表示為

        t

        ={

        S

        ,

        S

        ,…,

        S

        ,…,

        S

        },

        S

        表示文本中的第

        j

        個(gè)句子,

        n

        =|

        t

        |表示文本中包含的句子數(shù)量;經(jīng)過(guò)特征提取后,句子

        S

        被表示為句向量

        v

        ,句向量維度為768。

        本文分類模型的建立流程如圖2 所示。

        圖2 模型流程Fig.2 Model flowchart

        流程主要由以下四部分組成:

        1)科普領(lǐng)域知識(shí)圖譜構(gòu)建。借鑒“四步法”構(gòu)造科普領(lǐng)域知識(shí)圖譜。

        2)文本信息篩選。首先將文本切分為句子集,使用預(yù)訓(xùn)練模型BERT 作為編碼器,將句子編碼為連續(xù)空間下的句向量,以實(shí)現(xiàn)對(duì)文本句子特征提取。以二分類器作為過(guò)濾器,利用知識(shí)圖譜中蘊(yùn)含的實(shí)體信息對(duì)文本句向量進(jìn)行篩選過(guò)濾,實(shí)現(xiàn)文本的信息篩選。

        3)注意力機(jī)制。使用注意力機(jī)制對(duì)信息篩選后結(jié)果做進(jìn)一步的增強(qiáng)。

        4)通過(guò)全連接層和Softmax 函數(shù)實(shí)現(xiàn)科普文本分類。

        2.1 構(gòu)建科普領(lǐng)域知識(shí)圖譜

        本文借鑒了領(lǐng)域知識(shí)圖譜構(gòu)建方法“四步法”。首先,對(duì)果殼網(wǎng)、環(huán)球科學(xué)、Science 科學(xué)等共68 家科普微信公眾號(hào)進(jìn)行數(shù)據(jù)采集,獲取近20 萬(wàn)篇科普文章。構(gòu)建領(lǐng)域圖譜首先需要進(jìn)行本體構(gòu)建,通過(guò)使用統(tǒng)計(jì)方法結(jié)合人工歸納、借鑒高質(zhì)量通用圖譜和專家指導(dǎo)構(gòu)建了圖譜本體。首先通過(guò)詞頻―逆文本頻率(Term Frequency-Inverse Document Frequency,TF-IDF)算法和TextRank 算法提取采集文章的關(guān)鍵詞,同時(shí)通過(guò)

        K

        -Means 聚類算法對(duì)文章進(jìn)行聚類,通過(guò)人工觀察關(guān)鍵詞和聚類結(jié)果,得到了初步的領(lǐng)域概念。之后結(jié)合百度百科、Wikipedia 等通用圖譜對(duì)領(lǐng)域概念進(jìn)行修改并定義領(lǐng)域關(guān)系及其約束。其中:一級(jí)概念共10 個(gè),分別為軍事、農(nóng)業(yè)、科學(xué)文化、醫(yī)學(xué)、健康、生態(tài)環(huán)境、信息科技、空間科學(xué)、基礎(chǔ)學(xué)科、生活百科;二級(jí)概念共45 個(gè)。最后,根據(jù)中國(guó)科普研究所專家指導(dǎo),對(duì)構(gòu)建本體進(jìn)行檢查和評(píng)估,修改完善后得到最終的科普領(lǐng)域本體。根據(jù)定義好的科普領(lǐng)域本體結(jié)構(gòu),從互聯(lián)網(wǎng)上公開(kāi)的知識(shí)圖譜(如:百度百科、Wikipedia、XLORE 等)以及其他結(jié)構(gòu)化較好的網(wǎng)站中獲取大量結(jié)構(gòu)較好、質(zhì)量較高的實(shí)體數(shù)據(jù),并結(jié)合半監(jiān)督和遠(yuǎn)程監(jiān)督方法,通過(guò)人工篩選獲取實(shí)體間關(guān)系。

        2.2 文本信息篩選

        文本信息篩選是本文模型對(duì)文本信息進(jìn)行提取過(guò)濾的部分,本節(jié)將按順序分別介紹以下兩步:第一步,以預(yù)訓(xùn)練模型BERT 作為編碼器對(duì)文本中所有句子進(jìn)行特征提??;第二步,以科普知識(shí)圖譜為監(jiān)督源構(gòu)建二分類過(guò)濾器,使用構(gòu)建的過(guò)濾器計(jì)算句子領(lǐng)域相關(guān)系數(shù),并按照該系數(shù)對(duì)每篇文本句子進(jìn)行定量篩選。

        2.2.1 特征提取

        Google 的Devlin 等在2018 年提出了大規(guī)模預(yù)訓(xùn)練模型BERT,在特征提取任務(wù)上取得了極佳效果。BERT 模型由多層雙向的Transformer解碼器構(gòu)成,Transformer 模型的核心是注意力機(jī)制。BERT 采用多頭注意力(Multi-Head Attention)機(jī)制,能夠更好地獲取目標(biāo)字在多種語(yǔ)義場(chǎng)景下與其上下文構(gòu)造的語(yǔ)義信息。

        H

        的計(jì)算公式為:

        其中:

        W

        表示權(quán)重矩陣,為輸出向量重新分配權(quán)重;

        h

        表示第

        i

        個(gè)頭的輸出向量。

        h

        的計(jì)算公式為:

        其中:

        Q

        K

        、

        V

        表示輸入向量經(jīng)過(guò)線性映射后得到的矩陣;

        d

        表示

        K

        向量的維度。

        2.2.2 信息過(guò)濾

        本文通過(guò)四步法構(gòu)建了科普領(lǐng)域知識(shí)圖譜,該圖譜的實(shí)體類別與科普文本分類類別一致。首先將科普文本分類數(shù)據(jù)集中的測(cè)試集按照7∶3 比例劃分出用于訓(xùn)練信息過(guò)濾二分類器的訓(xùn)練集和測(cè)試集,對(duì)所得訓(xùn)練集和測(cè)試集進(jìn)行句子切分,得到以句子為單位的訓(xùn)練句子集和測(cè)試句子集。之后,將科普?qǐng)D譜中實(shí)體與上述所得句子集中句子進(jìn)行鏈接,為句子賦予標(biāo)簽

        L

        =[0,1],實(shí)體鏈接成功句子標(biāo)簽賦1,鏈接失敗句子標(biāo)簽賦0。通過(guò)上述預(yù)處理,將語(yǔ)料測(cè)試集轉(zhuǎn)化為如下所示數(shù)據(jù)二元組:

        圖3 句子過(guò)濾器結(jié)構(gòu)Fig.3 Structure of sentence filter

        將輸入文本切分為句子集合,集合中句子

        S

        輸入訓(xùn)練好的二分類模型后,模型通過(guò)預(yù)訓(xùn)練模型BERT 對(duì)句子進(jìn)行特征提取,提取的特征信息將會(huì)通過(guò)輸出層得到輸出。輸出層包括線性層、激活函數(shù),計(jì)算公式如下所示:

        線性層維度為[768,768],為隨機(jī)初始化的全連接層。為了避免出現(xiàn)線性模型表達(dá)能力不足的問(wèn)題,將線性層輸出結(jié)果輸入激活函數(shù),以此為模型添加非線性因素。將經(jīng)過(guò)激活函數(shù)后結(jié)果輸入Softmax 函數(shù)進(jìn)行歸一化處理,取標(biāo)簽

        L

        =1 的概率,將其視為領(lǐng)域相關(guān)系數(shù)

        q

        ∈[0,1],計(jì)算公式如下:

        按照領(lǐng)域相關(guān)系數(shù)

        q

        對(duì)相應(yīng)的句向量

        v

        進(jìn)行排序,選出分?jǐn)?shù)值排名靠前的

        n

        個(gè)句向量

        V

        =[

        v

        ;

        v

        ;…;

        v

        ]作為下一部分注意力模型輸入。同時(shí),保持了各句向量在原文本中的先后順序,以避免造成位置信息丟失,影響模型分類性能。

        2.3 注意力機(jī)制

        文章中不同的句子對(duì)于文章內(nèi)容理解的貢獻(xiàn)程度不同。為計(jì)算句向量對(duì)于區(qū)分文章類別的貢獻(xiàn)程度,本文引入了注意力機(jī)制,其具體結(jié)構(gòu)如圖4 所示。

        圖4 注意力機(jī)制結(jié)構(gòu)Fig.4 Structure of attention mechanism

        注意力模型的計(jì)算公式如下:

        2.4 文本分類

        通過(guò)注意力機(jī)制,得到了句向量對(duì)應(yīng)分類的注意力。通過(guò)注意力對(duì)句向量進(jìn)行聚合,得到

        v

        ,該向量包含了經(jīng)過(guò)過(guò)濾器和注意力機(jī)制雙重篩選后的文本信息。將

        v

        輸入由全連接層和Softmax 函數(shù)構(gòu)成的多分類器中,得到類別概率:

        通過(guò)最小化分類的交叉熵誤差,以有監(jiān)督的方式訓(xùn)練模型。損失函數(shù)如下:

        其中:

        N

        為樣本數(shù);

        C

        為多分類類別總數(shù);若預(yù)測(cè)類別和樣本所屬類別相同則

        y

        為1,否則為0;

        p

        為文本

        t

        屬于類別

        c

        的概率。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        為了驗(yàn)證模型效果,本文構(gòu)建了科普文本分類數(shù)據(jù)集PSCD。首先,對(duì)照科普領(lǐng)域知識(shí)圖譜實(shí)體分類,從科普中國(guó)等國(guó)內(nèi)著名科普網(wǎng)站中爬取相應(yīng)欄目的科普文章。剔除內(nèi)容過(guò)短和過(guò)長(zhǎng)的科普文本,對(duì)篩選后文本進(jìn)行去重和數(shù)據(jù)清洗,最終得到科普文本分類數(shù)據(jù)集??破臻L(zhǎng)文本分類數(shù)據(jù)集中單個(gè)文本長(zhǎng)度為102~26 722。數(shù)據(jù)集中包含10 個(gè)分類,共13 372 篇文本,其中短文本730 篇,長(zhǎng)文本11 195 篇,超長(zhǎng)文本1 447 篇。實(shí)驗(yàn)隨機(jī)選取80%作為訓(xùn)練數(shù)據(jù),20%作為測(cè)試數(shù)據(jù)。數(shù)據(jù)集具體細(xì)節(jié)統(tǒng)計(jì)如表1 和圖5 所示。

        表1 數(shù)據(jù)集詳細(xì)情況Tab 1 Dataset details

        圖5 輸入文本長(zhǎng)度分布統(tǒng)計(jì)情況Fig.5 Statistics on length distribution of input text

        3.2 基線方法及實(shí)驗(yàn)設(shè)置

        3.2.1 基線方法

        為評(píng)價(jià)模型在長(zhǎng)文本分類任務(wù)上的性能,引入了多種典型模型進(jìn)行實(shí)驗(yàn)對(duì)比,以下詳細(xì)描述了所有進(jìn)行比較的模型:

        1)FastText:該模型是一個(gè)使用淺層神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的快速文本分類算法,不需要使用預(yù)訓(xùn)練詞向量,模型會(huì)在訓(xùn)練過(guò)程中訓(xùn)練詞向量。該模型分類效果較好,需要的訓(xùn)練時(shí)間極少,是一種高效的工業(yè)級(jí)分類模型。

        2)TextCNN:該模型是CNN 在NLP 中的一次成功的應(yīng)用,能夠利用CNN 對(duì)局部特征捕捉的特性,獲取不同抽象層次的語(yǔ)義信息。

        3)TextRNN:該模型是一種RNN,將經(jīng)過(guò)預(yù)訓(xùn)練詞向量模型后的詞向量表示按順序輸入雙向LSTM 中,將LSTM最后一個(gè)時(shí)間步長(zhǎng)中的隱藏狀態(tài)輸入Softmax 層后輸入全連接層進(jìn)行分類,最終輸出文本分類。

        4)TextRCNN:RNN 能夠更好地捕捉上下文信息,而CNN 能夠有效地捕捉局部特征。該模型結(jié)合了RNN 和CNN的特點(diǎn),將CNN 中的卷積層換成了雙向的循環(huán)結(jié)構(gòu),使其能夠有效減少噪聲,最大限度地捕捉上下文信息。同時(shí)該模型保留了最大池化層,保證了模型對(duì)局部特征的提取能力。

        5)BERT:該模型為2018 年谷歌提出的大規(guī)模預(yù)訓(xùn)練模型,模型框架基于Transformer,實(shí)現(xiàn)了多層雙向Transformer 編碼器。該模型一經(jīng)發(fā)布,就在多項(xiàng)NLP 任務(wù)中取得了SOTA 結(jié)果。雖然該模型主要任務(wù)并不是文本分類,但由于其優(yōu)秀的文本表征能力,本文使用中文BERT 預(yù)訓(xùn)練模型作為編碼器,將結(jié)果輸入Softmax 函數(shù)和全連接層,實(shí)現(xiàn)文本分類任務(wù)。

        3.2.2 實(shí)驗(yàn)設(shè)置

        所有基線模型均為基于字級(jí)別的分類模型。由于BERT輸入長(zhǎng)度限制為510 字,且原數(shù)據(jù)集中文本長(zhǎng)度較長(zhǎng),故對(duì)BERT 模型輸入文本進(jìn)行預(yù)處理,對(duì)長(zhǎng)度超過(guò)510 字文本,從文本開(kāi)頭截取長(zhǎng)度為510 字文本作為模型輸入,對(duì)長(zhǎng)度未超過(guò)限制的文本則不做處理。

        對(duì)比實(shí)驗(yàn)中,TextCNN、TextRNN、TextRCNN 均使用預(yù)訓(xùn)練詞向量模型Word2Vec 生成詞向量,設(shè)置單詞嵌入維度為300,文本長(zhǎng)度均未作處理。

        實(shí)驗(yàn)運(yùn)行服務(wù)器配置為Intel Core i9-10900K CPU,顯卡為RTX 3090。

        3.3 評(píng)測(cè)標(biāo)準(zhǔn)

        本文采用準(zhǔn)確率

        Acc

        (Accuracy)、召回率

        R

        (Recall)以及F1 值(F1-score)作為對(duì)本文分類模型效果的評(píng)價(jià)指標(biāo)。計(jì)算公式如下:

        其中:

        TP

        (True Positives)表示預(yù)測(cè)為正的正樣本,

        FP

        (False Positives)表示預(yù)測(cè)為正的負(fù)樣本,

        FN

        (False Negatives)表示預(yù)測(cè)為負(fù)的正樣本,

        TN

        (True Negatives)表示預(yù)測(cè)為負(fù)的負(fù)樣本。

        3.4 實(shí)驗(yàn)結(jié)果分析

        表2 為上述各基線模型與本文模型在科普文本分類數(shù)據(jù)集PSCD 上分類表現(xiàn)。由表2 可知,本文模型在平均召回率以及平均F1 值上最高,相較于TextCNN 和BERT,分別提高了2.88 和1.88 個(gè)百分點(diǎn);BERT 在所有基線模型中表現(xiàn)最佳,TextCNN、TextRCNN 均在數(shù)據(jù)集上取得了較好的分類效果。雖然TextRNN 使用LSTM 替代普通RNN,解決了處理較長(zhǎng)文本時(shí)會(huì)出現(xiàn)的梯度消失問(wèn)題,但是由于科普文本中長(zhǎng)文本數(shù)量多、字?jǐn)?shù)長(zhǎng),該模型在PSCD 上的分類表現(xiàn)仍較差。FastText 表現(xiàn)僅優(yōu)于TextRNN,但其模型的訓(xùn)練耗時(shí)明顯少于其他模型,同時(shí)不需要預(yù)訓(xùn)練詞向量,故其仍是一個(gè)非常優(yōu)秀的分類模型。

        表2 PSCD上各模型的表現(xiàn) 單位:%Tab 2 Performance of each model on PSCD unit:%

        為了更進(jìn)一步探索模型的效果,故對(duì)測(cè)試集中分類錯(cuò)誤案例進(jìn)行了分析。當(dāng)文本句子個(gè)數(shù)上限設(shè)置為30 時(shí),共在測(cè)試集中得到類別錯(cuò)誤劃分案例453 例,其中,文本句子數(shù)量少于30 的案例共272 例,文本句子數(shù)多于或等于30 的案例共181 例。即文本中句子數(shù)量對(duì)于模型的分類效果造成了一定的影響。之后,對(duì)案例中各分類數(shù)量占比進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)錯(cuò)誤常常出現(xiàn)在涉及學(xué)科領(lǐng)域交叉應(yīng)用的文章的分類中,如圖6 所示。

        圖6 錯(cuò)誤案例Fig.6 Error case

        該文章開(kāi)頭提及了以色列國(guó)防軍配備了一種裝載人工智能系統(tǒng)的坦克,并在后續(xù)對(duì)該坦克進(jìn)行了詳細(xì)介紹,之后花費(fèi)了大量篇幅對(duì)軍事領(lǐng)域內(nèi)容進(jìn)行了描述。文章中大量出現(xiàn)“國(guó)防軍”“坦克”“裝甲戰(zhàn)斗”等軍事領(lǐng)域詞匯和科普?qǐng)D譜中屬于軍事科普分類下的“MerkavaMk4Barak 坦克”“IronViewVR 頭盔”等軍事實(shí)體。雖然該文本主要內(nèi)容為人工智能技術(shù)在軍事領(lǐng)域應(yīng)用及相關(guān)的倫理問(wèn)題,應(yīng)屬于信息科技分類,但大量的軍事領(lǐng)域詞匯和軍事領(lǐng)域?qū)嶓w形成的噪聲誤導(dǎo)了分類器,以至于將本屬于信息科技分類下的文本劃分到軍事科普分類中。類似情況在錯(cuò)誤案例中頻繁發(fā)生。

        上述結(jié)果表明,利用知識(shí)圖譜實(shí)體信息構(gòu)建的過(guò)濾器,對(duì)長(zhǎng)文本進(jìn)行句子篩選,能夠有效地提取包含領(lǐng)域相關(guān)實(shí)體、領(lǐng)域詞匯句子,對(duì)長(zhǎng)文本分類模型性能有所提升。

        4 結(jié)語(yǔ)

        本文研究基于領(lǐng)域知識(shí)圖譜的文本分類模型,提出了知識(shí)圖譜增強(qiáng)的科普文本分類模型。首先,將輸入文本切分為句子集,使用BERT 作為句子編碼器,將所有句子轉(zhuǎn)化為句向量集;然后,構(gòu)建了一個(gè)以科普領(lǐng)域圖譜實(shí)體信息作為監(jiān)督數(shù)據(jù)源,科普文本句子集作為輸入的二分類過(guò)濾器,基于過(guò)濾器,對(duì)輸入文本進(jìn)行篩選,輸出固定數(shù)量且排名靠前的句子向量;最后,通過(guò)注意力模型獲得對(duì)文本信息高度總結(jié)的輸出向量,將其輸入分類層獲得文本對(duì)應(yīng)類別概率,以實(shí)現(xiàn)文本分類。通過(guò)在科普分類數(shù)據(jù)集PSCD 進(jìn)行對(duì)比實(shí)驗(yàn)表明,所提出模型在分類性能優(yōu)于基線模型中召回率最高的TextCNN 模型以及F1-Score 最高的BERT 模型,與BERT 模型相比,召回率和F1-Score 分別提升了3.18 個(gè)百分點(diǎn)和1.88個(gè)百分點(diǎn)。對(duì)錯(cuò)誤案例的分析可知,僅利用實(shí)體及類別信息不足以解決交叉領(lǐng)域中次要領(lǐng)域信息對(duì)分類造成影響的問(wèn)題。在后續(xù)工作中,將嘗試通過(guò)引入更多圖譜信息解決上述問(wèn)題。

        致謝:此項(xiàng)工作得到了中國(guó)科普研究所2020年委托合作項(xiàng)目“自然語(yǔ)言處理方法在科普領(lǐng)域的應(yīng)用研究”(200110EMR028)支持。

        最近中文字幕一区二区三区| 国产a v无码专区亚洲av| 久久青草免费视频| 久久久久久成人毛片免费看 | 亚洲高清中文字幕精品不卡| av在线播放一区二区免费| 午夜亚洲精品视频在线| 色欲网天天无码av| 2019年92午夜视频福利| 人妻少妇看A偷人无码电影| 91精品国产色综合久久不| 国产亚洲精品色婷婷97久久久| 曰欧一片内射vα在线影院| 成人网站免费大全日韩国产| 久久国产国内精品对话对白| 国产午夜视频高清在线观看| 日韩亚洲无吗av一区二区| 熟妇激情内射com| 午夜一级在线| 久久精品国产亚洲av蜜臀久久 | 九九久久精品无码专区| 久久久精品国产亚洲AV蜜| 亚洲欧美日韩一区在线观看 | 三区中文字幕在线观看| 亚洲av日韩精品久久久久久a| 无码人妻丰满熟妇片毛片| 99精品视频69v精品视频免费| 免费在线观看视频专区| 日韩精品熟女中文字幕| 蜜桃日本免费看mv免费版| 免费人成视频x8x8| AV成人午夜无码一区二区| 91亚洲精品久久久中文字幕| 精品香蕉一区二区三区| 国产亚洲精品久久久ai换| 国内精品人妻无码久久久影院94 | 国产三级黄色免费网站| 色综合久久久久综合99| 国产全肉乱妇杂乱视频| 亚洲性无码av在线| 日韩人妻系列在线观看|