亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于深度學習的中文文本特征提取與分類方法

        2019-12-25 09:06:48曹魯慧鄧玉香陳通李釗
        山東科學 2019年6期
        關鍵詞:特征提取文檔卷積

        曹魯慧,鄧玉香,陳通,李釗

        (1.山東大學,山東 濟南 250100;2.山東財源保障評價中心,山東 濟南 250001;3.山東省電子政務大數(shù)據(jù)工程技術(shù)研究中心,山東 濟南 250014;4.齊魯工業(yè)大學(山東省科學院)山東省計算中心(國家超級計算濟南中心)山東省計算機網(wǎng)絡重點實驗室, 山東 濟南 250014)

        特征提取是機器學習中一項非常重要的特征工程任務,是處理機器學習任務的關鍵,同時也是數(shù)據(jù)挖掘、信息檢索等領域中非常重要的一項內(nèi)容。在機器學習領域眾多的任務中,特征提取往往決定任務結(jié)果的好壞,就常用的分類任務而言,其分類結(jié)果的好壞同樣取決于其所提取的特征的質(zhì)量。傳統(tǒng)的特征提取方法通常是人工提取,這種方法提取的特征通常包含與分類任務無關以及冗余的特征,此外其特征的維度通常比較大,這不僅使得模型訓練過程效率降低、消耗資源,也會使模型過擬合并降低分類的準確率。為了解決特征維度過大、效率低下的問題,通常會對傳統(tǒng)方法提取的特征進行降維,在所有的特征中挑選一部分最能夠表示文本信息并使得分類效果最好的特征子集,但是這將使得分類任務的工作量增大。

        近年來越來越多的研究者通過深度學習技術(shù)對特征進行提取。Chen等[1]提出使用多個卷積層與池化層的卷積網(wǎng)絡來對高光譜圖像的特征進行提取,然后將提取的特征用于圖像分類以及目標檢測并取得了不錯的效果。在文本特征提取方面,Liang等[2]對文本特征提取的方法進行了概述,介紹了常用的傳統(tǒng)特征提取方法以及基于深度學習的特征提取方法。其中基于深度學習的特征提取方法主要包括自編碼神經(jīng)網(wǎng)絡特征提取、受限波茲曼機特征提取、循環(huán)神經(jīng)網(wǎng)絡特征提取以及一些其他的特征提取方法。Saxena等[3]討論了從傳統(tǒng)的詞袋模型方法到非傳統(tǒng)神經(jīng)網(wǎng)絡方法在文本分類特征提取中的所有應用方法,包括詞袋模型、向量空間模型、人工神經(jīng)網(wǎng)絡、模糊神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡以及深度信念網(wǎng)絡。Meng等[4]采用弱監(jiān)督多級神經(jīng)網(wǎng)絡對文本特征進行提取。Yao等[5]使用了圖卷積神經(jīng)網(wǎng)絡對文本進行了特征提取和分類。因此,結(jié)合深度學習進行文本特征提取已經(jīng)成為研究領域的熱點。

        目前使用深度學習技術(shù)提取特征在圖像領域應用相對比較廣泛,在文本特征提取方面文獻報道相對較少,尤其是針對中文文本的特征提取研究成果較為稀缺。同時,使用傳統(tǒng)的手工特征提取方法提取的特征維度通常比較大,使模型訓練效率低、消耗資源。因此使用深度學習方法對中文長文本數(shù)據(jù)集進行特征提取,能夠降低文本特征提取的難度,提高模型訓練效率,同時也能夠更準確地表示文本語義信息。本文使用兩種不同的深度學習神經(jīng)網(wǎng)絡結(jié)構(gòu)對文本特征進行提取。一種是卷積神經(jīng)網(wǎng)絡結(jié)構(gòu),該結(jié)構(gòu)源于Kim[6]提出的用于句子分類的卷積神經(jīng)網(wǎng)絡結(jié)構(gòu);另一種是本文新提出的卷積循環(huán)神經(jīng)網(wǎng)絡結(jié)構(gòu)。同時,使用傳統(tǒng)的TF-IDF以及Word2vec特征提取方法對文本特征進行表示,提取的特征分別放入SVM與隨機森林分類器中,對中國知網(wǎng)中文學術(shù)論文數(shù)據(jù)集進行分類。實驗結(jié)果表明,使用卷積神經(jīng)網(wǎng)絡和卷積循環(huán)神經(jīng)網(wǎng)絡結(jié)構(gòu)提取的高層文本特征比傳統(tǒng)方法提取的特征更能準確表示文本信息,同時使用SVM和隨機森林分類器取得的分類效果比原生的神經(jīng)網(wǎng)絡的效果更好。

        1 特征提取方法

        1.1 卷積神經(jīng)網(wǎng)絡

        卷積神經(jīng)網(wǎng)絡(CNN)最早應用于計算機視覺領域并且在處理計算機視覺任務上已經(jīng)比較成熟,如圖像分類、物體檢測[7-9]、圖像分割等。隨著深度學習技術(shù)的發(fā)展,越來越多的研究者將其應用到自然語言處理領域,Kim[6]使用卷積神經(jīng)網(wǎng)絡對文本進行分類并取得較好的分類效果。鑒于卷積網(wǎng)絡在分類任務中的應用比較成熟,本文同樣使用卷積神經(jīng)網(wǎng)絡對中文學術(shù)論文數(shù)據(jù)集進行分類,并建立特征提取模型以提取網(wǎng)絡中的高層特征來表示文本的語義信息,使用的卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)如表1所示。

        表1 常用文本特征提取卷積神經(jīng)網(wǎng)絡模型結(jié)構(gòu)

        本文建立的卷積網(wǎng)絡特征提取模型是以上述網(wǎng)絡結(jié)構(gòu)中第8層網(wǎng)絡的輸出,作為特征提取模型的輸出即使用上述網(wǎng)絡中最高層的特征作為文本的特征向量。根據(jù)上述網(wǎng)絡結(jié)構(gòu)可知每個樣本可用128維的向量進行表示,這將大為減少特征的維度,加快分類器的訓練速度,提高分類的準確率。

        1.2 TF-IDF

        TF-IDF(term frequency-inverse document frequency)即詞頻-逆文檔頻率[10-12],是基于統(tǒng)計學的計算詞權(quán)重的方法,是特征向量化的一種常用方法,在信息檢索、數(shù)據(jù)挖掘等領域應用非常廣泛。該方法用于評估一個詞在該文檔中對于區(qū)分語料庫中其他文檔的重要程度,即如果單詞出現(xiàn)在本文檔中的次數(shù)越多,在其他文檔中出現(xiàn)的次數(shù)越少,則表示該詞語對于這篇文檔具有越強的區(qū)分能力,其權(quán)重值就越大。

        TF表示一個詞在該篇文檔中出現(xiàn)的頻率,用于計算這個詞描述文檔內(nèi)容的能力。其計算公式如下。

        (1)

        式中,ni,j表示在第j篇文檔中該詞出現(xiàn)的次數(shù),∑knk,j表示對第j篇文檔中出現(xiàn)的所有詞的次數(shù)求和。

        IDF即逆文檔頻率主要是度量一個詞語的普遍重要性,如果一篇文檔的某個詞出現(xiàn)在語料庫中的大多數(shù)文檔中,則說明該詞不能夠?qū)ξ臋n進行區(qū)分,反之,則說明該詞能夠?qū)⒃撈臋n與語料庫中的其他文檔區(qū)分開來。某一詞語的IDF,是用語料庫中所有文檔的總數(shù)目除以含有該詞的文檔數(shù)目的商取對數(shù)。計算公式如下。

        (2)

        其中,|D|表示語料庫中所有文檔的數(shù)目,|{j:ti∈dj}|表示語料庫中包含詞語ti的文檔數(shù)目。如果詞語不在語料庫中則會導致分母為0,為了避免這種情況的發(fā)生,通常分母使用|{j:ti∈dj}|+1。然后

        Wi,j=Ti,j×Ii,

        (3)

        其中,Wi,j表示所計算文本在語料中的TF-IDF權(quán)重,文檔內(nèi)的高頻率詞語以及該詞語在整個語料庫中的低文檔頻率能夠產(chǎn)生較高的TF-IDF權(quán)重值。

        1.3 Word2vec

        Word2vec[13-14]是詞嵌入的一種方式,是谷歌開源出的一種詞嵌入工具,也是目前在自然語言處理領域應用比較廣泛的一種詞嵌入方式。Word2vec將每個特征詞映射到向量空間,并使用一個向量進行表示,在一定程度上刻畫了文本的語義信息,便于計算特征之間的關系及相似性。主要包括兩種模型,即跳字模型(skip-gram)和連續(xù)詞袋模型(CBOW)。跳字模型是根據(jù)中心詞去預測其上下文的背景詞并根據(jù)預測結(jié)果來不斷調(diào)整中心詞的詞向量。連續(xù)詞袋模型是根據(jù)上下文的背景詞去預測中心詞,然后根據(jù)中心詞的預測結(jié)果來不斷調(diào)整上下文背景詞的詞向量。在模型訓練過程中,為了減小計算復雜度,采用負采樣(negative sampling)或分層softmax(hierarchical softmax)兩種訓練方式。

        1.4 循環(huán)卷積神經(jīng)網(wǎng)絡

        卷積神經(jīng)網(wǎng)絡具有提取局部特征的優(yōu)勢,長短期記憶網(wǎng)絡(LSTM)具有捕獲上下文信息的能力。因此,本文結(jié)合二者的優(yōu)勢,提出一種基于卷積循環(huán)神經(jīng)網(wǎng)絡(CRNN)的文本分類方法。該模型首先使用卷積網(wǎng)絡對輸入的文本信息進行多組特征提取,并分別對其進行池化以提取文本中重要的特征,然后將提取出的特征進行融合送入LSTM神經(jīng)網(wǎng)絡并經(jīng)過全連接層輸出分類結(jié)果。該模型包含輸入層、詞嵌入層、卷積層、池化層、LSTM網(wǎng)絡層和全連接層,如表2所示。

        表2 卷積循環(huán)神經(jīng)網(wǎng)絡模型結(jié)構(gòu)

        由于卷積循環(huán)神經(jīng)網(wǎng)絡模型能夠取得較好的分類效果,因此,基于該模型建立的特征提取模型提取出的高層特征能夠準確地表示文本的語義信息。本文建立的卷積循環(huán)神經(jīng)網(wǎng)絡特征提取模型是以上述網(wǎng)絡結(jié)構(gòu)中的第10層的輸出作為模型的輸出,根據(jù)上述模型結(jié)構(gòu)可知,每個樣本可用60維的高層特征向量進行表示。

        2 實驗驗證

        2.1 實驗數(shù)據(jù)集

        本文使用的學術(shù)論文數(shù)據(jù)集來源于中國知網(wǎng)上的學術(shù)論文。數(shù)據(jù)集中包含10個文獻類別,分別為化學、輕工業(yè)手工業(yè)、畜牧與動物醫(yī)學、藥學、新聞與傳媒、鐵路運輸、兒科學、體育、物理學、農(nóng)業(yè)經(jīng)濟,每個類別選取40 000條數(shù)據(jù)作為實驗數(shù)據(jù),其中80%的數(shù)據(jù)集作為訓練數(shù)據(jù),20%的數(shù)據(jù)集作為測試數(shù)據(jù)。每條數(shù)據(jù)都包含4列,分別為類別、標題、摘要、關鍵詞。實驗中將標題、關鍵詞、摘要合并為一條更長的文本作為實驗數(shù)據(jù)的文本信息,由于數(shù)據(jù)集為非公開數(shù)據(jù)集,實驗結(jié)果數(shù)據(jù)均采用5次實驗的平均值。

        2.2 基于深度學習的文本分類實驗

        本文設計兩個對比實驗,即分別使用CNN和提出的CRNN直接對中文學術(shù)論文數(shù)據(jù)集進行分類,建立新的文本高層特征提取模型來提取神經(jīng)網(wǎng)絡中高層的文本特征,然后將提取的文本特征分別放入支持向量機(SVM)和隨機森林分類器中進行分類,將得到的分類結(jié)果進行比對。使用文本高層特征模型提取的特征在CNN、CRNN、SVM以及隨機森林中的實驗參數(shù)設置如表3所示,其中SVM核函數(shù)采用高斯核函數(shù)(RBF),隨機森林estimator參數(shù)設為100。

        表3 CNN與CRNN文本分類實驗配置

        2.3 基于TF-IDF的文本分類實驗

        TF-IDF是基于統(tǒng)計學的一種特征提取方法,本文使用TF-IDF方法對中文學術(shù)論文數(shù)據(jù)集進行特征提取并放入SVM和隨機森林分類器中對實驗數(shù)據(jù)進行分類。實驗中設置的最大特征個數(shù)為30 000,最小文檔頻率為2。

        2.4 基于Word2vec的文本分類實驗

        本文使用預訓練好的基于中文學術(shù)論文數(shù)據(jù)集的中文Word2vec詞向量模型,對中文學術(shù)論文數(shù)據(jù)集中的每個特征進行表示,然后將每個樣本中的特征詞向量進行求和來表示整個文本的特征向量,如下式所示。

        ti=xi1⊕xi2⊕…⊕xin,

        (4)

        式中,ti表示第i個文本的特征向量,xin表示第i個文本中第n個特征的詞向量。

        實驗中,使用神經(jīng)網(wǎng)絡中的詞嵌入層將文本數(shù)據(jù)集中的所有文本特征一次性轉(zhuǎn)化為預訓練好的Word2vec詞向量,而不是使用迭代的方式對每個特征詞進行詞向量轉(zhuǎn)換,這將提高實驗的效率,節(jié)省實驗時間。最后將通過Word2vec詞向量生成的文本特征向量放入SVM和隨機森林分類器中對實驗數(shù)據(jù)集進行分類。

        2.5 實驗結(jié)果分析

        分類結(jié)果匯總?cè)绫?所示。由實驗結(jié)果可知,使用基于神經(jīng)網(wǎng)絡的特征提取方法提取的高層文本特征在分類器中獲得的分類結(jié)果比使用TF-IDF以及Word2vec方法提取的特征獲得的分類效果更好,因此說明使用神經(jīng)網(wǎng)絡提取的高層文本特征向量更能準確地表示文本的語義信息。

        表4 學術(shù)論文數(shù)據(jù)分類結(jié)果

        分析其中可能原因:使用TF-IDF方法對文本進行表示時打亂了詞的順序,忽略了詞的上下文關系;使用Word2vec方法進行文本表示時,由于文本相對較長,使用詞的詞向量求和來表示文本向量時可能會丟失詞的語義信息。此外,使用神經(jīng)網(wǎng)絡特征提取模型提取的特征放入SVM和隨機森林分類器所得的分類效果略好于使用原生的神經(jīng)網(wǎng)絡分類方法。

        3 結(jié)論

        本文介紹了自然語言處理中文本特征提取和文本分類的相關研究現(xiàn)狀,對比了基于深度學習和傳統(tǒng)的TF-IDF、Word2vec等文本特征提取方法。在此基礎上提出了一種基于卷積循環(huán)神經(jīng)網(wǎng)絡(CRNN)的文本特征提取方法,充分結(jié)合CNN在局部特征提取以及循環(huán)神經(jīng)網(wǎng)絡LSTM具有記憶的優(yōu)勢,將提取的特征前后關聯(lián),可更好地表達文本含義。經(jīng)過論文數(shù)據(jù)集文本分類實驗驗證,基于深度學習的文本特征提取比傳統(tǒng)特征提取更有優(yōu)勢,同時提出的算法優(yōu)于基于CNN的文本特征提取算法。下一步計劃對比更多文本特征選擇的算法,另外針對中文的文本語義理解,增加注意力機制,實現(xiàn)大規(guī)模長文本的分類應用。

        猜你喜歡
        特征提取文檔卷積
        基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
        有人一聲不吭向你扔了個文檔
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        基于傅里葉域卷積表示的目標跟蹤算法
        Bagging RCSP腦電特征提取算法
        基于RI碼計算的Word復制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        一種基于卷積神經(jīng)網(wǎng)絡的性別識別方法
        男女上床视频在线观看| 少妇高潮潮喷到猛进猛出小说| 人妻丰满av无码中文字幕| 亚洲综合色婷婷七月丁香| 国产在线无码一区二区三区 | 亚洲高清乱码午夜电影网| 女人色毛片女人色毛片18| 亚洲av成人在线网站| 一本色道加勒比精品一区二区 | 日本激情久久精品人妻热| 不卡的高清av一区二区三区| 久久精品国产色蜜蜜麻豆 | 色欲av伊人久久大香线蕉影院| 无码精品国产va在线观看| 欧美成人三级一区二区在线观看 | 狠干狠爱无码区| 国产一区二区三区av免费观看| 国产影片一区二区三区| 芒果乱码国色天香| 亚洲综合伊人制服丝袜美腿| 自慰高潮网站在线观看| 国产午夜精品视频观看| 久久伊人精品一区二区三区| 亚洲一区二区三区国产精华液| 丰满少妇人妻无码超清| 国产女主播大秀在线观看| 精品国产品香蕉在线| 狠狠色婷婷久久综合频道日韩| 久久久久国产精品熟女影院| 久久精品成人亚洲另类欧美| 91精品国产综合久久精品密臀| 国产成人午夜无码电影在线观看| 久久精品国产日本波多麻结衣| 一本大道在线一久道一区二区| 日本av一级视频在线观看| 亚洲欧洲国产成人综合在线| av大片在线无码免费| 在线免费观看视频播放| 久久精品国产91精品亚洲| 少妇人妻偷人精品免费视频| 精品2021露脸国产偷人在视频|