亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于案件要素指導(dǎo)及深度聚類的新聞與案件相關(guān)性分析

        2021-12-27 01:32:42李云龍余正濤高盛祥郭軍軍彭仁杰
        中文信息學(xué)報(bào) 2021年11期
        關(guān)鍵詞:編碼器文檔卷積

        李云龍,余正濤,高盛祥,郭軍軍,彭仁杰

        (1. 昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2. 昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)

        0 引言

        案件領(lǐng)域輿情分析都是以某案件相關(guān)的新聞文本為基礎(chǔ)開展的,新聞與案件的相關(guān)性分析的目的是判斷新聞文本與案件是否相關(guān),是案件領(lǐng)域新聞?shì)浨榉治龅闹匾h(huán)節(jié),對(duì)于案件領(lǐng)域輿情分析具有重要意義。新聞與案件相關(guān)性分析可以被看作是一個(gè)文本聚類過(guò)程,即描述同一個(gè)案件的新聞文本被聚類到同一個(gè)案件簇下。目前對(duì)于文本聚類的相關(guān)研究可分為基于統(tǒng)計(jì)和基于深度學(xué)習(xí)兩類方法。基于統(tǒng)計(jì)的方法大多以向量空間模型為基礎(chǔ),通過(guò)更改文檔特征的提取方法或者利用外部知識(shí)增強(qiáng)文本表示來(lái)提升聚類效果。Kang等人[1]將文檔抽出的關(guān)鍵詞作為特征來(lái)表征文檔,從而完成文本的聚類。Bouras等人[2]利用WordNet中詞匯關(guān)系對(duì)原文本向量進(jìn)行補(bǔ)充,提出了一種基于WordNet的新聞文檔聚類方法。張雪松[3]等人運(yùn)用頻繁詞集對(duì)文本進(jìn)行表示,之后利用社區(qū)劃分算法實(shí)現(xiàn)文本聚類。然而,基于統(tǒng)計(jì)的方法沒有考慮文本的序列信息和句法語(yǔ)義信息,只能獲取淺層的語(yǔ)義特征。基于深度學(xué)習(xí)的文本聚類方法因其強(qiáng)大的語(yǔ)義表示能力成為目前研究的趨勢(shì),其主要思想是選用合適的監(jiān)督信號(hào),利用深度學(xué)習(xí)框架獲得文本的特征向量,提升聚類的效果。Xu等人[4]以文本的譜哈希作為監(jiān)督信息,利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文本的表征,最后使用K-means算法實(shí)現(xiàn)文本的聚類。Vakulenko等人[5]以主題標(biāo)簽作為監(jiān)督信息,利用雙向GRU(Gated Recurrent Unit)獲得推特新聞的向量表征,最后使用層次聚類完成推特的突發(fā)新聞事件檢測(cè)。以上方法將聚類過(guò)程和文本表示過(guò)程分離開來(lái)進(jìn)行。研究表明,共同優(yōu)化這兩項(xiàng)任務(wù)能提升聚類的效果[6]。Wang等人[7]提出將深度表示學(xué)習(xí)和K-means聚類結(jié)合設(shè)計(jì)聚類目標(biāo)函數(shù),并利用少量加標(biāo)數(shù)據(jù)和大量未加標(biāo)數(shù)據(jù)對(duì)目標(biāo)函數(shù)進(jìn)行迭代優(yōu)化,從而實(shí)現(xiàn)短文本半監(jiān)督聚類。Zhang等人[8]提出利用聚類的注意力捕獲文本表示和聚類簇之間的相關(guān)性,并在此基礎(chǔ)上,聯(lián)合學(xué)習(xí)文本表示和聚類模型?,F(xiàn)有聚類算法對(duì)于新聞與案件相關(guān)性分析任務(wù)來(lái)說(shuō),由于其缺乏有效的指導(dǎo)信息,導(dǎo)致聚類發(fā)散,降低了結(jié)果的準(zhǔn)確性。

        分析同一案件下的新聞文本可以發(fā)現(xiàn),雖然其立場(chǎng)和角度可能不同,但大多都包含相近的案件要素。表1展示了“重慶公交墜江案”兩篇不同的新聞報(bào)道,都包含了“案發(fā)地,涉案人員,案件描述”等案件要素信息,而這些案件要素能有效地對(duì)案件進(jìn)行表征。因此,探究在基于聚類的新聞與案件相關(guān)性分析任務(wù)中如何有效利用案件要素這一指導(dǎo)信息是非常有必要的。

        表1 重慶公交墜江案新聞示例

        具體來(lái)說(shuō),本文提出的基于案件要素指導(dǎo)及深度聚類的新聞與案件相關(guān)性分析方法,借鑒基于自編碼器聚類[9]及半監(jiān)督聚類[10]的思想,針對(duì)案件和新聞文本的特點(diǎn),抽出重要的句子表征文本,利用卷積自編碼器[11]獲得文本的向量化表征,充分利用案件要素對(duì)聚類過(guò)程和文本表征的指導(dǎo)作用,實(shí)現(xiàn)文本聚類。

        本文主要貢獻(xiàn)包括以下兩個(gè)方面:

        (1) 提出了利用案件要素初始化聚類中心的聚類方法,充分發(fā)揮案件要素在聚類過(guò)程中的指導(dǎo)作用;

        (2) 提出了在卷積自編碼器中施加聚類損失的方法,有效利用案件要素對(duì)文本向量化表征的指導(dǎo)作用。

        1 基于案件要素指導(dǎo)及深度聚類的新聞與案件相關(guān)性分析方法

        本文方法旨在將大量未標(biāo)記的案件新聞文本劃分到不同的案件中,實(shí)現(xiàn)新聞與案件的相關(guān)性分析,主要包含文本壓縮、文本表征及聚類三個(gè)模塊,總體框架如圖1所示。

        圖1 模型架構(gòu)圖

        1.1 基于多種摘要的文本壓縮

        作為篇章級(jí)文本,新聞文本通常包含幾十至幾百個(gè)句子,含有大量的冗余信息。研究發(fā)現(xiàn),重要的信息通常分布在一篇文章的幾句話中[12]。故本文采用多種摘要方法對(duì)新聞文本進(jìn)行摘要的抽取,利用投票的方法對(duì)摘要進(jìn)行合成,提取出重要的信息表征文本,實(shí)現(xiàn)文本壓縮。

        先將多種摘要文本壓縮任務(wù)形式化描述如下: 設(shè)一篇新聞文本為S={S1,S2,…,Sp},共包含p個(gè)句子。設(shè)q種方法生成的摘要分別為L(zhǎng)1v,L2v,…,Lqv, 簡(jiǎn)寫為L(zhǎng)1v:Lqv,其中,每個(gè)摘要包含v個(gè)句子,共包含o個(gè)不同的句子。目標(biāo)是從L1v:Lqv中選取z個(gè)句子作為壓縮后的文本。

        定義第i種摘要為fi(·),那么

        這里,利用Tan等人[13]在標(biāo)題生成任務(wù)中所使用的7種抽取式摘要方法對(duì)新聞文本進(jìn)行摘要,分別為L(zhǎng)ead,Luhn[14],LSA[15],LexRank[16],TextRank[17],SumBasic[18],KL-Sum[19]。那么i∈[1,7],即q=7。

        選取多個(gè)摘要中出現(xiàn)頻次最高的z個(gè)句子作為壓縮后的文本,當(dāng)頻次相同時(shí),考慮句子在文檔中出現(xiàn)的位置,選取位置靠前的句子。此外,本文認(rèn)為新聞標(biāo)題也是新聞的一部分,并且具有主題性和事實(shí)性,因此也在壓縮后的文本集合中加入了標(biāo)題信息。具體過(guò)程如算法1所示。

        1.2 案件要素對(duì)案件的表征

        Mikolov等人[20]提出的Word2Vec模型能夠利用詞的上下文信息將詞轉(zhuǎn)化成低維稠密向量,其得到的詞向量非常有利于表達(dá)詞的語(yǔ)義特征。

        案件要素是案件的結(jié)構(gòu)化展示,可以利用案件要素來(lái)表征案件。令Er={e1,e2,…,em}為第r案件的案件要素集合,共包含m個(gè)案件要素。對(duì)于每一個(gè)案件要素ei,都能把它表征為一個(gè)d維的詞向量wi,即Er={w1,w2,…,wm}。

        Mitchel等人[21]研究發(fā)現(xiàn)向量加是一種簡(jiǎn)單有效的語(yǔ)義組合方法。借鑒這一思想,用案件要素的詞向量的均值對(duì)案件進(jìn)行向量化表示。假設(shè)Cenr∈Rd為第r個(gè)案件的向量化表示,計(jì)算方法如式(2)所示。

        假設(shè)共有k個(gè)案件,使用Cen來(lái)表示案件的集合,那么:

        Cen為作為案件的向量化表示,可以直接將其作為“種子”來(lái)初始化聚類算法的聚類中心,指導(dǎo)聚類的過(guò)程。

        1.3 基于卷積自編碼器的文本表征

        對(duì)一篇新聞文本S壓縮后的句子集合X,令xi∈Rk是句子集合X中第i個(gè)詞的詞向量,并且該句子集合共包含n個(gè)詞。那么這篇新聞文本可以表示如式(4)所示。

        其中,⊕是拼接操作。也就是說(shuō),把句子集合X構(gòu)造為一個(gè)n×k維的文檔詞矩陣。

        1.3.1 編碼器

        采用Kim[22]提出的文本分類模型作為編碼器。對(duì)于輸入的單通道文檔詞矩陣x∈Rn×k,第τ個(gè)特征映射的潛在表示如式(5)所示。

        其中,Wτ∈Ra×k為第τ個(gè)卷積核,a為卷積核的高度。σ是激活函數(shù),*代表2d卷積操作,bτ是第τ個(gè)卷積操作的偏置項(xiàng)。由于本文使用的是窄卷積,故cτ∈Rn-a+1。

        對(duì)cτ進(jìn)行最大池化操作,得到hτ∈R,即:

        由于聚類中心的維度是d維,故需要d個(gè)卷積核對(duì)輸入的文檔詞矩陣進(jìn)行卷積操作,并且對(duì)每一個(gè)特征圖都進(jìn)行最大池化操作,最后對(duì)每一個(gè)hτ進(jìn)行拼接得到文本的向量化表示H∈Rd,即:

        1.3.2 解碼器

        使用反卷積網(wǎng)絡(luò)來(lái)構(gòu)成解碼器部分,首先分別對(duì)每一個(gè)hτ進(jìn)行反池化操作,把數(shù)據(jù)還原為gτ∈Rn-a+1。其次,對(duì)每一個(gè)gτ進(jìn)行反卷積操作,對(duì)文檔詞矩陣進(jìn)行重構(gòu),計(jì)算方法如式(8)所示。

        其中,σ是激活函數(shù),T表示所有的特征圖,WT是相對(duì)應(yīng)的卷積核的轉(zhuǎn)置,*是2d卷積操作,ξ是偏置項(xiàng)。

        采用最小均方差損失作為卷積自編碼的重構(gòu)損失,計(jì)算如式(9)所示。

        其中,θ為卷積自編碼器的參數(shù)。

        1.4 聚類迭代過(guò)程

        對(duì)于給定的新聞文本向量集合{Hi}i=1,2,…,N,Hi為第i篇新聞文檔通過(guò)卷積自編碼器得到的向量化表示。本文的任務(wù)是將N篇不同案件的新聞文本劃分到k個(gè)不同的案件簇中,即C={C1,…,Cr,…,Ck}。其中,Cr為第r個(gè)案件簇。K-means是運(yùn)用最廣泛的聚類算法之一,其損失函數(shù)如式(10)所示。

        其中,M∈Rd×k為聚類中心矩陣,sr,i∈{0,1}k為每篇新聞文本案件簇的劃分,并且1Tsi=1。

        第r個(gè)案件簇劃分的更新方式如式(11)所示。

        但我們不單獨(dú)訓(xùn)練文本表示模型,而是將文本表征和聚類過(guò)程統(tǒng)一到同一個(gè)框架,交替更新卷積自編碼器的參數(shù)θ,聚類中心M以及每篇新聞文本在案件簇的劃分si,實(shí)現(xiàn)文本表示和聚類的協(xié)同。

        1.4.1 文本案件簇劃分的迭代

        在迭代更新過(guò)程中,把新聞文本劃分到與聚類中心最近的聚類簇中,具體地,更新si的規(guī)則如式(12)所示。

        1.4.2 聚類中心的迭代

        1.4.3 卷積自編碼器參數(shù)的更新

        在自編碼器重構(gòu)損失的指導(dǎo)下對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,可以約束文本表征,而在聚類損失的指導(dǎo)下對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,能使文本的表征更接近案件。故使用卷積自編碼器的重構(gòu)損失及聚類損失的組合來(lái)聯(lián)合訓(xùn)練網(wǎng)絡(luò),損失函數(shù)定義如式(6)所示。

        其中,λ∈[0,1]是平衡Lossc和Loss(θ)n的超參數(shù)。

        考慮聚類迭代的前期,自編碼器不能學(xué)習(xí)到很好的文本表征,并對(duì)案件的表征產(chǎn)生影響,產(chǎn)生糟糕的聚類結(jié)果。令一共訓(xùn)練T輪,前J輪只執(zhí)行更新卷積自編碼器的參數(shù),并且令λ=0,使損失只為自編碼器的重構(gòu)損失Loss(θ)n。后T-J輪在前向時(shí)加入聚類過(guò)程,損失為聯(lián)合損失Loss。

        利用提出的方法迭代更新X={X1,X2,…,XN}T輪后,新聞文本集將收斂到不同的案件簇中,從而得到最終的聚類結(jié)果。具體過(guò)程如算法2所示。

        2 實(shí)驗(yàn)

        2.1 數(shù)據(jù)集與評(píng)價(jià)標(biāo)準(zhǔn)

        截至目前,尚未找到公開的案件相關(guān)的新聞文本數(shù)據(jù)集。為了驗(yàn)證模型的有效性,本文選取了近年來(lái)發(fā)生的6個(gè)熱門案件,以案件要素作為檢索關(guān)鍵詞,從百度新聞及搜狗新聞對(duì)案發(fā)后一段時(shí)間內(nèi)的相關(guān)新聞文本進(jìn)行爬取,清洗并標(biāo)注出與6個(gè)案件相關(guān)的新聞文本5 970條。每個(gè)案件新聞文本都覆蓋了從案件的發(fā)生到案件后續(xù)的影響全過(guò)程。例如,對(duì)于“重慶公交墜江案”相關(guān)新聞文本,包括了“案件經(jīng)過(guò)、救援、女司機(jī)的聲討、案件原因、責(zé)任的認(rèn)定、反思及教訓(xùn)”等方面。數(shù)據(jù)集的相關(guān)統(tǒng)計(jì)信息如表2所示。

        表2 案件相關(guān)新聞文本數(shù)據(jù)集

        通過(guò)對(duì)中國(guó)裁判文書網(wǎng)(1)http://wenshu.court.gov.cn/中文書的案件要素的構(gòu)成進(jìn)行分析,同時(shí)考慮案件相關(guān)新聞文本的特點(diǎn),我們定義“案發(fā)地,涉案人員,案件描述”三種要素作為案件要素。每個(gè)案件的要素定義如表3所示。

        表3 案件要素列表

        本文將聚類結(jié)果與數(shù)據(jù)集中文本的標(biāo)簽進(jìn)行比較來(lái)評(píng)估聚類的性能, 選用準(zhǔn)確率(ACC)和標(biāo)準(zhǔn)化互信息(NMI)作為評(píng)價(jià)指標(biāo)。其中,準(zhǔn)確率的定義如式(17)所示。

        其中,sT∈[1,N]為聚類結(jié)果矩陣的轉(zhuǎn)置,s,∈[1,N]為數(shù)據(jù)集中文本的標(biāo)簽矩陣,tr為矩陣的跡,N為新聞文本總數(shù)。

        標(biāo)準(zhǔn)化互信息(NMI)可以用來(lái)衡量?jī)蓚€(gè)數(shù)據(jù)分布之間的相似度,對(duì)于聚類任務(wù),即衡量聚類標(biāo)簽和聚類結(jié)果之間的相似程度。令Y為聚類標(biāo)簽集合,A為聚類結(jié)果集合,定義如式(18)所示。

        其中,MI(·)為互信息,H(·)為信息熵。NMI∈[0,1],值越大說(shuō)明聚類效果越好。

        2.2 基線方法

        本文選擇了兩種基于向量空間的模型,一種基于主題模型以及四種基于詞向量的分布式表示方法對(duì)文檔進(jìn)行表征,并都使用K-means聚類算法和提出的方法進(jìn)行比較。特別地,對(duì)于基于向量空間模型的特征維度為2 000,其余基線方法的維度均為300。此外,對(duì)于文檔的分布式表示方法,使用本文方法壓縮后的文本。具體如下: ①TFIDF-1: 將文檔中的每個(gè)詞作為特征項(xiàng),權(quán)重為TFIDF; ②TFIDF-2: 使用窗口大小為2的上下文單詞作為特征項(xiàng),權(quán)重為TFIDF; ③LDA: 利用主題模型獲得文檔表示; ④MeanWV(MeanWord Embedding): 文檔的平均詞向量; ⑤TWE(Topical Word Embedding(2)https://github.com/largelymfs/topical_word_embeddings): 拼接主題向量的平均和詞向量的平均表示文檔[23]; ⑥TopicVec(3)https://github.com/askerlee/topicvec: 使用文檔主題向量和詞向量均值的拼接表示文檔[24]; ⑦STC: 以譜哈希作為監(jiān)督信息,利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文本的表征[4]。

        2.3 實(shí)驗(yàn)設(shè)置

        2.3.1 預(yù)訓(xùn)練詞向量

        考慮到模型中的卷積自編碼器是一個(gè)無(wú)監(jiān)督模型,輸入的詞向量矩陣不能參與訓(xùn)練,文本的表征依賴于詞向量的質(zhì)量和詞向量在數(shù)據(jù)集上的覆蓋范圍。針對(duì)這個(gè)問(wèn)題,我們?cè)跀?shù)據(jù)集上構(gòu)建詞典,利用預(yù)訓(xùn)練中文詞向量(4)https://github.com/Embedding/Chinese-Word-Vectors構(gòu)建映射關(guān)系,得到初始詞向量,同時(shí)采用skip-gram模型[20]在數(shù)據(jù)集上對(duì)詞向量進(jìn)行微調(diào)。

        2.3.2 參數(shù)設(shè)置

        我們?cè)跀?shù)據(jù)集經(jīng)過(guò)反復(fù)實(shí)驗(yàn),調(diào)整模型,確定了最佳參數(shù)。除非特別說(shuō)明,所有實(shí)驗(yàn)均采用以下的超參數(shù)設(shè)置: ①對(duì)于文檔壓縮模塊,我們?cè)O(shè)置每個(gè)摘要抽取的句子數(shù)為3句,多個(gè)摘要合成的句子數(shù)也為3句。②對(duì)于卷積自編碼模塊,輸入詞向量的維度為300維;選取三種不同的卷積核,高度分別為3、4、5,并且每種卷積核厚度均為100;優(yōu)化器為Adam,學(xué)習(xí)率為0.01, L2正則化權(quán)重為0.000 01。③對(duì)于聚類模塊,案件要素的embedding維度為300;設(shè)置迭代的輪次為25,在聚類過(guò)程中,前5輪不使用聚類損失優(yōu)化網(wǎng)絡(luò);平衡聚類損失和自編碼器損失的超參數(shù)設(shè)置為0.1。

        2.4 實(shí)驗(yàn)結(jié)果及分析

        2.4.1 本文方法的有效性分析

        為了驗(yàn)證本文的方法,我們?cè)跀?shù)據(jù)集上分別選取了2、3、4、5、6個(gè)案件進(jìn)行了實(shí)驗(yàn),并與基線方法進(jìn)行了比較,實(shí)驗(yàn)結(jié)果表明,本文的方法在準(zhǔn)確率和標(biāo)準(zhǔn)化互信息兩個(gè)指標(biāo)上均優(yōu)于基線方法。實(shí)驗(yàn)結(jié)果如表4所示。

        表4 本文方法和基線方法的實(shí)驗(yàn)結(jié)果對(duì)比

        從表4的實(shí)驗(yàn)結(jié)果可看出,基于LDA的文本表征的聚類效果相對(duì)較差,分析其原因,主要是由于該方法不是很合適本任務(wù),因?yàn)槲覀兊哪康氖前淹话讣男侣勎谋揪垲惖酵粋€(gè)案件簇,一個(gè)案件是一個(gè)話題,而LDA認(rèn)為一篇新聞文本含有多個(gè)話題,所以造成了聚類結(jié)果的不理想?;谙蛄靠臻g的文本表征的聚類方法取得了不錯(cuò)的效果,首先因?yàn)閷?duì)于案件相關(guān)的輿情數(shù)據(jù), 不同案件的新聞文本具有一定的差異,TF-IDF計(jì)算出的是詞對(duì)文檔的代表程度,能較好地區(qū)分不同文檔;其次,案件新聞文本屬于篇章及文本,包含大量的統(tǒng)計(jì)特征,基于向量空間模型的方法能夠體現(xiàn)其統(tǒng)計(jì)的優(yōu)勢(shì)。特別是對(duì)于TFIDF-2,考慮了二元語(yǔ)法特征,捕捉了一部分上下文信息。基于分布式的文檔表示方法,MeanWV、TWE和TopicVec都分別使用詞嵌入或主題嵌入對(duì)文檔進(jìn)行表示,STC以文本譜哈希作為偽監(jiān)督,得到文本表示,取得了接近TFIDF-2的效果。

        而本文方法利用卷積自編碼器對(duì)文本進(jìn)行特征的提取和語(yǔ)義的組合,使文本的表征有了n元語(yǔ)法特征,同時(shí)使用聚類的損失進(jìn)行指導(dǎo),令模型更能學(xué)習(xí)到任務(wù)相關(guān)的文本表示形式。此外,使用案件要素初始化聚類中心,指導(dǎo)了聚類過(guò)程。故本文方法在兩個(gè)平均指標(biāo)上,均優(yōu)于基線方法。例如,在6個(gè)案件下,我們的方法比TFIDF-2在準(zhǔn)確率上提升了4.61%,標(biāo)準(zhǔn)化互信息提升了9.20%。

        此外,對(duì)在不同數(shù)目案件上聚類的結(jié)果進(jìn)行分析,可以看出,聚類數(shù)目越少,聚類效果越好。本文方法在不同數(shù)目案件上的聚類結(jié)果均優(yōu)于基線方法。

        2.4.2 案件要素的有效性分析

        在固定超參數(shù)不變的前提下,選取6個(gè)案件,利用案件要素初始化聚類中心以及隨機(jī)初始聚類中心兩種方法進(jìn)行對(duì)比,驗(yàn)證案件要素的對(duì)聚類過(guò)程的指導(dǎo)作用。圖2展示了兩個(gè)不同的方法在迭代過(guò)程中評(píng)價(jià)指標(biāo)的變化趨勢(shì),圖2(a)為準(zhǔn)確率的變化趨勢(shì),圖2(b)為標(biāo)準(zhǔn)化互信息的變化趨勢(shì)。

        圖2 案件要素初始化聚類中心和隨機(jī)初始化聚類中心對(duì)結(jié)果的影響

        由圖2可以看出,利用案件要素初始化作為指導(dǎo)信息,在迭代過(guò)程中,性能穩(wěn)步上升,證明本文方法是有效的。在20輪以后,結(jié)果趨于穩(wěn)定,證明本文方法具有穩(wěn)定性。然而使用隨機(jī)初始化聚類中心的方法,雖然最終的性能都有了提升,但是迭代過(guò)程就不那么穩(wěn)定了,其原因可能是由于K-means算法對(duì)初值具有很強(qiáng)的依賴性,如果選取的初值不合適,容易陷入局部最優(yōu)值,導(dǎo)致較差的聚類結(jié)果,并且使迭代過(guò)程不穩(wěn)定,模型難以收斂。

        2.4.3 聚類中心迭代規(guī)則有效性分析

        為了驗(yàn)證本文的聚類中心的迭代規(guī)則是有效的,同時(shí)也進(jìn)一步驗(yàn)證案件要素的指導(dǎo)作用。在相同的超參數(shù)、都使用案件要素初始化聚類中心的條件下,對(duì)比了提出的聚類中心的迭代規(guī)則及只利用案件簇下新聞文本的均值向量作為中心的方法,在6個(gè)案件下的實(shí)驗(yàn)結(jié)果如圖3所示。

        圖3 案件要素初始一次聚類中心和迭代聚類中心對(duì)結(jié)果的影響

        由圖3可以看出,利用本文提出的聚類中心迭代規(guī)則,在每一輪的迭代過(guò)程中,聚類的結(jié)果在評(píng)價(jià)指標(biāo)上都比對(duì)比方法所有提升,說(shuō)明本文提出的聚類中心迭代方法,在案件的表征向量中有效融入了新聞文本的信息,提升了聚類的效果。也更加說(shuō)明了,案件要素作為案件的表征,以它作為聚類中心,對(duì)聚類的過(guò)程具有指導(dǎo)作用。

        2.4.4 聚類損失的指導(dǎo)作用分析

        利用本文的方法,分別只利用網(wǎng)絡(luò)的重構(gòu)損失及聚類損失和重構(gòu)損失的組合來(lái)訓(xùn)練網(wǎng)絡(luò),其他參數(shù)保持不變,同樣選取6個(gè)案件進(jìn)行實(shí)驗(yàn),結(jié)果如圖4所示。

        圖4 聯(lián)合損失和只使用網(wǎng)絡(luò)重構(gòu)損失對(duì)結(jié)果的影響

        由圖4可以看出,只利用網(wǎng)絡(luò)的重構(gòu)損失訓(xùn)練網(wǎng)絡(luò),與利用聯(lián)合損失在聚類的前期的迭代中相比,差別不是很大。之后,施加了聚類損失的約束取得了更好的效果。分析原因,可能是由于在迭代的前期,網(wǎng)絡(luò)趨向于訓(xùn)練文本的表征,之后,使用聚類損失的約束能使文本的表征更接近案件實(shí)際,更有利于聚類。

        2.4.5 不同文檔壓縮方法有效性分析

        此外,本文還驗(yàn)證了基于多種摘要的文檔壓縮方法的有效性。與以下三種方法進(jìn)行對(duì)比: ①Uncompressed,不進(jìn)行壓縮; ②TextRank,只利用TextRank[17]方法進(jìn)行壓縮; ③Rouge1,計(jì)算標(biāo)題與文檔句子的Rouge1值,并選取得分最高的前3個(gè)句子進(jìn)行壓縮。案件數(shù)目為6個(gè),實(shí)驗(yàn)結(jié)果如表5所示。

        表5 不同壓縮方法實(shí)驗(yàn)結(jié)果對(duì)比

        由表5可以看出,不進(jìn)行壓縮的方法是一種糟糕的選擇,因?yàn)橐黄侣勎谋景罅康娜哂嘈畔?,?duì)文本的表征造成了混淆。而只使用一種文檔壓縮方法,不能保證抽取的信息就是文檔重要的信息。計(jì)算標(biāo)題與文檔句子的壓縮方法,有可能存在標(biāo)題黨或者標(biāo)題不是描述事實(shí)的情況,造成壓縮的結(jié)果不準(zhǔn)確。而本文的方法綜合考慮了以上情況,因此其效果是最理想的,比Rouge1方法在準(zhǔn)確率上提高5.64%,標(biāo)準(zhǔn)化互信息提高了7.20%。

        2.4.6 可視化

        圖5分別展示了TFIDF-2和本文方法在二維空間的聚類分布情況,從圖中可以看出,本文的方法在數(shù)據(jù)集上體現(xiàn)出明顯的聚類效果,各個(gè)案件新聞的特征向量分別相互遠(yuǎn)離,同一個(gè)案件新聞特征向量相互聚集,加強(qiáng)了聚類效果,提高了模型的泛化能力。

        圖5 聚類結(jié)果可視化

        3 總結(jié)與展望

        將案件要素信息作為監(jiān)督指導(dǎo)條件,融入基于神經(jīng)網(wǎng)絡(luò)的聚類模型中約束文本的表征及聚類的搜索過(guò)程,實(shí)現(xiàn)新聞與案件相關(guān)性分析,是一種很有效的方法,實(shí)驗(yàn)結(jié)果也證明了該方法的有效性。進(jìn)一步研究還可以考慮更多案件信息的深度利用,如結(jié)構(gòu)信息、內(nèi)容信息等。另外,我們還將研究基于預(yù)訓(xùn)練的案件新聞文本的表示方法。

        猜你喜歡
        編碼器文檔卷積
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        有人一聲不吭向你扔了個(gè)文檔
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于FPGA的同步機(jī)軸角編碼器
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
        電子器件(2015年5期)2015-12-29 08:42:24
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        多總線式光電編碼器的設(shè)計(jì)與應(yīng)用
        麻豆亚洲av熟女国产一区二| 国产精品国产三级厂七| 久久国产精品免费专区| 艳妇臀荡乳欲伦交换h在线观看| 亚洲av永久无码天堂网手机版| 亚洲精品aⅴ无码精品丝袜足| 色噜噜色哟哟一区二区三区| 日韩综合无码一区二区| 99久久国产福利自产拍| 久久婷婷色香五月综合激情| 日本免费一区二区在线| 亚洲日韩小电影在线观看| 亚洲欧美另类激情综合区| 久久熟女五十路| 水蜜桃视频在线观看入口| 精品国产免费一区二区三区| 国产精品熟妇视频国产偷人| 日韩不卡无码三区| 男人的天堂手机版av| 精品人妻午夜一区二区三区四区 | 日本一区二区亚洲三区| 亚洲国产精品区在线观看| 成人综合网站| 国产午夜亚洲精品不卡福利| 精品少妇一区二区三区四区| 激情综合五月| 天美传媒精品1区2区3区| 亚洲AVAv电影AV天堂18禁 | 中文无码一区二区不卡αv| 免费二级毛片在线播放| 国产精品女同一区二区免| 成人无码av一区二区| 国产av日韩a∨亚洲av电影| 精品日产一区2区三区 | 亚洲码无人客一区二区三区| 亚洲国产成人精品无码区在线播放| 五月婷婷俺也去开心| 国产精品电影久久久久电影网| 国产婷婷成人久久av免费| 一本一道av无码中文字幕﹣百度| 无码片久久久天堂中文字幕|