牛偉農(nóng) 吳林 于水源
摘 要:互聯(lián)網(wǎng)的飛速發(fā)展為大眾帶來(lái)便利的同時(shí)也產(chǎn)生了大量冗余信息,利用自然語(yǔ)言處理技術(shù)對(duì)新話題文章進(jìn)行提取,控制新話題中虛假新聞傳播,可為輿情控制提供有效支持。提出一種基于詞聚類信息熵的新聞提取方法,并對(duì)“一帶一路”相關(guān)新聞?wù)Z料進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)通過(guò)網(wǎng)絡(luò)爬蟲(chóng)的方式獲取相關(guān)報(bào)道,利用Pkuseg工具分詞進(jìn)行一系列預(yù)處理后訓(xùn)練生成Word2vec詞向量,然后利用詞頻統(tǒng)計(jì)篩選出歷史高頻詞進(jìn)行K-means聚類,將聚類后的詞簇作為隨機(jī)變量計(jì)算當(dāng)前文章的信息熵。若文章的信息熵高于設(shè)定閾值,則為新話題文章,需要重點(diǎn)關(guān)注。結(jié)果表明,該方法在閾值設(shè)置為0.65時(shí),新聞提取結(jié)果的準(zhǔn)確率可達(dá)到84%。
關(guān)鍵詞:新聞提取;新話題;詞向量;聚類;信息熵
DOI: 10. 11907/rjdk.192209
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類號(hào):TP301
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1672-7800( 2020)001-0036-05
0 引言
隨著第四媒體的迅速發(fā)展,新聞行業(yè)迎來(lái)了新的發(fā)展機(jī)遇。自媒體的出現(xiàn)和新聞發(fā)布渠道的多樣化,為大眾獲取信息提供了便利。但與此同時(shí).大量信息的產(chǎn)生導(dǎo)致虛假新聞的有效控制受到了阻礙。利用計(jì)算機(jī)技術(shù)在大量新聞數(shù)據(jù)中提取出新話題新聞,將焦點(diǎn)放在新話題新聞上,可以減少相關(guān)工作者需要關(guān)注的新聞數(shù)量,降低輿情控制難度。自2013年9月“一帶一路”倡議提出后,相關(guān)報(bào)道不斷增加,一時(shí)間引起轟動(dòng)[1]。政府部門在面向有關(guān)“一帶一路”的報(bào)道時(shí),需在大量新聞中掌握新話題新聞,關(guān)注事態(tài)走向,令其向正確的方向發(fā)展,確?!耙粠б宦贰背h順利實(shí)施。因此,本文針對(duì)“一帶一路”相關(guān)新聞進(jìn)行驗(yàn)證分析。
20世紀(jì)90年代,隨著在日本神戶第四屆機(jī)器翻譯高層會(huì)議的召開(kāi),自然語(yǔ)言處理( Natural Language Processing,NLP)技術(shù)由發(fā)展期逐漸進(jìn)入繁榮期[2]。自然語(yǔ)言處理作為人工智能的一部分,在文本分類[3-4]、問(wèn)答系統(tǒng)[5]、機(jī)器閱讀理解[6]和機(jī)器翻譯[7]等領(lǐng)域有著廣泛應(yīng)用。近年來(lái),網(wǎng)絡(luò)媒體的發(fā)展使得NLP在新聞行業(yè)的應(yīng)用也取得了一定進(jìn)展。目前,部分學(xué)者對(duì)新聞信息提取進(jìn)行了研究,包括基于中文命名實(shí)體識(shí)別和指代消解的新聞事件要素提取[8]、基于篇章主次關(guān)系的單文檔摘要抽取[9]以及基于PageRank的新聞關(guān)鍵詞提取[10]。當(dāng)前研究雖然解決了文章關(guān)鍵信息提取的問(wèn)題,可以幫助讀者快速閱讀新聞,但并不能很好地處理在多文本中提取新話題新聞的任務(wù)。
綜上,為減少“一帶一路”新聞中相關(guān)冗余信息對(duì)分析工作帶來(lái)的干擾,本文提出了一種基于詞聚類信息熵的新聞提取方法,用于在多文本中提取新話題新聞??傮w流程如下:①利用分詞工具對(duì)語(yǔ)料進(jìn)行分詞;②由于實(shí)驗(yàn)語(yǔ)料相關(guān)性較大,去停止詞的同時(shí)對(duì)背景詞進(jìn)行去除;③生成word2vec詞向量;④進(jìn)行詞頻統(tǒng)計(jì)并篩選出歷史高頻詞;⑤對(duì)歷史高頻詞進(jìn)行聚類,以減少單個(gè)詞的詞頻變化以及同近義詞對(duì)結(jié)果的影響;⑥在詞聚類的基礎(chǔ)上計(jì)算新聞的信息熵,將高熵新聞作為新話題新聞。
1 理論方法
1.1 Word2vec詞向量
語(yǔ)言是人類智慧定義的一種高層符號(hào)組合而成的數(shù)據(jù),這些數(shù)據(jù)并不是原生態(tài)數(shù)據(jù)。在自然語(yǔ)言處理領(lǐng)域,需要將其還原成計(jì)算機(jī)可以理解的形式,即詞向量編碼,這是進(jìn)行后續(xù)研究的基礎(chǔ)。在進(jìn)行詞編碼時(shí),需要保證原始文本信息的同時(shí)充分表達(dá)文本信息。傳統(tǒng)方法是,構(gòu)建一個(gè)很大的詞典,給出特定詞的上位詞及近義詞等[11]。但是這種做法需要大量的人工干預(yù),而人為判斷帶有一定的主觀性,難以精確計(jì)算詞之間的相似度。
2013年,Coogle開(kāi)源了一款用于詞向量計(jì)算的工具,即Word2vec[12],其包括CBOW( Continuous Bag-of-WordsModel)模型和Skip-C ram( Continuous Skip-C ram Model)模型。Word2vec的基礎(chǔ)是神經(jīng)語(yǔ)言模型(Neural NetworkLanguage Model,NNLM[13])。神經(jīng)語(yǔ)言模型是用給定的前n一1個(gè)詞預(yù)測(cè)第n個(gè)詞,即輸入w1,w2,…,wn-1,預(yù)測(cè)wn。NNLM模型的缺點(diǎn)是復(fù)雜度較高,而Word2vec可以降低模型復(fù)雜度。
1.1.1 基于CBOW方法的詞向量編碼
CBOW可通過(guò)一句話的左右窗口去預(yù)測(cè)中間的詞。該模型在輸入層(INPUT)輸入目標(biāo)詞匯左右的詞,即周圍詞的詞向量,經(jīng)過(guò)投影層(PROJECTION)后,在輸出層( OUTPUT)輸出當(dāng)前詞的詞向量。
例如,在 “‘一帶一路是實(shí)現(xiàn)共同繁榮的合作共贏之路”這句話中,將“繁榮”設(shè)置為目標(biāo)詞(target),再設(shè)置一個(gè)滑動(dòng)窗口長(zhǎng)度為2,即目標(biāo)詞匯前后各取2個(gè)詞,加上目標(biāo)詞本身,一共5個(gè)詞。在這5個(gè)詞中,除目標(biāo)詞外的其余詞為背景詞( context)。如圖1所示,首先,在輸入層輸人“實(shí)現(xiàn)”、“共同”、“的”、“合作”4個(gè)詞的詞向量;然后,在投影層將輸入層的4個(gè)詞向量求和累加,計(jì)算公式為:
1.1.2 基于Skip-Gram方法的詞向量編碼
Skip-Gram和CBOW相反,Skip-Gram是通過(guò)中間的詞預(yù)測(cè)左右的詞。Skip-G ram模型輸入是當(dāng)前詞的詞向量,輸出是周圍詞的詞向量。由于沒(méi)有上下文,Skip-C ram模型在投影層是一個(gè)恒等投影[14]。如圖2所示,在輸入層輸人中間詞匯“繁榮”的詞向量,經(jīng)過(guò)投影層后,在輸出層輸出“實(shí)現(xiàn)”、“共同”、“的”、“合作”4個(gè)詞的詞向量。
Skip-Gram模型的目標(biāo)函數(shù)如式(2)所示,T為語(yǔ)料中的全部詞匯數(shù)。
本實(shí)驗(yàn)語(yǔ)料基于CBOW方法進(jìn)行詞向量訓(xùn)練。Word2vec雖是基于大量語(yǔ)料基礎(chǔ)上學(xué)習(xí)而來(lái)體現(xiàn)相互之間關(guān)系的詞向量,也存在一定問(wèn)題,其在訓(xùn)練詞向量時(shí)對(duì)每一個(gè)滑動(dòng)窗口單獨(dú)訓(xùn)練,沒(méi)有利用包含在全局詞共現(xiàn)矩陣中的統(tǒng)計(jì)信息,并且由于使用唯一的詞向量表示詞,對(duì)多義詞無(wú)法很好地表示和處理。
1.2 基于K-means的詞聚類
針對(duì)Word2vec詞向量無(wú)法很好表示和處理多義詞的缺點(diǎn)以及語(yǔ)言所具有的靈活性[15],本實(shí)驗(yàn)提出基于K-means對(duì)詞向量進(jìn)行聚類。語(yǔ)言的靈活性表現(xiàn)在,文本中存在多個(gè)表述同一含義的詞匯,例如,“好處”、“利益”、“甜頭”等詞匯描述的意義相同,這些同義詞、近義詞的出現(xiàn)對(duì)高頻詞的篩選工作造成了一定干擾。一方面,表述同一含義的詞匯在語(yǔ)料中均大量出現(xiàn),高頻詞中可能存在多個(gè)表達(dá)相同含義的詞匯,導(dǎo)致詞匯冗余,選定的高頻詞匯不具有代表性;另一方面,由于表達(dá)方式不同,表述同一含義的詞匯可能交替出現(xiàn),新文章中使用了高頻詞的替代詞,導(dǎo)致高頻詞在新文章中出現(xiàn)次數(shù)減少,而替代詞出現(xiàn)次數(shù)增加,從而引起信息熵的增加,導(dǎo)致計(jì)算誤差。為了減少上述干擾,實(shí)驗(yàn)采用對(duì)歷史高頻詞進(jìn)行聚類的方式,將相似詞及共現(xiàn)詞歸為一個(gè)類別,統(tǒng)計(jì)每個(gè)類別中的詞匯在新文章中出現(xiàn)的概率。
聚類是一種無(wú)監(jiān)督學(xué)習(xí)算法,將相似對(duì)象歸類到一個(gè)簇中。聚類與分類算法的最大區(qū)別在于聚類的目標(biāo)類別未知,分類的目標(biāo)類別已知。K-means聚類算法,也稱k均值聚類算法( K-means Clustering Algorithm),是一種迭代求解的無(wú)監(jiān)督聚類分析算法[16]。K-means用來(lái)發(fā)現(xiàn)給定數(shù)據(jù)集的k個(gè)簇,簇的個(gè)數(shù)k由用戶指定,每個(gè)簇中心采用簇中所含值的均值計(jì)算而成,即由簇中所有點(diǎn)的中心描述。其核心原理為:①首先隨機(jī)確定k個(gè)點(diǎn)作為質(zhì)心;②將數(shù)據(jù)集中的每一個(gè)點(diǎn)分配到每一個(gè)簇中,為每個(gè)點(diǎn)找到距離其最近的質(zhì)心;③將每個(gè)簇的質(zhì)心更新為該簇中所有數(shù)據(jù)點(diǎn)的平均值;④重復(fù)第②③步,直到每個(gè)簇中的數(shù)據(jù)點(diǎn)和質(zhì)心都不再發(fā)生變化。
1.3 信息熵在NLP中的應(yīng)用
1948年,香農(nóng)借用熱力學(xué)中熵的概念,提出了“信息熵”的概念,解決了信息的量化度量問(wèn)題[17]。信息熵是消除不確定性所需信息量的度量,也即未知事件可能含有的信息量。
一個(gè)系統(tǒng)包含了許多不確定性因素(x1,x2,…,xn),這些因素稱為隨機(jī)變量X。要消除隨機(jī)變量的不確定性,就要引入更多信息,這些信息的度量用“信息熵”表示。需要引入的消除不確定性的信息量越多,信息熵越高,系統(tǒng)越不穩(wěn)定;反之,信息熵越低,系統(tǒng)越穩(wěn)定。
在自然語(yǔ)言處理中,信息熵反映內(nèi)容的不確定性。信息熵描述的是隨機(jī)變量的不確定性,對(duì)于同一個(gè)隨機(jī)變量,不同觀測(cè)者從不同粒度上觀察,得到的信息熵不一樣。對(duì)于文本而言,表達(dá)語(yǔ)義的最小粒度是詞語(yǔ),因此,本實(shí)驗(yàn)從詞語(yǔ)的粒度計(jì)算文章信息熵。
經(jīng)過(guò)詞聚類后,信息熵計(jì)算如式(5)、式(6)所示,其中,p(Xk)為第k類中所有詞匯出現(xiàn)的頻率,labelk表示第k個(gè)類別,count(words)為待計(jì)算文章中的總詞匯數(shù)。
值得注意的是,當(dāng)作為隨機(jī)變量的詞匯在待計(jì)算文章中出現(xiàn)次數(shù)為0時(shí),設(shè)置該詞的概率為1 /count(words)2,相較于設(shè)置固定極小概率值更具靈活性。
2 實(shí)驗(yàn)過(guò)程
2.1 數(shù)據(jù)來(lái)源
本實(shí)驗(yàn)數(shù)據(jù)通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取。網(wǎng)絡(luò)爬蟲(chóng)是指通過(guò)一段程序或者腳本,自動(dòng)獲取網(wǎng)絡(luò)中的信息。本實(shí)驗(yàn)結(jié)合Selenium模擬瀏覽器和Scrapy爬蟲(chóng)框架進(jìn)行新聞抓取。Selenium可以模擬真實(shí)瀏覽器,支持對(duì)js加載頁(yè)面的抓取;Scrapy是一個(gè)為爬取網(wǎng)站數(shù)據(jù)而編寫的應(yīng)用框架,可以極大提高爬取速度。
本爬蟲(chóng)框架的核心工作流程是通過(guò)谷歌搜索“一帶一路”相關(guān)新聞,然后通過(guò)xpath規(guī)則抽取返回的網(wǎng)頁(yè)新聞列表鏈接,將獲取到的URL存放到相應(yīng)數(shù)據(jù)庫(kù)中,通過(guò)讀取數(shù)據(jù)庫(kù)中的URL進(jìn)行下一步新聞詳情內(nèi)容抓取。詳情內(nèi)容抓取主要包括文章標(biāo)題、日期、來(lái)源、正文4個(gè)部分。新聞抓取流程如圖3所示。
2.2 數(shù)據(jù)預(yù)處理
實(shí)驗(yàn)語(yǔ)料根據(jù)日期對(duì)新聞進(jìn)行正序排序,并對(duì)正文內(nèi)容進(jìn)行處理分析。
在對(duì)正文進(jìn)行分析前,需要首先對(duì)語(yǔ)料進(jìn)行一系列的分詞、去停用詞等預(yù)處理操作。其中,分詞使用了Pkuseg工具[18]的新聞?lì)I(lǐng)域模型,去停用詞采用了停用詞典的方式。此外,在預(yù)處理階段還進(jìn)行了背景詞的去除。實(shí)驗(yàn)語(yǔ)料圍繞“一帶一路”這一主題展開(kāi),具有一定的特殊性。因此,文本的高頻詞中存在大量背景詞,即在所有文章中都頻繁出現(xiàn),但對(duì)文章區(qū)分度并不大的詞匯[19],這些背景詞無(wú)法滿足利用歷史高頻詞發(fā)現(xiàn)新話題文章的需求。因此,本實(shí)驗(yàn)剔除了語(yǔ)料中對(duì)于新話題文章提取造成干擾的背景詞,將剔除背景詞后的歷史高頻詞作為計(jì)算信息熵的隨機(jī)事件。表1中列出了語(yǔ)料中的部分背景詞。
2.3 詞頻統(tǒng)計(jì)
對(duì)于給定新聞,在計(jì)算信息熵前,首先需要確定與信息熵相關(guān)的隨機(jī)變量,即能表達(dá)文章信息的詞匯。新聞的高頻詞在一定程度上表達(dá)了文章的主要內(nèi)容以及一段時(shí)間內(nèi)的新聞話題,因此本實(shí)驗(yàn)選取歷史高頻詞作為計(jì)算文章信息熵的隨機(jī)變量。由于新聞?wù)Z料的時(shí)效性,選取待計(jì)算文章前6天內(nèi)新聞的高頻詞作為關(guān)鍵詞。圖4為2019年4月7日-2019年4月12日時(shí)間段內(nèi)關(guān)于“一帶一路”相關(guān)文章前20個(gè)高頻詞出現(xiàn)次數(shù)折線圖,其中橫坐標(biāo)為20個(gè)高頻詞匯,縱坐標(biāo)為6天內(nèi)各詞匯出現(xiàn)總次數(shù)。
通過(guò)詞頻統(tǒng)計(jì)發(fā)現(xiàn),歷史詞匯中有大量詞匯出現(xiàn)次數(shù)相同,且這些詞匯的出現(xiàn)次數(shù)集中在10次左右,與前20高頻詞中末尾的詞匯出現(xiàn)次數(shù)接近,為避免設(shè)置固定高頻詞個(gè)數(shù)而帶來(lái)的高頻詞缺失誤差,設(shè)置高頻詞閾值為10。
如果某高頻詞的變化曲線趨于平緩,在連續(xù)幾天內(nèi)的文章中出現(xiàn)的次數(shù)基本保持一致,則該高頻詞在這段時(shí)間內(nèi)不具有隨機(jī)性,無(wú)法表示文章的信息量變化程度,因此具有這種特性的高頻詞不作為計(jì)算信息熵的隨機(jī)事件。圖5為前20高頻詞在2019年4月7日-2019年4月12日時(shí)間段內(nèi)的變化曲線,其中橫坐標(biāo)為該時(shí)間段內(nèi)的文章數(shù),縱坐標(biāo)為各詞匯在每篇文章中的出現(xiàn)次數(shù)。這20個(gè)高頻詞的出現(xiàn)次數(shù)在連續(xù)6天內(nèi)的文章中均具有明顯變化,可作為隨機(jī)變量計(jì)算信息熵。
2.4 高頻詞聚類
使用Word2vec對(duì)語(yǔ)料中經(jīng)過(guò)預(yù)處理的所有詞匯進(jìn)行訓(xùn)練,維度為200維。利用已訓(xùn)練好的詞向量對(duì)高頻詞進(jìn)行K-means聚類,將所有的高頻詞分為20組,結(jié)果如表2所示。若待計(jì)算文章中未出現(xiàn)某個(gè)高頻詞,可在同一類別中查看是否出現(xiàn)了其它高頻詞,將同一類別中所有詞匯的出現(xiàn)次數(shù)作為某一類別的出現(xiàn)頻率。最后,根據(jù)設(shè)置的信息熵閾值,判定所計(jì)算文章是否屬于新話題新聞。若信息熵高于閾值,則判定為新話題文章。
3 實(shí)驗(yàn)結(jié)果
將聚類后的高頻詞組作為隨機(jī)變量計(jì)算文章信息熵,通過(guò)改變信息熵閾值加以對(duì)比,并采用準(zhǔn)確率、精確率、召回率、F值作為評(píng)估指標(biāo)[20]。準(zhǔn)確率、精確率、召回率、F值計(jì)算分別如式(7)-式(10)所示。
TP為結(jié)果中預(yù)測(cè)正確的新話題文章數(shù),TN為結(jié)果中預(yù)測(cè)正確的非新話題文章數(shù),F(xiàn)P為結(jié)果中預(yù)測(cè)為新話題文章的非新話題文章數(shù),F(xiàn)N為結(jié)果中預(yù)測(cè)為非新話題文章的新話題文章數(shù)。本文對(duì)800條數(shù)據(jù)進(jìn)行人工標(biāo)注,利用Single-Pass對(duì)詞聚類進(jìn)行對(duì)比實(shí)驗(yàn),表2為Single-Pass聚類的實(shí)驗(yàn)結(jié)果,表3為對(duì)高頻詞進(jìn)行K-means聚類后實(shí)驗(yàn)結(jié)果評(píng)估。
Single-Pass算法受聚類后詞簇個(gè)數(shù)以及相似度閾值設(shè)定的影響,評(píng)估結(jié)果低于K-means詞聚類結(jié)果。針對(duì)K-means詞聚類方法,通過(guò)設(shè)定不同閾值,發(fā)現(xiàn)信息熵的閾值為0.6時(shí),準(zhǔn)確率為61%,但精確率為35%,說(shuō)明真正的新話題文章在所有預(yù)測(cè)為新話題文章中所占比例僅為35%。當(dāng)閾值設(shè)置為0.65時(shí),實(shí)驗(yàn)結(jié)果準(zhǔn)確率、精確率、召回率分別為84%、62%、83%,實(shí)驗(yàn)結(jié)果較好。當(dāng)閾值設(shè)置為0.7時(shí),準(zhǔn)確率為73%,精確率為42%,說(shuō)明真正新話題文章占預(yù)測(cè)為新話題文章的比例為42%,表明在預(yù)測(cè)為新話題的文章中.有較多為非新話題文章;召回率為50%,表示預(yù)測(cè)出的真正新話題文章占所有真正新話題文章的比例為50%,表明僅能預(yù)測(cè)出一半的新話題文章,實(shí)驗(yàn)結(jié)果意義不大。綜上,設(shè)置判定新話題文章的信息熵閾值為0.65,其綜合評(píng)價(jià)指標(biāo)F值為70%,說(shuō)明實(shí)驗(yàn)結(jié)果較為有效。
4 結(jié)語(yǔ)
本文通過(guò)分析在多文本中提取新話題新聞的任務(wù)需求,提出了一種基于詞聚類的提取方法。該方法針對(duì)當(dāng)代新聞的特點(diǎn)以及計(jì)算機(jī)對(duì)新聞進(jìn)行處理的研究現(xiàn)狀,在Word2vec、K-means聚類、信息熵的基礎(chǔ)上,采用詞聚類信息熵的方法對(duì)新聞進(jìn)行新話題文章判定,并對(duì)“一帶一路”語(yǔ)料進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該方法具有一定效果。本文方法中使用了歷史高頻詞作為隨機(jī)變量,信息熵越高,說(shuō)明詞匯變化越顯著,而詞匯的明顯變化往往是由于新話題的出現(xiàn)。因此,對(duì)于提取出的文章,政府部門可以及時(shí)了解當(dāng)前新話題,對(duì)新話題中具有誤導(dǎo)傾向的話題進(jìn)行及時(shí)更正,控制輿論走向,維持社會(huì)穩(wěn)定。目前,本文成果已應(yīng)用于《“一帶一路”建設(shè)國(guó)際傳播力監(jiān)測(cè)》項(xiàng)目中,并已收到相關(guān)采納證明,為我國(guó)現(xiàn)階段發(fā)展“一帶一路”的領(lǐng)導(dǎo)層決策提供了有力參考和支撐。
此外,本實(shí)驗(yàn)仍然存在一些不足,在實(shí)驗(yàn)過(guò)程中,未就文章長(zhǎng)度對(duì)信息熵計(jì)算的影響進(jìn)行優(yōu)化,這是需要突破的一個(gè)關(guān)鍵點(diǎn)。
參考文獻(xiàn):
[1] 劉曉.“一帶一路”對(duì)外傳播研究[D].湘潭:湘潭大學(xué),2016.
[2] 宋一凡.自然語(yǔ)言處理的發(fā)展歷史與現(xiàn)狀[J].中國(guó)高新科技,2019(3):64-66.
[3]陳慧,田大鋼,馮成剛.多種算法對(duì)不同中文文本分類效果比較研究[J].軟件導(dǎo)刊,2019,18(5):73-78.
[4] HOWARD J,RUDER S.Universal language model fine-tuning fortext classification[ DB/OL].https: //arxiv.org/abs/1607.03250, 2018.
[5]QU C,YANG L, QIU M,et al.Bert with history answer emhedding forconversational question answering [DB/OL]. https://arxiv.org/abs/1905.05412. 2019.
[6] JOSHI M, CHOI E, WELD D S,et al.Triviaqa:a large scale distantlysupervised challenge dataset for reading comprehension[DB/OL].https: //arxiv.org/abs/1705.03551, 2017.
[7]WANG Q, LI B,XIAO T,et al.Learning deep transformer models formachine translation[ DB/OL].https: //arxiv.org/abs/1906.01787, 2019.
[8]虞金中,楊先鳳,陳雁,等.基于混合模型的新聞事件要素提取方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2018,27( 12):169-174.
[9]張迎,王中卿,王紅玲.基于篇章主次關(guān)系的單文檔抽取式摘要方法研究[J].中文信息學(xué)報(bào),2019,33(8):67-76.
[10]顧亦然,許夢(mèng)馨.基于PageRank的新聞關(guān)鍵詞提取算法[J].電子科技大學(xué)學(xué)報(bào),2017,46(5):777-783.
[11] 江大鵬.基于詞向量的短文本分類方法研究[D].杭州:浙江大學(xué),2015.
[12]RONG X.Word2vec parameter learning explained[ DB/OL]. http://www.oalib.com/paper/4066349, 2014.
[13]BENGIO Y, DUCHARME R, VINCENT P, et al.A neural prohabilis-tic language model[J].Journal of Machine Learning Research, 2003(3):1137-1155.
[14] 鄭捷.NLP漢語(yǔ)自然語(yǔ)言處理原理與實(shí)踐[M].北京:電子工業(yè)出版社.2017.
[15]胡馨月.Twitter事件檢測(cè)中的語(yǔ)義和情感分析[D].成都:電子科技大學(xué).2017.
[16]COATES A,NG A Y.Learning feature representations with K-means[ M]. Springer Press, 2012.
[17] 吳中慶.廣義德·摩根定理及廣義香農(nóng)定理的推廣[J].江漢石油學(xué)院學(xué)報(bào),1989(4):67-73.
[ 8]LUO R X. XU J J,ZHANG Y. et al.Pkuseg:a toolkit for multi-do-main Chinese word segmentation[ DB/O L]. https: //arxiv.org/abs/1906.11455vl. 2019.
[19] 周楠,杜攀,靳小龍,等.面向輿情事件的子話題標(biāo)簽生成模型ET-TAG[J].計(jì)算機(jī)學(xué)報(bào),2018,41(7):1490-1503.
[20]李航,統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.
(責(zé)任編輯:孫娟)
基金項(xiàng)目:中國(guó)傳媒大學(xué)青年理工科規(guī)劃項(xiàng)目( 3132018XNC1834)
作者簡(jiǎn)介:牛偉農(nóng)(1994-),女,中國(guó)傳媒大學(xué)智能融媒體教育部重點(diǎn)實(shí)驗(yàn)室碩士研究生,研究方向?yàn)樽匀徽Z(yǔ)言處理;吳林(1979-),男,中國(guó)傳媒大學(xué)智能融媒體教育部重點(diǎn)實(shí)驗(yàn)室博士研究生,研究方向?yàn)榇髷?shù)據(jù)分析、自然語(yǔ)言處理、機(jī)器學(xué)習(xí);于水源(1964-),男,博士,中國(guó)傳媒大學(xué)智能融媒體教育部重點(diǎn)實(shí)驗(yàn)室教授、博士生導(dǎo)師,研究方向?yàn)橛?jì)量語(yǔ)言學(xué)、智能信息處理。本文通訊作者:吳林。