王婉 張向先 盧恒 張莉曼
關鍵詞:網(wǎng)絡新聞;文本分類;注意力機制;雙向長短期記憶神經(jīng)網(wǎng)絡模型
近年來,隨著移動互聯(lián)技術的迅猛發(fā)展與智能設備的普及,網(wǎng)民數(shù)量持續(xù)攀升。據(jù)CNNIC統(tǒng)計[1],截至2020年12月,我國網(wǎng)民規(guī)模已高達9.89億。網(wǎng)絡新聞與社交平臺、搜索引擎等應用形成有效聯(lián)動,加快構筑了網(wǎng)絡新聞內(nèi)容生態(tài)體系。用戶在檢索新聞的過程中生成了海量非結構化的網(wǎng)絡新聞文本數(shù)據(jù),構成了熱搜平臺的信息生態(tài)系統(tǒng)。這些文本數(shù)據(jù)是網(wǎng)絡用戶對自己所感興趣的新聞內(nèi)容點擊生成,它聚焦了網(wǎng)絡用戶所關注的新聞熱點,形成了具有新媒體時代特色的網(wǎng)絡新聞。這種特定情境下網(wǎng)絡新聞的變遷又深刻影響著社會輿論的演化與發(fā)展。熱搜平臺已然成為當前網(wǎng)絡用戶獲取新聞資訊的主流平臺,但面對大規(guī)模新聞文本數(shù)據(jù)量的激增,如何精準、高效地實現(xiàn)網(wǎng)絡新聞文本分類,準確了解用戶信息需求,成為網(wǎng)絡新聞平臺實現(xiàn)精準、智能的信息服務所亟待解決的問題。
面對網(wǎng)絡空間大規(guī)模非結構文本的涌現(xiàn),針對不同領域的文本分類問題已然成為學者們較為關注的研究課題。目前,已有學者進行了積極的嘗試:如ShotorbaniP等[2]基于LDA在線制造文本進行主題建模與文本分類,以提高供應商發(fā)現(xiàn)和知識獲取工具的智能化。LDA雖然能過濾掉一些常見卻無關緊要的詞語,但網(wǎng)絡新聞文本往往較為簡短,不利于訓練LDA[3]。部分學者針對短文本的分類又開展了相關研究:如KatameshN等[4]提出了基于詞袋模型和TF-IDF的多模態(tài)文本分類方法,但詞袋模型與TF-IDF是基于詞頻的文本表示,缺乏相似詞之間的語義化表達,比如“我喜歡長春”“我不喜歡長春”其實這兩個文本并不相似,但詞袋模型會判別為高度相似。作為一種高效的文本特征表達方法,深度學習方法能夠更好地抽取出深層語義特征對文本進行建模。因此,本文嘗試從網(wǎng)絡新聞文本的語義特征出發(fā),探索深度學習方法在網(wǎng)絡新聞文本分類的應用效果。擬解決的研究問題有以下3點:①如何生成網(wǎng)絡新聞文本的向量表達以實現(xiàn)語義建模;②如何構建網(wǎng)絡新聞的文本分類模型;③如何驗證網(wǎng)絡新聞文本分類模型的優(yōu)越性。本文的理論貢獻在于:構建了網(wǎng)絡新聞文本分類模型,提出了一種面向新聞文本分類的指導框架,豐富了知識組織的理論體系。本文的實踐價值在于:對網(wǎng)絡新聞文本分類的應用實踐提供技術支撐,幫助平臺運營者科學地制定智能化知識組織與信息服務決策,以期為網(wǎng)絡用戶提供更加適配的新聞平臺智能信息服務。
1相關研究評述及問題提出
1.1網(wǎng)絡新聞文本
移動互聯(lián)背景下,網(wǎng)絡用戶對于新聞內(nèi)容的獲取方式由傳統(tǒng)的單一平臺獲取轉變?yōu)榭缙脚_內(nèi)容聚合獲取?;谟脩酎c擊頻次高低的新聞,經(jīng)聚合后生成了網(wǎng)絡新聞平臺的熱搜榜單,構成了熱搜平臺核心的信息服務模式。網(wǎng)絡新聞文本[5]以網(wǎng)絡為載體,對社會所發(fā)生的事實的報道形式,形成了某一時間段內(nèi),引發(fā)網(wǎng)絡用戶、媒體等高度關注的社會焦點。
網(wǎng)絡新聞是輿情事件的高度凝練,也是還原輿情事件事實的真實報道,對其語義內(nèi)涵的挖掘與分類能夠呈現(xiàn)網(wǎng)絡用戶對于網(wǎng)絡新聞背后輿情事件的關注傾向性,明晰網(wǎng)絡用戶的信息需求類別,提升新聞平臺運營決策的科學性與精準性。網(wǎng)絡新聞文本在語義上呈現(xiàn)概括性、層級性、序列性與包容性4個特點[6]。新聞標題更是對網(wǎng)絡新聞內(nèi)容的高度凝練,其文本具有主題鮮明、內(nèi)涵厚重的特征,反映了網(wǎng)絡新聞文本最核心的內(nèi)容。學者們針對短文本的特征識別已做了積極的嘗試:如畢凌燕等[7]提出了適用于微博的基于概率模型的主題識別模型。微博文本雖具備短文本特征,但多為網(wǎng)絡語言表達,噪音詞涵蓋較多,其方法并不適用于網(wǎng)絡新聞文本的表達范式。此外,新聞標題相對于一般的短文本更為簡短,其特征更為稀疏,語義識別更具挑戰(zhàn)性。因此,本文針對網(wǎng)絡新聞文本特征,探索更適配新聞平臺知識組織與服務的文本分類思路與方法。
1.2基于深度學習的文本分類相關研究
文本分類是自然語言處理的重要研究內(nèi)容,在主題挖掘、知識發(fā)現(xiàn)等領域有著重要作用。傳統(tǒng)的文本特征提取如詞頻———逆文檔頻率向量、Onehot詞向量等均得到了廣泛應用。如賀波等[8]運用TF-IDF算法計算出文本特征,提出基于融合特征的商品文本分類方法。然而,這種特征提取方法通常僅能提取到淺層信息特征,未能有效捕捉深層語義信息,從而影響其在文本分類任務中的表現(xiàn)。近年來,深度學習借助其強大的特征選擇與抽取能力[9],以及能夠自動捕獲更高層次的語義信息,被情報界學者們廣泛關注,并積極開展了面向文本分類的相關研究。針對文本主題分類方面,胡吉明等[10]融合了LDA主題模型和注意力機制,構建了政策文本表示和分類的一體化框架。余傳明等[11]融合LDA2Vec方法構建主題表示學習模型W-LDA2Vec將主題信息嵌入到詞表示、文檔表示中,有效提升了在熱點事件文本分類和主題相關度等任務上的效果;面向情感分類問題,徐緒堪等[12]構建了一種基于BiLSTM-CNN模型的微信推文情感分類模型。韓普等[13]結合注意力機制提出了基于CNN與BiLSTM模型的突發(fā)公共衛(wèi)生事件微博情感分類方法??梢?,結合注意力機制的BiLSTM模型在捕獲短文本的語義特征具有良好的效果,為本文提供了模型參考依據(jù)。此外,學者們對文本分類方法的改進也做了相關研究:如RuanSF等[14]提出了基于改進距離相關系數(shù)的加權樸素貝葉斯文本分類算法,以度量屬性對類別的重要性,為不同的術語分配不同的權重;為了提升特征選擇效果,唐曉波等[15]提出,基于關鍵詞詞向量特征擴展的健康問句分類模型。MehtaD等[16]認為,BERT模型可以有效地運用其深度語境化特性實現(xiàn)六標簽分類的改進,從而實現(xiàn)虛假新聞的分類。ZhouYJ等[17]提出了融合循環(huán)神經(jīng)網(wǎng)絡RNN和卷積神經(jīng)網(wǎng)絡CNN來提取文本的語義特征,從中捕獲與類相關的注意力表示以提高中文短文本的分類性能。SunNF等[18]將卷積神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡和注意力機制的神經(jīng)網(wǎng)絡3種模型合并為一個模型,獲得局部關聯(lián)特征和上下文特征,并驗證了其模型的有效性與優(yōu)越性??梢姡琑NN、CNN、BERT等深度學習模型在文本特征擴展與分類任務中已表現(xiàn)出一定的優(yōu)越性,但卷積神經(jīng)網(wǎng)絡等模型因時間開銷巨大,無法實現(xiàn)大規(guī)模網(wǎng)絡新聞文本數(shù)據(jù)的高效分類。鑒于此,本文將探索基于深度學習的理論與方法的熱搜網(wǎng)絡新聞的文本分類方法,以提升網(wǎng)絡新聞標題的語義特征抽取與文本分類效果,為新聞平臺運營者提供更精準、高效的智能化知識組織模式。
1.3基于深度學習的網(wǎng)絡新聞文本分類問題的提出
海量非結構化的網(wǎng)絡新聞文本數(shù)據(jù),聚焦了生活中人們普遍關注的重要新聞,在一定程度上反映了網(wǎng)絡用戶對某個新聞話題的關注程度。對于網(wǎng)絡新聞的文本分類能夠為網(wǎng)絡用戶及時獲取以主題形式呈現(xiàn)的社會熱點信息,洞察網(wǎng)民對網(wǎng)絡新聞主題類別需求,為新聞平臺運營者提供更高效、智能的知識組織方式,以滿足網(wǎng)絡用戶信息需求與精準服務的適配性。
針對網(wǎng)絡新聞文本分類需考慮以下幾個問題:其一,網(wǎng)絡新聞標題文本屬于短文本,特征稀疏,直接應用傳統(tǒng)的文本特征表達方法效果不佳[19];其二,采用何種方法能夠提升數(shù)據(jù)規(guī)模大、高維復雜的網(wǎng)絡新聞文本分類的精準性和高效性。Ngram2vec模型集合了Word2vec模型與FastText模型的優(yōu)勢,既可有效改善網(wǎng)絡新聞文本向量稀疏問題,又可以提升文本特征向量表達的效率[20]。注意力機制[21]能夠為網(wǎng)絡新聞標題文本的內(nèi)容特征分配不同的權重,提升標題文本分類的準確性。因此,本文通過融入FastText模型和注意力機制,選取并實現(xiàn)了Ngram2vec模型和BiLSTM_Atte模型作為網(wǎng)絡新聞文本分類技術框架的主要方法。
綜上,基于深度學習的網(wǎng)絡新聞文本分類完全契合高效追蹤社會關注的熱點新聞主題,探究網(wǎng)絡用戶對于網(wǎng)絡新聞主題選擇的傾向性,明晰用戶信息需求,幫助平臺運營者科學地制定精準服務策略。因此,本文立足于網(wǎng)絡新聞文本的語義特征,借助深度學習理論與方法,探索網(wǎng)絡新聞標題文本的深層語義表達,并結合注意力機制輸出到具有顯著相似性的主題標簽上,實現(xiàn)探究深度學習方法在網(wǎng)絡新聞文本分類任務的應用效果。
2融合FastText模型和注意力機制的網(wǎng)絡新聞文本分類
本文針對網(wǎng)絡新聞標題文本的超短文本特征,探索融合FastText模型與注意力機制的雙向長短期記憶神經(jīng)網(wǎng)絡模型(BiLSTM_Atte)[22]的網(wǎng)絡新聞文本分類模型在分類任務的應用效果。
2.1面向網(wǎng)絡新聞文本分類的深度學習模型
2.1.1Ngram2vec模型
文本向量化是文本分類的基礎。網(wǎng)絡新聞文本涉及領域廣泛且包含的詞語繁雜分散,傳統(tǒng)的向量空間模型高維且稀疏,并不適用于網(wǎng)絡新聞文本的分類任務。Ngram2vec模型融合了Word2vec模型和FastText模型,其支持抽象上下文特征和模型。Word2vec實現(xiàn)文本語義表征,將標題文本編碼以表達其語義關系,并借用FastText中的多層Softmax函數(shù)提升訓練速度。因此,本文采用二者結合的詞向量模型Ngram2vec,既實現(xiàn)了準確表征網(wǎng)絡新聞文本的語義內(nèi)涵,又可以大幅度提升數(shù)據(jù)處理效率,使其向量化表示精準、高效。
1)Word2vec模型
AlexanderG等[23]創(chuàng)建了Word2vec模型預訓練的詞嵌入,用以學習詞嵌入或文本的向量化表示。一般常用的兩個模型為Skip-gram模型和CBOW模型。在訓練過程中,兩種架構又各有側重:CBOW模型在詞向量的訓練速度方面表現(xiàn)出色;Skipgram模型雖然在訓練速度上較慢,但是其訓練低頻詞的效果較好[24]。由于網(wǎng)絡新聞文本的特殊性,其文本往往多包含專業(yè)詞與罕見詞。因此,本文選取Skip-gram模型訓練詞向量。
2)FastText模型
2016年,F(xiàn)acebook首次提出FastText文本分類模型,其核心思想是將整篇文檔的詞及N元模型(n-gram)向量疊加平均得到文檔向量,然后使用文檔向量做多分類[25]。FastText結構可簡化為一個隱含層。它將平均單詞表示作為文本表示,提供給一個線性分類器。該結構類似于Word2vec中的CBOW[26]模型,區(qū)別于CBOW輸出的是所預測的中間詞,而FastText輸出的是經(jīng)過隱藏層處理再Softmax函數(shù)計算每個類別的概率分布的文本類別。最后使用隨機梯度下降方法更新?lián)p失函數(shù),并更新權重參數(shù),以達到模型迭代的目的,使其預測速度大幅度提升。至此,本文在網(wǎng)絡新聞文本初步向量化表示(Word2vec)的基礎上,利用FastText模型,提高了網(wǎng)絡新聞文本的向量化表示效率,為后續(xù)更加高效地實現(xiàn)網(wǎng)絡新聞文本分類奠定了基礎。
2.1.2BiLSTM_Atte模型
網(wǎng)絡新聞文本分類是對網(wǎng)絡用戶所關注的不同的新聞主題類別的結果呈現(xiàn),其本質特征是網(wǎng)絡新聞標題的序列超短文本分類。循環(huán)神經(jīng)網(wǎng)絡具有圖靈完備性、記憶性和參數(shù)共享性[27],在學習序列特性方面具有一定的優(yōu)勢。因此,循環(huán)神經(jīng)網(wǎng)絡(RNN)[28]是處理預序列分類有關問題的最佳選擇。但RNN模型在訓練過程中計算的梯度會因累積乘法效應而發(fā)生消失或者爆炸,導致模型訓練速度緩慢。長短期記憶網(wǎng)絡(LongShortTermMemory,LSTM)[29]恰好能解決這個問題,通過引入輸入門和遺忘門更好地控制梯度,能夠更好地保留網(wǎng)絡新聞文本中的長距離詞語依賴關系。通過雙向長短期記憶網(wǎng)絡模型(BiLSTM)[22]則可以較好地捕獲網(wǎng)絡新聞文本的雙向語義依賴。
為了提升文本分類的準確率,本文在LSTM模型的基礎上融入了注意力模型(AttentionModel)思想,將注意力機制(Attention)整合到雙向長短期記憶網(wǎng)絡BiLSTM模型,注意力模型在輸出時,在“注意力區(qū)域”表征下一個輸出會重點關注輸入序列部分,根據(jù)關注度不同的權重來產(chǎn)生下一個輸出。由于注意力機制能夠增強超特征學習過程中底層單元的權重表示,并能充分利用網(wǎng)絡新聞文本中標題的局部特征。因此,融入注意力機制的BiL?STM_Atte模型能夠提高對網(wǎng)絡新聞標題中更為相關部分的關注程度,從而提升分類的準確度。
2.2基于Ngram2vec和BiLSTM_Atte模型的網(wǎng)絡新聞文本分類過程
網(wǎng)絡新聞文本分類任務主要包括兩大部分,如圖1所示:一是將爬取網(wǎng)絡新聞文本通過詞嵌入方法進行語義建模。對采集的網(wǎng)絡新聞文本語料進行數(shù)據(jù)清洗、去停用詞、分詞等預處理。利用融合Word2vec模型與FastText模型的詞向量模型Ngram2vec訓練詞向量提取實體特征。為了獲取完整的語義表達,生成詞向量后進行加權平均構造句向量表達,實現(xiàn)融合完整句特征的語義建模。二是構建結合注意力機制的雙向長短期記憶神經(jīng)網(wǎng)絡模型(BiLSTM_Atte)實現(xiàn)關系抽取。利用BiLSTM模型整合網(wǎng)絡新聞標題文本的上下文特征,保證網(wǎng)絡新聞文本的語義完整性;同時,針對網(wǎng)絡新聞標題文本語義分布不均衡的問題,引入注意力機制增加重要內(nèi)容的權重,以提升該模型的分類準確率。將向量化文本表示導入結合注意力機制的雙向長短期記憶網(wǎng)絡模型,利用多層注意力機制作用于BiL?STM_Atte模型的輸出層獲得更魯棒的文本局部特征,將增強后的特征向量導入分類器實現(xiàn)關系抽取。本實驗將數(shù)據(jù)集分為實驗組與測試組進行實驗對比,測試引入注意力機制對網(wǎng)絡輿情文本分類的效果影響,以解決傳統(tǒng)短文本語義特征學習能力不足的問題,提升信息組織效率。
本文借鑒了胡吉明等[9]提出的政策文本分類模型的結構,融合了FastText、Bi_LSTM、Attention模型的顯著性優(yōu)勢,構建了網(wǎng)絡新聞文本分類的深度學習模型,如圖2所示。通過詞嵌入模型Ngram2vec提取網(wǎng)絡新聞文本的局部特征,深度挖掘網(wǎng)絡新聞文本的語義信息。輸出的詞向量進行加權平均,生成標題句向量表達作為BiLSTM的輸入,引入At?tention機制加入注意力層為網(wǎng)絡新聞文本的特征配置差異化權重,最終通過Softmax層輸出網(wǎng)絡新聞文本所屬類別的概率值。
3實驗過程與對比分析
針對上述提出的模型,本文以搜狗全網(wǎng)新聞數(shù)據(jù)平臺中的網(wǎng)絡新聞文本為實證分析對象,實驗驗證其有效性和優(yōu)越性。
3.1數(shù)據(jù)預處理
本文綜合運用后裔采集器等第三方數(shù)據(jù)監(jiān)控平臺批量采集。數(shù)據(jù)采集的新聞文本數(shù)據(jù)是2020年12月1日—30日國內(nèi)外全網(wǎng)新聞數(shù)據(jù)26242條,每條數(shù)據(jù)包含一篇不限定主題的新聞標題內(nèi)容。首先,進行數(shù)據(jù)清晰。過濾掉原始數(shù)據(jù)中的媒體、時間、記者、編輯、標簽5個字段,僅保留新聞標題,再清洗廣告新聞標題、重復新聞標題以及包含特殊符號的無效新聞標題,保留可用作實驗樣本25498條,且選取了文本長度在20~30個字符之間的標題文本作為樣本,為了便于模型處理,統(tǒng)一標題長度為30,對于超過30的標題進行截斷,對于不足30的標題進行填充;其次,進行分詞處理。借助Python中的Jieba自然語言處理分詞庫[27]實現(xiàn)新聞標題分詞;最后,進行過濾停用詞。為了提高數(shù)據(jù)分析效率,對樣本中不具有辨識性的,且會帶來大量噪聲的停用詞進行處理,過濾掉無實際含義或對分析結果無實際影響的詞。本文采用哈工大停用詞表,過濾后的詞條為24992條,可作為實驗樣本。
3.2數(shù)據(jù)預訓練
預訓練詞向量來源于清華大學的中文文本分類數(shù)據(jù)集THUCNews。THUCNews是根據(jù)新浪新聞RSS訂閱頻道2005—2011年的歷史數(shù)據(jù)篩選過濾生成的新聞文檔。新浪中文預訓練詞向量包是通過對大量新浪新聞文章用融合Word2vec模型和Fast?Text模型的Ngram2vec模型訓練得到。由于本文的數(shù)據(jù)來自搜狗全網(wǎng)新聞平臺,與新浪平臺的新聞文本在各方面都有較大的相似度。因此,選用新浪新聞中文預訓練詞向量包對數(shù)據(jù)進行預訓練會比較適合。
從清華大學的中文文本分類數(shù)據(jù)集THUCNews中抽取20萬條新聞標題內(nèi)容,共10個類別,每類2萬條。類別分別為:金融、房地產(chǎn)、股票、教育、科學、社會、政治、體育、游戲、娛樂。數(shù)據(jù)以詞為單位輸入模型。預處理時合并新聞標題作為基本語料庫,然后對數(shù)據(jù)進行處理。
3.3模型應用與對比分析
本研究使用Pytorch深度學習框架進行網(wǎng)絡新聞文本的分類模型的程序實現(xiàn),將樣本數(shù)據(jù)按2∶1的比例劃分為訓練集與測試集。為了保證實驗的嚴謹性,本實驗的對比實驗的參數(shù)設置均為:預訓練字向量維度128維,神經(jīng)元數(shù)量200,每批數(shù)據(jù)量的大小200,最大訓練時期數(shù)100,Epoch值為6。將實驗數(shù)據(jù)分別進行詞向量嵌入,然后傳給雙向長短期記憶網(wǎng)絡的輸入層,編碼之后經(jīng)過注意力機制作用于輸出層,進行目標的預測。關系抽取實則在嵌入時,加入了實體的特征,與句子特征融合,處理后用結合注意力機制的雙向長短期記憶神經(jīng)網(wǎng)絡模型進行文本分類,根據(jù)最終輸出類別是否匹配實際類別判定網(wǎng)絡新聞文本分類的正確性。
實驗評判標準采用目前廣泛使用的精確率(Precision)、召回率(Recall)和F1值(F1-measure)3種評價指標[19],這3種指標計算公式如下:
其中,式(1)是精確率的計算,TP+FP是指實際分類的文本總數(shù),TP是指正確分類的文本總數(shù)。式(2)是召回率的計算,TP+FN是指應有的分類總數(shù)。式(3)F1是同時考慮精確率和召回率的綜合指標,取二者同時達到表現(xiàn)最優(yōu)的取值。
本文實驗的分類結果如表1所示。對結果分析可以看到,模型對“體育”“教育”這兩個類別的分類效果最好,其F1值均超過了94%。對“金融”“房地產(chǎn)”“娛樂”“社會”“游戲”的分類效果次之,其F1均值在91%左右。對“股票”“科學”“政治”分類效果最差,其F1值均值近87%。總體來看,融合FastText模型和注意力機制的網(wǎng)絡新聞文本分類模型分類效果較好,說明本文所提出的分類框架是有效的,能夠較為準確地實現(xiàn)網(wǎng)絡新聞文本分類。
本文構建了RNN、BiLSTM和BiLSTM_Atte模型進行了對比試驗。同時,為了驗證熱搜新聞文本分類模型所提出的文本表示方法的有效性,使用BiLSTM_Atte模型進行兩次實驗,其中RNN、BiL?STM和BiLSTM_Atte-1所使用的數(shù)據(jù)未融入Fast?Text模型,BiLSTM_Atte-2融入FastText模型,模型對比實驗結果如表2所示。從表2數(shù)據(jù)可以看到,加入了注意力機制的F1值比單一模型的F1值要高,而且融入FastText模型能夠進一步提升模型對于網(wǎng)絡新聞文本的分類準確率,驗證了本文所提出的網(wǎng)絡新聞文本分類模型的有效性。BiLSTM_Atte-2模型的F1值為92.03%,其精確率和召回率也高于其他3個模型,進一步驗證了融合Fast?Text模型與BiLSTM_Atte模型的網(wǎng)絡新聞文本分類模型性能的優(yōu)越性。
由表3可知,本文構建的熱搜新聞文本分類模型收斂速度快且準確率均高于其他3種模型。在Epoch為1時,本文提出的模型分類準確率比BiL?STM_Atte-1模型提升1.18%,比RNN模型提升4.13%,比BiLSTM模型提升3.71%。這是因為當Epoch值較小時,RNN、BiLSTM、BiLSTM_Atte-1神經(jīng)網(wǎng)絡模型無法較好地學習到新聞文本的深層次語義特征,而本文所提出的融合了FastText模型與BiLSTM_Atte模型的文本分類模型則可以較好地捕捉其語義特征并迅速調(diào)整參數(shù),以達到較好的收斂性。RNN模型與BiLSTM_Atte-1模型在Epoch3后均調(diào)整到相對穩(wěn)定的值,且具有較好的收斂效果。對比不同模型在各Epoch下的準確率可以發(fā)現(xiàn),本文所構建的新聞文本分類模型在Epoch1就獲得比較理想的效果。實驗結果表明,本文所提出的融合FastText模型與BiLSTM_Atte模型的網(wǎng)絡新聞文本分類模型計算效率更高,主要得益于本文所提的基于Word2vec模型和FastText模型的網(wǎng)絡新聞文本表示方法,實現(xiàn)了模型的快速收斂。綜上,無論從模型的分類準確率還是從計算效率來看,本文所提出的模型均具有良好的優(yōu)越性。
通過混淆矩陣同樣可以建構模型精度。如圖3的實驗結果顯示,幾乎全部新聞熱點分類數(shù)據(jù)都集中在對角線上,說明加入了注意力機制的神經(jīng)網(wǎng)絡模型精度符合預期。從混淆矩陣中看到矩陣(5,5)的值為848,呈現(xiàn)為對角線最弱分類,對應的為科技類網(wǎng)絡新聞,說明科技類網(wǎng)絡新聞涉及領域眾多,專業(yè)術語繁雜,不同文本專業(yè)詞語差異較大,句子語義特征學習難度也較大,還需要對科技類訓練庫進一步完善以提升模型對科技類新聞文本的分類學習能力。
3.4結論分析
實驗結果表明,利用本文提出的新聞文本分類模型具有一定的優(yōu)越性,實用價值高,為平臺運營者智能化知識組織提供有力指導,具體來說具有以下優(yōu)勢:
1)從表2的對比實驗數(shù)據(jù)可以看出,融合了FastText與注意力機制的模型在精確率上提升至92.03%,達到了理想的預測精度。由此說明,本文提出的融合FastText模型與注意力機制的雙向長短期記憶神經(jīng)網(wǎng)絡模型構建的網(wǎng)絡新聞文本分類方法具有一定的優(yōu)越性。原因在于,結合注意力機制的長短期記憶神經(jīng)網(wǎng)絡模型能夠解決輸入矩陣存在特征稀疏、維度過高以及深層語義特征提取不充分等問題,有效避免了RNN模型梯度爆炸和梯度消失。通過反復迭代訓練,發(fā)揮了結合注意力機制的長短期記憶神經(jīng)網(wǎng)絡模型強大的非線性映射能力,從而提升分類的精確率。
2)從表3的各模型對比實驗數(shù)據(jù)可知,本文提出的融合FastText模型和注意力機制的文本分類方法實現(xiàn)了模型的快速收斂,顯著提升了網(wǎng)絡新聞文本分類的速度,與傳統(tǒng)的文本分類方法相比效率更高,實用性更強,為網(wǎng)絡新聞運營平臺提升知識組織效率提供重要參考依據(jù)。
4結語
本文針對網(wǎng)絡新聞文本特征提出了融合Fast?Text模型和注意力機制,基于Ngram2vec模型和BiLSTM_Atte模型的網(wǎng)絡新聞文本分類技術框架以實現(xiàn)網(wǎng)絡新聞文本分類。具體包括構建了基于Word2vec模型與FastText模型相結合的網(wǎng)絡新聞文本表示模型Ngram2vec模型與結合注意力機制的網(wǎng)絡新聞文本分類模型BiLSTM_Atte模型。運用Word2vec模型與FastText模型實現(xiàn)網(wǎng)絡新聞文本的向量化表示,改善了傳統(tǒng)文本分類方法對深層語義編碼能力不足與效率低下的問題,提升了知識組織效率。通過模型對比實驗分析,充分體現(xiàn)了本文所提出分類模型的優(yōu)越性,為網(wǎng)絡媒體運營平臺提供科學的決策依據(jù)。
限于篇幅,本文只選取了單一網(wǎng)絡新聞平臺數(shù)據(jù)作為實驗樣本,后續(xù)研究將擴充實驗樣本,進一步開展對模型的普適與泛化能力的驗證與優(yōu)化研究,提升網(wǎng)絡新聞文本分類模型在數(shù)據(jù)驅動情境下的泛化能力。并在此研究基礎上,與其他深度學習方法相融合,實現(xiàn)更加有效的深層語義挖掘,以期為網(wǎng)絡運營平臺提供更加精準、高效的智能化知識組織模式。
3218500338236