張明西,馬悅榮,林啟新
(上海理工大學(xué) 出版印刷與藝術(shù)設(shè)計(jì)學(xué)院,上海 200093)
詞匯輸入預(yù)測(cè)[1]通過(guò)理解文本并依據(jù)上下文在給定一組詞匯的情況下預(yù)測(cè)下一個(gè)詞匯,進(jìn)而達(dá)到提高用戶輸入效率的目的。在新聞行業(yè),新聞時(shí)效性是體現(xiàn)新聞價(jià)值的重要因素。詞匯輸入預(yù)測(cè)可應(yīng)用于撰寫新聞報(bào)道來(lái)提高寫稿效率。
長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)作為典型的時(shí)間序列預(yù)測(cè)模型,已經(jīng)廣泛應(yīng)用于交通流速預(yù)測(cè)[2]、語(yǔ)音識(shí)別[3]、新冠走勢(shì)預(yù)測(cè)[4]等不同領(lǐng)域的時(shí)序數(shù)據(jù)研究,同時(shí)為詞匯輸入預(yù)測(cè)提供一種有效解決思路。首先,LSTM利用長(zhǎng)距離的時(shí)序信息預(yù)測(cè)后序時(shí)間序列。用戶輸入詞匯具有前后順序,符合LSTM輸入序列在時(shí)間維度上的遞歸結(jié)構(gòu)。其次,LSTM訓(xùn)練采用基于時(shí)間的反向傳播算法,通過(guò)不斷調(diào)整參數(shù)加強(qiáng)輸入至輸出的映射,能夠根據(jù)輸入找出規(guī)律,輸出合適的詞匯。再次,LSTM的記憶機(jī)制綜合考慮了存儲(chǔ)歷史序列信息的長(zhǎng)期記憶和保留近期輸入序列信息的短期記憶,因此輸出的結(jié)果符合用戶的用詞習(xí)慣。
在領(lǐng)域新聞中,用戶的難點(diǎn)在于通用的停用詞比較容易輸出,而與行業(yè)相關(guān)的高頻詞匯則不易輸出。例如,當(dāng)用戶輸入“比賽”時(shí),會(huì)優(yōu)先推薦“了”、“的”等通用的停用詞,但在體育新聞中常用于“比賽”序列后的高頻詞匯如“獲勝”等則不會(huì)優(yōu)先推薦。LSTM模型依據(jù)用戶習(xí)慣、輸入序列,對(duì)于不同行業(yè)里使用的高頻詞匯缺少考慮。
為此,文中結(jié)合樣本修剪在LSTM模型上開(kāi)展領(lǐng)域新聞詞匯輸入預(yù)測(cè)研究。依據(jù)領(lǐng)域新聞文本中詞匯前后序列間的強(qiáng)弱關(guān)系進(jìn)行詞匯關(guān)系的修剪,采用優(yōu)化后的文本數(shù)據(jù)訓(xùn)練LSTM來(lái)生成詞匯輸入預(yù)測(cè)序列,對(duì)記者輸入的詞匯預(yù)測(cè)下一個(gè)詞匯,提高準(zhǔn)確率的同時(shí)提高了輸入效率。
近些年來(lái),大量的研究者在詞匯輸入預(yù)測(cè)方面開(kāi)展研究。典型的詞匯預(yù)測(cè)方法包括N-gram模型、RNN模型、LSTM模型等。
基于統(tǒng)計(jì)語(yǔ)言模型的詞匯預(yù)測(cè)利用序列中詞匯的概率分布進(jìn)行預(yù)測(cè)。Yazdani等[5]引入Tri-gram語(yǔ)言模型進(jìn)行文本預(yù)測(cè),通過(guò)顯示下一個(gè)詞匯的建議列表,減少用戶輸入文本時(shí)的打字時(shí)間消耗。Goulart等[6]提出基于樸素貝葉斯和潛在語(yǔ)義分析(LSA)理論的混合詞匯預(yù)測(cè)模型,考慮詞匯之間的句法/語(yǔ)義規(guī)則來(lái)減少訓(xùn)練時(shí)間,通過(guò)梯度下降技術(shù)優(yōu)化參數(shù)進(jìn)而提高預(yù)測(cè)的準(zhǔn)確率。Tofique等[7]提出新術(shù)語(yǔ)“相互語(yǔ)境”,通過(guò)用戶雙方的4個(gè)語(yǔ)境屬性生成相互語(yǔ)境,考慮用戶之間的相關(guān)性。
基于深度學(xué)習(xí)的方法利用語(yǔ)料庫(kù)進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練來(lái)實(shí)現(xiàn)詞匯預(yù)測(cè)。Barman等[8]利用RNN對(duì)標(biāo)音轉(zhuǎn)錄的阿薩姆語(yǔ)進(jìn)行訓(xùn)練得到更好的下一個(gè)詞匯預(yù)測(cè)效果。Habib等[9]提出LSTM-CONV1D模型,用于遠(yuǎn)程醫(yī)療服務(wù)中的下一個(gè)單詞預(yù)測(cè),簡(jiǎn)化阿拉伯語(yǔ)環(huán)境下醫(yī)生的醫(yī)療建議書寫過(guò)程。Ghosh等[10]提出了CLSTM(上下文LSTM)模型,通過(guò)將上下文向量附加到輸入的詞匯上,利用詞匯和主題作為特征來(lái)提高詞匯輸入預(yù)測(cè)的性能。趙璐偲等[11]引入基于BERT特征的LSTM網(wǎng)絡(luò)用于電子病歷輸入文本的句子推薦。張楠等[12]基于Transformer翻譯模型, 提出神經(jīng)機(jī)器翻譯方法用來(lái)聯(lián)合預(yù)測(cè)小寫形式英文單詞及其對(duì)應(yīng)大小寫屬性。Sukhbataa等[13]引入遞歸神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)文本序列的下一個(gè)詞匯,通過(guò)端到端訓(xùn)練減少訓(xùn)練過(guò)程中需要的監(jiān)督,更普遍地適用于詞匯輸入預(yù)測(cè)的現(xiàn)實(shí)環(huán)境。
面向領(lǐng)域新聞的詞匯輸入預(yù)測(cè)系統(tǒng)的流程框架如圖1所示,主要分為離線和在線兩個(gè)階段。其中,離線階段主要是刪除領(lǐng)域新聞數(shù)據(jù)集文本詞匯間的弱關(guān)系,具體步驟為:文本預(yù)處理,對(duì)文本進(jìn)行分句、清洗、去停用詞、分詞等;構(gòu)建詞匯網(wǎng)絡(luò),基于文本的詞匯前后序列關(guān)系構(gòu)建詞匯網(wǎng)絡(luò);前后兩個(gè)詞匯的相關(guān)度計(jì)算,借鑒TFIDF思想構(gòu)建詞匯相關(guān)度度量模型計(jì)算詞匯之間的相關(guān)度,并設(shè)置閾值去除網(wǎng)絡(luò)中相關(guān)性弱的關(guān)系;刪除詞匯之間的弱關(guān)系,提取弱關(guān)系詞匯,在原文本中進(jìn)行詞匯關(guān)系的分割與刪除。
圖1 系統(tǒng)的流程框架
在線階段主要是為用戶輸入的詞匯預(yù)測(cè)下一個(gè)詞匯,具體步驟為:詞匯輸入預(yù)測(cè)模型,使用刪除弱關(guān)系的文本數(shù)據(jù)訓(xùn)練LSTM模型直至訓(xùn)練完成;下一個(gè)詞匯排序并推薦,根據(jù)用戶輸入的詞匯,模型預(yù)測(cè)下一個(gè)詞匯的概率由大到小排序,取topk的建議列表推薦給用戶;用戶根據(jù)詞匯建議列表選擇合適的詞匯,若還未完成輸入,則模型根據(jù)被選擇的詞匯再次預(yù)測(cè)下一個(gè)詞匯,直至用戶輸入完成并輸出結(jié)果。
面向領(lǐng)域新聞的詞匯輸入預(yù)測(cè)系統(tǒng)根據(jù)記者撰寫新聞報(bào)道的領(lǐng)域來(lái)提供與該領(lǐng)域相關(guān)的詞匯,通過(guò)構(gòu)建網(wǎng)絡(luò)、相關(guān)度計(jì)算、去噪等操作更加準(zhǔn)確地提供與輸入詞匯相關(guān)度高的下一個(gè)詞匯,提高記者的寫稿質(zhì)量和速度。
為了消除領(lǐng)域新聞中詞頻對(duì)詞匯預(yù)測(cè)準(zhǔn)確率的影響,需優(yōu)化文本數(shù)據(jù)來(lái)進(jìn)一步明確輸入序列表示。主要通過(guò)詞匯序列間的關(guān)系構(gòu)建詞匯網(wǎng)絡(luò),借鑒TFIDF思想構(gòu)建詞匯相關(guān)度度量模型刪除詞匯間的弱關(guān)系實(shí)現(xiàn)去噪,再還原為相應(yīng)的文本數(shù)據(jù)。
領(lǐng)域新聞文本數(shù)據(jù)量龐大,通過(guò)構(gòu)建詞匯網(wǎng)絡(luò)來(lái)快速且精確地得到整個(gè)文本的詞匯序列關(guān)系。TextRank[14]是一種基于圖的排序算法,通過(guò)把文本分割成若干詞匯,利用共現(xiàn)窗口構(gòu)建詞匯之間的關(guān)系建立詞圖模型。因此,可以借鑒TextRank算法建立詞圖的思想,基于原文中詞匯前后序列的關(guān)系建立詞匯有向圖,進(jìn)而構(gòu)建詞匯網(wǎng)絡(luò)。主要步驟如下:
步驟1 對(duì)領(lǐng)域新聞文本R依據(jù)分離句子結(jié)束符進(jìn)行分句,得R1=[S1,S2,S3,…,Sn];
步驟2 對(duì)文本R1依次去停用詞、數(shù)字、特殊字符來(lái)清洗文本,采用基于字典的分詞方法對(duì)每個(gè)句子進(jìn)行分詞即Si=[w1,w2,w3,…,wm], 得R2=[w1,w2,w3,…,wn];
步驟3 基于文本R2中的詞序關(guān)系,以前一個(gè)詞匯指向后一個(gè)詞匯的順序遍歷R2建立有向詞圖。
上述步驟建立有向詞圖G=(V,E), 其中V為詞匯節(jié)點(diǎn)的集合,即步驟2得到的詞匯R2=[w1,w2,w3,…,wn],E為有向邊的集合,即由節(jié)點(diǎn)wi→wj構(gòu)造有向邊。每次以當(dāng)前詞匯位置依據(jù)先后順序向右遍歷全文得到兩個(gè)詞匯之間相同有向邊的總數(shù)量,即兩個(gè)節(jié)點(diǎn)之間的權(quán)值,從而構(gòu)建詞匯網(wǎng)絡(luò),如圖2所示。
圖2 構(gòu)建詞匯網(wǎng)絡(luò)
圖2中左邊為原始文本,右邊為構(gòu)建的詞匯網(wǎng)絡(luò)。每個(gè)詞匯都為一個(gè)節(jié)點(diǎn),兩個(gè)節(jié)點(diǎn)間的連接則為邊。對(duì)于原始文本中的一個(gè)詞匯,定義這個(gè)詞匯在文本前后序列中的后一個(gè)詞匯為后繼詞匯。在原始文本中,詞匯“世界杯”的后繼詞匯分別有“冠軍”和“小組賽”,所以在相應(yīng)的詞匯網(wǎng)絡(luò)中詞匯“世界杯”指向詞匯“冠軍”和“小組賽”;詞匯“歐洲”的后繼詞匯只有“冠軍”,所以詞匯“歐洲”只指向“冠軍”;詞匯“冷門”和“魔咒”沒(méi)有后繼詞匯,所以在相應(yīng)的詞匯網(wǎng)絡(luò)中沒(méi)有指向任何一個(gè)詞匯。
詞匯網(wǎng)絡(luò)中存在許多相關(guān)性弱的關(guān)系,在預(yù)測(cè)時(shí)未考慮這些噪音的干擾,以致預(yù)測(cè)結(jié)果的準(zhǔn)確率較低,因此,需計(jì)算詞匯之間的相關(guān)性大小進(jìn)而達(dá)到去噪的目的。TF-IDF用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度,廣泛應(yīng)用于數(shù)據(jù)挖掘、文本處理和信息檢索等領(lǐng)域[15,16]。同樣,可以借鑒這種思想來(lái)構(gòu)建詞匯相關(guān)度度量模型計(jì)算文本中詞匯之間的相關(guān)性,來(lái)評(píng)估一個(gè)詞匯對(duì)另一個(gè)詞匯的重要程度。一個(gè)詞匯的重要性隨著它作為另一個(gè)詞匯的后繼詞匯出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它作為所有詞匯的后繼詞匯出現(xiàn)的頻率成反比下降。
F為給定的詞匯b作為詞匯a的后繼詞匯所出現(xiàn)的頻率。fb為詞匯b作為詞匯a的后繼詞匯所出現(xiàn)的次數(shù)。mb為詞匯a所有的后繼詞匯出現(xiàn)次數(shù)總和。F值可計(jì)算為
(1)
定義D為詞匯b普遍重要性的度量。如果詞匯b作為不同詞匯的后繼詞匯出現(xiàn)的頻率越低,D也就越大。用 |W| 表示文本中所有詞匯的總數(shù),用 |Q| 表示文本中后繼詞匯為詞匯b的詞匯a總數(shù)。D值可計(jì)算為
(2)
如果詞匯b為詞匯的后繼詞匯出現(xiàn)的頻率高,并且作為其它詞匯的后繼詞匯出現(xiàn)次數(shù)少,則說(shuō)明詞匯b對(duì)詞匯a的重要程度高,相關(guān)度高。定義T為F與D的乘積,乘積越大,則說(shuō)明兩個(gè)詞匯之間的相關(guān)度越高。T值可計(jì)算為
T=F×D
(3)
文本中詞匯的后繼詞匯包括許多相關(guān)性低的無(wú)用詞匯,不僅降低預(yù)測(cè)準(zhǔn)確度同時(shí)也增加了計(jì)算的開(kāi)銷。系統(tǒng)通過(guò)設(shè)置閾值的方式去除詞匯間的弱關(guān)系,通過(guò)去噪達(dá)到優(yōu)化詞匯網(wǎng)絡(luò)的目的。用Y表示去除詞匯a序列后的噪聲詞匯而設(shè)置的閾值,可計(jì)算為
Y=(Tmax-Tmin)×μ+Tmin
(4)
式中:Tmax為詞匯a的后繼詞匯中最大的T值;Tmin為詞匯a的后繼詞匯中最小的T值;μ∈[0,1]是用來(lái)控制去除數(shù)據(jù)的范圍;當(dāng)詞匯b在詞匯a序列后的T值大于Y,則保留兩個(gè)詞匯之間的關(guān)系;否則,去除兩個(gè)詞匯之間的關(guān)系。通過(guò)設(shè)置閾值修剪詞匯關(guān)系,實(shí)現(xiàn)詞匯網(wǎng)絡(luò)的優(yōu)化。參數(shù)μ取值越大,產(chǎn)生的閾值就越大,詞匯網(wǎng)絡(luò)也就會(huì)越稀疏,反之亦然。
對(duì)于優(yōu)化后的詞匯網(wǎng)絡(luò)需還原為文本數(shù)據(jù),對(duì)原文本中詞匯之間的弱關(guān)系進(jìn)行分割與刪除。主要步驟如下:
步驟1 在詞匯網(wǎng)絡(luò)中提取出T值低于閾值的兩個(gè)詞匯之間的關(guān)系。
步驟2 基于詞匯前后序列關(guān)系,每次以當(dāng)前位置開(kāi)始向右遍歷文本R2的過(guò)程中,對(duì)步驟1所提取出的弱關(guān)系詞匯使用分割符在詞匯之間進(jìn)行分割得到文本R3。
步驟3 對(duì)文本R3再進(jìn)一步修剪,若兩個(gè)分割符中間只存在一個(gè)詞匯時(shí),則刪除這個(gè)詞匯以及只留下一個(gè)分割符,最后得到文本R4。
在遍歷完整個(gè)文本的同時(shí)刪除了所有詞匯之間的弱關(guān)系,得到優(yōu)化后的文本數(shù)據(jù),從而明確輸入序列表示。
詞匯輸入序列具有前后時(shí)間順序的結(jié)構(gòu)特點(diǎn),LSTM的輸入序列在時(shí)間維度上呈遞歸結(jié)構(gòu),因此,LSTM適用于詞匯輸入預(yù)測(cè),能夠根據(jù)用戶輸入的詞匯來(lái)返回下一個(gè)詞匯的topk建議列表。
LSTM網(wǎng)絡(luò)是由Hochreiter & Schmidhuber[17]提出能夠?qū)W習(xí)長(zhǎng)期依賴關(guān)系的特殊RNN。與標(biāo)準(zhǔn)RNN在神經(jīng)網(wǎng)絡(luò)的重復(fù)模塊具有簡(jiǎn)單的單層結(jié)構(gòu)不同,LSTM的重復(fù)模塊通過(guò)4個(gè)神經(jīng)網(wǎng)絡(luò)層結(jié)構(gòu)以非常特殊的方式進(jìn)行交互[18],如圖3所示。
圖3 LSTM結(jié)構(gòu)
ft=σ(Wf·[ht-1,xt]+bf)
(5)
it=σ(Wi·[ht-1,xt]+bi)
(6)
(7)
(8)
ot=σ(Wo·[ht-1,xt]+bo)
(9)
ht=ot*tanh(Ct)
(10)
基于LSTM的詞匯輸入預(yù)測(cè)模型的整體架構(gòu)如圖4所示,模型主要由輸入層、隱藏層、輸出層組成,其中隱藏層由三層LSTM層和一層DROPOUT層組成。根據(jù)文本數(shù)據(jù)中詞匯出現(xiàn)的頻率為每一個(gè)詞匯進(jìn)行編號(hào)來(lái)構(gòu)建字典,同時(shí)生成逆序字典以解碼 LSTM輸出數(shù)值為相應(yīng)詞匯。在使用優(yōu)化的文本數(shù)據(jù)訓(xùn)練LSTM過(guò)程中,LSTM的輸入為詞匯對(duì)應(yīng)的整數(shù)向量,輸出為Softmax激活函數(shù)歸一化后的預(yù)測(cè)概率向量,采用Adam優(yōu)化器達(dá)到最小損失函數(shù)的目的,通過(guò)不斷更新迭代模型權(quán)重得到最優(yōu)模型。根據(jù)用戶輸入的詞匯,模型依據(jù)預(yù)測(cè)概率向量,通過(guò)對(duì)概率進(jìn)行逆序排序,并使用逆序字典解碼得到相應(yīng)的topk詞匯建議列表。
圖4 基于LSTM的詞匯輸入預(yù)測(cè)模型
4.2.1 分類交叉熵?fù)p失函數(shù)
交叉熵?fù)p失函數(shù)通過(guò)最小化交叉熵得到目標(biāo)概率分布之間的差異來(lái)衡量人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANN)的預(yù)測(cè)值與實(shí)際值,其中分類交叉熵?fù)p失函數(shù)(categorical_crossentropy)適用于多分類問(wèn)題,而詞匯輸入預(yù)測(cè)任務(wù)相當(dāng)于把每個(gè)詞匯當(dāng)作一個(gè)類別,通過(guò)預(yù)測(cè)下一個(gè)詞匯即某個(gè)類別的概率大小進(jìn)行排序推薦,因此也可看作為一個(gè)多分類問(wèn)題。損失是多類標(biāo)簽與Softmax()函數(shù)計(jì)算得到的預(yù)測(cè)值之間的交叉熵大小,能夠準(zhǔn)確衡量模型的訓(xùn)練程度以便于后續(xù)優(yōu)化,公式如下定義
(11)
4.2.2 Adam優(yōu)化器
Adam優(yōu)化器集成Ada Grad和RMSProp算法的優(yōu)勢(shì), 能夠計(jì)算不同參數(shù)的適應(yīng)性學(xué)習(xí)率同時(shí)消耗更少存儲(chǔ)資源,經(jīng)過(guò)偏置校正后,對(duì)于每個(gè)迭代學(xué)習(xí)率都有一個(gè)固定的范圍來(lái)穩(wěn)定參數(shù),并通過(guò)梯度的一階矩估計(jì)和二階矩估計(jì)動(dòng)態(tài)調(diào)整學(xué)習(xí)率。計(jì)算公式[20]如下所示
(12)
5.1.1 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)使用的CPU是Intel(R)Core(TM)i5-8250U,內(nèi)存是8 GB。優(yōu)化數(shù)據(jù)集算法部分由Java編寫,開(kāi)發(fā)的環(huán)境為Eclipse Java 2019。詞匯輸入預(yù)測(cè)部分由Python編寫,開(kāi)發(fā)的環(huán)境為PyCharm 2019。
5.1.2 實(shí)驗(yàn)數(shù)據(jù)及參數(shù)設(shè)置
實(shí)驗(yàn)所用的數(shù)據(jù)集見(jiàn)表1。實(shí)驗(yàn)中模型的LSTM隱藏層節(jié)點(diǎn)數(shù)設(shè)置為512,初始學(xué)習(xí)率設(shè)置為0.001,數(shù)據(jù)批處理量batch_size設(shè)置為128,dropout層損失率設(shè)置為0.2。
表1 實(shí)驗(yàn)數(shù)據(jù)集
5.1.3 評(píng)估方法
評(píng)估語(yǔ)言模型的直接方法是映射其準(zhǔn)確性,所以在實(shí)驗(yàn)中隨機(jī)選擇100個(gè)中文詞匯進(jìn)行實(shí)驗(yàn)效果評(píng)估。其ground truth為原始數(shù)據(jù)集文本去掉通用停用詞后的文本序列中前后兩個(gè)詞匯的關(guān)系。采用平均精度均值(mean ave-rage precision,MAP)來(lái)評(píng)估詞匯輸入預(yù)測(cè)結(jié)果的準(zhǔn)確性。首先平均精度均值(MAP)定義為
(13)
式中:Z為詞匯輸入的次數(shù);Lk(Wi) 為詞匯Wi輸入后預(yù)測(cè)結(jié)果的前k個(gè)詞匯的平均精度函數(shù)。Lk(Wi) 定義為
(14)
式中:n為處于預(yù)測(cè)結(jié)果的位置j時(shí)的相關(guān)詞匯數(shù)量;rel(j) 表示位置j上的詞匯是否相關(guān),不相關(guān)為0,相關(guān)為1。
LSTM-opt為文中所提方法的模型,圖5(a)、圖6(a)為取不同參數(shù)μ的LSTM-opt模型對(duì)應(yīng)的MAP值,其中k分別為5,10,15。參數(shù)μ是用來(lái)控制去除詞匯關(guān)系網(wǎng)絡(luò)中弱關(guān)系的范圍,減少噪音對(duì)詞匯輸入預(yù)測(cè)的影響。當(dāng)μ取值為0.1時(shí),MAP值最高,隨著μ的持續(xù)增長(zhǎng),由于刪除過(guò)多詞匯之間的關(guān)系,網(wǎng)絡(luò)過(guò)于稀疏,導(dǎo)致MAP值快速下降。
圖5 體育新聞數(shù)據(jù)集對(duì)應(yīng)的MAP值
圖6 財(cái)經(jīng)新聞數(shù)據(jù)集對(duì)應(yīng)的MAP值
圖5(b)、圖6(b)、圖7和圖8分別為不同數(shù)據(jù)集的參數(shù)k對(duì)應(yīng)的MAP值。通過(guò)觀察可知,隨著k的不斷增加,MAP值呈不斷下降趨勢(shì)。因?yàn)楫?dāng)k的取值較小時(shí),檢索結(jié)果的范圍小,檢索出的相關(guān)詞匯與輸入詞匯都有較高的相關(guān)性,所以MAP值較大。但是隨著k的不斷增加,檢索范圍的擴(kuò)大,檢索出來(lái)的弱相關(guān)詞匯也隨之增加,導(dǎo)致MAP值持續(xù)下降。從而可知返回結(jié)果中越靠前的詞匯與輸入詞匯的相關(guān)性越大,進(jìn)一步說(shuō)明本文方法返回的預(yù)測(cè)結(jié)果具有合理的排序。
圖7 娛樂(lè)新聞數(shù)據(jù)集參數(shù)k對(duì)應(yīng)的MAP值
圖8 時(shí)政新聞數(shù)據(jù)集參數(shù)k對(duì)應(yīng)的MAP值
其次,隨著k的增加,LSTM-opt(μ=0.1)模型的MAP值皆大于基準(zhǔn)的LSTM模型的MAP值,這是因?yàn)榛鶞?zhǔn)LSTM模型訓(xùn)練的數(shù)據(jù)集的詞匯網(wǎng)絡(luò)中存在許多的弱關(guān)系,不僅增加相關(guān)性計(jì)算的開(kāi)銷,并且在詞匯輸入預(yù)測(cè)結(jié)果中產(chǎn)生噪音詞匯,導(dǎo)致準(zhǔn)確率偏低。與之不同的是LSTM-opt(μ=0.1)模型由于刪去了部分詞匯之間的弱關(guān)系,實(shí)現(xiàn)了一定的去噪,優(yōu)化了詞匯網(wǎng)絡(luò),從而顯著地提高詞匯輸入預(yù)測(cè)的準(zhǔn)確率。
通過(guò)隨機(jī)選擇4個(gè)詞匯進(jìn)行實(shí)例展示來(lái)更清晰直觀地觀察實(shí)驗(yàn)結(jié)果。面向體育新聞的詞匯輸入預(yù)測(cè)返回的結(jié)果見(jiàn)表2。由于訓(xùn)練的數(shù)據(jù)集是體育領(lǐng)域新聞報(bào)道,所以返回的詞匯都與體育領(lǐng)域緊密相關(guān)。例如,當(dāng)輸入“比分”時(shí),返回的詞匯依次為“扳平”、“改寫”、“差距”等。在體育新聞中,“比分扳平”、“比分改寫”、“比分差距”等都是常用的高頻詞組搭配,兩個(gè)詞匯之間存在較高的相關(guān)性,因此非常符合體育新聞?dòng)浾叩膶懜辶?xí)慣及要求。類似地,“球員”、“決賽”、“媒體”的返回結(jié)果也都滿足體育新聞?dòng)浾叩男枨蟆?/p>
表2 面向體育新聞的詞匯輸入預(yù)測(cè)返回的詞匯序列
面向財(cái)經(jīng)新聞的詞匯輸入預(yù)測(cè)返回的結(jié)果見(jiàn)表3。當(dāng)輸入“股市”時(shí),返回的詞匯依次為“大跌”、“上漲”、“下滑”等,而“股市大跌”、“股市上漲”、“股市下滑”在財(cái)經(jīng)新聞中也都為常用詞組搭配,因此也完全符合財(cái)經(jīng)新聞?dòng)浾叩膶懜辶?xí)慣及要求。通過(guò)實(shí)例研究與分析,本文的方法能夠更加準(zhǔn)確地返回記者所期望的結(jié)果,提高作者的寫稿速度。
表3 面向財(cái)經(jīng)新聞的詞匯輸入預(yù)測(cè)返回的詞匯序列
文中研究與設(shè)計(jì)了一種面向領(lǐng)域新聞的詞匯輸入預(yù)測(cè)方法,實(shí)現(xiàn)了領(lǐng)域新聞?dòng)浾叩妮斎腩A(yù)測(cè)功能。基于領(lǐng)域新聞文本的詞序關(guān)系構(gòu)建詞匯網(wǎng)絡(luò),借鑒TFIDF模型的思想構(gòu)建詞匯相關(guān)度度量模型,通過(guò)修剪詞匯關(guān)系來(lái)優(yōu)化詞匯網(wǎng)絡(luò),進(jìn)一步優(yōu)化用來(lái)訓(xùn)練LSTM的文本數(shù)據(jù)。利用訓(xùn)練好的LSTM模型,根據(jù)輸入詞匯得出前k個(gè)最相關(guān)的詞匯。通過(guò)大量實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)LSTM模型相比,文中結(jié)合樣本修剪的方法有效地提高了領(lǐng)域新聞詞匯輸入預(yù)測(cè)的準(zhǔn)確率,滿足了各領(lǐng)域新聞?dòng)浾邔懜逍枨蟆T谖磥?lái)工作中,將著重于優(yōu)化模型結(jié)構(gòu)方面來(lái)進(jìn)一步提高模型預(yù)測(cè)的準(zhǔn)確率。