劉夢(mèng)豪 熊回香 王妞妞 賀宇航
摘 要: [目的/ 意義] 為幫助用戶在擁有海量文本信息的問(wèn)答社區(qū)高效率、高質(zhì)量定位到符合自身需求的信息。[方法/ 過(guò)程] 本文提出基于主題特征的問(wèn)答文本摘要生成模型, 該模型融合Word2Vec 和SLDA 算法多層次表達(dá)問(wèn)答文本語(yǔ)義特征, 而后基于圖排序的思想, 結(jié)合MRR 冗余控制算法與文本句特征標(biāo)簽, 調(diào)整句子權(quán)重,高效篩選出貼合問(wèn)題標(biāo)簽的摘要內(nèi)容。[結(jié)果/ 結(jié)論] 本文對(duì)知乎問(wèn)答社區(qū)多個(gè)問(wèn)題下的問(wèn)答文本數(shù)據(jù)進(jìn)行驗(yàn)證,結(jié)果證明該模型具有較高的可行性和有效性。但本文選取了500 份回答文本數(shù)據(jù)進(jìn)行實(shí)證, 未來(lái)可進(jìn)一步擴(kuò)大數(shù)據(jù)量開展更為充分的驗(yàn)證。
關(guān)鍵詞: 摘要自動(dòng)生成; 知乎; 問(wèn)答社區(qū); 監(jiān)督主題模型; 圖排序; Word2Vec
DOI:10.3969 / j.issn.1008-0821.2023.08.011
〔中圖分類號(hào)〕G203 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2023) 08-0114-11
在線問(wèn)答社區(qū)是依托Web2 0 發(fā)展起來(lái)的知識(shí)共享平臺(tái), 已經(jīng)成為越來(lái)越多用戶交流意見、分享知識(shí)的重要載體, 用戶在各抒己見的同時(shí), 也創(chuàng)造了海量的問(wèn)答文本信息, 這些信息因其具備知識(shí)導(dǎo)向性和專業(yè)性而彰顯出極高的價(jià)值, 蘊(yùn)含著較多的問(wèn)答文本。與此同時(shí), 這些文本還具有數(shù)據(jù)量大、內(nèi)容碎片化、結(jié)構(gòu)雜亂化、特征稀疏性強(qiáng)、噪聲大、規(guī)范性差等特點(diǎn), 為用戶精準(zhǔn)高效獲取信息帶來(lái)了巨大的障礙, 自動(dòng)文摘技術(shù)便是能幫助用戶從海量的文本信息中找到所需關(guān)鍵信息的重要技術(shù)之一, 但自然語(yǔ)言的復(fù)雜性、模糊性、歧義性等特征使得計(jì)算機(jī)難以精準(zhǔn)地掌握自然語(yǔ)言的實(shí)際語(yǔ)義,加大了自動(dòng)文摘生成難度。因此, 為了從大量的問(wèn)答文本中自動(dòng)抽取出主要的語(yǔ)義信息, 提升長(zhǎng)文本摘要的質(zhì)量, 解決現(xiàn)有自動(dòng)摘要抽取中信息覆蓋率低等問(wèn)題, 本文嘗試從主題特征入手, 結(jié)合監(jiān)督主題模型及Word2Vec 算法從語(yǔ)義角度對(duì)問(wèn)答文本摘要進(jìn)行抽取, 并利用CoRank 與冗余控制方法調(diào)整句子內(nèi)容及順序, 進(jìn)一步提高問(wèn)答文本摘要水平,以期豐富基于主題模型的自動(dòng)文摘研究方法, 并拓寬自動(dòng)文摘應(yīng)用研究領(lǐng)域, 從而提升信息獲取效率, 增強(qiáng)信息服務(wù)質(zhì)量。
1 相關(guān)研究
自動(dòng)文摘需要解決語(yǔ)義分析和句子排序問(wèn)題,近年來(lái), 主題模型(Topic Model)作為一種含有隱含變量的三層貝葉斯混合概率生成模型, 通常被用于文本語(yǔ)義分析, 該模型以非監(jiān)督學(xué)習(xí)的方式自動(dòng)提取文檔集中隱含語(yǔ)義主題, 有助于在文本摘要生成時(shí)進(jìn)行主題語(yǔ)義表示[1] 。國(guó)內(nèi)外學(xué)者基于主題模型開展了自動(dòng)文摘的多項(xiàng)探索研究, 例如, Fang H等[2] 通過(guò)引入主題因子, 提出以TAOS 模型來(lái)提取各種特征組; Bairi R B 等[3] 為了能更便捷地融合LDA、分類和聚類算法來(lái)抽取摘要, 提出了一種依賴于多個(gè)子模塊函數(shù)和層次主題的方法; Yang G[4]基于n-gram 模型, 將語(yǔ)詞上下文與LDA 模型相融合, 計(jì)算得到不同上下文層次間文本—主題分布以及相同層次間的語(yǔ)詞關(guān)聯(lián)性; 湯丹[5] 提出了基于LDA 主題模型的多特征中文自動(dòng)摘要方法, 從多個(gè)角度判斷句子的重要性, 并利用冗余控制對(duì)句子進(jìn)行篩選, 從而實(shí)現(xiàn)通用的中文自動(dòng)文摘系統(tǒng)。這類研究多為基于傳統(tǒng)無(wú)監(jiān)督主題模型的算法, 難以保證自動(dòng)文摘的精確度, 隨著機(jī)器學(xué)習(xí)算法的不斷推廣和深化, 有監(jiān)督的學(xué)習(xí)方法取得廣泛應(yīng)用。LiJ 等[6] 在提取特征時(shí)引入了查詢相關(guān)度的概念, 并利用貝葉斯概率模型進(jìn)行監(jiān)督訓(xùn)練; Valizadeh M等[7] 融合Word2Vec 等多個(gè)機(jī)器學(xué)習(xí)算法模型來(lái)改進(jìn)算法, 避免了抽取特征的單一性, 基于抽取出的多樣特征對(duì)得到的候選摘要進(jìn)行語(yǔ)法分析; Blei MD 等[8] 根據(jù)有監(jiān)督的機(jī)器學(xué)習(xí)算法提出了有監(jiān)督的主題模型SLDA(Supervised Latent Dirichlet Alloca?tion), 在指定標(biāo)簽的監(jiān)督下提升了主題發(fā)現(xiàn)的準(zhǔn)確性, 一定程度上避免了LDA 為文本強(qiáng)制分配主題的弊端; 唐曉波等[9] 提出了一種混合機(jī)器學(xué)習(xí)模型, 在抽取摘要的過(guò)程中同時(shí)考慮了句子的形式特征和深層語(yǔ)義, 并在多主題的中文長(zhǎng)文本上驗(yàn)證了該模型的有效性; 石磊等[10] 基于序列到序列模型提升了文本摘要的生成效率; 肖元君等[11] 在Gensim 的基礎(chǔ)上, 融合Word2Vec 和TextRank 算法生成詞向量, 并生成有權(quán)無(wú)向圖, 對(duì)句子進(jìn)行打分排序后生成文本摘要。
為了解決句子排序問(wèn)題, Erkan G 等[12] 基于LexRank 算法構(gòu)建出圖模型, 在該模型中, 設(shè)定句子或語(yǔ)詞為圖的節(jié)點(diǎn), 以句子或語(yǔ)詞間的相似度來(lái)表示節(jié)點(diǎn)之間的邊, 最終得到句子的重要度排序,進(jìn)而得到文本摘要; 在此基礎(chǔ)上, Wei F 等[13] 引入文檔間的相關(guān)性, 嘗試將圖分成句子層和文檔層, 而不單單利用句子間的相似度來(lái)構(gòu)造圖, 取得了較好的效果; Silva S 等[14] 在計(jì)算句間相似度的基礎(chǔ)上, 利用語(yǔ)詞的TF-IDF 值以及查詢語(yǔ)詞的相關(guān)性來(lái)進(jìn)一步計(jì)算句子的分?jǐn)?shù), 然后以分?jǐn)?shù)最高的k 個(gè)句子為中心進(jìn)行聚類, 根據(jù)聚類結(jié)果構(gòu)造圖模型, 進(jìn)而生成摘要。趙美玲等[15] 針對(duì)多文本, 在對(duì)不同主題進(jìn)行劃分的基礎(chǔ)上, 融合了改進(jìn)Kmeans聚類和圖模型方法, 實(shí)現(xiàn)了多文本自動(dòng)文摘; 由于普通的圖模型只能從相鄰節(jié)點(diǎn)出發(fā)簡(jiǎn)單描述句子之間的關(guān)系, 難以更全面地表示句子間存在的其他復(fù)雜關(guān)系。學(xué)者Wang W 等[16] 基于DB?SCAN 方法構(gòu)造超圖, 再計(jì)算句子相似度及句子的查詢權(quán)重, 從而計(jì)算句子得分; Zheng H T 等[17] 通過(guò)引入文檔中的概念, 在TextRank 的基礎(chǔ)上增加了概念層, 從而得到了兩層超圖模型, 在該模型中, 利用句子已有的權(quán)重和含有的概念數(shù)來(lái)改進(jìn)句子得分的計(jì)算方法; 作為一種基于圖排序的自動(dòng)摘要算法, CoRank 算法以TextRank 算法為基礎(chǔ), 融合語(yǔ)詞與句子之間的關(guān)系, 更適合用于在自動(dòng)摘要中對(duì)句子進(jìn)行打分排序。此外, 陶興等[18] 提出,改進(jìn)的W2V-MMR 自動(dòng)摘要生成算法, 利用基于深度學(xué)習(xí)的Word2Vec 詞向量生成模型, 優(yōu)化摘要句信息質(zhì)量, 引入最大邊界相關(guān)(MMR) 的思想,對(duì)學(xué)術(shù)問(wèn)答社區(qū)內(nèi)的用戶生成問(wèn)答文本進(jìn)行自動(dòng)摘要; 為有效提高社會(huì)化問(wèn)答社區(qū)的問(wèn)題推薦質(zhì)量,陳晨等[19] 提出基于多源混合標(biāo)簽的方法。梳理上述研究可知, 學(xué)者Fang H 等[2] 、Bairi R B 等[3] 、Yang G[4] 和湯丹[5] 的研究多基于傳統(tǒng)的無(wú)監(jiān)督主題模型, 缺點(diǎn)是并不能保證文檔的精確度, 甚至可能引起維數(shù)災(zāi)難。因此, 為了改進(jìn)算法, Li J 等[6]和Valizadeh M 等[7] 的模型避免了抽取特征的單一性, 提升了主題發(fā)現(xiàn)的準(zhǔn)確性, 一定程度上避免了LDA 為文本強(qiáng)制分配主題的弊端。此外, Erkan G等[12] 、Wei F 等[13] 、Silva S 等[14] 和陶興等[18] 提出的模型可以有效地解決句子的重要度排序問(wèn)題,尤其是CoRank 算法可以有效地提高社會(huì)化問(wèn)答社區(qū)的問(wèn)題推薦質(zhì)量。
在目前知識(shí)獲取及知識(shí)分享需求日漸擴(kuò)張的趨勢(shì)下, 以知乎為代表的問(wèn)答平臺(tái)用戶量在不斷增長(zhǎng), 對(duì)問(wèn)答平臺(tái)中的長(zhǎng)文本進(jìn)行摘要抽取顯得十分必要, 如何有機(jī)結(jié)合有監(jiān)督主題模型、句子排序算法及冗余控制方法實(shí)現(xiàn)不同的場(chǎng)景的文摘生成, 更好地提取文檔主題, 便成為學(xué)術(shù)界重點(diǎn)關(guān)注的問(wèn)題之一。因此, 為解決自動(dòng)文摘語(yǔ)義分析問(wèn)題, 本文在綜合學(xué)術(shù)界現(xiàn)有研究成果的基礎(chǔ)上, 充分分析問(wèn)答文本特征, 通過(guò)有監(jiān)督主題模型SLDA 算法挖掘文本主題, 并結(jié)合Word2Vec 對(duì)文本進(jìn)行深層語(yǔ)義表示; 利用圖模型CoRank 對(duì)摘要進(jìn)行抽取后, 通過(guò)MMR 算法進(jìn)行摘要句冗余控制, 從而有效解決摘要句的排序問(wèn)題, 以期提高文摘質(zhì)量, 豐富自動(dòng)文摘現(xiàn)有研究成果, 提高信息服務(wù)水平。
2 基于主題特征的問(wèn)答文本摘要自動(dòng)生成模型構(gòu)建
本文基于主題模型提出問(wèn)答文本摘要自動(dòng)生成體系架構(gòu), 主要包括數(shù)據(jù)收集及預(yù)處理、基于主題特征的語(yǔ)義向量表示、基于CoRank 句子排序、基于冗余控制的文本摘要生成4 個(gè)部分, 其模型框架如圖1 所示。
2 1 基于主題特征的語(yǔ)義向量表示
為了保證得到的摘要句符合用戶所需, 本研究首先融合SLDA 和Word2Vec 模型, 從全局角度和局部角度挖掘回答文本中的語(yǔ)義信息, 其基本框架如圖2[20] 所示。
在圖2 中, D ={x1,x2,…,xm }表示由m 條文本組成的文本集, 其中, xj(1≤j≤m)表示一條完整的文本數(shù)據(jù), 對(duì)文本集D 分詞后, 可獲得n 個(gè)語(yǔ)詞的集合W ={w1,w2,…,wn }, 其中, wi(1≤i≤n)表示單個(gè)語(yǔ)詞。利用SLDA 主題模型訓(xùn)練得出主題—語(yǔ)詞分布矩陣C, 從而得到語(yǔ)詞wi (1≤i≤n)的全局語(yǔ)義嵌入詞向量wzi(1≤i≤n)。而后根據(jù)Word2Vec 模型得到語(yǔ)詞wi 的局部語(yǔ)義嵌入詞向量wci。最后, 將每個(gè)語(yǔ)詞wi 的全局語(yǔ)義嵌入詞向量wzi與局部語(yǔ)義嵌入詞向量wci拼接后, 即可得到語(yǔ)詞wi 的綜合語(yǔ)義嵌入詞向量wsi, 詳細(xì)闡述如下。
1) 基于SLDA 的語(yǔ)詞語(yǔ)義表示。SLDA 模型作為有監(jiān)督的主題模型, 在訓(xùn)練模型前需要將訓(xùn)練文本集中的所有文本進(jìn)行初始分類, 本部分通過(guò)人工判別的方式獲取問(wèn)題所屬領(lǐng)域進(jìn)行初始分類, 而后獲取訓(xùn)練文檔集中所有語(yǔ)詞集合, 統(tǒng)計(jì)得到訓(xùn)練文本集中每條文本的詞頻矩陣DT, DT 中的每個(gè)元素cij(1≤i≤n, 1≤j≤m)表示語(yǔ)詞wi 在文本xj 中出現(xiàn)的頻次。
將語(yǔ)詞集合W、文本集合D 與詞頻矩陣DT 作為初始數(shù)據(jù)以訓(xùn)練SLDA 模型。訓(xùn)練可得主題—語(yǔ)詞分布矩陣C, 該矩陣中的元素hik表示第i 個(gè)單詞wi 屬于第k 個(gè)主題的概率, 而后, 將主題—語(yǔ)詞分布矩陣C 轉(zhuǎn)置后得到語(yǔ)詞—主題分布矩陣CT ,并用(wi ,hk )(1≤i≤n, 1≤k≤K)表示語(yǔ)詞wi 和分配給它的主題向量Zk =(hi1,hi2,…,hiK ), 由于主題是從文本集中挖掘出的全局語(yǔ)義信息, 因此, 可以將語(yǔ)詞的主題向量zk 表示為每個(gè)語(yǔ)詞wi 的全局語(yǔ)義嵌入詞向量wzi。
2) 基于Word2Vec 的語(yǔ)詞語(yǔ)義表示。Word2Vec是用于訓(xùn)練分布式詞嵌入表示的神經(jīng)網(wǎng)絡(luò)模型[21] ,包括CBOW 和Skip-Gram 兩種模型。在Skip-Gram中, 每個(gè)詞均受到周圍詞的影響, 每個(gè)詞作為中心詞時(shí)都需要進(jìn)行多次的預(yù)測(cè)、調(diào)整, 這種多次調(diào)整會(huì)使得詞向量更加準(zhǔn)確, 因此, 本文將采用Skip-Gram 模型來(lái)構(gòu)建框架。此外, Word2Vec 模型認(rèn)為位置相近的語(yǔ)詞語(yǔ)義相近, 因此可以通過(guò)Word2Vec對(duì)語(yǔ)詞的上下文語(yǔ)義進(jìn)行表征, 設(shè)定其語(yǔ)義向量維度為H, 得到語(yǔ)詞的局部語(yǔ)義嵌入詞向量wci(1≤i≤n)。
3) 綜合語(yǔ)義表示。本文在1) 中基于監(jiān)督主題模型SLDA 得到詞wi(1≤i≤n)的全局語(yǔ)義嵌入詞向量wzi(1≤i≤n), 并于2) 中基于Word2Vec 模型得到局部語(yǔ)義嵌入詞向量wci(1≤i≤n), 本節(jié)將對(duì)向量wzi(1≤i≤n)和wci(1≤i≤n)進(jìn)行拼接, 生成語(yǔ)詞的綜合語(yǔ)義詞向量wsi= wziwci(1≤i≤n)。
如圖5 所示, 為保證語(yǔ)詞的全局語(yǔ)義嵌入詞向量和局部語(yǔ)義嵌入詞向量在融合后不會(huì)因綜合語(yǔ)義融合過(guò)程產(chǎn)生影響, 本文采用向量拼接的方式將兩者進(jìn)行融合, 以保留最原始的向量數(shù)據(jù), 由于wzi(1≤i≤n)是K 維向量, wci(1≤i≤n)是H 維向量, 最后可以得到K+H 維的綜合嵌入詞向量。
2 2 基于CoRank 的句子排序
2 2 1 特征詞分析
以知乎為代表的問(wèn)答社區(qū)文本由兩部分構(gòu)成,其一為提問(wèn)者提出的問(wèn)題文本, 另一部分則是回答者的回答文本。通常, 提問(wèn)者提出的問(wèn)題需要遵循社區(qū)的規(guī)范, 如必須是問(wèn)句等, 同時(shí)提問(wèn)者也可以針對(duì)問(wèn)題做細(xì)節(jié)描述。問(wèn)答文本的問(wèn)題內(nèi)容往往因提問(wèn)者的表達(dá)能力及表達(dá)方式而表現(xiàn)出極大的主觀性, 因此知乎會(huì)自動(dòng)給提問(wèn)者推薦相關(guān)的問(wèn)題標(biāo)簽, 用戶也可以自定義問(wèn)題標(biāo)簽, 這些標(biāo)簽往往可以作為問(wèn)題的特征詞, 可用于研究者對(duì)回答者的文本進(jìn)行特征分析。
回答者的文本往往具有長(zhǎng)短不一、涉及領(lǐng)域較多、摻雜回答者的主觀因素等特點(diǎn)。統(tǒng)計(jì)發(fā)現(xiàn), 有些較長(zhǎng)的回答者文本屬于自媒體文本?;诖耍?將問(wèn)答平臺(tái)回答文本分為兩大類: 一類是對(duì)客觀性事實(shí)的解讀, 其客觀性較強(qiáng); 另一類是回答者自我感情的表達(dá), 其主觀性較強(qiáng), 表達(dá)的信息和意義往往比較模糊。但無(wú)論回答文本屬于哪一類, 其宗旨都會(huì)與問(wèn)題的標(biāo)簽相關(guān)聯(lián), 因此問(wèn)題標(biāo)簽也可以作為回答者文本的特征詞, 從而可以根據(jù)特征詞對(duì)回答者文本進(jìn)行語(yǔ)義特征表示。
2 2 2 CoRank 句子排序
在自動(dòng)摘要研究中, 越來(lái)越多的研究者開始應(yīng)用計(jì)算簡(jiǎn)單、性能穩(wěn)定的圖排序算法, CoRank 算法就是其中的一種[22] 。CoRank 算法使用杰卡德相似系數(shù)(Jaccard Similarity Coefficient)來(lái)計(jì)算頂點(diǎn)間的關(guān)系, 通過(guò)統(tǒng)計(jì)文本層的共同詞語(yǔ)數(shù)量來(lái)計(jì)算杰卡德相似系數(shù), 這種方法能正確識(shí)別具有相同詞語(yǔ)的句間關(guān)系, 但是并未考慮到句間語(yǔ)義層面的關(guān)系, 會(huì)降低某些句子之間的權(quán)值, 本文利用上文得到的句子語(yǔ)義向量來(lái)確定不同頂點(diǎn)間是否存在關(guān)系。在2 1 節(jié)中, 本文利用SLDA 主題模型和Word2Vec 模型得到語(yǔ)詞的綜合語(yǔ)義詞向量wsi(1≤i≤n), 將每個(gè)句子中語(yǔ)詞的綜合語(yǔ)義詞向量取均值, 即可得到問(wèn)答文本的句子語(yǔ)義向量。假設(shè)文本中句子α 的語(yǔ)義向量為sα , 句子β 的向量語(yǔ)義為sβ , 則可以根據(jù)杰卡德相似系數(shù)計(jì)算方法得到句子α 和句子β 之間邊的關(guān)系即權(quán)重qαβ , 其計(jì)算公式如式(1):
在迭代計(jì)算過(guò)程中, 較小的權(quán)值往往不會(huì)增大到影響節(jié)點(diǎn)間的關(guān)系, 但是會(huì)增加計(jì)算量, 實(shí)驗(yàn)中常采用為θ 設(shè)置閾值的方法來(lái)消除這種缺陷, 一般可以取經(jīng)驗(yàn)值θ =0 1, qαβ≥θ。對(duì)于包含M 個(gè)句子的文本, 可按照句間相似度qαβ構(gòu)造出M×M 的對(duì)稱鄰接矩陣以表示句間關(guān)系, 這種鄰接矩陣反映出句子的空間結(jié)構(gòu)關(guān)系, 可用于摘要句排序。
2 2 3 句子特征表示
為了分析問(wèn)答文本的句子特征, 本文選取回答文本的問(wèn)題標(biāo)簽作為特征詞。由于特征詞本身存在于句子中時(shí)也會(huì)對(duì)句子產(chǎn)生一定的影響, 且不同詞匯在句中發(fā)揮的作用不盡相同, 因此, 本文根據(jù)特征詞權(quán)重來(lái)表征句子特征。此外, 若表示問(wèn)題的標(biāo)簽出現(xiàn)在回答文本的句子中, 則代表該條句子具有更高的重要性, 句子間的相互聯(lián)系、相互作用, 使得不同句子的整體權(quán)重也有所不同。
前文基于CoRank 計(jì)算得到了句子間邊的權(quán)重,并構(gòu)建了句子的對(duì)稱鄰接矩陣, 隨后, 可以根據(jù)式(2) 計(jì)算得到文本中第e 個(gè)句子的初始權(quán)重Ee(1≤e≤M)。其中, qαβ由句子α 和句子β 間的相似度決定, 表示兩個(gè)句子間的關(guān)系強(qiáng)度, d(0≤d≤1)用來(lái)解決關(guān)系強(qiáng)度均為0 的孤立句, r 通過(guò)困惑度函數(shù)收斂得出, 對(duì)于句子e 而言, 假設(shè)該句包含m個(gè)語(yǔ)詞, 式(2) 用Us(1≤s≤m)表示該句第s 個(gè)單詞的重要度。在實(shí)際訓(xùn)練句子權(quán)重Ee 過(guò)程中,可先將其初始化為任意值, 然后不斷迭代得到最終句子權(quán)重。
2 3 基于冗余控制的文本摘要生成
在2 2 節(jié)中, 本文得到了文本中所有句子的權(quán)重得分, 在通常情況下, 將句子權(quán)重得分進(jìn)行排序后即可選取其中的前幾名作為摘要句, 但這種情況僅是基于句子間的關(guān)系及特征詞的權(quán)重來(lái)選取摘要句子, 其冗余度未得到有效控制, 為了使摘要句在重要性較高的同時(shí)簡(jiǎn)明扼要、包含更全面的信息,本文將基于MMR 冗余控制模型[23] 對(duì)候選摘要句進(jìn)行冗余控制。對(duì)于包含T 個(gè)句子的候選摘要句集合, 候選摘要句st(1≤t≤T)冗余控制分?jǐn)?shù)計(jì)算方法如式(6) 所示。
score(st )= λ?Xt -(1-λ)?Sim2(st ,S) (6)
其中, λ 是調(diào)節(jié)參數(shù), score(st )(1≤t≤T)是第t 個(gè)句子的得分, Sim2 表示句子st (1≤t≤T)與當(dāng)前摘要S 的余弦相似度, 該值越大表明當(dāng)前句子與已更新得到的摘要越相似, 加入摘要中可能會(huì)引起信息冗余, 此處用減法控制句子冗余得分。此外, 得到的score(st )(1≤t≤T)越高表明該句子與已有摘要相似度越低, 因此每次迭代會(huì)將得分最高的句子加入摘要中。圖6[24] 是進(jìn)行候選摘要句冗余控制的流程圖, 在進(jìn)行冗余控制前, 需要初始化摘要結(jié)果S, 可將Xt(1≤t≤T)值最高的候選摘要句加入其中進(jìn)行初始化。
3 實(shí)證研究
過(guò)去幾年, 國(guó)內(nèi)問(wèn)答社區(qū)逐漸從小眾平臺(tái)轉(zhuǎn)型為大眾平臺(tái), 迎來(lái)了用戶和內(nèi)容數(shù)量的井噴。如今, 知乎用戶已突破2 2 億, 全站問(wèn)題總數(shù)超過(guò)4 400萬(wàn), 回答總數(shù)超過(guò)2 4 億, 擁有海量的問(wèn)答文本數(shù)據(jù), 其良好的答題氛圍和高水平、多樣化的問(wèn)答文本是優(yōu)質(zhì)的數(shù)據(jù)來(lái)源。本文將從知乎的問(wèn)答文本內(nèi)容入手, 利用構(gòu)建的摘要提取模型提取問(wèn)答文本摘要。
3 1 數(shù)據(jù)獲取及預(yù)處理
3 1 1 知乎平臺(tái)數(shù)據(jù)獲取
本次實(shí)驗(yàn)的數(shù)據(jù)來(lái)自知乎問(wèn)答社區(qū), 選取了互聯(lián)網(wǎng)分類下的“中文互聯(lián)網(wǎng)的產(chǎn)出在漸漸枯萎嗎?”、心理學(xué)分類下的“為什么現(xiàn)在的年輕人內(nèi)心都越來(lái)越悲觀?” 等5 個(gè)領(lǐng)域的問(wèn)題, 如表1 所示。
每個(gè)問(wèn)題中獲?。保保?條文本在200 字以上的回答, 經(jīng)過(guò)人工審查發(fā)現(xiàn), 部分回答文本中包含了較多的無(wú)意義符號(hào), 將此類無(wú)意義文本及重復(fù)文本剔除后, 每個(gè)問(wèn)題下保留100 條數(shù)據(jù)進(jìn)行后續(xù)實(shí)證分析。表2 為部分回答文本數(shù)據(jù)。
3 1 2 數(shù)據(jù)預(yù)處理
獲取到文本數(shù)據(jù)后, 對(duì)文本進(jìn)行分詞處理。鑒于Pkuseg 包可以進(jìn)行多領(lǐng)域分詞, 并且支持用戶自定義自訓(xùn)練模型, 具有更高的分詞準(zhǔn)確率, 本文采用Pkuseg 分詞包進(jìn)行文本分詞, 同時(shí)利用百度停用詞表、哈工大停用詞表、中文停用詞表、四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫(kù)得到內(nèi)容較全的停用詞庫(kù), 分詞結(jié)果如表3 所示。
3 1 3 問(wèn)題標(biāo)簽屬性抽取
知乎的問(wèn)題中都會(huì)帶有用戶定義的標(biāo)簽, 問(wèn)題本身以及問(wèn)答文本往往也都與這些標(biāo)簽相關(guān), 后續(xù)實(shí)證將基于已有標(biāo)簽對(duì)摘要進(jìn)行監(jiān)督處理, 由于標(biāo)簽屬性往往為用戶自定義或者知乎推薦的標(biāo)簽, 規(guī)范程度較低, 所以此處對(duì)標(biāo)簽進(jìn)行拆分處理, 得到如表4 所示的結(jié)果。
3 2 語(yǔ)義向量表示
3 2 1 基于SLDA 模型和Word2Vec 的語(yǔ)詞語(yǔ)義表示
首先, 利用文本語(yǔ)詞集合以及如表5 所示的文本所屬類別及文本的詞頻矩陣DT, 訓(xùn)練SLDA 模型。
本實(shí)驗(yàn)集共有25 430個(gè)語(yǔ)詞, 將文本集拆分為訓(xùn)練集和測(cè)試集, 其中訓(xùn)練集取文本集中每類文本的前90 條, 共450 條文檔數(shù)據(jù), 測(cè)試集取文本集中每類文本的后10 條數(shù)據(jù), 共50 條數(shù)據(jù)。將以上訓(xùn)練集作為輸入數(shù)據(jù), 根據(jù)處理后標(biāo)簽屬性的個(gè)數(shù), 將K 值歸納為20, 設(shè)置迭代次數(shù)為1 000次,經(jīng)過(guò)前期試驗(yàn)得到, 在先驗(yàn)分布參數(shù)α 取值為1 0時(shí), 整體的訓(xùn)練效果較好, 因此本次實(shí)證采用α =1 0 訓(xùn)練得到的SLDA 模型來(lái)對(duì)測(cè)試集數(shù)據(jù)進(jìn)行分組, 根據(jù)以上SLDA 模型可以得到測(cè)試集中每個(gè)單詞在不同主題下的概率分布, 該語(yǔ)詞—主題分布矩陣即是所有語(yǔ)詞的全局語(yǔ)義向量wzi。
而后利用維基百科語(yǔ)料對(duì)文本集進(jìn)行Word2Vec處理, 以Skip-Gram 模型作為訓(xùn)練模型, 設(shè)置窗口大小為5, 詞向量維數(shù)設(shè)置為100, 得到文本的局部語(yǔ)義嵌入詞向量wci。
3 2 2 綜合語(yǔ)義表示
將根據(jù)訓(xùn)練的SLDA 模型得到的測(cè)試集單詞的全局語(yǔ)義嵌入詞向量wzi和根據(jù)Word2Vec 模型得到的單詞局部語(yǔ)義嵌入詞向量wci, 做向量拼接, 得到每個(gè)測(cè)試集中每個(gè)單詞的綜合語(yǔ)義嵌入詞向量,如表6 所示。
得到單詞的綜合語(yǔ)義嵌入詞向量后, 將其代入測(cè)試集的文本中, 將每個(gè)句子中所有語(yǔ)詞的綜合語(yǔ)義嵌入詞向量取均值, 便可以得到每個(gè)句子的綜合語(yǔ)義向量, 本文對(duì)句子的分割以“?!?“?” “.” “?”為基準(zhǔn), 從而盡量保證句子的完整性。由于每個(gè)句子所包含的詞語(yǔ)數(shù)量不同, 為統(tǒng)一句子的向量維度, 取句子中所有詞向量的均值來(lái)對(duì)句子進(jìn)行向量表示, 可以得到測(cè)試集中部分句子的綜合語(yǔ)義向量如表7 所示。
3 3 摘要生成
上文通過(guò)獲取全局語(yǔ)義嵌入詞向量及局部語(yǔ)義嵌入詞向量的方式對(duì)句子進(jìn)行了語(yǔ)義表征, 此處利用CoRank 圖排序算法獲取句子的對(duì)稱鄰接矩陣,從語(yǔ)義層面獲取句間關(guān)系。為便于更直觀地查看模型效果, 本文選擇測(cè)試文本集中的第1 條數(shù)據(jù), 即類別號(hào)為1, 文本序號(hào)為91 的回答文本進(jìn)行后續(xù)實(shí)證, 表8 為該文本根據(jù)“?!?“?” “.” “?” 進(jìn)行句子分割后得到的11 個(gè)句子。
抽取表8 中句子的語(yǔ)義向量, 根據(jù)CoRank 算法, 可以計(jì)算出句子之間的杰卡德相似系數(shù), 從而得到句子的對(duì)稱鄰接矩陣。
隨后, 將問(wèn)題標(biāo)簽作為特征詞引入到文本表里以計(jì)算句子之間的關(guān)系強(qiáng)度, 根據(jù)特征詞詞頻矩陣以及基于鄰接矩陣, 可以根據(jù)式(6) 迭代計(jì)算句子權(quán)重得分, 設(shè)置閾值為經(jīng)驗(yàn)值0 01, 結(jié)果穩(wěn)定后, 其11 個(gè)句子的得分如表9 所示。
其中, 句子9、6 和句子11、10 具有較高的分值。如果僅僅通過(guò)句子關(guān)系來(lái)抽取摘要句子, 則句子9 和句子6 可以被看作是包含信息量最大的候選摘要句, 為了保證信息的多樣性, 本文將91 號(hào)文本中1/3 的句子加入候選摘要集, 因此對(duì)該回答文本, 可以選取得分在前4 名(即句編號(hào)為: 9、6、10、11)的句子加入候選摘要集, 取句子最后迭代得到的得分作為句子得分。
根據(jù)以上得到的候選摘要集以及其中的句子得分, 結(jié)合MMR 冗余控制流程(中間過(guò)程), 將得分最高的句子9 作為最終摘要的初始句, 為保證用戶能在最短的時(shí)間內(nèi)獲取更多的信息且符合快速閱讀習(xí)慣, 本研究設(shè)置最終摘要長(zhǎng)度為80 個(gè)字(包含文字和標(biāo)點(diǎn)符號(hào), 中文單字及英文單詞均為1 個(gè)字),迭代過(guò)程中得到每個(gè)候選摘要句的分?jǐn)?shù)如表10 所示。
在第一次迭代中, 句子6 就被加入最終摘要中, 導(dǎo)致最終摘要的字?jǐn)?shù)超過(guò)了80, 因此迭代結(jié)束。將最終得到的摘要句9 和6 進(jìn)行組合, 可以得到最終摘要結(jié)果為: “因?yàn)橥x重復(fù)的論述, 更容易接受, 深入分析很容易涉及心理的無(wú)意識(shí)層面和個(gè)人精神品質(zhì)以及一些敏感話題, 互聯(lián)網(wǎng)受眾們更期待情緒價(jià)值, 無(wú)論是共鳴還是發(fā)泄情緒”, 即為本文實(shí)驗(yàn)結(jié)果。
3 4 實(shí)驗(yàn)結(jié)果分析
從定性角度來(lái)看, 本實(shí)驗(yàn)最終摘要句總體可以概況回答文本內(nèi)容, 其包含內(nèi)容較多, 信息較為豐富。同時(shí), 得到的兩個(gè)句子在內(nèi)容上重復(fù)度較低,更全面地概括了文本內(nèi)容, 即該摘要結(jié)果在信息性、多樣上均有較好的結(jié)果。此外, 摘要句中均包含“因?yàn)椤保?這與問(wèn)題中的疑問(wèn)遙相呼應(yīng), 摘要句中的“互聯(lián)網(wǎng)” 也屬于特征詞, 并且該摘要句能回答該問(wèn)答文本對(duì)應(yīng)的問(wèn)題“中文互聯(lián)網(wǎng)的產(chǎn)出在漸漸枯萎嗎”, 闡述了作者對(duì)于問(wèn)題的看法, 說(shuō)明了問(wèn)題標(biāo)簽的引入對(duì)句子的權(quán)重有一定影響, 從全局角度來(lái)看, 該句子與該問(wèn)題下的內(nèi)容緊密相連,從局部角度來(lái)看, 在該回答文本的11 個(gè)句子中,該摘要具有最豐富的語(yǔ)義信息, 能更好地表達(dá)文本主旨內(nèi)容。此外, 學(xué)術(shù)界也常用ROUGE(Recall-OrientedUnderstudy for Gisting Evaluation)指標(biāo)來(lái)評(píng)價(jià)實(shí)驗(yàn)結(jié)果, 該指標(biāo)是在機(jī)器翻譯、自動(dòng)摘要、問(wèn)答生成等領(lǐng)域常見的評(píng)估指標(biāo)。ROUGE 通過(guò)將模型生成的摘要或者回答與人工得到的摘要或者回答按ngram拆分后, 計(jì)算召回率, 從而得到對(duì)應(yīng)的得分。
為了驗(yàn)證本文摘要提取方法的有效性, 在同一數(shù)據(jù)集的基礎(chǔ)上, 本文設(shè)置了兩個(gè)對(duì)照實(shí)驗(yàn), 將基于LDA 的冗余控制方法[5] 作為實(shí)驗(yàn)一用于驗(yàn)證有監(jiān)督的主題表示模型對(duì)問(wèn)答文本主題特征的表征情況, 以及將基于TextRank 的方法[25] 作為實(shí)驗(yàn)二用于驗(yàn)證CoRank 算法對(duì)于句子順序的排列效果, 橫向?qū)Ρ鹊玫降脑u(píng)測(cè)結(jié)果, 按照1-gram 和2-gram 進(jìn)行拆分, 得到ROUGE-1 和ROUGE-2 值的對(duì)比結(jié)果, 如圖7 所示。
實(shí)驗(yàn)結(jié)果顯示, 本文方法的評(píng)測(cè)結(jié)果總體上優(yōu)于其他對(duì)比方法。實(shí)驗(yàn)一基于LDA 及冗余控制的摘要提取方法充分利用了LDA 主題模型的特征,從多個(gè)角度判斷了句子的重要性, 取得了一定的成果, 但未能進(jìn)行深層次的語(yǔ)義、語(yǔ)法分析, 忽略了問(wèn)答文本的標(biāo)簽屬性等, 導(dǎo)致其評(píng)分較低。實(shí)驗(yàn)二基于句子權(quán)重優(yōu)化了TextRank 算法, 但對(duì)于問(wèn)答文本特征的忽略導(dǎo)致其在評(píng)測(cè)時(shí)得分不高。以上結(jié)果說(shuō)明, 本文基于主題特征的主題模型能更全面地挖掘問(wèn)答文本的語(yǔ)義信息, 所提取的摘要有效性更高, 具有更優(yōu)的摘要提取效果。
4 結(jié) 語(yǔ)
本文結(jié)合SLDA 及Word2Vec 語(yǔ)義向量模型, 從全局角度及局部角度挖掘文本語(yǔ)義信息, 利用詞向量更全面地對(duì)文本語(yǔ)義進(jìn)行表征, 基于CoRank 算法實(shí)現(xiàn)句子排序, 選取出重要度較高的句子, 初步保證了摘要句在整個(gè)回答文本中的重要性; 同時(shí),為保證得到的摘要句與問(wèn)答文本的問(wèn)題緊密相關(guān),本文引入問(wèn)答文本標(biāo)簽, 結(jié)合特征詞, 計(jì)算句子得分以保證摘要句信息性; 并采用MMR 冗余控制算法, 控制最終摘要長(zhǎng)度, 以候選摘要集中的句子冗余得分為基礎(chǔ), 迭代更新候選摘要集和最終摘要,最終得到具有信息性和多樣性的摘要句。而后, 利用爬蟲技術(shù)獲取5 個(gè)問(wèn)答文本下的500 份回答文本數(shù)據(jù)驗(yàn)證本文模型, 結(jié)果顯示, 本模型所抽取的摘要句在總體上概括了文本內(nèi)容, 使用戶在短時(shí)間內(nèi)可快速獲取到該回答文本的主旨內(nèi)容, 但本文仍存在一定不足, 例如: 在引入特征詞時(shí), 僅基于詞頻來(lái)結(jié)合計(jì)算句子權(quán)重, 容易忽略語(yǔ)義層面上的信息,未來(lái)也將在此基礎(chǔ)上做進(jìn)一步改進(jìn), 探索更科學(xué)的評(píng)價(jià)機(jī)制來(lái)評(píng)價(jià)結(jié)果和模型, 從而繼續(xù)提升在線問(wèn)答社區(qū)的服務(wù)水平, 促進(jìn)信息服務(wù)的高質(zhì)量發(fā)展。
參考文獻(xiàn)
[1] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation [ J].Journal of Machine Learning Research, 2003, 3 ( 4/5): 993 -1022.
[2] Fang H, Lu W, Wu F, et al. Topic Aspect-oriented Summariza?tion Via Group Selection [J]. Neurocomputing, 2015, 149: 1613-1619.
[3] Bairi R B, Iyer R, Ramakrishnan G, et al. Summarization of MultidocumentTopic Hierarchies Using Submodular Mixtures [ C] / /Proceedings of the 53rd Annual Meeting of the Association for Com?putational Linguistics and the 7th International Joint Conference onNatural Language Processing (Volume 1: Long Papers), 2015, 1:553-563.
[4] Yang G. A Novel Contextual Topic Model for Query-focused MultidocumentSummarization [C] / /2014 IEEE 26th International Con?ference on Tools with Artificial Intelligence. IEEE, 2014: 576 -583.
[5] 湯丹. 基于LDA 和冗余控制的多特征中文自動(dòng)文摘的研究和實(shí)現(xiàn)[D]. 昆明: 云南師范大學(xué), 2021.
[6] Li J, Li S. A Novel Feature-based Bayesian Model for Query Fo?cused Multi-document Summarization [J]. Transactions of the As?sociation for Computational Linguistics, 2013, 1: 89-98.
[7] Valizadeh M, Brazdil P. Exploring Actor-object Relationships forQuery-focused Multi-document Summarization [ J]. Soft Compu?ting, 2015, 19 (11): 3109-3121.
[8] Blei M D, McAuliffe J D. Supervised Topic Models [ J]. NIPS,2007: 121-128.
[9] 唐曉波, 顧娜, 譚明亮. 基于句子主題發(fā)現(xiàn)的中文多文檔自動(dòng)摘要研究[J]. 情報(bào)科學(xué), 2020, 38 (3): 11-16, 28.
[10] 石磊, 阮選敏, 魏瑞斌, 等. 基于序列到序列模型的生成式文本摘要研究綜述[J]. 情報(bào)學(xué)報(bào), 2019, 38 (10): 1102-1116.
[11] 肖元君, 吳國(guó)文. 基于Gensim 的摘要自動(dòng)生成算法研究與實(shí)現(xiàn)[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2019, 36 (12): 131-136.
[12] Erkan G, Radev D R. Lexrank: Graph-based Lexical Centralityas Salience in Text Summarization [ J]. Journal of Artificial Intelli?gence Research, 2004, 22 (1): 457-479.
[13] Wei F, Li W, He Y. Document-aware Graph Models for QueryorientedMulti -document Summarization [ M]. Multimedia Analysis,Processing and Communications. Springer, Berlin, Heidelberg, 2011:655-678.
[14] Silva S, Joshi N, Rao S, et al. Improved Algorithms for Docu?ment Classification & Query-based Multi-Document Summarization[J]. International Journal of Engineering and Technology, 2011, 3(4): 404.
[15] 趙美玲, 劉勝全, 劉艷, 等. 基于改進(jìn)K-means 聚類與圖模型相結(jié)合的多文本自動(dòng)文摘研究[J]. 現(xiàn)代計(jì)算機(jī)(專業(yè)版),2017, (17): 26-30.
[16] Wang W, Wei F, Li W, et al. Hypersum: Hypergraph BasedSemi-supervised Sentence Ranking for Query-oriented Summarization[C] / / Proceedings of the 18th ACM Conference on Information andKnowledge Management. ACM, 2009: 1855-1858.
[17] Zheng H T, Guo J M, Jiang Y, et al. Query-Focused MultidocumentSummarization Based on Concept Importance [ C] / / Pa?cific- Asia Conference on Knowledge Discovery and Data Mining.Springer, Cham, 2016: 443-453.
[18] 陶興, 張向先, 郭順利, 等. 學(xué)術(shù)問(wèn)答社區(qū)用戶生成內(nèi)容的W2V-MMR 自動(dòng)摘要方法研究[ J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2020, 4 (4): 109-118.
[19] 陳晨, 侯景瑞, 吳任力, 等. 基于多源混合標(biāo)簽的社會(huì)化問(wèn)答社區(qū)問(wèn)題推薦方法研究[J]. 情報(bào)科學(xué), 2019, 37 (7): 139-145.
[20] 朱輝. 融合主題模型的文本語(yǔ)義表示方法研究[ D]. 煙臺(tái):山東工商學(xué)院, 2021.
[21] 谷瑩, 李賀, 李葉葉, 等. 基于在線評(píng)論的企業(yè)競(jìng)爭(zhēng)情報(bào)需求挖掘研究[J]. 現(xiàn)代情報(bào), 2021, 41 (1): 24-31.
[22] 劉凱鵬, 方濱興. 一種基于社會(huì)性標(biāo)注的網(wǎng)頁(yè)排序算法[ J].計(jì)算機(jī)學(xué)報(bào), 2010, 33 (6): 1014-1023.
[23] 朱玉佳, 祝永志, 董兆安. 基于TextRank 算法的聯(lián)合打分文本摘要生成[J]. 通信技術(shù), 2021, 54 (2): 323-326.
[24] 程琨, 李傳藝, 賈欣欣, 等. 基于改進(jìn)的MMR 算法的新聞文本抽取式摘要方法[J]. 應(yīng)用科學(xué)學(xué)報(bào), 2021, 39 (3): 443-455.
[25] 曹洋. 基于TextRank 算法的單文檔自動(dòng)文摘研究[D]. 南京:南京大學(xué), 2016.
(責(zé)任編輯: 郭沫含)