白淑霞 鮑玉來 張暉
〔摘要〕[目的]利用向量空間描述語義信息,研究基于詞向量包的自動文摘方法;[方法]文摘是文獻內容縮短的精確表達;而詞向量包可以在同一個向量空間下表示詞、短語、句子、段落和篇章,其空間距離用于反映語義相似度。提出一種基于詞向量包的自動文摘方法,用詞向量包的表示距離衡量句子與整篇文獻的語義相似度,將與文獻語義相似的句子抽取出來最終形成文摘;[結果]在DUC01數(shù)據(jù)集上,實驗結果表明,該方法能夠生成高質量的文摘,結果明顯優(yōu)于其它方法;[結論]實驗證明該方法明顯提升了自動文摘的性能。
〔關鍵詞〕詞向量;詞包向量;自動文摘
DOI:10.3969/j.issn.1008-0821.2017.02.002
〔中圖分類號〕G25437〔文獻標識碼〕A〔文章編號〕1008-0821(2017)02-0008-06
〔Abstract〕[Purposes]This work focused on automatic summarization by utilizing vector space to describe the semantics.[Methods]proposed a new representation based on word vector,which is called bag of word vector(BOWV),and employed it for automatic summarization.Words,phrases,sentences,paragraphs and documents could be represented in a same vector space by using BOWV.And the distance between representations was used to reflect the semantic similarity.For automatic summarization,the paper used the distance between BOWVs to measure the semantic similarity between sentences and document.The sentences similar with the document are extracted to form the summary.[Findings]Experimental results on DUC01 dataset showed that the proposed method could generate high-quality summary and outperforms comparison methods.[Conclusions]The experiment showed that this research improved the performance of automatic summarization significantly.
〔Key words〕vector;bag of word vector;automatic summarization
隨著Internet的快速發(fā)展,電子文本數(shù)量呈現(xiàn)出指數(shù)增長的趨勢。為了更好地利用這些信息,人們迫切需要信息壓縮手段對大量的信息進行提煉、濃縮。文摘可以概括原始文檔,讓用戶快速理解文本信息。而手工編寫文摘費時費力,因此利用計算機自動生成文摘已經成為自然語言處理領域的一個重要研究課題。
文摘也稱摘要,是簡明、確切地記述原始文獻中重要內容的短文。自動文摘就是使用計算機自動生成文摘。從生成方式來看,自動文摘可分為抽取型文摘和生成型文摘。抽取型文摘從原文中抽取句子形成文摘。生成型文摘則使用“自己的話”來概括原文。相比于抽取型文摘,生成型文摘難度更大。目前,生成型文摘尚難以付諸實踐,抽取型文摘是現(xiàn)階段主要的研究方向[1]。
文摘抽取方法大體可分為3類:①將其視作一個句子排序問題,主要任務是給句子打分,得分高的句子被納入到最終的文摘之中,得分低的則被排除在外。打分的依據(jù)一般包括詞頻及分布特點[2]、句子在段落中的位置[3]、句子的相似性[4]等;②將其視作一個二元分類問題,將文檔中的摘要句作為正例,非摘要句作為反例,使用的分類模型主要有樸素貝葉斯模型[5]、決策樹[6]、支持向量機[7]、人工神經網絡[8]等;③將其視作一個序列標注問題,將文檔中的摘要句標注為1,非摘要句標注為0,使用的模型主要有隱馬爾可夫模型[9]和條件隨機場[10]。
抽取型文摘是由文檔中的句子組成,因此句子的表示是一個關鍵問題。句子是詞的序列,句子的表示又建立在詞表示的基礎上。常用的一種方法是建立一個與詞表等長的二值向量,向量中的元素與詞表中的詞一一對應。要表示一個詞則將向量中的對應位置設為1,其它位置均設為0。這種方法最大的問題是向量長度由詞表規(guī)模決定,而詞表一般規(guī)模巨大,這就帶來維數(shù)災難和數(shù)據(jù)稀疏問題。解決這一問題的主要思路是降維。最簡單的方法是去除停用詞,這可以減小詞表規(guī)模,但效果十分有限。而淺層語義索引(Latent Semantic Index,LSI)[11]方法引入了語義概念,它將詞表中的詞聚合成一個個“主題”(Topic),向量的長度與主題數(shù)量相同,從而達到了大幅度降維的目的。目前被廣泛采用的淺層狄理赫雷分配(Latent Dirichlet Allocation,LDA)[12]是對淺層語義索引的改進。要得到句子的表示,需要將詞的表示組合起來,詞包模型(Bag of Words)是最常用的方法[13],它忽略了句子中詞的順序,詞的表示經過簡單的代數(shù)運算(如加和、取平均值等)即得到了句子的表示。
顯然,詞的表示對句子的表示有重要影響。詞向量(Word Vector)或詞嵌入(Wordembedding)被認為可以捕捉到諸如同義詞、近義詞和詞義對應關系(如“國王”-“男人”+“女人”=“王后”,“King”-“man”+“woman”=“Queen”[14])等語言現(xiàn)象。詞向量已經成功地應用在語言模型[15]、自然語言理解[16]、信息檢索[17]、命名實體識別[18]、關系抽取[19]、機器翻譯[20]、圖像理解[21]等領域。
本文將詞向量與詞包模型結合,提出一種文本表示方法,稱為“詞向量包”。詞向量包是詞向量的推廣,可以在同一個向量空間中表示詞、短語、句子、段落和篇章。在自動文摘研究中,文摘與原文具有相同的語義,本文采用詞向量包之間的距離來衡量句子與原文語義相似度,并提出一種自動文摘抽取方法。在DUC01數(shù)據(jù)集上,實驗表明,本文提出的方法能夠生成較高質量的文摘,ROUGE-N指標明顯高于現(xiàn)有方法。
1語義表示方法
11詞向量:詞的語義表示
詞向量是一種用向量表示詞的方法,向量中的每一維都在實數(shù)范圍內取值。詞向量最早在文獻[15]中被提出。詞向量的總體思想是:完成一個自然語言處理任務,將任務目標定義為詞向量V(x)的函數(shù),其中x代表一個詞。為了實現(xiàn)任務目標就需要優(yōu)化V(x),優(yōu)化得到的V(x)就是詞向量。在文獻[15]中定義的任務是生成語言模型,采用的學習器是人工神經網絡。詞向量的研究發(fā)展迅速,主要關注于學習任務和學習器的改變。如文獻[16]提出要同時完成多個自然語言處理任務,包括學習語言模型、詞性標注和命名實體識別等;如文獻[22]提出使用遞歸神經網絡(Recursive Neural Network,RNN)作為學習器等。
詞向量方法可以實現(xiàn)詞的聚類,語義相近的詞在其表示空間中也相互接近,這樣就可以捕捉到諸如同義詞、近義詞關系。圖1給出了一個詞向量表示的示例,圖中語義相關的詞(關于運動的詞)聚集在一起。
此外,詞向量還可以捕捉到詞與詞之間的對應關系,如圖2顯示,妹妹(sister)和哥哥(brother)的關系,就像是姑姑(aunt)和叔叔(uncle)的關系一樣。這種關系也可以表示成一個代數(shù)關系:“姑姑”-“妹妹”+“哥哥”=“叔叔”(“aunt”-“sister”+“brother”=“uncle”)。詞向量的這些特點反映了自然語言中的語義特征。
12詞向量包:句子、篇章的語義表示
我們將詞向量與詞包模型結合起來,將句子或文檔中所有的詞向量進行合并,從而形成句子或文檔的語義表示,我們稱之為詞向量包(Bag of Word Vector)。
定義:若S=w1,w2,…,wN是一個句子或文檔,wi是其中的詞,N是詞的總數(shù)。則其詞向量包的表示V(S)為:
V(S)=1N∑Ni=1V(wi)(1)圖2詞向量表示體現(xiàn)詞的對應關系
顯然,當詞包里只有一個詞時,詞向量包就是詞向量。
詞向量包有語義聚類效果,它能夠將語義相近的句子聚集在一起,而使語義不同的句子相互遠離。圖3給出一個例子,我們任意選取了20篇文檔,將其中的每一個句子用詞向量包表示,并使用文獻[28]中的方法對其進行可視化。圖3上的每一個點對應一個句子,來自相同文檔的句子用同種形狀標記。可以看出,同篇文檔中的句子聚在一起。一般而言,同一篇文檔中的句子都圍繞相同的話題,有較接近的語義,因此詞向量包能夠較好地反映語義。(來自相同文檔的句子用同種顏色標記)圖3詞向量包的語義表示效果
此外,因為詞向量包是詞向量代數(shù)運算的結果,詞向量中“國王”-“男人”+“女人”=“王后”這樣的代數(shù)關系在詞向量包中也得以保持。詞向量包繼承了詞向量的語義表示特性,是一種語義表示。我們利用詞向量包表示之間的距離反映語義相似性。
2基于語義表示的自動文摘抽取方法
文摘是對原文主要內容的摘述,是原文的一個簡短版本,文摘的語義與原文一致。因此可以通過比較文摘與原文之間的語義相似性來評價文摘質量的優(yōu)劣,語義越接近則文摘質量越好。我們可以將其視為一個優(yōu)化問題:
argmaxASemanticSim(A,D)-αAD(2)
其中,A表示文摘,D表示原始文檔,A、D分別表示文摘和原文中句子或詞的個數(shù),α是可調節(jié)參數(shù)。SemanticSim(a,d)是兩者的語義相似度,本文利用詞向量包之間的距離反映語義相似性,即:
SemanticSim(A,D)=-V(A)-V(D)2(3)
其中,V(X)是X在詞向量包空間中的表示,SemanticSim(A,D)為A和D在該空間中的歐氏距離。如果限定文摘的篇幅,則(2)式的后一項可被省略,變?yōu)椋?/p>
argminAV(A)-V(D)2(4)
對于抽取型文摘,文摘中的句子來源于原始文檔:原始文檔D定義為一個句子序列s1,s2,…,sN,文摘A定義為D的子序列sj1,sj2,…,sjK,其中ji∈{1,2,…,N},K 為求解這個組合優(yōu)化問題,根據(jù)句子排序思路,我們采用貪心方法求得一個近似解。首先,將整篇文檔和每一個句子投射到詞向量包空間中,度量它們之間的距離,再由小到大排序,取前K個句子形成最終的文摘。具體來說,我們首先去除文本中的標點和停用詞,再將每個詞轉換為其對應的詞向量表示,不在詞表中的詞忽略不計。然后,根據(jù)公式(1)計算整篇文檔和每一個句子的詞向量包表示,并計算它們之間的歐氏距離,將其從小到大排序。最后根據(jù)長度要求,取前K個句子,按照其在原文中出現(xiàn)的順序連接起來,形成最終的文摘。 3實驗與分析 這一節(jié)介紹本文實驗的過程,實驗使用開放評測數(shù)據(jù)集,并將文獻[23]報告的結果作為基限,采用的實驗設計和評估方法都與之嚴格一致。 31數(shù)據(jù)集 為了評估本文提出方法的性能,我們使用DUC01作為測試數(shù)據(jù)集。DUC01由文檔理解會議(Document Understanding Conference,http:∥duc.nist.gov)提供,是使用較為廣泛的開放評測數(shù)據(jù)集。它包含有147篇新聞文本,文中每一個句子是否被當作摘要句都由人工標注。該數(shù)據(jù)集是專為測試單文檔抽取式文摘而設計的,并且做了很好的預處理,基限系統(tǒng)也采用了該數(shù)據(jù)集進行系統(tǒng)性能評價。
32評價標準
為了評價系統(tǒng)性能,本文使用兩種指標。一種是準確率(Precision)、召回率(Recall)和F1值(F1-measure),這一指標廣泛使用在信息檢索領域中。我們將人工抽取的文摘作為參考,記做Aref。自動抽取得到的文摘稱為候選,記做Acand。則準確率(P)、召回率(R)和F1值(F1)按照公式(5)計算[9]。
P=Aref∩AcandAcand,R=Aref∩AcandAref,
F1=2PRP+R(5)
簡便起見,我們只報告F1值。我們使用ROUGE工具包[24]作為另一個評價指標,ROUGE工具包是文檔理解會議所采用的摘要質量評估方法。ROUGE-N通過計算N元語法單元(N-gram)的召回率來評估摘要性能。文獻[24]指出,當N=1時,即ROUGE-1指標與人類專家給出的評價結果相當一致。ROUGE-N按照公式(6)計算。
ROUGEN=∑s∈Aref∑gramN∈sCountmatch(gramN)∑s∈Aref∑gramN∈sCount(gramN)(6)
其中,s表示Aref中的句子,N表示N元語法單元的長度,Countmatc(gramN)表示gramN在候選摘要和參考摘要中都出現(xiàn)的次數(shù)。Count(gramN)表示gramN只在參考摘要中都出現(xiàn)的次數(shù)。為了與文獻[23]統(tǒng)一,我們報告ROUGE-1和ROUGE-2兩個指標。
33詞向量
本文提出的方法基于詞向量表示,詞向量表示用文獻[25]提出的方法,并使用維基百科60億詞的語料進行訓練,分別得到50、100、200、300維的詞向量表示,記做W506B、W1006B、W2006B和W3006B。此外,我們還使用Common Crawl網頁數(shù)據(jù)庫(http:∥commoncrawl.org/420億詞和8 400億詞的語料訓練得到300維的詞向量表示,分別記做W3006B和W300840B。這些詞向量表示的訓練結果可以在http:∥www-nlp.stanford.edu/projects/glove/處下載得到。
34實驗對比
我們將提出的方法與現(xiàn)有的5種方法相比較,分別是:①基于語義相似性的方法[23],記做Sim;②基于神經網絡的方法[26],記做Net;③基于條件隨機場的方法[6],記做CRF;④基于支持向量機的方法[9],記做SVM;⑤基于數(shù)據(jù)流形排序的方法[27],記做Rank。表1列出了性能比較的結果,可以看出本文提出方法的F1值和其它系統(tǒng)表現(xiàn)相當,僅比Sim方法略低。F1值是句子一級的指標,它的測評粒度偏大,忽略了文摘句和非文摘句的語義相似度。因此,研究者通常選用ROUGE-N作為評價指標,它的測評粒度是N元語法單元,粒度小于F1值,能夠更準確評價自動抽取文摘的質量。從表1可以看出,本文提出的方法在ROUGE-1、ROUGE-2上的表現(xiàn)遠優(yōu)于其它方法。我們分析原因,在句一級準確率和召回率相當?shù)那闆r下,與其它方法相比,用本文方法挑選出來的未被標注為文摘的句子與人工文摘更為接近。
35分析與討論
我們認為摘要中的句子應該與原始文檔有相同的語義,反映在語義表示上它們的距離應該較小。圖4給出了幾個例子,圖中實線是文檔中所有句子和文檔本身在詞向量包空間中的距離,我們圈出了人工標注的摘要句??梢钥闯?,摘要句與文檔的距離相對較小。
(其中圈出了人工確定的摘要句)圖4文檔中的句子和文檔的語義表示距離
4總結與展望
本文將詞向量與詞包模型結合起來,提出一種稱為詞向量包的表示方法,詞向量包可以用于表示詞、短語、句子、段落和篇章。我們將詞向量包應用到自動文摘研究中,用詞向量包的表示距離衡量句子與整篇文檔的語義相似度,將與文檔語義最相似的句子抽取出來形成文摘。實驗證明本文提出的方法具有很好的性能。
本文提出的詞向量包延續(xù)了詞包模型的思路,忽略了詞的順序關系。而自然語言中詞的順序十分重要,忽略了這種關系會帶來較大的語義損失,如何將詞的順序關系納入到語義建模中是一個需要解決的問題。文獻[29]提出段落向量表示,考慮了小窗口內的順序關系,文獻[30]提出用遞歸神經網絡為詞的順序建模。未來可以將這方面的研究成果納入到我們的框架中,更好的刻畫句子和文檔的語義,從而產生更好的文摘輸出。
參考文獻
[1]曹洋,成穎,裴雷.基于機器學習的自動文摘研究綜述[J].圖書情報工作,2014,58(18):122-130.
[2]Luhn H P.The automatic creation of literature abstracts[J].IBM Journal of research and development,1958,2(2):159-165.
[3]Baxendale P B.Machine-made index for technical literature:an experiment[J].IBM Journal of Research and De-velopment,1958,2(4):354-361.
[4]Gong Y,Liu X.Generic text summarization using relevance measure and latent semantic analysis[C]∥Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval.ACM,2001:19-25.
[5]Conroy J M,Oleary D P.Text summarization via hidden Markov models[C]∥Proceedings of the 24th annual in-ternational ACM SIGIR conference on Research and de-velopment in information retrieval.ACM,2001:406-407.
[6]Shen D,Sun J T,Li H,et al.Document summarization using conditional random fields[C]∥IJCAI,2007,(7):2862-2867.
[7]Kupiec J,Pedersen J,Chen F.A trainable document summarizer[C]∥Proceedings of the 18th annual international ACM SIGIR conference on Research and development in information retrieval.ACM,1995:68-73.
[8]Lin C Y.Training a selection function for extrac-tion[C]∥Proceedings of the eighth international conference on Information and knowledge management.ACM,1999:55-62.
[9]Yeh J Y,Ke H R,Yang W P,et al.Text summarization using a trainable summarizer and latent semantic analysis[J].Information Processing & Management,2005,41(1):75-95.
[10]Kaikhah K.Automatic text summarization with neural networks[C]∥Intelligent Systems,2004.Proceedings.2004 2nd International IEEE Conference,2004:40-44.
[11]WBFrakes,RBaeza-Yates.Information retrieval data structures and algorithms[M].Prentice Hall PTR,New Jersey,1992.
[12]Deerwester S C,Dumais S T,Landauer T K,et al.Indexing by latent semantic analysis[J].JAsIs,1990,41(6):391-407.
[13]Blei D M,Ng A Y,Jordan M I.Latent Dirichletallocation[J].the Journal of machine Learning research,2003,(3):993-1022.
[14]Mikolov T,Yih W,Zweig G.Linguistic regularities in continuous space word representations[C]∥HLT-NAACL,2013:746-751.
[15]Bengio Y,Ducharme R,Vincent P,et al.A neural proba-bilistic language model[J].The Journal of Machine Learning Research,2003,(3):1137-1155.
[16]Collobert R,Weston J.A unified architecture for natural language processing:Deep neural networks with multitask learning[C]∥Proceedings of the 25th international conference on Machine learning.ACM,2008:160-167.
[17]Salakhutdinov R,Hinton G.Semantic hashing[J].Inter-national Journal of Approximate Reasoning,2009,50(7):969-978.
[18]Turian J,Ratinov L,Bengio Y.Word representations:a simple and general method for semi-supervised learn-ing[C]∥Proceedings of the 48th annual meeting of the association for computational linguistics.Association for Computational Linguistics,2010:384-394.
[19]Socher R,Chen D,Manning C D,et al.Reasoning with neural tensor networks for knowledge base comple-tion[C]∥Advances in Neural Information Processing Sys-tems,2013:926-934.
[20]Zou W Y,Socher R,Cer D M,et al.Bilingual word em-beddings for phrase-based machine translation[C]∥EMNLP,2013:1393-1398.
[21]Frome A,Corrado G S,Shlens J,et al.Devise:A deep visual-semantic embedding model[C]∥Advances in Neural Information Processing Systems,2013:2121-2129.
[22]Luong M T,Socher R,Manning C D.Better word repre-sentations with recursive neural networks for morphology[J].CoNLL-2013,2013,104.
[23]Aliguliyev R M.A new sentence similarity measure and sentence based extractive technique for automatic text summarization[J].Expert Systems with Applications,2009,36(4):7764-7772.
[24]Lin C Y,Hovy E.Automatic evaluation of summaries using n-gram co-occurrence statistics[C]∥Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1.Association for Com-putational Linguistics,2003:71-78.
[25]Pennington J,Socher R,Manning C D.Glove:Global vectors for word representation[J].Proceedings of the Empiricial Methods in Natural Language Processing(EMNLP 2014),2014,12.
[26]Svore K M,Vanderwende L,Burges C J C.Enhancing single-document summarization by combining ranknet and third-party Sources[C]∥EMNLP-CoNLL,2007:448-457.
[27]Wan X.A novel document similarity measure based on earth movers distance[J].Information Sciences,2007,177(18):3718-3730.
[28]van der Maaten L,Hinton G.Visualizing data using t-SNE[J].Journal of Machine Learning Research,2008,(9):2579-2605.
[29]Le Q,Mikolov T.Distributed representations of sentences and documents[C]∥Proceedings of the 31st International Conference on Machine Learning(ICML-14),2014:1188-1196.
[30]Kalchbrenner N,Blunsom P.Recurrent continuous trans-lation models[C]∥EMNLP,2013:1700-1709.
(本文責任編輯:郭沫含)