李浥塵,胡 珀,王麗君
(華中師范大學(xué) 計算機學(xué)院,湖北 武漢 430079)
體育比賽直播腳本以體育比賽中的實況數(shù)據(jù)為信息源,以網(wǎng)絡(luò)平臺為媒介,以文字形式向廣大體育愛好者及時轉(zhuǎn)播比賽實況。由于文字直播方式能為暫時無法通過傳統(tǒng)媒介觀看體育比賽的網(wǎng)民提供另一種動態(tài)觀賞比賽進程的方式,已逐漸成為基于視頻的體育比賽直播的有益補充,獲得大量網(wǎng)民的關(guān)注和參與。直播腳本通過文字方式來描繪一場比賽的進展情況,隨著比賽的不斷進行,直播腳本根據(jù)交鋒雙方的賽況實時地更新報道,增強用戶體驗,同時還為體育新聞記者提供第一手的報道信息,幫助他們在比賽結(jié)束后能據(jù)此撰寫出高質(zhì)量的體育新聞。
盡管當(dāng)前眾多與體育比賽有關(guān)的主流網(wǎng)站已紛紛推出實時的文字直播服務(wù)并持續(xù)更新賽況,然而截止目前為止,絕大多數(shù)基于直播腳本的體育新聞均由專業(yè)新聞記者手工撰寫,耗時費力且效率低,如何根據(jù)直播腳本來自動生成體育新聞逐漸成為近年來NLP領(lǐng)域的研究熱點之一,具有相當(dāng)大的挑戰(zhàn)性,其主要表現(xiàn)為以下兩方面:
第一,直播腳本和體育新聞往往從不同的視角來描述同一場體育比賽。直播腳本實時更新,側(cè)重于描述比賽進程中的各個細節(jié)。而體育新聞則更注重于提取出比賽中的關(guān)鍵部分,輔以更簡潔明快的方式報道,因此如何從直播腳本中抽取出“好”的句子作為新聞候選句將是需要解決的關(guān)鍵問題之一。
第二,解決這個問題目前的方法大多采取基于人工特征選擇的無監(jiān)督或有監(jiān)督機器學(xué)習(xí)方法,而這將在一定程度上限制對不同類型體育比賽或不同領(lǐng)域體育賽事新聞生成的泛化能力和靈活性。鑒于此,如何利用體育直播文本自身的特點及它與對應(yīng)的體育新聞間的語義關(guān)聯(lián)性來達到盡可能少的人工特征依賴及良好的領(lǐng)域泛化能力是當(dāng)前迫切需要解決的難點問題,也是本文的研究動機所在。
本文提出了一種新的自動生成體育直播腳本所對應(yīng)的體育新聞的神經(jīng)網(wǎng)絡(luò)模型,該模型在一定程度上避免了傳統(tǒng)模型過于依賴人工選擇特征的局限性,同時還能綜合考慮腳本中句子級局部信息與全局信息,以及句子和新聞內(nèi)容間的語義關(guān)聯(lián)性,實現(xiàn)聯(lián)合建模下的更高質(zhì)量的體育新聞生成。在本任務(wù)公開數(shù)據(jù)集上的初步實驗結(jié)果驗證了本文方法的可行性和有效性。
本研究涉及的任務(wù)與自動文摘密切相關(guān),自動文摘是自然語言處理中一個傳統(tǒng)的研究領(lǐng)域,其應(yīng)用對象主要集中在新聞和社交媒體。目前文摘的主流方法大致可分為兩類: 抽取式和生成式?,F(xiàn)階段抽取式方法相對成熟和高效,因此在本研究中我們暫將該任務(wù)作為一個抽取式摘要問題。
絕大多數(shù)抽取式摘要方法基于無監(jiān)督或有監(jiān)督學(xué)習(xí)。在無監(jiān)督學(xué)習(xí)方法中,基于特征的排序方法通?;诰渥拥恼Z義或統(tǒng)計學(xué)特征,如詞頻、句子位置、線索詞、標(biāo)點詞、詞匯鏈、修辭結(jié)構(gòu)、主題信息等[1-2]?;诰垲惖姆椒ㄍǔ拿總€子主題中選擇一個或多個具有最小冗余度和最大覆蓋度的代表句構(gòu)成摘要[3]。近年來,基于圖模型的方法取得了較好的效果,LexPageRank[4]和TextRank[5]則是采用諸如PageRank和HITS的代表性方法。
在有監(jiān)督的摘要方法中,摘要往往被當(dāng)作句子級的聚類、回歸或序列標(biāo)注任務(wù)求解,眾多有監(jiān)督的學(xué)習(xí)算法如隱馬爾科夫模型[6]、支持向量回歸[7]、因子圖模型[8]等獲得了廣泛應(yīng)用。然而,由于有監(jiān)督的學(xué)習(xí)方法大多需要大量的標(biāo)注數(shù)據(jù),而這在很多情況下尤其是特定領(lǐng)域很難直接獲取并利用。
本研究面向直播腳本的體育新聞自動生成,可被視為一種特殊的自動文摘任務(wù),目前這個領(lǐng)域的研究才剛剛開展,近期最相關(guān)的工作之一是利用傳統(tǒng)句子特征以及任務(wù)特定特征來構(gòu)建一個有監(jiān)督的學(xué)習(xí)框架,對體育腳本中的所有句子打分,然后結(jié)合DPP(行列式點過程)算法去冗余和排序,生成最終的體育新聞[9]。
其他相關(guān)工作大多集中在如何使用社交媒體如Twitter的狀態(tài)更新數(shù)據(jù)來輔助生成體育賽事的新聞[10],或使用基于實體的信息來生成體育比賽摘要[11-12]。還有少量研究利用體育視頻的集錦來生成體育比賽的梗概[13]。
縱觀現(xiàn)有的研究,大多摘要方法適用于通用的新聞領(lǐng)域,尚未被有效應(yīng)用于特定領(lǐng)域的摘要任務(wù),如體育新聞的自動生成。此外,絕大多數(shù)現(xiàn)有方法依賴于人工提取的小規(guī)模特征集,但由于依靠手工來選取特征往往耗時費力、泛化性弱、調(diào)節(jié)麻煩,因此需要提出新的方法來自動學(xué)習(xí)特征,提高體育新聞的生成質(zhì)量。
深度學(xué)習(xí)近年來在諸多NLP任務(wù)中取得了顯著進展,主要原因在于它能通過優(yōu)化層疊模型自動學(xué)習(xí)更好的數(shù)據(jù)表征。一個基于查詢的抽取式文本摘要系統(tǒng)將相關(guān)性和顯著性兩個方面合并考慮,利用深度學(xué)習(xí)可以自動學(xué)習(xí)句子和文檔聚類的詞嵌入,并且當(dāng)查詢給定之后,可以應(yīng)用注意力機制來模擬人類閱讀行為[14]。還有使用條件卷積神經(jīng)網(wǎng)絡(luò)來生成摘要,條件是卷積注意力模型,用來確保每一步生成詞的時候都可以聚焦到合適的輸入上。模型僅僅依賴于學(xué)習(xí)到的特征,并且很容易在大規(guī)模數(shù)據(jù)上進行端到端的訓(xùn)練[15]。
由此可見,利用深度學(xué)習(xí)網(wǎng)絡(luò)來加強對直播腳本的分析,是相關(guān)研究領(lǐng)域的重要趨勢之一,這也是本文提出基于神經(jīng)網(wǎng)絡(luò)模型方案的研究動機。
為了避免人工提取特征,我們提出了一種通用的神經(jīng)網(wǎng)絡(luò)模型自動地從直播腳本中生成體育新聞。模型中綜合考慮了腳本中句子級局部信息與全局信息,以及句子和新聞內(nèi)容間的語義關(guān)聯(lián)性,從而實現(xiàn)聯(lián)合建模下的體育新聞?wù)伞4送?,我們還嘗試了基于規(guī)則和模板來自動生成體育新聞的標(biāo)題以突顯新聞?wù)牡年P(guān)鍵內(nèi)容。圖1描述了我們提出方法的基本流程。
圖1 方法流程圖
圖2顯示了提出的神經(jīng)網(wǎng)絡(luò)模型。
圖2 神經(jīng)網(wǎng)絡(luò)模型
在研究中,每一個句子均被看作詞的序列,Word2Vec模型用于實現(xiàn)詞向量表示。然后用句子中所有的詞向量構(gòu)成句子的向量表示(即句子矩陣)。此外,為了評估句子對所訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型的重要性,我們先將直播腳本中每個句子與給定訓(xùn)練集中對應(yīng)的體育新聞中所有句子進行相似度比較,然后選擇最大值作為該句子的重要性得分。我們假設(shè)是如果利用提出的模型從直播腳本中抽取出來的句子都與體育新聞文本相似度高,那么基于這些句子所生成的體育新聞將更接近于標(biāo)準(zhǔn)體育新聞,從而表明我們的模型效果更優(yōu)。
定義Msentence和Vdocument作為神經(jīng)網(wǎng)絡(luò)模型的輸入。直播腳本中的每一個句子都有一個對應(yīng)的矩陣表示Msentence。在實驗中將表示每個詞的向量維度設(shè)置為50。
Msentence=(Vw1,Vw2,…,Vwk),wk∈sentence,k≤20
這里,wk表示句子的第k個詞,Vwk表示第k個詞所表示的向量,句子所表示的矩陣由20個詞的向量組成。
將Msentence轉(zhuǎn)換為一個1 000維的向量,Vdocument表示直播腳本中所有句子向量的總和。
(1)
神經(jīng)網(wǎng)絡(luò)模型的輸出定義為句子的重要性得分。
score=max{similarity(Vs,Vr)}
(2)
Vs表示直播腳本中的句子,Vr表示新聞中的句子。在本方法中基于gensim模塊計算句子的相似度,比較直播腳本中的每一個句子與體育新聞中的每一個句子的相似度,取直播腳本中句子所對應(yīng)相似度的最大值作為模型的輸出值。我們基于tf-idf模型創(chuàng)建相似度矩陣,將句子表示成詞的tf-idf值拼接成的向量,計算向量的余弦相似度。由于每一篇直播腳本文檔對應(yīng)兩篇體育新聞文檔(163新聞和新浪新聞),我們分別計算直播腳本句子所對應(yīng)的最大相似度得分,取兩者平均數(shù)作為最終的輸出值。
在實驗中,我們也嘗試基于LSI和LDA模型計算句子間的相似度,但是最后的實驗結(jié)果表明基于tf-idf模型得到的實驗效果最好。此外,我們也試圖將每一個句子看作一篇文檔,計算該文檔在所對應(yīng)的體育新聞的ROUGE-1的F得分,但是計算結(jié)果顯示絕大多數(shù)句子得分為0,使得神經(jīng)網(wǎng)絡(luò)模型中的輸出值過于稀疏,不利于模型的訓(xùn)練。
本研究中神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建按照如下方式進行: 首先,Vdocument添加一層全連接層得到一個200維度的向量。
X(l)=f(W(l)·X(l-1)+b(l))
(3)
W(l)表示第l層模型的參數(shù),X(l-1)表示第l-1層的輸出,b(l)為第l層的偏置矩陣,X(l)表示經(jīng)過全連接層得到的輸出值。
然后Msentence添加三層一維卷積層得到一個矩陣并用扁平化函數(shù)將其轉(zhuǎn)換為一個向量Vsentence。
(4)
接著將兩個向量每一維度相乘得到Vmul,這樣可以實現(xiàn)綜合考慮到腳本中句子級的局部信息與全局信息。
Vmul=Vsentence·Vdocument
(5)
最后,Vmul添加三層全連接層得到最終的輸出結(jié)果,基于句子與新聞內(nèi)容間的語義關(guān)聯(lián)性實現(xiàn)了聯(lián)合建模下的體育新聞?wù)伞?/p>
output=sigmoid(W(l)·X(l-1)+b(l))
(6)
這里,sigmoid是常用的非線性激活函數(shù),把輸入的連續(xù)實值“壓縮”到0和1之間,output即為神經(jīng)網(wǎng)絡(luò)模型的輸出值。output在模型當(dāng)中的意義為直播腳本中的每一個句子與體育新聞中的每一個句子的最大相似度得分。
我們使用交叉熵函數(shù)作為損失函數(shù),如下所示:
(7)
y表示標(biāo)簽值的大小,即上文中的score所表示的值,output表示輸出的結(jié)果值。
在本研究中,除了采用前面提出的方法自動生成體育新聞外,還嘗試了基于規(guī)則和模板來自動生成體育新聞的標(biāo)題以突顯新聞?wù)牡年P(guān)鍵內(nèi)容,基于模板與規(guī)則生成新聞標(biāo)題,標(biāo)題的構(gòu)成由隊伍名稱、最終比分、重要球員表現(xiàn)三部分來構(gòu)成。
從直播腳本中直接抽取出對陣雙方的球隊,球隊名稱集中出現(xiàn)在直播腳本的比賽介紹部分(未賽)和總結(jié)部分(完賽)。同時在比賽結(jié)束總結(jié)部分(完賽)也可提取出比賽的最終比分,由此可得隊伍名稱以及最終比分兩部分內(nèi)容。
例1
本次直播給大家?guī)淼氖?015—2016賽季歐冠小組賽第一輪,皇馬主場和頓涅茨克礦工的比賽未賽 0∶0
全場比賽結(jié)束,皇馬主場4∶0大勝頓涅茨克礦工,取得本賽季歐冠的開門紅?。?!完賽 4∶0
在直播文本中的比分欄實時記錄對陣雙方的比分,若某一行內(nèi)容出現(xiàn)變化,即表明在該時刻有球員進球。新聞標(biāo)題中出現(xiàn)的重要球員往往是本場比賽中發(fā)揮出色的球員,因此在直播腳本中出現(xiàn)比分變化的句子中提取出重要球員的名字,統(tǒng)計重要球員的進球數(shù),并依據(jù)進球數(shù)量總結(jié)重要球員的比賽表現(xiàn),由此可得重要球員表現(xiàn)部分的內(nèi)容。
例2
本澤馬,推射空門得手?。?!上半場30 1∶0
C羅主罰,一蹴而就?。?!下半場11 2∶0
C羅主罰,助跑,右腳勁射打球門左側(cè)死角,皮亞托夫判斷錯了方向,3-0!!!下半場20 3∶0
進球啦,4-0!!!C羅的補射,上演帽子戲法,其中兩個點球 下半場36 4∶0
結(jié)合以上抽取出來的隊伍名稱、最終比分、重要球員表現(xiàn)三部分內(nèi)容生成新聞標(biāo)題,示例如下:
例3
皇馬4∶0頓涅茨克礦工,C羅上演帽子戲法
(1) 數(shù)據(jù)集
為了評估本文提出的方法在體育新聞自動生成任務(wù)上的可行性與有效性,我們采用由張建敏等于2016年首次構(gòu)建并發(fā)布的本任務(wù)開放數(shù)據(jù)集(即acl16_sports數(shù)據(jù)集)[9]。該數(shù)據(jù)集共有450篇文檔,其中150篇文檔是直播腳本,另300篇文檔是每篇直播腳本對應(yīng)的網(wǎng)易和新浪體育新聞編輯所撰寫的體育新聞。
(2) 評價指標(biāo)
在本實驗中,我們將數(shù)據(jù)集隨機分為兩個不同的部分,其中一部分包含100篇直播腳本與其對應(yīng)的200篇體育新聞,它們被用作訓(xùn)練集,另一部分則被設(shè)為測試集。為了便于評估,使用ROUGE-1.5.5工具包[16]來比較基于腳本生成的體育新聞與新聞媒體記者撰寫的體育新聞的內(nèi)容重疊度。作為評價指標(biāo),我們報道了ROUGE-1(R-1)和ROUGE-2(R-2)的F指標(biāo)分?jǐn)?shù)。
(3) 比較方法
我們使用以下的主流摘要系統(tǒng)為基準(zhǔn),與我們提出的方法進行比較。這里,前三個系統(tǒng)是典型的無監(jiān)督摘要方法,它們直接用于每個體育比賽的直播腳本,通過提取最重要的句子來生成新聞。RF + DPP系統(tǒng)是專門針對該任務(wù)設(shè)計的有監(jiān)督摘要系統(tǒng),該系統(tǒng)利用直播腳本和對應(yīng)的人工編輯新聞來自動學(xué)習(xí)生成體育新聞。
Centroid: 是基于質(zhì)心的摘要系統(tǒng)[17],它計算文檔中一個稱為質(zhì)心句的偽句子。質(zhì)心句由TFIDF分?jǐn)?shù)高于預(yù)定義閾值的詞組成。通過基于不同特征的得分總和: 包括句子與質(zhì)心句的余弦相似度、位置權(quán)重以及句子與首句的余弦相似度來定義每個句子的得分。
LexRank: LexRank[4]基于句子圖表示中特征向量的中心性概念來計算句子的重要性。在該模型中,使用基于句內(nèi)余弦相似度的連接矩陣作為句子圖表示的鄰接矩陣。
ILP: 整數(shù)線性規(guī)劃(ILP)方法[18]將文檔摘要看作組合優(yōu)化的問題。ILP模型通過最大化摘要中包含的二元組概念的頻率權(quán)重的總和來選擇句子。
RF+DPP: 將此任務(wù)看作學(xué)習(xí)排序問題,在一個有監(jiān)督學(xué)習(xí)的框架下通過計算文檔的傳統(tǒng)特征及特定任務(wù)的特征求解[9]。
3.2.1 對比方法
表1給出了不同方法的實驗結(jié)果。
表1 不同方法的實驗結(jié)果
從表1中可以看到,本文提出的基于神經(jīng)網(wǎng)絡(luò)模型的方法與傳統(tǒng)的無監(jiān)督和有監(jiān)督方法相比,獲得了更好的結(jié)果。
從實驗結(jié)果可以看出,傳統(tǒng)的文檔摘要的方法應(yīng)用于該任務(wù)效果并不好。Centroid是一種基于中心點的句子抽取方法,它在賦予句子權(quán)重的過程中,綜合考慮了句子級以及句子之間的特征,但是對于本任務(wù)而言,部分特征的設(shè)置并不合理。ILP將摘要看做一個帶約束的優(yōu)化問題,同時進行句子抽取與冗余去除,非常適合解決多文檔摘要問題,但是在實驗中效果并不好。LexRank方法通過句子間的相似性為多文檔構(gòu)建句圖,使用tf與idf來衡量句子間的相似性,然而直播腳本的句子多以短句為主,實時描述比賽的進程,反映比賽的發(fā)展過程,所以句子之間的相似度并不高。
RF+DPP模型將文檔摘要的傳統(tǒng)特征與任務(wù)的特有特征相結(jié)合,使用概率句子選擇算法去除冗余句子。RF+DPP模型的特征驗證表明,兩方面的特征均有利于摘要的生成,相比較而言,為該任務(wù)設(shè)定的特征如重要比賽事件、得分變化、重要球員等在句子抽取的過程中影響力更大。RF+DPP方法相較于傳統(tǒng)的文檔摘要方法取得了更好的效果,但是這個方法還是依賴于人工提取的一系列句子特征。
我們的方法能夠達到最優(yōu)效果,其主要來自于兩個方面的原因: 第一,我們的方法是有監(jiān)督的學(xué)習(xí)方法,基于神經(jīng)網(wǎng)絡(luò)模型,以直播腳本中的句子與新聞中句子的相似度作為訓(xùn)練目標(biāo);第二,提出的方法綜合考慮了腳本中句子級的局部信息與全局信息,以及直播腳本中的句子與新聞內(nèi)容間的語義關(guān)聯(lián)性。此外,我們的模型沒有使用任何人工提取的句子特征來生成相應(yīng)的體育比賽新聞,不僅適用于生成足球比賽直播腳本對應(yīng)的體育新聞,也適用于其他體育比賽的領(lǐng)域,具有更好的領(lǐng)域泛化能力。
3.2.2 錯誤分析
盡管實驗結(jié)果表明我們的方法是可行且有效的,但結(jié)果集中仍然存在一些錯誤。
錯誤一在直播腳本中充斥著大量短句子甚至噪聲句子,有時幾個連續(xù)的短句子描述了一個重要的事件,而當(dāng)前的模型往往不能將這部分句子抽取出來,從而導(dǎo)致信息的缺失。
例1
皇馬進球啦?。?! 上半場30 1∶0
本澤馬,推射空門得手?。?! 上半場 1∶0
這些短句子描述的是比賽進程中的重要事件,然而它們沒有被抽取出來是因為模型在計算這部分句子時,短句子在直播腳本文檔中影響力較小,且與體育新聞中的語句關(guān)聯(lián)性較低。
錯誤二在直播腳本中,比賽開始之前,會有大段的篇幅介紹比賽的背景知識,主要內(nèi)容包括兩支球隊各自的風(fēng)格特點、人員變換、球隊對陣記錄、近期狀態(tài)等。研究發(fā)現(xiàn)在我們的模型中會抽取大量直播腳本中的未賽部分的句子,由于新聞的長度限制,導(dǎo)致生成的體育新聞中描述比賽重要事件的部分被壓縮,沒能提取出直播腳本中部分關(guān)鍵事件的信息。
例2
大家好,歡迎收看新浪體育為您帶來英超第7輪 萊斯特 VS 阿森納 未賽 0∶0
溫格麾下的球隊,技術(shù)完美,但精神力軟弱,這是足壇公論 未賽 0∶0
本賽季阿森納是順風(fēng)球之王,對陣切爾西、水晶宮、紐卡斯?fàn)?、斯托克城、熱?戰(zhàn),阿森納先進球,5戰(zhàn)全部取勝 未賽 0∶0
而對陣薩格勒布、切爾西、西漢姆三戰(zhàn),阿森納先丟球,三戰(zhàn)全部落敗 未賽 0∶0
本戰(zhàn)阿森納的對手萊切斯特則是本賽季英超“逆風(fēng)球之王” 未賽 0∶0
雙方歷史交鋒133場,阿森納61勝44平29負 未賽 0∶0
阿森納近19次對陣萊斯特城取得11勝8平保持不敗 未賽 0∶0
這些句子都是作為比賽的背景知識出現(xiàn)在直播腳本中的,然而我們的模型卻將這些句子都抽取出來作為生成的體育新聞的內(nèi)容。這部分句子與新聞的語義關(guān)聯(lián)度較高并具有總結(jié)性意義,同時多以長句子為主,句子當(dāng)中的詞更容易同時出現(xiàn)在直播腳本的其他位置以及新聞的內(nèi)容中。
這兩個問題在所提出的方法中尚沒有得到很好的解決,我們將在后續(xù)的工作中重點解決。
本文研究如何從直播腳本中自動生成體育新聞,我們將此任務(wù)作為特殊的抽取型摘要問題,提出了一種基于神經(jīng)網(wǎng)絡(luò)的方法,以提高現(xiàn)有方法的泛化能力和靈活性。提出的方法不僅考慮到腳本中句子級的局部信息與全局信息,還考慮了句子與新聞內(nèi)容間的語義關(guān)聯(lián)性,從而實現(xiàn)聯(lián)合建模下的體育新聞?wù)?。初步的實驗結(jié)果驗證了我們方法的有效性,在不使用任何人工提取特征的情況下,性能優(yōu)于眾多基準(zhǔn)方法,甚至是有監(jiān)督學(xué)習(xí)的方法,達到了目前的最優(yōu)實驗效果。
在未來的工作中,我們將探索生成式摘要而不僅僅采用純抽取型摘要的方法,自適應(yīng)地學(xué)習(xí)適合不同領(lǐng)域的體育新聞模板,并通過引入注意力機制將腳本和新聞的多粒度上下文層次信息融入當(dāng)前的神經(jīng)網(wǎng)絡(luò)模型中。
[1] Luhn H P. The automatic creation of literature abstracts[J]. IBM Journal of Research and Development, 1969,2(2): 159-165.
[2] Lin C Y, Eduard H. The automated acquisition of topic signatures for text summarization[C]//Proceedings of the 17th Conference on Computational Linguistics (COLING 2000), 2000: 495-501, Association for Computational Linguistics, Stroudsburg, PA.
[3] Nomoto T Matsumoto Y. A new approach to unsupervised text summarization[C]//Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2001), 2001: 26-34, ACM, New York, NY.
[4] Erkan G, Radev D R. LexPageRank: prestige in multi-document text summarization[C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing (EMNLP 2004),2004.
[5] Mihalcea R Tarau P. TextRank: bringing order into texts[C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing (EMNLP 2004),2004.
[6] Conroy J M, Oleary D P. Text summarization via hidden markov models[C]//Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2001), ACM, New York, NY,2001: 406-407.
[7] You O Y, Li W J, Li S J, et al. Applying regression models to query-focused multi-document summarization[J]. Information Processing and Management, 2011, 47(2): 227-237.
[8] Yang Z,Cai K K, Tang J, et al. Social context summarization[C]//Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2011), ACM, New York, NY, 2011: 255-264.
[9] Jianmin Zhang, Jin-ge Yao, Xiaojun Wan. Towards constructing sports news from live text commentary[C]//Proceedings of ACL 2016, 2016.
[10] Jeffrey Nichols, Jalal Mahmud, Clemens Drews. Summarizing sporting events using twitter[C]//Proceedings of the 2012 ACM International Conference on Intelligent User Interfaces, 2012: 189-198.
[11] Nadjet Bouayad-Agha, Gerard Casamayor, Leo Wanner. Content selection from an ontology based knowledge base for the generation of football summaries[C]//Proceedings of the 13th European Workshop on Natural Language Generation, 2011: 72-81.
[12] Nadjet Bouayad-Agha, Gerard Casamayor, Simon Mille, et al. Perspective-oriented generation of football match summaries: Old tasks, new challenges[C]//Proceedings of the ACM Transactions on Speech and Language Processing (TSLP), 2012,9(2): 3.
[13] D Tjondronegoro,Yi-Ping Phoebe Chen, Binh Pham. Highlights for more complete sports video summarization[C]//Proceedings of IEEE Computer Society Press, 2004,11(4): 22-37.
[14] Ziqiang Cao, Wenjie Li, Sujian Li. AttSum: Joint learning of focusing and summarization with neural attention[C]//Proceedings of Coling 2016.
[15] Sumit Chopra,Michael Auli, Alexander M Rush. Abstractive sentence summarization with attentive recurrent neural networks[C]//Proceedings of NAACL 2016.
[16] Chin-Yew Lin, Eduard Hovy. Automatic evaluation of summaries using n-gram cooccurrence statistics[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology 2003,(1): 71-78.
[17] Dragomir R Radev, Hongyan Jing, Malgorzata Budzikowska. Centroid-based summarization of multiple documents: Sentence extraction,utility-based evaluation, and user studies[C]//Proceedings of the 2000 NAACL-ANLP Workshop on Automatic summarization, 2000: 21-30. Association for Computational Linguistics.
[18] DanGillick, Benoit Favre,and Dilek Hakkani-Tur. The icsi summarization system at tac 2008[C]//Proceedings of the Text Understanding Conference,2008.