徐 靜,楊小平
(1. 中國人民大學(xué) 信息學(xué)院, 北京 100872;2. 中華女子學(xué)院 計(jì)算機(jī)系,北京 100101)
基于CRF模型的網(wǎng)絡(luò)新聞主題線索發(fā)掘研究
徐 靜1,2,楊小平1
(1. 中國人民大學(xué) 信息學(xué)院, 北京 100872;2. 中華女子學(xué)院 計(jì)算機(jī)系,北京 100101)
為了準(zhǔn)確挖掘出同一主題的大量網(wǎng)絡(luò)新聞的線索發(fā)展脈絡(luò),該文提出了一種基于條件隨機(jī)場模型的網(wǎng)絡(luò)新聞主題線索發(fā)掘方法。首先,根據(jù)新聞主題線索句的識(shí)別規(guī)則提取出相關(guān)特征,并應(yīng)用到條件隨機(jī)場模型中提取出主題線索句;然后,按照時(shí)間順序構(gòu)建原始線索鏈;最后,對(duì)語義相近的原始線索鏈進(jìn)行合并處理,獲得最終的新聞主題發(fā)展脈絡(luò)。實(shí)驗(yàn)結(jié)果表明,該方法在主題線索句識(shí)別上有較好的效果,最終得到的主題線索脈絡(luò)能夠較清晰地展現(xiàn)新聞發(fā)展趨勢。
主題線索;條件隨機(jī)場;線索鏈
網(wǎng)絡(luò)時(shí)代的快速發(fā)展使得網(wǎng)上的信息量正以幾何級(jí)別速度不斷增加,而以Web為載體的網(wǎng)絡(luò)新聞已經(jīng)成為人們獲取信息的重要來源之一。隨著時(shí)間的延伸,某個(gè)主題的網(wǎng)絡(luò)新聞內(nèi)容也會(huì)隨之發(fā)生變化,且一篇網(wǎng)絡(luò)新聞可能只是描繪與主題相關(guān)的一個(gè)事件的發(fā)展片段。如何能夠從大量相關(guān)網(wǎng)絡(luò)新聞中挖掘出整個(gè)主題的線索脈絡(luò),從而幫助用戶盡快掌握某個(gè)新聞的發(fā)展脈絡(luò)及追蹤感興趣的主題,具有實(shí)際意義。
主題一般是指文本或文檔集的中心思想,主題的線索脈絡(luò)可以反映一個(gè)主題從開始發(fā)生,到發(fā)展的各個(gè)階段,到高潮,再到逐漸沒落的整個(gè)變化過程。目前,對(duì)新聞的主題或話題進(jìn)行探測主要分為兩大類: 一類是針對(duì)話題演化或話題線索檢測的研究,目前關(guān)于這個(gè)方面的研究多采用向量空間模型[1-2]或概率模型,文獻(xiàn)[2]提出了一個(gè)基于TF-IDF的向量空間模型方法以進(jìn)行初步的話題檢測和話題線索抽取,并在模型中加入了時(shí)間關(guān)系信息。應(yīng)用廣泛的LDA模型屬于基于概率的模型[3-4],具有較好的文本主題表示能力。文獻(xiàn)[5]運(yùn)用LDA模型從大量的新聞事件語料中抽取線索,并選擇合適的線索詞作為線索標(biāo)簽?;谙蛄靠臻g的模型受限于獨(dú)立性假設(shè),且存在文本高維度、稀疏等問題。LDA模型比基于向量空間的模型的話題表示能力更強(qiáng),能有效解決文本高維的問題,但基于LDA模型的方法大都假設(shè)任意時(shí)刻的話題數(shù)目都相同,且話題只能向一個(gè)方向演化。另一類是基于事件抽取的主題線索化,其研究目標(biāo)是依據(jù)事件特征的規(guī)則從文檔或文檔集中挖掘出主題線索[6-8]。文獻(xiàn)[9]建立一種基于事件框架的信息抽取模式并提出按時(shí)間流順序輸出線索性文件。通過定義結(jié)構(gòu)化、層次化的事件框架來實(shí)現(xiàn)主題事件的抽取,并應(yīng)用于災(zāi)難性事件檢索中。文獻(xiàn)[10]提出一種基于事件多向量模型的事件演化分析算法,以發(fā)現(xiàn)同一主題下事件的發(fā)展演化關(guān)系。這種針對(duì)新聞內(nèi)容的事件抽取方法可以提取出單個(gè)新聞中事件的結(jié)構(gòu)化元素,但不能對(duì)一個(gè)新聞主題內(nèi)部的線索結(jié)構(gòu)以及發(fā)展脈絡(luò)進(jìn)行探測。
本文在獲得主題線索句的基礎(chǔ)上,以時(shí)間詞為線索特征,從大量的主題線索句集合中提取新聞的主題線索。由于條件隨機(jī)場模型能較好地捕捉上下文信息,已被應(yīng)用于文本摘要抽取中,并且取得了較好的效果[11-12]。因此,借助條件隨機(jī)場模型可以得到新聞的主題線索句,然后按照時(shí)間順序構(gòu)建主題線索鏈,并對(duì)冗余的線索鏈進(jìn)行過濾,對(duì)語義相近的線索鏈進(jìn)行合并處理,最終得到新聞的主題線索集合。實(shí)驗(yàn)結(jié)果表明,該方法獲得的新聞主題線索能較好地表示網(wǎng)絡(luò)新聞的主題發(fā)展脈絡(luò)。
新聞主題線索的生成需要經(jīng)過新聞文本內(nèi)容預(yù)處理、主題線索句獲取、原始線索鏈構(gòu)造和新聞主題線索提取幾個(gè)步驟完成,具體流程如圖1所示。
圖1 新聞主題線索提取流程
3.1 新聞文本內(nèi)容預(yù)處理
首先對(duì)從網(wǎng)絡(luò)上抽取到的新聞頁面進(jìn)行預(yù)處理,主要包括新聞標(biāo)題、正文內(nèi)容的提取,并對(duì)正文內(nèi)容進(jìn)行中文分詞、詞性標(biāo)注、句子切分等。
對(duì)于一個(gè)新聞專題,該專題有一組相關(guān)新聞文章,我們將一篇網(wǎng)絡(luò)新聞的正文看成是一篇文檔,可以表示成一個(gè)觀測到的句子序列S=(s1,s2,…,si,…,sm),m為句子的個(gè)數(shù),將每條句子進(jìn)行分詞,去除停用詞、虛詞,并將剩下的實(shí)詞按照權(quán)重大小進(jìn)行排列,每一條句子可表示為si=(w1,w2,…,wj,…,wn),n為句子si中的實(shí)詞個(gè)數(shù),即n為句子的長度。ωj為實(shí)詞wj的權(quán)重,用式(1)進(jìn)行計(jì)算。
其中,Tj為實(shí)詞wj在文本中出現(xiàn)的頻率,m為文本的句子總數(shù),nj為實(shí)詞wj出現(xiàn)的句子數(shù)。
3.2 主題線索句識(shí)別
利用條件隨機(jī)場(CRF)模型可以對(duì)主題線索句進(jìn)行識(shí)別。對(duì)于文檔中的主題線索句識(shí)別問題可以轉(zhuǎn)化為序列標(biāo)注問題,將文檔分解成可觀測的句子序列,并采用具有強(qiáng)大的特征描述能力的CRF模型,同時(shí)將觀測序列中的相關(guān)特征加入到CRF模型中,最后產(chǎn)生可識(shí)別主題線索句的標(biāo)注序列[13]。
3.2.1CRF模型
CRF模型是由Lafferty等人于2001年在最大熵和隱馬爾科夫模型的基礎(chǔ)上提出的一種基于統(tǒng)計(jì)的無向圖模型,它可以任意選擇特征,并且對(duì)所有特征進(jìn)行全局歸一化,從而得到全局最優(yōu)解[14-15]。CRF模型主要用于處理序列標(biāo)注問題,近年來CRF模型在自然語言處理、信息抽取等領(lǐng)域都有了廣泛的應(yīng)用。在CRF模型中,給定一個(gè)觀測到的句子序列S=(s1,s2,…,sm),輸出相應(yīng)的標(biāo)注序列Y=(y1,y2,…,ym),這里的yi從一個(gè)集合φ={0,1}中取值。CRF的目標(biāo)是找到序列Y,使得式(2)最大化。
其中,fj(yi-1,yi,S)是標(biāo)記觀測序列的特征函數(shù),它一般取布爾值,W=(w1,w2,…,wm)是經(jīng)過訓(xùn)練數(shù)據(jù)對(duì)模型訓(xùn)練后各特征函數(shù)所對(duì)應(yīng)的權(quán)重值,對(duì)于W的估計(jì)一般采用最大似然法,同時(shí)為了避免過擬合,一般給參數(shù)加入高斯先驗(yàn)。Zs是一個(gè)歸一化因子,它通過式(3)進(jìn)行計(jì)算。
3.2.2 特征選取
CRF模型的學(xué)習(xí)與預(yù)測是在樣本的多個(gè)特征上進(jìn)行的。如何針對(duì)特定的任務(wù)為模型選擇合適的特征集合是使用CRF模型進(jìn)行主題線索句識(shí)別的關(guān)鍵步驟。CRF模型不僅能使用句子位置、句子長度、詞典及語義等特征,還能利用它們組合而成的復(fù)雜特征。
在應(yīng)用CRF模型提取主題線索句時(shí),采用的特征包括以下幾個(gè)。
(1) 文本基本特征: 包括長度特征Len和位置特征Pos。
長度特征: 指句子去除停用詞后的詞匯數(shù)量,通常長句較之短句包含有更多的信息,即較短的句子是主題線索句的可能性較小。
長度特征函數(shù)如式(4)所示。
位置特征: 指句子處在正文中的位置。文章開頭一般多為概述全文的主題句,結(jié)尾句有時(shí)也會(huì)是總結(jié)性的主題句。因此,我們標(biāo)記在文章的開始段落為B,結(jié)尾段落為E,其余位置為I。
位置特征函數(shù)如式(5)所示。
(2) 詞典特征Dic: 建立了時(shí)間和地點(diǎn)兩種詞典。時(shí)間和地點(diǎn)是新聞事件的基本要素,也是表示新聞主題線索的重要元素。因此,如果句子中包含的單詞屬于時(shí)間詞典(Dtime)或地點(diǎn)詞典(Daddress)中的一項(xiàng),則該句子有可能被標(biāo)記為主題線索句(topiccluesentence)。
基于詞典的特征函數(shù)如式(6)所示。
fD(si,wj)=
(3) 語義特征: 包括關(guān)鍵詞特征Key、與標(biāo)題相近度特征SimT和與相鄰句子相似度特征SimS。
關(guān)鍵詞特征: 指句子去除停用詞后包含的關(guān)鍵詞數(shù)量,用sumw表示。句子包含的關(guān)鍵詞越多,被標(biāo)定為主題線索句的可能性也越大。
關(guān)鍵詞特征函數(shù)如式(7)所示。
fK(si,sumw)=
與標(biāo)題相近度特征: 標(biāo)題包含了新聞內(nèi)容的重要信息,句子與標(biāo)題相似度越大,則通常更可能出現(xiàn)在主題句中。
與標(biāo)題相近度特征如式(8)所示。
句子si與標(biāo)題的相近度計(jì)算公式如式(9)所示。
其中,TW={tw1,tw2,…,twm)表示標(biāo)題的詞語集,si=(w1,w2,…,wj,…,wn)表示一條句子的詞語集,f(twi) 表示詞twi在當(dāng)前文本中出現(xiàn)的次數(shù),f(twi∩wj)表示詞twi與詞wi在當(dāng)前文本中共同出現(xiàn)的次數(shù)。
與相鄰句子相似度特征: 與前后句子的相似度在一定程度上可反映句子在局部的重要性。與相鄰句子的相似度越大,則成為主題線索句的可能性越大。相似度計(jì)算公式同式(9)。
根據(jù)以上考慮,我們定義了模型中的特征模板,每一個(gè)特征可作為一個(gè)原子模板(長度特征Len用L表示,位置特征Pos用P表示,關(guān)鍵詞特征Key用K表示,與標(biāo)題的相近度特征SimT用T表示,與相鄰句子的相似度特征SimS用S表示)。很多時(shí)候如果上下文只采用原子模板,則很難完全描述語言中的復(fù)雜現(xiàn)象。通過對(duì)原子模板進(jìn)行組合,構(gòu)成相應(yīng)的組合特征模板來表示較復(fù)雜的、非線性的上下文信息。在本文中,設(shè)計(jì)了如表1所示的復(fù)合特征模板,為了增加對(duì)上下文信息的描述,還要將上述各特征模板分別做-2,-1,1, 2四個(gè)位置的偏移,這些特征可以用二值特征函數(shù)的形式來表示。
3.3 原始線索鏈構(gòu)建
利用條件隨機(jī)場CRF模型識(shí)別出每篇新聞文章的主題線索句, 把所有的主題 線索句放到一起構(gòu)成與新聞主題相關(guān)的線索集合,用每一個(gè)線索句來構(gòu)造一條原始線索鏈,通過原始線索鏈的構(gòu)建將與新聞主題相關(guān)的所有線索聚集起來。
表1 CRF模型特征模板
線索中最重要的部分是時(shí)間。主題線索句中的實(shí)詞(可稱為線索關(guān)鍵詞)在語義上也可表示線索與新聞主題的相關(guān)度。用線索時(shí)間和線索關(guān)鍵詞來構(gòu)建原始線索鏈。因此,首先要提取出主題線索句中的時(shí)間。考慮到一個(gè)句子中可能包含多個(gè)時(shí)間詞或者沒有時(shí)間詞的情況,我們設(shè)定如下規(guī)則來識(shí)別主題線索句中的線索時(shí)間:
(1) 如果句子中有多個(gè)時(shí)間詞,取最靠前的時(shí)間詞作為該句的線索時(shí)間;
(2) 如果句子中沒有時(shí)間詞,取句子所在段落中的第一個(gè)時(shí)間詞作為該句的線索時(shí)間;
(3) 如果句子所在的段落也沒有時(shí)間詞,則往前選取離句子所在段落最近的一個(gè)段落的第一個(gè)時(shí)間詞作為該句的線索時(shí)間。
經(jīng)過處理后,每一個(gè)主題線索句都包含一個(gè)時(shí)間,將此時(shí)間詞ti作為該原始線索鏈的鏈頭結(jié)點(diǎn)。然后將該主題線索句中的實(shí)詞(去掉停用詞后的名詞和動(dòng)詞)按照詞頻權(quán)重由高到低依次加入相應(yīng)原始線索鏈中。該鏈表的結(jié)點(diǎn)分為數(shù)據(jù)域和指針域,數(shù)據(jù)域存儲(chǔ)的數(shù)據(jù)為(w,value),w為實(shí)詞,value為該實(shí)詞的權(quán)重值,指針域存儲(chǔ)指向后續(xù)結(jié)點(diǎn)的指針,結(jié)點(diǎn)按其數(shù)據(jù)域中實(shí)詞對(duì)應(yīng)的權(quán)重值降序排列。
3.4 新聞主題線索提取
其中, ti為原始線索鏈OCi對(duì)應(yīng)的時(shí)間,即該線索的發(fā)生時(shí)間,當(dāng)任意兩條原始線索鏈的時(shí)間間隔小于平均時(shí)間間隔時(shí),我們對(duì)這兩條原始線索鏈之間的語義相似度進(jìn)行計(jì)算。Cωij表示原始線索鏈OCi中的實(shí)詞wj的權(quán)重值。當(dāng)dist(OCi,OCj)小于閥值α?xí)r,認(rèn)為兩條原始線索鏈OCi和OCj是相似的,可以對(duì)這兩條線索鏈按照鏈表的插入方法進(jìn)行合并處理。
對(duì)原始線索鏈按時(shí)間排序及語義合并處理后,就可以利用線索的發(fā)生時(shí)間和其強(qiáng)度來表示主題線索的發(fā)展趨勢,每一條線索鏈鏈頭中所包含的時(shí)間為線索的發(fā)生時(shí)間,每一條線索鏈上所有結(jié)點(diǎn)的權(quán)重平均值及該線索鏈來源的文本數(shù)量決定該線索的強(qiáng)度。線索鏈OCi的線索強(qiáng)度VCi的計(jì)算如式(11)所示。
其中,k為原始線索鏈語義合并后剩下的線索鏈個(gè)數(shù),di表示線索鏈OCi的線索來源的文本數(shù)量,即該線索鏈?zhǔn)墙?jīng)過多少條原始線索鏈合并而成的。
4.1 實(shí)驗(yàn)語料
由于目前沒有針對(duì)中文新聞主題線索句進(jìn)行評(píng)測的標(biāo)準(zhǔn)數(shù)據(jù)集,所以本文采用人工標(biāo)注的方法構(gòu)造評(píng)測數(shù)據(jù)集。實(shí)驗(yàn)中采用的語料是從新浪網(wǎng)抽取的六個(gè)新聞專題下的新聞報(bào)道。所有新聞通過網(wǎng)頁分析,去除廣告鏈接等無關(guān)內(nèi)容,并進(jìn)行規(guī)范化處理,并篩選掉少于三句話的新聞文章,最終選出文本3 105篇。
我們按照第三節(jié)介紹的方法對(duì)六個(gè)主題的新聞文檔集合進(jìn)行處理,將實(shí)驗(yàn)分為兩個(gè)部分進(jìn)行驗(yàn)證: (1)利用CRF模型識(shí)別新聞的主題線索句;(2)構(gòu)建原始線索鏈獲取新聞主題線索。表2給出了實(shí)驗(yàn)數(shù)據(jù)集的簡要描述和結(jié)果統(tǒng)計(jì)表。
表2 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)表
4.2 CRF模型識(shí)別主題線索句實(shí)驗(yàn)
由于人工標(biāo)注的局限性,我們僅對(duì)“人民幣匯率持續(xù)貶值”,“烏克蘭局勢動(dòng)蕩”“四川雅安7.0級(jí)地震”3個(gè)主題共1 986篇新聞進(jìn)行主題線索句識(shí)別的實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)前先手工標(biāo)注出這些新聞的主題線索句,且實(shí)驗(yàn)中假設(shè)這些標(biāo)注全部為正確標(biāo)注。將所有語料分為兩部分,其中1 490篇作為訓(xùn)練語料,其余496篇作為測試數(shù)據(jù)集合。本文的分詞、詞性標(biāo)注等使用了中科院的分詞工具ICTCLAS的工具包,并選用CRF ++v 0.53(http://crfpp.sourceforge.net/)對(duì)模型進(jìn)行訓(xùn)練和測試,實(shí)現(xiàn)基于CRF模型的主題線索句識(shí)別任務(wù)。
對(duì)于識(shí)別性能進(jìn)行評(píng)測時(shí),采用準(zhǔn)確率(P)、召回率(R)、綜合指標(biāo)F1值(F1)三個(gè)指標(biāo)來進(jìn)行評(píng)價(jià)。在基于CRF的主題線索句識(shí)別中,特征函數(shù)的選取對(duì)識(shí)別性能起著關(guān)鍵性的作用。因此在訓(xùn)練CRF模型時(shí),選用了不同的特征組合,以挑選最優(yōu)的特征模板,表3是采用不同特征模板的實(shí)驗(yàn)對(duì)比結(jié)果。從表3的實(shí)驗(yàn)結(jié)果可看出,采用文本基本特征和詞典特征的組合方式時(shí),主題句的正確識(shí)別率不高,這是由于僅通過句子長度、位置,以及是否包含時(shí)間地點(diǎn)詞這樣的特征,會(huì)識(shí)別出很多非主題線索句,導(dǎo)致準(zhǔn)確率較低,召回率反而更高一些。而在此基礎(chǔ)上加入語義特征,可以明顯地提高識(shí)別效果,這是因?yàn)殛P(guān)鍵詞本身可以表示文本的語義內(nèi)容,而標(biāo)題往往都是文本主題內(nèi)容的凝練,上下文關(guān)系可體現(xiàn)句子的局部重要性,因此加入任意一種語義特征都可以改善主題線索句的識(shí)別效果;而模板3較模板2的準(zhǔn)確率低是因?yàn)橛猩倭烤W(wǎng)絡(luò)新聞采用了更吸引人眼球的標(biāo)題黨,并沒有反映文本的主題,因此加入與標(biāo)題相似度特征的組合模板對(duì)主題線索句識(shí)別有一定的局限性。實(shí)驗(yàn)結(jié)果顯示當(dāng)組合所有特征時(shí),實(shí)驗(yàn)方法能夠識(shí)別出F1值為80%以上的主題句,說明加入語義特征能達(dá)到較好的識(shí)別效果。
表3 特征模板對(duì)比結(jié)果
為了驗(yàn)證CRF模型識(shí)別主題線索句的有效性,以文獻(xiàn)[8]為基準(zhǔn),基準(zhǔn)的方法是結(jié)合中文新聞句子的詞頻、長度、位置及與標(biāo)題的相似度等特征計(jì)算句子的重要性,并進(jìn)一步提取出新聞的主題句。表4給出了本文采用的方法和文獻(xiàn)[8]的對(duì)比情況,這里僅取“烏克蘭局勢動(dòng)蕩(專題1)”“敘利亞局勢持續(xù)動(dòng)蕩(專題2)”“馬來西亞客機(jī)在烏克蘭墜毀(專題3)”三個(gè)新聞專題進(jìn)行驗(yàn)證。
4.3 新聞主題線索提取實(shí)驗(yàn)
利用CRF模型識(shí)別出每篇新聞的主題線索句,并按照第三節(jié)原始線索鏈的構(gòu)造方法進(jìn)行主題線索提取。為了評(píng)測主題線索抽取的有效性,我們將本文方法得到的新聞主題線索與新浪專題下給出的按時(shí)間軸的主題發(fā)展關(guān)鍵點(diǎn)(包括關(guān)鍵時(shí)間點(diǎn)和對(duì)應(yīng)的事件描述)進(jìn)行對(duì)比。我們針對(duì)“烏克蘭局勢動(dòng)蕩”“馬來西亞客機(jī)在烏克蘭墜毀”這兩個(gè)新聞專題將實(shí)驗(yàn)中得到的主題線索和新浪專題給出的參考關(guān)鍵點(diǎn)進(jìn)行對(duì)比。
表4 不同主題語料下的實(shí)驗(yàn)結(jié)果對(duì)比
評(píng)測方式根據(jù)獲取的主題線索的覆蓋率C和準(zhǔn)確率R來衡量。覆蓋率為識(shí)別出的正確的主題線索占新浪參考關(guān)鍵點(diǎn)的比例,反映出本文算法獲取主題線索的能力。準(zhǔn)確率為本文識(shí)別出的正確的主題線索占總的主題線索的比例。由于“烏克蘭局勢動(dòng)蕩”“馬來西亞客機(jī)在烏克蘭墜毀” 這兩個(gè)新聞專題的復(fù)雜性較高,因此產(chǎn)生的主題線索個(gè)數(shù)較多,實(shí)驗(yàn)中我們分別取線索強(qiáng)度較高的前15、20、30個(gè)主題線索進(jìn)行實(shí)驗(yàn)驗(yàn)證。從圖2的實(shí)驗(yàn)結(jié)果可看出,針對(duì)這兩個(gè)新聞專題,當(dāng)取線索強(qiáng)度較高的前20個(gè)主題線索來形成新聞主題的發(fā)展概述,準(zhǔn)確率和覆蓋率都較好。
圖2 新聞主題線索提取實(shí)驗(yàn)評(píng)測結(jié)果
利用線索鏈的線索時(shí)間ti和線索強(qiáng)度VCi可以生成新聞主題的發(fā)展趨勢圖。圖3給出了“敘利亞局勢持續(xù)動(dòng)蕩”新聞專題的主題線索發(fā)展脈絡(luò)圖,圖中的折點(diǎn)就是獲取到的主題線索。從圖3的結(jié)果可以看出,我們的方法不僅可以清晰地發(fā)現(xiàn)新聞的主題線索,而且還能動(dòng)態(tài)地反映新聞主題線索強(qiáng)度變化和發(fā)展趨勢。相比于新浪專題按時(shí)間軸給出新聞主題的關(guān)鍵時(shí)間點(diǎn)及對(duì)應(yīng)的事件描述,我們的方法能自動(dòng)化地從大量相關(guān)新聞中挖掘出新聞的主題線索,同時(shí)還能表現(xiàn)出整個(gè)主題的動(dòng)態(tài)發(fā)展趨勢。
本文針對(duì)網(wǎng)絡(luò)上同一主題的大量相關(guān)新聞進(jìn)行研究,提出了一種基于條件隨機(jī)場模型的網(wǎng)絡(luò)新聞主題線索發(fā)掘方法。該方法首先利用條件隨機(jī)場模型提取出主題線索句,然后以時(shí)間詞為線索特征構(gòu)建主題線索鏈,最后對(duì)語義相近的線索鏈進(jìn)行合并處理,獲得新聞主題發(fā)展脈絡(luò),解決了目前話題演化和事件抽取研究中無法實(shí)現(xiàn)關(guān)于同一主題的新聞線索發(fā)展脈絡(luò)的問題。實(shí)驗(yàn)結(jié)果表明該方法在主題線索句識(shí)別和新聞主題線索構(gòu)建上有著良好的效果。但是仍有需要進(jìn)一步研究的地方,包括: (1)在利用CRF模型識(shí)別主題線索句時(shí),要擴(kuò)大訓(xùn)練語料庫的規(guī)模,并進(jìn)一步完善語義特征,以改進(jìn)模型的效率,提高識(shí)別的準(zhǔn)確率;(2)在語料選取上考慮收集多來源即多個(gè)網(wǎng)站上的網(wǎng)絡(luò)新聞,并將網(wǎng)站的權(quán)威度及新聞時(shí)效性、可信度等因素加入到線索強(qiáng)度中,從而使新聞的主題線索抽取研究更加完善。
圖3 新聞主題線索發(fā)展脈絡(luò)圖
[1]ZhangXiaoyan,WangTing.Topictrackingwithimprovedrepresentationmodelandjointtrackingmethod[J].InternationalJournalofWavelets,Multi-resolutionandInformationProcessing, 2010, 8(6): 913-930.
[2]AdamsPH,MartellCH.Topicdetectionandextractioninchat[C]//ProceedingsofIEEEInternationalConferenceonSemanticComputing.LosAlamitos,CA,2008: 581-588.
[3]BleiD,NgA,JordanM.Latentdirichletallocation[J].JournalofMachineLearningResearch, 2003(3): 993-1022.
[4] 單斌,李芳.基于LDA話題演化研究方法綜述[J].中文信息學(xué)報(bào), 2010,24(6): 43-49.
[5]YanZehua,LiFang.Threadlabelingfornewsevent[J].JournalofShanghaiJiaotongUniversity(Science),2013,18(4): 418-424.
[6]SmritiSharma,RajeshKumar.Newseventextractionusing5w1Happroach&itsanalysis[J].InternationalJournalofScientific&EngineeringResearch,2013,4(5): 2064-2068.
[7]ZhaoC,YiD.Textresourceemergence:discoveringevolutionaryeventpatternsfromwebtexts.Kybernetes, 2012, 41(9): 1386-1395.
[8] 王偉,趙東巖,趙偉.中文新聞關(guān)鍵事件的主題句識(shí)別[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,47(5): 789-796
[9] 梁晗, 陳群秀等. 基于事件框架的信息抽取系統(tǒng)[J]. 中文信息學(xué)報(bào), 2006, 20(2): 40-46.
[10] 呂楠, 羅軍勇等. 一種有效的事件演化分析算法[J]. 計(jì)算機(jī)應(yīng)用研究, 2009, 26(11): 4101-4104.
[11] 吳曉峰, 宗成慶. 一種基于LDA的CRF自動(dòng)文摘方法[J]. 中文信息學(xué)報(bào), 2009, 23(6): 39-45.
[12] 張龍凱, 王厚峰. 文本摘要問題中的句子抽取方法研究[J]. 中文信息學(xué)報(bào), 2012, 26(2): 98-101.
[13]NenkovaA,McKeownK.Asurveyoftextsummarizationtechniques[M].CharuCAqyarwal,ChenXingZhai.MiningTextData.SpringerUS, 2012: 43-76.
[14]ShenDou,SunJiantao,LiHuaetal.Documentsummarizationusingconditionalrandomfields[C]//Proceedingsofthe20thinternationaljointconferenceonartificialintelligence, 2007: 2862-2867.
[15]SuttonC,McCallumA.Anintroductiontoconditionalrandomfields[J].MachineLearning, 2011, 4(4): 267-373.
TopicCluesExtractionofNetworkNewsBasedonConditionalRandomFields
XU Jing1,2, YANG Xiaoping1
(1. School of Information, Renmin University of China, Beijing 100872, China; 2. Computer Department, China Women’s University, Beijing 100101, China)
To accurately find out the clues of the same topic from a large number of Web news, a method of topic clues mining is proposed based on the Conditional Random Fields model. Firstly, according to the identification rules of the topic sentence, the relative characteristics were extracted and utilized on the Conditional Random Field model to get the candidate topic sentences. Then the lexical chains of topic clues were built by chronological order and lexical weight. Finally the similar clue chains in semantic needed to be merged and the whole development context of network news can be described. The experiment results show the method proposed achieves a good performance on the topic clue sentence extraction and the topic clue chains obtained can clearly show the development trend of network news.
topic clue; conditional random fields; clue chain
徐靜(1980—),博士,講師,主要研究領(lǐng)域?yàn)閃eb可用性評(píng)估,語義分析。
楊小平(1956—),博士,教授,主要研究領(lǐng)域?yàn)樾畔⑾到y(tǒng)工程。
1003-0077(2017)03-0094-07
2015-06-05定稿日期: 2015-12-07
國家自然科學(xué)基金(71271209);北京市自然科學(xué)基金(4132067);教育部人文社會(huì)科學(xué)青年基金(11YJC630268)
TP391
: A