亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于線索特征的Web信息時效性評價方法

2018-12-14 05:26:24楊小平

計算機(jī)應(yīng)用 2018年11期

徐靜，楊小平

(1.中華女子學(xué)院計算機(jī)系，北京 100101； 2.中國人民大學(xué) 信息學(xué)院，北京 100872)(*通信作者電子郵箱xujingtyt@126.com)

0 引言

網(wǎng)絡(luò)的快速發(fā)展使得Web成為人們獲取信息的重要來源。面對日益增長的網(wǎng)頁數(shù)量，人們已不再滿足于從Web上獲取大量相關(guān)信息，而是希望能得到高質(zhì)量、高可用性的Web信息。由于Web的開放性，使得Web信息本身具有海量、數(shù)據(jù)多來源、主題動態(tài)變化等特征，而這些特征引起的數(shù)據(jù)時效性問題是當(dāng)前大數(shù)據(jù)時代下Web信息質(zhì)量管理所關(guān)注的重要內(nèi)容之一。

Web信息時效性是指Web站點(diǎn)發(fā)布的信息在某一特定時間內(nèi)具有的價值和效應(yīng)，它包含兩個方面的內(nèi)容：一是Web信息發(fā)布的及時性，及時性是指從事實發(fā)生到實時信息發(fā)布的時間距離，通常情況下，時間距離越短，說明Web信息更新越及時；二是指Web信息所描述的客觀事實內(nèi)容的新鮮性，內(nèi)容新鮮性是指能夠為人們提供新的信息或信息發(fā)展的新情況。在信息時代的背景下，Web站點(diǎn)發(fā)布的大量信息是否能夠反映當(dāng)前關(guān)注的熱點(diǎn)，是否能夠及時發(fā)布事件的最新進(jìn)展情況，對Web站點(diǎn)的可用性有重大影響。

1 相關(guān)工作

在大數(shù)據(jù)時代下，數(shù)據(jù)質(zhì)量問題受到極大關(guān)注，而數(shù)據(jù)質(zhì)量的各個維度中，時效性問題是影響數(shù)據(jù)可用性的重要因素之一。時效性差的數(shù)據(jù)會對企業(yè)決策和人們的日常生活產(chǎn)生許多不利影響，這使得判定數(shù)據(jù)的時效性成為必要。

當(dāng)前的時效性判定研究大致分為兩類：一是基于時間戳的時效性判定[1-2]，這類方法要求每個待判定的值都具備完整可用的時間戳，但在實際的應(yīng)用數(shù)據(jù)庫中，往往會缺失一些有效、精確的時間戳；二是基于規(guī)則的時效性判定[3-4]，這類方法借助由領(lǐng)域知識得到的規(guī)則判斷同一實體的不同屬性值的時序關(guān)系，從而判定數(shù)據(jù)的時效性，這種方法無法判定某個值在給定的時間點(diǎn)是否失效。由此看來，當(dāng)前數(shù)據(jù)質(zhì)量領(lǐng)域?qū)τ跁r效性的判定研究已經(jīng)有一些不同角度的較為成型的理論和方法，但受到Web信息這種半結(jié)構(gòu)化數(shù)據(jù)的制約，當(dāng)前的方法還不能完全應(yīng)用于Web信息的時效性判定。

目前，針對Web信息時效性的相關(guān)工作都集中在對Web上的新聞發(fā)布時間的抽取研究[5-6]：文獻(xiàn)[7]通過從新聞搜索引擎返回的每個新聞片段中自動抽取其發(fā)布時間，以幫助判別兩個新聞內(nèi)容是否指的是同一個事件；文獻(xiàn)[8]為了準(zhǔn)確提取互聯(lián)網(wǎng)上信息報道的最早發(fā)布時間，提出鏈接分析法和多拷貝聯(lián)合推斷法以提高計算精度；文獻(xiàn)[9]針對網(wǎng)頁更新時間不穩(wěn)定以至于較難預(yù)測新聞報道的更新時間的問題，提出了一個綜合預(yù)測方法，即結(jié)合指數(shù)平滑法和樸素貝葉斯模型對新聞的更新時間進(jìn)行預(yù)測。上述方法都側(cè)重于信息報道的最早發(fā)布或更新時間的抽取，這種評價方法過于單一且不夠充分衡量信息的時效性。由于對Web信息內(nèi)容中的事件屬性特征提取及事件發(fā)展演化研究得不充分，使得目前還沒有研究從語義內(nèi)容上去考慮報道所描述的客觀事實的發(fā)生時間的時效性。

本文在利用條件隨機(jī)場(Conditional Random Field, CRF)模型識別主題線索句的基礎(chǔ)上，以時間詞為線索特征，從大量主題線索句集合中提取隱含的多條線索，并得到與Web信息相關(guān)的同一主題的線索發(fā)展趨勢[10]。利用線索發(fā)展趨勢推斷的主題線索時間區(qū)間能夠估計該Web信息的有效區(qū)間，將每個時間與相應(yīng)的線索關(guān)聯(lián)起來，形成一個有邏輯關(guān)系的時間-線索片段。在此基礎(chǔ)上，結(jié)合Web信息的發(fā)布時間、核心事件發(fā)生時間，對其內(nèi)容時效性進(jìn)行自動化評價。

2 Web信息時效性評價模型

Web信息時效性評價模型需要經(jīng)過文本內(nèi)容預(yù)處理、時間-線索集提取、時效性區(qū)間計算和內(nèi)容時效性評估幾個步驟完成。圖1給出了內(nèi)容時效性評估方法的具體流程。

圖1 Web信息時效性評估框架

2.1 文本內(nèi)容預(yù)處理

首先對從網(wǎng)絡(luò)上抽取到的新聞頁面進(jìn)行預(yù)處理，主要包括新聞標(biāo)題、正文內(nèi)容的提取，并對正文內(nèi)容進(jìn)行中文分詞、詞性標(biāo)注、句子切分等。

對于一個新聞專題，該專題有一組相關(guān)新聞文章，將一篇網(wǎng)絡(luò)新聞的正文看成是一篇文檔，可以表示成一個觀測到的句子序列S=(s1,s2,…,si,…,sm)，m為句子的個數(shù)，將觀測序列中的相關(guān)特征(包括文本基本特征、詞典特征和語義特征)加入到CRF模型中，產(chǎn)生可識別主題線索句的標(biāo)注序列。

2.2 時間-線索集提取

利用條件隨機(jī)場(CRF)模型識別出每篇新聞文章的主題線索句，在此基礎(chǔ)上提取與主題相關(guān)的時間-線索集合。線索中最重要的部分是時間。主題線索句中的實詞(可稱為線索關(guān)鍵詞)在語義上也可表示線索與新聞主題的相關(guān)度, 因此，一條線索可以用與線索相關(guān)的時間和關(guān)鍵詞來表示。

考慮到主題相關(guān)的網(wǎng)絡(luò)新聞可能會被抽取出相似的主題線索句，進(jìn)而形成冗余的線索, 因此，要將時間上一致、語義上相近的線索進(jìn)行分析及合并處理。對于任意兩條線索，當(dāng)Δt=ti-ti-1≤(tn-t1)/n時，采用歐氏距離對線索間的相似度進(jìn)行計算：

(1)

其中:ti為線索OCi對應(yīng)的時間，即該線索的發(fā)生時間，當(dāng)任意兩條線索的時間間隔小于平均時間間隔時，對這兩條線索間的語義相似度進(jìn)行計算;cωij表示線索OCi中的實詞wj的權(quán)重值。當(dāng)dist(OCi,OCj)小于閾值α?xí)r，認(rèn)為兩條線索OCi和OCj是相似的，可以對這兩條線索進(jìn)行合并處理。

對于構(gòu)建好的時間-線索集按照時間先后進(jìn)行排序，并根據(jù)時間順序得到了該新聞的線索發(fā)展脈絡(luò)。為了更好地表征每條線索與主題的相關(guān)程度，利用線索的發(fā)生時間和其強(qiáng)度來表示主題線索的發(fā)展趨勢，線索的強(qiáng)度由每一條線索上所包含的關(guān)鍵詞權(quán)重平均值以及該線索來源的文本數(shù)量決定。線索OCi的強(qiáng)度VCi的計算公式如下：

(2)

其中：k為線索語義合并后剩下的線索個數(shù);di表示線索OCi的來源文本數(shù)量，即該線索是經(jīng)過多少條候選線索合并而成的。

2.3 時效性區(qū)間計算

Web信息的時效性從兩個方面進(jìn)行評價：一是判斷此Web信息的主題內(nèi)容發(fā)生時間在有效區(qū)間的相對位置; 二是判斷此Web信息的發(fā)布時間距離有效區(qū)間的時間長度。信息具有時效性的時間區(qū)間，稱為有效區(qū)間。一般地，處在該區(qū)間的Web信息內(nèi)容是較新穎的。

利用與Web信息主題相關(guān)的線索發(fā)展脈絡(luò)可以獲得整個主題的線索時間區(qū)間{ct1,ct2,…,ctn}，由此可知主題線索的最早發(fā)生時間為ct1，主題線索的最終結(jié)束時間為ctn，圖2給出了主題線索的時間軸。

圖2 主題線索時間軸

根據(jù)內(nèi)容時效性的評價準(zhǔn)則，將Web信息時效性評估結(jié)果分為以下3種情況：

1)發(fā)布不及時且內(nèi)容新鮮度不好，即該Web信息的有效區(qū)間(et1,etm)處于主題線索時間軸的初始位置，說明Web信息描述的客觀事實是不新鮮的；而且發(fā)布時間pt和有效區(qū)間的距離較遠(yuǎn)，說明Web信息發(fā)布不及時。這種情況屬于圖2中的情況1。

2)發(fā)布及時但內(nèi)容新鮮度不好，即該Web信息的有效區(qū)間(et1,etm)處于主題線索時間軸的初始或中間位置，說明Web信息描述的客觀事實是不新鮮的；但是發(fā)布時間pt和有效區(qū)間的距離較近，說明Web信息發(fā)布及時。這種情況屬于圖2中的情況2。

3)發(fā)布及時且內(nèi)容較新鮮的，即該Web信息的有效區(qū)間(et1,etm)處于主題線索時間軸的靠后或結(jié)束位置，說明Web信息描述的客觀事實是較新鮮的；而且發(fā)布時間pt和有效區(qū)間的距離較近，說明Web信息發(fā)布及時。這種情況屬于圖2中的情況3。

通過借助區(qū)間估計理論，在主題線索時間軸上確定Web信息的有效區(qū)間。根據(jù)線索時間區(qū)間{ct1,ct2,…,ctn}，確定θ1=θ1(ct1,ct2,…,ctn)，θ2=θ2(ct1,ct2,…,ctn)，其中θ1<θ2，[θ1,θ2]為Web信息有效區(qū)間。設(shè)θ是Web信息主題線索中的一個中心線索時間，若存在[θ1,θ2]，對于給定的0<α<1，若滿足P{θ1≤θ≤θ2}=1-α，稱[θ1,θ2]是θ的置信度為1-α的有效區(qū)間，θ1和θ2分別為有效區(qū)間的時間下限和時間上限，1-α為置信度。一般地，認(rèn)為Web信息的中心線索必然落在主題線索時間區(qū)間內(nèi)，因此給定置信度1-α=0.95。

(3)

則:

1-α

(4)

2.4 內(nèi)容時效性評價

借助2.3節(jié)的方法，可以得到與Web信息同一主題的整個線索發(fā)展情況，因此就可獲得整個主題的線索時間區(qū)間{ct1,ct2,…,ctn}，而Web信息的有效區(qū)間必定是被包含在這個時間區(qū)間中的。對于Web信息的時效性，可以從兩個方面進(jìn)行衡量：一是Web信息發(fā)布的及時性，判斷此Web信息的發(fā)布時間距離有效區(qū)間的時間長度，一般情況下，這個時間距離越短，說明Web信息更新越及時；二是Web信息內(nèi)容的新鮮性，判斷此Web信息的中心線索在主題線索時間區(qū)間中的相對位置。

為了獲得Web信息的中心線索，通過計算Web信息有效區(qū)間中的每一條線索與主題線索發(fā)展趨勢中每條線索的語義距離。在計算語義距離的過程中，選取文本相似度和時間差兩個維度計算語義距離。一般來說，選取語義上與Web信息比較相關(guān)，時間差也較小的主題線索。采用歐幾里得距離函數(shù)來計算線索間的語義距離CD:

(5)

其中:Δs=(1-s)表示W(wǎng)eb信息線索間的差距，s為線索之間的相似度，Δt2表示時間差值,ω表示權(quán)重系數(shù)。可以看出CD越小，線索之間的語義距離越小，線索之間的關(guān)聯(lián)程度也就越大。

將關(guān)聯(lián)程度最大的線索作為Web信息的中心線索，從Web信息有效區(qū)間中找到中心線索及其對應(yīng)的時間，并利用式(6)對Web信息時效性參考值進(jìn)行計算：

(6)

其中:ctn表示線索時間區(qū)間的結(jié)束時間，ct1表示線索時間區(qū)間的開始時間；eti表示中心線索的發(fā)生時間，etm表示W(wǎng)eb信息有效區(qū)間的結(jié)束時間，pt表示W(wǎng)eb信息的發(fā)布時間。

通過上述方法對Web信息內(nèi)容時效性進(jìn)行量化，并根據(jù)量化后的參考值給Web信息內(nèi)容時效性進(jìn)行評價：

1)當(dāng)0.8≤V(t)≤1，認(rèn)為Web信息時效性良好，不僅描述的客觀事實內(nèi)容較新鮮，發(fā)布也很及時。

2)當(dāng)0.5≤V(t)<0.8，認(rèn)為Web信息時效性中等，雖然描述的客觀事實內(nèi)容新鮮度不好，但能夠發(fā)布及時。

3)當(dāng)0≤V(t)<0.5，認(rèn)為Web信息時效性較差，不僅描述的客觀事實內(nèi)容不新鮮，且發(fā)布也不及時。

3 實驗結(jié)果分析

Web信息內(nèi)容時效性評估方法以構(gòu)建自動生成Web信息有效區(qū)間為核心，利用線索發(fā)展趨勢推斷的主題線索時間區(qū)間估計該Web信息的有效區(qū)間，結(jié)合Web信息的發(fā)布時間和核心事件發(fā)生時間對其內(nèi)容時效性進(jìn)行定量分析。依據(jù)提出的Web信息時效性等級劃分規(guī)則，對所有正確提取文本內(nèi)容的Web信息進(jìn)行分級，最后獲得總體評價效果。

為了驗證本文算法的有效性，從新浪新聞、網(wǎng)易新聞、新華報業(yè)網(wǎng)、廣西新聞網(wǎng)和首都之窗5個網(wǎng)站隨機(jī)抽取了共10 889個網(wǎng)頁作為實驗語料，進(jìn)行Web信息內(nèi)容時效性驗證。

3.1 線索識別相關(guān)實驗

由于人工標(biāo)注的局限性，僅對新浪新聞、網(wǎng)易新聞中的專題新聞“人民幣匯率持續(xù)貶值”“烏克蘭局勢動蕩”“四川雅安7.0級地震”“敘利亞局勢持續(xù)動蕩”以及首都之窗“2018高考”共5個主題2 720篇新聞進(jìn)行主題線索句識別的實驗驗證。實驗前先手工標(biāo)注出這些新聞的主題線索句，且實驗中假設(shè)這些標(biāo)注全部為正確標(biāo)注。將所有語料分為兩部分，其中2 040篇作為訓(xùn)練語料，其余680篇作為測試數(shù)據(jù)集合。在數(shù)據(jù)預(yù)處理部分對文本分詞、詞性標(biāo)注等使用了中國科學(xué)院的分詞工具ICTCLAS，并運(yùn)用 CRF++v0.53進(jìn)行主題線索句的識別。

對于識別性能進(jìn)行評測時，采用準(zhǔn)確率(P)、召回率(R)、綜合指標(biāo)F1值(F1)三個指標(biāo)來進(jìn)行評價。在訓(xùn)練CRF模型進(jìn)行主題線索句識別時，選用了多個特征組合的復(fù)合特征模板。為了驗證CRF模型識別主題線索句的有效性，以文獻(xiàn)[11]為baseline，baseline的方法是結(jié)合中文新聞句子的詞頻、長度、位置以及與標(biāo)題的相似度等特征計算句子的重要性，并進(jìn)一步提取出新聞的主題句。表1給出了本文方法和文獻(xiàn)[11]方法的對比情況。

表1 兩種方法在不同主題語料下的實驗結(jié)果對比

3.2 時效性評價實驗

為了獲取內(nèi)容新鮮度和發(fā)布及時性兩個指標(biāo)對于Web信息時效性評價的影響大小，對影響因子α和β的值作了不同的設(shè)置并進(jìn)行實驗驗證。由于之前沒有其他工作給出針對Web信息時效性評價的算法，所以本節(jié)實驗中對篩選出的時效性較差的網(wǎng)頁進(jìn)行人工對比驗證。表2是當(dāng)內(nèi)容新鮮度和發(fā)布及時性的影響因子在不同設(shè)置下的對比結(jié)果，采用準(zhǔn)確率(P)、召回率(R)、綜合指標(biāo)F1值(F1)三個指標(biāo)來進(jìn)行評價。

表2 不同影響因子時實驗結(jié)果對比

通過上述實驗，可以認(rèn)為內(nèi)容新鮮度和發(fā)布及時性對于Web信息時效性評估具有同樣重要的作用，因此在后面實驗中設(shè)定α=β=0.5。

對新浪新聞、網(wǎng)易新聞、新華報業(yè)網(wǎng)、廣西新聞網(wǎng)和首都之窗5個網(wǎng)站隨機(jī)抽取的網(wǎng)頁進(jìn)行內(nèi)容時效性驗證，評估結(jié)果如表3所示。

表3 網(wǎng)站時效性評估結(jié)果

根據(jù)實驗結(jié)果得到的時效性良好(指位于0.8～1.0區(qū)間)的Web信息所占的數(shù)量比對評價量化值進(jìn)行等級劃分，見表4。

表4 內(nèi)容時效性評價等級劃分

從實驗結(jié)果可以看出這5個網(wǎng)站中有9 583個網(wǎng)頁新聞的內(nèi)容時效性良好，占正確評估新聞總數(shù)的87%, 這是因為實驗選擇的大部分新聞是來自專業(yè)的新聞發(fā)布網(wǎng)站和知名門戶網(wǎng)站，這些網(wǎng)站的新聞發(fā)布和更新都比較及時，能夠準(zhǔn)確地反映當(dāng)前社會關(guān)注熱點(diǎn)和事件的最新發(fā)展情況。而時效性為0的新聞網(wǎng)頁有379個，占總數(shù)的3.5%，這是由于選取了首都之窗網(wǎng)站中教育培訓(xùn)欄目下的321條新聞作為部分語料，而該欄目下的很多新聞都是未及時更新的，有些甚至是5年前的新聞，故時效性很差，導(dǎo)致時效性為0的網(wǎng)頁所占的總體比例稍大?？傮w來說，得到的評估結(jié)果符合先前估計和實際的情況，基本能夠正確反映網(wǎng)頁新聞及其發(fā)布網(wǎng)站的時效性狀況。

從評估結(jié)果來看，專業(yè)新聞網(wǎng)站如新華報業(yè)，新聞信息的時效性最好，網(wǎng)站發(fā)布的新聞基本為當(dāng)前關(guān)注的熱點(diǎn)。主流的門戶網(wǎng)站如新浪網(wǎng)和網(wǎng)易提供的新聞時效性良好，絕大多數(shù)網(wǎng)頁都有很好的時效性，能夠為用戶提供熱點(diǎn)新聞和有效信息。中小型新聞網(wǎng)站如廣西新聞網(wǎng)則有讓人滿意的時效性，這類網(wǎng)站可以為用戶提供時事熱點(diǎn)新聞，但又存在著一些沒有及時更新的新聞，在一定程度上影響了網(wǎng)站的整體時效性等級，進(jìn)而影響其Web可用性。政府類網(wǎng)站如首都之窗，則時效性較差，網(wǎng)站上存在的過時信息很多，同時還有很多無效鏈接; 這些問題嚴(yán)重影響了Web可用性，導(dǎo)致用戶使用電子政務(wù)網(wǎng)站的意愿不強(qiáng)。

4 結(jié)語

本文針對Web站點(diǎn)發(fā)布的信息時效性進(jìn)行研究，提出了一種基于線索特征的Web信息時效性評價方法，解決了目前無法從語義上去判斷Web上發(fā)布的信息報道的時效性問題。實驗結(jié)果表明該方法能對Web信息內(nèi)容的時效特征進(jìn)行評估，能夠有效評價Web信息的價值，為提高Web可用性作出相應(yīng)指導(dǎo)。但是仍有需要進(jìn)一步研究的地方，包括：1)在利用CRF模型識別主題線索句時，要擴(kuò)大訓(xùn)練語料庫的規(guī)模，并進(jìn)一步完善語義特征，以改進(jìn)模型的效率，提高識別的準(zhǔn)確率；2)在語料選取上考慮收集多來源即多個網(wǎng)站上的Web信息，使時效性評價方法研究更加完善。