亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于線索特征的Web信息時效性評價方法

        2018-12-14 05:26:24楊小平
        計算機(jī)應(yīng)用 2018年11期
        關(guān)鍵詞:時效性區(qū)間內(nèi)容

        徐 靜,楊小平

        (1.中華女子學(xué)院 計算機(jī)系,北京 100101; 2.中國人民大學(xué) 信息學(xué)院,北京 100872)(*通信作者電子郵箱xujingtyt@126.com)

        0 引言

        網(wǎng)絡(luò)的快速發(fā)展使得Web成為人們獲取信息的重要來源。面對日益增長的網(wǎng)頁數(shù)量,人們已不再滿足于從Web上獲取大量相關(guān)信息,而是希望能得到高質(zhì)量、高可用性的Web信息。由于Web的開放性,使得Web信息本身具有海量、數(shù)據(jù)多來源、主題動態(tài)變化等特征,而這些特征引起的數(shù)據(jù)時效性問題是當(dāng)前大數(shù)據(jù)時代下Web信息質(zhì)量管理所關(guān)注的重要內(nèi)容之一。

        Web信息時效性是指Web站點(diǎn)發(fā)布的信息在某一特定時間內(nèi)具有的價值和效應(yīng),它包含兩個方面的內(nèi)容:一是Web信息發(fā)布的及時性,及時性是指從事實發(fā)生到實時信息發(fā)布的時間距離,通常情況下,時間距離越短,說明Web信息更新越及時;二是指Web信息所描述的客觀事實內(nèi)容的新鮮性,內(nèi)容新鮮性是指能夠為人們提供新的信息或信息發(fā)展的新情況。在信息時代的背景下,Web站點(diǎn)發(fā)布的大量信息是否能夠反映當(dāng)前關(guān)注的熱點(diǎn),是否能夠及時發(fā)布事件的最新進(jìn)展情況,對Web站點(diǎn)的可用性有重大影響。

        1 相關(guān)工作

        在大數(shù)據(jù)時代下,數(shù)據(jù)質(zhì)量問題受到極大關(guān)注,而數(shù)據(jù)質(zhì)量的各個維度中,時效性問題是影響數(shù)據(jù)可用性的重要因素之一。時效性差的數(shù)據(jù)會對企業(yè)決策和人們的日常生活產(chǎn)生許多不利影響,這使得判定數(shù)據(jù)的時效性成為必要。

        當(dāng)前的時效性判定研究大致分為兩類:一是基于時間戳的時效性判定[1-2],這類方法要求每個待判定的值都具備完整可用的時間戳,但在實際的應(yīng)用數(shù)據(jù)庫中,往往會缺失一些有效、精確的時間戳; 二是基于規(guī)則的時效性判定[3-4],這類方法借助由領(lǐng)域知識得到的規(guī)則判斷同一實體的不同屬性值的時序關(guān)系,從而判定數(shù)據(jù)的時效性,這種方法無法判定某個值在給定的時間點(diǎn)是否失效。由此看來,當(dāng)前數(shù)據(jù)質(zhì)量領(lǐng)域?qū)τ跁r效性的判定研究已經(jīng)有一些不同角度的較為成型的理論和方法,但受到Web信息這種半結(jié)構(gòu)化數(shù)據(jù)的制約,當(dāng)前的方法還不能完全應(yīng)用于Web信息的時效性判定。

        目前,針對Web信息時效性的相關(guān)工作都集中在對Web上的新聞發(fā)布時間的抽取研究[5-6]:文獻(xiàn)[7]通過從新聞搜索引擎返回的每個新聞片段中自動抽取其發(fā)布時間,以幫助判別兩個新聞內(nèi)容是否指的是同一個事件;文獻(xiàn)[8]為了準(zhǔn)確提取互聯(lián)網(wǎng)上信息報道的最早發(fā)布時間,提出鏈接分析法和多拷貝聯(lián)合推斷法以提高計算精度;文獻(xiàn)[9]針對網(wǎng)頁更新時間不穩(wěn)定以至于較難預(yù)測新聞報道的更新時間的問題,提出了一個綜合預(yù)測方法,即結(jié)合指數(shù)平滑法和樸素貝葉斯模型對新聞的更新時間進(jìn)行預(yù)測。上述方法都側(cè)重于信息報道的最早發(fā)布或更新時間的抽取,這種評價方法過于單一且不夠充分衡量信息的時效性。由于對Web信息內(nèi)容中的事件屬性特征提取及事件發(fā)展演化研究得不充分,使得目前還沒有研究從語義內(nèi)容上去考慮報道所描述的客觀事實的發(fā)生時間的時效性。

        本文在利用條件隨機(jī)場(Conditional Random Field, CRF)模型識別主題線索句的基礎(chǔ)上,以時間詞為線索特征,從大量主題線索句集合中提取隱含的多條線索,并得到與Web信息相關(guān)的同一主題的線索發(fā)展趨勢[10]。利用線索發(fā)展趨勢推斷的主題線索時間區(qū)間能夠估計該Web信息的有效區(qū)間,將每個時間與相應(yīng)的線索關(guān)聯(lián)起來,形成一個有邏輯關(guān)系的時間-線索片段。在此基礎(chǔ)上,結(jié)合Web信息的發(fā)布時間、核心事件發(fā)生時間,對其內(nèi)容時效性進(jìn)行自動化評價。

        2 Web信息時效性評價模型

        Web信息時效性評價模型需要經(jīng)過文本內(nèi)容預(yù)處理、時間-線索集提取、時效性區(qū)間計算和內(nèi)容時效性評估幾個步驟完成。圖1給出了內(nèi)容時效性評估方法的具體流程。

        圖1 Web信息時效性評估框架

        2.1 文本內(nèi)容預(yù)處理

        首先對從網(wǎng)絡(luò)上抽取到的新聞頁面進(jìn)行預(yù)處理,主要包括新聞標(biāo)題、正文內(nèi)容的提取,并對正文內(nèi)容進(jìn)行中文分詞、詞性標(biāo)注、句子切分等。

        對于一個新聞專題,該專題有一組相關(guān)新聞文章,將一篇網(wǎng)絡(luò)新聞的正文看成是一篇文檔,可以表示成一個觀測到的句子序列S=(s1,s2,…,si,…,sm),m為句子的個數(shù),將觀測序列中的相關(guān)特征(包括文本基本特征、詞典特征和語義特征)加入到CRF模型中,產(chǎn)生可識別主題線索句的標(biāo)注序列。

        2.2 時間-線索集提取

        利用條件隨機(jī)場(CRF)模型識別出每篇新聞文章的主題線索句,在此基礎(chǔ)上提取與主題相關(guān)的時間-線索集合。線索中最重要的部分是時間。主題線索句中的實詞(可稱為線索關(guān)鍵詞)在語義上也可表示線索與新聞主題的相關(guān)度, 因此,一條線索可以用與線索相關(guān)的時間和關(guān)鍵詞來表示。

        考慮到主題相關(guān)的網(wǎng)絡(luò)新聞可能會被抽取出相似的主題線索句,進(jìn)而形成冗余的線索, 因此,要將時間上一致、語義上相近的線索進(jìn)行分析及合并處理。對于任意兩條線索,當(dāng)Δt=ti-ti-1≤(tn-t1)/n時,采用歐氏距離對線索間的相似度進(jìn)行計算:

        (1)

        其中:ti為線索OCi對應(yīng)的時間,即該線索的發(fā)生時間,當(dāng)任意兩條線索的時間間隔小于平均時間間隔時,對這兩條線索間的語義相似度進(jìn)行計算;cωij表示線索OCi中的實詞wj的權(quán)重值。當(dāng)dist(OCi,OCj)小于閾值α?xí)r,認(rèn)為兩條線索OCi和OCj是相似的,可以對這兩條線索進(jìn)行合并處理。

        對于構(gòu)建好的時間-線索集按照時間先后進(jìn)行排序,并根據(jù)時間順序得到了該新聞的線索發(fā)展脈絡(luò)。為了更好地表征每條線索與主題的相關(guān)程度,利用線索的發(fā)生時間和其強(qiáng)度來表示主題線索的發(fā)展趨勢,線索的強(qiáng)度由每一條線索上所包含的關(guān)鍵詞權(quán)重平均值以及該線索來源的文本數(shù)量決定。線索OCi的強(qiáng)度VCi的計算公式如下:

        (2)

        其中:k為線索語義合并后剩下的線索個數(shù);di表示線索OCi的來源文本數(shù)量,即該線索是經(jīng)過多少條候選線索合并而成的。

        2.3 時效性區(qū)間計算

        Web信息的時效性從兩個方面進(jìn)行評價:一是判斷此Web信息的主題內(nèi)容發(fā)生時間在有效區(qū)間的相對位置; 二是判斷此Web信息的發(fā)布時間距離有效區(qū)間的時間長度。信息具有時效性的時間區(qū)間,稱為有效區(qū)間。一般地,處在該區(qū)間的Web信息內(nèi)容是較新穎的。

        利用與Web信息主題相關(guān)的線索發(fā)展脈絡(luò)可以獲得整個主題的線索時間區(qū)間{ct1,ct2,…,ctn},由此可知主題線索的最早發(fā)生時間為ct1,主題線索的最終結(jié)束時間為ctn,圖2給出了主題線索的時間軸。

        圖2 主題線索時間軸

        根據(jù)內(nèi)容時效性的評價準(zhǔn)則,將Web信息時效性評估結(jié)果分為以下3種情況:

        1)發(fā)布不及時且內(nèi)容新鮮度不好,即該Web信息的有效區(qū)間(et1,etm)處于主題線索時間軸的初始位置,說明Web信息描述的客觀事實是不新鮮的;而且發(fā)布時間pt和有效區(qū)間的距離較遠(yuǎn),說明Web信息發(fā)布不及時。這種情況屬于圖2中的情況1。

        2)發(fā)布及時但內(nèi)容新鮮度不好,即該Web信息的有效區(qū)間(et1,etm)處于主題線索時間軸的初始或中間位置,說明Web信息描述的客觀事實是不新鮮的;但是發(fā)布時間pt和有效區(qū)間的距離較近,說明Web信息發(fā)布及時。這種情況屬于圖2中的情況2。

        3)發(fā)布及時且內(nèi)容較新鮮的,即該Web信息的有效區(qū)間(et1,etm)處于主題線索時間軸的靠后或結(jié)束位置,說明Web信息描述的客觀事實是較新鮮的;而且發(fā)布時間pt和有效區(qū)間的距離較近,說明Web信息發(fā)布及時。這種情況屬于圖2中的情況3。

        通過借助區(qū)間估計理論,在主題線索時間軸上確定Web信息的有效區(qū)間。根據(jù)線索時間區(qū)間{ct1,ct2,…,ctn},確定θ1=θ1(ct1,ct2,…,ctn),θ2=θ2(ct1,ct2,…,ctn),其中θ1<θ2,[θ1,θ2]為Web信息有效區(qū)間。設(shè)θ是Web信息主題線索中的一個中心線索時間,若存在[θ1,θ2],對于給定的0<α<1,若滿足P{θ1≤θ≤θ2}=1-α,稱[θ1,θ2]是θ的置信度為1-α的有效區(qū)間,θ1和θ2分別為有效區(qū)間的時間下限和時間上限,1-α為置信度。一般地,認(rèn)為Web信息的中心線索必然落在主題線索時間區(qū)間內(nèi),因此給定置信度1-α=0.95。

        (3)

        則:

        1-α

        (4)

        2.4 內(nèi)容時效性評價

        借助2.3節(jié)的方法,可以得到與Web信息同一主題的整個線索發(fā)展情況,因此就可獲得整個主題的線索時間區(qū)間{ct1,ct2,…,ctn},而Web信息的有效區(qū)間必定是被包含在這個時間區(qū)間中的。對于Web信息的時效性,可以從兩個方面進(jìn)行衡量:一是Web信息發(fā)布的及時性,判斷此Web信息的發(fā)布時間距離有效區(qū)間的時間長度,一般情況下,這個時間距離越短,說明Web信息更新越及時;二是Web信息內(nèi)容的新鮮性,判斷此Web信息的中心線索在主題線索時間區(qū)間中的相對位置。

        為了獲得Web信息的中心線索,通過計算Web信息有效區(qū)間中的每一條線索與主題線索發(fā)展趨勢中每條線索的語義距離。在計算語義距離的過程中,選取文本相似度和時間差兩個維度計算語義距離。一般來說,選取語義上與Web信息比較相關(guān),時間差也較小的主題線索。采用歐幾里得距離函數(shù)來計算線索間的語義距離CD:

        (5)

        其中:Δs=(1-s)表示W(wǎng)eb信息線索間的差距,s為線索之間的相似度,Δt2表示時間差值,ω表示權(quán)重系數(shù)。可以看出CD越小,線索之間的語義距離越小,線索之間的關(guān)聯(lián)程度也就越大。

        將關(guān)聯(lián)程度最大的線索作為Web信息的中心線索,從Web信息有效區(qū)間中找到中心線索及其對應(yīng)的時間,并利用式(6)對Web信息時效性參考值進(jìn)行計算:

        (6)

        其中:ctn表示線索時間區(qū)間的結(jié)束時間,ct1表示線索時間區(qū)間的開始時間;eti表示中心線索的發(fā)生時間,etm表示W(wǎng)eb信息有效區(qū)間的結(jié)束時間,pt表示W(wǎng)eb信息的發(fā)布時間。

        通過上述方法對Web信息內(nèi)容時效性進(jìn)行量化,并根據(jù)量化后的參考值給Web信息內(nèi)容時效性進(jìn)行評價:

        1)當(dāng)0.8≤V(t)≤1,認(rèn)為Web信息時效性良好,不僅描述的客觀事實內(nèi)容較新鮮,發(fā)布也很及時。

        2)當(dāng)0.5≤V(t)<0.8,認(rèn)為Web信息時效性中等,雖然描述的客觀事實內(nèi)容新鮮度不好,但能夠發(fā)布及時。

        3)當(dāng)0≤V(t)<0.5,認(rèn)為Web信息時效性較差,不僅描述的客觀事實內(nèi)容不新鮮,且發(fā)布也不及時。

        3 實驗結(jié)果分析

        Web信息內(nèi)容時效性評估方法以構(gòu)建自動生成Web信息有效區(qū)間為核心,利用線索發(fā)展趨勢推斷的主題線索時間區(qū)間估計該Web信息的有效區(qū)間,結(jié)合Web信息的發(fā)布時間和核心事件發(fā)生時間對其內(nèi)容時效性進(jìn)行定量分析。依據(jù)提出的Web信息時效性等級劃分規(guī)則,對所有正確提取文本內(nèi)容的Web信息進(jìn)行分級,最后獲得總體評價效果。

        為了驗證本文算法的有效性,從新浪新聞、網(wǎng)易新聞、新華報業(yè)網(wǎng)、廣西新聞網(wǎng)和首都之窗5個網(wǎng)站隨機(jī)抽取了共10 889個網(wǎng)頁作為實驗語料,進(jìn)行Web信息內(nèi)容時效性驗證。

        3.1 線索識別相關(guān)實驗

        由于人工標(biāo)注的局限性,僅對新浪新聞、網(wǎng)易新聞中的專題新聞“人民幣匯率持續(xù)貶值”“烏克蘭局勢動蕩”“四川雅安7.0級地震”“敘利亞局勢持續(xù)動蕩”以及首都之窗“2018高考”共5個主題2 720篇新聞進(jìn)行主題線索句識別的實驗驗證。實驗前先手工標(biāo)注出這些新聞的主題線索句,且實驗中假設(shè)這些標(biāo)注全部為正確標(biāo)注。將所有語料分為兩部分,其中2 040篇作為訓(xùn)練語料,其余680篇作為測試數(shù)據(jù)集合。在數(shù)據(jù)預(yù)處理部分對文本分詞、詞性標(biāo)注等使用了中國科學(xué)院的分詞工具ICTCLAS,并運(yùn)用 CRF++v0.53進(jìn)行主題線索句的識別。

        對于識別性能進(jìn)行評測時,采用準(zhǔn)確率(P)、召回率(R)、綜合指標(biāo)F1值(F1)三個指標(biāo)來進(jìn)行評價。在訓(xùn)練CRF模型進(jìn)行主題線索句識別時,選用了多個特征組合的復(fù)合特征模板。為了驗證CRF模型識別主題線索句的有效性,以文獻(xiàn)[11]為baseline,baseline的方法是結(jié)合中文新聞句子的詞頻、長度、位置以及與標(biāo)題的相似度等特征計算句子的重要性,并進(jìn)一步提取出新聞的主題句。表1給出了本文方法和文獻(xiàn)[11]方法的對比情況。

        表1 兩種方法在不同主題語料下的實驗結(jié)果對比

        3.2 時效性評價實驗

        為了獲取內(nèi)容新鮮度和發(fā)布及時性兩個指標(biāo)對于Web信息時效性評價的影響大小,對影響因子α和β的值作了不同的設(shè)置并進(jìn)行實驗驗證。由于之前沒有其他工作給出針對Web信息時效性評價的算法,所以本節(jié)實驗中對篩選出的時效性較差的網(wǎng)頁進(jìn)行人工對比驗證。表2是當(dāng)內(nèi)容新鮮度和發(fā)布及時性的影響因子在不同設(shè)置下的對比結(jié)果,采用準(zhǔn)確率(P)、召回率(R)、綜合指標(biāo)F1值(F1)三個指標(biāo)來進(jìn)行評價。

        表2 不同影響因子時實驗結(jié)果對比

        通過上述實驗,可以認(rèn)為內(nèi)容新鮮度和發(fā)布及時性對于Web信息時效性評估具有同樣重要的作用,因此在后面實驗中設(shè)定α=β=0.5。

        對新浪新聞、網(wǎng)易新聞、新華報業(yè)網(wǎng)、廣西新聞網(wǎng)和首都之窗5個網(wǎng)站隨機(jī)抽取的網(wǎng)頁進(jìn)行內(nèi)容時效性驗證,評估結(jié)果如表3所示。

        表3 網(wǎng)站時效性評估結(jié)果

        根據(jù)實驗結(jié)果得到的時效性良好(指位于0.8~1.0區(qū)間)的Web信息所占的數(shù)量比對評價量化值進(jìn)行等級劃分,見表4。

        表4 內(nèi)容時效性評價等級劃分

        從實驗結(jié)果可以看出這5個網(wǎng)站中有9 583個網(wǎng)頁新聞的內(nèi)容時效性良好,占正確評估新聞總數(shù)的87%, 這是因為實驗選擇的大部分新聞是來自專業(yè)的新聞發(fā)布網(wǎng)站和知名門戶網(wǎng)站,這些網(wǎng)站的新聞發(fā)布和更新都比較及時,能夠準(zhǔn)確地反映當(dāng)前社會關(guān)注熱點(diǎn)和事件的最新發(fā)展情況。而時效性為0的新聞網(wǎng)頁有379個,占總數(shù)的3.5%,這是由于選取了首都之窗網(wǎng)站中教育培訓(xùn)欄目下的321條新聞作為部分語料,而該欄目下的很多新聞都是未及時更新的,有些甚至是5年前的新聞,故時效性很差,導(dǎo)致時效性為0的網(wǎng)頁所占的總體比例稍大??傮w來說,得到的評估結(jié)果符合先前估計和實際的情況,基本能夠正確反映網(wǎng)頁新聞及其發(fā)布網(wǎng)站的時效性狀況。

        從評估結(jié)果來看,專業(yè)新聞網(wǎng)站如新華報業(yè),新聞信息的時效性最好,網(wǎng)站發(fā)布的新聞基本為當(dāng)前關(guān)注的熱點(diǎn)。主流的門戶網(wǎng)站如新浪網(wǎng)和網(wǎng)易提供的新聞時效性良好,絕大多數(shù)網(wǎng)頁都有很好的時效性,能夠為用戶提供熱點(diǎn)新聞和有效信息。中小型新聞網(wǎng)站如廣西新聞網(wǎng)則有讓人滿意的時效性,這類網(wǎng)站可以為用戶提供時事熱點(diǎn)新聞,但又存在著一些沒有及時更新的新聞,在一定程度上影響了網(wǎng)站的整體時效性等級,進(jìn)而影響其Web可用性。政府類網(wǎng)站如首都之窗,則時效性較差,網(wǎng)站上存在的過時信息很多,同時還有很多無效鏈接; 這些問題嚴(yán)重影響了Web可用性,導(dǎo)致用戶使用電子政務(wù)網(wǎng)站的意愿不強(qiáng)。

        4 結(jié)語

        本文針對Web站點(diǎn)發(fā)布的信息時效性進(jìn)行研究,提出了一種基于線索特征的Web信息時效性評價方法,解決了目前無法從語義上去判斷Web上發(fā)布的信息報道的時效性問題。實驗結(jié)果表明該方法能對Web信息內(nèi)容的時效特征進(jìn)行評估,能夠有效評價Web信息的價值,為提高Web可用性作出相應(yīng)指導(dǎo)。但是仍有需要進(jìn)一步研究的地方,包括:1)在利用CRF模型識別主題線索句時,要擴(kuò)大訓(xùn)練語料庫的規(guī)模,并進(jìn)一步完善語義特征,以改進(jìn)模型的效率,提高識別的準(zhǔn)確率;2)在語料選取上考慮收集多來源即多個網(wǎng)站上的Web信息,使時效性評價方法研究更加完善。

        猜你喜歡
        時效性區(qū)間內(nèi)容
        解兩類含參數(shù)的復(fù)合不等式有解與恒成立問題
        你學(xué)會“區(qū)間測速”了嗎
        內(nèi)容回顧溫故知新
        試析如何確保新聞采訪的真實性和時效性
        新聞傳播(2018年14期)2018-11-13 01:12:52
        主要內(nèi)容
        臺聲(2016年2期)2016-09-16 01:06:53
        荷載預(yù)壓加固吹填土?xí)r效性研究
        區(qū)間對象族的可鎮(zhèn)定性分析
        深部巷道錨網(wǎng)噴注協(xié)調(diào)支護(hù)時效性研究
        當(dāng)下新聞編輯時效性分析
        新聞傳播(2015年10期)2015-07-18 11:05:40
        單調(diào)區(qū)間能否求“并”
        精品国内日本一区二区| 男女在线免费视频网站| 亚洲中文字幕无码爆乳av| 国产成人国产在线观看入口| av超碰在线免费观看| 精品久久杨幂国产杨幂| 国产不卡在线免费视频| 亚洲国产精品成人一区二区三区| 国产蜜桃传媒在线观看| 久久狼精品一区二区三区 | 亚洲香蕉视频| 国产精品亚洲一区二区三区正片| 久久精品国产亚洲av网在| 国产精品老熟女乱一区二区| 国产一区二区自拍刺激在线观看| 亚洲精品中文字幕乱码三区| 国产精品毛片一区二区| 久久人妻少妇嫩草av蜜桃| 色综合一本| 久久久久久久尹人综合网亚洲| 美女一区二区三区在线视频| 丁香婷婷在线成人播放视频| 欧美黑人又大又粗xxxxx| 护士人妻hd中文字幕| 嫩草影院未满十八岁禁止入内| 精品国产高清一区二区广区 | 国产毛片av最新视频| 人妻中文字幕无码系列| 亚洲第一无码xxxxxx| 欧美午夜刺激影院| 在线无码精品秘 在线观看| 手机在线免费看av网站| 综合亚洲二区三区四区在线| 少妇精品亚洲一区二区成人| 人妻丝袜无码国产一区| 黄色毛片视频免费| 放荡人妻一区二区三区| 人妻中文字幕在线中文字幕| 国产精品免费观看久久| 成人区视频| 熟女少妇av免费观看|