亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙向量模型的話題跟蹤

        2016-04-07 05:59:55劉海娟劉文展
        無線電工程 2016年2期

        劉海娟,劉文展

        (中國電子科技集團公司第五十四研究所,河北 石家莊 050081)

        ?

        基于雙向量模型的話題跟蹤

        劉海娟,劉文展

        (中國電子科技集團公司第五十四研究所,河北 石家莊 050081)

        摘要針對話題跟蹤任務(wù)及話題自身的特點,研究了面向該任務(wù)的文本表示技術(shù),通過對文本表示技術(shù)的研究來提高話題跟蹤系統(tǒng)的跟蹤性能。通過分析報道文本的內(nèi)容特點,提出了采用雙向量來表示報道文本,將文本中的命名實體進行了單獨處理。對命名實體識別技術(shù)進行了簡要介紹,詳細描述了基于雙向量模型的話題跟蹤系統(tǒng)的構(gòu)建。實驗結(jié)果表明,在話題跟蹤中,雙向量的文本示方法比單向量的文本表示方法更準確。

        關(guān)鍵詞話題跟蹤;雙向量模型;命名實體;文本表示

        Topic Tracking Based on Double Vector Model

        LIU Hai-juan,LIU Wen-zhan

        (The54thResearchInstituteofCETC,ShijiazhuangHebei050081,China)

        AbstractIn view of the characteristics of topic and topic tracking task,this paper studies the task-oriented text representation technology for improving the tracking performance of topic tracking system.By analyzing the content characteristics of story text,this paper presents a method of representing story text by using double vectors,that is,the named entities in the story form a separate vector.The named entity identification technology is introduced briefly,and the constitution of topic tracking system based on double-vector model is described in detail.The experiment results show that,in topic tracking system,the text representation method of double-vector is more exact than that of single-vector.

        Key wordstopic tracking;double-vector model;named entity;text representation

        0引言

        隨著信息傳播手段的進步,尤其是互聯(lián)網(wǎng)的出現(xiàn),信息急劇膨脹。在這種情況下,如何快捷準確地獲取感興趣的信息成為人們關(guān)注的焦點。由于網(wǎng)絡(luò)信息量太大,與一個事件話題相關(guān)的信息往往孤立地分散在不同的時間段和不同的地方。僅僅通過這些孤立的信息,人們對某些事件難以做到全面地把握。因此,人們迫切地希望擁有一種工具,能夠自動把與特定事件話題相關(guān)的信息匯總組織供人查閱。話題識別與跟蹤(Topic Detection and Tracking,TDT)技術(shù)就是在這種情況下產(chǎn)生的。話題跟蹤(Topic Tracking)任務(wù)是TDT的一個子任務(wù),它的目的是監(jiān)控新聞信息報道(Story)流識別出與預(yù)先給定的幾個新聞報道所表述的話題相關(guān)的后續(xù)報道[1,2]。話題跟蹤能夠幫助人們把分散的信息有效地匯集并組織起來,從整體上了解一個話題的全部細節(jié)[3]。

        在話題跟蹤系統(tǒng)中,要有效跟蹤出屬于同一話題的后繼報道,必須尋找出真正具有代表性的特征。本文把報道文本中的特征劃分為2種類型:命名實體NE和非命名實體N。命名實體主要包括人名、地名、機構(gòu)名和時間等。從直覺上來看,當報道2個不同的火車事故時,事故所發(fā)生的時間、地點以及涉及到的人物會有比較大的區(qū)分能力。但由于命名實體在文本中出現(xiàn)的頻率一般都比較低,采用傳統(tǒng)的單向量表示文本,往往會使得命名實體所表達的信息被其他無關(guān)緊要的高頻信息淹沒掉。

        本文采用了雙向量來表示報道文本,該策略的基本思想是對報道文本中的命名實體單獨處理,使其單獨組成一個向量,文本中的非命名實體組成另外一個向量。在跟蹤過程中,使用2個向量來計算已知話題和每個到來報道的相似度,得到2個相似度SimNE和SimN,再將2個相似度加權(quán)求和,得到最終的已知話題和報道的相似度Sim。

        1命名實體識別

        命名實體識別最初是在MUC-6(Message Understanding Conference)上作為一個子任務(wù)提出的[4]。命名實體識別任務(wù)主要是要識別出文本中的專有名詞和有意義的數(shù)量短語并加以歸類[5]。命名實體識別的方法主要分為2大類:基于規(guī)則(Rule-based)的方法和基于統(tǒng)計(Statistic-based)的方法[6,7]。本文在實驗中是以分詞后的詞性標注為依據(jù)來進行命名實體識別的,主要識別了時間、人名、地名和機構(gòu)名。只把這4種類型的詞認為是命名實體NE,其余的詞都被認為是非命名實體N。

        其中,時間信息代表了事件發(fā)生的背景,對于話題跟蹤來說,是一個非常重要的信息。在分詞和詞性標注結(jié)果中,時間特征是由連續(xù)的詞性標記為“/t”的特征來表示的[8]。因此,可以將2個或多個連續(xù)的詞性標記為“/t”的特征合并,實現(xiàn)時間特征的識別。如:“新華社/nt 伊朗/ns 11月/t 6日/t 電/n”,識別出來的時間特征為:“11月6日”。

        在分詞和詞性標注結(jié)果中,姓和名都是用詞性標記“/nr”來表示的[9],且姓和名分別進行標記。因此,可以將2個或多個連續(xù)的詞性標記為“/nr”的詞合并,實現(xiàn)人名實體特征的識別。如:“山崎/nr 龍/nr 一郎/nr”,識別出來的人名特征為“山崎龍一郎”。在對人名識別時,還有一種情況是指代關(guān)系,需要將詞還原[10]。在新聞報道的敘述中,主要的事件角色特征詞往往出現(xiàn)很少的次數(shù),有的甚至只出現(xiàn)一次,更多的是利用指代詞對該特征進行引用。下面舉例來說明本文對人名指代關(guān)系的處理方法?!巴?nr 岳山/nr 目前/t 強調(diào)/v…………,/w 王/nr 主任/n 還/c 表示/v……………”,對于“王/nr 主任/n”這樣的格式,表達得很明顯,同樣指的是“王岳山”,如果單獨將“王”作為人名特征提取出來,由于兩者字面上的表現(xiàn)不同,系統(tǒng)會將其作為2個不同的人名來處理。很顯然,這樣會丟失一些信息,因此,需要對“王/nr”進行還原。本文采用的方法是將特征提取出來后,按照音標將其進行排序。上面的句子特征經(jīng)過排序后就成為:表示(1)強調(diào)(1)王(1)王岳山(1)主任(1),然后將“王”還原成“王岳山”,結(jié)果就成為:表示(1)強調(diào)(1)王岳山(2)主任(1)。從而就實現(xiàn)了人名實體特征的識別。其中,括號內(nèi)的數(shù)字表示特征在當前句子中出現(xiàn)的次數(shù)。

        同人名一樣,地名和機構(gòu)名也是2個重要的信息,在分詞結(jié)果的詞性標注中地名信息是由“/ns”來標記的,機構(gòu)名是由“/nt”來標記的。按照詞性標注進行的命名實體識別雖然不是太準確,但其在實驗中也取得了一定的效果。

        2系統(tǒng)構(gòu)建

        所謂的雙向量模型就是將文本D用命名實體向量和非命名實體向量2個向量來表示。

        2.1話題的雙向量模型

        在話題跟蹤任務(wù)中,話題T和報道S都可看作文本,使用雙向量表示。在對話題構(gòu)建雙向量模型時,需要先對訓練樣本中Nt篇報道文本分別建雙向量模型,得到Nt個雙向量模型,即

        式中,1≤i≤Nt,wneij(1≤j≤m)和wnih(1≤h≤k)分別表示命名實體fnej和非命名實體fnh在第i篇報道文本中的權(quán)重,m表示從訓練樣本中識別出來的命名實體特征的數(shù)目,k表示從訓練樣本中選擇的非命名實體特征的數(shù)目;最后,利用中心向量空間模型構(gòu)建得到話題的雙向量模型為:

        2.2雙向量模型跟蹤系統(tǒng)的構(gòu)建

        為了驗證雙向量模型在話題跟蹤任務(wù)中的有效性,構(gòu)建了基于雙向量模型的話題跟蹤系統(tǒng)。由上幾節(jié)可知,在構(gòu)建雙向量模型時,其中最關(guān)鍵的一步是命名實體識別,命名實體識別的好壞會直接影響到話題跟蹤系統(tǒng)的性能。系統(tǒng)的具體構(gòu)建步驟如下:

        文本預(yù)處理:首先對訓練樣本中的報道進行分詞、特征選擇、命名實體識別等預(yù)處理;最后,利用中心向量空間模型將已知話題表示為雙向量。

        相似度計算:對每個到來的報道進行雙向量表示,采用如下公式計算已知話題和每個到來的報道的相似度:

        Sim(S,T)=Sim(SNE,TNE)+αSim(SN,TN)。

        式中,Sim(SNE,TNE)表示已知話題的命名實體和后來報道的命名實體之間的相似度;Sim(SN,TN)表示已知話題的非命名實體和后來報道的非命名實體之間的相似度;α(0<α<1)為加權(quán)系數(shù),用來實現(xiàn)命名實體和非命名實體的合理組合。

        話題跟蹤:對于每個到來的報道S,利用相似度計算公式來計算它與已知話題T的相似度Sim(S,T)[11],按照相似度大小降序排列,顯示跟蹤出來的新聞報道。基于雙向量的話題跟蹤過程圖如圖1所示。

        圖1 基于雙向量的話題跟蹤過程

        3實驗說明及結(jié)果分析

        3.1實驗語料

        實驗所使用的語料是一個含有2 124篇新聞報道文本的文本集合。該文本集合由基礎(chǔ)文本和話題文本2部分組成,基礎(chǔ)文本部分包含1 987篇文本,這些文本是在數(shù)據(jù)庫-慧科新聞上下載得到的;話題文本部分包含137篇文本,它們分別屬于25個話題,這些話題新聞報道文本是從新浪網(wǎng)站的專題新聞下載獲取的。

        3.2評測機制

        在話題識別與跟蹤領(lǐng)域,對一個系統(tǒng)性能的評價主要使用歸一化識別代價(CDet)Norm這一指標。計算如下[12]:

        式中,CDet為系統(tǒng)的錯誤識別代價,其計算如下:

        CDet=CMiss*PMiss*Ptarget+CFA*PFA*Pnon-target。

        式中,CMiss和CFA分別為漏報和誤報的代價,它們的值通常是根據(jù)應(yīng)用預(yù)先給定。目前,大多數(shù)TDT評測任務(wù)中它們分別取1和0.1,即認為漏報的代價要高得多;Ptarget是一個先驗的目標出現(xiàn)概率,表示關(guān)于某個話題的新聞報道出現(xiàn)的可能性;Pnon-target=1-Ptarget,它們的值通常也根據(jù)具體的應(yīng)用給出,在TDT評測任務(wù)中Ptarget=0.02;Pnon-target=0.98;PMiss和PFA分別是系統(tǒng)跟蹤的漏報率和誤報率,漏報率是指系統(tǒng)沒有跟蹤出來的關(guān)于某個話題的新聞報道的數(shù)目與語料庫中描述該話題的新聞報道總數(shù)之比,而誤報率是指系統(tǒng)對某一話題判斷錯誤的新聞報道的數(shù)目與語料庫中沒有描述該話題的新聞報道的總數(shù)之比[13]。

        3.3加權(quán)系數(shù)的選取

        加權(quán)系數(shù)α(0<α<1)是話題的非命名實體向量與每個到來的報道的非命名實體向量之間的相似度的加權(quán)值,它是用來實現(xiàn)命名實體向量和非命名實體向量的合理組合的。α取值的不同對采用雙向量模型的話題跟蹤系統(tǒng)的性能有很大影響。實驗中,考察了α取0.05~0.9值時話題跟蹤系統(tǒng)性能的變化情況,以0.05為間隔。實驗結(jié)果如圖2所示。

        圖2 α的不同取值對跟蹤系統(tǒng)性能的影響

        從圖2不難看出,當α取0.15時,基于雙向量的話題跟蹤系統(tǒng)的性能最好,系統(tǒng)的歸一化識別代價為0.217 58。隨著α的增大,非命名實體的比重加大,系統(tǒng)的歸一化識別代價也呈上升趨勢,這表明在報道文本中命名實體比非命名實體更具有代表性,對不同的話題具有較大的區(qū)分能力。

        3.4結(jié)果分析

        由于用戶耐心閱讀文檔的最大限額是20篇,所以通過考察前20篇的跟蹤結(jié)果來評估跟蹤系統(tǒng)性能的好壞。本章選取跟蹤結(jié)果前n(n=2、5、8、10、15、20)篇計算出相應(yīng)的基于單向量與基于雙向量的話題跟蹤系統(tǒng)的歸一化識別代價。構(gòu)建的話題跟蹤系統(tǒng)是以向量空間模型為基礎(chǔ)。實驗結(jié)果如圖3所示。

        圖3 系統(tǒng)性能比較

        從圖3中可以看出,當參考文檔分別取2、5、8、10、15、20時,基于雙向量的跟蹤系統(tǒng)的歸一化識別代價都小于基于單向量的跟蹤系統(tǒng)的歸一化識別代價。隨著參考文檔的增多,2個系統(tǒng)的歸一化識別代價的差值越來越大。當參考文檔取20時,基于雙向量的跟蹤系統(tǒng)的歸一化識別代價為0.217 58,而基于單向量的跟蹤系統(tǒng)的歸一化識別代價為0.438 05,采用雙向量模型使得話題跟蹤系統(tǒng)的性能提高了50.3%??偟膩碚f,圖3表明了基于雙向量的話題跟蹤系統(tǒng)的性能要好于基于單向量的話題跟蹤系統(tǒng)的性能。換言之,在話題跟蹤中,雙向量的文本示方法比單向量的文本表示方法更準確。

        4結(jié)束語

        基于雙向量模型的話題跟蹤,能夠突出報道文本的內(nèi)容信息,大大提高了跟蹤系統(tǒng)的性能。但是由于在進行命名實體識別時是根據(jù)分詞后的詞性標注來進行識別提取的,會使得識別出來的命名實體很不準確,而且會導致有些命名實體識別不出來。雙向量模型的優(yōu)點就不能充分體現(xiàn)出來。

        目前,話題跟蹤研究領(lǐng)域使用的模型還都是在信息檢索模型的基礎(chǔ)上,通過調(diào)整某些參數(shù)來使這些技術(shù)更適合于話題跟蹤。但是話題跟蹤有其自身的特點,如面向話題和基于時間等,僅僅利用現(xiàn)有信息檢索的方法來進一步提升話題跟蹤系統(tǒng)的性能是很有限的,今后將尋求一些新的直接面向話題跟蹤的方法,使話題跟蹤系統(tǒng)的性能得到一個質(zhì)的提升。

        參考文獻

        [1]SUNDHEIM B M.Named Entity Task Definition[J].Version 2.1.In:Proc of the Sixth Message Understanding Conf.,1995,31(5):319-332.

        [2]陳勇,張佳驥,吳立德,等.基于數(shù)據(jù)挖掘的面向話題搜索引擎研究[J].無線電通信技術(shù),2011,27(5):38-40.

        [3]李保利,俞士汶.話題識別與跟蹤研究[J] .計算機工程與應(yīng)用,2003,39(17):6-10.

        [4]YANG Yi-ming,CARBONELL J,BROWN R,et al.

        Learning Approaches for Detecting and Tracking News Events [J].IEEE Intelligent Systems:Special Issue on Applications of Intelligent Information Retrieval,1999,14(4):32-43.

        [5]駱衛(wèi)華,劉群,程學旗.話題檢測與跟蹤技術(shù)的研究[C]∥ 哈爾濱:語言計算與基于內(nèi)容的文本處理,全國第七屆計算語言學聯(lián)合學術(shù)會議,2003.

        [6]ALLAN J.Topic Detection and Tracking:Event-based Information Organization [M].USA:Kluwer Academic Publishers,2002,1-16.

        [7]WAYNE C.Multilingual Topic Detection and Tracking:Successful Research Enabled by Corpora and Evaluation[C]∥Language Resources and Evaluation Conference(LREC),2000:1487-1494.

        [8]譚應(yīng)偉,莫倩.基于Web的有監(jiān)督自適應(yīng)話題跟蹤系統(tǒng)的設(shè)計與實現(xiàn)[J].鄭州大學學報,2007,39(2):25-29.

        [9]周強,段慧明.現(xiàn)代漢語語料庫加工中的切詞與詞性標注處理[J].中國計算機報,1994,21(1):85-87.

        [10]張鵬飛,李赟,劉建毅,等.基于相對詞頻的文本特征選擇方法[J].計算機應(yīng)用研究,2005(4):23-26.

        [11]張學亮,陳金勇,陳勇.基于Hadoop云計算平臺的海量文本處理研究[J].無線電通信技術(shù),2014,40(1):54-57.

        [12]黃萱菁,夏迎炬,吳立德.基于向量空間模型的文本過濾系統(tǒng)[J].軟件學報,2003,14(3):435-442.

        [13]陳勇.一種目標行為序列模式的數(shù)據(jù)挖掘方法[J].無線電通信技術(shù),2015,41(2):79-81.

        劉海娟女,(1981—),碩士研究生。主要研究方向:信號與信息處理。

        劉文展男,(1983—),碩士研究生。主要研究方向:地圖學與地理信息系統(tǒng)。

        作者簡介

        中圖分類號TP311

        文獻標識碼A

        文章編號1003-3106(2016)02-0027-04

        收稿日期:2015-11-23

        doi:10.3969/j.issn.1003-3106.2016.02.07

        引用格式:劉海娟,劉文展.基于雙向量模型的話題跟蹤[J].無線電工程,2016,46(2):27-30.

        欧美日韩成人在线| 无码日韩精品一区二区免费暖暖| 久久久久久久波多野结衣高潮| 久久精品人成免费| 人妻中文字幕不卡精品| 久久人妻少妇嫩草av蜜桃| 天天做天天摸天天爽天天爱| 少女高清影视在线观看动漫| 国产高清精品自在线看| 黄片亚洲精品在线观看| 久久久久久夜精品精品免费啦| 国产伦久视频免费观看视频| 国产精彩视频| 午夜麻豆视频在线观看| 中文字幕免费在线观看动作大片| 精品一区二区三区免费播放| 无码一区东京热| 少妇熟女天堂网av天堂| 国产亚洲美女精品久久久2020| 国产亚洲精久久久久久无码| 丰满少妇人妻无码超清| 国产激情自拍在线视频| 国产精品久久人妻无码| 欧美成人中文字幕| 国产精品一区二区三区成人| 粉嫩小泬无遮挡久久久久久| 久久久久99精品成人片试看| 高潮喷水无遮挡毛片视频| 日本一区二区三区四区啪啪啪| 玩弄丰满奶水的女邻居| 国内精品一区视频在线播放| 久久夜色精品国产亚洲av老牛 | 中文字幕一精品亚洲无线一区| 国产精品成人av在线观看| 91自国产精品中文字幕| 国产91人妻一区二区三区| 少妇性饥渴bbbbb搡bbbb| 日韩女人毛片在线播放| 自拍偷区亚洲综合第一页| 内射人妻少妇无码一本一道 | 日本女同视频一区二区三区|