亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        社交媒體話題檢測與追蹤技術(shù)研究綜述

        2019-08-05 06:49:42張仰森段宇翔黃改娟蔣玉茹
        中文信息學(xué)報(bào) 2019年7期
        關(guān)鍵詞:文檔聚類文本

        張仰森,段宇翔,黃改娟,蔣玉茹

        (1. 北京信息科技大學(xué) 智能信息處理研究所,北京 100192;2. 國家經(jīng)濟(jì)安全預(yù)警工程北京實(shí)驗(yàn)室,北京 100044)

        0 引言

        隨著計(jì)算機(jī)與互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,互聯(lián)網(wǎng)信息呈現(xiàn)出爆炸性增長,越來越多的人將互聯(lián)網(wǎng)視為獲取信息的最佳平臺(tái)。如今,我們所處的不再是信息貧乏的時(shí)代,而是一個(gè)充斥著海量信息的新時(shí)代,所面臨的問題也從如何獲取信息變成了如何在短時(shí)間內(nèi)獲取有價(jià)值的信息。關(guān)鍵詞檢索是目前從海量信息中獲取有用信息的主要途徑,但通過關(guān)鍵詞檢索得到的信息,其冗余度往往較高,同時(shí)有用信息也常常丟失。因此,人們迫切希望有一種方法可以自動(dòng)處理大量信息并挖掘相關(guān)的話題,對話題相關(guān)信息進(jìn)行有效的組織,以便于人們查詢。話題檢測與追蹤(topic detection and tracking,TDT)技術(shù)就是在這種需求下應(yīng)運(yùn)而生的,它可以幫助普通網(wǎng)民從海量信息中篩選感興趣的話題信息,也可以幫助相關(guān)部門對輿情進(jìn)行監(jiān)控。通過話題檢測技術(shù)發(fā)現(xiàn)熱點(diǎn)話題,使用話題追蹤技術(shù)對檢測到的熱門話題進(jìn)行后續(xù)追蹤,這樣就可以有效地組織起一個(gè)與某話題有關(guān)的信息集合,進(jìn)而可以探索事件中各種信息之間的關(guān)系。

        本文第1節(jié)介紹了話題檢測與追蹤的發(fā)展歷程;第2節(jié)介紹話題檢測技術(shù)相關(guān)成果與方法;第3節(jié)介紹話題追蹤技術(shù),從非自適應(yīng)話題追蹤和自適應(yīng)話題追蹤兩個(gè)方面進(jìn)行介紹;第4節(jié)列舉了話題檢測與追蹤技術(shù)中存在的難題,并對該領(lǐng)域的發(fā)展前景進(jìn)行展望。

        1 話題檢測追蹤研究概況

        1.1 話題檢測與追蹤的研究歷程

        1996年,美國國防高級研究計(jì)劃署迫切地需要一種可以實(shí)現(xiàn)新聞數(shù)據(jù)流主題判斷的全自動(dòng)化技術(shù),于是就產(chǎn)生了話題檢測與追蹤技術(shù)的概念。話題檢測與追蹤技術(shù)的發(fā)展可大致分為三個(gè)階段,如表1所示。

        表1 話題檢測與追蹤技術(shù)發(fā)展歷程

        1.2 話題檢測與追蹤的研究要素

        話題檢測與跟蹤技術(shù)中的“話題”與一般的信息技術(shù)中涉及的“話題”不同,它表示一個(gè)相對具體的“事件”,而不是某一個(gè)“領(lǐng)域”。例如,韓美軍演、福島核電站泄露等。下面將介紹話題檢測與追蹤研究中的四個(gè)研究要素,以便更好地理解本文的研究內(nèi)容。

        (1) 話題: 通常是指一個(gè)由若干個(gè)相關(guān)子事件或活動(dòng)組合而成的事件集合。一個(gè)話題往往經(jīng)歷事件的產(chǎn)生、發(fā)展、演化、消亡四個(gè)階段。例如,尋找森林大火的幸存者、進(jìn)行災(zāi)后重建等,都可以視為與某次自然災(zāi)害相關(guān)的話題。

        (2) 事件: 通常是指發(fā)生在特定時(shí)間、特定地點(diǎn),具備時(shí)間、地點(diǎn)、對象三要素的事情[1]。例如,2001年7月13日,在俄羅斯首都莫斯科,國際奧委會(huì)主席薩馬蘭奇宣布北京成為2008年奧運(yùn)會(huì)主辦城市。

        (3) 主題: 主題的定義相對寬泛,可以簡單理解為多個(gè)相關(guān)話題的抽象描述,但并不涉及任何實(shí)際事件。例如,“自然災(zāi)害”就是一個(gè)主題,“奧運(yùn)會(huì)”也是一個(gè)主題。

        (4) 報(bào)道: 報(bào)道是指與話題事件相關(guān),包含多個(gè)描述語句的新聞片段。例如,據(jù)中央氣象臺(tái)消息,10日白天起,持續(xù)多日的南部強(qiáng)降雨天氣范圍繼續(xù)擴(kuò)大,強(qiáng)度顯著增強(qiáng),中央氣象臺(tái)1月10日18時(shí)發(fā)布暴雨紅色預(yù)警。

        在檢測追蹤技術(shù)的文獻(xiàn)調(diào)研中,本文主要針對話題和事件這兩個(gè)要素展開。從話題的相關(guān)定義可以看出,如果一個(gè)目標(biāo)事件與某個(gè)話題內(nèi)的事件有聯(lián)系,那么可以認(rèn)為該事件在該話題的范圍內(nèi),事件也可以看作話題的一種低粒度的展現(xiàn)。

        目前,主要有兩種類型的話題,一種是以新聞報(bào)道為主體的傳統(tǒng)媒體話題,另一種是以微博、Twitter為代表的社交媒體話題。其中,社交媒體話題建立在Web 2.0之上,它與傳統(tǒng)媒體話題的區(qū)別主要體現(xiàn)在以下三點(diǎn): ①以新聞報(bào)道為主體的傳統(tǒng)媒體在傳播信息時(shí)由編輯對信息進(jìn)行細(xì)致的人工處理,話題中心清楚、明確,而社交媒體中的大部分內(nèi)容是由每一個(gè)用戶自由創(chuàng)造和編輯的,話題中心遠(yuǎn)沒有傳統(tǒng)媒體那么清晰; ②社交媒體比傳統(tǒng)媒體包含更多的信息,以微博為例,其不僅有轉(zhuǎn)發(fā)、評論、點(diǎn)贊等信息,還有標(biāo)簽、影響力、地理定位等諸多非文本信息; ③社交媒體較傳統(tǒng)媒體而言,口語化傾向更加明顯,規(guī)范性較差。上面所列舉的三個(gè)顯著區(qū)別導(dǎo)致了社交媒體話題的檢測與追蹤難度比傳統(tǒng)媒體更高。

        1.3 話題檢測與追蹤任務(wù)

        美國國家標(biāo)準(zhǔn)技術(shù)研究所為TDT研究設(shè)定了五項(xiàng)基本任務(wù),包括: 報(bào)道切分任務(wù)、話題跟蹤任務(wù)、話題檢測任務(wù)、首次報(bào)道檢測任務(wù)、關(guān)聯(lián)檢測任務(wù)。

        1.3.1 報(bào)道切分任務(wù)

        報(bào)道切分任務(wù)(story segmentation task,SST)要求將原始報(bào)道分割成具有完整結(jié)構(gòu)和統(tǒng)一主題的報(bào)道。如果有一條包括不同類型信息的報(bào)道,報(bào)道切分系統(tǒng)需要對報(bào)道進(jìn)行識(shí)別并按照要求切分。SST最初針對的是新聞廣播報(bào)道,其切分方式包括以下兩種: 一、直接切分音頻信號;二、將音頻信號轉(zhuǎn)為文本信息后進(jìn)行切分。報(bào)道切分過程如圖1所示。

        圖1 報(bào)道切分過程

        1.3.2 話題跟蹤任務(wù)

        話題跟蹤任務(wù)(topic tracking task,TT)是對已知的話題報(bào)道進(jìn)行后續(xù)跟蹤。由于已知的話題沒有明確、詳細(xì)的描述,描述信息主要是給定的若干篇相關(guān)報(bào)道。美國國家標(biāo)準(zhǔn)技術(shù)研究院為每一個(gè)待測話題提供1~4篇相關(guān)的報(bào)道,同時(shí)提供了相應(yīng)的訓(xùn)練語料來訓(xùn)練跟蹤系統(tǒng)和更新話題模型。話題跟蹤任務(wù)通過計(jì)算后續(xù)數(shù)據(jù)流中每一篇報(bào)道與話題模型的匹配程度來判斷新數(shù)據(jù)是否屬于該話題,從而實(shí)現(xiàn)跟蹤功能。

        1.3.3 話題檢測任務(wù)

        話題檢測任務(wù)(topic detection task,TD)主要是檢測系統(tǒng)中未知的話題。TD任務(wù)在構(gòu)建話題系統(tǒng)時(shí)的先驗(yàn)信息非常少,因此,TD系統(tǒng)必須在不清楚話題信息的情況下完成檢測模型的構(gòu)建。同時(shí),構(gòu)建的檢測模型不能僅針對一個(gè)特殊的話題,而是應(yīng)可以檢測所有的話題。通過檢測模型對后續(xù)數(shù)據(jù)流的檢測和識(shí)別,找出數(shù)據(jù)庫中沒有出現(xiàn)的話題并生成“新話題”[2]。話題檢測過程如圖2所示。

        圖2 話題檢測過程

        1.3.4 首次報(bào)道檢測任務(wù)

        首次報(bào)道檢測任務(wù)(first-story detection task,F(xiàn)SD)是要在時(shí)序報(bào)道流中檢測出各種話題的第一篇報(bào)道??偟膩碇v,F(xiàn)SD與TD有相似之處,但是FSD的結(jié)果是某話題的第一篇報(bào)道,而TD的結(jié)果是關(guān)于某一話題的一系列報(bào)道,可以說,F(xiàn)SD是話題檢測系統(tǒng)的基礎(chǔ)和前提。

        1.3.5 關(guān)聯(lián)檢測任務(wù)

        關(guān)聯(lián)檢測任務(wù)(link detection task,LDT)是判斷兩篇報(bào)道是否屬于同一個(gè)話題。與TD相同,LDT也沒有先驗(yàn)信息輔助判斷。所以,LDT系統(tǒng)必須能夠自己分析報(bào)道所描述的話題,并通過對比話題模型來判定兩篇報(bào)道的話題相關(guān)性。

        2 話題檢測技術(shù)

        2.1 基于主題模型的話題檢測

        話題檢測首先是在離線的靜態(tài)文本中提出的,而靜態(tài)文本的話題檢測一般都是基于LDA(latent Dirichlet allocation)主題模型或者改進(jìn)的LDA主題模型。LDA主題模型將一篇文檔理解成由若干隱含主題組合而成,而隱含主題通過文檔中一些特定詞語來體現(xiàn)[3]。一般情況下,隱含主題被視為詞的一種概率分布,單個(gè)文檔可以由多個(gè)隱含主題按照一定比例來構(gòu)成。本節(jié)將介紹三個(gè)典型的改進(jìn)LDA主題模型,分別是有監(jiān)督潛在狄利克雷模型(supervised LDA,sLDA)、標(biāo)簽潛在狄利克雷模型(labeled LDA,L-LDA)、在線潛在狄利克雷模型(online LDA,OLDA)。有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)最主要的區(qū)別在于,有監(jiān)督學(xué)習(xí)不僅將訓(xùn)練數(shù)據(jù)傳給計(jì)算機(jī),還將帶標(biāo)簽的數(shù)據(jù)傳給計(jì)算機(jī)。在話題檢測與追蹤領(lǐng)域,有監(jiān)督LDA模型的效果要明顯優(yōu)于無監(jiān)督LDA模型,故僅介紹有監(jiān)督LDA模型。sLDA[4]是一個(gè)可以添加額外屬性的話題檢測模型,與普通的LDA模型的區(qū)別是,sLDA含有一個(gè)甚至多個(gè)文本標(biāo)簽,可以通過文本標(biāo)簽對建模過程進(jìn)行監(jiān)督。Zhang等[5]使用經(jīng)整理過濾后的北弗吉尼亞州和紐約市2016年300萬條的Twitter正文和評論數(shù)據(jù),進(jìn)行交通事故的話題發(fā)現(xiàn)。在進(jìn)行sLDA主題建模時(shí),添加了上述兩個(gè)地區(qū)的高速公路事故記錄和15 000個(gè)環(huán)路探測器的交通數(shù)據(jù)。實(shí)驗(yàn)結(jié)果證明,66%以上的事故可以通過事故日志找到,80%以上的事故能夠從探測器中的交通數(shù)據(jù)找到,其檢測準(zhǔn)確率比LDA和SVM更高。既然sLDA需要通過標(biāo)簽的建立來實(shí)現(xiàn)話題檢測,那么如何尋找最合適的標(biāo)簽便成為了最大的問題。于是,Ramage等[6]在2009年提出了L-LDA模型,這是一個(gè)基于多標(biāo)簽文本的主題模型,通過將標(biāo)簽直接映射到主題的方法以實(shí)現(xiàn)文檔的多標(biāo)簽決策。但是,L-LDA模型沒有考慮到人為設(shè)置的文檔類別標(biāo)簽和通過主題模型提取出來的標(biāo)簽之間的差異性,從而導(dǎo)致模型與文檔數(shù)據(jù)無法充分?jǐn)M合,泛化能力較差。例如,LDA模型在進(jìn)行話題提取時(shí),經(jīng)常會(huì)生成我們無法理解的內(nèi)容,如果簡單地把生成的內(nèi)容與文檔進(jìn)行匹配關(guān)聯(lián),就會(huì)導(dǎo)致檢測準(zhǔn)確率的下降。周先琳[7]對新浪微博短文本進(jìn)行預(yù)處理后,使用改進(jìn)后的VSM特征選擇方法對文本特征進(jìn)行選擇,并構(gòu)建動(dòng)態(tài)L-LDA模型?;?萬多條預(yù)處理后的新浪微博文本進(jìn)行實(shí)驗(yàn),可以發(fā)現(xiàn),動(dòng)態(tài)L-LDA模型與LDA模型相比,前者在微博動(dòng)態(tài)文本主題挖掘方面有明顯的優(yōu)勢。同樣的,為了解決L-LDA模型無法充分?jǐn)M合和泛化性能較差的問題,江雨燕等[8]提出了一種可用于文檔多標(biāo)簽判定的改進(jìn)L-LDA模型,該模型定義了類別標(biāo)記在獨(dú)享主題、共享主題之間的映射關(guān)系,這樣的映射關(guān)系可以更加真實(shí)地反映文檔的生成過程。基于新浪微博數(shù)據(jù)的實(shí)驗(yàn)表明,該模型可以有效地解決類別標(biāo)記在共享主題和獨(dú)享主題中分析困難的問題。

        前面介紹的幾種模型都是在靜態(tài)數(shù)據(jù)下進(jìn)行實(shí)驗(yàn)的,但在真實(shí)情況下,數(shù)據(jù)通常不是靜態(tài)的,而是以在線文本數(shù)據(jù)流的形式存在,所以,將時(shí)間屬性引入LDA模型后就構(gòu)建了OLDA模型。該模型為了保證主題的延續(xù)性,將范圍廣泛的主題進(jìn)行一定的縮小,對即將消失的話題在時(shí)間粒度上做出延續(xù),減輕了主題演化過程中的偏差問題。余本功等[9]提出了一種改進(jìn)的雙通道OLDA模型,該模型一方面改進(jìn)了文檔中主題分布與詞分布之間的遺傳度,另一方面改進(jìn)了詞概率的計(jì)算方法,有效解決了因?yàn)樾?、舊主題混合和冗余詞較多而導(dǎo)致的新興主題檢測困難的問題。

        2.2 基于改進(jìn)聚類算法的話題檢測

        當(dāng)前,適用于文本領(lǐng)域的聚類算法主要有四種,分別是: 基于劃分的聚類算法、基于增量式的聚類算法、基于層次的聚類算法和基于圖模型的聚類算法。因?yàn)榛趧澐值木垲愃惴ㄔ谠掝}檢測與追蹤任務(wù)中的效率較低,所以本文僅對后面三種聚類算法進(jìn)行介紹。

        2.2.1 基于增量式的聚類

        增量式聚類算法是一種高效的處理文本數(shù)據(jù)流的算法,其中Single-Pass算法較為簡單且應(yīng)用最廣。Single-Pass算法是處理流式數(shù)據(jù)的經(jīng)典算法,對于輸入的流式數(shù)據(jù),按照輸入順序依次將每一條數(shù)據(jù)與已有類別進(jìn)行匹配,若匹配成功則將該條數(shù)據(jù)歸入該類別,若匹配失敗則創(chuàng)建一個(gè)新類別來存放該數(shù)據(jù),這樣就實(shí)現(xiàn)了流式數(shù)據(jù)的聚類。結(jié)合微博文本和微博評論信息都是逐步增量產(chǎn)生的特點(diǎn),下面將對Single-Pass算法在話題檢測中的應(yīng)用進(jìn)行介紹。

        由于Single-Pass聚類算法是隨機(jī)選取聚類中心的,所以其聚類效率較低,針對這一缺點(diǎn),李倩[10]提出了一種改進(jìn)的Single-Pass聚類算法。在聚類中心的選擇上,設(shè)置鄰域半徑和最小密度閾值,并根據(jù)文檔處于鄰域半徑內(nèi)的文檔數(shù)目與最小密度閾值的大小關(guān)系來確定初始聚類中心。在相似度的比較上,不是簡單地將新文檔與類中所有的文檔進(jìn)行比較,而是與主題相似程度最高的文檔進(jìn)行比較,如果其相似度小于設(shè)定的相似度閾值,則不需要再與其他文檔進(jìn)行比較,極大地提升了檢測效率。葉施仁等[11]提出了一種結(jié)合孤立點(diǎn)預(yù)處理和Single-Pass聚類的中文微博熱點(diǎn)話題檢測模型。該模型主要有三部分工作: ①優(yōu)化微博文本的特征選擇策略; ②提出了微博文本閾值的概念,將主題分散的文本視為噪聲并進(jìn)行過濾; ③引入主題詞的概念,而主題詞是根據(jù)中心向量的特征權(quán)重確定的。因?yàn)樵撃P图訌?qiáng)了對孤立點(diǎn)的處理,同時(shí)優(yōu)化了中心向量的特征選擇和相關(guān)權(quán)重的設(shè)置,所以過濾掉了大量的噪聲數(shù)據(jù),使主題聚類更加準(zhǔn)確。不同于葉施仁采用的設(shè)置文本閾值來進(jìn)行噪聲過濾的方法,周雪梅等[12]在進(jìn)行微博話題檢測時(shí)引入了文本重構(gòu)的思想,在文本中定義了主題塊和細(xì)節(jié)塊兩個(gè)模塊,主題塊包括文本的標(biāo)題和首段信息,細(xì)節(jié)塊包括文本的其余部分和文后的評論信息。因?yàn)闃?biāo)題和首段信息往往是文本的總結(jié)歸納,最具有區(qū)分性,所以用主題塊劃分出不同的主話題,而主話題下的小話題則是利用細(xì)節(jié)塊劃分。實(shí)驗(yàn)語料來自2015年5月的新浪微博的社會(huì)新聞模塊,通過實(shí)驗(yàn)數(shù)據(jù)分析得知,當(dāng)主話題閾值為0.28,子話題閾值在0.28到0.58之間時(shí),子話題區(qū)分效果基本可以與人工效果媲美。

        2.2.2 基于層次的聚類

        k-means算法是一種簡單好用的劃分聚類算法,但是算法中k值的選擇和初始聚類中心點(diǎn)的選擇是k-means算法的重點(diǎn)和難點(diǎn)。不同于k-means聚類算法,層次聚類是對樣本逐層聚類,直到滿足聚類要求,避免了參數(shù)設(shè)置和聚類中心點(diǎn)選取的難題。

        Peixian Chen等[13]在進(jìn)行Twitter研究的過程中提出了一種稱為HLTA的分層主題檢測方法,這個(gè)方法使用分層潛在樹模型來模擬單詞共現(xiàn)。HLTA中的每個(gè)潛在變量都表示文檔的分區(qū),分區(qū)中的文檔集群即視為主題,而這個(gè)主題一定是在屬于該主題的文檔中以高概率出現(xiàn),而在不屬于該主題的文檔中以低概率出現(xiàn)。HLTA不同于基于LDA的分層主題檢測方法,雖然兩種方法都定義了文檔的概率分布,但它們使用不同類型的觀察變量和潛在變量。實(shí)驗(yàn)結(jié)果表明,HLTA在模型擬合和主題層次結(jié)構(gòu)質(zhì)量方面優(yōu)于基于LDA的方法。鑒于中文微博具有規(guī)模大、話題多、話題無關(guān)性強(qiáng)等特點(diǎn),Xiao Geng等[14]提出了一種三層混合聚類算法進(jìn)行話題檢測。第一層使用K-means算法,對微博文本進(jìn)行話題聚類。第二層應(yīng)用凝聚式層次聚類算法,將相同主題的文本結(jié)合成小型簇。前兩層已經(jīng)消除了大部分的干擾噪聲,第三層再次使用k-means算法,對原先分配給錯(cuò)誤簇的文本進(jìn)行重新聚類,實(shí)現(xiàn)對聚類結(jié)果的修正。

        2.2.3 基于圖模型的聚類

        基于圖模型的聚類與其說是聚類算法,還不如說是一種圖的向量表示?;谙蛄窟M(jìn)行表示之后,一般可以采用其他的聚類方法得到最后的聚類結(jié)果。所以基于圖模型的聚類既依賴于向量表示,也與之后采用的聚類算法有關(guān)。

        Dong等[15]針對Twitter上的突發(fā)話題,提出了一種面向突發(fā)話題的圖模型,該模型可以表示大量Twitter用戶對突發(fā)話題進(jìn)行傳播的拓?fù)浣Y(jié)構(gòu)。通過該模型可以從宏觀上分析突發(fā)事件的傳播模式,從微觀上挖掘突發(fā)事件的傳播特點(diǎn)。實(shí)驗(yàn)結(jié)果表明,通過該方法可以有效地從突發(fā)事件中發(fā)現(xiàn)新興話題。不同于微博主體的長文本,在線社交媒體用戶每天在評論區(qū)會(huì)產(chǎn)生大量的短文本評論信息,傳統(tǒng)的話題檢測對有限的包含大量信息的文檔有良好的效果,但是對海量的包含信息量低的小文本見效甚微。因此,Kambiz Ghoorchian等[16]提出了利用降維和聚類技術(shù)的話題檢測方法,首先將輸入的文檔集壓縮成一個(gè)密集的圖,并在圖中創(chuàng)建多個(gè)稠密的拓?fù)鋮^(qū)域,然后將圖分成若干個(gè)密集的子圖,每一個(gè)子圖代表一個(gè)主題。該方法與標(biāo)準(zhǔn)的LDA和BiTerm方法相比,不僅保持了更好的精度,而且執(zhí)行速度快一個(gè)數(shù)量級。

        傳統(tǒng)的主題檢測方法通過挖掘語義關(guān)系聚合成主題,但是這樣的方法忽略了文檔間的共現(xiàn)關(guān)系。為了解決這個(gè)問題,Zhang等[17]提出了一種混合關(guān)系分析方法來整合語義關(guān)系和共現(xiàn)關(guān)系。具體而言,該方法將多個(gè)關(guān)系融合成語義圖,并使用圖分析方法從語義圖中檢測主題。通過梳理圖中的關(guān)系,不僅可以更有效地檢測話題,還可以利用潛在的共現(xiàn)關(guān)系挖掘潛在的重要信息。

        由于社交媒體產(chǎn)生的內(nèi)容大大超出了人工處理這些數(shù)據(jù)的能力,而已經(jīng)提出的各種自動(dòng)主題檢測方法,大部分都基于文檔聚類和突發(fā)檢測,它們無法實(shí)現(xiàn)對噪聲文件的過濾,而對于噪聲文件的過濾又是話題檢測中的重點(diǎn)和難點(diǎn)。因此,Pablo Torres-Tramón等[18]提出了一種基于拓?fù)鋽?shù)據(jù)分析的主題檢測方法,它將歐幾里德特征空間轉(zhuǎn)換成一個(gè)拓?fù)淇臻g,在這個(gè)拓?fù)淇臻g中,被視為噪聲的不相關(guān)文檔的形狀很容易與局部相關(guān)的文檔區(qū)分開來。根據(jù)點(diǎn)(即文檔)的連通性將該拓?fù)淇臻g組織在網(wǎng)絡(luò)中,并且根據(jù)連接組件的大小進(jìn)行二次過濾,以達(dá)到去除噪聲文件、實(shí)現(xiàn)話題檢測的目的。

        2.3 基于多特征融合的話題檢測

        基于多特征融合的話題檢測可以充分地利用多特征數(shù)據(jù),實(shí)現(xiàn)對話題的精確檢測。根據(jù)話題檢測的方法途徑,把多特征分為兩大類: 一類是基于文本的多特征,另一類是基于非文本的多特征。

        2.3.1 基于文本多特征融合的檢測方法

        基于社交媒體文本特征的方法是指利用微博、Twitter等新興社交媒體上的文本消息,根據(jù)事件隨時(shí)間的變化不斷對新出現(xiàn)的話題做出檢測。

        由于中文微博多數(shù)為短文本,甚至是超短文本,文本的稀疏性往往導(dǎo)致文本相似度的度量不準(zhǔn)確。黃賢英等[19]提出一種基于多維度的微博短文本相似度算法,該算法根據(jù)詞形相同和詞義相近來尋找微博短文本中的公共塊,構(gòu)建基于公共塊序列的語義相似度。利用微博短文本發(fā)布時(shí)間、轉(zhuǎn)發(fā)與評論等信息來修正該語義相似度,形成新的微博短文本相似度算法。最后,將新的微博短文本相似度算法結(jié)合Single-Pass聚類算法,最終實(shí)現(xiàn)對微博話題的檢測。

        金鎮(zhèn)晟[20]利用特征詞的時(shí)間屬性和增長程度這對屬性,在傳統(tǒng)的TF-IDF基礎(chǔ)上提出一種改進(jìn)的特征提取算法,稱之為TF-IDF-KE(term frequency-inverse document frequency-kinetic energy),用以解決突發(fā)性熱點(diǎn)話題在聚類時(shí)特征不明顯的問題。該算法結(jié)合動(dòng)能原理,將特征項(xiàng)的突發(fā)值用動(dòng)能的概念進(jìn)行描述,并加入權(quán)值計(jì)算中,提高了突發(fā)性特征項(xiàng)的權(quán)重,最后通過文本聚類實(shí)現(xiàn)了微博的話題檢測。該方法描述了文本和特征項(xiàng)所具有的動(dòng)態(tài)屬性,實(shí)驗(yàn)結(jié)果表明,該方法能夠有效地提高話題檢測的效果。劉志雄[21]針對微博話題的熱度、突發(fā)性以及時(shí)序特征,提出了一種時(shí)間窗口下的融合詞重要度的微博話題檢測方法。該方法首先根據(jù)時(shí)間屬性對微博文本進(jìn)行分塊處理,然后根據(jù)詞在時(shí)間塊里的熱度進(jìn)行排序,并選取熱度最大的n個(gè)詞作為主題詞候選詞。其次,以主題詞候選詞為基礎(chǔ)構(gòu)建詞共現(xiàn)網(wǎng)絡(luò),并利用社區(qū)劃分算法對該詞共現(xiàn)網(wǎng)絡(luò)進(jìn)行主題劃分,最后對每個(gè)劃分社區(qū)內(nèi)的候選詞進(jìn)行重要度排序。利用新浪微博半個(gè)月內(nèi)的三個(gè)主題板塊數(shù)據(jù)進(jìn)行實(shí)驗(yàn),結(jié)果表明,通過該檢測算法進(jìn)行社區(qū)話題發(fā)現(xiàn)有較高的召回率,但是在準(zhǔn)確率和漏檢率上并沒有突出的成績。

        2.3.2 基于非文本多特征融合的檢測方法

        基于社交媒體文本特征的檢測方法主要圍繞關(guān)鍵詞特征進(jìn)行,但是隨著非文本媒體的盛行,僅依靠關(guān)鍵詞特征已經(jīng)無法滿足當(dāng)前網(wǎng)絡(luò)環(huán)境下的話題檢測,結(jié)合社交網(wǎng)絡(luò)中豐富的用戶數(shù)據(jù)(例如,用戶行為、好友關(guān)系、地理位置、視頻等)來進(jìn)行話題檢測就顯得尤為重要[22]。

        有些微博話題可能在全網(wǎng)范圍內(nèi)并不突出,但是在某一局部地區(qū)卻是一個(gè)熱點(diǎn)話題。針對這一情況,李正[23]提出利用地理位置信息進(jìn)行中文微博突發(fā)話題檢測,一方面,根據(jù)微博空間環(huán)境現(xiàn)狀,增加適應(yīng)環(huán)境的文本過濾規(guī)則,盡可能地過濾冗余數(shù)據(jù);另一方面,將微博文本中出現(xiàn)的地點(diǎn)名詞與微博所攜帶的空間地理位置信息進(jìn)行匹配,并提出“親歷度”的概念,用此概念提高相應(yīng)微博分詞的基礎(chǔ)權(quán)重,以提高對應(yīng)用戶在該事件上的話語權(quán),從而達(dá)到更加精準(zhǔn)地獲取突發(fā)詞集的目的。

        傳統(tǒng)的話題檢測方法主要集中在單一媒體上,Zhang等[24]提出將互聯(lián)網(wǎng)視頻和新聞報(bào)道中豐富的多媒體信息進(jìn)行融合,實(shí)現(xiàn)跨媒體話題關(guān)鍵詞的提取。首先,利用視頻相關(guān)的文本信息和新聞標(biāo)題,找出粗加權(quán)密集關(guān)鍵詞組;然后,利用文本鏈接和可視化鏈接細(xì)化關(guān)鍵詞組并更新權(quán)重;最后,將文檔與細(xì)化的關(guān)鍵詞組重新關(guān)聯(lián)以形成與事件相關(guān)的文檔集。在包含網(wǎng)絡(luò)視頻和新聞圖片報(bào)道的跨媒體數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),取得了良好的檢測效果。在以微博、Twitter為首的社交媒體中,也存在著大量的視頻和圖片信息,多媒體信息融合同樣可以在社交媒體領(lǐng)域得到應(yīng)用。

        隨著社交媒體功能的多樣化,越來越多的用戶行為信息和時(shí)間屬性被挖掘出來并用于話題檢測。萬越等[25]結(jié)合微博數(shù)據(jù)的時(shí)序特征以及社交網(wǎng)絡(luò)用戶的行為特征,提出一種動(dòng)量信號增強(qiáng)模型來進(jìn)行微博突發(fā)話題檢測。該文首次提出用影響力因子來修正動(dòng)量模型的誤差。影響力因子是指當(dāng)前時(shí)間點(diǎn)前指定周期內(nèi)的數(shù)據(jù)對當(dāng)前數(shù)據(jù)的變化的影響,其將作為修正詞頻序列的依據(jù)。通過對比用于檢測是否存在突發(fā)信號的MACD值指標(biāo)和提前設(shè)置好的突發(fā)性閾值,判斷目標(biāo)特征詞是否是突發(fā)特征詞。最后,通過k-means聚類算法將特征詞歸類合并,得到突發(fā)話題。賀敏等[26]針對微博數(shù)據(jù)稀疏、微博內(nèi)容間的關(guān)系難以準(zhǔn)確度量、微博內(nèi)容多而雜的特點(diǎn)[27],提出了基于特征驅(qū)動(dòng)的中文微博話題檢測方法。該檢測方法通過選取有意義的詞或者詞組來獲取微博特征,將微博的轉(zhuǎn)發(fā)數(shù)、評論數(shù)以及點(diǎn)贊量等文檔影響力和關(guān)注數(shù)、粉絲數(shù)等微博博主影響力組成特征影響力屬性組并進(jìn)行建模。最后,根據(jù)特征屬性劃分話題關(guān)鍵特征和噪聲特征,并將話題關(guān)鍵特征之間的互信息作為最鄰近聚類法的距離度量,通過關(guān)鍵特征的最鄰近聚類得到話題結(jié)果。根據(jù)新浪微博1 000個(gè)加V的活躍博主的78萬余條微博消息進(jìn)行實(shí)驗(yàn),相比于傳統(tǒng)的k-means方法,該方法的檢測準(zhǔn)確率、召回率以及F1值都有將近20%的提升,故該方法有一定的應(yīng)用價(jià)值[28]。Fang等[28]從話題在時(shí)間和空間上局部分布的性質(zhì)入手,提出了一個(gè)基于多視圖聚類的新框架MVTD。該框架通過整合Twitter中的語義關(guān)系、社會(huì)標(biāo)簽關(guān)系和時(shí)間關(guān)系,提出了一種基于后綴樹的新文檔相似性度量方法和基于后綴樹的新關(guān)鍵詞提取方法。通過在真實(shí)Twitter數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)基于多視圖聚類的新框架MVTD的聚類性能遠(yuǎn)遠(yuǎn)優(yōu)于單一視圖,并且對于Twitter的話題檢測有良好的效果。

        3 話題追蹤技術(shù)

        話題追蹤的主要任務(wù)是,在已知目標(biāo)話題的基礎(chǔ)上對后續(xù)報(bào)道進(jìn)行持續(xù)追蹤。由于社交媒體的迅速普及,話題追蹤技術(shù)應(yīng)用到了微博、貼吧、論壇、博客等社交媒體平臺(tái)上。話題追蹤可以簡單地分為兩個(gè)步驟: 第一步,訓(xùn)練并得到話題模型;第二步,根據(jù)得到的話題模型進(jìn)行判斷。該過程如圖3所示。

        圖3 話題追蹤基本流程

        本節(jié)將話題追蹤方法分為非自適應(yīng)話題追蹤和自適應(yīng)話題追蹤兩種,自適應(yīng)話題追蹤的優(yōu)越性在于無指導(dǎo)條件下的自適應(yīng)能力,而這種自適應(yīng)能力可以有效地解決“話題漂移”現(xiàn)象。

        3.1 非自適應(yīng)話題追蹤

        非自適應(yīng)話題追蹤有基于知識(shí)和基于統(tǒng)計(jì)兩種研究思路?;谥R(shí)的話題追蹤主要是分析報(bào)道內(nèi)容之間的相關(guān)關(guān)系,并利用與報(bào)道內(nèi)容相關(guān)的領(lǐng)域知識(shí)對報(bào)道進(jìn)行歸類追蹤?;诮y(tǒng)計(jì)的話題追蹤主要是利用統(tǒng)計(jì)學(xué)方法分析報(bào)道與話題模型之間的關(guān)聯(lián)程度。

        鑒于話題追蹤方法大多面向新聞、博客和微博等社交媒體,席耀一等[29]針對網(wǎng)絡(luò)論壇的結(jié)構(gòu)和內(nèi)容特點(diǎn),提出基于語義相似度的論壇話題追蹤方法。該方法提取百度貼吧、網(wǎng)易論壇、天涯社區(qū)等諸多平臺(tái)的帖子的關(guān)鍵詞,分別構(gòu)建出話題關(guān)鍵詞詞表和帖子關(guān)鍵詞詞表,并建立話題與帖子的文本表示模型。利用《知網(wǎng)》的語義框架計(jì)算帖子關(guān)鍵詞與話題關(guān)鍵詞的相似度,當(dāng)相似度高于設(shè)定的閾值時(shí)就可以判定該帖子為話題追蹤的目標(biāo)帖。實(shí)驗(yàn)證明,該方法的準(zhǔn)確率和F1值均高于傳統(tǒng)的基于向量空間模型的話題追蹤方法,可以廣泛應(yīng)用于論壇領(lǐng)域的話題追蹤。不同于前面提到的語義相似度分析,Chen等[30]提出一種基于語義相關(guān)度的微博文本主題跟蹤方法來解決微博文本的稀疏性問題。該方法根據(jù)微博的結(jié)構(gòu)化信息,以及《知網(wǎng)》的語義關(guān)系網(wǎng)絡(luò),構(gòu)建了針對微博的語義關(guān)聯(lián)模型。根據(jù)該模型提取文本信息,并以關(guān)鍵詞列表的形式表現(xiàn)出來,結(jié)合文本相似度的相關(guān)理論,綜合衡量文本與主題之間的相關(guān)性。實(shí)驗(yàn)結(jié)果表明,該方法比向量空間法和單純基于文本相似度的方法能更好地降低錯(cuò)誤率,大大提升了話題追蹤的效果。唐曉波等[31]基于維基語義擴(kuò)展網(wǎng)絡(luò)構(gòu)建出一種微博話題追蹤模型,該模型旨在解決微博文本中的語義稀疏性問題和話題漂移性問題。首先,使用維基百科數(shù)據(jù)進(jìn)行知識(shí)庫的構(gòu)建;其次,利用該知識(shí)庫對目標(biāo)微博文本的特征向量進(jìn)行擴(kuò)展,經(jīng)過擴(kuò)展后的微博文本對事件的描述能力有了很大的提升;最后,通過支持向量機(jī)(support vector machine,SVM)進(jìn)行語義層面的話題追蹤。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的SVM方法和自適應(yīng)SVM方法相比,基于維基百科進(jìn)行語義擴(kuò)展后的SVM分類模型有效降低了分類器對初始話題數(shù)量的敏感性,同時(shí)減輕了話題漂移現(xiàn)象對微博話題追蹤產(chǎn)生的影響。

        基于統(tǒng)計(jì)策略的話題追蹤方法主要是根據(jù)話題模型與后續(xù)報(bào)道相關(guān)性進(jìn)行判斷,而基于分類策略的話題追蹤又是基于統(tǒng)計(jì)策略中最常用到的方法。卡內(nèi)基梅隆大學(xué)在話題追蹤任務(wù)中利用統(tǒng)計(jì)策略率先提出了兩種方法,分別是k—最近鄰(k-nearest neighbor,KNN)和決策樹(decision tree,D-Tree)。

        馬薩諸塞大學(xué)的Papka[32]采用KNN分類算法,將與當(dāng)前報(bào)道最相似的k個(gè)報(bào)道作為最鄰近報(bào)道,則待測報(bào)道所屬的話題就由這k個(gè)報(bào)道中出現(xiàn)頻率最高的話題來決定。卡耐基梅隆大學(xué)的Carbonell等[33]采用D-Tree算法進(jìn)行話題追蹤,該算法通過訓(xùn)練語料來構(gòu)建決策樹,決策樹中的每個(gè)中間節(jié)點(diǎn)代表一種決策屬性,節(jié)點(diǎn)向下的分支則代表一種決策,最終在葉節(jié)點(diǎn)得出所屬的話題。大量實(shí)驗(yàn)和論文表明,基于KNN算法的話題追蹤效果要優(yōu)于D-Tree算法,其原因在于KNN可以通過減少k值來保證追蹤的正確率,而D-Tree必須依賴多層樹結(jié)構(gòu)得出正確的追蹤策略,這樣很容易造成漏檢和誤檢。

        由于微博信息有變化速度過快、噪聲高、文本較短等缺點(diǎn),所以針對微博的新興話題追蹤的效率一直不高[34],Huang等[35]提出了一種新興的微博話題追蹤方法,它將新詞檢測與相關(guān)話題挖掘相結(jié)合。具體來說就是通過一個(gè)基于局部線性的加權(quán)回歸算法來計(jì)算單詞的新穎性,同時(shí)抑制已有話題的單詞新穎性,最后利用單詞新穎性和衰落性來追蹤新興的話題。在超過100萬條的微博評論數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),結(jié)果表明該方法在檢測新興話題和追蹤現(xiàn)有話題上有著良好的性能。

        3.2 自適應(yīng)話題追蹤

        非自適應(yīng)話題追蹤是根據(jù)少量的話題報(bào)道來構(gòu)建話題模型,進(jìn)而實(shí)現(xiàn)話題追蹤?,F(xiàn)實(shí)生活與之非常類似,用戶對突發(fā)性話題的了解通常也非常少,而這也是經(jīng)過訓(xùn)練得到的話題模型不夠準(zhǔn)確的緣故。因此,研究一種擁有自我學(xué)習(xí)能力的自適應(yīng)話題追蹤系統(tǒng)(adaptive topic tracking,ATT)就顯得尤為重要。自適應(yīng)話題追蹤的核心思想是對話題模型進(jìn)行自學(xué)習(xí),不僅為話題嵌入新的特征,同時(shí)可以動(dòng)態(tài)調(diào)整特征權(quán)重。其優(yōu)點(diǎn)是可以減小因?yàn)橄闰?yàn)知識(shí)不足而導(dǎo)致的話題模型不完備的問題,同時(shí)還可以通過自學(xué)習(xí)機(jī)制實(shí)現(xiàn)對話題的持續(xù)跟蹤。

        Khandelwal等[36]是最早進(jìn)行ATT研究的成員之一,他們根據(jù)話題報(bào)道構(gòu)造話題模型,將話題報(bào)道與構(gòu)造出來的話題模型之間的相關(guān)度的平均值作為閾值,當(dāng)有后續(xù)相關(guān)報(bào)道輸入時(shí),將其放入訓(xùn)練語料進(jìn)行訓(xùn)練并重新構(gòu)建話題模型和閾值。該自適應(yīng)話題追蹤方法有一個(gè)很大的缺陷: 對于系統(tǒng)反饋不進(jìn)行任何驗(yàn)證,即反饋信息中包含的相關(guān)和不相關(guān)報(bào)道都會(huì)放入訓(xùn)練語料重新訓(xùn)練,這會(huì)導(dǎo)致模型更新出現(xiàn)偏差,產(chǎn)生話題漂移現(xiàn)象。針對上述方法可能會(huì)造成話題漂移的問題,美國BBN公司的Lo等[37]在其研發(fā)的LIMSI話題追蹤系統(tǒng)中,采用設(shè)置二次閾值的方式來解決反饋信息沒有驗(yàn)證的問題。只有在滿足反饋閾值的前提下才會(huì)把信息提交給系統(tǒng)進(jìn)行模型更新,反饋閾值的設(shè)定有效降低了話題漂移現(xiàn)象的產(chǎn)生[38]。LIMSI系統(tǒng)有靜態(tài)和動(dòng)態(tài)兩種權(quán)重更新策略,經(jīng)實(shí)驗(yàn)證明,面對社交媒體的話題追蹤時(shí)選用動(dòng)態(tài)權(quán)重更新策略效果更佳。

        有些研究者在微博話題追蹤中引入語義信息[39],劉彥偉[40]將話題中心向量引入話題模型的同時(shí),使用語義相似度對判斷結(jié)果進(jìn)行修正,將微博文檔劃分到對應(yīng)話題后進(jìn)行話題中心向量的自適應(yīng)調(diào)整。不同于利用語義信息的自適應(yīng)話題追蹤,柏文言等[41]提出了一種融合用戶關(guān)系的自適應(yīng)微博話題追蹤方法。首先將追蹤時(shí)間窗內(nèi)的推文映射到特征空間,形成候選推文集合,然后根據(jù)推文的分布特點(diǎn)和話題追蹤的目的對推文特征空間做出變換,最后利用改進(jìn)的k-means聚類算法對候選推文集合進(jìn)行二元聚類,劃分出相關(guān)推文集合。使用Twitter平臺(tái)的實(shí)時(shí)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),結(jié)果表明,該方法能夠及時(shí)追蹤話題的熱度變化和話題焦點(diǎn)的演變,同時(shí)也可以提高微博話題追蹤的穩(wěn)定性。

        因?yàn)樵掝}的演化過程與時(shí)間緊密相關(guān),F(xiàn)uling Hu等[42]提出了一個(gè)事件—時(shí)間關(guān)系模型來研究話題跟蹤任務(wù),該方法主要通過識(shí)別和挖掘后續(xù)報(bào)道中的事件─時(shí)間流,將事件的時(shí)間屬性引入向量空間模型,并將該模型應(yīng)用于話題跟蹤的相關(guān)決策,最后根據(jù)時(shí)間屬性重新調(diào)整特征向量的權(quán)重分配,實(shí)現(xiàn)自適應(yīng)話題追蹤。實(shí)驗(yàn)結(jié)果顯示,在DET曲線性能評估系統(tǒng)平臺(tái)上, 該模型能夠比非自適應(yīng)話題追蹤模型更加準(zhǔn)確地跟蹤話題事件的演化過程。

        4 社交媒體話題檢測追蹤研究展望

        中文語義信息復(fù)雜多變,想要通過機(jī)器對文本信息進(jìn)行深層挖掘就顯得格外困難。另外,針對目前熱門的社交媒體,又出現(xiàn)了海量短文本,甚至超短文本的挑戰(zhàn)。因此,有許多方面的問題需要解決。

        (1) 海量信息問題。由于社交媒體數(shù)據(jù)量龐大,且更新速度快,如新浪微博在2017年有3.76億月活躍用戶,1.65億日活躍用戶,每天發(fā)送微博數(shù)目超過1億條,所以建立針對社交媒體的流數(shù)據(jù)處理系統(tǒng)是一個(gè)亟需解決的問題。為了解決上述問題,可以在原有算法的基礎(chǔ)上,結(jié)合Hadoop、Spark等大數(shù)據(jù)分析工具對微博數(shù)據(jù)進(jìn)行處理和分析。在話題檢測追蹤的任務(wù)中,需要研究出有效的針對大規(guī)模文本數(shù)據(jù)的快速聚類算法,以應(yīng)對這一挑戰(zhàn)。

        (2) 噪聲干擾問題。社交媒體中充斥著大量的廣告信息,這些廣告不僅包括公司的推廣信息,還有很多個(gè)人用戶的商品買賣信息,這些廣告噪聲對話題檢測與追蹤基本沒有實(shí)際的意義,甚至?xí)箼z測結(jié)果出現(xiàn)一定程度的偏差。針對垃圾郵件問題,研究者提出了許多垃圾郵件檢測算法。在未來的研究中,可以將這些算法改進(jìn),并應(yīng)用到微博數(shù)據(jù)中。同時(shí),鑒于微博的廣告中有很大一部分是商品信息,可以將各大電商網(wǎng)站的商品信息作為微博廣告庫的擴(kuò)展信息源,這樣可以省去大量的人工廣告信息標(biāo)注任務(wù)。

        (3) 多源信息傳播問題。在當(dāng)前的社交網(wǎng)絡(luò)中,大部分話題檢測追蹤的研究都是針對單一數(shù)據(jù)源的,如國外的Twitter或者中國的新浪微博。雖然它們的數(shù)據(jù)量巨大且更新迅速,但是如果忽略了社交媒體平臺(tái)間轉(zhuǎn)發(fā)、分享等功能,就會(huì)遺失許多其他來源的話題信息,導(dǎo)致無法全面地獲取新興話題以及話題的演變過程。因此,可以考慮在檢測過程中加入關(guān)聯(lián)網(wǎng)站信息,全面反映網(wǎng)絡(luò)中目標(biāo)話題的分布態(tài)勢。

        (4) 非文本信息問題。針對熱門話題的檢測,應(yīng)該同時(shí)考慮文本信息和非文本信息對檢測過程的貢獻(xiàn)。近期的研究中,有人將社交媒體的時(shí)序特征和用戶細(xì)節(jié)特征等非文本信息用于話題檢測模型的構(gòu)建,取得了一定的效果,但是,目前的研究只簡單利用了用戶的權(quán)威度和評論轉(zhuǎn)發(fā)數(shù)等用戶行為特征[43]。在以后的研究中,可以將用戶的影響力信息、用戶參與社交媒體互動(dòng)的行為信息等特征納入話題檢測與追蹤的研究中。

        (5) 結(jié)果評估問題。話題檢測與追蹤結(jié)果的評價(jià)方法除了傳統(tǒng)的準(zhǔn)確率、召回率、F1值外,第三方使用效果、人工評估也是經(jīng)常用于評價(jià)的指標(biāo)。第三方使用效果指的是將話題檢測追蹤模型應(yīng)用于文本分類、信息檢索等方面,利用文本分類的效果、信息檢索的準(zhǔn)確性對話題檢測追蹤的效果進(jìn)行間接評估。在實(shí)際工作中,人工評價(jià)其實(shí)是最可靠、適用范圍最廣的評估方式,這也是話題檢測追蹤領(lǐng)域一個(gè)亟需解決的問題,即找到一種自動(dòng)的適用全領(lǐng)域的評估方法。

        (6) 深度學(xué)習(xí)缺乏應(yīng)用的問題。深度學(xué)習(xí)在話題檢測與追蹤領(lǐng)域缺乏有效的應(yīng)用,我們認(rèn)為有兩方面的原因: 一方面,深度學(xué)習(xí)從2006年取得突破性進(jìn)展后,最先應(yīng)用于圖像和語音領(lǐng)域,而在自然語言處理領(lǐng)域的應(yīng)用則是近些年才開始的,這導(dǎo)致話題檢測與追蹤領(lǐng)域目前還沒有較為成熟的模型。另一方面,話題檢測與追蹤數(shù)據(jù)的時(shí)效性很強(qiáng),而深度學(xué)習(xí)方法非常依賴對數(shù)據(jù)的訓(xùn)練和學(xué)習(xí),所以頻繁的數(shù)據(jù)變化也是導(dǎo)致深度學(xué)習(xí)方法沒有廣泛應(yīng)用到話題檢測與追蹤任務(wù)的原因之一。

        猜你喜歡
        文檔聚類文本
        有人一聲不吭向你扔了個(gè)文檔
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        基于改進(jìn)的遺傳算法的模糊聚類算法
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        如何快速走進(jìn)文本
        日本伊人精品一区二区三区| 久久亚洲aⅴ精品网站婷婷| 国产一区二区三区影片| 女同性恋一区二区三区av| 亚洲精品成人网站在线播放| 国产第一页屁屁影院| 成人无码网www在线观看| 粉色蜜桃视频完整版免费观看在线 | 亚洲无码美韩综合| 日本免费一区二区在线看片| 伊人久久大香线蕉av色| 综合三区后入内射国产馆| 精品无码成人片一区二区| 国产精品又爽又粗又猛又黄| 久久精品国产99久久无毒不卡| 亚洲av无码男人的天堂在线| 国产在视频线精品视频二代 | 成人男性视频在线观看| 日韩av无码久久一区二区| 亚洲av永久无码精品秋霞电影影院| 噜噜噜色97| 日本视频一区二区三区观看| 怡红院av一区二区三区| 女同啪啪免费网站www| 一区二区三区国产偷拍| 精品一二三四区中文字幕| 亚洲aⅴ天堂av天堂无码麻豆| 免费国产99久久久香蕉| 色婷婷亚洲精品综合影院| 精品少妇一区二区三区四区| 男女动态91白浆视频| 亚洲香蕉成人av网站在线观看| 亚洲色偷偷色噜噜狠狠99| 亚洲av毛片成人精品| 国产日产韩国av在线| 国语精品一区二区三区| 久久国产国内精品对话对白| 丝袜美腿一区在线观看| 国产放荡对白视频在线观看| 999国产一区在线观看| 丝袜美腿亚洲综合玉足|