亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞向量語義聚類的微博熱點(diǎn)挖掘方法

        2018-03-06 11:05:25劉培磊唐晉韜謝松縣岳大鵬劉海池
        關(guān)鍵詞:語義單詞方法

        劉培磊,唐晉韜,王 挺,謝松縣,岳大鵬,劉海池

        (國防科技大學(xué)計(jì)算機(jī)學(xué)院,湖南 長沙 410073)

        1 引言

        隨著互聯(lián)網(wǎng)的發(fā)展和信息時代的到來,信息過載(Information Overloading)給人們使用信息帶來了挑戰(zhàn)。為了應(yīng)對這種挑戰(zhàn),如何從海量的文本數(shù)據(jù)中自動挖掘出熱點(diǎn)事件或者熱點(diǎn)話題已然成為一個重要的研究問題[1]。傳統(tǒng)的熱點(diǎn)檢測主要針對網(wǎng)頁、新聞、博客等數(shù)據(jù),以較長的篇章為單位進(jìn)行處理[2]。近十年以來,以Twitter、Facebook、微博、微信等為代表的社交媒體平臺飛速發(fā)展,出現(xiàn)了海量的短文本信息。這些社交媒體中短文本數(shù)據(jù)不同于傳統(tǒng)網(wǎng)頁數(shù)據(jù),它們短小、高噪聲、實(shí)時、并且包含更多元數(shù)據(jù)[3]。社交媒體數(shù)據(jù)的這些特點(diǎn)給傳統(tǒng)的熱點(diǎn)檢測與挖掘技術(shù)帶來了挑戰(zhàn)[4]。首先,傳統(tǒng)熱點(diǎn)挖掘是以文檔為單位的。而社交媒體中每條消息相對獨(dú)立,并且這些消息通常比較短,有時甚至只包含一兩個句子,因此一條消息很難被視為一篇文檔。而如果將多條消息簡單地合并在一起視為一篇文檔,它們之間又缺少必要的語義聯(lián)系與篇章結(jié)構(gòu)。因此,從熱點(diǎn)挖掘角度看,社交媒體數(shù)據(jù)與傳統(tǒng)網(wǎng)頁等有本質(zhì)上的不同。其次,傳統(tǒng)的熱點(diǎn)挖掘方法往往使用詞頻-逆文檔頻率TF-IDF(Term Frequency-Inverse Document Frequency)等基于詞頻統(tǒng)計(jì)的方法[1]。這種方法主要考慮單詞的統(tǒng)計(jì)特征,沒有考慮單詞之間的語義關(guān)聯(lián)。社交媒體消息短小,且存在大量與熱點(diǎn)無關(guān)的噪聲,對基于統(tǒng)計(jì)特征的方法具有較大影響。最后,社交媒體中用戶關(guān)注的熱點(diǎn)多種多樣,因此同一時段的消息可能涉及不同的熱點(diǎn),使得熱點(diǎn)挖掘問題變得更加復(fù)雜。雖然社交媒體數(shù)據(jù)具有以上這些問題,但是它的一些特點(diǎn)也給熱點(diǎn)挖掘帶來了便利。每條微博中通常都包含時間信息、轉(zhuǎn)發(fā)次數(shù)等信息,部分消息還包含精確的全球定位系統(tǒng)GPS(Global Position System)信息[5],以及一些實(shí)體相關(guān)的元信息,比如tag標(biāo)簽[6]、用戶名、鏈接等。此外,元信息中還有一些與發(fā)布者相關(guān)的信息,比如注冊地點(diǎn)、粉絲數(shù)等。如何充分利用社交媒體數(shù)據(jù)的這些特點(diǎn)來提升熱點(diǎn)挖掘方法的性能也是一個重要問題。

        目前社交媒體上的熱點(diǎn)挖掘研究從多個不同的角度進(jìn)行[7],包括社交網(wǎng)絡(luò)結(jié)構(gòu)[8]、用戶行為模式[9]、文本內(nèi)容[10]等。其中基于網(wǎng)絡(luò)結(jié)構(gòu)和用戶行為模式的熱點(diǎn)挖掘方法可以檢測到熱點(diǎn)的發(fā)生及其發(fā)生的地點(diǎn)、時間等信息,但是由于這些方法不直接使用文本內(nèi)容,因此很難直接抽取到具體內(nèi)容以及描述熱點(diǎn)的關(guān)鍵詞?;谖谋緝?nèi)容分析的方法更擅長抽取熱點(diǎn)內(nèi)容,但是其計(jì)算代價高,不利于大規(guī)模檢測熱點(diǎn)。此外,基于內(nèi)容分析的方法往往只適應(yīng)于檢測和抽取特定類型的熱點(diǎn)事件或者話題,并且需要預(yù)先給出熱點(diǎn)類型或者相關(guān)關(guān)鍵詞[10]。一個可行的思路是將這兩種優(yōu)勢互補(bǔ)的方法結(jié)合起來,即首先利用基于網(wǎng)絡(luò)結(jié)構(gòu)或者行為模式的方法檢測熱點(diǎn),并過濾部分與熱點(diǎn)不太相關(guān)的文本數(shù)據(jù);而后利用內(nèi)容分析的方法抽取熱點(diǎn)的具體內(nèi)容或者關(guān)鍵詞。在前期的工作中[11],我們發(fā)現(xiàn)通過對信息流動時空模式的分析可以檢測到熱點(diǎn)的發(fā)生及其時間、地點(diǎn),但是怎樣從大批充滿噪音的微博消息中提取出熱點(diǎn)的具體內(nèi)容是一個有待研究的問題,尤其是當(dāng)這批微博消息中包含多個并列熱點(diǎn)的時候。有時單條微博消息中也可能涉及多個熱點(diǎn),因此以微博消息為單位聚類不夠合理。所以,本文提出從更細(xì)的單詞的粒度上進(jìn)行熱點(diǎn)挖掘,并引入詞向量語義聚類的方法來進(jìn)一步提升熱點(diǎn)挖掘效果。

        Twitter是一個開放的微博平臺,本文的實(shí)驗(yàn)雖然是基于Twitter數(shù)據(jù),但是相關(guān)的方法和技術(shù)對各種社交媒體平臺具有一定普適性。本文的貢獻(xiàn)點(diǎn)包括:(1)基于前期工作,提出了一種結(jié)合用戶行為模式與文本內(nèi)容分析的熱點(diǎn)發(fā)現(xiàn)與挖掘方法。(2)針對Twitter等社交媒體數(shù)據(jù)特點(diǎn),提出了從單詞層面對熱點(diǎn)進(jìn)行細(xì)粒度挖掘的方法。(3)將詞向量的方法,通過詞向量語義聚類的方法引入熱點(diǎn)挖掘,通過更多地使用語義關(guān)聯(lián)特征帶來較大性能提升。目前經(jīng)典的熱點(diǎn)方法通常使用向量空間模型進(jìn)行文本聚類,然后使用基于TF-IDF等詞頻方法從每個文本聚類中抽取關(guān)鍵詞。在實(shí)驗(yàn)部分將本文提出的方法與這些經(jīng)典方法進(jìn)行了對比。

        2 方法

        傳統(tǒng)的基于社交媒體內(nèi)容分析進(jìn)行熱點(diǎn)挖掘的方法主要是以單條消息為單位,以關(guān)鍵詞檢索和匹配為基礎(chǔ),較少涉及詞語之間的語義關(guān)聯(lián)。本文以詞語為單位,通過語言模型任務(wù)訓(xùn)練產(chǎn)生詞向量,利用詞語之間的語義關(guān)聯(lián)形成語義聚類,從而產(chǎn)生描述熱點(diǎn)的關(guān)鍵詞集合。為了方便描述問題,給出如下定義。

        定義1(熱點(diǎn)) 熱點(diǎn)對應(yīng)Twitter中的熱點(diǎn)事件或者熱點(diǎn)話題,可以使用一個五元組表示:hotspot=(time,location,keywords,participants,text-sequence)。其中,time,location,keywords,participants分別表示熱點(diǎn)發(fā)生的時間段、地點(diǎn)、關(guān)鍵詞以及參與者,text-sequence表示一個消息序列。

        定義2(消息序列) 消息序列是一個持續(xù)一定時間的Twitter消息集合:text-sequencen=[m1,m2,…,mi,…,mj,…,mn],其中,n表示包含的消息總條數(shù),mi表示其中一條消息。對于任意1≤i

        在Twitter中,每條信息mi包含文本和元信息兩個主要部分。其中元信息是普通用戶不可見的,但是可以通過應(yīng)用程序接口API(Application Program Interface)獲取。元信息中包含消息的發(fā)布時間、轉(zhuǎn)發(fā)次數(shù)、回復(fù)對象等,部分消息還包含GPS定位信息。此外,元信息還包含用戶相關(guān)的信息,如注冊地點(diǎn)、注冊時間、粉絲數(shù)、自我介紹等等。而消息中的文本部分是普通用戶日??梢钥吹降牟糠郑捎赥witter公司的限制,每條消息通常都很短,并且相當(dāng)大一部分消息中包含一些實(shí)體。

        定義3(實(shí)體) Twitter消息中的實(shí)體包括標(biāo)簽、用戶名、轉(zhuǎn)發(fā)符號、網(wǎng)址等等。其中,標(biāo)簽通常是一個以符號“#”作為前綴的單詞或者字符串,用戶名的前綴是“@”符號,轉(zhuǎn)發(fā)符號是“RT”,而網(wǎng)址通常會被Twitter公司轉(zhuǎn)化成一種特殊的短網(wǎng)址格式。

        定義4(信息流) 消息在不同地點(diǎn)之間轉(zhuǎn)發(fā)可以導(dǎo)致這些地點(diǎn)之間的信息流動,兩個地點(diǎn)之間在日期i的信息流可以定義為當(dāng)天的所有轉(zhuǎn)發(fā)消息Retweet的集合:information-flowi={rij},其中rij表示日期i當(dāng)天的一條Retweet。信息流的強(qiáng)度可以定義為轉(zhuǎn)發(fā)消息的數(shù)量#{rij}。值得注意的是,在Twitter中轉(zhuǎn)發(fā)消息Retweet本身也是一條普通的Tweet消息。

        2.1 熱點(diǎn)檢測

        熱點(diǎn)檢測使用的是基于網(wǎng)絡(luò)結(jié)構(gòu)和用戶行為模式的方法,這部分內(nèi)容在前期工作中有較為詳細(xì)的描述[11],本節(jié)只作簡要介紹。通過數(shù)據(jù)分析發(fā)現(xiàn),世界各地之間的信息流強(qiáng)度具有一定規(guī)律性,即信息傾向于從某些地點(diǎn)流向另外一些地點(diǎn),并且這些信息流的強(qiáng)度通常在有限的范圍內(nèi)波動。這樣,任意時刻世界各地之間實(shí)際上存在一張相對穩(wěn)定的信息流動圖。而實(shí)驗(yàn)結(jié)果表明,現(xiàn)實(shí)世界的熱點(diǎn)會引起相應(yīng)信息流的變化。因此,通過監(jiān)測信息流動圖的變化就可以檢測到熱點(diǎn)的發(fā)生及其時間、地點(diǎn)、參與者以及相關(guān)消息。

        至此表示hotspot的五元組中只有keywords還完全不知道,因此下面的主要任務(wù)就是從消息序列text-sequence或者它的一個子集{mi}中抽取描述熱點(diǎn)的關(guān)鍵詞。通過這種熱點(diǎn)檢測方法得到的消息序列可能包含噪聲,即其中部分消息與熱點(diǎn)hotspot無關(guān)。并且我們不知道這個熱點(diǎn)具體內(nèi)容或者它的關(guān)鍵詞是什么。更重要的是,信息流的異??赡苁怯啥鄠€熱點(diǎn)共同作用的結(jié)果,因此消息序列就可能包含多個熱點(diǎn)相關(guān)的消息。

        2.2 消息處理

        首先檢測到強(qiáng)度發(fā)生異常的信息流,抽取這個信息流中的所有轉(zhuǎn)發(fā)消息information-flowi和源地點(diǎn)的所有原始消息{mi}。比如倫敦到紐約的信息流,其源地點(diǎn)就是倫敦。分別去除停用詞后,通過簡單地生成標(biāo)簽云的方式可以大概地展示這兩個數(shù)據(jù)集中包含的熱點(diǎn)。通過直觀觀察發(fā)現(xiàn)information-flowi具有過濾作用,其中包含的噪音較小,適合用于抽取具有重大影響的熱點(diǎn)(見圖1b)。而原始消息mi中包含很多較小的熱點(diǎn)(見圖1a),這些熱點(diǎn)的相關(guān)消息混雜在一起,給熱點(diǎn)挖掘和關(guān)鍵詞抽取帶來挑戰(zhàn)。

        Figure 1 Tag clouds of Retweets and Tweets圖1 轉(zhuǎn)發(fā)消息與原始消息的標(biāo)簽云對比圖

        通過這樣的處理,實(shí)際上熱點(diǎn)hotspot發(fā)生的地點(diǎn)、時間、參與者及相關(guān)的消息都可以抽取出來了,接下來就是從相關(guān)消息中抽取可以描述熱點(diǎn)的關(guān)鍵詞。本文沒有先對所有消息進(jìn)行聚類,而是直接從消息集合中產(chǎn)生每個詞的詞向量。然后在單詞級別通過詞向量進(jìn)行詞語的語義聚類,從而達(dá)到在同一文本集合中同時挖掘多個熱點(diǎn)的目的。

        2.3 產(chǎn)生詞向量

        在傳統(tǒng)的特征向量空間模型中,詞語通常被視為構(gòu)成文本的不可再細(xì)分的“原子”(Atom)符號。兩個單詞只要符號本身不同,就認(rèn)為二者之間沒有任何聯(lián)系。比如“計(jì)算機(jī)”和“電腦”這兩個詞意思非常相近,但是卻會被視為兩個完全不相關(guān)的單詞,這被稱為“語義鴻溝現(xiàn)象”。而在使用深層神經(jīng)網(wǎng)絡(luò)處理圖片時人們發(fā)現(xiàn),標(biāo)注有“計(jì)算機(jī)”和“電腦”這兩種標(biāo)簽的圖片會被判斷為相似圖片。受此啟發(fā),研究人員想到了用一個向量來表示一個單詞[10],就像用一個像素矩陣來表示一幅圖片一樣。這個表示單詞的向量就是詞向量,詞向量與傳統(tǒng)向量空間模型相比有較大優(yōu)勢。

        詞向量模型可以從大規(guī)模無標(biāo)注語料中自動學(xué)習(xí)得到[12]?;?954 年Harris 提出分布假說(Distributional Hypothesis),即“上下文相似的詞,其語義也相似”,詞向量中的信息來自背景語料中單詞的上下文。通常使用神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)方法在語言模型構(gòu)建等任務(wù)上反復(fù)迭代訓(xùn)練得到單詞的詞向量表示,用得比較多的是連續(xù)詞袋CBOW(Continuous Bag-Of-Words)模型和Skip-gram 模型。其中,CBOW是利用上下文預(yù)測單詞方法進(jìn)行訓(xùn)練,而Skip-gram是利用單詞預(yù)測上下文方法進(jìn)行訓(xùn)練[12]。為了加快生成詞向量的速度,這兩種模型都沒有考慮詞序信息。另外還有一些更復(fù)雜的模型考慮了上下文的詞序信息[13]。通過上述方式得到的詞向量包含了單詞的語義信息,因此可以通過這種向量表示來度量文本之間的語義相似度。

        2.4 語義聚類

        傳統(tǒng)熱點(diǎn)挖掘方法首先將消息集合{mi}聚類,每個聚類對應(yīng)一個熱點(diǎn),然后針對每個聚類抽取高頻詞或者關(guān)鍵詞來表示相應(yīng)的熱點(diǎn)。這種方法以消息為單位,粒度較大,并且只使用詞語的統(tǒng)計(jì)特征而沒有用到語義特征,因此聚類效果不太理想。本文引入詞向量和語義聚類的方法,以單個詞語為聚類對象并且充分考慮到詞語之間的語義關(guān)聯(lián),以改善熱點(diǎn)挖掘的效果。既然詞向量中了包含了詞語的語義信息,那么不同詞語之間的語義關(guān)聯(lián)與它們的詞向量距離之間必然緊密相關(guān)?;谶@個考慮,可以對消息集合{mi}中所有詞語的詞向量進(jìn)行聚類。然后根據(jù)每個單詞到相應(yīng)聚類質(zhì)心的距離來排序,選出離質(zhì)心最近的前n個詞來代表這個聚類。這種方法在本文稱為WVC(Word Vector Clustering),具體細(xì)節(jié)請見算法1。使用WVC方法進(jìn)行聚類的好處在于:每個聚類中的詞語語義上彼此相關(guān),因此選出的前n個詞語就能夠從語義上代表相應(yīng)的聚類。

        算法1WVC算法

        Input:Twitter的消息集合{mi}。

        Output: clusters and their keywords。

        1. for each messagemi

        2. input its words into word vector model in sequence

        3. load the word vector model;

        4. for each word in {mi}

        5. generate a vector;

        6. clustering all the vectors intokclusters;

        7. for each cluster

        8. if # words>n

        9. then selectnwords nearest to the cluster center;

        10. else select all words;

        11. end if

        12. Output these words as keywords of hotspot;

        3 實(shí)驗(yàn)

        為了在實(shí)際數(shù)據(jù)集上驗(yàn)證本文提出的詞向量語義聚類方法WVC的效果,設(shè)計(jì)了本實(shí)驗(yàn)。具體來說,實(shí)驗(yàn)?zāi)康陌▽Ρ仍~向量技術(shù)與經(jīng)典的TF-IDF方法在抽取關(guān)鍵詞方面的效果,以及檢驗(yàn)基于詞向量語義聚類方法在熱點(diǎn)挖掘中的效果。實(shí)驗(yàn)在Twitter數(shù)據(jù)集上進(jìn)行,并利用消息中的tag標(biāo)簽輔助構(gòu)造測試集。

        3.1 實(shí)驗(yàn)設(shè)置

        本文所有實(shí)驗(yàn)均部署在ThinkPad s5筆記本電腦上,數(shù)據(jù)集包含800多萬條Tweet消息。實(shí)驗(yàn)中使用的詞向量生成工具是Google的word2vec[14],聚類算法是Weka 3.6中的K-means算法[15],索引和檢索工具是Lucene3.6.0[16]。關(guān)鍵詞抽取工具來自開源項(xiàng)目wvtool1.1,使用TF-IDF指標(biāo)來抽取關(guān)鍵詞[17]。

        測試數(shù)據(jù)集使用tag標(biāo)簽來輔助構(gòu)造。首先以消息為單位,使用Lucene對數(shù)據(jù)集中美國東部時區(qū)的原始消息建立全文索引,將tag標(biāo)簽、用戶名、轉(zhuǎn)發(fā)標(biāo)志等單獨(dú)加入索引域。然后通過檢索接口統(tǒng)計(jì)每個tag標(biāo)簽對應(yīng)的消息數(shù)量并排序,挑選其中熱門標(biāo)簽(包含這個標(biāo)簽的消息大于一定閾值)。如表1所示,共挑選出9個熱門標(biāo)簽,每個標(biāo)簽對應(yīng)一個熱點(diǎn)。將這個9個標(biāo)簽對應(yīng)的所有消息合并在一起作為測試數(shù)據(jù)集。

        Table 1 Hot topics and their corresponding messages

        3.2 結(jié)果展示

        首先對數(shù)據(jù)集進(jìn)行一些簡單的預(yù)處理操作,包括處理不規(guī)范的符號和單詞以及除tag標(biāo)簽外的所有實(shí)體等。然后使用word2vec工具產(chǎn)生詞向量,所有參數(shù)使用默認(rèn)設(shè)置。使用K-means算法對所有詞向量進(jìn)行語義聚類,每個聚類表示一個熱點(diǎn)。聚類數(shù)設(shè)置為9,迭代次數(shù)為50。根據(jù)詞向量到相應(yīng)聚類中心的距離對每個詞向量進(jìn)行打分并排名,選取每個聚類中前20個單詞作為相應(yīng)熱點(diǎn)的關(guān)鍵詞。實(shí)驗(yàn)中按照下述方式將9個聚類的關(guān)鍵詞集合與9個熱點(diǎn)話題標(biāo)簽一一對應(yīng)起來:如果這個聚類的關(guān)鍵詞中包含某個熱點(diǎn)的tag標(biāo)簽,那么直接將這個關(guān)鍵詞集合與相應(yīng)的tag標(biāo)簽對應(yīng);剩余的關(guān)鍵詞集合通過人工觀察,將每個關(guān)鍵詞集合對應(yīng)到某個特定的tag標(biāo)簽。熱度最高的前三個標(biāo)簽的關(guān)鍵詞展示在表2中。

        Table 2 Keywords of hotspot from WVC

        本實(shí)驗(yàn)中關(guān)鍵詞抽取的對比方法包括基于詞頻的TF方法和TF*IDF方法。具體來說,首先進(jìn)行去除停用詞等預(yù)處理。在此基礎(chǔ)上,TF方法使用高頻詞來作為關(guān)鍵詞。而TF*IDF方法通過TF*IDF指標(biāo)來抽取關(guān)鍵詞,其中統(tǒng)計(jì)IDF時需要背景語料,本實(shí)驗(yàn)中分別選取倫敦和美國東部每天的全部轉(zhuǎn)發(fā)消息,一共組合成28篇文檔作為背景語料。這兩種方法從整個數(shù)據(jù)集中抽取關(guān)鍵詞,然后隨機(jī)地分成9組。通過上一段中相似的方式將這9個關(guān)鍵詞集合對應(yīng)到9個熱門標(biāo)簽。使用TF*IDF方法抽取的部分關(guān)鍵詞展示在表3中,限于篇幅只展示了最熱門的前三個標(biāo)簽對應(yīng)的關(guān)鍵詞。通過直觀觀察可以發(fā)現(xiàn),表2中結(jié)果整體上要好于表3中的結(jié)果。以#ihavenotolerance標(biāo)簽為例,WVC方法抽取的Liars(騙子)、exceptions(意外)、Sneakers(蛇)、jitney(次品)等詞都是比較常見的人們“難以忍受”的對象。而church(教堂)、faggots(同性戀)等在社交媒體上的年青人群體中,也是較多人的討厭對象。更有趣的是,WVC方法還提出兩個不規(guī)范的詞U(表示“你”)和0_o(表示鬼臉的表情符號)。通過瀏覽對應(yīng)的Twitter消息發(fā)現(xiàn),U是在開玩笑中多次提到(“我無法忍受你”)。相比之下,表3中的絕大多數(shù)詞都與#ihavenotolerance標(biāo)簽沒有直接的語義相關(guān)性。

        Table 3 Keywords of hot topics from TF method

        以上方法主要是用來評測基于詞向量方法WVC抽取關(guān)鍵詞的效果。為了進(jìn)一步檢驗(yàn)語義聚類的效果,本實(shí)驗(yàn)使用了TF*IDF+方法進(jìn)行對比。即表1中的每個標(biāo)簽相關(guān)的消息集合不再被合并到一起,而是直接從每個標(biāo)簽對應(yīng)的消息集合中直接抽取關(guān)鍵詞。在此條件下與WVC進(jìn)行對比,TF*IDF+方法占了很大的優(yōu)勢,因?yàn)門F*IDF+方法中的聚類過程實(shí)際上被認(rèn)為是絕對正確的。使用TF*IDF+方法抽取的關(guān)鍵詞展示在表4中,與表2對比可以直觀地看出:基于詞向量語義聚類的方法在劃分關(guān)鍵詞集合過程中是有效的。另外,將表4、表3與表1進(jìn)行對比可以看出,通過TF*IDF指標(biāo)提取的關(guān)鍵詞通常是一些比較重要而有實(shí)質(zhì)意義的詞,但卻不一定都與熱點(diǎn)話題的標(biāo)簽語義相關(guān)。更嚴(yán)格的定量分析將在3.3節(jié)給出。

        Table 4 Keywords of hot topics from TF*IDF method

        3.3 定量分析

        3.2節(jié)已經(jīng)直觀地給出了對比實(shí)驗(yàn)的部分結(jié)果,本節(jié)將更嚴(yán)格地定量評估本文所提方法與三個對比方法的實(shí)驗(yàn)結(jié)果。由于涉及到語義相關(guān)性,本文請使用過社交網(wǎng)絡(luò)平臺的三位學(xué)生對四個模型的結(jié)果進(jìn)行手工標(biāo)注,對每個模型的結(jié)果提出的要求是“標(biāo)出你認(rèn)為與這個標(biāo)簽相關(guān)的單詞”。結(jié)果采用“三中選二”的方式,即至少兩個同學(xué)認(rèn)為某個單詞與對應(yīng)標(biāo)簽相關(guān)才認(rèn)為這個單詞真的相關(guān),最后以標(biāo)注的結(jié)果為標(biāo)準(zhǔn)答案。

        如表5所示,實(shí)驗(yàn)結(jié)果使用了三個評價指標(biāo):熱點(diǎn)精度、總精度與標(biāo)簽比率。熱點(diǎn)精度為∑iri/∑iki,其中,ri表示與話題i相關(guān)的關(guān)鍵詞個數(shù),而ki表示話題i的關(guān)鍵詞總個數(shù)??偩葹閞/n,其中,r表示與9個話題標(biāo)簽中任一個標(biāo)簽相關(guān)的關(guān)鍵詞的總個數(shù),而n表示9個話題標(biāo)簽包含關(guān)鍵詞的總個數(shù)??偩戎饕疾斓氖顷P(guān)鍵詞提取方法本身的效果,受熱點(diǎn)聚類過程影響較小。熱點(diǎn)精度與總精度受人工標(biāo)注的主觀性影響,為了展示更客觀的效果提出標(biāo)簽比率這個指標(biāo)。每個話題包含的關(guān)鍵詞中會含有一些其它相關(guān)標(biāo)簽,比如表2中熱點(diǎn)標(biāo)簽#whoeverimarry相關(guān)的關(guān)鍵詞中包含標(biāo)簽#foreveralone和#money,而且這兩個標(biāo)簽在語義上都與標(biāo)簽#whoeverimarry有一定相關(guān)性,所以稱之為“相關(guān)標(biāo)簽”。標(biāo)簽比率為g/n,其中,g表示相關(guān)tag標(biāo)簽總數(shù),而n表示關(guān)鍵詞總個數(shù)。由于使用wvtool工具抽取關(guān)鍵詞時,過濾掉了所有非英文字母的符號,因此表5中TF*IDF和TF*IDF+標(biāo)簽比率指標(biāo)未統(tǒng)計(jì)。

        Table 5 Quantifiable results of all methods

        從表5可以看出,本文提出的WVC方法在三個指標(biāo)上都是最高的。具體來說,在熱點(diǎn)精度這個指標(biāo)上,WVC系統(tǒng)甚至超過了TF*IDF+方法,雖然后者從單個熱點(diǎn)話題的消息集合中直接提取關(guān)鍵詞。而TF與TF*IDF方法由于使用隨機(jī)劃分代替聚類,因此效果較差。在總精度這個指標(biāo)上WVC方法效果最好,說明在熱點(diǎn)挖掘任務(wù)上通過詞向量語義聚類方式提出的關(guān)鍵詞比基于詞頻統(tǒng)計(jì)方式提取的關(guān)鍵詞效果好。TF方法相比另外三種方法差距較大,說明直接使用高頻詞作為關(guān)鍵詞效果不佳。再對比標(biāo)簽比率這個指標(biāo),WVC遠(yuǎn)高于TF方法,在一定程度上說明前者提取關(guān)鍵詞語義關(guān)聯(lián)性更強(qiáng)。最后對比WVC方法自身的熱點(diǎn)精度與總精度兩個指標(biāo),只相差6.1個百分點(diǎn),這說明通過語義聚類方法來劃分關(guān)鍵詞集合具有良好的效果。

        4 結(jié)束語

        本文針對社交媒體文本數(shù)據(jù)的特點(diǎn),提出了結(jié)合用戶行為模式與文本內(nèi)容分析的熱點(diǎn)檢測與挖掘方法。在通過內(nèi)容分析挖掘熱點(diǎn)的過程中,傳統(tǒng)熱點(diǎn)挖掘方法主要是在文檔或者消息的粒度進(jìn)行聚類,對短小而高噪聲的社交媒體消息效果不佳,并且挖掘得到的關(guān)鍵詞語義關(guān)聯(lián)性弱、對熱點(diǎn)話題描述能力不夠強(qiáng)。針對傳統(tǒng)方法的不足,本文引入基于詞向量語義聚類的熱點(diǎn)挖掘方法。該方法從單詞層面進(jìn)行細(xì)粒度處理,并且充分考慮了詞語之間的語義關(guān)聯(lián)。在實(shí)際數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明,本文所提方法效果較好,在三個主要指標(biāo)上都好于傳統(tǒng)方法。本文提出的方法也存在一些不足,比如用無結(jié)構(gòu)的關(guān)鍵詞集合表示熱點(diǎn)。因此,下一步的工作包括:從關(guān)鍵詞區(qū)分出人名、地點(diǎn)、標(biāo)簽等實(shí)體,使用結(jié)構(gòu)化的關(guān)鍵詞來描述熱點(diǎn)話題。

        [1] Zhang Rui-qi. The TopNhot topics detecting method based on clustering of key features[D].Beijing:Beijing Institute of Technology,2015.(in Chinese)

        [2] Iwata T,Watanabe S,Yamada T,et al.Topic tracking model for analyzing consumer purchase behavior[C]∥Proc of the 21st International Joint Conference on Artificial Intelligence(IJCAI’09).2009: 1427-1432.

        [3] Bollen J, Mao H,Zeng X.Twitter mood predicts the stock market[J].Journal of Computational Science,2011,2(1):1-8.

        [4] Chen Feng.Hot topics mining in online social medium[D].Shanghai:East China Normal University,2014.(in Chinese)

        [5] Wang Sen. Location recommending algorithm based on social network[J].Computer Engineering & Science,2016,38(4): 667-672.(in Chinese)

        [6] Wang Xiang, Jia Yan,Zhou Bin,et al.Prediction of user’s tags in micro-blog based on interactive relations[J].Computer Engineering & Science,2013,35(10): 44-50.(in Chinese)

        [7] Atefeh F,Khreich W.A survey of techniques for event detection in Twitter[J].Computational Intelligence,2015,31(1):132-164.

        [8] Guo Lin.A hotspots mining method of web public sentiment based on short links in social medium[J].Software Guide,2015,14(11):139-141.(in Chinese)

        [9] Takahashi T, Tomioka R,Yamanishi K.Discovering emerging topics in social streams via link anomaly detection [C]∥Proc of ICDM’11,2011: 1230-1235.

        [10] Huang Xian-ying,Chen Hong-yang,Liu Ying-tao,et al.A novel feature word selecting method of micro-blog short text[J].Computer Engineering & Science,2015,37(9): 1761-1767.(in Chinese)

        [11] Liu P Q,Tang J T,Wang T.Information current in Twitter: Which brings hot events to the world[C]∥Proc of the 22nd International World Wide Web (WWW ’13),2013:111-112.

        [12] Mikolov T,Yih W,Zweig G.Linguistic regularities in continuous space word representations[C]∥Proc of NAACL-HLT’13,2013: 746-751.

        [13] Lai Si-wei.Word and document embeddings based on neural network approaches[D].Beijing:The University of Chinese Academy of Sciences,2016.(in Chinese)

        [14] word2vec project [EB/OL]. [2015-10-29].https://code.google.com/p/word2vec/.

        [15] Mark H. The WEKA data mining software[J].SIGKDD Explorations,2009,11(1):10-18.

        [16] Lucene project [EB/OL]. [2015-10-29].http://apache.justdn.org/lucene/java/.

        [17] McCallum A K.Bow: A toolkit for statistical language modeling[EB/OL].[1996-01-07].http://www.cs.cmu.edu/~mccallum/bow.

        附中文參考文獻(xiàn):

        [1] 張瑞琦.基于關(guān)鍵特征聚類的TopN熱點(diǎn)話題檢測方法研究[D].北京:北京理工大學(xué),2015.

        [4] 陳峰.網(wǎng)絡(luò)社交媒體的熱門話題挖掘[D].上海:華東師范大學(xué),2014.

        [5] 王森.基于位置社交網(wǎng)絡(luò)的地點(diǎn)推薦算法[J].計(jì)算機(jī)工程與科學(xué),2016,38(4): 667-672.

        [6] 汪祥,賈焰,周斌,等.基于交互關(guān)系的微博用戶標(biāo)簽預(yù)測[J].計(jì)算機(jī)工程與科學(xué),2013,35(10): 44-50.

        [8] 郭林.一種基于社交媒體短鏈接的網(wǎng)頁輿情熱點(diǎn)數(shù)據(jù)挖掘方法[J].軟件導(dǎo)刊,2015,14(11): 139-141.

        [10] 黃賢英,陳紅陽,劉英濤,等.一種新的微博短文本特征詞選擇算法[J].計(jì)算機(jī)工程與科學(xué),2015,37(9): 1761-1767.

        [13] 來斯惟.基于神經(jīng)網(wǎng)絡(luò)的詞和文檔語義向量表示方法研究[D].北京:中國科學(xué)院自動化研究所,2016.

        猜你喜歡
        語義單詞方法
        語言與語義
        單詞連一連
        看圖填單詞
        看完這些單詞的翻譯,整個人都不好了
        可能是方法不對
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        認(rèn)知范疇模糊與語義模糊
        成人激情四射网| 成人国产一区二区三区| 中文无码一区二区不卡av| 天天爱天天做天天爽| 无码国产一区二区色欲| 日本一区二区三区经典视频| 久人人爽人人爽人人片av| 18无码粉嫩小泬无套在线观看| 最新欧美一级视频| 日本免费影片一区二区| 日韩人妻少妇一区二区三区 | 蜜桃av多人一区二区三区| 日本视频在线观看一区二区 | h视频在线播放观看视频| 国产精品自在拍在线拍| 人妻无码一区二区| 国产伦精品一区二区三区在线| 国产精品黑丝美女啪啪啪| 大肉大捧一进一出好爽视色大师| 免费国产一级特黄aa大片在线| 香蕉蜜桃av一区二区三区| 性猛交ⅹxxx富婆视频| 亚洲精品国精品久久99热一| av无码电影一区二区三区| 国内嫩模自拍偷拍视频| 在线涩涩免费观看国产精品| 黑人性受xxxx黑人xyx性爽| 少妇高潮太爽了免费网站| 亚洲一区精品无码| 成年无码aⅴ片在线观看| 亚洲AV无码一区二区三区少妇av | 亚洲中文字幕人妻诱惑| 华人免费网站在线观看| 日韩免费无码一区二区三区| 成年男人裸j照无遮挡无码| 成人爽a毛片在线播放| 777国产偷窥盗摄精品品在线 | 六月婷婷久香在线视频| 亚洲无码夜夜操| 男女视频网站在线观看| 国产aⅴ无码专区亚洲av麻豆 |