亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于主題模型的微博話題檢測算法

        2016-10-11 05:07:01黃華軍譚駿珊秦姣華
        關(guān)鍵詞:文本檢測模型

        黃華軍,譚駿珊,秦姣華

        ?

        基于主題模型的微博話題檢測算法

        黃華軍,譚駿珊,秦姣華

        (中南林業(yè)科技大學計算機與信息工程學院,湖南長沙410004)

        微博數(shù)據(jù)的實時、大規(guī)模、短文本以及富含噪聲等特征為話題檢測帶來新的挑戰(zhàn),傳統(tǒng)向量空模型(VSM)表示文本無法很好地對其進行建模?;诖?,提出一種基于主題模型的微博話題檢測算法。首先,對微博數(shù)據(jù)構(gòu)建文檔詞條矩陣和詞語關(guān)聯(lián)矩陣來提取主題詞;然后,對主題詞進行聚類,得到主題模型;最后,利用文本與主題模型相互匹配實現(xiàn)文本聚類,從而達到話題檢測的目的。實驗結(jié)果表示,該算法能有效地進行話題聚類并檢測出話題,在最佳參數(shù)組合條件下,其各類別的平均值達到95%以上。

        話題檢測;主題模型;文檔詞條矩陣;詞語關(guān)聯(lián)矩陣

        1 引言

        在Web 2.0時代,以微博為典型代表的社交網(wǎng)絡(luò)應(yīng)用取代傳統(tǒng)媒介,占據(jù)了信息傳播的主導位置。微博門檻低、易使用、方便快捷等特點,吸引一大批網(wǎng)民用戶,使其產(chǎn)生的網(wǎng)絡(luò)在線數(shù)據(jù)呈爆炸性趨勢增長[1]。一條信息通過微博平臺能夠在短時間傳播并影響到數(shù)百萬的用戶。相比傳統(tǒng)媒體,微博在信息傳播過程中的傳播時效與傳播廣度都大大的增強。與此同時,一些虛假信息通過社交網(wǎng)絡(luò)平臺的傳播也能在短時間造成社會恐慌、用戶財產(chǎn)損失等問題。社會上許多突發(fā)性話題,往往在微博應(yīng)用上首發(fā),憑借好友轉(zhuǎn)發(fā)機制迅速傳播,引起社會廣泛共鳴,產(chǎn)生巨大的社會影響。因此,微博話題檢測技術(shù),對于社會熱點話題發(fā)現(xiàn)、網(wǎng)民意見感知、輿情檢測、應(yīng)急處理具有積極意義[2]。

        微博話題以140字以內(nèi)的文本信息、圖片、影音等多媒體內(nèi)容,展示個人最新動態(tài),話題分享。這些數(shù)據(jù)具有時效性、稀疏性、奇異性和冗余性等特點[3, 4]。同時,這些數(shù)據(jù)信息的表現(xiàn)形式也發(fā)生了變化且凌亂無序,許多有價值的信息都被湮沒在大量冗余信息中,從而導致提取和管理有用信息越來越困難。對微博話題檢測,不僅可以過濾無效信息、提高內(nèi)容質(zhì)量、改善用戶體驗,更能起到監(jiān)測、輿情控制、觀點挖掘的作用。

        話題檢測是一種信息挖掘技術(shù),從大量數(shù)據(jù)中挖掘出相關(guān)信息,為后續(xù)研究提供基礎(chǔ)[5]。傳統(tǒng)方法對文本進行話題檢測的一般思路是:主題詞提取、文本表示、文本相似度計算、文本聚類、話題檢測。1) 提取主題詞。話題是由主題詞來體現(xiàn)的,從文本中提取能表達主題的關(guān)鍵詞集合到一起,能很好地表達出文本所描述的話題。其中,最常用的是TF-IDF權(quán)重計算算法[6];通過建立詞庫來進行主題詞提取也是一種比較常見的方法[7]。2) 文本表示。目前,文本表示大都采用向量空間模型,通過主題詞來組成向量表示文本,進而構(gòu)成一個向量空間[8]。3) 文本相似度計算是度量文本間距離的一種有效途徑,用向量空間模型表示文本后,一般采用余弦定理的方法來計算其相似度,也有不少學者采用其他方法來進行計算[9, 10]。4) 文本聚類是文本信息處理方面常用的一種方法,已比較成熟,其中,比較常用的有-means[11]、層次聚類[12]等。5) 話題檢測的實質(zhì)是文本聚類,也有一些話題模型,如最常用的LDA主題模型[13]。

        傳統(tǒng)向量空間模型忽視了中文的“同義”、“多義”及高維稀疏向量問題,因而,在微博話題檢測過程中準確率和速度不盡人意。其次,傳統(tǒng)的話題檢測技術(shù)基本都是針對新聞報道進行研究的,這些新聞報道的文本格式比較規(guī)范,篇幅較為統(tǒng)一,與現(xiàn)在的微博數(shù)據(jù)特征差異很大,使傳統(tǒng)的文本處理方法已經(jīng)不再適合對微博數(shù)據(jù)進行處理?;诖耍疚奶岢鲆环N基于主題模型的文本聚類方法來進行話題檢測,通過提取主題詞來進行文本聚類,可以有效解決微博數(shù)據(jù)的話題檢測。

        2 微博文本預處理

        微博文本預處理主要包括無效微博過濾、文本提純、中文分詞并標注詞性、過濾停用詞等。具體步驟流程如圖1所示。

        無效微博過濾:在文獻[2]中提到,微博中存在一些無效微博,即沒有任何話題性、主題性的微博文本,此類微博文本通常由很少的字數(shù)組成,基本是由各種表情、符號或鏈接組成,如“????很百搭http://weibo.com/5081446387”之類的微博。

        文本提純:微博文本中存在大量與主題無關(guān)的表情、符號、鏈接、圖片等,如新浪微博中@用戶名提到用戶,并通知對方,//@用戶名則表示轉(zhuǎn)發(fā)某用戶微博標記,這些符號都與微博內(nèi)容無關(guān),稱這些為噪聲數(shù)據(jù),在文本處理中,這些噪聲數(shù)據(jù)是與實驗處理無關(guān)的數(shù)據(jù),因此,需要去掉噪聲數(shù)據(jù),對文本進行提純。

        中文分詞:由于中文文本處理的基本單位是詞語,且中文文本并不像英文中單詞之間都會用空格分開,中文文本中只有句子、單位之間才會用標點符號將其分開,因此,首先需要對中文文本進行分詞操作。中科院ICTCLAS工具對文本進行分詞操作,并標注詞性。

        過濾停用詞:人類語言中通常包含很多功能詞,與其他詞相比,這些功能詞沒有特別實際含義,如漢語語言中的“的”、“啊”、“呀”等詞。這些詞通常用于連接句子成分或表達說話者的感情、強調(diào)語調(diào)等用途,因此稱為停用詞。停用詞的存在不僅降低實驗處理結(jié)果的正確率,且由于停用詞數(shù)量眾多,導致文本矩陣存在嚴重的高維稀疏等問題,從而影響實驗的性能。因此,需要將停用詞進行過濾,保留有用的詞語作為特征詞。停用詞主要分為以下3類。

        1) 語氣詞、無用詞等:這些詞在所有文本集中出現(xiàn)的頻率都比較高,卻沒有實際的意義,如“的”、“啊”、“嗯”,“哦”,“為了”、“而且”等。這些詞在文本中只是起到支撐文本句子或增強語調(diào)等作用,并不構(gòu)成任何文本話題因素。

        2) 話題性較小的詞:由于詞性的不同,其所包含的信息量也會有所不同。一條微博文本中的話題信息基本上都是由文本中的名詞、動詞和形容詞所表示,因此,為了減少特征詞的數(shù)量,提高算法的效率,實驗選擇保留名詞、人名、地名、機構(gòu)團體名、其他專名、動詞、副動詞、名動詞、處所詞、名形詞這 10 類詞性的詞作為特征詞,除此之外的其他詞,都作為無用詞過濾掉。

        3) 出現(xiàn)頻次過低的詞:在所有文本分詞后的詞語集合中,有些詞可能只在某一條微博文本數(shù)據(jù)中出現(xiàn)一次,可以將該詞歸為無效詞,從而對這些無效詞進行過濾。

        3 話題檢測模型

        3.1 主題模型

        關(guān)鍵詞提取是構(gòu)建主題模型的基礎(chǔ),主題模型的構(gòu)建則是話題檢測最重要的一步。主題模型,顧名思義,就是對文字中隱含主題的一種建模方法。例如,“蘋果”這個詞的背后既可以表示蘋果公司的主題,也可以表示水果的主題。當蘋果與喬布斯等詞一起出現(xiàn)時,那此處蘋果基本可以設(shè)定為蘋果公司這一主題,從而認為它們是相關(guān)的。由此可知,通過詞語之間隱含的一種相關(guān)性,可以將主題分類開來。受此啟發(fā),本算法利用主題詞之間的關(guān)聯(lián)性,生成詞語關(guān)聯(lián)矩陣,推斷出詞語之間的關(guān)聯(lián)程度,找出不同的主題,從而實現(xiàn)對話題的檢測目標。整個過程如圖2所示。

        1) 提取關(guān)鍵詞

        微博文本信息短小,限制在 140 字以內(nèi),且包含文本、圖片、鏈接、視頻、特殊符號等多種元素,使微博文本呈現(xiàn)為碎片化的信息、表達方式隨意、內(nèi)容多樣,從話題角度分為有話題微博和無話題微博,從內(nèi)容角度分為評論性微博與描述性微博。其中,無話題微博包括情感宣泄類、名言警句類等。而對于其他話題微博,通過對微博話題文本進行研究分析得出,話題類微博中通常會包含一些與話題相關(guān)的關(guān)鍵詞,因此,在一定數(shù)量的話題微博下,這些關(guān)鍵詞出現(xiàn)的次數(shù)必定會高于一些其他修飾詞,而在對話題類微博進行話題檢測時,常常就只需要對這些與話題有關(guān)的詞進行分析,因此,首先提取出這些出現(xiàn)頻次高的、與話題相關(guān)的關(guān)鍵詞,可以有效降低數(shù)據(jù)處理的維度,并減少計算量,提升實驗處理的效率等。圖3是對實驗測試數(shù)據(jù)中保留的高頻詞所做的一個詞云,其中,詞語顯示越大,表明該詞出現(xiàn)次數(shù)越多。選取閾值為100,當一個詞語出現(xiàn)次數(shù)超過100時,則將其視作高頻詞,稱為關(guān)鍵詞。由此,可以給出關(guān)鍵詞的定義如下。

        2) 文檔詞條矩陣

        文檔詞條矩陣的行與列同樣分別表示文本與詞語,但是,該矩陣中的詞語由經(jīng)過提取后的關(guān)鍵詞構(gòu)成,且每一個元素的取值為0或1,當某元素所在列對應(yīng)的詞在所在行對應(yīng)的文本中出現(xiàn)時,則該元素取值為1;否則為0,其含義表示的是文檔中詞語出現(xiàn)的情況。其定義與形式化的表格描述如下。

        3) 詞語關(guān)聯(lián)矩陣

        從上述提到的文檔詞條矩陣分析可知,從文檔詞條矩陣的列,即詞語的角度考慮,對于每一個出現(xiàn)過該詞語的文本,必定會出現(xiàn)一些其他關(guān)鍵詞,這些關(guān)鍵詞都與該詞共同出現(xiàn)過,則表示這些詞語具有相關(guān)性,稱其相互關(guān)聯(lián)。當2個詞語在文檔中共同出現(xiàn)的次數(shù)多時,表示其具有強關(guān)聯(lián)性。由此可知,此處的詞語關(guān)聯(lián)矩陣的行和列都表示詞語,那么,矩陣中每一個元素的值則表示該元素所在行對應(yīng)的詞語與所在列對應(yīng)的詞語同時出現(xiàn)在文檔中的次數(shù)。其定義與形式化的表格描如下。

        4) 主題詞聚類

        通過對話題微博內(nèi)容分析可知,話題類微博包含的字數(shù)可多可少,這些微博中可能只包含一個或包含多個與話題相關(guān)的關(guān)鍵詞;而對于類別相近的一些話題,可能存在一個關(guān)鍵詞同時與2個話題的相關(guān)。包含多個關(guān)鍵詞的話題微博可能具有兩面性:一方面這些關(guān)鍵詞更具有類別代表性;另一方面,這些關(guān)鍵詞中存在與多個話題相關(guān)的詞,導致話題類別不夠明確。由此可知,對于同一類的微博話題,其文本中出現(xiàn)的詞基本都是關(guān)聯(lián)性強的詞語;而對于不同類別的微博話題,文本中出現(xiàn)的詞關(guān)聯(lián)程度則會相當小。于是,可以通過提取這些關(guān)聯(lián)性強的關(guān)鍵詞,然后,對這些詞進行聚類分析,就可以得到每一個類別對應(yīng)的關(guān)鍵詞,此時,稱這些關(guān)鍵詞為主題詞,定義如下。

        通過對話題主題詞進行分析,可得以下3點性質(zhì)。

        ①當一個話題出現(xiàn)多個主題詞時,則這些主題詞共同出現(xiàn)的次數(shù)必定比跟其他詞出現(xiàn)的次數(shù)要高。

        ②當一個話題中只有一個主題詞時,則其單獨出現(xiàn)的次數(shù)比與其他任何詞共同出現(xiàn)的次數(shù)要高出很多。

        ③當一個主題詞同時出現(xiàn)在多個內(nèi)容相近的話題中時,該詞與這些話題中其他有區(qū)別性的主題詞共現(xiàn)次數(shù)均多,則將此主題詞定為無效主題詞,不具備區(qū)分效果,將其除去,不作考慮。

        定義5 當一個主題詞和關(guān)聯(lián)性最強的主題詞所關(guān)聯(lián)的次數(shù)除以與該主題詞有關(guān)聯(lián)的其他所有主題詞數(shù)量之和的值不超過時,則定義該主題詞為無效主題詞。

        對于每一個主題詞,與其關(guān)聯(lián)性強的主題詞基本是屬于同一話題,再設(shè)定閾值參數(shù),對于每一個主題詞,分別選取與其關(guān)聯(lián)關(guān)系最強的前個主題詞進行分析。對每一個主題詞之間的強關(guān)聯(lián)詞集合進行交集運算,若交集不為空,則判斷這2個主題詞表示為同一話題;否則,表示不同話題。由此,實現(xiàn)對主題詞的聚類操作,整個模型構(gòu)建的具體流程如圖4所示。

        圖4 主題模型算法流程

        算法1 基于詞語關(guān)聯(lián)矩陣的主題詞聚類

        輸出:聚類后的各類主題詞集合

        }else{

        }

        }

        3.2 話題檢測

        文本聚類是話題檢測的前提,話題檢測技術(shù)的本質(zhì)就是無監(jiān)督的文本聚類,即在無人工干預的情況下,通過判斷一個文本是否屬于已有話題來進行歸類。通過文本聚類后,找到聚類類別,從而提取話題,達到話題檢測結(jié)果。由上述可知,主題模型創(chuàng)建后,可以得到各類別話題的主題詞,因此,可以根據(jù)文本與各類話題的主題詞匹配情況來確定各文本所屬的話題類別,從而實現(xiàn)話題聚類。假設(shè)設(shè)定閾值參數(shù),當文檔中出現(xiàn)該類主題詞的數(shù)量不小于時,該文檔屬于該類話題,從而實現(xiàn)話題檢測。即通過利用中每一個文檔的詞語與這些歸好類的主題詞進行對比匹配,當時,定義該文本屬于這個話題,其中,表示的是取交集后的個數(shù)。

        4 實驗結(jié)果與分析

        4.1 實驗準備

        實驗數(shù)據(jù)取自中國計算機學會信息網(wǎng)科研數(shù)據(jù)平臺,包含14個熱點話題,共3 455條微博文本,各話題內(nèi)容的數(shù)量如表1所示。

        表1 微博話題及其數(shù)量

        實驗評估采用信息檢測領(lǐng)域最常用的3個評價指標:準確率(precision)、召回率(recall)和綜合評價指標值(-value)。準確率是指結(jié)果中有多少是準確的;召回率就是指所有準確的結(jié)果中有多少被檢測出來。是準確率與召回率的綜合評價參數(shù),設(shè)1為檢索到的正確文檔數(shù),為所有的正確文檔數(shù),為所有檢索到的文檔數(shù)。具體計算公式分別如下

        4.2 結(jié)果分析

        首先,讀取微博文本數(shù)據(jù),對其進行預處理,得到有效詞4 987個,再提取文本的關(guān)鍵詞,得到112個關(guān)鍵詞,從而大大縮減了文本處理的維度問題。再根據(jù)關(guān)鍵詞構(gòu)造文檔詞條矩陣,此時,可知文檔詞條矩陣為一個3 455行、112列的二維矩陣,并由此可以得到一個112×112的詞語關(guān)聯(lián)矩陣。從矩陣大小來看,該算法能有效解決傳統(tǒng)方法中存在的高維稀疏等問題。

        表2 不同參數(shù)組合條件下各類話題的準確率、召回率和F值

        圖5給出了各參數(shù)組合條件下所有類別值的平均值曲線。由圖5可知,該算法在不同的參數(shù)取值條件下,平均值的取值變動范圍很大,通過實驗數(shù)據(jù)得出,當參數(shù)取值組合為,,時,各話題類別的值取平均值最好,其平均值達到95.8。此時,各個類別的準確率、召回率與值取值情況如圖6所示。

        圖5 各參數(shù)取值組合條件下F平均值取值情況

        由上述知,通過關(guān)鍵詞提取后,關(guān)鍵詞的數(shù)量是112個,其按照出現(xiàn)的頻次從大到小排列分別為:光大、證券、臺風、北京、別墅、尤特、中國、李宗偉、樓頂、林丹、流星雨、強臺風、龍王、外婆、事件、李天一、烏龍、婚禮、埃及、登陸、廣東、影響、新聞、視頻、網(wǎng)友、暴雨、出現(xiàn)、交易、地震、拆除、分享、姚貝娜、中心、記者、美國、書法、聲音、表示、昌都、酒吧、期貨、斯諾登、假山、曝光、冠軍、支持、時間、張必清、馬爾代夫、部門、高溫、羽毛球、雞蛋、問題、外孫、泰國、位于、進行、決賽、夢鴿、頂蓋、消息、流星、風力、看到、預計、發(fā)生、世界、市場、地區(qū)、小時、安全、發(fā)布、微博、造成、報道、死亡、火焰山、關(guān)注、棱鏡、鄭鈞、對手、系統(tǒng)、教授、西藏、劉蕓、廣州、暴漲、天氣、股市、預警、工作、陽江、林育群、成為、律師、行動、進入、山莊、比賽、廣西、海面、地表、人員、媒體、南海、小區(qū)、政府、投資、現(xiàn)場、同志、希望。得到最佳參數(shù)取值后,主題模型中得到的關(guān)于各個話題類別的關(guān)鍵主題詞如表3所示。

        表3 各個話題類別的主題詞

        由表3可知,每一個話題所對應(yīng)的主題詞均能很好地代表此類話題,表明該主題詞的主題性非常明確。從上面關(guān)鍵詞中看到,“中國”跟“事件”等出現(xiàn)頻次很高的一些詞沒有出現(xiàn)在對應(yīng)話題的主題詞中,通過對這些主題詞進行分析得到,這些均屬于多話題性主題詞,如“中國”一詞,在話題#中國好外婆#、#姚貝娜vs林育群#、#光大證券烏龍事件#中均有出現(xiàn),且出現(xiàn)次數(shù)不集中;“事件”一詞分別在話題#光大證券烏龍事件#、#斯諾登棱鏡事件#中出現(xiàn),且出現(xiàn)次數(shù)差不多,此類詞明顯為多話題性主題詞,不具備區(qū)分話題類別的價值,將其舍去。

        在確定參數(shù)及性能后,采用通過歐氏距離計算得到的層次聚類及-means聚類方法對相同實驗數(shù)據(jù)進行對比實驗操作,各自的聚類結(jié)果分別如圖7和圖8所示,綜合對比結(jié)果如圖9所示。

        圖7 層次聚類結(jié)果

        圖8 k-means聚類結(jié)果

        圖9 3個實驗對比結(jié)果

        由圖9可知,主題模型算法針對該實驗數(shù)據(jù)進行操作得到的結(jié)果明顯優(yōu)于層次聚類及-means聚類方法。通過對實驗數(shù)據(jù)進行分析可知,在經(jīng)過預處理后,根據(jù)這些短文本創(chuàng)建向量空間模型,再分別利用歐氏距離進行距離計算從而進行層次聚類和-means聚類,由于短文本數(shù)據(jù)具有很大的稀疏性,使其在利用向量空間模型進行計算過程中存在較大的誤差,導致普遍準確率等都偏低。

        5 結(jié)束語

        針對傳統(tǒng)話題檢測技術(shù)處理微博數(shù)據(jù)的不足,提出了一種基本主題模型的文本聚類方法進行話題檢測。以微博數(shù)據(jù)作為研究對象,詳細分析了微博文本的特征,得到主題詞在話題性微博文本中的重要性,從而推斷可以從主題詞的角度進行研究。首先,對預處理后的文本提取出關(guān)鍵詞,降低文本表示的維度,減小計算量;然后,由提取的關(guān)鍵詞構(gòu)建文檔詞條矩陣,分析每一個關(guān)鍵詞在文本中出現(xiàn)的情況;其次,由文檔詞條矩陣分析總結(jié)出共同出現(xiàn)的詞語之間的關(guān)系,統(tǒng)計每一對共同出現(xiàn)的詞語及其共現(xiàn)的次數(shù),并以此構(gòu)造一個詞語關(guān)聯(lián)矩陣;再次,根據(jù)同一話題中出現(xiàn)的詞語關(guān)聯(lián)性最強的特點,對詞語關(guān)聯(lián)矩陣中的強關(guān)聯(lián)性詞語集合取交集運算,將同一話題的主題詞聚為一類,不同話題的主題詞則分為不同類,此時主題模型構(gòu)建完成;最后,利用文本與主題模型中已經(jīng)歸好類別的主題詞進行匹配,即可得到文本的類別,從而實現(xiàn)話題檢測。實驗結(jié)果表明,該方法能取得較好的效果,在最佳參數(shù)組合的條件下,其各類別的平均值達到95%以上。由于現(xiàn)在網(wǎng)絡(luò)技術(shù)的發(fā)展,有海量的短文本數(shù)據(jù)存在在線網(wǎng)絡(luò)上,因此,下一步的研究工作將考慮在大數(shù)據(jù)環(huán)境下,對其進行話題檢測技術(shù)的研究,并嘗試將該方法運用到大數(shù)據(jù)平臺下。

        [1] 王仲遠, 程健鵬, 王海勛, 等. 短文本理解研究[J]. 計算機研究與發(fā)展, 2016, 53(2):262-269.

        WANG Z Y, CHENG J P, WANG H X, et al. Short text understanding: a survey[J]. Journal of Computer Research and Development, 2016, 53(2): 262-269.

        [2] 賀敏, 杜攀, 張謹, 等. 基于動量模型的微博突發(fā)話題檢測方法[J]. 計算機研究與發(fā)展, 2015,52(5):1022-1028.

        HE M, DU P, ZHANG J. et al. Microblog bursty topic detection method based on momentum model[J].Journal of Computer Research and Development,2015, 52(5): 1022-1028.

        [3] 劉全超, 黃河燕, 馮沖. 基于多特征微博話題情感傾向性判定算法研究[J]. 中文信息學報, 2014, 28(4): 123-131.

        LIU Q C, HUANG H Y, FENG C.Multi-feature based sentiment orientation identification algorithm for micro-blog topics[J]. Journal of Chinese Information Processing, 2014, 28(4): 123-131.

        [4] 程俊霞, 李芝棠, 鄒明光, 等. 基于SVM過濾的微博新聞話題檢測方法[J]. 通信學報, 2013, 34(Z2): 74-78.

        CHEN J X, LI Z T, ZOU M G, et al. Novel topic detection method for microblog based on SVM filtration[J]. Journal of Communications, 2013, 34(Z2): 74-78.

        [5] NIST. The 2003 topic detection and tracking task definition and evaluation plan[EB/OL]. http://www.nist.gov/speech/tests.tdt/tdt2003/ evalplan.html.

        [6] 周學廣, 高飛, 孫燕. 基于依存連接權(quán)VSM的子話題檢測與跟蹤方法[J]. 通信學報, 2013, 34(8): 1-9.

        ZHOU X G, GAO F, SUN Y. Sub-topic detection and tracking based on dependency connection weights for vector space model[J]. Journal of Communications, 2013, 34(8):1-9.

        [7] 付艷, 周明全, 王學松, 等. 面向互聯(lián)網(wǎng)新聞的在線事件檢測[J]. 軟件學報, 2010, 21(Z): 363-372.

        FU Y, ZHOU M Q, WANG X S, et al. On-line event detection from web news stream[J].Journal of Software,2010, 21(Z): 363-372.

        [8] 郝文寧, 馮波, 陳剛, 等. 基于領(lǐng)域本體的文檔向量空間模型構(gòu)建[J]. 計算機應(yīng)用研究, 2013, 30(3): 764-767.

        HAO W N, FENG B, CHEN G, et al. Document vector space model construction based on domain ontology[J].Application Research of Computers, 2013, 30(3): 764-767.

        [9] PHUVIPADAWAT S, MURATA T. breaking news detection and tracking in twitter[C]//2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, Toronto. c2010: 120-123.

        [10] YANXIANG H, YE T, QIANG C, et al. Summarizing microblogs on network hot topics[C]//2011 International Conference on Internet Technology and Applications. c2011: 1-4.

        [11] 謝娟英, 高紅超. 基于統(tǒng)計相關(guān)性與-means的區(qū)分基因子集選擇算法[J]. 軟件學報, 2014, 25(9): 2050-2075.

        XIE J Y, GAO H C. Statistical correlation and-means based distinguishable gene subset selection algorithms[J]. Journal of Software, 2014, 25(9): 2050-2075.

        [12] DAI X Y, CHEN Q C, WANG X L, et al. Online topic detection and tracking of financial news based on hierarchical clustering[C]//2010 International Conference on Machine Learning and Cybernetics, Qingdao. c2010: 3341-3346.

        [13] ZHAO W X, JIANG J, WENG J, et al. Comparing twitter and traditional media using topic models[M]//Advances in Information Retrieval. Berlin: Heidelberg, 2011: 338-349.

        Micro-blog topic detection algorithm based on topic model

        HUANG Hua-jun, TAN Jun-shan, QIN Jiao-hua

        (College of Computer and Information Engineering, Central South University of Forestry & Technology, Changsha 410004, China)

        Micro-blog data has the characteristic of real-time, volume, short-text, and noise-rich. So it is a challenge for the traditional topic detection technology. A novel micro-blog topic detection algorithm based on topic model was proposed. Firstly, the micro-blog data was expressed as text word matrix and word relation matrix. The topic word was extracted from the two vectors. Secondly, the topic model was obtained with clustering. Finally, the topic detection of micro-blog was obtained by clustering text and topic model. Experimental results show that the algorithm proposed can effectively detection the text topic, and with the best parameter group of precision, recall rate,, and the valueis about 95%.

        topic detection, topic model, text word matrix, word relation matrix

        The National Natural Science Foundation of China (No.61304208), The Natural Science Foundation of Hunan Province (No.13JJ2031),Youth Scientific Research Foundation of Central South University of Forestry &Technology (No.QJ2012009A)

        TP391

        A

        10.11959/j.issn.2096-109x.2016.00049

        2016-04-13;

        2016-05-06。

        黃華軍,hhj0906@163.com

        國家自然科學基金資助項目(No.61304208);湖南省自然科學基金資助項目(No.13JJ2031);中南林業(yè)科技大學青年科學研究基金資助項目(No.QJ2012009A)

        黃華軍(1978-),男,湖南宜章人,博士,中南林業(yè)科技大學教授、碩士生導師,主要研究方向為網(wǎng)絡(luò)與信息安全、網(wǎng)絡(luò)釣魚防御。

        譚駿珊(1963-),男,湖南益陽人,博士,中南林業(yè)科技大學教授、博士生導師,主要研究方向為數(shù)據(jù)庫信息與管理、數(shù)據(jù)挖掘。

        秦姣華(1973-),女,湖南益陽人,博士,中南林業(yè)科技大學教授、碩士生導師,主要研究方向為網(wǎng)絡(luò)與信息安全、加密圖像檢索。

        猜你喜歡
        文本檢測模型
        一半模型
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        小波變換在PCB缺陷檢測中的應(yīng)用
        欧美在线播放一区二区| 99久久精品免费看国产| 色妞色视频一区二区三区四区 | 午夜视频福利一区二区三区 | 午夜爽毛片| 91九色极品探花内射| 国产区精品一区二区不卡中文| 亚洲av综合色区无码一二三区| 精品国产福利片在线观看| 视频一区中文字幕日韩| 综合亚洲伊人午夜网| 亚洲男人第一无码av网站| 全免费a级毛片免费看| 亚洲综合新区一区二区| 人人爽久久久噜人人看| 久久精品一区二区三区av| 久久久亚洲精品午夜福利| 国产一区二区中文字幕在线观看| 亚洲av无码国产精品色午夜字幕 | 日本午夜理伦三级好看| 国产成人一区二区三区乱| 一本无码av中文出轨人妻| 国产日b视频| 亚洲av第二区国产精品| 久久久精品国产免大香伊| 国产专区国产av| 尤物yw午夜国产精品视频| 中文字幕一区二区三区乱码人妻| 国产乡下三级全黄三级| 久久伊人影院| 国语自产啪在线观看对白| 亚洲av无码一区二区三区天堂| 日本不卡在线视频二区三区| 久久er这里都是精品23| av在线播放免费网站| 粉嫩被粗大进进出出视频| 日日摸日日碰人妻无码老牲 | 久久一二区女厕偷拍图| av一区二区三区人妻少妇| 在线国产视频精品视频| 亚洲日本高清一区二区|