亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本挖掘的論壇熱點問題時變分析

        2017-06-05 09:35:37柳,程愷,胡
        軟件 2017年4期
        關鍵詞:分析信息

        吳 柳,程 愷,胡 琪

        ?

        基于文本挖掘的論壇熱點問題時變分析

        吳 柳1,程 愷2,胡 琪2

        (1. 江蘇海事職業(yè)技術學院,南京 210070;2. 解放軍理工大學指揮信息系統(tǒng)學院,南京 210007)

        隨著互聯(lián)網(wǎng)的普及,網(wǎng)絡論壇因其開放性和自由性成為了輿論的發(fā)源地,真實地反映了當前的新聞熱點和當前民眾最關心的話題。本文基于網(wǎng)易論壇上的網(wǎng)上談兵欄目,對相關帖子進行文本挖掘,通過改進傳統(tǒng)的網(wǎng)絡爬蟲技術對指定論壇網(wǎng)頁進行爬取,設計了關鍵詞權重計算公式提取關鍵詞,依據(jù)關鍵詞歸納總結熱點話題,提出話題匹配規(guī)則對話題帖子進行定位匹配。通過分析熱點話題隨時間變化的趨勢,把握網(wǎng)絡輿論的動向,并對話題進一步的發(fā)展趨勢做出一定預測,為相關部門及時、準確把握網(wǎng)絡輿論動態(tài)走向提供了可靠依據(jù)。

        網(wǎng)絡爬蟲;中文分詞;關鍵詞提??;熱點話題;時變分析

        0 引言

        隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡媒體因其方便快捷、互動性強的特點,逐漸成為繼報紙、廣播、電視之后的“第四媒體”,成為現(xiàn)在人們獲取信息的主要途徑。同時,由于互聯(lián)網(wǎng)的普及,越來越多的人通過互聯(lián)網(wǎng)來表達一些自己對某些事件、現(xiàn)象、政策的看法和意見。網(wǎng)絡上的輿論反應了人們真實的想法和建議,網(wǎng)絡輿情也被越來越多的人所關注[1-3]。

        其中,網(wǎng)絡論壇發(fā)展到今天已成為互聯(lián)網(wǎng)的重要組成部分,網(wǎng)民通過瀏覽帖子、展開討論,表達對熱點問題的看法和意見。如果能夠及時分析論壇信息,對相關政府機構準確把握網(wǎng)絡輿論的動態(tài)走向,從而進行監(jiān)測、預警都具有重要意義[4-6]。然而面對網(wǎng)絡中的海量信息,傳統(tǒng)的人工方式分析已無應對爆炸式的信息增長,需要采用數(shù)據(jù)挖掘、大數(shù)據(jù)等先進技術手段[7-11],對論壇中熱點問題討論的信息進行有效地采集、分析,從數(shù)據(jù)中獲取有用的知識。

        因此,本文研究了從網(wǎng)絡論壇內(nèi)容的獲取到數(shù)據(jù)預處理以及熱點話題篩選和時變分析等關鍵技術,實現(xiàn)對網(wǎng)絡論壇熱點信息的采集,進而分析熱點問題在時間序列上的發(fā)展變化規(guī)律。通過對網(wǎng)易論壇上的網(wǎng)上談兵欄目進行文本挖掘,了解各大軍事熱點問題在時間序列上的走勢,把握輿論動向,根據(jù)得到的熱度曲線圖,挖掘有關話題信息,并預測下一步話題發(fā)展情況。

        1 總體研究框架

        基于文本挖掘的論壇熱點問題時變分析主要包括信息獲取、信息處理、熱點話題匹配和時變分析四個步驟,其總體研究框架如圖1所示。

        圖1 基于文本挖掘的論壇熱點問題時變分析總體研究框架

        1.1 網(wǎng)絡論壇信息的獲取

        網(wǎng)絡論壇信息的獲取是將指定所關注的網(wǎng)絡論壇的URL,自動地獲取論壇的帖子信息,并且按照一定的格式存儲這些信息。網(wǎng)絡論壇信息的獲取是數(shù)據(jù)預處理以及數(shù)據(jù)分析的前期準備工作,涉及到網(wǎng)絡爬蟲等網(wǎng)頁自動訪問和虛擬訪問技術,是研究的重點內(nèi)容之一。

        1.2 網(wǎng)絡論壇信息的預處理

        網(wǎng)絡論壇信息的預處理是將獲取并存儲得到的帖子進行進一步的分詞、詞頻統(tǒng)計、提取關鍵詞等處理。通常直接存儲的帖子信息數(shù)據(jù)量過于龐大,并且論壇信息的實時性強,直接進行分析不僅耗費時間長,工作量大,而且無法及時追蹤分析熱點。對帖子信息進行預處理相當于用提取的關鍵詞來代替帖子內(nèi)容,減少了數(shù)據(jù)量,為后續(xù)數(shù)據(jù)分析提供方便。

        1.3 網(wǎng)絡論壇信息的話題篩選

        網(wǎng)絡論壇信息的話題篩選是基于對數(shù)據(jù)的預處理,通過對帖子關鍵詞以及相應的權重按照權重由高到低進行人工分析,得到具有跟蹤研究意義的話題系列。這一過程采用了傳統(tǒng)的人工選擇,是基于機器對于自然語言的理解能力受限考慮。在確定的話題系列基礎上,分析所有話題可能包括的內(nèi)涵以及在此話題中具有代表性的關鍵詞,為每一個話題建立關鍵詞向量,作為話題規(guī)則,從而進一步對所有帖子進行話題匹配,完成分類。

        1.4 網(wǎng)絡論壇信息的時變分析

        網(wǎng)絡論壇信息的時變分析是對話題在時間序列上的熱度變化情況進行分析的過程。將選擇出的話題系列從每個月抽取出來放到整個時間軸上,可以縱向觀察到話題的波動情況。不同話題隨時間序列的發(fā)展情況不同,依據(jù)熱度曲線圖,分析峰值,可以挖掘出在某一時間段話題的聚焦情況。

        2 關鍵技術

        2.1 論壇爬蟲技術

        網(wǎng)絡論壇大多采用兩層的結構來組織整個討論區(qū)的帖子話題,對于帖子本身來說,需要得到的僅僅是兩種類型的頁面信息:話題索引頁面和帖子內(nèi)容頁面。話題索引頁面列出主帖的標題、發(fā)帖人、發(fā)帖時間、最后回帖時間等基本信息,并且鏈接指向帖子內(nèi)容頁面。論壇網(wǎng)頁的結構如圖2所示。

        圖2 論壇網(wǎng)頁結構

        由于只需要獲取所有的帖子信息,所以不需要網(wǎng)絡爬蟲大面積的抓取網(wǎng)頁,也正由于此原因,爬蟲在話題索引頁抓取回來的網(wǎng)頁除了與帖子有關的信息外,其余的都被看作是網(wǎng)頁噪音,需要進一步過濾。并且采用類似“寬度搜索”的爬行策略,從待抓取隊列中抽取一個URL后,抓取頁面上的所有鏈接,判斷抓取的URL在等待隊列和已訪問隊列中是否已經(jīng)存在,且該鏈接必須以http開頭,若符合,則將鏈接添加到等待抓取的隊列中。

        從初始網(wǎng)址開始,本文采用的網(wǎng)絡爬蟲架構如圖3所示。

        2.2 關鍵詞提取技術

        關鍵詞提取就是從文本里面把跟這篇文章意義最相關的一些詞抽取出來,可以追溯到文獻檢索初期,在還不支持全文搜索時期,關鍵詞就可以作為搜索這篇論文的詞語。因此,目前依然可以在論文中看到關鍵詞這一項。簡而言之,關鍵詞就是最能夠反映出文本主題或者意思的詞語。

        關鍵詞提取大致有兩種方法:第一種為關鍵詞分配,是給定一個關鍵詞庫,然后從詞庫里面找到幾個詞語作為將需要提取關鍵詞的文本的關鍵詞。第二種為關鍵詞抽取,是從文本中抽取一些詞語作為這篇文章的關鍵詞。

        另外,從結果上看關鍵詞抽取也可以分兩種。第一種僅僅把詞語抽取出來,實現(xiàn)較簡單,比如FudanNLP、jieba、SnowNLP。另一種則是連詞和短語一起抽取出來,這個還需要增加短語抽取這一個步驟,這一類的實現(xiàn)包括ICTCLAS、ansj_seg等??梢园杨愃朴凇爸悄苁謾C”、“全面深化改革”、“非公有制經(jīng)濟”等短語抽取出來。對于聚類或者分類來說,很明顯短語比詞語更有參考價值。

        關于關鍵詞抽取的算法,目前主要有TF-IDF算法、初代KEA算法、TextRank算法和ICTCLAS等。本文采用的是基于ICTCLAS的Ansj關鍵詞提取技術,其基本原理為依據(jù)不同詞性詞語的初始權重,其中標題中詞權重加倍,再結合詞在文中出現(xiàn)的位置和頻率調(diào)整后,得到每個詞的權重score。

        由于本文需要通過關鍵詞的熱度來進一步確定當前的熱點話題,故結合帖子的瀏覽量對關鍵詞權重作進一步改進。具體改進的公式如下:

        最后生成的關鍵詞熱度從一定程度上既反映了帖子的基本內(nèi)容,同時也體現(xiàn)了在所有帖子中的受關注程度。

        2.3 話題提取技術

        網(wǎng)絡論壇熱點話題的獲取是指從大量的網(wǎng)絡論壇帖子中發(fā)現(xiàn)熱點話題并利用關鍵詞定位到具體的帖子的過程。本文所采用的熱點話題獲取方法是基于關鍵詞熱度的。熱點話題獲取是對所有帖子內(nèi)容中出現(xiàn)的關鍵詞進行的一個統(tǒng)計,關鍵詞熱度越高表明越受網(wǎng)民的關注。這種方法所發(fā)現(xiàn)的話題基本能夠反映出當前的熱點問題,話題發(fā)現(xiàn)的過程如圖4所示。

        1. 讀入帖子的關鍵詞結果。

        按照數(shù)據(jù)預處理模塊中對帖子信息進行的分詞、關鍵詞生成結果,依次把詞語讀入暫存數(shù)組keywords[m]中,其中keywords[m]是一個字符型的一維數(shù)組,用來暫時存放某一條帖子的關鍵詞結果。例如標題為“我國運載火箭研制”的帖子提取關鍵詞之后的結果為“運載火箭/176.81”,“研制/149.03”,“我國/53.72”, “全新/52.02”,“推力/50.14”,“現(xiàn)役/ 45.55”等,將這些詞語按權重順序依次讀入字符數(shù)字keywords[m]中,即keywords[0]=“運載火箭”, keywords[1]=“研制”,keywords[2]=“我國”,……,依次類推。此外,在讀入的同時自動去除權重較低的詞語。

        2. 確定進一步研究的熱點問題

        結合關鍵詞結果、權重評分以及帖子瀏覽量的綜合考慮,人工分析得出需要進一步研究的話題系列,分別設為不同的話題向量為Vector topics。將每個話題中出現(xiàn)頻率較高的關鍵詞依次讀入話題向量中,便于下一步對所有帖子進行話題匹配。

        3. 定位話題帖子

        對于每一個帖子,遍歷其keywords[m],將其中存儲的關鍵與話題向量中的關鍵詞進行比較,在滿足一定數(shù)量的相似度后,判定帖子是否屬于某一話題,若屬于,則存儲帖子的發(fā)帖時間,便于下一步對熱點話題進行時變分析。具體判定步驟如圖5所示。

        圖5 話題帖子判定算法流程

        3 論壇熱點問題時變分析

        在論壇數(shù)據(jù)爬取階段,本文基于crawler4j實現(xiàn)了網(wǎng)絡爬蟲,并進行了相應功能的改進[12][13]。通過抓取URL及頁面內(nèi)容,利用Jsoup解析和操作HTML,提取有關的帖子信息。在文本數(shù)據(jù)預處理階段[14],基于Ansj,利用NLP自然語言處理分詞對所有帖子內(nèi)容進行分詞處理、詞頻統(tǒng)計、詞性標注。依據(jù)不同詞性詞語的初始權重,其中標題中詞權重加倍,再結合詞在文中出現(xiàn)的位置和頻率調(diào)整后,得到每個詞的權重score。在話題提取階段[15],根據(jù)得到的關鍵詞以及相應的熱度值,篩選出五個具有研究價值的話題,分別為“朝核問題”、“航母建設”、“臺灣問題”、“領海問題”、“釣魚島問題”,由此設置不同的話題向量為Vector topics。將每個話題中出現(xiàn)頻率較高的關鍵詞依次讀入話題向量中作為話題匹配規(guī)則。依據(jù)話題匹配規(guī)則,對于每一個帖子,遍歷其keywords[m],將其中存儲的關鍵與話題向量中的關鍵詞進行比較,在滿足一定數(shù)量的相似度后,確定其是否屬于需要研究的五個話題之一,若是,則將帖子的發(fā)帖時間、瀏覽量等信息存入數(shù)據(jù)庫中。

        最后針對選取的“朝核問題”、“航母建設”、“臺灣問題”、“領海問題”、“釣魚島問題”的五個話題進行分析,得到各個話題在時間維度下的熱度變化擬合曲線如圖6所示[16]。

        圖6 熱點問題擬合曲線圖

        通過熱點問題擬合曲線圖,依據(jù)各個話題所代表的曲線于2015年11月至2016年5月期間的熱度變化,分析其隨時間序列的走勢情況,可以得出以下幾點信息:

        1. 臺獨問題關注度持續(xù)居高。

        從圖中可以清晰地看出:就五個話題而言,臺獨問題的熱度一直處于較高的狀態(tài)。由此反映出祖國統(tǒng)一以及臺獨問題始終是中國網(wǎng)民最關注的熱點問題之一,寶島臺灣的一舉一動更是一直沒有離開廣大網(wǎng)民的關注視線。

        隨著2016年臺灣地區(qū)領導人選舉的逐步推進,臺獨話題也是處于發(fā)酵狀態(tài)。在正式選舉(2016年1月16日)之前,話題熱度持續(xù)上升,據(jù)猜測,不少網(wǎng)民就三位領導人當選可能性展開熱議。

        其中,領導人正式選舉的時間與繪制的擬合曲線圖中臺獨問題的峰值正好相當,說明臺獨話題在大選這一重要時刻熱議程度達到巔峰,符合正常邏輯。

        選舉結束后,隨著蔡英文當選,雖然其一度表現(xiàn)出親美行徑,并且對兩岸關系含糊不清,但似乎網(wǎng)民對此雖然保持著一定的關注度,但并沒有顯示出過多的熱情,或許是在等待蔡英文的進一步動作,對于臺獨問題還需要更長時間的觀察。

        因此,有關網(wǎng)民對于臺獨話題的熱度問題,預測后期將會一直維持在較高的水平,并且隨著臺灣方面的動作實時波動,屬于經(jīng)常性熱點話題。

        2. 朝核問題峰值期突發(fā)事件明顯。

        從圖中可以清晰地看出:朝核問題同樣在2016年1月產(chǎn)生了一個高峰,但與臺獨問題不同的是,朝核問題在其他時間段的關注度并不是很高。因此推斷在峰值期應該有重大事件發(fā)生。事實上,在2016年1月6日,朝鮮宣布成功進行了首次氫彈試爆。隨著這一消息的發(fā)布,朝核問題迅速成為當時的熱點話題。

        朝核問題這種隨著事件的發(fā)生推動輿論爆發(fā)的情況極具典型性。有關部分應當在事件發(fā)生的第一時間對其進行監(jiān)測追蹤,把握輿論的正確發(fā)展方向。

        3. 領海問題復雜多變。

        在圖中可以看到,領海問題的波動性較大,但這與本文在提取領海問題這一話題時的話題規(guī)則有一定的關系。由于本身領海問題涉及面廣,包括與各國的南海問題以及東海問題等,無法準確地對該話題進行匹配。因此,對于領海問題,本文不作過多分析。

        從另一方面,領海問題反映出了本文在話題匹配、帖子定位中可能遇到的問題,是話題規(guī)則的不足之處。

        4 結語

        本文基于網(wǎng)易論壇上的網(wǎng)上談兵欄目,對其進行了一系列的文本挖掘,包括網(wǎng)頁爬取、帖子信息獲取、數(shù)據(jù)預處理、話題提取、熱點問題擬合曲線圖的繪制以及熱點話題的時變分析。

        在網(wǎng)絡爬蟲改進、中文分詞、關鍵詞提取階段,能夠結合網(wǎng)絡論壇數(shù)據(jù)特點,對相應工具進行了定制改進。在話題提取階段,如何完成從關鍵詞到話題匹配的過程是一大難點。本文制定了話題匹配規(guī)則,雖然存在一定的匹配誤差,但基本完成了話題提取的任務,為時變分析提供了基礎。最后,通過 對五大話題在熱點問題擬合曲線上的展示以及時變分析,了解各大軍事熱點在時間序列上的走勢,一定程度把握了輿論動向,了解網(wǎng)民聚焦熱點問題的具體情況,并且對話題發(fā)展趨勢做出了一定的預測。下一步可在以下兩個方面進行改進:1.話題匹配規(guī)則不夠靈活,可結合語義及自然語言處理作進一步優(yōu)化;2.曲線圖所表達的信息有限,可適當增加可視化表現(xiàn)形式。

        [1] 曹麗娜, 唐錫晉. 基于主題模型的BBS話題演化趨勢分析[J]. 管理科學學報, 2014, 17(11): 109-121.

        [2] 王允. 網(wǎng)絡輿情數(shù)據(jù)獲取與話題分析技術研究[D]. 鄭州: 解放軍信息工程大學, 2010.

        [3] 趙旭劍, 張立, 李波, 等. 網(wǎng)絡新聞話題演化模式挖掘[J]. 軟件, 2015, 36(6): 1-6.

        [4] 張旭, 張振江, 劉云. BBS輿情系統(tǒng)爬蟲模塊的研究[J]. 鐵路計算機應用, 2010, 19(12): 18-21.

        [5] 熊祖濤. 基于Web文本信息抽取的微博輿情分析[D]. 西安:西安科技大學, 2013.

        [6] 趙旭劍, 鄧思遠, 李波, 等. 互聯(lián)網(wǎng)新聞話題特征選擇與構建[J]. 軟件, 2015, 36(7): 17-20.

        [7] 韓家煒, 裴健, 范明. 數(shù)據(jù)挖掘技術與概念[M]. 機械工業(yè)出版社, 2012.

        [8] Yanchang Zhao著, 陳健, 黃琰譯. R語言與數(shù)據(jù)挖掘最佳實踐和經(jīng)典案例[M]. 機械工業(yè)出版社, 2014.

        [9] 郭世龍, 王晨升. 主題爬蟲設計與實現(xiàn)[J]. 軟件, 2013, 34(12): 107-109.

        [10] 馬凱航, 高永明, 吳止鍰等. 大數(shù)據(jù)時代數(shù)據(jù)管理技術研究綜述[J]. 軟件, 2015, 36(10): 46-49.

        [11] 程陳. 大數(shù)據(jù)挖掘分析[J]. 軟件, 2014, 35(4): 130-131.

        [12] Joseph Adler著, 劉思喆, 李艦等譯. R語言核心技術手冊[M]. 電子工業(yè)出社. 2014.

        [13] 宋金玉, 陳萍. 數(shù)據(jù)庫原理與應用[M]. 清華大學出版社, 2011.

        [14] Cay S. Horstmann, Gary Cornell著, 葉乃文等譯. JAVA核心技術[M]. 機械工業(yè)出版社, 2009.

        [15] Liu Z, Chen X, Zheng Y, et al. Automatic keyphrase extraction by bridging vocabulary gap[C]. Fifteenth Conference on Computational Natural Language Learning. Association for Computational Linguistics, 2011: 135-144.

        [16] Index. ggplot2 2. 0. 1[EB/OL]. [2017-03-25]. http://docs.ggplot2. org/current/.

        Time Varying Analysis of Forum Hot Issues Based on Text Mining

        WU Liu1, CHENG Kai2, HU Qi2

        (1. Jiangsu Maritime Institute, Nanjing Jiangsu 210070, China; 2. College of Command Information Systems, PLA University of Science &Technology, Nanjing 210007, China)

        With the popularity of the Internet, because of its openness and freedom the network forum has become the birthplace of public opinion. It is a true reflection of the current news hot spots. Based on the Netease forum text mining is adopted to handle the forum data. By improving the traditional web crawler technology, the designated forum pages are crawled. Design the keyword weight calculation formula to extract keywords. According to the key words summarize the hot Topics. Design topic matching rules on the topic forum data. By analyzing the trend of the hot topic of the military over time, grasp the trend of public opinion in the network and make some predictions on the further development of the topic. Thus, provide a reliable basis for the relevant departments to grasp the dynamic direction of the network public opinion.

        Network crawler; Chinese word segmentation; Keyword extraction; Hot topic; Time varying analysis

        TP311.13

        A

        10.3969/j.issn.1003-6970.2017.04.009

        本文受江蘇省自然科學基金(BK20150720)資助

        吳柳(1987-),女,碩士,研究方向為信息技術,教育管理;程愷(1983-),男,博士,研究方向為數(shù)據(jù)挖掘,數(shù)據(jù)工程;胡琪(1993-),女,碩士研究生,研究方向為信息系統(tǒng)工程。

        本文著錄格式:吳柳,程愷,胡琪. 基于文本挖掘的論壇熱點問題時變分析[J]. 軟件,2017,38(4):47-51

        猜你喜歡
        分析信息
        隱蔽失效適航要求符合性驗證分析
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        中西醫(yī)結合治療抑郁癥100例分析
        在線教育與MOOC的比較分析
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        健康信息(九則)
        祝您健康(1987年2期)1987-12-30 09:52:28
        四川丰满少妇被弄到高潮| 激情五月开心五月av| 日本熟女人妻一区二区| 国产产区一二三产区区别在线| 亚洲综合av在线在线播放| 久久99精品久久久久久国产人妖| 男人的天堂av你懂得| 亚洲爆乳精品无码一区二区三区| 国产午夜精品久久久久免费视 | 亚洲国产精品久久久婷婷| 国产私人尤物无码不卡| 美女视频黄的全免费的| 草莓视频中文字幕人妻系列| 国产亚洲精品一品二品| 97人妻人人做人碰人人爽| 激情欧美日韩一区二区| 精品无码人妻久久久一区二区三区| 美女与黑人巨大进入免费观看| 午夜免费视频| 国产在线白丝DVD精品| 国产黄色污一区二区三区| 日本av一区二区三区在线| 免费99精品国产自在在线| 国产人澡人澡澡澡人碰视频| 男女视频在线观看一区二区| 久久婷婷五月综合97色直播| 精品人妻一区二区三区四区| 久久精品国产88久久综合| 亚洲国产日韩一区二区三区四区 | 婷婷综合久久中文字幕蜜桃三电影 | 色婷婷精品综合久久狠狠| 一本久道久久丁香狠狠躁| 99精品国产一区二区三区不卡| 91av国产视频| 青青草在线成人免费视频| 老熟女富婆激情刺激对白| 国产成人综合在线视频| 亚洲人成绝费网站色www| 亚洲中文av中文字幕艳妇| 大桥未久亚洲无av码在线| 丰满少妇爆乳无码专区|