亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡輿情信息提取技術研究與實現(xiàn)

        2016-03-01 08:59:22劉華春王星捷
        計算機技術與發(fā)展 2016年9期
        關鍵詞:頁面信息

        劉華春,王星捷

        (成都理工大學工程技術學院,四川樂山 614007)

        網(wǎng)絡輿情信息提取技術研究與實現(xiàn)

        劉華春,王星捷

        (成都理工大學工程技術學院,四川樂山 614007)

        網(wǎng)絡輿情信息提取是輿情分析系統(tǒng)中最為關鍵的部分,是實現(xiàn)輿情分析、輿情統(tǒng)計的數(shù)據(jù)基礎。為此,設計和實現(xiàn)了一個基于話題線索的輿情信息提取方案。該方案將輿情頁面以話題為線索進行邏輯劃分;采用基于DOM樹的廣度優(yōu)先搜索方法,設計了輿情信息提取算法;通過設置最低重復話題閾值θ,用戶定制提取格式,信息去重去噪措施,實現(xiàn)了輿情信息的有效提取。通過對多個論壇輿情信息的提取實驗,結(jié)果表明,所設計的方案有很好的提取性能,召回率、正確率、F指數(shù)都較高,能夠很好地提取出論壇、評論等輿情信息。

        輿情信息;Web信息提取;話題線索;DOC樹

        0 引言

        網(wǎng)絡輿情系統(tǒng)是對網(wǎng)絡中的輿論信息進行采集、檢測、監(jiān)控的互聯(lián)網(wǎng)信息系統(tǒng)。用戶針對所關注的輿論話題,能夠快速檢索所關注網(wǎng)站、論壇及以微博為代表的自媒體上的言論,對輿論觀點分類,做出分析和預測預警。通過對輿情信息的過濾、提取、分類、聚類、主題監(jiān)測、專題聚焦、自測等技術,使用戶即時掌握網(wǎng)絡輿情狀態(tài)。

        網(wǎng)絡輿情系統(tǒng)通常包括數(shù)據(jù)采集、網(wǎng)頁信息抽取、數(shù)據(jù)統(tǒng)計分析、輿情數(shù)據(jù)處理和系統(tǒng)管理等。網(wǎng)頁信息抽取是網(wǎng)絡輿情系統(tǒng)中極其關鍵的部分[1]。網(wǎng)絡輿情信息主要來源于新聞報道、各種論壇、微博等,這些信息是非結(jié)構(gòu)化或半結(jié)構(gòu)化的。需要將其抽取、轉(zhuǎn)換為結(jié)構(gòu)化的信息,存入數(shù)據(jù)庫中,使得采用成熟的基于數(shù)據(jù)庫的各種查詢和統(tǒng)計、分析輿情信息成為可能[2]。結(jié)構(gòu)化、規(guī)范化的各種輿情數(shù)據(jù)是網(wǎng)絡輿情系統(tǒng)數(shù)據(jù)處理,輿情分析模塊的基礎和前提。

        1 網(wǎng)頁信息抽取技術分析

        網(wǎng)頁信息抽取是從采集到的網(wǎng)頁中提取相關數(shù)據(jù)信息的過程,其研究內(nèi)容是針對需要抽取信息的網(wǎng)站,研究其頁面信息的分布規(guī)律,通過構(gòu)造抽取規(guī)則,尋求最為高效和準確的抽取方法,抽取網(wǎng)頁中的信息,以供網(wǎng)絡輿情分析使用。

        傳統(tǒng)的網(wǎng)頁信息抽取方法是構(gòu)造一個具有特定規(guī)則和針對性的包裝器Wrapper[3]。包裝器從采集的網(wǎng)頁中提取所需要的數(shù)據(jù)信息,并將這些數(shù)據(jù)轉(zhuǎn)化成恰當?shù)母袷剑鏧ML、表格等[4]。目前,出現(xiàn)了很多采用不同技術而改進的包裝器,如基于HTML文檔、統(tǒng)計方法、DOM文檔、視覺的技術等等。

        (1)基于HTML文檔的提取。

        該類提取技術主要根據(jù)抓取的HTML文檔的結(jié)構(gòu)特點,制定一套正則表達式,過濾出需要的數(shù)據(jù)信息。也可采用HTML解析工具,如HtmlParser解析器,通過匹配HTML標簽,抽取出網(wǎng)頁中所需的信息。該類抽取技術優(yōu)點是技術簡單,抽取準確率高;缺點是通用性差,需要針對各類待抽取網(wǎng)頁的特征單獨制定抽取模板[5]。

        (2)基于統(tǒng)計特征的提取。

        該類提取技術是基于網(wǎng)頁的文本信息與標簽信息的比率關系。如網(wǎng)頁中某塊中文與HTML代碼的比例,正文信息與周圍超鏈接的比例,逗號、句號使用頻率等文本特征,判別出該信息是文本信息還是廣告導航之類的信息,從而抽取出需要的文本信息[6]。該類抽取技術缺點是準確率不高,而且無法抽取BBS論壇信息。由于論壇類網(wǎng)頁中各人語言的隨意性,使得各個樓層正文信息長短不一,風格各異,所以難以采用該類方法。

        (3)基于DOM的提取。

        該類抽取技術是采用DOM文檔對象模型,即將HTML或者是XML這類文件理解或者說解析成一種文檔對象,把XML文檔里的各個標簽視為節(jié)點對象,即DOM樹,根據(jù)XML的節(jié)點信息,解析出所需的文本信息[7]。將該技術用于BBS論壇網(wǎng)頁抽取,具有明顯優(yōu)勢。由于BBS論壇每一層的樣式相同,反映在HTML代碼上,各層都具有相同的兄弟節(jié)點,所以,可以制定通用的抽取模板。

        (4)基于機器學習技術的提取。

        將目前非常流行的機器學習技術應用于網(wǎng)頁信息的提取。機器學習是采用某種學習算法(如BP神經(jīng)網(wǎng)絡、SVM支持向量機、關聯(lián)、聚類等)進行數(shù)據(jù)模型訓練學習,得到一種模型,再用此模型進行實際檢測提?。?-11]。其優(yōu)點是自動化程度高,缺點是提取準確性較差。

        在當前的Web網(wǎng)頁中,絕大多數(shù)是新聞類網(wǎng)頁,少部分是BBS論壇類網(wǎng)頁。目前幾乎沒有一種通用模板可以包含這兩種類型的網(wǎng)頁。而網(wǎng)絡輿情系統(tǒng)除了正文信息提取外,還需要統(tǒng)計作者名稱、發(fā)帖時間、回帖人名稱、回帖時間等內(nèi)容。因此,網(wǎng)絡輿情信息抽取技術越來越趨向于算法的復雜化,是多種提取技術的交叉和綜合應用。

        2 網(wǎng)絡輿情系統(tǒng)信息抽取

        網(wǎng)絡輿情是民眾關于社會中各種現(xiàn)象、問題所表達的信念、態(tài)度、意見和情緒等等表現(xiàn)的總和。在網(wǎng)絡環(huán)境下,輿情信息的主要來源包括新聞評論、社區(qū)論壇、博客、微博等。網(wǎng)絡輿情主要以話題的形式存在和傳播。

        2.1 網(wǎng)絡輿情信息抽取特點

        從信息資源特點來看,每一種信息資源特點都不一致,如論壇的文本通常較短,且用語多非書面化,在信息抽取時需要較多的樣本和詞典支持。新聞評論是跟帖的較多,各條評論之間關系復雜[12]。為此,文中提出一種獨立于輿情信息源的信息抽取方法,即面向話題的信息抽取方法。

        2.2 面向話題的輿情信息抽取

        (1)話題線索抽取。

        網(wǎng)絡輿情信息抽取就是將基于某一話題的信息進行抽取,分析,統(tǒng)計。這些半結(jié)構(gòu)化的信息主要分布于各類評論、論壇中。在論壇中,其結(jié)構(gòu)為標題頁加內(nèi)容頁面形式,標題頁即為話題,標題鏈接內(nèi)容頁面,內(nèi)容頁面即為某一話題的評論內(nèi)容。在各類評論中,其結(jié)構(gòu)為話題加評論,話題為新聞、口碑等,評論為對該新聞或口碑的評價[13]。為了便于瀏覽,通常一個頁面所顯示的內(nèi)容是固定的,當內(nèi)容超出一頁時,采用多頁顯示,如圖1所示。信息內(nèi)容頁主要顯示話題內(nèi)容及對該話題的各種評論和鏈接。

        由于論壇或評論在Web頁面中大都采用同一功能的CGI模塊來生成統(tǒng)一格式的HTML頁面,發(fā)帖人傳入的參數(shù)也是具有規(guī)律的,其URL具有相似的結(jié)構(gòu)[14-15]。因此,可以根據(jù)用戶選定來生成特定URL類的匹配模式,實時地提取輿情信息。

        話題線索抽取算法描述如下:

        ①判別是論壇類信息源轉(zhuǎn)②;如果是評論類信息源轉(zhuǎn)⑤。

        ②論壇類信息源:從標題頁中提取每個指向消息內(nèi)容頁面的鏈接,初始為未處理,表示該鏈接為某一話題的起始位置,下載該URL指向的消息頁面。

        ③提取同話題的消息頁面內(nèi)容。將話題線索中指向該消息頁鏈接處理標志置位已處理。

        ④遞歸轉(zhuǎn)②處理,判別下一話題鏈接處理標志,若未處理轉(zhuǎn)③,全部已處理轉(zhuǎn)⑥。

        ⑤評論類信息源:從消息話題頁提取話題和評論,置處理標志為已處理。若全部話題頁標志為已處理,轉(zhuǎn)⑥。

        ⑥結(jié)束話題線索抽取。

        (2)信息內(nèi)容提取。

        信息內(nèi)容提取的目的是將半結(jié)構(gòu)化的HTML形式話題,提取其屬性值,如發(fā)帖人、發(fā)帖時間、話題內(nèi)容、點贊數(shù)、轉(zhuǎn)發(fā)數(shù)等信息,將其轉(zhuǎn)換為結(jié)構(gòu)化的信息內(nèi)容記錄,存入數(shù)據(jù)庫表中,重構(gòu)結(jié)構(gòu)化的話題線索,為輿情分析、統(tǒng)計提供數(shù)據(jù)基礎。

        通常一個信息頁面中包含多條信息,每條信息即是一個話題內(nèi)容或一個評論內(nèi)容的信息塊。在HTML結(jié)構(gòu)中,每一個信息塊是DOM樹的一個相對獨立的子樹,子樹之間有相同的父節(jié)點,子樹呈兄弟節(jié)點關系,其內(nèi)部結(jié)構(gòu)特征相同,如圖2所示。div下都是相同的結(jié)構(gòu),代表了一條信息,因此,用戶指定一個信息節(jié)點的處理方式,系統(tǒng)能夠自動處理其他節(jié)點。

        (3)輿情信息提取算法。

        論壇頁面由于其具有重復子樹的特點,由前兩節(jié)可知,論壇輿情信息提取的算法核心是基于重復模式的DOM子樹遍歷。文中采用廣度優(yōu)先搜索算法遍歷輿情論壇DOMDocment。廣度優(yōu)先遍歷算法是從樹的根節(jié)點開始,依次遍歷下一層的子節(jié)點。由于輿情論壇回帖信息大部分是從屬于某一個話題節(jié)點,即父節(jié)點,回帖節(jié)點信息大都是平行的,因此采用廣度優(yōu)先搜索算法是最合適的。具體算法流程如圖3所示。

        該算法采用一個隊列來實現(xiàn)DOM樹的廣度優(yōu)先搜索過程,循環(huán)測試是否找到符合條件的節(jié)點,如果找到,并且總數(shù)大于設定的閾值θ,退出循環(huán),算法結(jié)束。重復子樹模塊閾值θ,是具有相同子樹的節(jié)點統(tǒng)計值,預先設定,如果頁面中相似的節(jié)點出現(xiàn)的次數(shù)大于θ,這些節(jié)點就為同一話題節(jié)點。

        (4)信息去重去噪。

        網(wǎng)絡輿情信息提取需要處理的數(shù)據(jù)量巨大。在海量數(shù)據(jù)提取的過程中,最主要的是不再保存重復的提取信息,這樣可減輕數(shù)據(jù)存儲時的負擔,并且為分析數(shù)據(jù)提供方便。文中的輿情信息自動抽取技術在存儲數(shù)據(jù)時對數(shù)據(jù)庫進行了優(yōu)化,為了避免重復數(shù)據(jù)的采集,采用HashCode(哈希值)作為表的索引。以論壇為例,通過對作者、時間、標題這3個字段組成的字符串進行哈希運算,由于重復的對象具有相同的哈希值,這樣有效避免了重復信息的存儲,極大提高了數(shù)據(jù)庫的查詢效率。

        3 系統(tǒng)實現(xiàn)及實驗結(jié)果分析

        3.1 系統(tǒng)實現(xiàn)

        網(wǎng)絡輿情的信息源站點具有不同的頁面格式,因此,文中所提出的抽取系統(tǒng)可以根據(jù)用戶設定的抽取規(guī)則定制抽取模塊。如圖4所示,輿情信息抽取系統(tǒng)分為規(guī)則定制部分和信息抽取部分。規(guī)則定制部分流程:抽取樣本頁面,定制輿情話題線索抽取規(guī)則,生成XML格式的抽取規(guī)則模塊。信息抽取部分工作流程:啟動輿情話題線索抽取引擎,系統(tǒng)根據(jù)生成的XML抽取規(guī)則,從輿情信息源站點抽取合乎規(guī)則的預期信息結(jié)果文件,保存在數(shù)據(jù)庫和XML文件中。

        3.2 實驗結(jié)果分析

        (1)性能評價指標。

        MUC(Message Understanding Conference,消息理解會議)為信息檢索和信息提取領域內(nèi)的算法性能測試提供評估參數(shù),主要有召回率R(Recall)、正確率P (Precision)和F指數(shù)。召回率是指正確抽取的記錄占被抽取頁面中所有記錄的比例;正確率是指所有抽取出來的記錄中正確抽取的評論記錄所占的比例。

        (2)結(jié)果分析。

        利用網(wǎng)絡爬蟲分別從汽車之家論壇、天涯社區(qū)論壇、新浪論壇、貓撲社區(qū)、網(wǎng)易論壇各抓取100個頁面,共計500個頁面。文中算法將每個頁面基于信息塊的子樹,從每個信息塊中提取出“作者”、“正文”、“時間”、“其他”?!捌渌睘殒溄踊虬粹o等非文本信息。測試結(jié)果如表1所示。

        表1 輿情信息抽取結(jié)果

        經(jīng)過測試可以看出,R、P、F指數(shù)都較高,可以比較滿意地提取出所需信息的內(nèi)容,抽取效果較好。

        4 結(jié)束語

        網(wǎng)絡預期信息抽取是網(wǎng)絡輿情系統(tǒng)中最重要的部分,是進行后續(xù)的輿情分析、輿情統(tǒng)計等的基礎。文中采用面向輿情話題的信息提取方法,將話題線索轉(zhuǎn)換為對文檔的DOM樹的廣度優(yōu)先搜索,并采取設置重復子樹閾值θ、去重去噪等方法以實現(xiàn)輿情信息的提取。在提取系統(tǒng)設計中,采用了基于用戶制定格式,即標注提取方式。實驗結(jié)果表明,召回率、正確率都較高,可以較為滿意地提取輿情信息內(nèi)容。

        [1] 王 權(quán),施韶亭.Web信息抽取技術在統(tǒng)一檢索系統(tǒng)中的應用研究[J].計算機應用與軟件,2010,27(10):120-122.

        [2] 王全民,王 莉,曹建奇.基于評論挖掘的改進的協(xié)同過濾推薦算法[J].計算機技術與發(fā)展,2015,25(10):24-28.

        [3] 姬 鑫,鐘 誠.基于分塊的新聞網(wǎng)頁信息抽取算法[J].計算機應用與軟件,2015,32(4):317-322.

        [4] 張 昕,鄂海紅,宋美娜,等.基于視覺特征的就業(yè)信息頁面抽取方法[J].軟件,2014,35(9):16-20.

        [5] 張 奇,郝志峰,溫 雯,等.基于互信息度量的Web信息抽?。跩].計算機應用與軟件,2013,30(12):15-18.

        [6] 吳 秦,胡麗娟,梁久禎.基于分塊重要度和二維條件隨機場的Web信息抽?。跩].南京大學學報:自然科學版,2014,50(1):79-86.

        [7] 王志華,魏 斌,李占波,等.基于本體的Web信息抽取系統(tǒng)[J].計算機工程與設計,2012,33(7):2634-2639.

        [8] Madhavan J,Ko D,Kot L,et al.Google’s deep web crawl[J]. Proceedings of the VLDB Endowment,2008,1(2):1241-1252.

        [9] Stevanovic D,An Aijun,Vlajic N.Feature evaluation for Web crawler detection with data mining techniques[J].Expert Systems with Applications,2012,39(10):8707-8717.

        [10]顧韻華,高 原,高 寶,等.基于模板和領域本體的Deep Web信息抽取研究[J].計算機工程與設計,2014,35(1): 327-332.

        [11]Liu X,Gong D.A comparative study of a-star algorithms for search and rescue in perfect maze[C]//Proc of ICECICE.[s. l.]:IEEE,2011:24-27.

        [12]丁艷輝,李慶忠,董永權(quán),等.基于集成學習和二維關聯(lián)邊條件隨機場的Web數(shù)據(jù)語義標注方法[J].計算機學報,2010,33(2):267-278.

        [13]Cali A,Martinenghi D.Querying the deep web[C]//Proceedings of the 13th international conference on extending database technology.[s.l.]:[s.n.],2010:724-727.

        [14]趙 濤,張?zhí)t,陳燕紅.中文農(nóng)業(yè)網(wǎng)頁去重及相似度判斷研究[J].計算機技術與發(fā)展,2015,25(1):191-194.

        [15]房 勇,李銀勝.基于DOM狀態(tài)轉(zhuǎn)換的隱網(wǎng)頁信息抽取算法[J].計算機應用與軟件,2015,32(9):17-21.

        Research and Implementation of Information Extraction Technology in Network Public Opinion

        LIU Hua-chun,WANG Xing-jie
        (Engineering&Technical College of Chengdu University of Technology,Leshan 614007,China)

        Internet public opinion information extraction is the most critical part of public opinion analysis system,which is also a data base of the public opinion analysis and statistics.For this reason,a public opinion information extraction method based on clues topic is designed and implemented.In the method,pages of public opinion as one topic clue is divided to logical region,and the breadth-first search methods based on DOM tree is applied to design extraction algorithm of public opinion information.By setting a minimum repeat topic threshold θ,customized extraction format,removed duplicate and noise of information,public opinion extraction is realized effectively.By experiment of the public opinion of multiple forums,the results show that this scheme has good extract performance,and the recall,the correct rate and F measure are higher,which is able to well extract forum and reviews and other public opinion information.

        public opinion information;Web information extraction;topic clues;DOC tree

        TP391

        A

        1673-629X(2016)09-0008-04

        10.3969/j.issn.1673-629X.2016.09.002

        2015-11-28

        2016-03-09< class="emphasis_bold">網(wǎng)絡出版時間:

        時間:2016-08-23

        四川省自然科學重點項目(A22012003);四川省樂山市科技局重點項目(14GZD050)

        劉華春(1966-),男,碩士,副教授,研究方向為智能信息處理、機器學習。

        http://www.cnki.net/kcms/detail/61.1450.TP.20160823.1359.046.html

        猜你喜歡
        頁面信息
        微信群聊總是找不到,打開這個開關就好了
        大狗熊在睡覺
        刷新生活的頁面
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        同一Word文檔 縱橫頁面并存
        淺析ASP.NET頁面導航技術
        其實IE也懂Chrome的心
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        麻豆视频黄片在线免费观看| 国产精品刺激好大好爽视频| 人妻少妇看A偷人无码电影| 国产成人av三级三级三级在线 | 亚洲悠悠色综合中文字幕| 一二三四日本中文在线| 亚洲av成本人无码网站| 亚洲精品天堂在线观看| 久久蜜桃资源一区二区| 四川发廊丰满老熟妇| 热99re久久精品这里都是免费| 99久久无色码中文字幕鲁信| 精品高清免费国产在线| 国产一区二区女内射| 91精彩视频在线观看| 午夜国产小视频在线观看黄| 蜜桃视频在线观看免费亚洲| 无码不卡av东京热毛片| 精品久久久久久无码不卡 | 日韩免费精品在线观看| 精品久久久久久无码中文字幕| 成人伊人亚洲人综合网站222| 久久麻豆精亚洲av品国产精品| 一本久道高清视频在线观看 | 国产自拍高清在线观看| 天堂中文在线资源| 国产精品系列亚洲第一| 白白色视频这里只有精品| 欧美变态另类刺激| 波多野结衣有码| 国产成人综合亚洲国产| 亚洲 小说区 图片区 都市| 综合无码一区二区三区| AV熟妇导航网| 亚洲乱码中文字幕视频| 欧美人妻日韩精品| 国产系列丝袜熟女精品视频| 亚洲熟妇av一区二区三区hd| 少妇粉嫩小泬喷水视频| 欧美激情αv一区二区三区| 精品午夜中文字幕熟女|