亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于微博數(shù)據(jù)采集的Web信息集成系統(tǒng)研究

2016-04-12 00:00:00馬凱

現(xiàn)代電子技術 2016年11期

摘要：使用模塊化構建了一種特定領域的Web信息集成系統(tǒng)，設計實現(xiàn)一種基于領域關鍵詞的新聞、微博數(shù)據(jù)采集處理系統(tǒng)，通過用戶提供的關鍵詞，結合人工篩選進行關鍵詞擴展，對全網(wǎng)相關新聞、微博數(shù)據(jù)進行采集與抽取。設計實現(xiàn)了一種基于關鍵詞和轉發(fā)數(shù)的新聞排序方法，對特定領域采集的新聞數(shù)據(jù)進行處理排序，遴選重要信息進行定向推送。以氣候變化領域為例，設計了Web信息集成系統(tǒng)。

關鍵詞： Web信息集成；微博數(shù)據(jù)采集；氣候變化；信息推送

中圖分類號： TN919?34； TM417 文獻標識碼： A 文章編號： 1004?373X（2016）11?0125?04

Abstract： A Web information integration system for a specific field was constructed with modularization. A data acquisition and processing system of news and microblog based on field keywords was designed and implemented， which can acquire and extract the related news of the whole network and microblog data in combination with the keywords provided by the user and keywords extension with manual screening. A news sorting method based on keywords and forwarding quantity was designed and implemented to sort the news data acquired in a specific field and select the important information for pushing directionally. The Web information integration system was designed by taking the field of climate change as an example.

Keywords： Web information integration； microblog data acquisition； climate change； information push

0 引言

近幾年，伴隨著Web信息的急劇膨脹，Web信息集成技術引起研究者的研究興趣，在Web信息集成上進行了大量研究工作，取得了一定成果，但是Web信息集成仍然處于發(fā)展階段，在設計實現(xiàn)自動化程度高、智能化Web信息集成系統(tǒng)上仍有很多關鍵困難沒有克服。本文研究的特定領域Web信息集成系統(tǒng)是針對某一領域Web信息的深度挖掘，將Web領域相關的新聞、微博數(shù)據(jù)采集下來進行集成，為領域學者、用戶提供信息支持。

1 特定領域的Web信息集成系統(tǒng)設計

1.1 特定領域的Web信息集成系統(tǒng)

Web信息集成系統(tǒng)將Web上分散、異構、自治站點上的數(shù)據(jù)信息綜合在一起，屏蔽一切數(shù)據(jù)源細節(jié)，只將用戶查詢的信息以統(tǒng)一格式返回給用戶。

在設計特定領域Web信息集成系統(tǒng)時，首先要分析用戶對信息集成系統(tǒng)需求。用戶關注某一領域，掌握這一領域內比較重要的Web站點，同時基于對該領域的研究，用戶能夠用一些領域本體關鍵詞來描述這一領域的研究重點、新聞焦點、微博熱點等。圖1描述了用戶與特定領域Web信息集成系統(tǒng)的相互需求關系。

再進一步提煉Web信息集成系統(tǒng)內部的方法流程，輸入關鍵詞與目標站點，輸出則為三種方式的信息推送，具體方法流程如圖2所示。

1.2 系統(tǒng)結構

本文在構建特定領域Web信息集成系統(tǒng)時，為降低系統(tǒng)設計的復雜性，采用模塊化程序設計思想。特定領域Web信息集成系統(tǒng)采用基于上述模塊化程序設計思想進行設計，將整個系統(tǒng)劃分為四個子模塊：用戶模塊、系統(tǒng)預處理模塊、數(shù)據(jù)采集與處理模塊、展示推送模塊。根據(jù)各個模塊功能不同，每個模塊又包含一個或多個子流程。其詳細系統(tǒng)功能結構如圖3所示。

2 關鍵技術

2.1 新聞類Web信息數(shù)據(jù)采集

領域相關的新聞類信息數(shù)據(jù)主要來自由用戶提供的目標Web站點，以基于關鍵詞的全網(wǎng)新聞采集系統(tǒng)采集的新聞為增量輔助數(shù)據(jù)。特定領域Web信息集成系統(tǒng)的爬蟲負責下載領域相關的新聞網(wǎng)頁源碼。主要是從系統(tǒng)維護的URL序列中有序取出URL，獲取相應網(wǎng)頁HTML源碼，抽取其中的有用信息并存入數(shù)據(jù)庫。

2.2 Web微博信息數(shù)據(jù)的采集處理

通過對國內微博平臺調研，選取了市場占有率最大的新浪微博作為特定領域Web信息集成系統(tǒng)的微博中文數(shù)據(jù)源，國外微博輿情則選定Twitter。圖4以新浪微博為例闡述本文提出的信息數(shù)據(jù)采集抽取方法。

2.3 數(shù)據(jù)處理

（1）數(shù)據(jù)去重處理

由于面對全網(wǎng)信息采集，不可避免遇到數(shù)據(jù)重復問題。分析重復信息得出主要重復數(shù)據(jù)來源：一是同一新聞存在同一站點的不同板塊，采集系統(tǒng)下載兩次或兩次以上；二是相同新聞內容在不同Web站點均有發(fā)布或轉載，而且新聞內容變化不大。

針對上述情況設計了系統(tǒng)采集時去重和采集后離線數(shù)據(jù)去重兩個模塊。采集時去重模塊主要是針對相同新聞且URL地址也相同的情況。針對第二種情況，在系統(tǒng)實現(xiàn)上采用基于句子的Simhash去重算法。

（2）數(shù)據(jù)過濾處理

在數(shù)據(jù)處理時需要對已經(jīng)保存在數(shù)據(jù)庫中的信息進行過濾處理，去除無關信息。過濾方法對于微博內容中包含用戶領域關鍵詞，則認為是領域相關的微博，如果不包含，則刪除該條微博信息。

（3）數(shù)據(jù)排序處理

新聞類Web信息數(shù)據(jù)排序原則是按照新聞內容領域相關性、時效性、內容重要性進行的綜合排序。

① 計算該條新聞內容的領域相關性權值。在數(shù)據(jù)處理前，對領域關鍵詞賦予相應的權值然后對新聞內容進行分詞，并與領域關鍵詞進行匹配，統(tǒng)計匹配領域關鍵詞及其頻率計算內容相關性權值：

② 以該條新聞轉發(fā)數(shù)為重要依據(jù)，計算新聞重要性權值。

③ 經(jīng)過以上兩步獲得了每一條新聞相關性、重要性權值，再結合新聞時效性便可以對數(shù)據(jù)庫中新聞數(shù)據(jù)進行很好的排序。

針對微博信息熱點推薦，設計并實現(xiàn)了一種改進的短文本主題發(fā)現(xiàn)方法。該方法滿足大量微博數(shù)據(jù)的處理以及微博的傳播特性，首先基于馬爾科夫模型（Hideen Markov Model）進行新詞發(fā)現(xiàn)。然后利用新詞發(fā)現(xiàn)結果構建LDA模型，實現(xiàn)微博熱點挖掘，最后結合微博發(fā)布時間、轉發(fā)數(shù)、評論數(shù)進行排序推薦。

2.4 特定領域信息的監(jiān)控與自動更新模塊

為應對新聞類網(wǎng)頁動態(tài)性較強，數(shù)據(jù)更新頻率不固定這一問題，設計實現(xiàn)了新聞站點監(jiān)控與自動更新模塊。通過監(jiān)聽目標網(wǎng)址，建立該網(wǎng)址信息快照，設置更新間隔及增益、下次更新時間，具體流程信息如下：

Step1：對目標新聞網(wǎng)站索引頁，從數(shù)據(jù)庫中讀取其網(wǎng)頁快照更新間隔增益下次更新時間

Step2：通過對比系統(tǒng)當前時間與索引頁下次更新時間決定是否對索引頁進行更新檢查。如果系統(tǒng)當前時間未到索引頁下次更新時間則忽略該Web站點的更新檢查；如果當前時間已過下次更新時間則調用系統(tǒng)Web爬蟲，下載該索引頁網(wǎng)頁信息，獲取其當前網(wǎng)頁快照。

Step3：對比當前網(wǎng)頁快照與數(shù)據(jù)庫中網(wǎng)頁快照，判斷該網(wǎng)頁是否更新。將第2步獲取的索引頁網(wǎng)頁快照與從數(shù)據(jù)庫讀出的上次網(wǎng)頁快照進行對比，如果兩個網(wǎng)頁快照完全一致，則說明該Web站點信息沒有更新；如果兩者不相同則說明該Web站點新聞信息已經(jīng)更新，系統(tǒng)自動調用Web爬蟲將更新數(shù)據(jù)下載到數(shù)據(jù)庫中。

Step4：經(jīng)過第3步，可以判斷出網(wǎng)頁索引頁信息是否更新，之后需要把對應的更新時間間隔進行修正，并計算下次更新時間。對于沒有任何更新的Web站點，需要動態(tài)增大更新間隔下次更新時間采用下述表達式：

上述監(jiān)控程序每隔一段時間訪問更新時間在當前時間之前的網(wǎng)址，與網(wǎng)頁快照比較判斷是否更新。采用對更新間隔時間進行動態(tài)增減值，能保證數(shù)據(jù)庫中更新時間間隔動態(tài)逼近真實的Web站點更新間隔，計算出的下次更新時間在其真實更新時間上下浮動。這樣Web信息集成系統(tǒng)可以按照預期的網(wǎng)站更新時間進行數(shù)據(jù)采集，合理利用有限資源，避免大量無關檢索操作，提高采集效率。

2.5 特定領域的可視化及推送

（1）動態(tài)網(wǎng)站展示及郵件推送。通過網(wǎng)站展示，用戶可以直觀獲取集成后自己所需的新聞內容或感興趣的微博信息，但也存在局限性，用戶一旦離開PC，就難以獲取系統(tǒng)集成的信息。

（2）微信公眾號信息推送。微信公眾平臺在公眾號開發(fā)菜單的高級功能中為移動開發(fā)者提供了兩種微信公眾號模式：編輯模式和開發(fā)模式。啟用編輯模式的微信公眾號，管理員可以綜合用戶關心的問題及自身服務內容，進行對應的公眾號信息庫配置。開發(fā)模式則是騰訊推出的采用第三方服務器響應用戶請求的微信公眾號開發(fā)方式。

3 Web信息集成系統(tǒng)實現(xiàn)及分析

3.1 氣候變化Web信息集成系統(tǒng)

氣候變化Web信息集成系統(tǒng)能夠根據(jù)用戶設置一組Web新聞站點的索引頁URL及氣候變化領域相關的關鍵詞詞集，系統(tǒng)能自動將目標站點的全部新聞信息下載并抽取出正文等信息，同時基于領域關鍵詞抓取微博上相關輿情信息，將這些氣候變化領域相關新聞、輿情信息存入本地數(shù)據(jù)庫，通過進一步數(shù)據(jù)分析處理，實現(xiàn)網(wǎng)站展示、郵件推送、微信公眾號推送。

3.2 氣候變化Web信息集成系統(tǒng)設計及實現(xiàn)

（1）用戶模塊

氣候變化Web信息集成系統(tǒng)的用戶模塊主要是氣候變化領域專家、學者提供一些目標網(wǎng)站的新聞索引頁。使有與氣候變化領域直接相關的Web數(shù)據(jù)源，確保抓取信息的準確性，避免了大量的Web信息判斷，領域專家同時提供一個氣候變化領域相關的關鍵詞詞集。

（2）預處理模塊

在用戶模塊中專家提供的新聞索引頁、氣候變化領域關鍵詞詞集均為配置文件，系統(tǒng)在預處理模塊中將這些配置文件載入系統(tǒng)，同時初始化數(shù)據(jù)庫、網(wǎng)站展示、郵件推送訂閱用戶列表等。在預處理階段，依據(jù)用戶提供的關鍵詞和用戶需求，可以針對性地擴大領域關鍵詞詞集，為后續(xù)數(shù)據(jù)采集與處理提供支持。

（3）數(shù)據(jù)采集與處理模塊

① Web 數(shù)據(jù)采集模塊

氣候變化領域Web信息集成系統(tǒng)數(shù)據(jù)源分為新聞類數(shù)據(jù)源和微博數(shù)據(jù)源，其中新聞類Web數(shù)據(jù)源主要采用用戶定制方式指定領域相關的Web新聞站點，這樣保證新聞準確性、相關性。微博數(shù)據(jù)主要來源是新浪微博、Twitter，并將基于微博搜索引擎獲取的騰訊微博、搜狐微博作為微博數(shù)據(jù)補充。

系統(tǒng)數(shù)據(jù)信息采集模塊包括了領域新聞采集、微博輿情信息采集模塊。其中領域新聞信息采集分為基于氣候變化領域相關的新聞Web 站點索引頁的新聞信息采集和基于氣候變化領域關鍵詞的全網(wǎng)新聞信息采集，通過索引頁識別和網(wǎng)頁翻頁模塊，采集抽取出新聞類網(wǎng)頁鏈接地址URLs，然后采取正文抽取方法進行正文信息采集，再生成正文Simhash指紋，并與數(shù)據(jù)庫中已下載數(shù)據(jù)Simhash指紋進行比較，判斷該新聞數(shù)據(jù)是否存在，如不存在則存入數(shù)據(jù)庫中。兩者主要區(qū)別是Web站點信息源不同，前者有學者、專家指定氣候變化領域新聞網(wǎng)站，后者依賴搜索引擎對氣候變化領域內的新聞信息進行全網(wǎng)檢索。后者主要作為前者信息的補充，同時通過關鍵詞擴展，對于新聞事件檢索有較好的效果。兩者在Web爬蟲采集過程中對新聞進行URL去重，過濾到重復的新聞信息。

② Web 數(shù)據(jù)處理模塊

信息集成系統(tǒng)采集模塊采集大量氣候變化領域相關新聞、微博數(shù)據(jù)，存儲在本地數(shù)據(jù)庫中。雖然經(jīng)過采集過程中URL去重和Simhash指紋算法去重，這些數(shù)據(jù)仍然需要進一步綜合處理，才能交于展示推送模塊，推送給用戶。氣候變化領域Web信息集成系統(tǒng)數(shù)據(jù)處理模塊包含的幾個子模塊如圖5所示。

③ 領域信息的監(jiān)控與自動更新模塊

Web上站點信息更新時間各不相同，通過監(jiān)控與自動更新模塊，可以使系統(tǒng)調用采集模塊進行Web站點信息采集時間在對應站點信息更新時間的上下浮動，避免在目標站點更新周期內過于頻繁進行采集操作，造成不必要資源浪費。氣候變化領域Web信息集成系統(tǒng)運行以后，監(jiān)控與自動更新模塊在采集某一Web站點的索引頁時，為其建立網(wǎng)頁快照，并設置默認更新間隔T、增益K，同時根據(jù)當前時間和更新間隔計算出下次S，并將這些數(shù)據(jù)保存到庫下載任務表中。

（4）展示推送模塊

為更好適應現(xiàn)代工作生活節(jié)奏，氣候變化領域Web信息集成系統(tǒng)在展示推送模塊設計上，采取多樣性展示推送方式。

前臺網(wǎng)站展示，數(shù)據(jù)由本系統(tǒng)數(shù)據(jù)采集與處理模塊支持。網(wǎng)站將數(shù)據(jù)庫中信息，特別是新聞類信息依照分類模塊計算出的類別分版塊進行展示，適用PC用戶，方便獲取各種氣候變化領域信息。

4 結論

本文設計了一種模塊化可定制可移植的特定領域Web信息集成系統(tǒng)框架，通過目標Web站點索引頁、領域關鍵詞等信息對系統(tǒng)進行定制，方便將系統(tǒng)遷移到不同領域，滿足不同用戶需求。在采集用戶設置目標站點的同時，系統(tǒng)能夠對全網(wǎng)領域相關新聞、微博數(shù)據(jù)進行采集與處理，將相關信息存入數(shù)據(jù)庫中，供展示推送模塊調用。在介紹系統(tǒng)設計的同時，闡述了各模塊實現(xiàn)技術及功能，并針對其中關鍵技術進行了研究，提出基于XPath的索引頁翻頁方法、一種通用新聞類網(wǎng)頁正文方法以及一種基于關鍵詞領域新聞數(shù)據(jù)、微博輿情信息的采集系統(tǒng)等。

參考文獻

[1] 吳斌杰，徐子瑋，虞飛華.基于 API 的微博信息采集系統(tǒng)設計與實現(xiàn)[J].電腦知識與技術，2013，9（17）：4005?4008.

[2] 孫青云，王俊峰，趙宗渠，等.一種基于模擬登錄的微博數(shù)據(jù)采集方案[J].計算機技術與發(fā)展，2014，24（3）：6?10.

[3] 張彥超，劉云，李勇，等.基于自動生成模板的Web信息抽取技術研究[J].北京交通大學學報，2009，33（5）：40?45.

[4] 歐健文，董守斌，蔡斌.模板化網(wǎng)頁主題信息的提取方法[J].清華大學學報（自然科學版），2005，45（z1）：1743?1747.

[5] 趙欣欣，索紅光，劉玉樹.基于標記窗的網(wǎng)頁正文信息提取方法[J].計算機應用研究，2007，24（3）：144?145.

[30] CAI D， YU S P， WEN J R， et al. VIPS： a vision?based page segmentation algorithm [R]. Redmond： Microsoft Corporation， 2003.

[6] LAENDER A H F， RIBEIRO?NETO B A， DA SILVA A S， et al. A brief survey of Web data extraction tools [J]. ACM SIGMOD record， 2002， 31（2）： 84?93.

[7] FLESCA S， MANCO G， MASCIARI E， et al. Web wrapper induction： a brief survey [J]. AI communications， 2004， 17（2）： 57?61.

現(xiàn)代電子技術2016年11期

現(xiàn)代電子技術的其它文章: 基于模糊自適應PID的皮帶運輸速度控制系統(tǒng); 基于非正交坐標系下模糊PI永磁同步電機的研究; 智能輪椅GPS定位導航系統(tǒng)設計; 浮動車技術應用研究進展; 基于數(shù)據(jù)挖掘的商務智能系統(tǒng)的設計與實現(xiàn); 基于多代理在微電網(wǎng)中拓撲識別與仿真