亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于用戶行為模型的移動APP信息采集方法

        2018-07-05 02:42:28楊海軍梁汝峰蔡立志上海市互聯網信息辦公室上海0000上海藍全網絡科技有限公司上海上海市計算機軟件評測重點實驗室上海
        計算機應用與軟件 2018年6期
        關鍵詞:效率信息

        楊海軍 施 敏 梁汝峰 蔡立志(上海市互聯網信息辦公室 上海 0000)(上海藍全網絡科技有限公司 上海 0)(上海市計算機軟件評測重點實驗室 上海 0)

        0 引 言

        21世紀以來,計算機互聯網飛速發(fā)展[1],據不完全統(tǒng)計,截至2016年底,中國的互聯網用戶已經達到7.31億。隨之而來的是爆發(fā)式增長的互聯網信息,同時,隨著智能手機的普及、移動互聯網與各種APP的發(fā)展,移動客戶端已經成為了人們獲取以及發(fā)布信息的重要渠道。移動客戶端APP已經成為互聯網用戶掌握各種新的主要途徑之一,在事件傳播和輿論導向過程中起著至關重要的作用,成為信息采集的主要對象。信息采集在信息實時性和全面性有較高的要求,若單純以人力進行數據采集,無法高效、高質量完成如此龐大的工作量,基于計算機互聯網技術的新聞移動APP客戶端信息采集便應運而生。

        1 移動APP客戶端信息采集

        在互聯網大數據時代,從互聯網中獲取信息的方法隨著技術的發(fā)展逐漸改變,傳統(tǒng)的網頁信息采集是指通過網絡蜘蛛在互聯網上采集網頁信息的過程[2]。網絡蜘蛛(Web Spider),又被稱作網絡爬蟲或網絡機器人,是專門用來搜索互聯網上各種網頁信息的軟件,具有獨立的工作和決策能力,能自動地在互聯網上按照一定的規(guī)則進行搜索爬行,并將搜索的信息返回給服務器。不同的搜索引擎,網絡蜘蛛會有所區(qū)別,通常包括通用網絡蜘蛛和主題網絡蜘蛛。通用網絡蜘蛛通過通用搜索引擎進行信息采集,只考慮采集網頁的數量,盡可能多地抓取網頁信息,而不考慮網頁和主題的相關度。主題網絡蜘蛛通過垂直搜索引擎(主題搜索引擎)實現[3],只在特定領域范圍內采集與主題相關的網頁。

        1.1 網絡蜘蛛結構

        為了使用移動APP客戶端數據采集的需要,本文使用改進的網絡蜘蛛模型,如圖1所示。任務發(fā)送隊列負責從移動APP信息采集任務庫中遍歷信息APP采集任務。然后將采集任務放入發(fā)送隊列,并發(fā)送至任務請求發(fā)送模塊;任務請求發(fā)送模塊利用HTTP網絡通信協(xié)議與待采集的APP服務器建立連接并發(fā)送請求;頁面下載解析模塊負責將返回的信息下載到本地,進行解析,按照預設的格式存儲,最終發(fā)送至數據信息庫。

        圖1 改進的網絡蜘蛛結構圖

        利用上述模型,可以實現移動APP客戶端數據信息采集功能,具體流程如下:

        (1) 從數據庫中讀取需要采集的移動APP任務,全部加載到任務隊列中;

        (2) 任務隊列發(fā)送任務至任務發(fā)送模塊;

        (3) 任務發(fā)送模塊獲取任務相關Cookie、Client等信息,發(fā)送請求至移動APP服務器;

        (4) 若移動APP服務器返回信息正常,執(zhí)行(5);若移動APP服務器返回信息為空或無效數據,返回(2);

        (5) 對移動APP服務器返回的信息數據進行相應的解析,過濾掉無用和隱藏的信息,將有價值的信息按照特定格式儲存;

        (6) 將儲存的移動APP發(fā)布相關信息上傳指定的服務器;

        (7) 返回,繼續(xù)執(zhí)行(2)。

        本文的改進網絡蜘蛛模型可以直接利用PC端模擬手機發(fā)送相關請求至服務器,對獲取的信息進行解析和存儲,從而完成相關的數據采集工作。不僅可以節(jié)省硬件方面的投入,也可以提高采集和處理效率。

        1.2 移動APP客戶端信息采集協(xié)議基礎

        若想全面地采集如此龐大的移動APP客戶端發(fā)布信息,保證移動APP客戶端信息的采集效率是重中之重。目前大量移動客戶端APP和服務器交互,都是通過HTTP協(xié)議實現。超文本傳輸協(xié)議HTTP(HyperText Transfer Protocol)是網絡上廣泛使用的一種從WWW服務器傳輸超文本到本地瀏覽器的傳輸協(xié)議。瀏覽器發(fā)起一個到服務器上指定端口(默認端口為80)的HTTP請求,應答的服務器將其上存儲的資源,比如HTML文件和圖像,傳輸給瀏覽器。HTTP是一個應用層通信協(xié)議,由請求和響應構成,并且是一個無狀態(tài)的協(xié)議。其中HTTP 1.1版本由RFC 2616定義。HTTP協(xié)議通常承載于TCP協(xié)議之上,有時也承載于TLS或SSL協(xié)議層之上(即HTTPS)。一次HTTP請求和響應的過程為:客戶機發(fā)送一個請求給服務器,請求內容包括統(tǒng)一資源標識符(URL)、協(xié)議版本號,MIME信息、客戶機信息等內容。服務器接到請求后,給予相應的響應信息,內容包括響應狀態(tài)碼、協(xié)議版本號、MIME信息、服務器信息、實體信息等內容。

        目前,可利用某些抓包軟件抓取到相應的HTTP請求信息,代碼1利用計算機軟件模擬相關的請求,從服務器獲取移動APP客戶端的數據信息。

        代碼1 移動APP客戶端發(fā)送請求信息

        SNUID=0DB280DE2B0B940A0000000058A38888SUV=00F95AA53B6CDC44586F0C28B84A9082usid=xZmbGqOkeHYi1vjqvrposw2ewiX0iPDAt1nD/dVbT1Q==

        從代碼1可以看出,HTTP請求除了client信息外,還包含了cookies/login信息,在發(fā)送請求時,在請求中加入相應信息就可以順利得到服務器返回的相應信息。解析返回的信息我們就可以獲取信息數據,并根據我們的需求存取相應的數據信息。

        2 采集效率問題建模分析與改進

        由于網絡蜘蛛的信息采集會消耗大量服務器資源,為了避免一些網絡黑客等惡意訪問服務器,造成服務壓力過大、占用太多的資源、造成正常用戶無法登錄等,大部分的服務器都采取了適當的限制技術。即通過正常用戶的行為模型來判斷請求是否來自正常用戶,即通過用戶的請求頻率、瀏覽器、IP等識別網絡蜘蛛,從而對過度頻繁的訪問做出一定的限制。比如要求輸入驗證碼,計算機軟件暫時無法完成驗證碼的識別和自動輸入,無法進行批量信息采集。為了不被站點拒絕訪問請求,必須構建移動客戶端APP的用戶行為模型,模仿正常用戶對網站的訪問。

        2.1 移動APP客戶端信息采集用戶行為模型

        經過反復測試,發(fā)現某些較熱門的移動APP移動客戶端在單線程每次請求間隔1 s的情況下,30 s左右就會出現輸入驗證碼提示,發(fā)送的請求也無法得到回復。服務器要求輸入驗證碼會把一些正常的采集程序誤認為惡意訪問,從而進行限制,造成采集效率受到很大影響。

        選擇某個對用戶訪問限制較高的熱點移動APP,經過反復建模驗證[4],在一定范圍內,采集的效率大致符合以下函數關系:

        (1)

        T(n)=ten+k

        (2)

        式中:T(n)為每輪采集總時間(不包括被限制時間):n為每次采集后暫停時間,t為常數近似為1/e,k為時間常數近似為20。F(n)為采集效率函數,表示單位時間采集發(fā)布文章數量,常數a表示每輪采集,除暫停時間外,每個任務平均消耗的采集時間,在不同模型中有所變化,常數b約為1 200(通常驗證碼20 min后解除限制)。

        基于以上模型,本文提出基于多用戶和多IP的移動APP客戶端信息采集方法。

        2.2 基于多用戶模型的移動APP客戶端信息采集

        根據上節(jié)提出的模型,單個用戶采集信息會受到服務器的限制,為避免正常的信息采集請求被服務器誤認為惡意請求,這里提出使用不同瀏覽器模擬多個用戶發(fā)送請求[5]。使用網絡抓包工具抓取不同瀏覽器的請求信息,具體信息如代碼2和代碼3所示。

        代碼2 火狐瀏覽器發(fā)送請求信息

        代碼3 Chrome瀏覽器微發(fā)送請求信息

        ABTEST=0|1475238878|v1ad=4yllllllll2g7s20lllllVKPDjUlllirTNL0wkllllylllllVqxlw@@@@@@@@@@@CXID=DEC0BB967BDACB3A0E0995B6A6546E6FIPLOC=CN1100jrtt_at=85c65a38f2dld91694594f6162bd3402LCLKINT=1221ld=c2llllllll2gor42lllllVKAgUllllirTojh0lllllylllllVylll5@@@@@@@@@@LSTMV=413%2C172pgv_pvi=4473533440pgv_si=s1933366272sct=478sgid=AVfHnoSFVgmYkAFPLiaCjDeoSNUID=SEC5752219IF2601FE6C5DDF1A088505sogou_player_alive=1473434672159sogou_player_isclosed=1ssuid=5063970967SUID=44DC6C386A28920A00000000579EE38FSUV=00274A10386CDC44579EE38FCDA67878usid=3QkIcbohvwvHMPuYweixinlndexVisited=1wuidAAEXTmGaEwAAAAqQUT++qQkAkwA=MiscellaneousReferer:http://weixin.sogou.com/Upgrade-Insecure-Requests:1TransportConnection:keep?aliveHost:weixin.sogou.com

        由代碼2和代碼3可以看出,不同瀏覽器發(fā)送請求時發(fā)送的頭信息有所不同,根據抓取的請求信息,可以模擬不同的瀏覽器發(fā)送請求[6]。為了模擬用戶行為,采用多線程采集移動APP客戶端數據信息,每隔一段隨機時間更換一種瀏覽器發(fā)送請求,且每次發(fā)送請求后暫停一段隨機時間,此隨機時間滿足正態(tài)分布,其生成函數為Box-Muller變換:

        (3)

        式中:σ為正態(tài)分布的標準差;μ為正態(tài)分布的平均值;U1和U2是(0,1)范圍內服從均勻分布的兩個獨立隨機變量。經測試,使用多瀏覽器可以明顯提高采集效率,在單位時間內與一種瀏覽器相比,采集效率提高了一倍。但這仍然不能從根本上解決采集時間過長導致服務器要求輸入驗證碼,從而導致采集效率不高的問題,只能一定程度緩解采集受限。

        2.3 基于多IP模型的移動APP客戶端信息采集

        服務器處理請求除了驗證瀏覽器信息外,還會驗證IP,同一個IP多次發(fā)送請求會被大多數服務器限制功能[7]。為了有效避免采集程序被誤認為惡意訪問程序,嘗試不斷改變IP進行采集,具體方法為使用代理服務器[8]?,F在互聯網上有很多免費的代理可以使用,本文利用代理服務器進行移動APP客戶端數據信息采集。

        使用計算機單線程采集,設置的采集間隔時間為1 s,每當發(fā)送請求返回信息要求輸入驗證碼時,更換代理服務器,繼續(xù)發(fā)送采集請求,如此循環(huán)。當每個代理服務器遍歷一次之后,重新使用第一個代理服務器,若此時服務器還要求輸入驗證碼,降低采集頻率并延長間隔時間。當代理服務器遍歷一次之后,整個程序暫停一段時間,然后繼續(xù)遍歷使用代理服務器。從采集結果來看,使用代理服務器采集能夠有效維持采集的連續(xù)性,減少了等待時間,從整體來講,只要有足夠多的代理服務器,理論上可以二十四小時不間斷采集,大大提高了采集效率,有著更高的實用性[9-10]。

        3 實驗與驗證

        本次測試目的在與根據實際采集情況來分析改進的基于多用戶和多IP模型的移動客戶端數據信息采集相對于最初單瀏覽器固定IP信息采集的效率變化情況。本次測試使用的機器為 DELL品牌臺式機,型號為ACPI x64-based PC,使用Java編程語言,版本為1.6.0_43,網絡為方正寬帶20 M。

        首先使用固定IP,單線程搜索,每次搜索之后暫停1s,多次測試之后得到程序可以正常運行時間期望為29 s,搜索任務數量期望為22個,每次要求輸入驗證碼之后程序停止運行,等待驗證碼輸入要求解除,經驗證,要求驗證碼輸入持續(xù)時間期望為20 min。代入式(1)計算的效率值為0.017 9。

        在相同的測試環(huán)境下,仍然使用單線程搜索,其他條件不變的情況下,每次搜索后更換瀏覽器發(fā)送請求信息,瀏覽器使用搜狗、火狐和Google Chrome三種瀏覽器。瀏覽器更換的間隔時間采用平均值為60 s,標準差為1 s的正態(tài)分布隨機數,由式(3)得到。每次請求的間隔時間采用平均值為1 s,標準差為1 s的正態(tài)分布隨機數。經過多次測試,計算得到程序正常運行期望為45 s,搜索任務數量期望為35個,當發(fā)送請求后,返回信息要求輸入驗證碼也是在20 min后消失,根據式(1)計算得到采集效率為0.028 1。

        最后在前面的測試平臺和測試環(huán)境下,使用網絡代理,仍然使用單線程采集,在第二次測試的條件下,每次出現驗證碼切換代理服務器繼續(xù)進行采集,遍歷使用網絡代理,遍歷一次之后重新遍歷使用。若只使用單一瀏覽器,在現有代理數量的情況下,還達不到不間斷持續(xù)采集,相對多瀏覽器采集,性能明顯處于劣勢,這里不做具體研究。經過多次測試,采集程序基本可以保證不間斷采集,計算得到效率值期望為0.108 3。具體數據對比如表1所示。

        表1 多瀏覽器與代理對信息采集效率影響

        從表1可以明顯看出,通過增加瀏覽器數目和使用網絡代理改進移動APP客戶端采集程序取得了不錯的效果,在采集的效率上有較大的提升。表2列出了運用3種采集方法時,驗證碼出現前正常運行時間和任務數的對比。

        表2 三種采集方法運行時間和任務數對比

        從表2可以明顯看出,最終的采集方案可以做到不間斷采集。不僅可以為科研仿真等提供數據,也可以為輿情監(jiān)控傳播分析提供大量的數據;采集移動APP客戶端數據信息的實時性和全面性均達到工程應用的標準。

        4 結 語

        本文從傳統(tǒng)的網絡蜘蛛模型入手,對現有的類網絡蜘蛛模型進行改造,以解決無法連續(xù)采集、采集效率低下的問題。結合用戶行為模型提出了通過模擬多用戶切換輪流向網絡服務器發(fā)送請求,能夠在一定范圍內提高移動APP客戶端采集效率;同時采用多IP模型,有效規(guī)避采集過程中對單一IP做出的諸多限制,從而在采集效率上有了較大幅度的提升。經過一系列優(yōu)化已經投入使用,采集移動客戶端信息的效率初步滿足應用需求。

        [1] Murray B H, Moore A. Sizing the Internet[R]. White Paper, Cyveillance, 2000:3.

        [2] Aggarwal C C, Al-Garawi F, Yu P S. Intelligent crawling on the World Wide Web with arbitrary predicates[C]// Proceedings of the 10th International Conference on World Wide Web. ACM, 2001: 96- 105.

        [3] Menczer F. Complementing search engines with online web mining agents[J]. Decision Support Systems, 2003, 35(2): 195- 212.

        [4] 薛定宇, 陳陽泉. 高等應用數學問題的 MATLAB 求解[M]. 清華大學出版社有限公司, 2004.

        [5] 丁婕. 管窺“網絡蜘蛛”之網上爬行[J]. 技術與市場, 2008 (8): 49- 49.

        [6] 劉玲. 一種基于人工策略的 WEB 信息精確提取系統(tǒng)[J]. 西南科技大學學報, 2009, 24(2): 49- 52.

        [7] 陳志雄, 朱向慶. 基于內容評價與超鏈分析的主題爬蟲策略[J]. 廣西輕工業(yè), 2011 (3): 66- 67.

        [8] 張麗敏. 垂直搜索引擎的主題爬蟲策略[J]. 電腦知識與技術, 2010(15): 3962- 3963.

        [9] 張晶, 肖智斌, 容會, 等. 改進型遺傳算法在網絡蜘蛛上的應用[J].山東大學學報(理學版),2015,50(5):1- 6.

        [10] 林晶, 彭小寧. 基于主題語義 URL 的信息搜索方法研究[J]. 計算機應用與軟件, 2015,32(6): 42- 45.

        猜你喜歡
        效率信息
        提升朗讀教學效率的幾點思考
        甘肅教育(2020年14期)2020-09-11 07:57:42
        注意實驗拓展,提高復習效率
        效率的價值
        商周刊(2017年9期)2017-08-22 02:57:49
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        跟蹤導練(一)2
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        “錢”、“事”脫節(jié)效率低
        提高講解示范效率的幾點感受
        體育師友(2011年2期)2011-03-20 15:29:29
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        99久久超碰中文字幕伊人| 久久狠狠髙潮曰十八女人| 日韩av在线亚洲女同| 在线免费观看亚洲毛片| 国产白色视频在线观看| 精品人妻少妇嫩草av无码专区| 国产自偷亚洲精品页65页| 69av视频在线| 日本a一区二区三区在线| 亚洲av成人av三上悠亚| 人妻少妇乱子伦精品| 狠狠久久久久综合网| av网站影片在线观看| 日本女同视频一区二区三区 | 久久综合激激的五月天| 蜜桃臀av一区二区三区| 中文无码精品a∨在线观看不卡| 人妻丰满熟妇AV无码区HD| 宅男久久精品国产亚洲av麻豆| 人妻少妇精品视频一区二区三区l| 国产白嫩护士被弄高潮| 亚洲伊人久久大香线蕉综合图片| 亚洲中文字幕国产综合| 免费人成视频网站在在线| 四虎影视免费永久在线观看| 国产成人精品免费久久久久| 国产成人精品人人做人人爽| 亚洲av色av成人噜噜噜| 无码区a∨视频体验区30秒| 亚洲视频毛片| 初尝人妻少妇中文字幕在线| 在线免费观看黄色国产强暴av | 那有一级内射黄片可以免费看| 一本色道久久88综合日韩精品 | 亚洲国产精品一区二区www| 亚洲国产韩国欧美在线| 在线丝袜欧美日韩制服| 激情五月开心五月啪啪| 亚洲一区二区三区香蕉| 国产美女在线一区二区三区| 精品国产污黄网站在线观看|