亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于互聯(lián)網(wǎng)大數(shù)據(jù)的事件智能抓取和畫像

        2020-03-23 06:08:37李方方陳容華秦勝男戴勝
        無線互聯(lián)科技 2020年1期
        關(guān)鍵詞:機(jī)器學(xué)習(xí)畫像大數(shù)據(jù)

        李方方 陳容華 秦勝男 戴勝

        摘? ?要:文章主要以航空公司為背景,通過爬蟲獲取和航班量相關(guān)的事件信息,并且對(duì)這些事件進(jìn)行智能抓取和建模畫像,主要采用了URL去重算法和4種分布式調(diào)度算法進(jìn)行事件抓取,通過近義詞匹配進(jìn)行事件去重,最后對(duì)抓取的事件進(jìn)行畫像建模和可視化展現(xiàn)。

        關(guān)鍵詞:大數(shù)據(jù);機(jī)器學(xué)習(xí);智能抓取;畫像

        1? ? 大數(shù)據(jù)對(duì)各行業(yè)產(chǎn)生不同程度的影響

        隨著互聯(lián)網(wǎng)大數(shù)據(jù)的發(fā)展,網(wǎng)站數(shù)據(jù)、社交媒體數(shù)據(jù)等成為互聯(lián)網(wǎng)大數(shù)據(jù)的重要組成部分。對(duì)于民航業(yè)領(lǐng)域,社會(huì)事件會(huì)在很大程度上影響旅客的出行需求變化,從而影響航空公司飛機(jī)運(yùn)力投放、航班編排、票價(jià)策略調(diào)整等,對(duì)互聯(lián)網(wǎng)事件的準(zhǔn)確抓取和分析能夠幫助航空公司更好地服務(wù)市場(chǎng)、服務(wù)旅客、提升收益。本文主要從互聯(lián)網(wǎng)上抓取對(duì)航空公司有影響的事件,并進(jìn)行分詞及語義等處理,提取事件的屬性建立事件模型以及可視化展現(xiàn)。

        2? ? 互聯(lián)網(wǎng)事件的抓取

        通過初步分析,對(duì)民航業(yè)可能有影響的事件主要分為如下幾類:政治會(huì)議(例如G20)、展會(huì)、體育賽事、演唱會(huì)、突發(fā)異常天氣等,因此,主要對(duì)這些事件進(jìn)行抓取。下面是比較典型的影響事件以及數(shù)據(jù)源,每個(gè)類型的事件數(shù)據(jù)至少來自2個(gè)數(shù)據(jù)源(網(wǎng)站),影響航班的重要事件主要是展會(huì)、體育賽事、突發(fā)異常天氣、政治會(huì)議、航班信息等,主要的數(shù)據(jù)源是E展會(huì)、中國(guó)會(huì)展門戶、大麥網(wǎng)、永樂票務(wù)、中國(guó)天氣、非常準(zhǔn)等[1]。

        3? ? 爬蟲策略

        本文采用的爬蟲使用jsoup高效下載頁面,并根據(jù)用戶配置開啟足夠多的線程,或是自動(dòng)識(shí)別博客、新聞的標(biāo)題、正文信息。為了防止反爬蟲,用戶需根據(jù)需要自行添加header和cookie信息,如未添加則使用默認(rèn)的偽造Window下瀏覽器信息。因?yàn)樯婕暗慕y(tǒng)一資源定位符(Uniform Resource Locator,URL)眾多,本文采用URL去重算法,下文介紹了該算法。

        3.1? URL去重算法介紹

        在網(wǎng)絡(luò)爬蟲的運(yùn)行過程中,當(dāng)抓取模塊完成對(duì)網(wǎng)頁的下載后,解析模塊會(huì)到下載的網(wǎng)頁進(jìn)行解析,抽取嵌套在HTML中指向其他網(wǎng)頁的URL,并將這些URL填充進(jìn)待抓取隊(duì)列以供下一輪抓取?;ヂ?lián)網(wǎng)中網(wǎng)頁相互之間的URL鏈接指向錯(cuò)綜復(fù)雜,解析模塊所抽取到的URL很可能已經(jīng)被抓取過了,如果直接將這些URL加入待抓取隊(duì)列,抓取模塊就會(huì)對(duì)某些網(wǎng)頁進(jìn)行重復(fù)抓取,嚴(yán)重影響爬蟲系統(tǒng)的運(yùn)行效率。為了避免這一情況,需要在填充待抓取隊(duì)列之前對(duì)URL進(jìn)行去重處理,判斷該URL是否已經(jīng)被抓取過,已經(jīng)被抓取過的,則將其丟棄,不予抓取;否則,將其填充進(jìn)待抓取隊(duì)列[2]。

        3.2? 本文所用的URL去重算法

        本文采用URL去重算法,即任何節(jié)點(diǎn)爬取到的需要爬取的網(wǎng)站URL經(jīng)過篩選后將統(tǒng)一返回主節(jié)點(diǎn),并直接存儲(chǔ)至set中,再進(jìn)行節(jié)點(diǎn)分配,有效避免了重復(fù)URL的出現(xiàn)。

        關(guān)鍵代碼如下:

        private URL = new LinkedHashSet();

        if(!nc.getBan().contains(link[i])&&nc.getURL().add(link[i].trim())&&nc.getURL().size()<=nc.getAllLimit())

        nc.getNewURL().add(link[i].trim());

        利用LinkedHashSet實(shí)現(xiàn)URL去重,如果獲取的URL可以被添加到LinkedHashSet中,則添加到新獲得URL隊(duì)列中。

        3.3? 分布式調(diào)度算法

        爬蟲任務(wù)根據(jù)用戶設(shè)置的單次節(jié)點(diǎn)爬取量,將獲取到的需要爬取的URL分批發(fā)送給對(duì)應(yīng)節(jié)點(diǎn),既保證所有節(jié)點(diǎn)近似均勻分配,又兼顧了爬蟲的高效和軟件的輕量化。

        本爬蟲為用戶提供了直接運(yùn)行、阻塞運(yùn)作、定時(shí)運(yùn)行和間隔運(yùn)行4種調(diào)度方式,可以滿足不同的場(chǎng)景需求,比如直接運(yùn)行方式可以保證多個(gè)爬蟲任務(wù)同時(shí)執(zhí)行互不干擾;阻塞運(yùn)行一般是等爬取任務(wù)結(jié)束后再進(jìn)行其他網(wǎng)站的爬取;定時(shí)運(yùn)行是任務(wù)必須在特定日期執(zhí)行,可以使用fixTimeRun;間隔運(yùn)行是設(shè)置幾個(gè)小時(shí)爬取一次。

        網(wǎng)站的自動(dòng)提取進(jìn)程、爬蟲節(jié)點(diǎn)的接收請(qǐng)求服務(wù)器、爬取后的數(shù)據(jù)處理接口、節(jié)點(diǎn)接收程序、請(qǐng)求分析及判斷網(wǎng)站類型啟動(dòng)相應(yīng)爬取程序、普通單獨(dú)頁面的數(shù)據(jù)爬取進(jìn)程、節(jié)點(diǎn)服務(wù)器啟動(dòng)程序。單獨(dú)頁面爬取后將反射調(diào)用數(shù)據(jù)處理接口進(jìn)行處理及數(shù)據(jù)持久化操作,如未添加自定義處理類,則使用程序內(nèi)置的數(shù)據(jù)持久化模塊。

        3.4? 網(wǎng)頁自動(dòng)結(jié)構(gòu)化

        對(duì)于新聞博客類網(wǎng)頁,能進(jìn)行網(wǎng)頁正文的自動(dòng)抽取、對(duì)正文進(jìn)行自動(dòng)摘要和關(guān)鍵詞分析。本文采用的是Boilerpipe正文提取算法,其基本思想是通過訓(xùn)練獲得一個(gè)分類器來提取出需要的信息,在算法中定義多個(gè)過濾器,即對(duì)TextBlock進(jìn)行過濾,使用機(jī)器學(xué)習(xí)、統(tǒng)計(jì)、啟發(fā)式方法等數(shù)據(jù)挖掘算法判斷哪些是TextBlock所需要的(正文段),給TextBlock加上lable,去除無關(guān)的TextBlock。

        4? ? 實(shí)現(xiàn)事件的去重功能

        事件的去重功能主要有兩個(gè)方面:(1)不同數(shù)據(jù)源(網(wǎng)站)的事件去重。(2)不同天抓取的事件去重。本文最初采用相似度閾值去重法,但大部分展會(huì)、演唱會(huì)等名稱相似而實(shí)則不同的信息存在被誤刪的現(xiàn)象,如:第X屆、XX站等。最終采取近義詞匹配去重法,結(jié)合時(shí)間及地理位置信息,有效避免了大量信息被誤刪的情況[3]。

        4.1? 相似度閾值去重法

        相似度閾值去重法的實(shí)現(xiàn)思想是兩個(gè)字符串之間,由一個(gè)轉(zhuǎn)換成另一個(gè)所需的最少編輯操作次數(shù),許可的編輯操作包括將一個(gè)字符替換成另一個(gè)字符,插入一個(gè)字符,刪除一個(gè)字符。算法流程如下:

        (1)計(jì)算strA的長(zhǎng)度n,strB的長(zhǎng)度m。

        (2)如果n=0, 則最小編輯距離是m,m=0,則最小編輯距離是n。

        (3)構(gòu)造一個(gè)(m+1)×(n+1)的矩陣Arr,并初始化矩陣的第一行和第一列分別為0—n,0—m。

        (4)兩重循環(huán),遍歷strA,在此基礎(chǔ)上遍歷strB,如果strA[i]=strB[j],那么cost=0,否則cost=1,判斷Arr[j-1][i]+1,Arr[j][i-1]+1, Arr[j-1][i-1]+cost的最小值,將最小值賦值給Arr[j][i]。

        (5)循環(huán)結(jié)束后,矩陣的最后一個(gè)元素就是最小編輯距離。

        該算法是目前計(jì)算字符串之間距離比較常用的算法,但大部分展會(huì)、演唱會(huì)等名稱相似而實(shí)則不同的信息會(huì)存在被誤刪的現(xiàn)象,比如以大麥網(wǎng)的展會(huì)信息(見圖1)為例,進(jìn)行相似度運(yùn)算。

        StringHelper.similarity(" '岳來越快樂'2017岳云鵬相聲專場(chǎng)—太原站", " '岳來越快樂'2017岳云鵬相聲專場(chǎng)—成都站" );

        相似度為0.9090909090909091;通過相似度運(yùn)算后,均不符合閾值,會(huì)被誤刪除。

        4.2? 近義詞匹配去重法

        本文先用相似度運(yùn)算將獲取到的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行初步處理,替換關(guān)鍵詞后再到數(shù)據(jù)庫中進(jìn)行查找匹配。例如:取得數(shù)據(jù)將“()”替換為中文“()”,將“,”替換為“,”,將空格去除等。展會(huì)名稱:替換博覽會(huì)為展覽會(huì),就不會(huì)有誤刪的問題存在了。

        5? ? 事件的畫像建模

        事件的畫像建模是事件屬性自動(dòng)化提取,在本文中屬性主要包括主辦方級(jí)別、影響區(qū)域范圍、影響力度、影響人群等,本文主要采取屬性自動(dòng)化提取算法,即將不同種類事件采用不同規(guī)則篩選出部分屬性的匹配項(xiàng)。例如,主辦方包含“中華人民共和國(guó)”或“中國(guó)”則為國(guó)家政府組織,包含“世界”或“全球”則為國(guó)際政府組織。

        6? ? 事件建模的可視化展現(xiàn)

        本文的主視圖采用百度地圖,清晰、準(zhǔn)確地展示熱點(diǎn)的地理位置信息,并提供可交互的動(dòng)態(tài)展示詳細(xì)信息。分時(shí)地區(qū)統(tǒng)計(jì)視圖是根據(jù)用戶選擇的時(shí)間動(dòng)態(tài)生成該時(shí)間段內(nèi)各省份的各種數(shù)據(jù)總量,并展示在小型中國(guó)地圖中。全局日期統(tǒng)計(jì)視圖是把數(shù)據(jù)庫中所有當(dāng)年的數(shù)據(jù),按日期分類統(tǒng)計(jì),并生成一個(gè)3D視圖,其中x軸為日期,y軸為月份,z軸為數(shù)量。局部日期統(tǒng)計(jì)視圖是把該場(chǎng)館在該時(shí)間段內(nèi)所有類型數(shù)據(jù)的開始時(shí)間展示到二維日歷視圖中。

        [參考文獻(xiàn)]

        [1]梁正友,張林才.基于Rabin指紋方法的URL去重算法[J].計(jì)算機(jī)應(yīng)用,2008(S2):185-186,203.

        [2]李婷.分布式爬蟲任務(wù)調(diào)度與AJAX頁面抓取研究[D].成都:電子科技大學(xué),2015.

        [3]MESBAH A V,DEURSEN S,LENSELINK.Crawling AJAX-based Web applications through dynamic analysis of user interface static changes[J].ACM Transactions on the Web,2012(1):30.

        Abstract:This article mainly takes the airline as the background, through the reptile to obtain and flight volume-related event information, and the capture of these events intelligent and modeling. The URL de-heavy algorithm and four distributed scheduling algorithms are used to carry out event crawling, and the event to be re-emphasised by close word matching, and finally the image modeling and visual representation of the crawled events is carried out.

        Key words:big data; machine learning; intelligent crawl; portrait

        猜你喜歡
        機(jī)器學(xué)習(xí)畫像大數(shù)據(jù)
        威猛的畫像
        “00后”畫像
        畫像
        基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
        前綴字母為特征在維吾爾語文本情感分類中的研究
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        潛行與畫像
        内射交换多p国产| 日日碰狠狠添天天爽超碰97久久| 精品久久久无码人妻中文字幕豆芽| 久久久久亚洲av无码专区网站| 日本口爆吞精在线视频| 男女好痛好深好爽视频一区| 久久狠狠髙潮曰十八女人| 男人天堂亚洲一区二区| 丰满熟妇乱又伦精品| 国产人妻久久精品二区三区| 中文字幕第一页亚洲| 精选二区在线观看视频| 国产成人亚洲一区二区| 成人毛片无码一区二区三区| 国产精品亚洲综合色区韩国| 国产乱子伦视频一区二区三区| 男女干逼视频免费网站| 蜜桃91精品一区二区三区| 国产在线 | 中文| 男人天堂免费视频| 色哟哟精品中文字幕乱码| 午夜视频在线瓜伦| 国产免费av片在线观看播放| www.91久久| 国产精品一区二区韩国av| 中国孕妇变态孕交xxxx| 久久无码人妻精品一区二区三区| 成人永久福利在线观看不卡| 亚洲国产日韩一区二区三区四区| 影音先锋色小姐| 香蕉视频在线观看国产| 第九色区Aⅴ天堂| 精品国产一区二区三区av免费| 五月av综合av国产av| 亚洲av成人一区二区三区在线观看| 国产精品制服一区二区| 美女视频一区二区三区在线| 国产成人精品综合在线观看| 欧美日韩亚洲精品瑜伽裤| 亚洲欧美日韩在线中文一| 中文字幕亚洲入口久久|