亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種利用網(wǎng)絡(luò)爬蟲獲取商務(wù)樓宇和商戶信息的方法

        2019-07-19 06:04:46張雨龍孫曉鵬王曉東中國聯(lián)通網(wǎng)絡(luò)技術(shù)研究院北京100048
        郵電設(shè)計(jì)技術(shù) 2019年7期
        關(guān)鍵詞:經(jīng)緯度爬蟲樓宇

        張雨龍,孫曉鵬,王曉東(中國聯(lián)通網(wǎng)絡(luò)技術(shù)研究院,北京100048)

        0 引言

        固網(wǎng)寬帶接入市場(chǎng)一直是電信運(yùn)營商角逐的傳統(tǒng)重要陣地。各個(gè)電信運(yùn)營商都在持續(xù)加大固網(wǎng)寬帶建設(shè)力度,投入大量資金。但是隨著家庭寬帶用戶數(shù)量接近飽和,“二級(jí)”代理商發(fā)力占領(lǐng)市場(chǎng),家庭寬帶用戶ARPU逐漸降低,電信運(yùn)營商把投資重點(diǎn)逐步從家庭客戶轉(zhuǎn)變?yōu)樯唐罂蛻簟?/p>

        商企客戶一般分布在寫字樓、工業(yè)園區(qū)、專業(yè)/聚類市場(chǎng)等區(qū)域。這類場(chǎng)景的網(wǎng)絡(luò)覆蓋、商業(yè)營銷與家庭寬帶明顯不同。特別是寫字樓,需要按照樓宇面積、層數(shù)、商戶數(shù)量、商戶屬性、物業(yè)公司、已入駐企業(yè)等多個(gè)維度進(jìn)行分級(jí)分類的建設(shè)和營銷。銀行等金融類企業(yè)、大型連鎖公司、創(chuàng)業(yè)型小型公司對(duì)網(wǎng)絡(luò)的需求明顯不同,具有明顯的個(gè)體性和差異性。同時(shí),我國經(jīng)濟(jì)迅猛發(fā)展,商務(wù)樓宇信息與商戶信息每時(shí)每刻都在發(fā)生變化。

        因此,如何準(zhǔn)確實(shí)時(shí)獲取海量的樓宇信息與商戶信息是電信運(yùn)營商當(dāng)前要解決的重要難題。

        1 現(xiàn)狀分析

        目前主要通過號(hào)線系統(tǒng)、整理現(xiàn)有信息(臺(tái)賬)和人工摸查3種方法獲取樓宇和商戶信息。

        號(hào)線系統(tǒng):對(duì)于固網(wǎng)資源已經(jīng)覆蓋的樓宇,可以通過號(hào)線系統(tǒng)導(dǎo)出樓宇和商戶信息。一般導(dǎo)出的數(shù)據(jù)比較準(zhǔn)確,但是此方法僅適用于已覆蓋固網(wǎng)資源的區(qū)域,且時(shí)效性較低。

        現(xiàn)有信息整理(臺(tái)賬):各運(yùn)營商經(jīng)過多年的規(guī)劃與系統(tǒng)建設(shè),積累了一定數(shù)量的樓宇信息,可以直接輸出。但這種數(shù)據(jù)質(zhì)量一般不高,存在樓宇條目重復(fù)、樓宇信息錯(cuò)誤、格式不統(tǒng)一等問題,信息時(shí)效性差。而且處理海量數(shù)據(jù)也耗費(fèi)了大量的人力物力。

        人工摸查:這種方法需要相應(yīng)人員逐片區(qū)域、逐個(gè)樓宇、逐層樓進(jìn)行信息摸查,需要消耗大量的人力物力,效率較低。同時(shí)人工錄入信息格式難以統(tǒng)一,后期還需要花費(fèi)大量時(shí)間處理數(shù)據(jù),后續(xù)數(shù)據(jù)更新維護(hù)也不方便。

        2 實(shí)現(xiàn)方案

        在“互聯(lián)網(wǎng)+”的大數(shù)據(jù)信息時(shí)代,通過互聯(lián)網(wǎng)手段可以獲得海量的樓宇信息和商戶信息數(shù)據(jù)。網(wǎng)絡(luò)爬蟲作為獲取數(shù)據(jù)的一種新興方法,具有效率高、成本低、數(shù)據(jù)時(shí)效性高等特點(diǎn)。

        通過高德地圖/百度地圖可以查詢到絕大多數(shù)樓宇和商戶信息。同時(shí)由于商業(yè)經(jīng)營等原因,商戶會(huì)要求地圖公司及時(shí)更新自己的地圖信息。商戶信息更新速度快、時(shí)效性高。因此,本方案通過高德地圖/百度地圖提供的接口爬取樓宇和商戶信息,然后整理這些信息,利用數(shù)學(xué)算法,將商戶信息匹配到特定的樓宇中,最后輸出相匹配的樓宇和商戶信息。

        本方案中的網(wǎng)絡(luò)爬蟲通過Python語言編寫,數(shù)據(jù)通過MongoDB數(shù)據(jù)庫存儲(chǔ)。整體流程如圖1所示。

        圖1 整體流程圖

        下面結(jié)合具體案例介紹方案的實(shí)施步驟。本方案的目標(biāo)是獲取“上地大廈”區(qū)域內(nèi)的所有樓宇和商戶信息。

        2.1 自主劃定區(qū)域范圍

        在確定樓宇和商戶的地理位置后,在地圖上選取對(duì)應(yīng)的矩形區(qū)域即可(見圖2),其中選擇的范圍(矩形區(qū)域大?。]有限制,按需即可。通過高德開放平臺(tái),可以獲取任一點(diǎn)的經(jīng)緯度。如圖2所示獲取并記錄紅色矩形的左上和右下2個(gè)點(diǎn)的經(jīng)緯坐標(biāo)。這2個(gè)點(diǎn)的經(jīng)緯度坐標(biāo)會(huì)作為后續(xù)爬蟲程序的輸入信息。

        2.2 通過API爬取數(shù)據(jù)

        在大數(shù)據(jù)和人工智能蓬勃發(fā)展的時(shí)期,為了搶占開發(fā)市場(chǎng)和話語權(quán),高德、百度等互聯(lián)網(wǎng)企業(yè)都開放應(yīng)用程序接口(API),供開發(fā)者免費(fèi)使用。

        圖2 自主劃定區(qū)域示意圖

        為了通過API獲取數(shù)據(jù),需要向地圖公司申請(qǐng)大數(shù)據(jù)平臺(tái)權(quán)限。首先要注冊(cè)成為開發(fā)者,即用戶注冊(cè),然后去控制臺(tái)創(chuàng)建Web服務(wù)應(yīng)用。經(jīng)過以上步驟,得到API的唯一識(shí)別碼KEY,該識(shí)別碼是用戶獲取數(shù)據(jù)的權(quán)限標(biāo)識(shí),也是后續(xù)爬蟲程序的輸入信息。

        按照API接口的網(wǎng)址要求,將獲得的2個(gè)經(jīng)緯度坐標(biāo)、唯一識(shí)別碼KEY和其他規(guī)定的信息(如商戶類型等,高德API接口有分類文檔,在官網(wǎng)查詢即可)進(jìn)行拼接,從而得到數(shù)據(jù)信息的網(wǎng)址,通過該網(wǎng)址,即可得到相應(yīng)的信息數(shù)據(jù)。將上述操作過程編寫為自動(dòng)化的爬蟲程序,獲取數(shù)據(jù)并將返回的信息數(shù)據(jù)(即獲取的樓宇和商戶信息)存儲(chǔ)進(jìn)MongoDB數(shù)據(jù)庫。

        2.3 數(shù)據(jù)的整理與關(guān)聯(lián)

        上一個(gè)步驟輸出的信息數(shù)據(jù)中,樓宇信息和商戶信息是獨(dú)立的,沒有形成完備的數(shù)據(jù)集合,所以需要對(duì)輸出的數(shù)據(jù)進(jìn)行整理和歸類。

        整理:根據(jù)建設(shè)和營銷的需求,選取有效字段(一般包括名稱、類型、地址、經(jīng)緯度、邊框經(jīng)緯度、電話、網(wǎng)址等信息),具體操作如圖3所示。

        圖3 API輸出數(shù)據(jù)示意圖

        歸類:樓宇和商戶信息均有經(jīng)緯度,其中樓宇信息包含區(qū)域邊框頂點(diǎn)經(jīng)緯度。通過樓宇的邊框頂點(diǎn)經(jīng)緯度信息和商戶的經(jīng)緯度信息,可以判斷商戶的經(jīng)緯度點(diǎn)是否在樓宇的邊框區(qū)域內(nèi)。如商戶的經(jīng)緯度在樓宇的邊框區(qū)域中,那么就把該商戶匹配到對(duì)應(yīng)樓宇中,以實(shí)現(xiàn)商戶與樓宇的關(guān)聯(lián)。

        2.4 輸出結(jié)果

        通過上述步驟,最終輸出樓宇信息表和商戶信息表。表1是樓宇信息表,主要包含名稱、地址、經(jīng)緯度、包含的商戶數(shù)量、商戶名稱、電話、網(wǎng)站、所屬城市、所屬區(qū)域等信息。其中“商戶名稱”一行應(yīng)包括所有商戶的名稱,本表只是選取其中4個(gè)作為示例。表2是輸出的樓宇信息情況,每一行為1個(gè)樓宇。

        表1 樓宇信息示意表

        表2 輸出數(shù)據(jù)示意表

        2.5 方案準(zhǔn)確率分析

        經(jīng)過現(xiàn)場(chǎng)抽樣摸查核實(shí),抽取區(qū)域內(nèi)5%的樓宇作為樣本。經(jīng)測(cè)算,樓宇信息準(zhǔn)確率為100%,商戶信息準(zhǔn)確率為80%左右。商戶信息出現(xiàn)錯(cuò)誤的原因多為地圖公司更新不及時(shí)、中小企業(yè)破產(chǎn)或商戶變更地址后沒有及時(shí)通知地圖公司。

        3 結(jié)束語

        利用互聯(lián)網(wǎng)化的技術(shù)手段來獲取高質(zhì)量的用戶信息以拓展用戶市場(chǎng),是運(yùn)營商互聯(lián)網(wǎng)化運(yùn)營的重要組成部分。本文所提到的方案在實(shí)際應(yīng)用中可能面臨以下的問題。

        a)缺乏專業(yè)技術(shù)人員。掌握網(wǎng)絡(luò)爬蟲技術(shù)需要一定的專業(yè)知識(shí),運(yùn)營商的傳統(tǒng)業(yè)務(wù)人員不能滿足技術(shù)要求,需要組建專門的團(tuán)隊(duì)進(jìn)行該工作。

        b)大數(shù)據(jù)處理問題。面對(duì)海量數(shù)據(jù),EXCEL臺(tái)賬等傳統(tǒng)工具已不適用。如何從不同維度對(duì)海量數(shù)據(jù)進(jìn)行分析并使其適用于運(yùn)營商的業(yè)務(wù)發(fā)展,是下一步工作的關(guān)鍵。

        c)數(shù)據(jù)共享與更新機(jī)制問題。網(wǎng)絡(luò)爬蟲獲取的數(shù)據(jù)與工程核實(shí)確認(rèn)的數(shù)據(jù)如何相互補(bǔ)充共享、如何更新是也是運(yùn)營商需要解決的問題。

        面對(duì)上述問題,筆者有以下幾點(diǎn)建議。

        a)推進(jìn)大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù)的應(yīng)用。在信息資源時(shí)代,電信運(yùn)營商應(yīng)充分利用大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù),摸清現(xiàn)狀,精準(zhǔn)建設(shè),精準(zhǔn)發(fā)力,開拓市場(chǎng),抓住戰(zhàn)略機(jī)遇,與互聯(lián)網(wǎng)企業(yè)合作利用其技術(shù)優(yōu)勢(shì),實(shí)現(xiàn)資源收益最大化。

        b)加快互聯(lián)網(wǎng)化運(yùn)營轉(zhuǎn)型。在寬帶專業(yè)運(yùn)用大數(shù)據(jù)和互聯(lián)網(wǎng)方法,為市場(chǎng)前端業(yè)務(wù)開展提供支撐。在后續(xù)的網(wǎng)絡(luò)建設(shè)中用數(shù)據(jù)說話,轉(zhuǎn)變思路,加快互聯(lián)網(wǎng)化轉(zhuǎn)型。

        c)提升工作效率,接軌大數(shù)據(jù)。運(yùn)營商應(yīng)該摒棄以往人工費(fèi)時(shí)費(fèi)力的方法,引入網(wǎng)絡(luò)爬蟲,通過互聯(lián)網(wǎng)的公開信息,按需獲取信息數(shù)據(jù),提升工作效率。

        猜你喜歡
        經(jīng)緯度爬蟲樓宇
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
        通信生產(chǎn)樓宇建設(shè)項(xiàng)目造價(jià)問題分析
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        商務(wù)樓宇治理中黨建融入的邏輯與路徑——基于廣州S樓宇的觀察與思考
        創(chuàng)造(2020年7期)2020-12-28 00:48:22
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        自制中學(xué)實(shí)驗(yàn)操作型經(jīng)緯測(cè)量儀
        智美兼具的精品——評(píng)測(cè)君和睿通Homates H10樓宇對(duì)講室內(nèi)門口機(jī)
        澳洲位移大,需調(diào)經(jīng)緯度
        一種利用太陽影子定位的數(shù)學(xué)模型
        日本女优中文字幕在线观看| 狠狠躁夜夜躁人人躁婷婷视频| 水蜜桃精品一二三| 青娱乐极品视觉盛宴国产视频| 午夜精品一区二区三区的区别| 色八a级在线观看| 亚洲熟伦熟女新五十路熟妇| 国产内射性高湖| 四虎成人精品无码永久在线| 久久久精品国产亚洲麻色欲 | 亚洲精品成人无码中文毛片| 午夜福利视频合集1000| 久久se精品一区二区国产| 国产av大片久久中文字幕| 我要看免费久久99片黄色| 国产av在线观看久久| 国产草草影院ccyycom| 乱人伦中文字幕成人网站在线| 人妻系列无码专区久久五月天| 国产人妖直男在线视频| 日韩有码在线一区二区三区合集| 7194中文乱码一二三四芒果| 国产播放隔着超薄丝袜进入| 色综合久久精品亚洲国产| 精品久久亚洲中文无码| 亚洲AV肉丝网站一区二区无码 | 天堂视频一区二区免费在线观看| 日韩美女av一区二区| 亚洲av综合国产av日韩| 久久精品无码一区二区日韩av| 精品无码人妻一区二区三区品| 色婷婷日日躁夜夜躁| 蜜桃一区二区三区自拍视频| 亚洲自拍偷拍一区二区三区| 伊人久久大香线蕉av色| 国产剧情av麻豆香蕉精品| 精品久久久亚洲中文字幕| 国产一区二区三区在线观看蜜桃| 亚洲一区二区三区特色视频| av免费不卡国产观看| 国产精品久久久久电影网|