亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于 ASP.NET 網(wǎng)絡(luò)爬蟲技術(shù)的公路貨運價格數(shù)據(jù)采集方法研究

        2018-12-27 02:42:28宋小滿王懷相
        鐵道貨運 2018年12期
        關(guān)鍵詞:隊列貨運路線

        宋小滿,黃 鑫,王懷相

        (1.中國鐵道科學(xué)研究院集團有限公司 運輸及經(jīng)濟研究所,北京 100081;2.中國鐵路總公司 貨運部,北京 100844)

        近年來,隨著鐵路貨運價格市場化步伐的加快,鐵路運輸企業(yè)非常重視對競爭對手——公路貨運價格數(shù)據(jù)的采集與分析,而通過人工去獲取數(shù)據(jù)需要花費大量的人力、財力、時間,容易出現(xiàn)數(shù)據(jù)采集成本高、應(yīng)用不及時等問題,難以應(yīng)對快速變化的市場環(huán)境。隨著互聯(lián)網(wǎng)的快速發(fā)展,以及企業(yè)網(wǎng)站的逐步建立和完善,網(wǎng)絡(luò)上大量與公路貨運價格有關(guān)的信息,可以運用科學(xué)的計算機技術(shù)去實現(xiàn)信息的采集,以有效地節(jié)省人力、物力,提高數(shù)據(jù)的采集效率,降低數(shù)據(jù)采集成本。同時,鐵路價格管理人員也可以將更多的精力用于分析數(shù)據(jù)、利用數(shù)據(jù)進行決策,從而提高企業(yè)管理人員的管理決策水平[1]。

        1 公路貨運價格信息來源

        目前,政府機構(gòu)、行業(yè)協(xié)會、公路貨運企業(yè)在網(wǎng)絡(luò)上公布了大量的公路貨運價格信息[2],主要的公路貨運價格信息如下。

        (1)政府機構(gòu)的網(wǎng)絡(luò)公開信息。國家發(fā)展和改革委員會和交通運輸部分別在其官網(wǎng)上公布了系列的公路貨運價格信息。其中,國家發(fā)展和改革委員會在“36個大中城市服務(wù)收費平均價格表”[3]中公布了“省際、定期定線、整車”和“省內(nèi)、定區(qū)不定線、零擔(dān)”的公路貨運價格;交通運輸部在“全國道路貨運價格與成本監(jiān)測信息”[4]中公布了公路普貨整車、集裝箱運價指數(shù)。

        (2)中國采購與物流聯(lián)合會的網(wǎng)絡(luò)公開信息。公開信息顯示,中國采購與物流聯(lián)合會從2013年1月開始每周發(fā)布全國主要節(jié)點城市間的9.6 m整車、13.5 m整車、17.5 m整車、零擔(dān)重貨、零擔(dān)輕貨的公路貨運價格數(shù)據(jù)[5]。主要節(jié)點城市名稱如表1所示。

        表1?主要節(jié)點城市名稱Tab.1 Name of main city

        (3)內(nèi)蒙古煤炭交易市場的公開信息。公開信息顯示,內(nèi)蒙古煤炭交易市場從2014年1月每周發(fā)布煤炭短途、中途、長途“點到點”的公路貨運價格[6]。短途運輸主要是監(jiān)測鄂爾多斯地區(qū)礦區(qū)到火車站之間的公路運輸價格;中途運輸主要是礦區(qū)至省內(nèi)電廠、鋁廠等煤炭消耗地的運輸價格;長途運輸主要是通過公路運往其他省市的運輸價格。

        (4)其他公路貨運價格信息。德邦物流在其官網(wǎng)上公布了快遞、零擔(dān)不同運輸產(chǎn)品的報價,在阿里巴巴物流服務(wù)平臺上可以查詢主要線路不同物流企業(yè)貨運(大件)、快遞(小件)、整車的公路貨運報價,也可以在其他物流企業(yè)如佳吉快運的企業(yè)網(wǎng)站上查詢不同起訖點不同產(chǎn)品的公路貨運報價。

        2 公路貨運價格網(wǎng)絡(luò)數(shù)據(jù)采集的實現(xiàn)

        2.1 網(wǎng)絡(luò)數(shù)據(jù)的采集技術(shù)

        網(wǎng)絡(luò)數(shù)據(jù)的采集技術(shù)主要有網(wǎng)絡(luò)爬蟲(Web Spider)和基于API二次開發(fā)包的方式[7]。網(wǎng)絡(luò)爬蟲技術(shù)是一個實現(xiàn)自動提取網(wǎng)頁信息的程序,一般的實現(xiàn)過程為:從一個初始的URL集出發(fā),將這些URL全部放入到一個有序的待采集隊列里。而采集器從這個隊列里按順序取出URL,通過Web上的協(xié)議,獲取URL所指向的頁面,然后從這些已獲取的頁面中提取出新的URL,并將其繼續(xù)放入到待采集隊列里,然后重復(fù)上面的過程,直到采集器根據(jù)自己的策略停止采集[8]?;贏PI二次開發(fā)包的方式,主要包括目前主流的網(wǎng)絡(luò)地圖服務(wù)商,如百度、谷歌、高德等。通過調(diào)用地圖服務(wù)商提供的二次開發(fā)API相關(guān)函數(shù),獲取其數(shù)據(jù),并進行保存[9]。

        2.2 網(wǎng)絡(luò)數(shù)據(jù)采集需求及實現(xiàn)流程

        (1)采集需求。在公開的公路貨運價格信息中,中國采購與物流聯(lián)合會公開的信息量大,公開的信息較多。為此,通過開發(fā)軟件對中國采購與物流聯(lián)合會公開公路運價信息,包括起點、訖點、運輸方式(9.6 m整車、13.5 m整車、17.5 m整車、零擔(dān)重貨、零擔(dān)輕貨)、發(fā)布日期、運輸價格進行采集,存儲到本地文件中,并對采集的數(shù)據(jù)進行格式轉(zhuǎn)換和圖表展示。

        (2)實現(xiàn)流程。需要實現(xiàn)的功能包括:數(shù)據(jù)采集、格式轉(zhuǎn)換和圖表展示。通過開發(fā)軟件實現(xiàn)上述功能,網(wǎng)絡(luò)數(shù)據(jù)采集的基本流程如圖1所示。首先,通過開發(fā)的程序?qū)撁嬷械闹付〝?shù)據(jù)進行采集;其次,將采集的數(shù)據(jù)存到數(shù)據(jù)中心;最后,利用相關(guān)控件對采集的數(shù)據(jù)進行格式轉(zhuǎn)換和圖表展示。

        為實現(xiàn)上述采集需求,采用ASP.NET Framework 4.0作為開發(fā)環(huán)境,使用visual C#作為程序語言進行軟件開發(fā)。同時,為了實現(xiàn)數(shù)據(jù)轉(zhuǎn)換、圖表展示的功能,還需要利用相關(guān)控件,包括運用第三方控件NPOI組件進行格式轉(zhuǎn)換,分別運用DataGridView控件、Chart控件進行表格展示和圖形展示。

        2.3 主要模塊和關(guān)鍵技術(shù)

        軟件采用模塊化的設(shè)計結(jié)構(gòu),根據(jù)各模塊完成的任務(wù)將其劃分為參數(shù)設(shè)置模塊、參數(shù)過濾模塊、數(shù)據(jù)采集模塊、數(shù)據(jù)分析模塊、數(shù)據(jù)存儲模塊、數(shù)據(jù)導(dǎo)出模塊和數(shù)據(jù)展示模塊,其中,前5個模塊主要實現(xiàn)數(shù)據(jù)采集、存儲的功能。網(wǎng)絡(luò)數(shù)據(jù)采集主要功能模塊及關(guān)鍵技術(shù)如圖2所示。

        圖1?網(wǎng)絡(luò)數(shù)據(jù)采集的基本流程Fig.1 Basic process of network data acquisition

        圖2?網(wǎng)絡(luò)數(shù)據(jù)采集主要功能模塊及關(guān)鍵技術(shù)Fig.2 Main function modules and key technologies of network data acquisition

        2.4 主要功能模塊的任務(wù)和實現(xiàn)

        (1)參數(shù)設(shè)置模塊。參數(shù)設(shè)置模塊主要是收集中國采購與物流聯(lián)合會發(fā)布的公路運價有關(guān)信息,包括城市名稱、運輸方式信息,運用程序算法生成運輸路線中的起點和訖點,將收集的運輸方式信息和生成的運輸路線信息存儲到指定的數(shù)據(jù)表中。

        (2)參數(shù)過濾模塊。參數(shù)過濾模塊是將待抓取的運輸路線參數(shù)存放在隊列中,根據(jù)條件讀取數(shù)據(jù)庫中未采集的運輸路線信息,并存放到運輸路線參數(shù)隊列,再根據(jù)需要讀取參數(shù)隊列中的運輸路線信息,數(shù)據(jù)采集對運輸路線信息使用完成后會及時彈出該條運輸路線信息出列并同時更新數(shù)據(jù)庫中的該條運輸路線信息;然后會從數(shù)據(jù)庫中獲取新的運輸路線參數(shù),繼續(xù)放入運輸路線隊列;運輸路線參數(shù)隊列中初始存放指定的運輸路線參數(shù)。參數(shù)過濾模塊在讀取運輸路線信息的同時也讀取了運輸方式并存放到其他隊列中。參數(shù)過濾模塊是軟件運行中一項關(guān)鍵的步驟,由于進行網(wǎng)頁抓取主要消耗時間的地方在于網(wǎng)絡(luò)交互中,因而需要采取一定的手段避免重復(fù)的網(wǎng)絡(luò)交互。

        (3)數(shù)據(jù)采集模塊。數(shù)據(jù)采集采用多線程定時器的方式實現(xiàn)頁面數(shù)據(jù)的自動采集工作。具體實現(xiàn)為:當(dāng)啟動數(shù)據(jù)采集模塊的同時啟動多線程定時器,軟件根據(jù)需求啟動WebBrowser控件進行指定的頁面瀏覽,多線程定時器根據(jù)用戶設(shè)置的參數(shù)向頁面提交參數(shù)過濾模塊隊列中的運輸路線和運輸方式,用于啟動系統(tǒng),當(dāng)系統(tǒng)正常運行后讀取存放在城市運輸路線參數(shù)隊列中的參數(shù)和運輸方式隊列中的參數(shù),直到所有的運輸路線隊列和運輸方式隊列為空時程序終止。軟件對同一條運輸路線的不同運輸方式分別采集。軟件開發(fā)過程中,為提高頁面采集效率,根據(jù)運輸路線參數(shù)的相關(guān)度、權(quán)重等特點采取排序算法,對待采集頁面中的運輸路線參數(shù)進行最優(yōu)處理。

        (4)數(shù)據(jù)分析模塊。數(shù)據(jù)分析模塊是對數(shù)據(jù)采集模塊采集到的大量數(shù)據(jù)進行分析,提取有用信息后,對數(shù)據(jù)加以分析的過程。該模塊采用ASP.NET框架中正則表達(dá)式分析類庫進行數(shù)據(jù)分析和挖掘,再利用C#正則表達(dá)式類庫中的Match類和MatchCollection類進行匹配。

        (5)數(shù)據(jù)存儲模塊。數(shù)據(jù)存儲模塊是將數(shù)據(jù)采集和分析完成的數(shù)據(jù)儲存到本地JSON文件格式的過程,在文件存儲的過程中使用了File類方法。

        (6)數(shù)據(jù)導(dǎo)出模塊。數(shù)據(jù)導(dǎo)出模塊將存儲在本地的數(shù)據(jù)通過相關(guān)算法把數(shù)據(jù)導(dǎo)出成Excel文件,存儲到本地Excel文件中。其中需要將本地的JSON格式文件讀取到服務(wù)器內(nèi)存中并進行數(shù)據(jù)處理,將JSON數(shù)據(jù)轉(zhuǎn)換成DataTable數(shù)據(jù)格式,然后使用NOPI類庫將數(shù)據(jù)導(dǎo)出。

        (7)數(shù)據(jù)展示模塊。數(shù)據(jù)展示模塊是通過表格、圖表的方式進行數(shù)據(jù)展示。表格展示使用了DataGridView 控件,通過程序算法將DataTable數(shù)據(jù)源進行數(shù)據(jù)處理,達(dá)到指定的表現(xiàn)形式。圖表展示方式使用Chart控件。

        通過開發(fā)軟件實現(xiàn)了對指定數(shù)據(jù)的采集、格式轉(zhuǎn)換、圖表展示的功能,最終形成的數(shù)據(jù)表格展示界面和數(shù)據(jù)圖形展示界面分別如圖3、圖4所示。

        3 結(jié)束語

        隨著互聯(lián)網(wǎng)的逐步發(fā)展以及公路貨運規(guī)模的不斷擴大,網(wǎng)絡(luò)中的公路貨運價格信息在逐步增加,運用傳統(tǒng)的數(shù)據(jù)采集方法難以滿足日常管理中快速響應(yīng)的需要,而網(wǎng)絡(luò)采集技術(shù)可以很好地克服傳統(tǒng)采集方法的缺點,快速獲取批量數(shù)據(jù),提高效率。通過運用ASP.NET技術(shù)可以實現(xiàn)對指定網(wǎng)頁的指定數(shù)據(jù)進行抓取,并根據(jù)網(wǎng)站新發(fā)布的數(shù)據(jù)進行更新。軟件擁有很好的實用性、較好的穩(wěn)定性和較優(yōu)的性能,可以為后續(xù)的分析研究提供基礎(chǔ)數(shù)據(jù)。在使用過程中,收集了160萬余條的公路貨運價格信息數(shù)據(jù),表明該技術(shù)能很好地滿足數(shù)據(jù)采集工作。運用的采集方法也可運用于其他網(wǎng)站數(shù)據(jù)的采集,為其他數(shù)據(jù)的批量獲取提供參考。

        圖3?數(shù)據(jù)表格展示界面Fig.3 Data form display interface

        圖4?數(shù)據(jù)圖形展示界面Fig.4 Data graphic display interface

        猜你喜歡
        隊列貨運路線
        最優(yōu)路線
        『原路返回』找路線
        隊列里的小秘密
        基于多隊列切換的SDN擁塞控制*
        軟件(2020年3期)2020-04-20 00:58:44
        在隊列里
        波音公司試飛電動垂直起降貨運無人機
        無人機(2018年1期)2018-07-05 09:51:00
        豐田加速駛?cè)胱詣玉{駛隊列
        畫路線
        AT200大型貨運無人機實現(xiàn)首飛
        無人機(2017年10期)2017-07-06 03:04:36
        找路線
        2022Av天堂在线无码| 人妻少妇满足中文字幕| а天堂中文地址在线| 国产免费精品一品二区三| 中文字幕有码手机视频| 亚洲国产精品成人av网| 日本a级片免费网站观看| 日本精品无码一区二区三区久久久| 看黄a大片日本真人视频直播| 九九精品国产亚洲av日韩| 久久久久久伊人高潮影院| 免费夜色污私人影院在线观看| 含羞草亚洲AV无码久久精品| 中文字幕一区,二区,三区| 天堂一区二区三区精品| 国内永久福利在线视频图片| 末发育娇小性色xxxx| 青青久在线视频免费观看| 精品国产一区二区三区亚洲人| 精品国产三级国产av| 精品久久一区二区三区av制服| 日韩 亚洲 制服 欧美 综合 | 日韩精品午夜视频在线| 在线观看在线观看一区二区三区| 国产乱人精品视频av麻豆网站 | 无码精品人妻一区二区三区av | 97se亚洲国产综合自在线观看| 成全高清在线播放电视剧| 综合久久给合久久狠狠狠97色| 亚洲精品123区在线观看| 亚洲美女av二区在线观看| 日本妇女高清一区二区三区| 无码a级毛片免费视频内谢5j| 亚洲精品无码久久久久久| аⅴ天堂一区视频在线观看 | 亚洲中文字幕乱码第一页| 51国产偷自视频区视频| 国内露脸少妇精品视频| 国产精品九九久久一区hh| 国产一区,二区,三区免费视频| 日本加勒比一区二区在线观看|