亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        爬蟲技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用

        2018-01-03 07:06:08肖良玉安陽市第三十六中學(xué)高三四班
        數(shù)碼世界 2017年12期
        關(guān)鍵詞:爬蟲網(wǎng)頁領(lǐng)域

        肖良玉 安陽市第三十六中學(xué)高三四班;

        爬蟲技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用

        肖良玉 安陽市第三十六中學(xué)高三四班;

        隨著科學(xué)技術(shù)的不斷發(fā)展,云計(jì)算和大數(shù)據(jù)技術(shù)也在不斷的進(jìn)行著更深層次的研究和探索,網(wǎng)頁信息的搜索技術(shù)是如今計(jì)算機(jī)領(lǐng)域的焦點(diǎn)問題,需要借用大數(shù)據(jù)技術(shù)來對(duì)信息進(jìn)行采集和過濾,這是目前計(jì)算機(jī)領(lǐng)域的一個(gè)熱點(diǎn)問題。本論文針對(duì)爬蟲技術(shù)的自身特點(diǎn)做了概述,并且分析了爬蟲技術(shù)在實(shí)際運(yùn)用中的優(yōu)點(diǎn)和劣勢(shì),針對(duì)目前互聯(lián)網(wǎng)行業(yè)的難點(diǎn)問題,都利用爬蟲技術(shù)試著解決,進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行分析和過濾,從而達(dá)到技術(shù)的支持。特別是針對(duì)互聯(lián)網(wǎng)金融信息數(shù)據(jù)的獲取和搜集上目前研究的難點(diǎn)問題,進(jìn)一步針對(duì)三種網(wǎng)絡(luò)爬蟲技術(shù)的搜索技術(shù)進(jìn)行比較分析,對(duì)深度優(yōu)化搜索和廣度優(yōu)先搜索進(jìn)行理論分析,繼而對(duì)一種改進(jìn)算法——最好優(yōu)先搜索方法進(jìn)行JAVA程序?qū)崿F(xiàn),運(yùn)用到的多線程技術(shù)可以提高程序的搜索效率。

        爬蟲技術(shù) 互聯(lián)網(wǎng) JAVA多線程 網(wǎng)頁挖掘

        隨著時(shí)代的進(jìn)步,科學(xué)技術(shù)在不斷的發(fā)展中,大數(shù)據(jù)也同時(shí)在進(jìn)行著相應(yīng)的發(fā)展進(jìn)程,這是計(jì)算機(jī)時(shí)代的發(fā)展趨勢(shì)和目標(biāo)。大數(shù)據(jù)一般運(yùn)用在公司和企業(yè)進(jìn)行數(shù)據(jù)處理,這是一項(xiàng)復(fù)雜而且繁重的工作,需要對(duì)數(shù)據(jù)進(jìn)行大量的分析和處理,并且收集相應(yīng)的數(shù)據(jù)建立數(shù)據(jù)庫,這些工作都需要人力和物力的支持。公司在運(yùn)行過程中,必然需要使用互聯(lián)網(wǎng)作為信息傳遞的支撐和技術(shù)的支持,所以企業(yè)需要建立自己的數(shù)據(jù)庫,通過大數(shù)據(jù)進(jìn)行用戶信息的處理,對(duì)用戶的行為進(jìn)行分析,從而應(yīng)對(duì)市場的沖擊和變化。收集用戶的信息是非常繁重的一項(xiàng)工作,同時(shí)對(duì)信息數(shù)據(jù)的處理,更是難上加難,所以需要大數(shù)據(jù)對(duì)這個(gè)龐大的數(shù)據(jù)群進(jìn)行處理和過濾,這就需要爬蟲技術(shù)來收集網(wǎng)絡(luò)的信息,是最主要的信息采集手段。

        互聯(lián)網(wǎng)時(shí)代下,經(jīng)濟(jì)的發(fā)展需要大量的市場數(shù)據(jù)對(duì)市場環(huán)境進(jìn)行調(diào)節(jié)和控制,這個(gè)過程需要非常龐大的數(shù)據(jù)群來進(jìn)行分析和參考,這是一個(gè)很重要的過程,在實(shí)際的信息采集中,比較困難。通過計(jì)算機(jī)的相關(guān)技術(shù),并且和經(jīng)濟(jì)金融領(lǐng)域的知識(shí)進(jìn)行有機(jī)的結(jié)合,對(duì)金融領(lǐng)域的數(shù)據(jù)進(jìn)行收集和過濾,將收集到的金融數(shù)據(jù)進(jìn)行統(tǒng)一的處理,通過數(shù)據(jù)分析整個(gè)市場的發(fā)展變化情況,對(duì)企業(yè)的發(fā)展進(jìn)程進(jìn)行調(diào)節(jié)和控制,迎合市場的需求和變化。金融經(jīng)濟(jì)的發(fā)展和企業(yè)的正常運(yùn)轉(zhuǎn),需要海量的數(shù)據(jù)群進(jìn)行分析支撐,這就需要大量的數(shù)據(jù)采集工作,并且需要建立大量存儲(chǔ)功能的云端服務(wù)器。如今隨著科學(xué)技術(shù)的發(fā)展,互聯(lián)網(wǎng)領(lǐng)域也在不斷的進(jìn)步,各種金融信息都可以在網(wǎng)上查詢得到,并且有著更快的更新速度和更大的存儲(chǔ)空間,所以互聯(lián)網(wǎng)已經(jīng)成為了當(dāng)前金融領(lǐng)域進(jìn)行數(shù)據(jù)收集的主力軍,例如Butler,Leone,Willenborg和 Frank等公司都已經(jīng)建立了自己的云計(jì)算服務(wù)中心,并且利用爬蟲技術(shù)抓取網(wǎng)絡(luò)上的金融信息,運(yùn)用大數(shù)據(jù)技術(shù)對(duì)數(shù)據(jù)庫進(jìn)行分析處理和過濾。

        1 互聯(lián)網(wǎng)金融數(shù)據(jù)抓取的特點(diǎn)

        1.1 互聯(lián)網(wǎng)上金融方面的數(shù)據(jù)一般具有的特點(diǎn)

        1.1.1 數(shù)據(jù)量大,種類繁多。對(duì)于一些基礎(chǔ)的采集工作,只需要運(yùn)用爬蟲技術(shù)進(jìn)行抓取,或者人工進(jìn)行復(fù)制粘貼,就可以完成對(duì)數(shù)據(jù)的采集,并不需要技術(shù)的支持,都是一些很簡單的計(jì)算機(jī)操作??梢赃@只僅僅局限于小規(guī)模的信息采集,對(duì)于龐大的信息處理群,比如金融經(jīng)濟(jì)市場領(lǐng)域的信息采集,將最近五年的數(shù)據(jù)進(jìn)行整合分析,這是一項(xiàng)非常繁重的技術(shù)工作。在實(shí)際進(jìn)行數(shù)據(jù)收集的過程中,會(huì)出現(xiàn)各種各樣的問題和阻力,因?yàn)楹芏鄶?shù)據(jù)的來源點(diǎn)不同,由不同的機(jī)構(gòu)控制和掌握,想要獲得準(zhǔn)確的信息需要相關(guān)的文件,所以這又給數(shù)據(jù)收集帶來了一定的壓力。

        1.1.2 可靠性、實(shí)時(shí)性。在實(shí)際的金融領(lǐng)域中,數(shù)據(jù)的實(shí)時(shí)性非常重要,只有保證數(shù)據(jù)的實(shí)時(shí)性,才可以對(duì)市場的變動(dòng)進(jìn)行掌握,同時(shí)也間接的提高了數(shù)據(jù)的安全性和可靠性。如今的金融領(lǐng)域中,信息變化莫測,市場的各種信息處于不同的環(huán)境中,為了對(duì)市場環(huán)境有一個(gè)清晰的認(rèn)識(shí),需要大量的數(shù)據(jù)進(jìn)行分析,所以信息的實(shí)時(shí)性非常重要,只有信息的實(shí)時(shí)性和完全性得到了保證,才可以讓市場的變動(dòng)一目了然。

        1.1.3 金融經(jīng)濟(jì)領(lǐng)域的數(shù)據(jù)類型較少,最為常見的是數(shù)值類型,其次是文本數(shù)據(jù),這兩種數(shù)據(jù)類型在金融經(jīng)濟(jì)領(lǐng)域運(yùn)用比較廣泛,利用圖片來傳遞信息的數(shù)據(jù)比較少,不如前兩者的使用率。

        1.1.4 數(shù)據(jù)主要來自官方網(wǎng)站。為了使數(shù)據(jù)的安全性和可靠性的得到保證,數(shù)據(jù)采集人員和機(jī)構(gòu)都會(huì)從相關(guān)權(quán)威網(wǎng)站進(jìn)行信息的抓取,只有這樣,才可以獲得第一手的數(shù)據(jù)信息,并且通過實(shí)時(shí)的信息數(shù)據(jù),對(duì)市場的變動(dòng)進(jìn)行掌握,隨時(shí)調(diào)整企業(yè)和公司的生產(chǎn)策略。

        1.1.5 抓取數(shù)據(jù)的目標(biāo)網(wǎng)頁主要有兩種類型。第一類是URL固定,信息可以實(shí)現(xiàn)實(shí)時(shí)的更新,并且可以正常的聯(lián)網(wǎng)進(jìn)行數(shù)據(jù)的收集和分析;第二類的規(guī)模比較大,并且具有獨(dú)特的數(shù)據(jù)情況,比如一些金融機(jī)構(gòu)進(jìn)行數(shù)據(jù)信息的發(fā)布時(shí),都會(huì)有固定的數(shù)據(jù)要求和格式,必須嚴(yán)格按照數(shù)據(jù)的要求來進(jìn)行公布和處理。

        我們根據(jù)金融經(jīng)濟(jì)領(lǐng)域的數(shù)據(jù)特點(diǎn),采用不同的信息采集方法進(jìn)行數(shù)據(jù)的收集,并采用正確的方法對(duì)數(shù)據(jù)進(jìn)行處理和過濾,從而達(dá)到市場對(duì)數(shù)據(jù)的運(yùn)用需求,完成對(duì)市場的調(diào)節(jié)和控制。對(duì)于有著固定地址的數(shù)據(jù),可以對(duì)網(wǎng)頁的數(shù)據(jù)進(jìn)行統(tǒng)一的抓取和過濾,集中對(duì)數(shù)據(jù)進(jìn)行處理,考慮各種經(jīng)濟(jì)環(huán)境條件變化的因素,正確的對(duì)信息進(jìn)行采集,明確自身對(duì)信息采集的需求,制定相應(yīng)的爬蟲抓取策略。

        1.2 獲取網(wǎng)頁信息

        從目前互聯(lián)網(wǎng)的發(fā)展情況分析,主要的程序開發(fā)技術(shù)有PHP、net和Java等一系列的計(jì)算機(jī)語言和技術(shù)。這些開發(fā)工具雖然采用不同的格式,有著各自的編程規(guī)定和邏輯要求,但是對(duì)于數(shù)據(jù)的傳輸和獲取的方式都采用同一種原理,這項(xiàng)原理就是超文本傳輸協(xié)議(HTTP協(xié)議),通過這項(xiàng)傳輸協(xié)議,把需要的信息傳送到用戶的主機(jī)中,用戶接收之后,可以對(duì)信息進(jìn)行下一步的處理和過濾。除此之外,微軟公司還對(duì)開發(fā)語言進(jìn)行了更進(jìn)一步的改進(jìn),提供了一些可以用于擴(kuò)展功能的標(biāo)記語言,這些語言都是依據(jù)HTTP協(xié)議作為基礎(chǔ)的,內(nèi)部做了很多的改進(jìn)和優(yōu)化,對(duì)算法程序的性能有著一定的提升效果。

        數(shù)據(jù)的采集和存儲(chǔ),是一項(xiàng)繁重的任務(wù),這同樣也是金融領(lǐng)域的數(shù)據(jù)處理的一項(xiàng)重要工作。整個(gè)互聯(lián)網(wǎng)中的數(shù)據(jù)量是非常龐大的,而且涉及到很多范圍和領(lǐng)域,并且處于不斷的更新和變化中,因此實(shí)時(shí)性和準(zhǔn)確性是信息重要的衡量依據(jù),這也為金融經(jīng)濟(jì)的發(fā)展做好了雄厚的數(shù)據(jù)分析基礎(chǔ),提供了相當(dāng)充足的數(shù)據(jù)庫來滿足金融領(lǐng)域的分析。計(jì)算機(jī)通過爬蟲技術(shù)來獲取網(wǎng)絡(luò)中用戶需要的信息,更加高效的在互聯(lián)網(wǎng)數(shù)據(jù)庫中尋找到自己需要的數(shù)據(jù)信息,從而靈活的制定相應(yīng)金融方案,靈活變通的設(shè)計(jì)爬蟲程序代碼,有針對(duì)性的對(duì)數(shù)據(jù)進(jìn)行收集,為金融經(jīng)濟(jì)的發(fā)展提供良好的技術(shù)支持。

        2 爬蟲技術(shù)的實(shí)現(xiàn)

        根據(jù)目前互聯(lián)網(wǎng)的整體情況來看,想要做好搜索引擎工作,.需要精通爬蟲技術(shù),利用爬蟲技術(shù)來編寫相應(yīng)的搜索程序,爬蟲技術(shù)編寫的程序,其質(zhì)量的好壞和性能的優(yōu)良直接會(huì)影響到搜索引擎實(shí)際應(yīng)用中的情況。通過大量的代碼運(yùn)行,實(shí)際操作得到的實(shí)驗(yàn)數(shù)據(jù)可以發(fā)現(xiàn),最好優(yōu)先算法是這么多算法中性能最優(yōu)秀的,并且可以較好的滿足搜索信息的需求,但是實(shí)驗(yàn)數(shù)據(jù)同時(shí)也表明這種算法的自身有著一定的不足,相應(yīng)的儲(chǔ)存速度過快,容易使得信息的搜索不能夠全面的完成,并且會(huì)容易出現(xiàn)數(shù)據(jù)的缺失等問題。針對(duì)這些問題的存在,本論文概述了如果對(duì)爬蟲技術(shù)進(jìn)行優(yōu)化和更新,做好網(wǎng)絡(luò)信息的搜索引擎。

        2.1 網(wǎng)絡(luò)爬蟲的算法分析

        爬蟲技術(shù)本身的自由度很高,可以隨時(shí)對(duì)網(wǎng)絡(luò)信息進(jìn)行收集和搜索,自動(dòng)識(shí)別網(wǎng)頁信息,對(duì)用戶需要的信息進(jìn)行收集和儲(chǔ)存,自動(dòng)下載相應(yīng)的程序和瀏覽數(shù)據(jù),抓取對(duì)應(yīng)網(wǎng)頁的數(shù)據(jù)信息,建立一個(gè)完整的數(shù)據(jù)庫。這樣一來,整個(gè)爬蟲技術(shù)程序工作的過程,可以完全的拖離人工控制和操作,程序自身就可以按照代碼預(yù)先設(shè)定的模式來進(jìn)行工作,實(shí)現(xiàn)了自動(dòng)化。算法是提取一個(gè)網(wǎng)頁的鏈接作為核心,逐步向外部的網(wǎng)頁進(jìn)行擴(kuò)散,對(duì)網(wǎng)頁的內(nèi)容不做要求,只需要一個(gè)足夠大的網(wǎng)絡(luò)數(shù)據(jù)庫,需要足夠多的網(wǎng)頁信息作為支持。

        2.2 算法改進(jìn)

        模擬最佳優(yōu)先算法的搜索,先設(shè)定A1,A2,B1,B2,B3,B4,B5為相關(guān)的URL,其中設(shè)置A2提供一個(gè)干擾因素,作為網(wǎng)絡(luò)中的無關(guān)網(wǎng)頁,爬蟲程序設(shè)定從網(wǎng)頁A1開始,對(duì)整個(gè)網(wǎng)絡(luò)環(huán)境進(jìn)行覆蓋和信息的抓取。改進(jìn)思想如下:網(wǎng)絡(luò)爬蟲程序通過抓取信息進(jìn)行比對(duì),計(jì)算機(jī)對(duì)數(shù)據(jù)進(jìn)行分析和過濾之后,如果發(fā)現(xiàn)A2這個(gè)網(wǎng)絡(luò)信息不符合用戶的要求,但是A1確實(shí)用戶需要的數(shù)據(jù)信息,爬蟲程序就會(huì)自動(dòng)排除A2網(wǎng)頁的信息,對(duì)A1網(wǎng)頁進(jìn)行下一步的搜尋和查找。通過這樣的方式,就可以極大的降低爬蟲程序抓取信息的錯(cuò)誤率,通過這樣的排除機(jī)制,一步一步將不符合用戶要求的網(wǎng)頁過濾掉,提高網(wǎng)頁抓取的正確率,并且提高了程序的運(yùn)行速度,可以覆蓋整個(gè)網(wǎng)絡(luò),抓取正確的用戶需要的信息。、

        改進(jìn)算法利用了JAVA中的多線程機(jī)制,核心算法如下:

        3 結(jié)束語

        本論文對(duì)爬蟲技術(shù)做了簡單的概述,使得讀者對(duì)這項(xiàng)技術(shù)有了一定的了解和認(rèn)識(shí),并且對(duì)目前互聯(lián)網(wǎng)領(lǐng)域?qū)ε老x技術(shù)的應(yīng)用做了一定的分析,將爬蟲搜索技術(shù)作為重點(diǎn)關(guān)注的目標(biāo)和側(cè)重點(diǎn),結(jié)合Java技術(shù)對(duì)主要的算法進(jìn)行優(yōu)化和改進(jìn),使得這項(xiàng)技術(shù)更加的切合市場的需求和計(jì)算機(jī)的發(fā)展進(jìn)程。跟隨著科技的發(fā)展,計(jì)算機(jī)領(lǐng)域各項(xiàng)技術(shù)在不斷革新,信息技術(shù)的未來會(huì)有著另一番天地和景象,逐漸會(huì)有更加優(yōu)秀的算法和程序用來獲取網(wǎng)絡(luò)上的信息,各種新型的網(wǎng)絡(luò)技術(shù)也會(huì)不斷的出現(xiàn)在計(jì)算機(jī)領(lǐng)域。計(jì)算機(jī)的硬件性能也在不斷提升,各項(xiàng)技術(shù)成果都可以得到更好的運(yùn)用和融合,這些都將是計(jì)算機(jī)領(lǐng)域未來的重點(diǎn)和支持,可以更好的提升計(jì)算機(jī)的性能,并且提升計(jì)算機(jī)的運(yùn)算能力和互聯(lián)網(wǎng)的數(shù)據(jù)分析能力。

        [1]鮑薇. 爬蟲技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用探索[J]. 電腦迷,2017,(10):109.

        [2]楊青松. 爬蟲技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用探索[J]. 電腦知識(shí)與技術(shù),2016,12(15):62-64.

        [3]王彥博,樊營,高潛. 大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)爬蟲技術(shù)在商業(yè)銀行中的應(yīng)用[J]. 銀行家,2016,(06):114-116.

        [4]王躍, 于世偉, 路博,等. 基于爬蟲技術(shù)的國內(nèi)移動(dòng)互聯(lián)網(wǎng)應(yīng)用監(jiān)測與分析系統(tǒng)研究[J]. 電視技術(shù), 2015,39(13):88-92.

        [5]卞偉瑋, 王永超, 崔立真,等. 基于網(wǎng)絡(luò)爬蟲技術(shù)的健康醫(yī)療大數(shù)據(jù)采集整理系統(tǒng)[J]. 山東大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),2017, 55(6):47-55.

        猜你喜歡
        爬蟲網(wǎng)頁領(lǐng)域
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        領(lǐng)域·對(duì)峙
        青年生活(2019年23期)2019-09-10 12:55:43
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
        電子測試(2015年18期)2016-01-14 01:22:58
        新常態(tài)下推動(dòng)多層次多領(lǐng)域依法治理初探
        10個(gè)必知的網(wǎng)頁設(shè)計(jì)術(shù)語
        亚洲色偷偷偷综合网另类小说| 国产在线看不卡一区二区| 国产精品青草视频免费播放| 九九久久精品国产| 大伊香蕉在线精品视频75| 91热久久免费精品99| 国产人妖在线免费观看| 久久精品国产9久久综合| 各类熟女熟妇激情自拍| 黄片大全视频在线播放| 少妇无码av无码专线区大牛影院| 亚洲av无码专区在线播放| 在线看片免费人成视频久网下载 | 人妻被黑人粗大的猛烈进出| 999久久久免费精品国产牛牛 | 欧美z0zo人禽交欧美人禽交| 国产在线观看网址不卡一区| 成人在线视频自拍偷拍| 国产免费人成视频在线| 国产一级一片内射视频播放 | 国产丝袜美腿嫩模视频诱惑| 亚洲精品在线国产精品| 麻豆国产在线精品国偷产拍| 怡红院a∨人人爰人人爽| 夫妇交换刺激做爰视频| 国产亚洲欧美另类久久久| 色小姐在线视频中文字幕| 森中文字幕一区二区三区免费| 国产老熟妇精品观看| 日本无码欧美一区精品久久 | 久久亚洲色www成人欧美| 欧美性videos高清精品| 午夜无码一区二区三区在线| 少妇极品熟妇人妻高清| 久久久天堂国产精品女人| 少妇性l交大片7724com| 亚洲成av人片一区二区| 91久久国产自产拍夜夜嗨| 国产激情视频在线观看首页| 日本添下边视频全过程| 亚洲国产成人久久三区|