亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)于對互聯(lián)網(wǎng)視頻網(wǎng)站使用爬蟲技術(shù)獲取數(shù)據(jù)的研究

        2017-03-29 18:31:28羅天
        中國科技縱橫 2017年3期

        羅天

        摘 要:隨著社會(huì)的發(fā)展,科學(xué)技術(shù)的不斷提升,促進(jìn)了計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的不斷進(jìn)步,逐漸的被應(yīng)用到了人們的生活與工作當(dāng)中。在互聯(lián)網(wǎng)視頻網(wǎng)站對數(shù)據(jù)進(jìn)行獲取時(shí),就應(yīng)用了爬蟲技術(shù)。為了使爬蟲技術(shù)更好的在互聯(lián)網(wǎng)視頻網(wǎng)站中進(jìn)行應(yīng)用,本文就對互聯(lián)網(wǎng)視頻網(wǎng)站使用爬蟲技術(shù)獲取數(shù)據(jù)進(jìn)行了研究,使人們更好的利用互聯(lián)網(wǎng)視頻網(wǎng)站觀看視頻。

        關(guān)鍵詞:互聯(lián)網(wǎng)視頻網(wǎng)站;爬蟲技術(shù);獲取數(shù)據(jù)

        中圖分類號:TN915.08 文獻(xiàn)標(biāo)識碼:A 文章編號:1671-2064(2017)03-0030-01

        在當(dāng)前階段中,隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的不斷完善,各個(gè)領(lǐng)域當(dāng)中的數(shù)據(jù)在不斷增加,從而使當(dāng)前社會(huì)進(jìn)入到大數(shù)據(jù)時(shí)代,這些數(shù)據(jù)可以為各個(gè)領(lǐng)域的發(fā)展提供良好的幫助。這種情況下,為了使互聯(lián)互聯(lián)網(wǎng)視頻網(wǎng)站更好的為人們提供視頻,就要更好的對這些數(shù)據(jù)進(jìn)行獲取。因此,加強(qiáng)對互聯(lián)網(wǎng)視頻網(wǎng)站使用爬蟲技術(shù)獲取數(shù)據(jù)的研究具有重要意義,促進(jìn)我國互聯(lián)網(wǎng)視頻網(wǎng)站更好的發(fā)展。

        1 互聯(lián)網(wǎng)視頻網(wǎng)站數(shù)據(jù)獲取的特點(diǎn)

        1.1 一般特點(diǎn)

        隨著社會(huì)的發(fā)展,科學(xué)技術(shù)的不斷進(jìn)步,計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)得到了飛速的提升,從而出現(xiàn)了大量的數(shù)據(jù),其中就包括了互聯(lián)網(wǎng)視頻網(wǎng)站數(shù)據(jù),在這些數(shù)據(jù)當(dāng)中,就會(huì)體現(xiàn)出很多的特點(diǎn),主要有以下幾個(gè)方面:(1)數(shù)據(jù)體量巨大。在人們的生活當(dāng)中,利用網(wǎng)絡(luò)觀看視頻是主要的娛樂方式之一,因此,在觀看的過程中,就會(huì)出現(xiàn)很多的網(wǎng)絡(luò)信息,如用戶的個(gè)人信息,用戶對節(jié)目觀看的信息,節(jié)目自身具有的信息等等,從而使其具有了數(shù)據(jù)體量巨大的特點(diǎn);(2)數(shù)據(jù)類型繁多。在對視頻網(wǎng)站進(jìn)行應(yīng)用時(shí)可以發(fā)現(xiàn),在其中包含了很多形式的內(nèi)容,如圖片、視頻、文字等,因此,就說明視頻網(wǎng)站產(chǎn)生的數(shù)據(jù)出現(xiàn)了類型繁多的特點(diǎn);(3)價(jià)值密度低。在視頻網(wǎng)站運(yùn)行的過程中,是連續(xù)不斷的產(chǎn)生數(shù)據(jù)的,而在這些數(shù)據(jù)當(dāng)中,包括了各個(gè)種類的信息,而在這些信息當(dāng)中,有些信息存在的價(jià)值往往不是很高,不會(huì)影響到視頻網(wǎng)站的發(fā)展;(4)處理速度快。這一特點(diǎn)就體現(xiàn)在人們對視頻觀賞時(shí),能夠立刻的產(chǎn)生數(shù)據(jù),據(jù)相關(guān)部門統(tǒng)計(jì),互聯(lián)網(wǎng)視頻網(wǎng)站每秒產(chǎn)生的數(shù)據(jù)是以PB為單位的[1]。

        1.2 獲取網(wǎng)頁信息

        在互聯(lián)網(wǎng)視頻網(wǎng)站數(shù)據(jù)當(dāng)中,除了具有上述的一般特點(diǎn)之外,還具有獲取網(wǎng)頁信息的特點(diǎn)。在對視頻網(wǎng)站開發(fā)的過程中,可以利用很多技術(shù)來完成,如英文超級文本預(yù)處理語言技術(shù)、面向?qū)ο蟪绦蛟O(shè)計(jì)語言技術(shù)等,雖然這些技術(shù)的方式具有一定差異,但是在對數(shù)據(jù)進(jìn)行傳輸時(shí),使用的原理相差不是很大,都是利用相應(yīng)的HTTP協(xié)議,將數(shù)據(jù)傳遞到用戶當(dāng)中。并且,由于互聯(lián)網(wǎng)視頻網(wǎng)站數(shù)據(jù)具有上述的一般特點(diǎn),因此,在其對數(shù)據(jù)進(jìn)行獲取時(shí),還可以獲取一些網(wǎng)頁當(dāng)中的信息,通過對網(wǎng)頁中的信息進(jìn)行應(yīng)用,從而為視頻網(wǎng)站更好的運(yùn)行提供了幫助[2]。

        2 互聯(lián)網(wǎng)視頻網(wǎng)站獲取數(shù)據(jù)時(shí)爬蟲技術(shù)的應(yīng)用

        2.1 網(wǎng)絡(luò)爬蟲的算法分析

        在應(yīng)用爬蟲技術(shù)對互聯(lián)網(wǎng)視頻網(wǎng)站數(shù)據(jù)進(jìn)行獲取時(shí),是利用相應(yīng)的算法來完成的,而在當(dāng)前的算法當(dāng)中,主要有以下三種:第一種是深度優(yōu)先搜索算法,該算法是爬蟲技術(shù)當(dāng)中最基礎(chǔ)的算法,同時(shí)也是出現(xiàn)最早的一種算法,其目標(biāo)是要到達(dá)結(jié)構(gòu)的最外結(jié)點(diǎn),即在搜索時(shí)不能將具有鏈接的HTML文件檢索出來。該算法運(yùn)行當(dāng)中,首先沿著一條鏈接進(jìn)行檢索,直到邊緣節(jié)點(diǎn)為止,將該條連接中的所有數(shù)據(jù)搜索出來,然后在對另一條鏈接進(jìn)行搜索,從而使視頻網(wǎng)站獲得了相應(yīng)的數(shù)據(jù)。使用該種算法獲取數(shù)據(jù)時(shí),能夠準(zhǔn)確的檢索出整個(gè)文件中的數(shù)據(jù),但是由于網(wǎng)絡(luò)的復(fù)雜性,在對數(shù)據(jù)搜索時(shí),常常會(huì)導(dǎo)致該算法中斷,不能對其他鏈接進(jìn)行檢索;第二種為寬度優(yōu)先算法,就是在視頻網(wǎng)站信息獲取的過程中,根據(jù)網(wǎng)站的結(jié)構(gòu)不同,沿著寬度的方面,一層一層的進(jìn)行搜索[3]。

        2.2 算法改進(jìn)

        由于上訴的基本算法都存在一定的缺陷,對互聯(lián)網(wǎng)視頻網(wǎng)站的數(shù)據(jù)獲取帶來了一定的影響,其中最好優(yōu)先搜索算法的缺陷較小,只是存在查全率不高的問題,因此,就要對該算法進(jìn)行改進(jìn)。在利用改進(jìn)算法進(jìn)行檢索時(shí),在對一個(gè)文件查找完成后,就算該文件與本次查找關(guān)系不大,但是也不會(huì)對其進(jìn)行忽略,而是將其儲(chǔ)存到相應(yīng)的位置,對其進(jìn)行深入的分析,分析出每個(gè)信息中是否會(huì)存在視頻網(wǎng)站有用的信息,如果不存在這一類信息,才可以繼續(xù)對其他文件進(jìn)行檢索,然后利用該種算法對整個(gè)網(wǎng)絡(luò)進(jìn)行檢索,從而改善了查全率不高的問題,使互聯(lián)網(wǎng)視頻網(wǎng)站數(shù)據(jù)獲取的效果更高[4]。

        3 結(jié)語

        綜上所述,在當(dāng)前的互聯(lián)網(wǎng)當(dāng)中,大數(shù)據(jù)為其發(fā)展提供了重要的幫助,但是,由于大數(shù)據(jù)具有的開放性、共享性等特點(diǎn),在使用的過程中還會(huì)存在一定的風(fēng)險(xiǎn),因此,在利用爬蟲技術(shù)對互聯(lián)網(wǎng)視頻網(wǎng)站的數(shù)據(jù)進(jìn)行獲取時(shí),要加強(qiáng)對數(shù)據(jù)風(fēng)險(xiǎn)的防范,能夠保證網(wǎng)站的安全性、可靠性。

        參考文獻(xiàn)

        [1]孔濤,曹丙章,邱荷花.基于MapReduce的視頻爬蟲系統(tǒng)研究[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,09(05):129-132.

        [2]鄧炳光,郭慧蘭,張治中.移動(dòng)互聯(lián)網(wǎng)用戶行為分析系統(tǒng)中聚焦爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J].重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,11(03):359-365.

        [3]饒軍,華申峰,吳曉璐.關(guān)于互聯(lián)網(wǎng)視聽節(jié)目監(jiān)測中網(wǎng)絡(luò)爬蟲的應(yīng)用研究[J].江西通信科技,2015,02(03):34-36.

        [4]劉名.視頻聚合網(wǎng)站內(nèi)嵌鏈接行為現(xiàn)有法律規(guī)制的不足與改進(jìn)以新制度經(jīng)濟(jì)學(xué)視角為路徑[J].電子知識產(chǎn)權(quán),2015,04(10):15-21.

        亚洲一区二区三区av链接| 三个男吃我奶头一边一个视频| 免费人成网站在线观看欧美| 极品美女扒开粉嫩小泬| 999久久久免费精品国产牛牛| 精品国产a毛片久久久av| 精品久久久久久综合日本| 精品国产人妻一区二区三区| 无码av免费永久免费永久专区| 日本一区二区高清视频在线| 免费久久99精品国产| 中文字幕v亚洲日本| 未满十八勿入av网免费| 性色av一区二区三区密臀av| 精品国产av一区二区三区四区| 蜜臀av性久久久久蜜臀aⅴ| 亚洲产在线精品亚洲第一站一 | 亚洲三区av在线播放| 欧美黑人巨大videos精品| 国产精品自在线拍国产| 亚洲精品乱码久久久久久麻豆不卡 | 中文一区二区三区无码视频| 免费看黄视频亚洲网站| 久久久久av无码免费网| 免费网站国产| 日韩av他人妻中文字幕| 日本妇人成熟免费2020| 久久亚洲精品成人av| 欧美破处在线观看| 一区二区中文字幕在线观看污污 | 久久久精品网站免费观看| 国产精品乱码人妻一区二区三区| 亚洲一区av无码少妇电影| 在线a人片免费观看高清| 亚洲国产精品国自拍av| 50岁退休熟女露脸高潮| 国产激情在观看| 日本免费精品一区二区三区视频| 男女猛烈拍拍拍无挡视频 | 国产精品久久婷婷婷婷| 看国产亚洲美女黄色一级片 |